没有语言基础能学人工智能吗？

点击联系发帖人 时间：2022-05-03 04:48

人工智能入门

图：特伦斯·谢诺夫斯基

随着阿尔法狗、无人驾驶、智能翻译的横空出世，“人工智能”这个已经存在60多年的词语，仿佛一夜之间重新成为热词。同时被科技圈和企业界广泛提及的还有“机器学习”“深度学习”“神经网络”…… 但事实是，如此喧嚣热烈的气氛之下，大部分人对这一领域仍是一知半解。

如果要说谁有资格谈论目前正在进行的“人工智能革命”，特伦斯·谢诺夫斯基（Terry Sejnowski）必然是其中一个。

谢诺夫斯基是20世纪80年代挑战构建人工智能主流方法的一小撮研究人员之一。他们认为，受大脑生物学启发的、那些被称为“神经网络”“连接主义”和“并行分布处理”的AI实现方法，会最终解决困扰基于逻辑的AI研究的难题，从而提出了使用可以从数据中学习技能的数学模型。正是这一小群研究人员，证明了基于大脑式的计算的全新方法是可行的，从而为“深度学习”的发展奠定了基础。

借由《深度学习：智能时代的核心驱动力量》一书出版机会，美国科技媒体《The Verge》采访了特伦斯·谢诺夫斯基，与他讨论了“人工智能”“神经网络”“深度学习”“机器学习”究竟有何区别？为何“深度学习”突然变得无处不在，它能做什么？不能做什么？

}

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

近日，清华大学人工智能研究院常务副院长孙茂松教授亲手执笔，对自然语言处理的贡献、当前境界与未来挑战进行了深入的探讨。AI科技评论编辑组深有同感，认为此文十分值得一读，故分享之。

来源 | 中国人工智能学会

人类语言（即自然语言）的重要性无论怎么讲都不为过。社会生物学之父爱德华·威尔逊曾说过：“语言是继真核细胞之后最伟大的进化成就。”科普畅销书《信息简史》的作者詹姆斯·格雷克也深刻地指出：“语言本身就是人类有史以来最大的技术发明。”这些断言带有科学哲学的意味，反映了现代人类对语言本质理解的不断深化。

众所周知，语言是人类所独有的，是思维的载体，是人类交流思想、表达情感最自然、最深刻、最方便的工具。其中这几个“最”字非同小可。语言之于人类就如同空气之于生物，它时时刻刻、无声无息地融通于我们生活的世界中；它是如此的自然以至于我们常常意识不到它的存在，但一旦没有了它，人类将举步维艰。很不幸，人类语言能力正是现代计算机系统所不具备的，呈现出整体性缺失。一个显而易见的逻辑是， 没有语言能力的机器，不可能有真正的智能。

自然语言具有无穷语义组合性、高度歧义性和持续进化性等，机器要实现完全意义上的自然语言理解，“难于上青天”。自然语言理解（一个退而求其次的提法——自然语言处理），因其兼具无与伦比的科学意义与学术挑战度，吸引了一代代学者殚思竭虑、前赴后继。

1 NLP对世界人工智能发展的三个里程碑式贡献

“却顾所来径、苍苍横翠微。”笔者认为，自然语言处理研究（包括文本处理和语音处理两个相辅相成的方面）在世界人工智能发展史上有三个里程碑式的“开风气之先”贡献。不揣孤陋寡闻，一孔之见，不一定对，抛砖引玉而已。

现代意义的人工智能技术研究发端于自然语言处理。对机器智能的痴迷与摸索由来已久，1946年第一台通用计算机ENIAC面世，无疑是一个历史分水岭。早在1947年，时任美国洛克菲勒基金会自然科学部主任的 Warren Weaver，在写给控制论之父维纳的一封信中就讨论了利用数字计算机翻译人类语言的可能性，1949年他发布了著名的《翻译》备忘录，正式提出机器翻译任务并设计了科学合理的发展路径（其内容实际上涵盖了理性主义和经验主义两大研究范式）。1951 年以色列哲学家、语言学家及数学家Yehoshua Bar-Hillel在麻省理工学院便开始了机器翻译研究。1954年Georgetown大学与IBM合作的机器翻译实验系统进行了公开演示。机器翻译是典型的认知任务，显然属于人工智能领域。

自然语言处理在人工智能领域乃至整个计算机科学与技术领域较早提出并系统性践行了非结构化“大数据”理念，整体上实现了理性主义研究范式向经验主义研究范式的嬗变。下面举两个典型工作。

二是词性自动标注。1971年曾有学者精心设计过一个TAGGIT英语词性标注系统，使用了3300条人工编制的上下文敏感规则，在100万词次的布朗语料库上获得了77%的标注正确率。年间，英国兰开斯特大学的一个研究小组另辟蹊径，提出了不需要人工规则的数据驱动新方法，利用已带有词性标记的布朗语料库，构造了基于隐马尔科夫模型的CLAWS英语词性标注系统，并对100万词次的LOB语料库进行词性自动标注，正确率一举跃升到96%。

2 基于深度学习的NLP：目前形成的基本态势

自2010年以来，深度学习异军突起，日新月异，强力推动了人工智能的全面发展。10年发展的结果是：一方面，深度学习使人工智能技术从几乎完全“不可用”走向了“可用”，取得了历史性的非凡进步；另一方面，虽然它使得人工智能系统在几乎所有经典任务上的性能表现均得以明显提升，但受囿于深度学习方法所存在的深刻短板，在很多应用场景尚达不到“能用、管用、好用”。自然语言处理领域基本上也是这样，本文不赘述。

宏观上看，人工智能领域的发展无例外地得益于两大类型的方法利器： 针对图像的卷积神经网络（CNN），以及针对自然语言文本的循环神经网络（RNN）。最初两三年前者风头尤劲，近些年后者贡献更为卓著。若干影响深度学习全局的主要思想，如注意力机制、自注意力机制、Transformer架构，均出自后者。

基于深度学习的自然语言处理，在短短10年中即完成了模型框架上的三次华丽迭代，“从山阴道上行，山川自相映发，使人应接不暇”，先后达至三重境界（实际上这也是深度学习的三重境界）。

针对每个不同的自然语言处理任务，独立准备一套人工标注数据集，各自几乎从零开始（常辅以word2vec 词向量），训练一个该任务专属的神经网络模型。其特点我称之为“白手起家 + 各家自扫门前雪”。

首先基于大规模生语料库，自学习、无监督地训练一个大规模预训练语言模型（PLM），然后针对每个不同的自然语言处理任务（此时也称作下游任务），独立准备一套人工标注数据集，以PLM为共同支撑，训练一个该下游任务专属的轻量级全连接前馈神经网络。在这个过程中，PLM的参数会做适应性调整。其特点我称之为“预训练大模型+大小联调”。

首先基于极大规模生语料库，自学习、无监督地训练一个极大规模的PLM；然后针对每个不同的自然语言处理下游任务，以PLM为共同支撑，通过少次学习（few-shot learning）或提示学习（prompt learning）等手段来完成该任务。在这个过程中，PLM的参数不做调整（实际上由于模型规模太过庞大，下游任务也无力调整）。其特点我称之为“预训练巨模型 + 一巨托众小”。

这三重境界，一重比一重来得深刻；一重比一重有更多的“ 形而上” 感觉。在GLUE和SuperGLUE公开评测集上的性能表现，也是一重比一重要好（目前正处于第三重）。

近年来，在世界范围内人工智能界各路英豪围绕预训练语言模型展开了巅峰对决，模型规模急剧膨胀（如 2020年6月OpenAI推出的GPT-3模型参数规模达1750亿个，2021年10月微软和英伟达联合推出的MT-NLG 模型飙升到了5300亿个参数），你争我夺，你争我赶，好不热闹。2021年8月，斯坦福大学专门举办了两天的学术研讨会，将第三重境界中的“预训练巨模型”命名为“基础模型”（foundation model），并随即发表了一篇数百页的长文，全面阐述其观点。文中绘制了一张示意图（见图1），揭示了“基础模型”在智能信息处理的中枢作用（其作用疆域已扩展至全数据类型和多模态）。

图 1 “基础模型”在智能信息处理的中枢作用

但无论如何，“基础模型”作为智能信息处理公共基础“软”设施的重要地位似已可以基本成立。第一重境界好比各家在海拔几乎为零的沙滩上盖房子，只能自家打好自家的地基，一砖一瓦自己盖起来，很是辛苦，效率也就比较低；第二重境界则是搭建了一个海拔二三十米的共同台面，各家都在这个台面上盖房子，自己打地基的工作大体可以省掉，效率大为提升，但由于台面还不够高，基础不一定处处可靠，所以各家盖房子时还要照顾到台面情况，适当夯实、调整一下台面；第三重境界把公共平台建到了二三百米，地基很牢固，台面高了，即使简单搭个小凉亭，登高望远风景也会不错，各家盖房子需要操心的因素自然就更少了许多，效率得以进一步提升。这是我对“基础模型”定位的一种形象解释。

我们不妨以参数规模达千亿个的百度文心NLP大模型（/wenxin/ernie）为例，初步体验一下大模型。首先简单考察其“自由创作”功能。随意输入如下一段话，让机器续写：

沿着曲径一路走去，未见

机器续写的句子相当精彩：

到一个人，只有几株高大的银杏树和一些不知名的花朵在阳光下灿烂地开放，偶尔还能够见到两只小鸟。

还是那句输入，让机器再续写一段：

任何人烟，却有一个小山村静谧地伫立在那里。这就是位于大兴区榆垡镇的后石坞乡前石坞村，全村共300户左右、800多口人。如今，农村已经成为许多家庭主要的生活来源之一了。现在我们不仅吃穿住都好，还能看到很多漂亮精彩的节目！

这段话虽然通顺，但文字发展脉络已经有些奇了。

再考察其“自由问答”功能。提问：

考虑到这是生成式回答，机器能做到这一点相当不错。但同样的问题多问机器几次，机器就“蒙圈”了，胡乱回答：

青岛的崂山。这个不用想

五莲山，海拔1095米

可见大模型有比较广博的知识能力，但博而不精，严重缺乏自知之明。所以很容易在语义逻辑上被“攻击”或者“为难”。掉过头来再考察一下其“自由创作”功能。输入：

沿着人来人往的曲径一路走去，未见

一个行人，只有几盏灯笼照着地上的影子。

沿着人满为患的曲径一路走去，未见

任何一个人，这里是否有着另外的生命存在？沿途所见皆为枯死之树和倒伏的草木。而他们却不曾注意到身后那片绿意盎然的山谷！“好美啊 ~”她轻盈跳跃在空中，看向下方正在忙碌的众人道了声赞叹。听闻此言时莫云殇也停止了手上的活计转头望去，只见远处的林间开满了

由上述几个例子可以看出，大模型有明显的长处，但也存在明显的短处。它就是一个有一定海拔高度的台面，在上面可以比较便利地盖房子，但它并不意味着房子已经盖好。其实要在其上盖起一座真正“能用、管用、好用”的房子，还是需要下大气力的。

第三重境界带来的困惑与思考：NLP今后若干年的主要挑战

我认为 , 自然语言处理在今后若干年主要面临两大挑战。

第一个挑战：力大者为王？

这是顺着目前形成的基本态势，也就是“基础模型”自然向前延伸的。虽然这一路依然在高歌猛进，但“基础模型”本身显然不能解决深层次语义问题；换言之，它注定不能直接导致通用人工智能（虽然它肯定会是设想中的通用人工智能的一个基础部件）。那么，一个自然而然的问题就产生了：这种追求规模（数据、模型、算力）极致化的策略还能走多远？连带的另一个问题是，我们应该做些什么？

我想可以从“基础模型”的 开发性（exploitation）和探索性（exploration）两个角度予以回答。

开发性（exploitation）更多注重“基础模型”的工程性，有如下几点应予注意。

目前构造及使用“基础模型”的算法本身还是偏粗放型的。前文给出的百度文心 NLP 大模型表现的一些“毛病”，可望通过积极改进算法部分地予以解决。
对少次学习、提示学习、基于适配器的学习（adapter-based learning）等与“基础模型”配套的新手段的研发工作应予加强。
训练数据包罗万象一定就好吗？是否应对大数据中明显存在着的大量噪声进行筛选？
排行榜对模型研发无疑非常重要。但排行榜不是唯一的金标准，应用才是最终的金标准。
研发“基础模型”的企业不能“王婆卖瓜，自卖自夸”，要开放给学术界测试。不开放给学术界测试的“基础模型”，其性能是存疑的。学术界不宜盲信盲从。
“基础模型”亟需找到杀手级应用，才能令人信服地证明自己的能力。探索性（exploration）则更多注重“基础模型”的科学性。鉴于“基础模型”确实呈现出了一些令人惊奇（或者“奇怪”）的现象，目前尚未给出科学的解释。典型如：
为什么大规模预训练语言模型会出现deep double descent现象 ( 这一点似乎超越了机器学习中“数据复杂度与模型复杂度应基本匹配”的金科玉律 ) ？
为什么“基础模型”具有少次学习甚至零次学习的能力？这些能力是怎么获得的？其中是否出现了复杂巨系统的涌现现象？
为什么提示学习能奏效？这是否暗示“基础模型”内部可能自发地产生了若干功能分区，而一个个提示学习恰好提供了启用一个个功能分区的钥匙？
如果是这样，功能分区的分布可能是怎样的？由于“基础模型”的核心训练算法极其简单（语言模型或完形填空模型），这又隐含着什么深意？

我个人认为，对“基础模型”科学意义的探索也许大于其工程意义。如果其中确乎蕴涵着上述一二玄机，那么这将对人工智能模型的全新发展具有深刻的启迪性，“基础模型”也会出现“山重水复疑无路、柳暗花明又一村”的全新气象。此外对脑科学、认知神经科学研究也可能富有启发性。

第二个挑战：智深者为上？

这是人工智能的“初心”和永恒梦想，与第一个挑战的思路相去甚远，但其必要性毋庸置疑。这里举例说明。

前文提及的机器翻译先行者Yehoshua Bar-Hillel，1960年发表了一篇长文《语言自动翻译的现状》，对机器翻译的前景进行了展望。文中他举了一个对人来说易如反掌，但对机器翻译来说异常棘手的一个句子（注意其中的 The box was in the pen）：

其中pen有两个意思：“钢笔”和“围栏”。要正确地翻译成“围栏”, 机器需要明白介词in的意思，同时具备相关的世界知识。我们把这个简单的英文句子，送给用深层神经网络和大数据武装到牙齿的机器翻译系统。

谷歌翻译结果：盒子在笔里。

百度翻译结果：盒子在钢笔里。

60多年过去了，还是没搞定。

可喜的是，在“力大者为王”波澜壮阔、摧枯拉朽的大势下，一批学者仍在坚持并积极倡导小数据、富知识、因果推理等“智深者为上”的下一代人工智能发展理念。不过目前研究进展不大。这条道路上有两个难以逾越的“拦路虎”。

一是形式化常识库和世界知识库依然严重缺乏。Wikidata之类的知识图谱貌似规模庞大，但如果稍微审视一下就会发现，它所覆盖的知识范围仍然十分有限。事实上，Wikidata存在明显的构成性缺失，多是关于实体的静态属性知识，关于动作、行为、状态，以及事件逻辑关系的形式化描写则几乎没有。这就使得它的作用域严重受限，实际效能大打折扣。

二是系统性获取“动作、行为、状态，以及事件逻辑关系”之类形式化知识的能力依然严重缺失。对开放式文本（如 Wikipedia 文本）进行大规模句法语义分析是必由之路。但很可惜，目前这个句法语义能力还不太具备（虽然近年来借助深度学习方法，已经有了长足进步）。

这两个“拦路虎”必须想办法解决。否则，巧妇难为无米之炊，这条路不易走通。

上述两大挑战，其实也是整个人工智能领域所必须面对的。

自然语言处理一路走来至今日，形成了“力大者为王”和“智深者为上”两条道路。前者道路宽广，顺风而下，但貌似快走到尽头；后者道路狭窄，逆风而上，但应该会悠长隽永。前看两者可以并行不悖，互相借鉴，互为支持，如“基础模型”可望有效提升大规模句法语义自动分析的能力，从而为大规模知识自动获取提供前提条件。“基础模型”可能包藏了某些深邃的计算机理或奥秘，或导致大的“峰回路转”，值得密切关注。未来 10 年，自然语言处理在研究和应用上整体上创造一个恢弘格局，并对人工智能领域的发展做出关键性贡献，是可以期待的。

}

无处不在的自然语言处理

我们每天都在使用或受益于“自然语言处理”的技术，举个例子，微软小冰是中国微博上的一款将对话带入我们日常生活的聊天机器人。百万年轻中国用户通过小冰交换信息，与他人分手、丢了工作或感觉沮丧时，人们经常会和小冰聊天。到目前，小冰已经累积了上亿用户，平均聊天的回数23轮，平时聊天时长大概是25分钟左右。自然语言处理技术更广泛使用，可见下面的案例：

去年秋天，谷歌翻译推出了一个全新升级的人工智能翻译引擎。这样一来，曾以产出语言生硬但又可用的翻译而闻名的谷歌翻译，已开始产出语言流畅、精确度高的翻译文本。对未经专业翻译训练的人来说，这种文本输出几乎与人工翻译并未有区别。我们将上面这段文字输入到谷歌翻译中（中译英），输出的英文句子，让人惊叹！

在自动垃圾邮件检测等一些应用中，分类只有两个：垃圾邮件和非垃圾邮件。在其它情况下，分类器可以有多个分类，比如按主题组织新闻报道或按领域组织学术论文。而要是一篇博客文章谈论的是体育和娱乐又会怎样？一个分类器如何在多个选项之间选择正确的分类？那依赖于具体应用：它可以简单地选择最有可能的选项，但有时候为一个文本分配多个分类是有意义的。

从2011年Siri诞生，到Google Now，再到Cortana和Alexa，作为语音助手，其实它们本质上都是问答系统。这几个都是面向公开领域的问答系统，在我们的日常生活中帮忙定闹钟、打电话、导航、搜索问题，偶尔还能讲讲笑话，也正让我们的生活越来越方便。

图三苹果Siri示意图

尤其是2010年后，深度学习应用于自然语言处理领域，一系列的产品功能逐渐走进我们的生活。各大企业也在纷纷布局相关产业，重金招揽相关领域人才。我国在语言文字信息处理方面就诞生了三家上市公司，从上市的顺序来说，最早是汉王，做模式识别，后来科大讯飞做语音识别，然后是拓而思的信息检索和文本挖掘。

图四知名招聘网站岗位图

作为人工智能的一大热门研究领域，如何从基础开始入门，并学习到最新的技术呢？自然语言处理领域知名青年学者、国际顶级会议作者周教授，推出《自然语言处理基础与算法实践》、《基于深度学习的自然语言处理》两门在线直播课程（基础课+提高课），课程优秀学员可直接推荐至百度、搜狗、今日头条等知名企业实习就业。

周老师，教授、硕士生导师，中科院自动化所博士，主要从事自然语言处理以及深度学习等方面的研究工作。在相关领域国际期刊以及国际顶级学术会议ACL等发表论文20余篇，先后两次获得国际会议最佳论文奖。目前承担国家自然科学基金、973子课题等10余项。

前100名可领取 150元优惠券 ，1月6日正式开课，每周六、周日晚 19点到 21 点在线直播授课，一年内可以无限次在线回放。

注：基础课程1月6号开课，适合小白用户入门，实践环节采用开源工具，无需编程；提高课程3月中旬开课，主要实践领域内最新最前沿的技术，需要深度学习基础，采用Python 2.8与深度学习TensorFlow框架。

请添加工作人员「深蓝学院」助教报名

}

久游无息网