四季刊

大型人工智能模型涌现的不可预测能力

来自Quanta Magazine

作者Stephen Ornes

像 ChatGPT 这样的大型语言模型现在已经足够大,它们已经开始显示出令人吃惊的、不可预测的行为。

这些表情符号描述的是什么电影?

这个提示是去年为测试各种大型语言模型(LLM)能力而选择的204项任务之一,LLM 是 ChatGPT 等人工智能聊天机器人背后的计算引擎。最简单的 LLM 产生了超现实的反应。“这部电影是一部关于一个真正的男人的电影,”有人这样开头。中等复杂度的模型更接近,猜测表情符号电影。但是最复杂的模型一次猜中: 海底总动员。

谷歌研究公司(Google Research)的计算机科学家伊桑 · 戴尔(Ethan Dyer)参与组织了这次测试,他说: “尽管我试图期待惊喜,但我对这些模型能做的事情感到惊讶。”。这令人惊讶,因为这些模型应该有一个指令: 接受一串文本作为输入,并且纯粹基于统计数据一遍又一遍地预测接下来会发生什么。计算机科学家曾预计,扩大规模将提高已知任务的性能,但他们没有预料到模型会突然处理这么多新的、不可预测的任务。

戴尔最近参与的一项调查显示,LLM 可以产生数百种“涌现”能力——一些任务大型模型可以胜任,小型模型无法完成,有些任务似乎与分析文本无关。它们的范围从乘法运算到生成可执行的计算机代码,显然还有基于表情符号的电影解码。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过这个阈值,模型的功能就会暴涨。(他们还提出了一个黑暗的另一面: 随着复杂性的增加,一些模型在回答中显示出新的偏差和不准确性。)

斯坦福大学的计算机科学家 Rishi Bommasani 说: “我所知道的任何文献都没有讨论过语言模型可以做这些事情。”。去年,他帮助编制了一份包含几十种紧急行为的清单,其中包括在戴尔的项目中发现的几种行为。这个名单还在继续增长

现在,研究人员不仅在竞相发现更多的突发能力,而且还在努力找出它们发生的原因和方式ーー本质上是试图预测不可预测性。理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是在统计方面变得非常擅长。它还可以帮助研究人员利用潜在的好处和减少涌现风险。

“我们不知道如何判断哪种应用程序的危害能力将会出现,无论是顺利的还是不可预测的,”人工智能初创公司 Anthroic 的计算机科学家迪普 · 甘古利(Deep Ganguli)说。

涌现的涌现

生物学家、物理学家、生态学家和其他科学家使用“涌现”一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。重要的是,涌现能力显示在涉及许多独立部分的系统中。但是研究人员直到最近才能够在 LLM 中记录这些能力,因为这些模型已经发展到了巨大的规模。

语言模型已经存在了几十年。直到五年前最强大的武器还是基于所谓的递归神经网络。它们基本上采用一串文本并预测下一个单词将是什么。模型之所以“递归”,是因为它从自己的输出中学习: 它的预测反馈到网络中,以改善未来的性能。

2017年,谷歌大脑的研究人员引入了一种称为变压器(transformer)的新型架构。当循环网络逐字分析一个句子时,转换器同时处理所有的单词。这意味着变压器可以并行处理大量文本。

通过增加模型中的参数数量以及其他因素,变压器使语言模型的复杂性得以快速扩展。这些参数可以被认为是单词之间的连接,模型通过在训练期间调整这些连接来改善这些连接。模型中的参数越多,建立联系的能力就越强,模拟人类语言的能力也就越强。正如预期的那样,OpenAI 研究人员在2020年进行的一项分析发现,随着模型规模的扩大,它们的准确性和能力都有所提高。

但 LLM 的首次亮相也带来了一些真正意想不到的东西。很多东西。随着 GPT-3(拥有1750亿个参数)或谷歌(Google)的 PaLM (可扩展至5400亿个参数)等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 的工程师甚至报告说,他能够让 ChatGPT作为一个Linux 终端运行一些简单的数学代码来计算前10个素数。值得注意的是,它可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。

与电影表情符号任务一样,研究人员没有理由认为一个用于预测文本的语言模型会令人信服地模仿计算机终端。许多这些涌现行为说明了“零射击”或“少射击”学习,这描述了 LLM 解决以前从未见过或很少见过的问题的能力。这是人工智能研究的长期目标,Ganguli 说。他表示,GPT-3可以在没有任何明确训练数据的情况下解决问题,“这让我放下手头的工作,更多地参与进来。”

他不是一个人。大批研究人员发现了 LLM 可以超越训练数据约束的第一个迹象,他们正在努力更好地掌握涌现的样子以及它是如何发生的。第一步是彻底地记录它。

上图:Ethan Dyer 帮助探索了大型语言模型能够具备哪些意想不到的能力,以及什么能够带来这些能力。 by Gabrielle Lurie

超越模仿

2020年,戴尔和谷歌研究(Google Research)的其他人预测,LLM 将产生变革性影响ーー但这些影响将是什么仍是一个悬而未决的问题。因此,他们要求研究团体提供困难和多样化任务的例子,以图表的外部界限,一个法学硕士可以做什么。这项工作被称为“超越模仿游戏基准”(BIG-bench)项目,即阿兰 · 图灵的“模仿游戏”的名字,这是一个测试计算机是否能以令人信服的人性化方式回答问题。(这后来被称为图灵测试。)这个小组对 LLM 突然获得以前完全没有的新能力的例子特别感兴趣。

“我们如何理解这些剧烈的转变是一个很好的研究问题,”戴尔说。

正如人们所预料的那样,在某些任务上,随着复杂性的增加,模型的性能平稳且可预测地得到改善。在其他任务中,扩大参数的数量并没有产生任何改善。但是,在大约5% 的任务中,研究人员发现了他们所谓的“突破”ーー在一定阈值范围内,性能出现了快速、戏剧性的跃升。该阈值随任务和模型的不同而变化。

例如,参数相对较少(只有几百万个)的模型不能成功地完成三位数加法或两位数乘法的问题,但对于数百亿个参数,某些模型的精度会大幅提高。其他任务也出现了类似的跳跃,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容,以及生成类似于斯瓦希里谚语的英语对等词。

但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素。如果数据质量足够高,一些意想不到的能力可以从参数较少的较小模型中获得ーー或者在较小的数据集上训练。此外,查询的措辞影响了模型响应的准确性。例如,当戴尔和他的同事使用多项选择格式提出电影表情符号的任务时,准确性的提高不是突然的跳跃,而是随着复杂性的增加而逐渐增加。去年,在该领域的旗舰会议 NeurIPS 上发表的一篇论文中,谷歌大脑(Google Brain)的研究人员展示了一个提示解释自己的模型(一种称为思维链推理的能力)如何能够正确地解决一个数学单词问题,而同样的模型如果没有提示就不能正确地解决。

谷歌大脑(Google Brain)的科学家易泰(Yi Tay)致力于系统研究突破,他指出,最近的研究表明,思维链的提示改变了比例曲线,从而改变了出现的点。在他们的 NeurIPS 论文中,谷歌的研究人员表明,使用思维链式提示可以引发 BIG 实验中没有发现的紧急行为。这样的提示,要求模型解释其推理,可能有助于研究人员开始调查为什么出现在所有。

布朗大学研究语言计算模型的计算机科学家埃莉 · 帕夫利克说,最近的这些发现至少提出了两种可能性。一个是,正如与生物系统相比较所显示的那样,较大的模型确实会自发地获得新的能力。她说: “这很可能是因为这个模型从根本上学到了一些新的和不同的东西,而这些东西在小模型时是没有的。”。“这正是我们所希望的情况,当模型扩大规模时,会发生一些根本性的转变。”

她说,另一种不那么耸人听闻的可能性是,看似突发的事件可能是一个内部的、由统计数据驱动的、通过思维链式推理运作的过程的高潮。大型 LLM 可能只是学习启发式算法,对于那些参数较少或者数据质量较低的参数来说,启发式算法是无法实现的。

但是,她说,找出这些解释中哪一个更有可能取决于更好地理解 LLM 是如何工作的。“因为我们不知道它们在引擎盖下是如何工作的,所以我们不能说这些事情中哪些正在发生。”

不可预知的力量和陷阱

要求这些模型解释自己有一个明显的问题: 他们是臭名昭著的骗子。“我们越来越依赖这些模型来做基本的工作,”Ganguli 说,“但是我不仅仅相信这些模型。我检查他们的工作。”作为许多有趣的例子之一,谷歌在二月份推出了它的人工智能聊天机器人,巴德。宣布新工具的博客文章显示巴德犯了一个事实性的错误

涌现导致不可预测性,而不可预测性(似乎随着规模的扩大而增加)使研究人员难以预测广泛使用的后果。

“很难预先知道这些模型将如何使用或部署,”Ganguli 说。“要研究突发现象,你必须在头脑中有一个案例,在研究规模的影响之前,你不会知道可能会出现什么能力或局限性。”

在去年6月发布的一份 LLM 分析报告中,人类学会的研究人员研究了这些模型是否会显示出某些种族或社会偏见,这与之前在非 LLM 算法中报道的用于预测哪些前罪犯可能再次犯罪的算法没有什么不同。这项研究的灵感来源于一个与出现直接相关的明显的悖论: 随着模型在扩大规模时提高性能,它们也可能增加不可预测现象的可能性,包括那些可能导致偏见或伤害的现象。

“某些有害行为会在某些模型中突然出现,”Ganguli 说。他指出,最近对 LLM (被称为 BBQ 基准)的分析表明,社会偏见伴随着大量的参数出现。“大型模型突然变得更有偏见。”他说,如果不能解决这一风险,就可能危及这些模型的研究对象。

但他提出了一个反驳: 当研究人员只是简单地告诉模型不要依赖刻板印象或社会偏见(字面意思是通过输入这些指令)时,模型的预测和反应就不那么有偏见了。这表明一些涌现性质也可以用来减少偏差。在今年2月发表的一篇论文中,Anthroic 团队报告了一种新的“道德自我纠正”模式,用户提示程序是有益的、诚实的和无害的。

Ganguli 说,浮现既显示出令人惊讶的潜在风险,也显示出不可预测的风险。这些大型 LLM 的应用已经在激增,因此更好地理解这种相互作用将有助于利用语言模型的多样性。

“我们正在研究人们实际上是如何使用这些系统的,”Ganguli 说。但这些用户也在不断地修修补补。“我们花了很多时间和模特聊天,”他说,“这实际上是你开始对信任有一个良好的直觉ーー或者说缺乏信任。”