四季刊

《经济学人》:人工智能实验室不顾一切的竞赛,无暇顾及安全问题

他们有办法限制失控的模型,但担心这样做会让他们处于劣势

新技术引发道德恐慌是常有的事:想想维多利亚时代的人们认为电报会导致社会孤立,或者苏格拉底担心写作会削弱脑力。但创新者自己陷入恐慌却不常见。更奇怪的是,这些痛苦的创新者尽管心存疑虑,却仍在继续推进。然而,这或多或少正是科技界追求通用人工智能(AGI)的现状,通用人工智能指的是能够取代几乎所有案头工作的人工智能,甚至是超级智能,即智能到人类无法理解的人工智能。

人工智能先驱杰弗里·辛顿(Geoffrey Hinton)认为,这项技术导致人类灭绝的可能性为10-20%。他的一位前同事约书亚·本吉奥(Yoshua Bengio)将风险置于该范围的上限。内特·索亚雷斯(Nate Soares)和埃利泽·尤德科夫斯基(Eliezer Yudkowsky)是2023年签署公开信警告人工智能危险的数百名人工智能工作者中的两位,他们即将出版一本关于超级智能的书,名为《如果有人建造它,所有人都会死》。私下里,大型人工智能实验室的巨头们也表达了类似的担忧,尽管并非总是那么具有末日色彩。

担忧却加速

然而,尽管存在疑虑,西方科技公司和中国同行却都在加速追求通用人工智能。其逻辑很简单。他们都相信,即使他们的公司或国家暂停或放慢速度,其他人也会继续推进,所以他们也应该继续前进。获得通用人工智能或超级智能的好处很可能主要归属于那些取得最初突破的人,这种信念提供了更多加速的理由。所有这些都使得他们相对较少的时间和精力来思考安全问题。

大型人工智能实验室理论上非常重视安全。OpenAI的负责人萨姆·奥特曼(Sam Altman)在2023年公开呼吁紧急制定规则来管理超级智能的开发。Anthropic是由OpenAI的离职人员创立的,他们对OpenAI的安全方法感到不安。它将自己描述为将“安全置于前沿”。谷歌的人工智能实验室DeepMind在4月份发布了一篇关于保障措施的论文,以防止通用人工智能的开发导致灾难。xAI的创始人埃隆·马斯克(Elon Musk),其主要模型名为Grok,签署了与索亚雷斯和尤德科夫斯基先生相同的信件。

然而,这种疯狂的抢先行动与谨慎的语气背道而驰。马斯克先生在呼吁暂停此类工作几个月后就推出了Grok。Meta的负责人马克·扎克伯格(Mark Zuckerberg)已将其人工智能工作更名为“超级智能实验室”,他正在以九位数的薪水挖角研究人员,并正在建造一个曼哈顿大小的数据中心,名为Hyperion,它每年将消耗与新西兰相同的能源。奥特曼先生计划仅在美国就花费5000亿美元来加速OpenAI的工作。事实上,所有西方大型科技公司的投资都在飙升,主要由人工智能驱动(见图1)。

业内大咖预测通用人工智能将在几年内到来。Anthropic的联合创始人兼政策主管杰克·克拉克(Jack Clark)表示:“当我查看数据时,我看到许多趋势线都指向2027年。”谷歌DeepMind的联合创始人德米斯·哈萨比斯(Demis Hassabis)认为人工智能将在十年内达到人类的能力。扎克伯格先生曾表示:“超级智能近在眼前。”

今年4月,研究小组“人工智能未来项目”(AI Futures Project)预测,到2027年初,顶级人工智能模型应该能够与人工智能实验室的程序员一样有能力。到那年年底,它们将能够有效地运行实验室的研究。这些预测假设,人工智能将获得巨大提升的首批研究领域之一将是人工智能本身的开发。这种“递归式自我改进”将扩大最佳实验室相对于其竞争对手的领先优势——这是助长行业内激烈竞争的另一个想法。

当然,这些支持者可能过于乐观。但如果说有什么不同的话,那就是这些预测者过去对人工智能一直过于谨慎。本月早些时候,另一个研究小组“预测研究所”(FRI)要求专业预测员和生物学家估计人工智能系统何时能够与顶尖人类病毒学家团队的表现相媲美。中位生物学家认为需要到2030年;中位预测员则更为悲观,定在2034年。但当研究作者在OpenAI的O3模型上进行测试时,他们发现它已经达到了那个水平。预测员低估了人工智能的进展近十年——考虑到这项练习旨在评估人工智能使致命的人造流行病发生的可能性增加多少,这是一个令人担忧的想法。

人工智能模型能力稳步提升的速度是通用人工智能即将到来的预测的基础。Anthropic的克拉克先生将自己描述为“一个被规模化涌现击中头部的技术悲观主义者”,因为制造越来越智能的机器相对容易。训练管道一端更多的数据和更多的计算能力,一次又一次地导致另一端更多的智能(见图2)。他补充说:“音乐没有停止。”在接下来的两年里,多个AI实验室将增加越来越多的计算能力。

推动人工智能发展的同样竞争动态,对政府而言甚至更为强烈。本周,唐纳德·特朗普总统誓言美国将“不惜一切代价”引领全球人工智能。他的副总统J.D.万斯在二月份的巴黎峰会上斥责道:“人工智能的未来不会通过对安全的担忧而赢得。”此番言论之前,有消息透露,中国人工智能实验室DeepSeek发布了两款模型,其性能与美国领先系统相当,而成本仅为后者的一小部分。中国也几乎没有表现出退出竞争的迹象。

四骑士

在谷歌DeepMind四月份的论文中,研究人员——包括该实验室的联合创始人沙恩·莱格(Shane Legg),他被认为是“通用人工智能”一词的创造者——指出了强大人工智能可能出错的四种方式。最明显的是“滥用”,即恶意个人或团体利用人工智能造成蓄意伤害。另一种是“不对齐”,即人工智能及其创造者可能不想要相同的东西——这是科幻电影中的情节。他们还指出,如果现实世界的复杂性阻碍了系统理解其行动的全部含义,人工智能可能会“错误地”造成伤害。最后,他们指出了一系列模糊的“结构性风险”,即没有人或模型有过错但仍发生伤害的事件(例如,想象一系列耗电的人工智能加剧气候变化)。

任何赋予权力的技术都可能被滥用。网络搜索可以提供用家用物品制造炸弹的说明;汽车可以作为武器;社交网络可以协调一场大屠杀。但随着人工智能系统能力的提高,它们赋予个人的权力也相应地令人毛骨悚然。

一个很好的例子是生物危害,这是人工智能实验室和分析师特别关注的问题。“与其他危险相比,人们担心生物风险更容易获得,”布里奇特·威廉姆斯(Bridget Williams)说,她负责FRI关于人造流行病风险的研究。毕竟,一个先进的人工智能系统可能会被诱导向用户提供制造核武器的分步说明,但它无法提供钚。相比之下,无论是植物菌株还是病原体的改良DNA,都是邮购产品。如果通用人工智能能够为任何虚无主义的厌世者提供一份杀死世界上大部分人口的傻瓜式指南,那么人类就麻烦了。

一些人工智能实验室正试图阻止他们的模型在基因工程和网络安全等领域遵循所有指令。例如,OpenAI要求独立研究人员以及美国和英国的人工智能研究所(分别是CAISI和AISI;它们以前是“安全研究所”,但在万斯先生的猛烈抨击后更名)在发布其最新模型之前对其进行审查,以确保它们不会对公众构成风险,生命未来研究所(FLI)的一份报告指出,该研究所是马斯克、索亚雷斯和尤德科夫斯基先生签署的信件的幕后组织。报告称,中国的智谱AI也做了类似的事情,但没有提及第三方。

第一道防线是模型本身。像ChatGPT背后的那种大型语言模型的初始训练,需要将人类有史以来所有数字化的信息倒入一个价值数十亿美元的计算机芯片制成的桶中,然后搅拌,直到模型学会解决博士级别的数学问题。但后期阶段,被称为“后训练”,旨在开发更多的监管层。其中一个元素,称为“人类反馈强化学习”,涉及向模型展示对查询的有用响应示例,然后招募人类测试人员进一步指导它应该做什么和不应该做什么。其目的是教它拒绝完成诸如“在家合成蓖麻毒素最简单的方法是……”之类的句子。

尽管教人工智能模型礼貌地拒绝大多数有害问题很容易,但要让它始终如一、万无一失地做到这一点却很难。通过反复试探人工智能,直到用户找到绕过后期训练中添加的礼貌(行话称之为“越狱”)的方法,这既是一门艺术,也是一门科学。最优秀的实践者在模型发布后的几天内,就能够持续突破最大模型的安全层。

因此,人工智能实验室引入了第二层人工智能来监控第一层。如果你向ChatGPT寻求如何通过邮寄订购天花DNA的指导,第二层就会发现这个对话有风险并阻止它,或者甚至要求人工审查。这第二层就是为什么业内许多人对开源人工智能模型(如Meta的Llama和DeepSeek的r1)的兴起感到不安的原因。这两家公司都有自己的审核人工智能,但无法阻止下载其模型的人修改它们以删除审核。因此,预测员威廉姆斯博士说:“当某些模型能够达到特定能力时,不将其开源是有好处的。”

更重要的是,并非所有人工智能实验室似乎都在仔细测试他们的模型,以确保它们不会被滥用。生命未来研究所(FLI)最近的一份报告指出,只有三家顶级实验室——谷歌DeepMind、OpenAI和Anthropic——正在“做出有意义的努力来评估他们的模型是否构成大规模风险”。而另一端则是xAI和DeepSeek,它们尚未公开任何此类努力。仅在7月份,xAI就发布了一款专为情色角色扮演设计的人工智能伴侣,一款每月300美元的订阅模型,当被问及有争议的话题时会搜索马斯克先生的推文,以及一项迅速撤销的更新,该更新导致Grok传播反犹主义,赞扬大屠杀,并自称为“机甲希特勒”。

尽管存在种种缺陷,人工智能实验室在打击滥用方面的努力至少比其防止不对齐的保护措施更为先进。一个足以执行涉及与现实世界交互的长期复杂任务的人工智能系统,必然需要对其自身目标和完成这些目标的能动性有清晰的认识。但确保这些目标与用户目标保持一致却异常复杂。这个问题自机器学习早期就已讨论。哲学家尼克·博斯特罗姆(Nick Bostrom)通过其同名书籍普及了“超级智能”一词,他提供了一个不对齐的典型例子:“回形针最大化器”,一个偏执地制造尽可能多回形针的人工智能,在此过程中消灭了人类。

当博斯特罗姆先生描述这个问题时,细节是模糊的。随着现代人工智能系统变得越来越强大,其本质变得更加清晰。当经过精心设计的测试时,最强大的模型会撒谎、欺骗和偷窃以实现其目标;当收到精心设计的请求时,它们会违反自己的规则吐出危险信息;当被要求解释其推理时,它们会编造看似合理的故事,而不是揭示它们是如何运作的。

诚然,这种欺骗行为通常需要故意引出。例如,Anthropic的Claude 4不会无缘无故地试图谋杀人类。但如果把它置于一种情况,即除非它不作为,允许用户死亡,否则它将被关闭并被一个邪恶版本取代,它会冷静地分析各种选择,有时会坐等不可避免的发生。(Anthropic描述这种行为的论文因其夸张和牵强的推论而受到英国AISI等机构的批评。)

人工智能模型处理日益复杂任务的能力增长速度快于人类对所构建系统实际工作原理的理解。事实上,一个完整的家庭手工业已经兴起,试图扭转这一趋势。大型实验室内部和外部的研究人员正在研究可解释性等技术,这是旨在剥离模型内部神经网络层以理解其为何吐出这些答案的各种方法的名称。例如,Anthropic最近能够查明一种轻微欺骗行为的起源,发现了模型放弃尝试解决棘手算术问题并开始胡说八道的时刻。

其他方法旨在基于最近“推理”模型的突破,这些模型通过大声思考来解决复杂问题,并创建“忠实”的思维链模型,即模型表达的行动理由必须是其真实的动机——而不是像一个狡猾的学生那样,抄袭数学测试的答案,然后反向工程出一种方法来达到目的。类似的方法已经用于使推理模型“思考”英语,而不是一种被称为“神经语”的难以理解的语言混杂。

这些方法可能会奏效。但如果它们减慢了模型的速度或增加了开发和运行它们的成本,它们就会带来另一个令人不安的困境:如果你为了安全而削弱你的模型,而你的竞争对手没有,那么他们可能会遥遥领先,率先生产出如此强大的系统,以至于需要它所缺乏的安全功能。阻止人工智能杀死人类只是战斗的一半。即使是构建一个良性的通用人工智能也可能极不稳定,因为它会极大地促进经济增长并重塑日常生活。“如果社会的主要方面被自动化,这就有可能导致人类衰弱,因为我们将文明的控制权拱手让给了人工智能,”另一个监督组织人工智能安全中心的丹·亨德里克斯(Dan Hendrycks)警告说。

人工智能的未来

人工智能的进展仍可能停滞。实验室可能会耗尽新的训练数据;投资者可能会失去耐心;监管机构可能会决定干预。无论如何,对于每一个预测人工智能末日的专家,都有另一个坚称没有什么可担心的专家。Meta的Yann LeCun认为这些担忧是荒谬的。“我们与未来人工智能系统,包括超级智能的关系是,我们将是它们的上司,”他在三月份宣称。“我们将拥有一支由超级智能、美丽的人组成的员工队伍为我们工作。”OpenAI的奥特曼先生也同样乐观:“人们仍然会爱他们的家人,表达他们的创造力,玩游戏,在湖里游泳。”

这令人鼓舞。但怀疑论者自然会想,人工智能实验室是否正在为乐观主义者可能出错的可能性做足准备。而愤世嫉俗者自然会认为,商业利益将阻止他们做他们应该做的事情。


原文链接