人工智能与人类价值观一致意味着什么？

Published on March 21, 2023

确保我们的机器理解我们指令背后的意图是一个需要理解智能本身的重要问题。

很多年前，我在一台旧的 Symbolics Lisp 机器上学习编程。操作系统有一个内置命令拼写为“ DWIM”，是“ Do What I Mean”的缩写如果我输入一个命令并得到一个错误，我可以输入“ DWIM”，机器会尝试找出我想要做什么。很少一部分时间，它确实起作用了。

DWIM 命令是更现代的“人工智能对齐”问题的一个缩影: 我们人类倾向于给机器模糊或错误的指令，我们希望它们做我们想做的，而不一定是我们说的。

计算机经常误解我们希望它们做的事情，结果往往是意想不到的、有趣的。例如，一位机器学习研究人员在调查一个图像分类程序令人怀疑的好结果时发现，它的分类基础不是图像本身，而是访问图像文件所需的时间ーー不同类别的图像存储在访问时间略有不同的数据库中。另一位有进取心的程序员希望他的 Roomba 吸尘器不要撞到家具上，所以他将 Roomba 与一个神经网络连接起来，这个神经网络奖励速度，但当前保险杠撞到什么东西时，就会惩罚 Roomba。机器总是向后开，以适应这些目标。

但是人工智能联盟的研究人员看到了这些轶事的阴暗面。事实上，他们认为机器无法识别我们真正想让它们做什么是一种世界末日。他们认为，要解决这个问题，我们必须找到方法，使人工智能系统符合人类的偏好、目标和价值观。

这一观点在哲学家尼克•博斯特伦(Nick Bostrom)2014年出版的畅销书《超级智能》(Superintelligence)中得到了突出体现。该书在一定程度上认为，计算机智能的不断提高可能对人类的未来构成直接威胁。博斯特罗姆从未精确定义过智能，但是，像人工智能联盟中的大多数其他人一样，他采用了人工智能研究员斯图尔特•拉塞尔(Stuart Russell)后来阐述的定义: “如果一个实体选择了预期会实现其目标的行动，那么粗略地说，它就被认为是智能的。”

博斯特罗姆对人工智能风险的看法基于两个论点。第一个是正交性理论，用博斯特罗姆的话说，“智力和最终目标是正交的轴，可能的代理人可以沿着这个轴自由变化。换句话说，原则上，任何智力水平或多或少都可以与任何最终目标相结合。”第二个是工具收敛理论，它意味着智能主体将以促进自身生存、自我完善和获取资源的方式行动，只要这些方式使得智能主体更有可能实现其最终目标。然后他做出了最后一个假设: 研究人员很快就会创造出一种人工智能超级智能ーー这种智能“在几乎所有感兴趣的领域都大大超过了人类的认知能力”

对博斯特罗姆和其他人工智能联盟成员来说，除非我们成功地将超级智能人工智能与我们的愿望和价值观联系起来，否则这种前景将给人类带来厄运。博斯特罗姆用一个著名的思想实验来说明这种危险: 想象一下，给一个超级智能人工智能最大化回形针生产的目标。根据博斯特罗姆的论文，在寻求实现这一目标的过程中，人工智能系统将利用其超人的智慧和创造力来增强自身的力量和控制，最终获得全世界的所有资源来制造更多的回形针。人类将会灭绝，但是回形针的生产将会实现最大化。

如果你相信智能是由实现目标的能力来定义的，任何目标都可以被人类“插入”到超级智能人工智能代理人中，而这样的代理人会使用它的超级智能来做任何事情来实现这个目标，那么你就会得出和罗素一样的结论: “要确保灾难的发生，所需要的就是一个高度胜任的机器与人类结合在一起，人类有一种不完美的能力来完全正确地指定人类的偏好

这是科幻小说中常见的比喻ーー人类受到失控的机器的威胁，这些机器误解了人类的欲望。现在，人工智能研究界的一个重要组成部分深切关注这种在现实生活中发生的情况。数十个研究机构已经在这个问题上投入了数亿美元，世界各地的大学以及谷歌(Google)、 Meta 和 OpenAI 等大型人工智能公司正在进行校准方面的研究工作。

那么，非超级智能人工智能带来的更直接的风险，如失业、偏见、侵犯隐私和错误信息的传播，又该如何应对呢？事实证明，主要关注这种短期风险的社区与那些更担心长期结盟风险的社区之间几乎没有重叠。事实上，这是一场人工智能文化战争，一方更担心当前的风险，而不是他们所认为的不切实际的技术未来主义，另一方则认为当前的问题不如超级智能人工智能带来的潜在灾难性风险那么紧迫。

对于这些特定群体之外的许多人来说，人工智能联盟看起来有点像一种宗教ーー一个拥有受人尊敬的领导人、不容置疑的教义和忠实信徒的宗教，他们在与潜在的全能敌人(未结盟的超级智能人工智能)作战。事实上，计算机科学家和博客作者 Scott Aaronson 最近指出，现在有“正统”和“改革”的人工智能校准信仰的分支。前者，他写道，几乎完全担心“错位的人工智能在欺骗人类的同时摧毁他们。”相比之下，他写道，“我们改革人工智能风险者考虑到了这种可能性，但我们至少同样担心被坏人武器化的强大人工智能，我们预计它们会更早地构成生存风险。”

许多研究人员积极参与基于对齐的项目，从试图传授道德哲学原理到机器，到培训大型语言模型的众包伦理判断。所有这些努力在让机器对现实世界的情况进行推理方面都没有特别有用。许多作家已经注意到阻碍机器学习人类偏好和价值观的许多障碍: 人类往往是非理性的，行为方式与他们的价值观相矛盾，价值观可以在个人的一生和一代人中改变。毕竟，我们不清楚应该让机器学习谁的价值观。

校准社区的许多人认为最有前途的方法是机器学习技术，称为反向强化学习(IRL)。对于 IRL，机器没有给出一个最大化的目标; 这种“插入”的目标，校准的支持者认为，可能会在不经意间导致纸夹最大化的场景。相反，机器的任务是观察人类的行为并推断出他们的偏好、目标和价值观。近年来，研究人员利用 IRL 通过观察人类来训练机器人玩视频游戏，并通过给予人类的增量反馈来教会机器人如何做后空翻(人们观看机器人各种尝试的短片，然后选择看起来最好的一个)。

目前还不清楚类似的方法是否能够教会机器更加微妙和抽象的人类价值观念。作家布莱恩 · 克里斯蒂安(Brian Christian)是一本关于人工智能校准的科普书籍的作者，他对此持乐观态度: “想象一下用一个更加模糊和难以言喻的概念，比如‘帮助’，来取代‘后空翻’这个模糊的概念，并不是那么牵强。”或是“善良”。或是‘良好’行为。”

然而，我认为这低估了挑战。善良和良好行为等伦理概念比 IRL 迄今掌握的任何东西都要复杂和依赖于上下文。考虑一下“真实性”的概念ーー我们肯定希望在人工智能系统中体现这一价值。事实上，当今大型语言模型的一个主要问题是它们无法区分真假。与此同时，我们有时可能希望我们的人工智能助手，就像人类一样，能够缓和他们的真实性: 保护隐私，避免侮辱他人，或者在无数其他难以表达的情况中保护某人的安全。

其他道德概念也同样复杂。很明显，教授机器伦理概念的第一步是让机器首先掌握类人概念，我认为这仍然是人工智能最重要的公开问题。

此外，我认为人工智能对齐的科学基础还存在一个更为根本的问题。大多数讨论都把超级智能人工智能想象成一台机器，尽管它在所有认知任务上都超越了人类，但它仍然缺乏人类的常识，而且在本质上仍然保持着奇怪的机械性。重要的是，为了与博斯特罗姆的正交理论保持一致，机器在没有任何自己的目标或价值观的情况下实现了超级智能，而不是等待人类插入目标。

然而，情报工作可以这样做吗？目前的心理学和神经科学都不支持这种可能性。至少在人类中，智力与我们的目标和价值观、自我意识以及特定的社会和文化环境紧密相连。在人工智能的历史上，一种纯粹的智能可以从这些其他因素中分离出来的直觉导致了许多失败的预测。据我们所知，更有可能的情况是，一个普遍智能的人工智能系统的目标不能轻易插入，而是必须像我们一样，由于其自身的社会和文化教育而发展起来。

在《人类兼容性》(Human Compatible)一书中，拉塞尔认为研究对齐问题的紧迫性: “担心人类潜在严重问题的正确时机不仅取决于问题何时发生，还取决于准备和实施解决方案需要多长时间。”但是，如果不能更好地理解什么是智力，以及智力与我们生活的其他方面有多么不同，我们甚至无法定义问题，更不用说找到解决方案了。正确地定义和解决对齐问题并不容易，它需要我们发展一个广泛的、基于科学的智力理论。