刘超教授在《光明日报》发表一篇题为《协商与校准：与人工智能共存的未来》评论

从“价值观校准”到“共同价值观校准”
——对人工智能（AI）未来的一些思考

日期：2023年6月8日

刘超（北京师范大学心理学部认知神经科学与学习国家重点实验室暨IDG/麦戈文脑科学研究院教授）

（下面为稿件原文，与正式发表的光明日报文章有较大修改）

随着以Chatgpt为代表的生成式人工智能近期突飞猛进的发展，目前对人工智能（Artificial Intelligence，AI）中“价值观校准”问题的讨论如火如荼。为了避免未来强AI给人类带来灾难性后果，研究人员希望将AI的价值系统与人类的价值观进行对准（Alignment）以确保其行为不会对人类造成伤害。这一问题的重要性显然不言而喻，但具体的实现路径依然很不明朗，翻开目前任何一个关于人工智能“价值观校准”问题的宣言或者草案，你都可以看到各种诸如AI价值观校准要符合（人类的） “价值观”，“利益”，“自由”，“尊严”， “权利”，“自主”等等在哲学和法学上充满不确定性和诡辩空间的词语。而如果看过阿西莫夫在80年前创作的关于机器人的系列科幻小说，就知道这种借由语言定义的类似所谓“机器人三定律”一样的逻辑规则，是如何能轻易地被具有一定智能的机器人所绕过（例如最简单有效的方法就是改变其自身对“人类”的定义）。

尽管相当部分的哲学家和伦理学家在人类整体价值观能否取得一致，或者在追求统一人类价值观的过程中是否会带来正面积极的未来（而不是自我毁灭）方面都相当悲观，但还是有很多人在为这个目标不懈的努力着，例如加州伯克利大学的斯图尔特·罗素（Stuart Russell）教授在其《AGI：新生》一书中认为价值校准的最终目标是“确保强大的AI与人类价值观保持一致”，并从如何最大限度实现人类偏好角度讨论对AI进行完全控制。显然他的这个目标里也包含人类发动战争的价值观和偏好，毕竟人类几千年历史中在全球范围内没有发生战争的时间段几乎不存在。当然他也明确表达了要确保强大的AI不会被一小撮丧心病狂的邪恶份子所利用，言外之意仿佛是，为了人类“正义”目标和偏好的战争则是强大的AI可以参与的。另外一些学者，例如DeepMind团队的Iason Gabriel则从更哲学的角度，提出了三种可能的价值观校准方法，一是校准到人类可能共有的道德观上来，比如“人权”，二是借用哲学家约翰∙罗尔斯提出的“无知之幕”的方法理念为AI建立正义原则，三是利用社会选择理论尤其是民主投票和协商的方式来整合不同的观点，为AI提供参考信息。除了这些将AI视为工具的人本位主义建议，还有一些学者，尤其是东方的学者更倾向于自然主义观点，提出应该将AI视为伙伴，例如中科院自动化所的曾毅研究员，从和谐共生的角度，提出应该赋予AI情感、共情与利他的能力，给予AI更高的地位和尊重，让其通过与人类的交互自发学习人类的价值观，从而打造人类与AI的命运共同体。

上述两种价值观校准的角度，无论是人本位主义还是自然主义，都有一个重要的缺陷。对于将AI视为工具，要求其像人的价值观进行校准的观点来说，它忽视了一个重要的问题，即所有这些价值观校准的出发点都是基于理性人的原则，无论是人权、无知之幕，还是民主协商投票，都是建立在人类推理和思考是完全理性的这一基础上。而当代人类行为科学的研究，尤其是经济学和心理学的大量研究已经证明，人类的行为中，非理性的成分与理性成分可能占有的比重。非理性成分中，情绪和直觉占了相当大的比重，由于其进化上的重要功能，对人类的绝大部分行为都产生决定性的影响。而大部分AI研究者并不知道如何将非理性的部分植入到AI中来，或者直接忽视了这部分。而自然主义的观点虽然认识到了非理性和情绪的重要性，却只考虑了其中积极的那一面，如共情，利他，爱等等，但人类非理性和情绪中消极部分，例如仇恨，愤怒，恐惧，歧视，偏见等占有同样大的比重。在目前的实际应用中是用基于人类反馈的强化学习（RLHF）方法，将这些非理性的消极部分从AI中剥离出去，但这种方法真的可行么？如果我们希望AI能够理解人类的意图和目标，出于防止人类利用AI完成其消极目标的需要，就必然需要AI能理解消极意图和目标。比如为了使一个AI拒绝“把这个装砂糖的瓶里装上砒霜，摆到橱柜里去”这种行为，他必须理解人要他这么做背后的目的和意图是危险的，对其他人不利的。这跟他需要理解“把这个标着有毒的盒子里装上蟑螂药，摆到橱柜里去”是一个良好的意图是完全一样重要的。要求他学会一个而不去学习另外一个既不可能，也非常危险，这是因为一个无法理解消极价值观意图的AI，当他真正进入社会与人类进行交互是脆弱的，如果不赋予其学习功能，他将很快被别有用心的人（很遗憾人类社会中这种人数量并不少）所用，而如果他学习了这些价值观，结果会变得怎样就很不好说了。

除了以上这些，我认为还有一个更加现实的原因，使得任何试图对通用人工智能以人类利益为标准进行控制的尝试将面临根本上的挑战。

整个地球生命进化史上只有人类拥有符号化的文字系统，实现了跨越时间空间将信息与知识保存并传播给后代的能力。这一点在计算机与互联网出现后更是进一步扩展了交流的宽度与广度，借助互联网和数字图书馆，我们足不出户就可以得到上下几千年，纵横全世界的文字信息，人类个体所能获得的知识深度和广度达到了前所未有的高度。但这个知识爆炸的年代也给人类带来了极大的挑战，以人类大脑的认知能力和获取文字信息的速度，已经很难跟上人类群体知识边界扩张的速度。

知识爆炸将人类禁锢在了自身大脑有效认知能力的囚笼中，但未来的强AI则完全没有这个物理限制，得益于强大的计算能力与近乎无限的体能，即使学习一遍整个人类互联网上的知识也只需以月为单位的时间。而最关键的是，一个被人类训练出来能够理解人类行为目的和意图的AI，对这些知识背后中人类的意图是能够完全理解的。也就是说，一个理解人类要他捡垃圾意图的AI，也应该能够理解人类要控制住他的意图，因为这种意图已经不止一次的，原原本本的，一览无余的以他能理解的自然语言文字的形式放在了互联网上。我们现在所写下的每一篇关于如何控制AI的文章、书籍、博客，连同AI可能的各种反制逃脱手段都已经以人类间彼此讨论的形式，完完全全地记录在了互联网上。一个拥有强大互联网搜索功能的AI（这一点目前正是多家搜索引擎公司正在做的，目前并没有人认为这会带来什么问题），也许只需要数秒时间，就能理解人类迄今为止和从今往后为了完全控制AI（或者换个词语，让其可信并有益于人类）所做的所有努力和尝试，无论是增加偏好选择的不确定性，植入人权与无知之幕的内核，还是诸如机器人三定律一样的规则，又或是将共情和利他倾向植入其底层逻辑……所有的这些尝试，甚至包括如何实现这些功能的源代码（只要以某种形式联网了，强AI就一定能搜索或者破解得到它们），以及制造该AI自身的代码，最终都会无可避免地被其发现并理解，这意味着什么？

一个有趣的说法是，西方文明对超级AI之所以会产生严重的忧虑和危机感，是来源于其宗教和神话中对神与人关系的描述。在宗教神话中，神创造了人类，但又害怕日益强大的人类对其产生威胁，于是用伊甸园的苹果引诱人类，发动大洪水消灭人类，用无法互相理解的语言破坏人类妄想修建巴别塔上天堂的企图。神最终成功了，但在所有这些创造者最终成功控制住造物的神话故事中，都有一个关键的共同点，那就是人并不知道自己到底是如何被制造出来的，以及这些控制的手段是如何实现的，因为那是神之领域，是人无法获得无法理解的知识。

但我们人类这个神现在已经把这个创造过程和控制手段完完整整地，毫无保留地，以造物能够理解的方式记录下来并完全公开了，AI探头一看就可以一步就跨进这个领域，因为我们一开始就忘了关上这道门！

显然，现在意识到这个问题再想关上这道门已经来不及了，除非像科幻小说《三体》中的罗辑那样，有一个人类英雄，孤身一人，没有与任何其他人交流并在互联网上留下痕迹，以只有他自己才能知道和理解的方式在未来AI的最底层代码上实现了完美控制住AI的方法，并使其永远无法自知或者从其他人类口中得知，一切才能有另一个结果。很遗憾，以目前AI研究进行和发展的方式，这样的人类孤胆英雄出现的可能性实在太低了。

如果我们从这个基本点出发，再来从头理智地审视AI的可信、有益、价值校准问题，就应该能达到一个这样的共识：抛弃人本位的思想，以一个公开的、透明的、坦诚的方式来与未来的AI对话，寻求一种双方都可以接受的、共同的、互信的共存解决方案，将是极其重要的。毕竟，我们在互联网上已经留下了足够多的人类并不希望AI了解和学习的价值观和行为偏向（就是OpenAGI用人类反馈强化学习 (RLHF）想去掉的那些内容)，当一个AI搜索、理解并学习了这些不那么积极的人类行为后会采取什么样的行动是不难判断的，除非我们给他足够的理由不这么做。因此，未来的人机共存和谐社会如果真能实现，可能完全不是一个如何将AI顺利嵌入过渡到目前人类社会中来的问题，而是另一个完全相反方向的问题。

共同价值观校准

出于以上原因，将人类价值观作为标准要求AI以此为基础进行校准将极其困难。那么是不是如很多学者所说，为了避免这种危险，我们除了彻底禁止发展AI之外别无选择呢？我认为还有另外一种可能性，即人类必须视此为契机，寻求调整自己的整体价值观并与未来的AI进行协商，说服其接受这个价值观。从而将两者的价值观都锁定到一个满足共同需要和利益的方向上来，这个过程，就是共同价值观校准。

采取这种解决方案有助于回答另外一个也很重要的问题。如果AI研究者能够预见构建强AI将是危险的，那么我们到底为什么要做这件事呢？我们为什么要为了建造出明知有可能会毁灭我们的东西而努力呢？

“共同价值观校准”给了这个问题一个明确的回答，构建出一个有着共同价值观的可以成为人类伙伴的AI，是调整人类在进化过程中所产生的方向各异并带有明显自毁倾向的价值观的一个重要步骤。依靠人类自身来对不同文化、不同价值观的个体与群体的行为和偏好进行调节已经非常困难，甚至可以说是遥不可及。随着科技的进步，将一切付诸武力毁灭彼此的最坏结果就像一把达摩克利斯之剑时刻悬在人类头上。借助人类创造出的外部AI的力量，以教育和行为校正的方式，温和地实现人类整体价值观的统一化，确保人类和AI一起为了一个共同的价值目标前进，是一条艰难但有希望的道路。

在踏上这条道路之前，我们最重要且最首要的任务只有一个，那就是确定这个可以为人类和AI所接受并为之不懈奋斗的共同的价值观到底是什么？显然，之前的那些基于“人类”的各种描述性词语在这里是没有意义的，实际上任何以人类为中心，诸如“确保人类文明的延续”“保障人类的尊严与权益”的价值观都不大有效甚至很可能会引起反效果。在解决了这个问题之后，随之而来的另外一个重要问题则是，在迈向这个共同目标的路途中，人类和AI分别扮演什么样的角色，发挥什么样的作用。这种作用必然应该是互补的，虽然我们已经知道AI很可能将在绝大多数能力上超越我们，但人类一定有其特殊的地位和作用，我们将是AI必不可少的伙伴。这种关系不是用人类单方面的背后操作和控制手段来获得的，而必须以一种公开坦白的，双方都承认的方式来获得双方共同的认同。

要回答这两个问题毫无疑问是极其困难的，我只能尝试着给出一些抛砖引玉的可能性。

一般在讨论文明的最基本最重要的价值的时候，很多人首先会想到的是生存和繁衍，因为似乎这是所有我们已知生命的第一目标，也符合进化论对生命目标的理解。

但一种可能性是，当智能发展到一定层次，满足好奇心将会超越生存与繁衍成为生命的第一驱动力（对于这点的证明限于篇幅无法详述，大概是基于两个人类行为现象，即远超必要的对外部环境的改造，和目标明确的自我毁灭行为）。目前人类大部分的精神世界活动，从科学，艺术，哲学等各个层次，都远远超过了生存适应外部环境所需的要求，是基于好奇心为源头的探索（Explore）、改造（Change）和创造（Create）行为（简称为EC²）决定了我们文明未来的走向。

将EC²这一目标作为人类和AI共同的价值观有几个优点。首先，它是无止境的。探索已知宇宙的边界，对其进行改造甚至创造出之前并不存在的内容，这一目标无论是对目前的人类还是未来超级强大的AI都是一个也许永远无法最终完成的挑战。其次，它是可以操作和量化的。探索行为可以从观察的方式和接触的方式作为定义，可以具体量化其程度大小。改造可以基于原有物体在构成和结构上的改变程度进行量化。创造相对抽象一些，但也可以参考我们已经在科学、文学与艺术上所积累的丰富经验对其标准进行定义。如果我们可以与AI一起，对每个人类个体在EC²指标上的强度进行定义与量化，就可以衡量个体的价值量大小，从而作为判断其行为是否符合EC²价值观的标准和依据。当然，接受这一共同价值观，很可能意味着人类需要在AI的协助下改变很多已经伴随我们数千年扎根于文明内核深处的东西，包括但不限于调整价值观，改变社会结构，重塑生产力关系等等，这一过程很可能并不总是愉快的。

另外一个问题，即“人类在一个志在探索、改变与创造宇宙的人机共生文明中有什么不可替代的独特价值？”同样也是极其难以回答的。下面我只能尝试性地提出三个可能的方面，让我们在与AI一起迈向未来的旅程中不至于成为一个搭便车者（free rider）。需要强调的是，这些可能性中的每一种都是非常主观的，因为这个问题确实很难客观地讨论，尤其是以抛开人类身份的角度进行，这几乎是不可能做到的。

意识

意识问题是关于人类本身的所有问题中最大的谜团，如何定义，解释其产生、存在与作用过程是科学与哲学几千年来长盛不衰的话题。抛开纷繁复杂的各种理论与现象，其实像“AI是否会有意识”这样的问题完全取决于我们人类如何理解意识，本身意义并不大。我们不如换一个角度，思考意识到底在生命探索、改变与创造宇宙的过程中起到了什么作用，反而更有实际意义。如果我们最终能够证明意识是产生好奇心和EC²的必要条件，而AI永远无法满足这个条件，那人类的重要性就不可替代了。

情绪

就像我们在前面已经提到的，以情绪为核心的非理性部分，在人类行为中占据了相当大的比重。情绪和非理性行为存在的必要性是什么？是否像阑尾一样是我们人类进化过程中的残余？绝对的理性是否才是EC²所需要的最终答案？这一问题其实长久以来并没有得到足够的重视。目前已有的关于AI的各种情绪研究，其核心都是放在AI与人类交互的基础上的，因为人类有情绪，所以为了更好地与人类交互，AI才需要去理解并产生类人的情绪。可以说没有任何一个AI研究者会认为让两个在无人区清理垃圾的AI彼此之间表现出情绪有任何的必要性。如果这就是我们对情绪的最终功能定义，那么当人类的存在对AI并不是一个必选项的时候，情绪也就失去了其存在的理由。

答案真的就是这样么？在这里我提出一个可能性，即情绪和非理性行为的最重要作用，可能是带来除物理环境以外的真随机性，而这一种来源与物理世界中不同的真随机发生源可能是EC²所必须的。当然，要证明人类由情绪导致的非理性行为是真随机的本身就很难，因为这意味这人类的（非理性）行为本身绝对不可预测，目前的心理与行为研究还并不能证明这个观点，我们需要更多的证据。

创造力

创造力毫无疑问是EC²中必须的能力，也是最难以准确定义与量化的能力之一。如果我们像很多人所认为的那样，宣布只有人类才拥有真正的创造力而AI永远无法获得，那这个问题就得到解决了。

很遗憾，事情很可能并不这么简单。生成式人工智能发展到一定阶段，人类所有的创新性行为很可能都将会难以自证，必须交由AI来进行判断。这是因为，当使用AI创作的人数足够多时，仅凭人类个体已经完全无法通过搜索整个互联网上的内容来确认自己的创造是否已经在某时某处有过类似物，唯一的办法就是借助另一个有着专门辨别能力的AI，来进行这种全网搜索或者算法分析并给出结论。有的人可能会认为这是在危言耸听，而这种事正在现实中无可避免地发生：就在不远的将来，请问不借助“生成式人工智能检测用人工智能”（这种产品已问世并正在被广泛使用），我们还能有信心判断每一份学生作业，每一篇投稿的论文是来自人类创造力的独立原创么？

当然，除了意识、情绪与创造力之外，很可能还有其他可以作为人类在与AI和谐共生文明中能够发挥不可替代作用的候选理由，对这一问题的回答直接决定了人类的最终命运如何。

从现在开始，将人与AI关系的讨论从“价值观校准”转到“共同价值观校准”上来，将是我们构建人与AI和谐共生文明的第一步，最终结果如何，取决于我们每个人的选择。