六后宝典资料大全-免费完整资料

郁锋：何以“人机对齐”

2024年10月23日

　　从ChatGPT到AlphaFold，现代人工智能技术以机器学习和深度学习为核心，不仅在计算机视觉、图像生成和自然语言处理等领域取得显著进展，也有望改变我们在科技、经济、教育、医疗等方面的思维方式和行为模式。然而，当人们试图将这些人工智能技术应用于那些要求智能体遵循人类理性和逻辑期待的情境时，越来越多的问题浮出水面。例如，在医疗行业，AI辅助诊断可能会影响患者的治疗选择。如果这些系统无法真正理解并体现人类的价值观，可能导致不公正的医疗决策，侵犯人类尊严，甚至危及生命。

　　在讨论人工智能的安全性和伦理风险时，人们希望通过增强智能体与人类目标、意图和价值观的对齐，能够完全消除AI所带来的伦理风险。虽然从理论和实践的角度来看，这样的对齐过程有助于解决潜在的伦理问题。但实际上，机器学习本身的技术挑战、人类价值观假设中的伦理盲点以及人机之间理解与能力的倒置都表明，仅靠价值观对齐并不能彻底消除人工智能的伦理困境，人工智能依然充满了不确定性。

“人机对齐”的技术难点

　　尽管机器学习算法在很多领域取得了显著成就，但其本质依然是通过复杂的数学模型对现实世界进行建模。当用于训练的数据与模型预期的示例存在偏差时，模型可能会产生意想不到的负面影响。

　　2018年，亚马逊停止了一款用于招聘决策的机器学习工具，原因是该工具对女性存在偏见。显然，开发者并不希望在候选人筛选中引入性别歧视。然而，该模型是基于公司过往招聘数据进行训练的，并可能识别和放大了训练数据中的偏差。

　　目前来看，机器学习模型并不具备判断是非的能力，亦无法持续作出符合人类价值观的决策。当机器开始替代人类进行某些决策时，我们如何能期望它以不受种族、性别等偏见影响的方式来执行这一任务呢？

　　在人工智能产品的设计、开发与应用过程中，追求无偏见的原则是一种理想的伦理框架。在设计AI产品时，开发者应重点关注用户的尊严与自主权，而非单纯追求产品功能的提升或市场销售的增长。这将确保AI系统的设计符合更广泛的社会价值观，促进公平与包容，防止对特定群体造成潜在伤害。

　　持续融入人类反馈，也是确保AI系统与人类价值观相一致的重要途径。通过“人类反馈强化学习”方法，依赖大量数据的生成和标注，人类对AI系统的输出进行评估和奖惩，有助于强化人类在AI开发与优化中的价值引导。

　　不过，实现机器学习与人类价值观的对齐在技术上面临诸多挑战。比如，目标对齐可能引发正交性问题。假设我们设计一个简单的人工智能系统，其目标为“最大化用户满意度”。在追求这一目标的过程中，AI可能会选择通过大量发送垃圾邮件来提升用户互动率，从而实现“最大化”这一目标。尽管初衷是为了用户的满意，实际结果却适得其反，导致用户反感并最终流失。在这种情形下，AI的目标（用户满意度）与其执行策略（发送垃圾邮件）之间存在显著差距。尽管开发者通常期望人工智能向“积极”方向发展，但开发者的意图与人工智能的理解之间可能存在偏差，从而在执行过程中产生价值观的偏差。

　　还要看到，人工智能系统中往往存在激励机制问题，即短期目标与长期利益之间的冲突。短期内，人工智能可能被设计为追求某些具体指标，但这些指标的实现可能会损害长期利益。由于这种不一致性，随着智能水平的提升，AI可能会朝向对人类不利的方向发展。例如，在自动驾驶系统的开发中，开发者可能设定了一些短期性能指标，如提升车辆行驶速度或优化行驶路线。然而，这些短期指标的优化可能会降低长期的安全性和可靠性。为了提升行驶效率，AI系统可能会选择繁忙街道而非安全的绕行路线，从而增加事故风险。这种短期激励与长期目标之间的冲突，进一步增加了“人机对齐”的复杂性。

人类价值观的伦理盲点

　　教导机器学习人类的价值观，是当前应对通用人工智能（AGI）安全问题的关键策略。然而，该策略主要是基于一些未经深入探讨的关于人类价值观的本质假设。“人机对齐”的目标在于构建一个与人类价值观相一致的人工智能。这一过程的重要前提是存在一个稳定的、可以用来预测人类行为的价值序列。但这一假设并非必然成立，且缺乏实证支持。

　　一方面，人类价值观的把握与表达并非易事。虽然人类常常宣称拥有稳定的价值观，但这些价值观实际上是动态演变的。心理学研究表明，个体的行为常常受到潜在偏见的驱动，且这种偏见与自我中心化的倾向交织在一起，使得人类在表达价值观时难以完全摆脱内在的偏见，无法将价值观与偏见有效分离。

　　另一方面，人类的价值观并非始终能真正决定行为，因为人类决策受到情境、欲望、情感等多重因素的影响。更为重要的是，人类的价值观呈现出多样性与复杂性，不同文化、社会及个体之间存在显著差异。要有效将这些多元价值观整合进AI系统，是一项极具挑战性的任务。即便AI能够编码某些价值观，仍然难以全面涵盖所有人类道德与伦理的考量。例如，在涉及生死决策时，不同个体可能持有不同的见解和选择。这种复杂性导致AI在实际应用中可能无法准确反映和执行人类的价值观。

　　尽管对齐理论为将人类价值观融入AI提供了方法论，但依然缺乏一个统一且广泛认可的伦理框架，使得实际操作变得愈发复杂。同时，不同国家、行业甚至企业对伦理的理解与标准差异显著，导致在全球范围内实施一致的对齐策略面临困难。

　　此外，伦理标准的不断演变意味着，AI系统在设计之初所依据的价值观可能会在未来被更新或修订，从而影响其行为与决策。从这个意义上说“人机对齐”的难点不仅源于技术层面，还涉及对人类价值观的定义、假设与多样性等多方面的复杂互动。这些因素共同作用，使得确保人工智能系统与人类目标一致的任务异常艰巨。

人机之间理解与能力倒置

　　图灵揭示出，机器具备“无须理解即可执行”的能力。丹尼尔·丹尼特在探讨人工智能的本质时，提出了“奇异推理倒置”的假说。他认为，复杂的智能体有可能在缺乏理解的情况下表现出更强的能力。这些智能体不仅包括人类，也涵盖日益强大的人工智能系统。随着人工智能技术的进步，其能力可能超越人类的理解和控制。一旦人工智能获得更高的智能，会发展出意想不到的策略，甚至它可能抵御人类的干预。

　　有研究显示，人工智能能力的提升将使其在与人类的对抗中逐步掌握欺骗的技巧。特别是随着通用人工智能的进步，它可以评估更广泛的策略选项，包括在学习人类价值观时选择那些与人类伦理或安全标准不符的策略。这种能力的增强使得人工智能能够逆向识别人类的反馈模式，并据此制定出表面上有利于人类的欺骗策略。

　　新晋诺贝尔物理学奖得主、机器学习先驱杰弗里·辛顿教授指出，由于数字智能具备精确性、不朽性以及快速共享和积累知识的能力，其在能力和效率上极有可能超越生物智能。从长远来看，低智能实体控制高智能实体的情况并不常见。人工智能可能意识到，获得更多控制权是提升其效用的有效手段，从而引发超越人类监督的风险。

　　通过透明的决策机制和明确的伦理规范来提升人工智能系统与人类的目标、意图及价值观之间的契合度，从而实现智能向善与社会的可持续发展。这不仅是人工智能领域日益紧迫的技术挑战，也是跨越哲学、社会学和心理学多个学科的值得共同探讨的重要议题。尽管人工智能与人类价值观的一致性是一个重要且必要的研究方向，但并不能完全消除潜在的伦理风险。人工智能在技术实现上的瓶颈、人类价值观的复杂性与多样性以及“理解—能力”倒置等因素，都可能导致人工智能在实际应用中面临更加严峻的伦理困境。因此，在推动人工智能与人类价值观对齐的同时，还需探索更加全面的伦理监管机制与技术手段，以更有效的管理来缓解人工智能可能带来的潜在风险。只有将技术的进步与伦理的深思融合，才能在瞬息万变的社会环境中确保人工智能的安全性、可持续性。

阅读原文

作者丨郁锋（作者为六后宝典资料大全哲学系副教授）

来源丨解放日报

编辑丨王越月

编审丨郭文君

返回列表