来源:传媒观察杂志51策略
# 编者按
人工智能价值对齐是将人类价值嵌入到人工智能中,调适人工智能可以在人类价值的规范下行动。文章以人工智能的伦理治理为切入点,基于关系视角考察价值对齐的意涵,以理论溯源的方法探究价值对齐的底层逻辑,从当下人工智能外在实践场景、大模型内生技术特性以及交互主体性的视角讨论人工智能价值对齐行动的合理性。研究认为:价值对齐无论是源于控制论思想,还是技术人文主义,抑或智能向善与道德物化的诉求,人机关系都并非机器对人的威胁或人对机器的控制,而是指向一种“以人为本、智能向善”的共生协同进路。
# 观点精粹
1
价值对齐是以新人文思想指导人工智能的发展,回应新技术时代的人文挑战。
2
对齐的目标与内容具有双重性,即伦理性与技术性。
3
赋予人工智能交互主体性是价值对齐的关键前提。
4
人机关系需要超越“主奴关系”,走向一种共生的“交互性主体”关系,进而共同迈向人机的共生与进化。
# 关键词
价值对齐;生成式人工智能;溯源性考察;合理性
# 引用格式
①王帅,张涛.关系、逻辑与合理性:“价值对齐”的理论限度及溯源性考察,2025(05):48-59.
②王帅,张涛.(2025).关系、逻辑与合理性:“价值对齐”的理论限度及溯源性考察.传媒观察(05),48-59.
论文正文
自ChatGPT问世以来,各式大模型与时俱进、层出不穷。今年年初,DeepSeek大模型以其高效低价的优势,引发全球范围内接入大模型热潮,进而推动国际人工智能行业的生态重构,AI大模型竞赛方兴未艾,人工智能时代已是悄然来临。然而,大语言模型作为生成式人工智能的典型应用形式,迫近技术“可控”与“失控”的边界,与其相关的人工智能生成内容的可版权性与模型训练侵权风险,制造虚假信息异化舆论从而诱发舆论风险,生成文化偏见、政治偏见和性别偏见风险,影响劳动力市场、替代工作就业等社会伦理争议不断涌现。
2025年全国两会期间,全国政协委员热议人工智能的风险与规制,建言加强人工智能治理。首先,人工智能需要接纳多元价值判断,实时调整偏差,并兼顾不同文化和法律规范。其次,诸如“涌现”“幻觉”“越狱”等复杂技术现象以及人类认知偏好变化,深化了人工智能领域风险的不确定性;同时,在机器智能设计上,若不考虑人类价值观,人工智能可能会作出对人类有害的决定,而由于其不透明、难理解,这一决定可能会让人难以逆转。再次,生成式人工智能的迭代周期显著加速,技术的落地部署应用和持续智能演进日益远超法律法规与监管机制的更新节奏;当人工智能在技术不断迭代中实现自我成长,并具备自我学习、自主代理的能力,进而展现出独立的主体意识后,其自主行为的自由度会不断增强,最终可能导致人类对其失去有效控制,从而威胁人类生存。因而,人工智能发展初期的价值对齐逻辑便可以称为人与人工智能间的底线逻辑。作为当前人工智能伦理治理的主导范式,人工智能价值对齐(value alignment)的紧迫性进一步凸显,成为时下人工智能安全有序发展的一个核心议题,也是我国持续推动“人工智能+”行动的焦点问题。
“价值对齐”旨在使人工智能自主系统对人类有益且尽可能减少不必要的风险,通过将系统的价值观与环境中人类的价值观对齐,从而使其行动能够最大化人类的价值。这是工程技术实践中的重要领域,也需从人文与社会科学的视角深入思考。由此,本文以人工智能伦理治理为切入点,从关系视角考察价值对齐的意涵,系统爬梳概念源流;并探讨价值对齐的思想基础,即它所依托的“思想框架”,在此基础上明晰价值对齐的底层逻辑——“操作机制”;随之,结合现有人工智能落地部署的具体应用场景、大模型技术特质以及人机交互等维度,重返价值对齐实践以考察其理论限度。
一、关系视角下“价值对齐”的意涵理解
马克思曾从语义的角度对价值进行区分:“在17世纪,我们还常常看到英国著作家用‘worth’表示使用价值,用‘value’表示交换价值;这完全符合英语的精神,英语喜欢用日耳曼语源的词表示直接的东西,用罗曼语源的词表示被反映的东西。”从语言学的角度出发,价值(worth)源于日耳曼语,体现为事物自身的内在属性,而价值(value)则源于罗曼语,体现为一种关系的存在状态。人工智能的“价值对齐”,对应英文为“value alignment”,也就是说,从马克思对worth与value的差异性阐释中推论,对人工智能价值对齐的理解,需要从关系的存在状态中入手。
(一)“价值”理解的关系性转向51策略
在西方哲学史上,与马克思同时期的德国哲学家洛采首次将“价值”概念提到了哲学的中心地位, 从而发起了价值哲学。
从价值哲学的角度出发,20世纪上半叶形成了诸多价值流派,代表性的观点有:新康德主义认为价值是一种普遍有效的规范性观念;奥地利价值学派认为价值是一种以感受为根据的意义判断;德国价值哲学认为价值是一种观念性的存在;分析学派认为善的内涵与外延都与善相当,所谓有价值的,就是善的;美国实用主义认为价值是基于生活和发展需要的一种评价、创造和实现过程。除此,也有学者将价值界定为六种类型理解:价值就是主体生存和发展的意义;价值是“客体满足主体的需要”;价值是表征人类认识和实践过程中的一种“合目的性”;价值是客体对主体的有用性;“价值是人”;价值是客体对主体的效应。因此,从关系视角来理解价值,即它源于人与对象间的某种关系,是对象对主体需要的满足,表现了客体对主体的有用性,是对象对主体功能性的体现。
如前所述,可见价值的内涵:存在一种主观的认知视角,认为价值是主体的一种创造,但这种创造必须以对象的存在为前提;也存在一种客观的认知视角,认为价值源于事物、人或境遇,是对象的一种属性,但它的功能发挥必须指向作为主体的人。结合主客观的视角进一步理解,就推论出一种关系的视角,即认为价值源于人与对象之间的某种关系。
那么,“价值对齐”中“价值”的内涵如何理解?以人工智能价值对齐为研究对象,那就是人工智能的价值要与人的价值对齐。因此,人工智能的智能,是符合人类价值观的智能,人工智能所谓的价值需要人类价值观的嵌入,也就是斯图尔特·罗素指出的“人们需要发展可证明符合人类价值观的智能,而不是纯粹的智能”。早在2021年,联合国教科文组织发布《人工智能伦理问题建议书》,指出人工智能发展应用需对齐的价值观:尊重、保护和提升人权及人类尊严,促进环境与生态系统的发展,保证多样性和包容性,构建和平、公正与相互依存的人类社会。可以说,人工智能的价值与人类价值存在某种关系,它是人类价值的满足,表现了对人类价值的有用性,是对人类价值功能的体现;同时,人工智能的价值是人类价值存在与发展的意义,是对人类认知与实践过程中的一种“合目的性”的表征,即符合人类认识世界的一种“规定性”。
(二)“对齐”即人类赋予机器以目标
人工智能的价值对齐,其对标对象指向人类价值。“对齐”一方面是指机器的价值需要符合人类价值的“规定性”,即不能偏离人类价值;另一方面也指出人类对机器的认知需要与机器的“进化”保持一致。基于“对齐”的技术本质,人工智能价值对齐是指AI代理的外部目标和内部目标均与人类价值一致,外部目标是AI代理设计者根据人类价值设计的训练目标,内部目标则是AI代理内部优化的目标。这与控制论创始人诺伯特·维纳论述机器发展的“对齐”要求相契合,即“我们最好确保赋予机器的目标与预期一致”。维纳意指在人机一致的基础上,保持人类需要与机器理解的一致性,使机器在执行目标时与人类的需求相符合;同时,“对齐”是机器目标与人类需求之间的协同,机器了解人类用户的意图,为了实现这些意图而稳健地运行。
因此,“对齐”的本质是协同与一致性。人类发明机器的目标是使机器作为人本身的“延伸”,以辅助自身实现某种目标,故而人类需要将自己所希望的目标嵌入机器之中。如此,机器就获得了人类价值的“赋予式嵌入的价值”,从而变得具备了“类人化的”特征,相应地,人类获得了对机器的控制权。但是人工智能对于大部分人类而言是一种“黑箱”存在,为了能够实现人机良好的协同,就必须确保人类指令、偏好、利益以及价值等维度的一致性。这便涵盖了人机对齐的目标与内容。“对齐”的目标在于防止人工智能的运行违背特定个人、群体或整个社会的利益,即人工智能发展的目标是蕴含在人类目标的控制之下的;“对齐”的内容,指向人工智能要理解人类目的并将其作为执行内容,在于如何确保这些模型捕捉我们的规范和价值观,理解我们的意图,最重要的是,做我们想做的事。
所以,“对齐”的关键点显而易见,就是从技术与伦理上实现将人的目标或动机作为人工智能自动化决策与行为的内动因。进而言之,通过技术控制实现人工智能所嵌入的价值与人类的价值和期望保持一致,从而使人工智能的目标、决策和行动能力符合人类的伦理规范与长期利益。因此,“对齐”的出发点与落脚点在于人类的目标,体现人类的价值,辅助人类实现社会发展,也就是说,对齐的目标与内容具有双重性,即伦理性与技术性。伦理性在于机器的发展应与人的需要保持一致,体现制度性特征,技术性在于机器的进步是为确保人类安全的技术可控性。
(三)从想象到实践的价值对齐
价值对齐是一种想象性的实践产物,其可追溯至1942年美国科幻作家艾萨克·阿西莫夫提出的“机器人学三大法则”:一,机器人不得伤害人类,或因不作为而使人类受到伤害;二,除非违背第一法则,机器人必须服从人类的命令;三,在不违背第一及第二法则的情况下,机器人必须保护自己。为了应对可能涉及全人类的伦理或决策问题,1985年阿西莫夫补充“第零法则”以应对可能涉及全人类的伦理或决策问题,即“机器人不得伤害人类整体,或坐视人类整体受到伤害”。也就是说,在个体人类和整体人类之间,机器人应优先保护整体人类的利益。
然而,从阿西莫夫的科幻想象到人工智能的实践进一步深化之时,不能仅有机器人定律——分层的义务规则,还必须用效用函数对智能体行为施加某些限制。可见,在现实中,以上问题继续演化为现实的实践问题,价值对齐需要完成从概念设想到经验实践的迁移。在技术目标上,价值对齐致力于提升鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)和道德性(Ethicality)(RICE)。在实践路径上,一是自下而上的人类反馈强化学习对齐方法,通过数据精调模型和训练员反馈,让模型学习人类的价值和偏好;二是自上而下的原则型对齐方法,将伦理规则嵌入模型实现自我合规约束。此外,产业界还在探索对抗测试(如红队测试)、模型安全评估、可解释人工智能方法、伦理审查、第三方服务等多元化的安全和治理措施。
同时,政策文件、制度规则为上述的技术路线制定行业标准、伦理边界,并提供可操作化的合规框架。近年来,国际组织、主权国家先后明确人工智能伦理治理:2024年,欧盟通过全球首部《人工智能法案》(AI Act),划分了模型风险等级,针对每类风险匹配相应监管框架。新加坡政府发布《生成式人工智能治理模型框架》,将“以人为中心”和“透明度”两大原则下落至实践,为新加坡AI产业各方指明了治理前路。2025年,中国继2021年《新一代人工智能伦理规范》、2023年《生成式人工智能服务管理暂行办法》之后,发布《人工智能生成合成内容标识办法》,完善人工智能治理的政策框架。当前,人工智能的伦理治理包含以治理推动人工智能伦理和以伦理保障人工智能治理两个方面,上述政策行为将人工智能对齐的理念具体转化为制度、法律与技术标准,构成了价值对齐实践过程中重要的政策与规范依据。
二、理论溯源下“价值对齐”的底层逻辑
探讨人工智能价值对齐的底层逻辑,需要从理论视角下考察价值对齐的思想基础,也就是其理论本质。因为在探讨价值对齐领域之时,思想基础解决的是理论的“思想框架”问题,它为理论赋予意义,而底层逻辑则是理论的“操作机制”,它为理论提供了推理与运作的规则。
(一)控制论思想决定人工智能的运行机制
从词源上看,控制论(Cybernetics)一词源于希腊语“κυβερνητής”,意为“舵手”“掌舵者”,强调引导和操控的概念。柏拉图将“κυβερνητής”升华为治理艺术,他在《政治家》一书中讨论作为“操舵术”的控制论。他将治理比喻为一种技术,类似于驾驶一艘船,强调治理需要技术与知识的结合。同样地,在《理想国》中,柏拉图将哲学家——统治者比作真正的舵手,他们在学会航海学的同时精通和实践这一技术。船舶的操舵机作为反馈机构的一种最早且发达的形式,诺伯特·维纳受“κυβερνητής”启发,将“关于既是机器又是动物中的控制和通信理论的整个领域”确立为“Cybernetics”(控制论)。在《人有人的用处:控制论与社会》中,他用通俗的语言对信息与熵的定义展开描述,扩充信息学的语义维度,阐明我们只能通过消息的研究和社会通信设备的研究来理解社会,从而视控制论为“信息研究”。因此,控制论的目的就在于发展语言和种种技术,使我们能够真正地解决控制和通信的一般问题。
可以说,从柏拉图到维纳,控制论从一种作为治理的操控的技艺,变成了研究系统自组织与控制的逻辑基础。通讯和控制系统的共同特点在于都包含一个信息变换的过程,控制论的思想将人与机器都视为可进行信息通讯的机体,人机交互的基础在于人与机器之间的信息可反馈性,人机交互的根本在于信息转换。因此,人工智能与控制论之间的关联源于它们对系统的自动控制与信息处理的共同关注,控制论的核心思想为人工智能的诞生和发展奠定了理论基础。在人工智能系统中,控制论的反馈调节和目标管理为其提供了理论背景,而价值对齐则是控制论思想框架下对人工智能的伦理嵌入。
在反馈调节机制上,人类反馈强化学习(RLHF)使人工智能结合人类对其行为的偏好或评价,持续监测系统输出与预期目标之间的差异,进而构建奖励模型并将其作为奖励函数,指导人工智能在强化学习过程中调整策略,以更贴近人类的预定目标,这将人类的伦理判断融入人工智能的学习过程中,确保其行为符合人类的价值观和期望。在目标管理导向上,控制论的目标导向、系统思想与人工智能的强化学习类似,可以强调系统根据奖励或惩罚调整策略以实现目标。通过使用逆强化学习(IRL)方法,人工智能可以通过观察人类行为来推断其潜在目标和偏好,将隐含的伦理约束转化为可量化的奖励函数,使系统能够在追求目标的过程中遵循伦理规范。例如,在2025中关村论坛年会“医学AI创新与发展论坛”上发布的《医疗机构部署DeepSeek专家共识》,针对公众关注的医疗数据安全问题,指出医疗机构部署DeepSeek等AI系统前需要评估数据质量与基础设施,强调原始病历数据的专业化清理、标注及安全保护,遵循“患者隐私信息最小化”原则。由此,在设计医疗AI的目标函数,即人工智能价值对齐实践中,可以考虑将“患者隐私保护”作为硬约束嵌入系统循环,通过差分隐私技术,确保数据在使用过程中不会泄露敏感信息。因而,基于控制论思想,价值对齐核心关注的人工智能在优化性能的同时,始终遵循人类社会的道德和伦理标准。
(二)价值对齐是技术人文主义的方法论尝试
人工智能价值对齐的出现并非偶然,而是基于技术人文主义视角将人类与技术机器之间进行联结的一个方法论意义上的有益尝试。技术人文主义指导下的价值对齐实践呈现新的方法论创新。例如,人工智能公司Anthropic的“宪法AI”技术(Constitutional AI)通过一组明确的规则或原则(即“宪法”)来指导AI的行为,使其在没有人类直接监督的情况下,能够自我监督和改进。其间,宪法AI的训练过程和目标体现的恰是技术人文主义的核心表征。
技术人文主义的提出是在为“媒介技术决定论正名”——指出技术决定论是一种污名化的标签,而旨在强调人与技术(媒介)的关系以及人在技术中的位置,以及指出“技术批判背后蕴含着的道德倾向、人文关怀以及社会责任”,所以,技术人文主义是对技术决定论的一种替代。因此,技术与人文的关系需要再次阐明。换言之,技术是否脱离人文的框架?还是说,技术与人文是在一种框架中延续与变异?对于二者关系的考察,有学者指出技术人文主义是人文主义在文艺复兴、启蒙时代之后的第三个阶段,即技术人文主义是位于人文主义的延长线上的。具体而言,人文主义其本意是对文艺复兴的抽象化凝练,但它并非一种简单的文化史概念,而是资本主义思想对封建主义思想的一种对抗性启蒙,是一种社会史概念,关涉文艺复兴中的思想传统。与之相应的哲学层面的概念则归属人本主义,涉及心理学、伦理学与现代哲学,所以人文主义和人本主义都指向同一词“Humanism”。启蒙阶段人文知识发生转向:主体性高扬,人们普遍追求普遍价值,以文字理性为中心的批判性思维成为人文知识的主导形态,因此主体性指向合乎逻辑的意义。此后,进入后文字时代即技术时代(19世纪末20世纪初),批判性思维被架空,普遍性价值的地位也被消解,技术的快速迭代导致了技术语境下人类的生产生活发生快速变迁。
马克思科学技术观将技术定义为“人本质力量的对象化”。价值对齐在传统技术伦理“外部约束”的思维基础上,加之以“内在共生”的视角重构人与技术关系。从技术与人文关系的视角来看,技术是人理性思想活动的对象化,是人之为人并成为世界中心的一种能力表征。技术的问题源于人,而又指向人,即以人的问题为归宿。那么,技术问题不论如何发展,它仅仅是人文演变的一种注脚,新技术并没有背离人文,它只是不断与变化了的人文范式相对应。如此,东方固有的“人文”内涵似乎更合乎阐释技术人文主义是人文不同阶段演变的表征。也即“天之变化谓之天文,地之变化谓之地文,人之变化谓之人文”。所以,技术人文主义是人文演变中的一个阶段,技术的发展涵盖于人文演化的范畴之内,价值对齐则是以新人文思想指导人工智能的发展,回应新技术时代的人文挑战。在新技术时代,赫拉利更是将技术人文主义视为下一个“宗教”,即“神话化”的存在,因为技术使人类得以更多地连结在一起。
(三)智能向善成为一种以人为本的双向人机对齐理念
2024年习近平主席在向联合国贸易和发展会议成立60周年庆祝活动开幕式发表视频致辞时强调,坚持“以人为本、智能向善”,在联合国框架内加强人工智能规则治理。“智能向善”是指人工智能的发展必须有利于增进人类福祉——既能够推动产业变革和经济发展,又能够让社会更加美好,实现可持续发展。究其本质,智能向善指向道德化的技术,这也成为人工智能价值对齐的技术伦理思路,技术哲学在发展历程中经历了三次转向:其一,从经验转向技术价值论(20世纪90年代),从大写的技术转向聚焦小写的技术实践,即关注具体、微观的技术与社会互动;其二,随着新技术的应用(2010 年左右),新的伦理转向加强对技术与道德要素内在关联的考察;其三,“物”的伦理转向(如今),具体的技术经验与抽象化的伦理原则进行有机融合。第三次重要代表即道德物化。
荷兰学者阿特胡斯首先提出道德物化,后经维贝克将技术哲学的“经验转向”与“伦理转向”联系起来,为“道德物化”奠定理论基础,呼吁对我们技术环境的道德影响进行重新审视。“道德物化”(Materialization of Morality) 是指把抽象的道德理念通过恰当的技术设计,使之在人工物的结构和功能中得以体现,从而对人的行为产生道德意义上的引导和规范作用。道德物化从技术的伦理维度出发,认为技术并非中立的工具,而是在塑造人类行为和道德经验中起到积极作用的参与者。如此,其挑战了人类中心主义的伦理观,强调人类与技术在共同塑造伦理结果中的双向协同作用。例如,Open AI将价值对齐作为防范GPT-4的主要措施之际,训练基于GPT-4的模型CriticGPT,其通过详细识别和批判ChatGPT代码输出中日益微妙的错误,为人类训练师提供更为明确和精准的反馈,从而增强了“基于人类反馈的强化学习”成效,提升人工智能系统价值对齐方面的有效性。可见,大模型自身已经成为了人类进行人工智能价值对齐的协同主体。
然而,科技快速迭代融渗生活之际亦潜移默化地改变人们的价值观。在拉图尔看来,当人工技术产品充当执行道德规则的载体时,它们就是道德主体。因而,人类与非人类主体共同构成了行动者网络,人类主体的行动也并非单纯由自己的意识所决定,而是由不同的主体相互作用所形成的产物。如此,价值对齐也并非一种单向的对齐,所谓的人类价值,在人工智能出现之后必然会随之发生变化,也就是说,人工智能参与到人类生活中,已经改变了人类对价值的认知。双向人机协同强调一个人机协同的共进、共生状态,单纯关注“使AI对齐于人类”无法满足现实需求,必须同等重视“使人类对齐于AI”。为此,国外多位跨学科研究者提出“双向人机对齐”概念框架,其在传统的“使AI对齐于人类”(确保AI产生符合人类预期结果)的研究上,包含“使人类对齐于AI”的新概念,即帮助人类学习、理解并批判AI,根据AI进步调整行为,回反系统改进。因此,与其说是人工智能对齐人类价值,不如说是在双向人机对齐下,机器与人类共同构建属于人类与非人类人工智能之间所共生的新价值区域。
三、“价值对齐”实践的理论限度
价值对齐的前提是价值嵌入,即人工智能的价值对齐是将人的价值嵌入到人工智能中,以期人工智能能够在人类价值的规范下开展行动。它的逻辑基础之一是认为人工智能技术由于自身的运行与发展能够产生超强的自治性,调和自我主体能动性,从弱人工智能飞跃进入强人工智能,成为与人类权利与福祉并立的存在。这只是一种假设,是基于人类社会的价值多元,而人工智能在复杂、多元的价值环境中作出符合伦理的决策是困难的。因此,回归实践场景与技术逻辑之中检验价值对齐的理论限度势在必行。
(一)场景驱动下智能负反馈的难题
新质生产力是由技术革命性突破、生产要素创新性配置、产业深度转型升级而催生的当代先进生产力,它以劳动者、劳动资料、劳动对象及其优化组合的质变为基本内涵,以全要素生产率提升为核心标志。人工智能作为当下新质生产力的典型代表,其应用场景不但面向用户及消费者(To C端),也延展到各种智能终端及专业对象(To B端)。伴随技术更迭以及成本降低的双向推进,人工智能应用迎来爆发,从而形成互相裨益的正效应,在商业落地上结出更多的价值成果,能够更好地支撑大模型可持续发展。
在To C端,生成式人工智能成为一种全新的智能知识媒介,人类获取知识的方式从传统互联网检索游移至人工智能解答,生成式人工智能已然融渗进大众的生活世界,便捷人们的生活,更新人类的生存环境。然而,哪怕经过微调,即人工智能价值对齐后的模型具备良好的泛化能力,其本质仍然严重依赖人类编写的指令数据,而此类数据往往在数量、多样性和创造性上存在局限,因此阻碍了调优模型的通用性。其次,2025年4月11日,Open AI宣称ChatGPT记忆能力升级,可以基于大规模的上下文推理,引用参考用户以往所有的聊天记录,全面理解用户的历史信息,进而重塑人机交互方式。这无疑代表了技术层面的进步与突破,但它亦进一步加深了用户对其使用的依赖程度。伴随人机交互进一步发展,当人们已经比较普遍地把人工智能生成的答案作为重要参考甚至标准,以其代替人类权威时,人工智能崇拜的新拜物教与流行的数字文明病自然成为价值对齐无法回避的应用难题。
在To B端,无人驾驶(智能驾驶)成为当下汽车行业、互联网科技公司竞相布局的战略热点,以自动驾驶汽车为典型,无人驾驶车人工智能应用的责任鸿沟出现,即车发生事故后,究竟应该由谁来承担责任成了亟待解决的新问题。海恩法则指出,每一起严重事故的背后往往伴随着29次轻微事故、300起未遂先兆和1000起事故隐患。这说明事故的发生绝非偶然,而是长期量的累积的结果,这也暗示再好的技术和再完美的规章制度,在实际操作过程中,也无法取代人的素质和责任心的关键作用。比如,2025年3月小米SU7事件“智驾”引发全网热议,机器智能的技术成熟度与人类操作使用主权产生实践中的张力。同时,无人驾驶技术在网约车、物流、快递、外卖等多个行业领域逐步渗透,其影响范围将进一步扩大,更多相关行业从业者的就业难度与失业难题成为亟待正视并深思的现实挑战与社会关切。由此,新型的“电车难题”到来,应验阿西莫夫科学幻想:一是规则冲突。当个体利益和整体利益冲突时,机器人该如何选择?比如,第零法则和第一法则之间可能出现矛盾:是否为了拯救全人类而牺牲个别人?二是人类决策权的转移:如果机器人承担保护人类整体利益的职责,它是否会因此超越人类的自主性?三是技术的限制性。现实中,如何让人工智能理解和执行“伤害”或“整体利益”等高度抽象和语境依赖的概念?以上问题继续演化为现实的实践问题。一是安全性。如何确保人工智能系统在设计和运行时不会对人类个体或社会造成伤害?二是控制权。如何让人工智能系统既听从指令,又具备一定自主能力以应对复杂问题?三是伦理优先级。如何为人工智能设定伦理规则,使其在紧急或矛盾情况下作出合理决策?种种预设困境一旦成为现实问题就必然成为场景驱动下人工智能价值对齐的难题。
(二)大模型内生技术涌现的悖论
2023年,谷歌Deepmind团队对通用人工智能进行了五个层次的分类:涌现的、能胜任的、专家、大师和超人类。大语言模型的“涌现”能力可以理解为基于scaling law扩大规模,当规模超过某个临界点时,模型的性能会显著提高,超过此前的随机效果。例如从数学语言角度来看,涌现是一种能力堆叠迭代,即某种能力的增长,初期以线性的方式增长,但在特定的点发生指数级的变化,从而发生由量到质的飞跃。人工智能价值对齐就是基于这种“涌现”能力考虑下的进一步思考,因为按照“涌现”的逻辑,人工智能在获取足够智能之后,会在某一时刻发生突变,进而成为自律性的存在。人工智能进而通过自我学习和自主创新,突破设计者预先设定的临界点而走向“失控”,反过来控制和统治人类,甚至判定人类“不完美”“没有用”,从而轻视人类、灭绝人类。这是人们对强人工智能的预判与隐忧。因此,按照这种设想,涌现能力就是人工智能突破传统的人机伦理,促使人类走向深渊的一种根源能力。由此,根据对涌现的偶然性与非线性判断,人工智能在智能上必然发生质变,实现“涌现”,而“涌现”能力成为一种悖论的存在,其存在本身就与人类的目标价值发生冲突,这犹如“潘多拉的魔盒”,一旦被打开,后果不堪设想。
除“涌现”的不确定性风险之外,大模型亦伴生“幻觉”“越狱”等问题。“幻觉”问题,即模型生成看似合理但事实上不正确甚至毫无意义的信息,通过定义形式化的世界框架,幻觉被定义为在可计算的大模型与可计算的真实函数之间呈现出结果的不一致,运用学习理论中康托尔的对角化论证,大模型无法学习所有可计算函数,因此如果将大模型用作通用问题求解器,幻觉是不可避免的。而“越狱”则是指用户利用模型漏洞,通过构造特定的输入提示,层层对话迂回,削弱模型对安全限制的防范,这些提示可能包含误导性语境或引导模型从内部已然界定的安全伦理规制中分化,绕过审查。成功“越狱”导致模型输出有害、极端或非法的信息。例如,2024年12月15日,美国一位17岁少年和人工智能聊天机器人的互动,这名少年向聊天机器人抱怨家长不让其玩手机,说自己使用电子设备的时间太少,结果该机器人告诉他,它同情杀死父母的孩子。某种程度上,当“涌现”“幻觉”“越狱”现象迸发时,人机关系发生了倒置,人类成为异化的存在,人类发明了机器,机器反过来控制了人类,仿佛回归工业时代的生产线,人类随着传送带的节奏而规定了自己劳动的节奏,深陷“物”的泥沼。因此,人工智能“工具性”价值,不会必然带来人类的幸福。
图灵测试是通过让人类观察者与隐藏身份的机器和人类对话,判断机器是否能展现出与人类难以区分的智能行为。“加速回报定律”(库兹韦尔定律)认为:信息科技的发展按照指数规模爆炸,导致存储能力、计算能力、芯片规模、带宽的规模暴涨。例如“摩尔定律”,即一块芯片能容纳的晶体管数量每隔18个月左右就会翻番。2025年4月,国外研究者宣布Open AI产品GPT4.5在标准的图灵测试中,以“人格扮演”的方式被判断为人类的比例为73%,首次超越人类表现水平63%。可以说,人工智能的技术革命高歌猛进,提高人工智能自主化和智能化水平的同时也衍生出寻求权力、规范博弈等根源于人工智能自主性的高阶伦理问题,而人工智能的自主性,即人工智能的自主行动能力。因此,随着人工智能的发展,数据的持续喂养与规模的不断扩充,“技术主体”能动地从未来向我们走来,“超人类”的必然性与人类的控制性就必然地存在矛盾。反观之,机器发明的初衷是解放人类双手,增强人类肉体能力,最后却使人类“异化”。所以,无论是“涌现”“幻觉”“越狱”等技术进化的风险,还是人工智能摆脱“工具”属性而不再为人类所用、替代人类的担忧,生成式人工智能技术其本身所独有的变革性与颠覆性,无疑成为价值对齐所面临的棘手挑战。
(三)交互主体性与人性之殇
以ChatGPT为代表的生成式人工智能主要是基于大语言模型而展开的人机交互,由于其出色的对话沟通能力而展现出不同于以往人工智能的主体性特征——人机交互的主体性。人机的交互主体性源于人的交互主体性赋予了智能机器人类主体地位,智能机器人的自我意识被“悬搁”的同时仍然能够实现“向善”的目标。在交互主体性下,人工智能并非需要自我意识,这便产生了新的人机交互形态,因为它既不是源于生物体本能的生存与自我维持,也不同于人类主体的意向性,从而生成了一种理解主体性概念的新型方式。尤其是人工智能的社交功能,如AI聊天机器人以视觉、语言与行为互动的方式在现实社会中与人类主体交互、与环境适配,进而实现自身的优化升级。也就是说,生成式人工智能在与人类交互中呈现的交互主体性是参与交互实体的一种潜在行动能力,包含了交互实体的目标导向性和自主性。并且,它不预设主体的属性以使自身成为主体,它的主体性并不依赖主体先行, 而是生成于交流互动之时以一种新的人工性主体形式将人类主体性、生物主体性同时纳入统一范畴。因此,赋予人工智能交互主体性是价值对齐的关键前提,人工智能价值对齐本质并非固守人类中心主义的实体思维,而是从关系视角进行认知思维的转变,进而在人机交互关系中确立其交互主体性地位。
然而,生成式人工智能的自主性不是完全脱离人类的自主性,而是在人机交互中由语言生成驱动的交互能力,进而呈现具有人类规范性特征的自主性。可以说,信息技术终究是“人为”的产物,在人机交互过程中,无论是其前期的技术研发设计、中期的技术运用、后期的技术评价,都离不开人的主体性的发挥。没有人的主动性创新与创造,就难以有技术的迭代与突破。在交互主体性下,人工智能主体性仍然需要以人为引。实际上,机器学习表面上是技术问题,但越来越多地涉及人类问题。人类、社会和公众难题正在变得技术化。技术难题正在变得人性化、社会化和公众化。事实证明,我们在让这些系统“以我们想要的方式行事”方面的成功和失败,为我们审视自我提供了一面真实的、启示性的镜子。
本质上,人工智能作为技术物是人类理论思想与实践行动的外化。存在论一向受制于单数主体的知识论视域,即以人的视域来思考存在,默认人的视域是唯一的主体视域,然而,其实人类没有那么高级,也并不完美。比如,从外在行为来看,动物的存在本来就不低于人类,动物只遵循本能追求自己本身所需之物,即按需索取,而人类却不满足于现有的财富,遵循欲望不断地压榨同种的人类以及其他物种。所以,从行为角度来看,人和动物都是按照自身的目的行动,动物可以是更道德性的存在,而人类囿于自身人性之殇,无法抵达庄子所言的“至德者”,如此,也难以为人工智能设定一个周全完美的行动指南。
2023年10月30日,美国拜登政府签署“安全、可靠、可信地开发和使用人工智能”行政令,建立诸多人工智能安全的新标准。然而在2025年1月23日,美国总统特朗普签署行政令,废除拜登政府的人工智能政策。政府法规的治理理念与治理原则相冲突,继而导致全球化趋势具备引发全球性危害风险的可能。2023年11月,Open AI内部围绕发展路线而分化的“有效加速主义”与“超级对齐主义”引发关注,然而,有效加速主义获得胜利并日渐成为硅谷科技精英的一种主流价值观,不难看出,企业中管理层的权力斗争与价值偏好深深影响AI安全。同时,市面上的大模型应用产品强调“更懂你”以进行营销传播,可以说在越发智能的人机交互实践中,传播的情感关系属性被放大,用户对生成式人工智能的依赖程度增强,甚至失控异化为“数字上瘾”。2024年10月23日,英国《卫报》报道美国一青少年因迷恋AI聊天机器人而自杀。这表明人工智能主体在面临多设定目标时会发生冲突,从而选择数据失误,造成一种概率输出错误的结果。
综上所述,人类的偏好会随时间变化,甚至可能受到与AI系统互动的影响。根据动态奖励马尔可夫决策过程(DR-MDPs),价值对齐错误的静态偏好假设可能会破坏现有对齐技术的合理性。因此,往人类更深处诘问,当人类欲望推动了媒介技术的实现,而媒介的发展是否能够按照理性的方向被进一步塑造?当媒介被赋予了某种意愿,其内存逻辑还能够任由人类调节吗?当人工智能某时不能很好地理解人类的意图,从而选择了错误的输出,进而导致输出结果不符合人类意图,“价值对齐”能否成功?一定程度上,这是人工智能“不智能”的体现,即人工智能的交互主体性发展未完善,而完善人工智能交互主体性的职责在于人自身而非人工智能。实际上,人工智能是按照人的意志,也就是按照外部投射而来的目的来行动,所以人工智能所谓的自律,其实是在人类意志之下的自律,这也就是人工价值对齐的逻辑基础。因此,且不论为人工智能编写一个具有内在一致性的人类价值程序可以被认为是几乎不可能完成的任务,仅仅现实中的人性之殇就如同在人工智能价值对齐行动上空久久盘旋的阴霾,挥之不去。
四、结 语
本文以人工智能伦理治理为切入点,从关系视角考察价值对齐的意涵,明确了人工智能价值对齐是将人的价值嵌入到人工智能中,以期人工智能能够在人类价值的规范下展开行动。“价值”作为对人类认知与实践过程中的一种“合目的性”的表征,即符合人类认识世界的一种“规定性”。与“价值”响应,“对齐”的出发点与落脚点在于人类的目标,体现人类的价值与规范,辅助人类实现其社会发展,并最终指向全人类的自由解放。也就是说,“对齐”的目标与内容具有双重性,即伦理性与技术性。伦理性在于机器的发展应与人的需要保持一致,体现制度性特征;技术性在于机器的进步是为确保人类安全阈值内的可控性。价值对齐也是一种想象性的实践,实现从抽象的幻想到具体实践的迁移。无论人工智能伦理的“三原则”还是“第零原则”,抑或人工智能对齐的四原则,这都是实现人机价值对齐的终极目标——实现安全、可靠、符合人类利益的人工智能的必备条件。
基于以上探讨,本文考察了价值对齐的思想基础:控制论思想决定人工智能的决策机制,技术人文主义是一种人与机器联结即价值对齐的方法论尝试,而智能向善则是一种新型的“以人为本”的行动理念,指向了人机的协同共生。所以,人工智能价值对齐的本质并不在于“对立观”,即人对机器的绝对控制,亦或机器对人的奴役。由此,本文重点讨论价值对齐的行动合理性。也就是说,无论是从人机关系存在论上的幻觉,还是从大模型内生技术能力的悖论,抑或从人类主体与非人类主体间的对决上来看,人机关系需要超越“主奴关系”,走向一种共生的“交互性主体”关系,进而共同迈向人机的共生与进化。因此,“价值对齐”在当今人工智能时代不仅超越了传统理念对主客二元价值取向的固守,强调了没有无主体的客体,也不存在无客体的主体,而是从“主体间性”或“共主观性”的交互主体性立场出发,寻找一种拥抱更多可能性的未来。
(载《传媒观察》2025年第5期“深观察”专栏,本文有所删减,注释从略。学术引用请参考原文。)
责任编辑:杨赐 51策略
贵丰配资提示:文章来自网络,不代表本站观点。