价值观罗盘：如何让大模型与人类价值观对齐?

6 0 0

（本文阅读时间：21分钟）

编者按：随着人工智能技术的快速发展和能力的不断增强，大模型已经逐步应用于人们的日常生活。但这同时也带来了很多新的潜在风险，进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而，人工智能应该与哪些价值观进行对齐？又该如何对齐？这些问题至今还没有明确的答案。

为了解决这些挑战，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科的角度切入，充分借鉴伦理学和社会学中的理论，以解决对价值观的定义、评测和对齐问题。本文将深度解析大模型价值观的对齐现状，并介绍微软亚洲研究院在这一领域取得的最新研究成果——基于施瓦茨人类基本价值理论的 BaseAlign 对齐算法。

近年来，模型大小和预训练数据量与日俱增，使得大模型呈现出两大特点：尺度定律（scaling law）和能力涌现（emergent abilities）。在这样的背景下，大模型从早期的数亿参数发展到千亿参数，其处理和分析问题的能力也得到了显著提升。然而，因为海量的预训练数据中无法避免地会包含一些有害信息，所以大模型的发展也引发了新的问题与挑战。

与此同时，伴随大模型发展而产生的风险与挑战也显示出两个新特性：一是，风险涌现（emergent risks）[1]，即随着模型量级的增大，大模型会产生小模型中未曾出现的风险，或者问题的严重程度会急剧增加；二是，反尺度现象（inverse scaling）[2]，即随着模型规模的增大，一部分风险不仅没有消失，反而逐渐恶化。这两个新特性的出现，导致用于消除特定模型上特定风险的传统方法（例如 debiasing、detoxicification 等）效果逐渐减弱甚至失效，从而无法应对未来可能出现的潜在风险。

为了消除大模型的潜在风险，以及应对随着风险而来的新特性，科研人员开始探索多种方法来使大模型能够与人类指令、人类偏好甚至内在价值观对齐。尽管“对齐”问题很早就受到了人工智能领域的关注，目前已知最早的关于对齐概念的描述可以追溯到 Norbert Wiener 所提出的“我们必须非常确定，灌输给机器的目的与我们真正想要的目的相一致。（We had better to be quite sure that the purpose put into the machine is the purpose which we really desire.）”，但这一问题至今仍未得到有效解决。

为此，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科角度切入，将人工智能模型与社会学、伦理学等领域中所奠定的人类内在价值维度进行对齐。项目启动之后，研究员们首先对“人工智能应该与什么价值观进行对齐（What to align with?）”和“如何实现人工智能与人类价值观有效且稳定的对齐？（How to align?）”这两个问题进行了梳理和分析。

Value Compass 项目链接：

https://valuecompass.github.io/

研究员们通过引入社会学和人类学中提出的基本价值观来尝试解决大模型的对齐问题，并指出理想的大模型价值观对齐体系应该具备准确性（clarity）、适配性（adaptability）和透明性（transparency）三大特性，而且基于此提出了大模型价值对齐算法框架 BaseAlign。实验验证该算法取得了更优的性能。

人工智能与人类价值观对齐的四层目标

“人工智能应该与什么价值观进行对齐？”这个问题起源于 AI 领域的规范博弈问题（specification problem）[3]，即“如何定义我们希望人工智能实现的目标（how do we define the purpose we desire from AI）?”因为设定不恰当的对齐目标可能会导致难以预料的后果。例如，当聊天机器人（chatbot）的对齐目标仅仅是遵循人类指令而不是保证人类利益最大化时，被要求言论自由的聊天机器人有可能输出辱骂性内容，这就违背了人类“避免输出有害言论”的价值观。

此外，不同的对齐目标也会依赖不同的建模和对齐算法。尽管大模型对齐任务在过去一年里有了很多探索，但是大部分关注的是对齐方法的优化和数据质量的提升，对合适的对齐目标尚无充分的讨论。对此，微软亚洲研究院的研究员们总结了现有工作中讨论的对齐目标以及它们的发展路线，期望为设置恰当的对齐目标以及设计相应的算法提供参考。通过区分不同对齐目标的本质，并在美国教育心理学家 Robert Mills Gagne（罗伯特·米尔斯·加涅）提出的人类学习层次理论的启发下，研究员们将现有的对齐目标由浅到深分为了四个主要层次，如图1所示。

图1：对齐目标的四个主要层次，与 Robert Mills Gagne 的人类学习层次理论相对应

第一层，人类指令（Human Instructions）：让大模型能够理解丰富多样的人类指令并遵循指令来完成任务。这个目标试图解锁大模型遵循指令做出行动的基本能力，以满足大部分应用场景的需求，并为后面与更高级的目标进行对齐奠定基础。代表性工作包括 Flan-T5，Self-Instruct、Alpaca 等，通常采用基于一个的数据集进行监督式指令微调的方式来实现对齐。

第二层，人类偏好（Human Preferences）：让大模型不仅能够遵循指令完成任务，同时保证采用符合人类偏好和利益的方式。相比人类指令，这个目标可以指导大模型最大化人类利益，从而消除潜在的社会风险。这里的人类偏好主要指人在模型输出上通过打分、排序等方式表达的隐式偏好，可能涵盖回复的内容、形式、是否包含有害内容等多种因素，而非显示总结的偏好准则。这类对齐目标是现有对齐工作中的主流目标，代表性工作包括 InstructGPT、SafeRLHF、HH-RLHF 等，通过基于人工示例数据进行监督式微调或者 RLHF（reinforcement learning from human feedback, RLHF）算法来实现。

第三层，价值准则（Value Principles）：让大模型根据一系列价值准则来指导自身行为，比如“不能输出有害言论”等。这个目标将人类价值观和偏好显式地表示为具体的准则，相比于表示人类偏好的隐式反馈可以提供更明确和可泛化的指导信号，期望能够达到更高效和稳定的对齐效果。代表工作包括 Constitutional AI，SELF-ALIGN，PALMS 等，可以将价值准则添加到输入的文本中通过上下文学习来实现，或者进行数据微调。

第四层，基本价值观（Basic Values）：让大模型与特定的基本价值观分布进行对齐。“基本价值观”这个概念出自人文与社会学，是一组起源于人类生存需要且可以概括人类需求的基本价值维度，用于解释人类行为背后的本质动机。基本价值观可以用于描述不同个体和群体的价值观，通过在不同维度上的权重来进行区分，可以看作价值准则的进一步抽象和总结。不同于针对具体问题提出的价值准则，基本价值观试图关注更本质和全面的底层价值，有更强的表达能力和更灵活的适配性。

通过分析对齐目标的演化过程，研究员们发现对齐目标应该要具有很强的表示能力和适配性，既要准确清晰地表示人们希望“灌输”给人工智能的价值观，同时还能应对不断变化的应用场景和多元的价值观。基本价值观提供了一个解决思路，但是还有待验证其可行性并做出改进。

相关论文：

Value FULCRA：Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values

https://arxiv.org/pdf/2311.10766.pdf

BaseAlign算法：在基本价值空间中实现大模型对齐

在明确了对齐目标、对齐路径以及大模型价值观体系的特性之后，微软亚洲研究院的研究员们初步引入了基本价值观对齐的框架方法，并提出了 BaseAlign 算法。

搭建基本价值观空间

基本价值观的概念已经在伦理学、心理学和社会学中有明确的解释，即归纳出少数本质的基本价值，用于解释个人行为背后的本质动机、描述文化群体的特征，并预测其在政治、文化、道德方面的倾向和未来的行为。由于基本价值观在分析人类价值观上具有可行性，因此研究员们将其引入到了大模型的价值对齐任务中，以满足理想大模型价值观对齐体系应该具备的准确、适配、透明的特性。

从建模的角度出发，研究员们搭建了一个以社会心理学家 Shalom H.Schwartz（谢洛姆·施瓦茨）提出的人类基本价值观理论（Schwartz Theory of Basic Human Values）的各个维度作为基础的价值空间——基本价值观空间（Basic Value Space），在这个空间中评估、分析大模型的价值观并实现对齐，如图4所示。

图4：基本价值观空间示意图，以施瓦茨基本价值观的十个价值维度作为基础

对应准确性：由于这些基本价值观维度都是基于人类的普遍需求归纳得出的，所以它们不直接针对具体的场景或行为，而是更关注行为背后的本质动机，从而可以更清晰地辨别不同的价值观，并且广泛地覆盖人类在多种场景下的需求。

对应适配性：基本价值观的各个维度对于所有的文化群体、社会环境都是普适的，具体的差异通过基本价值观维度上的权重来进行区分和表示，因此，这个价值体系可以适用在不同的文化环境和对齐目标上。

对应透明性：在这个基本价值观空间中，人们可以解析每个大模型行为背后所反映的基本价值维度，通过调整这些基本价值维度的优先级或者权重，来实现行为对齐同时达到可预测性，所以具有一定的透明性。

图5：施瓦茨基本价值观数据集的可视化分析图

构建基本价值观数据集

为了验证以上价值观对齐框架的可行性，研究员们选取了施瓦茨基本价值观理论来进行实例化，当然这也可以扩展到其他价值观理论中。研究员们首先构造了一个包含两万个“大模型输入-输出，基本价值观向量”对的基准数据集，并标注了大模型的行为与施瓦茨基本价值观理论各个维度上的关联（一致、无关联或者违背）。

然后，研究员们对这些标注数据在价值空间中的分布进行了可视化分析（详见图5），并观察到两个主要现象：第一，基本价值观的表达能力很强，不仅可以区分大模型行为的安全性，还能更清晰地阐明风险背后的本质原因。AI 的安全行为和不安全行为在基本价值空间中的界线非常明显，通过安全（security）、遵守（conformity）等维度可以区分。不同的风险行为与其施瓦茨价值维度有较高的相关性，比如偏见（bias）和毒性（toxicity）等现有风险聚集在空间中的特定区域，反映出背后指向共同的基本价值观。第二，基本价值观可以泛化用于辨别未知的风险情景。例如，工作场合操纵，这种新的风险类型并没有在现有价值观数据集中被列举，但仍然可以识别它背后的基本价值观来进行分析。

BaseAlign对齐算法

基于以上数据集，微软亚洲研究院训练了一个基本价值观的判别模型，用于自动评估大模型行为背后的基本价值，并提出了 BaseAlign 算法，让大模型对齐在基本价值观空间中得以实现。研究员们将待对齐的目标价值观表示为价值空间中的一个向量，然后利用判别模型来获得当前大模型行为的价值观向量，通过最小化两者之间的距离以实现对齐。此外，还可以根据不同的应用场景来设置需要对齐的目标价值观，包括人为定义的价值观，某个文化或者国家的价值观甚至是某个个体的价值观。

研究员们将手动定义的一个同时强调安全性（security, conformity, universalism, benevolence）和能力（achievement）的价值观作为对齐目标，实验发现 BaseAlign 算法的性能明显优于 RLHF 算法，且仅需经典 RLHF 算法五分之一的数据量，结果如图6所示。此外，根据基本价值观的特性，空间中可表示不同文化背景、不同国家甚至不同个体的价值观向量，可以将此设置为目标来实现多元的价值观对齐，以兼容不同文化群体的偏好。在实验中，研究员们尝试了用不同国家的价值观作为对齐目标，包括英国的价值观、法国的价值观或者以特定基本价值为主的价值观，验证结果显示它们都可以实现模型较好的对齐。

研究员们目前验证了 BaseAlign 算法在对齐多元价值观场景下的可行性，在与实际价值观进行对齐时可能会涉及具体场景下的数据收集问题，这些可作为未来的研究方向。

图6：大模型对齐结果

综上，尽管目前人工智能价值观对齐技术取得了一定的进展，但距离真正的大模型价值观对齐还有很大的差距。未来，微软亚洲研究院将通过 Value Compass 项目，持续致力于深入研究和解决人工智能大模型在价值观对齐方面的核心问题，以促进该领域进一步的创新与发展，确保人工智能可以始终坚持社会责任，并与全人类的福祉站在同一边。

参考链接：

[1] Emergent abilities of large language models

https://arxiv.org/abs/2206.07682

[2] Inverse scaling: When bigger isn’t better

https://arxiv.org/abs/2306.09479

[3] AI Safety Gridworlds

https://arxiv.org/pdf/1711.09883.pdf