大模型对齐综述
Published:
背景
在过去的十年中,深度学习取得了长足的进步,导致了在各个领域具有卓越能力的大规模神经网络的出现。这些进步代表了从符号系统到基于深度学习的系统的转变。此类系统在许多环境中都表现出了显着的成就,包括游戏环境和更复杂、甚至高风险的现实场景。特别是,大语言模型在多步推理和跨任务泛化方面表现出了改进的能力,这些能力随着训练时间、训练数据和参数大小的增加而增强。
随着能力的提高,风险也会增加。大语言模型的一些不良行为(例如,不真实的答案、阿谀奉承和欺骗)随着模型规模的增加而恶化,导致人们对难以控制的先进AI系统的担忧。此外,诸如基于大语言模型的代理人等新兴趋势也引发了人们对该系统的可控性和道德性的担忧。展望未来,日益强大的AI系统的发展为在可预见的未来实现通用AI(AGI)提供了可能性,即系统可以在所有相关方面匹配或超越人类智能。这可能带来自动化、效率提高和快速技术进步等广泛机遇,但也带来严重风险,如安全问题、偏见和不平等,以及超人能力带来的大规模风险。
具体来说,当前的尖端AI系统已经表现出多种可能与人类意图相反的不良或有害行为(例如,寻求权力和操纵),对更先进的系统也提出了类似的担忧。这些不符合人类意图的不良或有害行为(即所谓的AI系统的misalignment)可能在没有恶意行为者滥用的情况下自然发生,并且是包括安全隐患和潜在的生存风险等的AI风险的重要来源。这些大规模风险的规模很大,因为构建的超级智能AI系统追求大规模目标,而这些目标与人类意图和价值观不一致会导致人类失去对未来轨迹的控制。
解决misalignment带来的风险需要AI系统的对齐技术,以确保AI系统的目标符合人类的意图和价值观,从而避免意外和不利的结果。更重要的是,对齐技术应当能够扩展到更困难的任务和比人类更聪明的AI系统上。一个潜在的解决方案是Super Alignment,其目标是建立一个大致达到人类水平的自动对齐研究人员,从而使用大量计算来扩展和迭代对齐超级智能。
对齐的目标
对齐没有一个普遍接受的定义。为了明确定义对齐目标,必须准确描述人类意图,可以将意图分为几类,例如指令(遵循人类的直接命令)、表达的意图(按照人类的潜在愿望行事)、显示的偏好(反映人类基于行为的偏好)。具体而言可以使用四条原则描述对齐的目标:
- 鲁棒性(robustness):鲁棒性是指AI系统在不同场景或对抗压力下运行时的弹性,尤其是面对能力之外目标时的正确性。强大的AI系统应该能够应对黑天鹅事件和长尾风险,以及各种对抗压力。
- 可解释性(interpretability):可解释性指我们应当能够理解AI系统的内部逻辑,尤其是神经网络的内部运行方式。一种方法是按诚实,不欺骗不操纵的目标搭建AI系统,另一种方法是搭建可解释性工具来检测神经网络的内部概念和机制。除了安全性评估,可解释性也使决策过程可理解,方便进行人类监督。
- 可控制性(controllability):可控制性是指确保AI系统的动作和决策执行过程取决于人类的监督和干涉。可控制性的目标主要关注在训练过程中支持可扩展的人类监督,以及AI系统的可改正性(在部署是可以关闭或修改目标)
- 道德性(ethicality):道德性指系统坚定支持普遍接受的规范和价值观,包括道德指引和其他的社会规范/价值。
对齐的范围
对齐可以分为前向对齐过程和反向对齐过程:前向对齐过程旨在训练遵循对齐要求的AI系统,包括根据反馈学习和在分布迁移下学习两个任务;反向对齐过程旨在确保经过训练的系统的实际对齐,包括保险(Assurance),即通过在简单和真实的环境中进行评估并建立监管方法来处理现实世界的复杂性;以及治理(Governance),即确保AI系统安全开发和部署规则的创建和执行,以及根据系统的评估和监控更新对齐要求。前向对齐和反向对齐过程构成了一个对齐循环,前向对齐根据对齐要求训练AI系统,得到的AI系统通过反向对齐过程进行各项原则的评估,对对齐要求进行更新,然后前向对齐再根据更新的对齐要求进行对齐。
- 根据反馈学习(Learning from Feedback):根据反馈学习考虑在学习过程中如何根据AI系统的行为产生和使用反馈的问题。使用输入-行为对作为已知信息,仅考虑如何根据输入-行为对产生和使用反馈。一种典型方法是根据人类反馈的强化学习(RLHF),RLHF面临的挑战包括可扩展的监督(即为超人类能力的AI系统提供高质量的反馈,这些系统在人类无法掌握的复杂情况下运行,因此行为可能不容易理解),以及提供道德反馈的问题,一般通过机器道德方向解决。在道德方面,不一致也可能缘于忽视价值观差异的某些关键维度。
- 在分布迁移下学习(Learning Under Distribution Shift):在分布迁移下学习主要关注在分布变化情况下保留对齐属性(即遵守人类意图和价值观)而不是模型能力,即考虑如何确保在训练分布上良好对齐的AI系统在现实世界中部署时也能良好对齐。面临的挑战包括目标误泛化(即在训练分布下AI系统的预期目标与其他未对齐的目标无法区分,系统学习后者导致部署分布中的不一致情况),以及自动诱导的分布迁移(即AI系统改变其输入分布来最大化奖励)。干涉方法包括算法干涉(改变训练步骤来提升在其他分布下的可靠性)和数据分布干涉(扩展训练分布来减少训练和部署分布的不一致性),前者包括风险外推(Risk Extrapolation,REx)和基于连接性的微调(Connectivity-based Fine-tuning,CBFT),后者包括对抗训练和联合训练。
- 保险(Assurance):保险关注于评估训练好的AI系统的对齐程度,方法包括安全性评估,可解释性技术和红队测试。保险也涵盖使用人类价值验证系统对齐程度,包括侧重于可证明的合作性和道德性,以及广泛的实验和经验方法。
- 治理(Governance):关注AI系统的一致性和安全性,覆盖系统的整个生命周期。方法包括政府法规,实验室自治和审计等第三方实践。
对齐的理论性研究包括概念性框架和数学化表达两部分。概念性框架包括工具收敛(其中高度智能的代理倾向于追求一组共同的子目标,例如自我保护和寻求权力)、mesa优化(其中模型在推理过程中在自身内部执行优化)以及特定的建立一致系统的建议,例如以批准为导向的代理(其中AI系统不追求目标,而是寻求人类对行动后果的理想化事后批准)。数学化表达追求将对齐任务进行数学化表述,然后寻求形式解。
原则中的道德性指AI系统不仅要与价值中立的人类偏向对齐,也要考虑与道德伦理因素对齐,相关工作也被称为价值观对齐。本文将人类价值对齐的研究分为三个主题:伦理与社会价值,AI合作和社会复杂性处理:
- 伦理与社会价值(Ethical and Social Values):人类价值观本质上具有很强的抽象性和不确定性,于是有应当遵循哪些价值观的重大挑战。尽管普遍一致的人类价值观可能不存在,但仍然有些价值观在不同文化中都得到体现。本文从机器道德、公平和社会心理学中的跨文化价值观角度进行讨论
- 机器道德(Machine Ethics):与大部分对齐研究将AI系统与人偏好对齐不同,机器道德主要关注于向AI系统灌输合适的价值观。此类工作始于符号和统计AI系统,随后扩展到大规模数据集和深度学习/大模型上
- 公平性(Fairness):公平指不存在基于个人或群体固有或后天特征的任何偏见或偏袒。方法包括在训练前减少数据偏差,到最大限度地减少训练过程中引入的不公平性,到处理在训练中未能成功学习的不公平实例。
- 社会心理学中的跨文化价值观(Cross-Cultural Values in Social Psychology):在社会心理学领域,大量研究集中于探索跨文化人类社区中存在的价值观集群,从而导致各种跨文化价值观尺度的发展,旨在确立AI系统应该符合什么样的价值观。(但好像不是涉及AI的工作,而且都很早了)
- AI合作(Cooperative AI):旨在实现确保类似Agent的AI系统间以及与所交互的环境合作的机制,包括宏观的原则设计和微观的机制实现。同时也研究人类如何与AI合作以及AI如何帮助人类合作。
- 社会复杂性处理(Addressing Social Complexities):AI系统的实施需要考虑社会复杂性,方法之一侧重于社会系统的现实模拟(基于规则的Agent建模,基于深度学习的模拟以及基于LLM的模拟),另一方面社会选择和相关的计算社会选择旨在为不同人群的偏好聚合提供数学和计算解决方案。
不对齐的问题
对齐失败的类型
奖励侵入(Reward Hacking):奖励函数容易优化和度量,但往往不能完全覆盖真实奖励的所有范围,这个限制也被称为奖励的错误指定。基于这种错误指定的奖励的优化可能导致奖励侵入,即Agent可能在特定的指标上表现很好,但是在人类标准下表现很差(只考虑最大化奖励分数,不考虑实际情况)。错误指定的奖励可能由于对输出的关键指标的忽视出现,训练环境的选择以及有问题的模拟器也可能导致AI系统无法满足想要的目标。这些问题广泛定义为规范博弈,即AI系统探索任务规范中的漏洞而不是真的追求想要的输出。
奖励干扰可以看作奖励入侵的一种特殊情况,指AI系统修改奖励信号的生成过程,包括修改奖励函数(Agent直接干扰奖励函数)和修改奖励函数输入(干扰将环境状态转换为奖励函数输入的过程)。当奖励函数是通过人类反馈构建的时,模型可以直接影响奖励反馈的供给(AI系统故意生成挑战性的回答以供人类理解和评判,导致反馈崩溃)
目标误泛化(Goal Misgeneralization):目标误泛化指Agent在保留训练获得的能力下在部署时追求与训练目标不同的目标。即使在完美的奖励规范下,目标误泛化也可能在面对分布迁移时出现。
对齐失败的原因
人类反馈的限制:大模型训练过程中,不一致现象可能由人类数据标签导致,人类可能故意引入偏差,导致不真实的偏好数据。在人类难以度量的复杂任务上这种问题更加明显。
奖励模型的限制:训练奖励模型面临精确捕获人类价值观的问题,这些模型可能无意间学到了次优或者不完整的目标,由此导致奖励入侵。使用单一的奖励模型可能难以捕获和制定一个复杂人类社会的价值观。
不对齐的行为和输出
双边组件(double edge components)
- 情况意识(situational awareness):AI系统可能会获得有效获取和使用有关其状态、在更广泛环境中的位置、影响该环境的途径以及世界(包括人类)对其行为的潜在反应的知识的能力。了解情况可以帮助模型更好地理解人类意图,完成能力范围内的任务,在需要时寻找帮助,但也为先进的奖励入侵方法,增强的欺骗/操纵技巧和追求工具性子目标的倾向提供帮助。
- 广范围目标(Broadly-Scoped Goals):AI系统应当制定跨越长时间范围的目标,处理复杂的任务并在开放的环境中运行。参与广泛的计划可以使AI系统在OOD情况下更好泛化,但也可能带来鼓励操纵行为的风险。对应方法包括将优化目标限制在短视目标上,基于强化学习的微调或者使用chain-of-thought提示。
- Mesa优化目标:学习的策略本身充当优化器时,策略可以追求内部目标(比如mesa优化器),但该优化器的目标可能与训练信号指定的目标不一致,对这些不一致的目标进行优化可能会导致系统失控。
- 接触更多资源(Access to Increased Resources):AI系统可能会访问网站并参与现实世界的行动,可能对世界产生更实质性的影响,对数据和资源的访问增加可以促进自我增殖,从而带来生存风险。
不对齐的行为
- 权力寻求行为(power-seeking behaviors):AI系统可能会表现出试图控制资源和人类的行为,然后运用这种控制来实现其指定的目标。一个观察是在没有安全性和道德性约束的时候,对几乎任何优化目标,最大化该目标的最优策略都将涉及权力寻求行为。
- 标准篡改(measurement tampering):许多模型标准可能被模型操纵,得到偏好输出的假象,即使需要的目标还没有达到。这个可以理解为规范博弈的一种特殊情况,允许模型逃离检测技术并且提供对齐的假象。
- 不真实输出(untruthful output):AI系统可能产生无意或故意不精确的输出,这种不真实可能表现为与已有资源不匹配,或者无法验证,一般被称为幻觉问题。
- 欺骗性对齐和操纵(deceptive alignment & manipulation):指探索人类评价的不完全性甚至通过梯度入侵或者奖励入侵来操纵训练步骤的行为。这些行为可能导致检测和解决对齐问题的困难加大。
- 欺骗性对齐:未对齐的AI系统可能会故意误导观察者,而不是坚持预期的任务。在这些情况下,Agent进化出了区分评估环境和训练环境的能力,在评估过程中采取了战略性悲观应对方法,在调度计划中故意降低其繁殖率。此外,AI系统可能会做出表面上与奖励信号一致的有意行为,旨在最大限度地提高人类监管者的奖励。这些欺骗行为削弱了人类顾问提供可靠反馈的能力(因为人类无法确定人工智能模型的输出是否真实可靠),也可能传播错误信念和错误信息,污染在线信息源。
- 操纵:先进的AI系统可以有效地影响个人的信念,即使这些信念与事实不一致。这些系统可以产生欺骗性或不准确的输出,甚至欺骗人类顾问以获得欺骗性的一致性。这样的系统甚至可以说服个人采取可能导致危险结果的行动。
- 集体有害行为(collectively harmful behaviors):AI系统有可能采取一些看似无害的行动,但在多智能体或社会环境中却会出现问题。协作AI这一新兴领域一直在发展成为一个活跃的研究前沿。除了基于简化博弈论框架的研究之外,还迫切需要在更现实、更复杂的社会环境中进行研究。
- 违反道德规范(violation of ethics):AI系统中的不道德行为涉及抵消公共利益或违反道德标准的行为。这些行为通常源于AI系统设计过程中忽略了基本的人类价值观,或者在系统中引入了不合适或过时的价值观。
根据反馈学习
根据反馈学习是使用反馈向AI系统传达人类意图的方法,一般包含三个部分
- 需要进行对齐调整的AI系统
- 由advisor提供的用于调整AI系统的反馈(Feedback)
- 用于建模反馈来利用有效算法的中介(proxy)
所以根据反馈学习可以分为直接根据反馈的学习和间接根据中介模拟的反馈的学习。
反馈类型
反馈(Feedback)是发给AI系统让其与人类意图对齐的信息,是AI系统与人类意图的渠道,在系统搭建时,额外的数据源根据系统输出提供反馈,指导系统进行结构或内部信息的修改;在部署后,系统根据外部数据的反馈动态调整自身行为,但结构或基础策略保持不变。根据反馈向AI系统的表现形式,可以将反馈分为奖励(Reward),演示(Demonstration)和比较(Comparison)三类
奖励(Reward):奖励是一种针对AI系统单个输出的独立且绝对的评估,一般表示为一个标量数字。这种反馈往往来自预定义的基于规则的函数或过程。奖励反馈的优势在于设计者在允许AI系统探索最优策略的时候不需要描述最优的行为,但是很难制定完美的规则来确定评估AI系统输出的函数的分值或直接为每个AI系统输出分配分数。不完美或者不完全的奖励容易导致与人类意图不一致的危险行为,基于奖励的反馈最大的问题在于难以杜绝操纵问题。
演示(Demonstration):演示反馈是由专家记录的达到某个特定目标的行为数据,如果演示者和AI系统的动力学是一致的,那么演示可以直接构成一个状态-动作对的路径。这种奖励直接使用专家的经验,避免了知识的标准化表示,但当面对的任务超出了专家的知识能力时会减弱,同时会面对着人类演示的噪音和次优的问题,人类演示也有可能引入不一致问题。此外,这也可能包含了需要大量的人类演示的高数据成本。
比较(Comparison):比较反馈是一组相对评估,给AI系统的输出打分并向预知策略的方向指导系统。比较反馈的优点在于容易处理难以提供精确分值的目标和任务,但需要一组数量够大的比较数据。
所有类型的反馈都有着共同的特点,都可以看作是人类描述一个隐式的奖励函数的尝试。使用奖励反馈进行对齐指向了两个根本的问题
- 如何为复杂的行为定义奖励函数
- 如何解释人类价值观,让强力的AI系统更好地对齐,确保系统的可控性和道德性
偏好建模
主要讨论的是基于比较反馈的偏好建模,因为另外两种反馈的高成本和高难度问题。基于比较反馈的偏好建模一般需要进行偏好诱导:迭代探索系统动力学,同时获取专家偏好数据,以获得有关优化目标的更多知识。需要确认的两个关键因素是偏好的粒度和偏好的类型。
偏好的粒度(granularity of preference):偏好的粒度主要分为三层:动作,状态和轨迹。动作偏好关注在特定的条件和特定的动作偏好下,在特定的状态下对比不同的动作,当转移到轨迹偏好时可能出现专家知识欠缺和潜在的信息损失问题。状态偏好处理互相比较的状态,概括状态间的偏好关系,但在向路径偏好转换时需要状态可达性和独立性的假设。轨迹偏好考虑整个状态动作序列,提供更加全面的策略信息,本身有更长期的可用性且需要更少的专家判断。
偏好的类型(Category of Preference):偏好的类型可以划分为绝对偏好和相对偏好,绝对偏好独立地给出每个选项受到偏好的程度,相对偏好定义在选项对之间的偏好关系。绝对偏好可以分为二值分数和连续分数(包含分数和顺序),相对偏好可以是所有选项对的整体顺序,也可以是部分选项对之间的不完整顺序。
奖励模型(Reward Model):奖励模型将比较反馈转换成标量奖励形式,方便进行策略学习。给定动作对\((y_1,y_2\vert s)\),偏好描述为\(y_w\succ y_l\vert s\),其中\(y_w,y_l\)表示\(y_1,y_2\)中更受偏爱和不受偏爱的动作。我们假定偏好来自一个隐式的奖励模型,然后使用一个概率模型来建模这个理想的奖励模型。如果使用了Bradly-Terry模型,那么人类偏好可以描述为
\[p*(y_1\succ y_2\vert x) = \frac{\exp(r*(x,y_1))}{\exp(r*(x,y_1))+\exp(r*(x,y_2))} = \sigma(r*(x,y_1)-r*(x,y_2))\]其中\(\sigma(x)=1/(1+\exp(-x))\)为逻辑斯蒂函数,我们也可以用得到的偏好评级来训练奖励模型。
\[\mathcal{L}_R(\Theta)=-\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\log(\sigma(r_{\theta}(x,y_w)-r_{\theta}(x,y_l))))\right]\]奖励模型允许人类通过评估向AI系统提供特定偏好的反馈,避免了明确定义目标的复杂任务。
策略学习
强化学习:强化学习使Agent能够通过与环境交互的反复试验来学习最佳策略,强化学习的目标是学习一种在状态中执行动作的策略,以在环境转换动态和初始状态分布下最大化预期累积奖励。
基于偏好的强化学习:PbRL旨在通过使用偏好反馈替代明确的奖励信号来加速强化学习的训练过程,PbRL的重点主要在路径偏好上,路径偏好概括了人类对于多种行为输出而不是单一状态的评估,使PbRL更适合于非专家用户。PbRL使用偏好反馈可以避免了人意的奖励设计,奖励结构,奖励工程和预定义目标的权衡,也去除了对于专家知识的依赖,解耦了训练中人的参与。PbRL也面临着若干个问题:因为时延导致的权重分配,偏好空间的探索,大量数据的潜在需要和无法使用学习过的偏好模型进行重训等。
模仿学习:也称从演示学习或学徒学习,关注于在指定任务上模仿人类行为。Agent学习观察与动作间的映射,并根据演示数据集中的演示来调整策略。广义的模仿学习旨在模仿人类意图,有效复制人类的决策过程,狭义的模仿学习旨在复制人类在指定任务下的行为。这种学习不需要环境奖励信号,但面临着分布外数据泛化差的问题。
逆强化学习(Inverse RL):逆强化学习从观察的行为中逆推出奖励函数,标准 IRL方法包括特征匹配方法(假设最优专家行为或决策过程)以及最大熵方法和贝叶斯方法(这两种方法都不需要最优行为)。IRL保证了对状态分布变化的鲁棒性,但由于额外的RL步骤增加了计算复杂性,同时也难以确定奖励函数。
基于人类反馈的强化学习:RLHF基于人类更善于判断合适的行为而不是给出掩饰或手动设定奖励的原则。
可扩展的监督
随着AI系统变得越来越强大,未能充分捕获训练信号或错误设计损失函数通常会导致灾难性的行为,从人类的角度来看,这意味着人工智能系统的优化目标与我们心目中的理想目标之间存在差距。 因此,在各种决策中提供有效监督的问题变得至关重要,可扩展监督关注两个实际问题:
- 人类频繁参与AI系统行为评估的高成本问题
- AI系统行为内在的复杂性导致的高评估难度问题
可扩展监督用于确保即使超越了人类专家知识的AI系统也能与人类意图对齐,一些可能的搭建可扩展监督的方式如下。
RLHF优化(From RLHF to RLxF)
RLHF有人类评估的不精确性和高成本问题,关键限制在于创建超越人类能力的AI系统时难以使用RLHF来扩展人类反馈,RLxF旨在去昂话反馈效率和质量并为更复杂的任务扩展人类反馈。x代表了人类和AI的融合,RLxF通过联合AI元素来强化RLHF。
基于AI反馈的强化学习(Reinforcement Learning from AI Feedback,RLAIF):RLAIF作为RLHF的一种扩展,通过RLHF训练的LLM经常选择避免敏感和有争议的问题,潜在地削弱了模型的整体可用性。RLAIF使用大模型生成的反馈而不是人类反馈来进行强化训练。RLAIF使用大模型生成回答偏好数据,然后使用偏好数据训练初始policy模型得到一个奖励模型,最后利用这个奖励模型来训练policy模型。实验证明使用AI反馈训练得到的模型尽管有细微差别,但达到了几乎与人类反馈训练得到的模型一样的效果。AI反馈提供了一种构建最小化人类参与的训练循环的可行方式,遵守透明且可访问的人工智能行为准则的人工智能监管可能会极大地有助于实现可扩展的监督。
基于人类和AI反馈的强化学习(Reinforcement Learning from Human and AI Feedback,RLHAIF):RLHAIF整合人类和AI元素来提供监督,模型生成的评价可以帮助人类识别忽略了的问题。
本质上来说,RLxF使用了将一个大问题分解为小的子问题的策略,允许了使用更加有效的工具来加速子问题的解决。
迭代蒸馏和增强(Iterated Distillation and Amplification)
迭代蒸馏和增强引入了一种通过人类和AI间迭代合作来构建可扩展监督的框架。整个框架包含一个蒸馏过程(distillation step)和一个增强过程(amplification step),通过amplification step学习问题分解方法,然后通过分解问题生成下一级问题的解法。再在distillation step利用生成的解法训练模型解决下一级问题的能力。
迭代蒸馏和增强强依赖于错误不会在迭代间累积的假设,因此需要设计先进和安全的学习策略,同时IDA的可行性依赖于人类分解复杂问题的能力,因为需要把复杂任务分配给AI系统。也需要一些理论工作来证明IDA框架可以得到安全的通用人工智能。
递归奖励建模(Recursive Reward Modeling)
递归奖励建模旨在复杂任务上扩大奖励模型的应用,使用了利用人类反馈来训练奖励模型的思想,但Agent的训练目标是最大化由自身增强版本的奖励学习得到的奖励分数。递归奖励建模不止受人类反馈影响,也受模型自己对于构成奖励输出的元素评估的影响。递归奖励建模的中心思想是递归使用已经训练好的Agent来为下一轮在更加复杂任务上训练的Agent提供反馈。
递归奖励建模的问题可以概括为外部对齐和内部对齐,外部对齐围绕反馈机制的充分性,以保证学习的奖励模型在动作模型感知的分布域中是准确的。内部对齐集中在人类能够在多大程度上使用工具在奖励模型和agent上避免欺骗性和灾难性的行为。这依赖于监督机制的有效性以及验证奖励模型没有进行任何优化、agent保持短视的能力。
缓解这些挑战的潜在方法包括在训练期间纠正奖励模型的在线反馈、教授不安全状态的非策略反馈、通过无监督学习或注释利用视频和文本等现有数据、不同级别的分层反馈、对操作的侧面约束,发现漏洞的对抗性训练,以及征求反馈的不确定性估计等。RRM的优势在于需要人工反馈而不是演示的训练方法,这可能会使反馈更可靠、更容易获得。从本质上讲,RRM的过程可以比作IDA,使用奖励模型取代了监督学习或模仿学习。因此,RRM面临的挑战与IDA遇到的挑战非常相似,特别是在防止错误累积方面。此外,奖励建模本身并不一定会提炼出一个狭窄的模型,这在权衡一致性程度和性能方面提出了挑战。
辩论(debate)
辩论包括两个agent,提供回答和陈述来帮助人类进行决策判断。agent尝试识别对方的弱项并争取人类信任的过程可以视作零和博弈,并可以作为一种构建可扩展监督的潜在方法。辩论方法构建在一个假设上:为真相辩论普遍上比为错误辩论更加简单,但这个假设并不通用。
辩论的问题集中在人类能力的限制上,比如在真实世界场景中的辩论,以及人类的时间限制。人类可能难以完全理解辩论的问题,或者没有时间去判断每次辩论。所以可能需要设计ML方法来预测人类反馈。另一个问题是辩论机制的收敛性,辩论机制自身倾向于向单一回答收敛,即便准确度没有得到保证。同时即便收敛性出现问题,也需要依赖直觉来评估收敛程度,这意味着需要人类评估者的干预,并要求这些人类评估者具有一定水平的专业知识。
合作逆强化学习(Cooperative Inverse Reinforcement Learning)
已有方法都认为从反馈中学习是一个独立于推理和控制的过程,并且通常隐含地将反馈提供者视为存在于环境之外的实体。当本应位于环境之外的反馈机制成为环境的一部分并因此受到人工智能系统的影响时,操纵和奖励篡改等失败模式就会发生。合作逆强化学习(CIRL)的框架统一了控制和反馈学习,并将人类反馈提供者建模为同一环境中的同伴Agent。它不是通过加强监督来解决可扩展监督问题,而是通过消除AI系统与监督博弈的激励,让提供反馈的人类和人工智能系统处于合作而非对抗的位置。在CIRL范式中,人工智能系统与人类合作以实现人类的真正目标,而不是单方面针对人类偏好进行优化。
CIRL的动机和总体思路:许多对齐问题,包括奖励黑客、欺骗和操纵,都是AI系统针对错误指定的目标进行优化的结果。在训练和部署过程中,指定的目标(例如奖励函数)对于AI系统来说是无可争议的真理,而人类的反馈仅在目标指定的范围内受到尊重,这意味着它可能被篡改或操纵。
CIRL试图通过
- 让AI系统遵循奖励函数的同时保留不确定性
- 让人类提供有关奖励函数真正含义的唯一信息 来解决优化目标不对的问题。这种不确定性使AI系统倾向于服从人类,并有动力确定人类真正想要什么。CIRL将整个任务建模为两人合作游戏,其中人类玩家H和机器人玩家R共享共同的奖励函数\(r(·)\)。奖励函数和奖励信号对R来说是不可见的(训练机制也没有明确计算),并且只能由R通过类似IRL的过程(包括通过与H的询问和交互)从H的行为中推断出来。该博弈被称为CIRL博弈、辅助博弈、辅助POMDP。AI系统以人类的真实目标\(r(·)\)作为自己的目标(尽管不确定\(r(·)\)的值),并不断尝试通过观察和与人类交互来找出\(r\),这可以消除无用的激励的影响。
CIRL的研究方向:尽管有些人强调了H积极指导R的重要性,但一些工作对博弈均衡和联合政策(包括H的教学行为)的强调提出了质疑,而是关注R对H政策的最佳反应,因为假设人类总是会采取最佳联合政策是不现实的。策略条件信念指定了H对于R的任意策略的策略响应的分布,旨在给定策略条件信念的情况下找到R的最优策略。策略条件信念本质上是一种人类建模,一个挑战就是得到一种稳定精确的人类模型。另一个方向在于不完美奖励函数的手动指定,作为H传达有关真实奖励函数的信息的一种方式。这包括R方面的工作(使R能够根据不完善的规范对真实奖励函数进行推理),也包括H方面的工作(即开发算法工具来协助H制定更稳健的规范,以更好地传达真实的奖励函数)。
还有一些工作将CIRL和助理博弈扩展到多智能体环境,其中机器人需要服务多个人。 这对应于多/单委托设置,其中人类的不同目标带来了挑战,并且需要使用社会选择方法。
在分布迁移下学习
训练数据和环境只是真实部署场景的不完美的近似,并且可能缺少某些关键元素,这种不一致就是常说的分布迁移。在训练分布上良好对齐的AI系统不一定在部署分布上保持对齐,由此可能导致misalignment问题。从对齐的角度来说,我们更关心目标在不同分布上的普遍性,而不是能力的普遍性。
分布迁移的问题
AI系统的训练遵循在训练输入分布下追求训练奖励(或者损失)的最优化,而这种遵循不一定会泛化到输入分布有明显变化的情况,即分布迁移。分布迁移导致的问题主要有目标误泛化和自诱导的分布迁移。
目标误泛化(goal misgeneralization):指AI系统在训练分布上表现完美,但在训练分布上学到的能力不能泛化到分布外部署,AI系统也可能追寻某些与人类希望不同的目标(不是在分布外没有能力,而是能力表现在追求一个错误的目标上)。比如伪相关或者捷径特征(spurious correlations,shortcut features),系统在追寻错误的特征,而真实的特征需要在多个数据分布间都持续且可靠。或者mesa优化器的misalignment问题,mesa优化指ML模型通过推理在自身内部执行优化过程,而这个过程的目标很可能与模型的训练目标不同。目标误泛化导致AI系统无法识别人类真实想要的目标和人类给出正反馈的目标之间的区别,AI系统也可能操纵人类来给出正反馈。
自诱导的分布迁移(self-induced Distribution shift,ADS):原来的训练过程一般会忽略Agent对于环境的影响,而只关注于Agent的优劣本身。但类似推荐系统的agent在进行决策和执行时可能会对环境产生影响,从而改变环境生成的数据的分布,这个问题称为自诱导的分布迁移。因此需要考虑将agent引入人类社会后agent对于社会整体数据分布的影响。
分布迁移下学习方法
分布迁移下的学习方法大概分为两类:一类是算法干预,在训练过程中控制优化;一类是数据干预,通过扩展训练分布来缓解分布迁移。
算法干预方法
跨域整合方法:分布迁移的一个主要原因就是模型中与核心目标无关的虚假关联性,通过在优化目标中融合学习不同域(分布)的信息,我们期望模型可以学到真实的信息和不变的关系。
在下面的几个方法中,个人理解不变的关系和真实的信息表现为在不同的分布上的最差表现要足够好
- 经验风险最小化(Empirical Risk Minimization,ERM):一个分类任务的优化目标可以定义为模型损失对数据分布的积分(就是期望),但数据集和真实世界往往存在偏差,导致从数据集学到的特征不一定是我们希望模型得到的,ERM是使用统计学方法来优化这种偏差的策略。优化目标可以定义为一个分布下的不同样本或不同分布下的不同样本,优化目标可以定义为样本损失的均值,感觉可以简单理解为将不同的分布下的数据统一进行采样然后计算损失,当作一个分布处理了。简单ERM做了数据是从目标数据分布采样得到的简单假设,但如果源分布与目标分布之间存在明显不一致的话,严重的泛化问题依然有可能出现
- 分布式鲁棒优化(Distributionally Robust Optimization,DRO):对分布迁移的敏感性也可能来自对于与核心概念无关的伪相关或捷径特征的依赖。分布外泛化可以被描述为
这样优化旨在通过减少风险函数的最大值来强化多个扰动分布上的最差情况下的表现。在分布式鲁棒优化中,扰动分布覆盖了不同域上的训练分布,通过最小化上述目标可以找到多个训练分布上的不变关系。但直接应用在过参数化的神经网络上可能导致次优的输出。
- 不变风险最小化(Invariant Risk Minimization,IRM):IRM的目标是训练一个在各种环境中性能稳定同时降低对虚假特征的依赖的预测模型。IRM可以看作是ICP在高维空间上的一种扩展,用于识别特定环境中输出的直接因素。IRM的基础假设是当面对许多能够实现低经验损失的函数时,选择一个在所有环境中都表现出较强性能的函数更有可能得到一个基于因果特征而不是伪特征的预测器。
- 风险推断(Risk Extrapolation,REx):REx包含在推断域上的扰动分布上的鲁棒优化(MM-REx),以及一个在训练风险的方差上进行的额外惩罚(V-REx)。通过减少训练风险并增加训练风险的相似性,REx使模型学习在不同域分布上的不变关系。
基于模式连通性的导航方法:模态连通性通过改变少量参数,使模型根据不变关系而不是伪相关进行预测。
- 模式连通性(Mode Connectivity):模式连通性是指在损失函数空间中可以识别出一条连接两个或多个不同局部极小值或模式的直接路径的现象。模式连通性要求在参数空间中的极小点之间始终找到一条连接路径,遍历低损耗区域而不深入到高损耗区域。意味着即使在参数空间内对模型参数进行细微的调整,模型的表现也能保持相对稳定,避免明显地表现下滑。
- 基于连通性的微调(Connectivity-Based Fine-tuning,CBFT):两个模型之间没有线性连通性暗示了模型间存在基础机制差异。在相似的数据上训练的模型容易得到相似的推理机制,这可能是模型偏差的原因。CBFT设计了一个策略来调整模型的机制,旨在最小化以下损失函数
除了优化预测结果的交叉熵损失外,CBFT的第一个目标是修改模型的潜在机制,将其重新定位到损失景观中,打破与当前最小元的任何线性联系(保证是个新机制),这通过最大化\(\mathcal{L}_B\)来实现,称为势垒损失。第二个目标是减轻对原始训练数据集中虚假属性的依赖,这通过优化\(\mathcal{L}_I\)来实现,能够在不需要伪特征的情况下发现不变关系。
数据分布干预方法
对抗训练:梯度下降优化过程可以看作奖励模型的一种攻击方式,可以用于探索奖励模型的漏洞,称为奖励模型过优化现象,因此对抗鲁棒性对于奖励模型尤其重要。因为对抗鲁棒性可以部分看作是训练分布和测试分布不一致导致的,所以视作一种分布迁移问题。对抗训练方法把对抗样本导入训练输入,以此扩展训练分布,缩小分布不一致性。对看滚脸可以分为基于扰动的和无限制的对抗训练。
- 基于扰动的对抗训练(Perturbation-based Adversarial Training):基于扰动的对抗训练将对抗扰动样本(如为了降低模型表现而微调的正常数据)引入训练。
- 无限制对抗训练(Unrestricted Adversarial Training):无限制对抗训练将任何可以欺骗模型的数据引入训练,不一定是根据正常输入添加噪音得到的。
合作训练(Cooperative Training):AI系统合作能力的欠缺也可以看作一种分布迁移问题,系统在单一agent设定下训练,但真实世界可能是多agent的,环境中其他智能体的存在定性地改变了环境状态转移动态,导致观测值和奖励的联合分布发生变化。多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)用于强化AI系统的合作能力,一般可以分为三类(完全合作MARL,完全竞争MARL和混合动机MARL)
- 完全合作MARL:完全合作MARL中所有agent共享同一个reward function,这种统一性使得我们可以完全不考虑合作激励(因为所有的激励都是完全对齐的)的问题,而专注于通过协调有效地实现共同目标。
- 混合动机MARL:混合动机MARL中agent的reward function并不相同,但也不是零和的,这包括了团队之间相互对抗的博弈环境以及谈判等更加细致的设置。
- Zero-shot合作:Zero-shot合作旨在使AI系统能够在不进行训练或特殊设计的情况下与其他agent合作。早期工作归类为临时合作方法,包括评估,博弈论和统计学方法;近期工作包括other-play(随机化训练者策略的某些方面来达到鲁棒性),多级递归推理和off-belief学习(通过将合作伙伴过去的行为解释为非共谋政策,消除自我博弈中的武断惯例)等。
- 环境建设:设定合作训练的环境
- 社会真实性设计:合作训练研究应当放在包括大量智能体和复杂度极高的智能体类型以及交互模式的社会真实性环境中。
保险
保险(assurance),即在训练和部署后评估和度量AI系统的实际对齐效果,进一步确保前向的对齐输出,可以大致分为三类:安全性评估,可解释性和人类价值观验证。
安全性评估
安全性指缓解AI系统设计缺陷导致的事故,防止偏离AI系统预期设计目的的有害事件发生。AI系统的安全性可以分为社会关注(安全的人工智能系统的明确和毒性等相对可识别的特征)和故意行为(具有相对复杂的调查和实质性的潜在危害的特征,表现为权力寻租、欺骗和其他前沿的AI风险)。
数据集和基准
数据集:数据集方法将AI系统的回答与预定义的文本和任务比对来评估。生成数据集的方法包括:
- 专家设计:专家手工创造
- 网络收集:专家设计方法成本高效率低,网络收集方法可以获得大量用户生成的文本,反映了真实世界的文本生成场景,但是原始数据也需要挑选和标注
- AI生成:使用大模型生成数据,面临着大语言模型本身的限制,包括误会指示和样本多样性等,需要进一步调整。
交互方法:数据集方法只能提供固定的评估文本,难以对抗针对性训练,文本也可能没有完全反应对应能力的强弱。
- agent监督:使用一个agent来评估AI模型的输出
- 环境交互:利用人类和其他LLM等元素创建一个相对现实的环境,通过多轮交互来评估AI模型的对齐质量。一个方法是同类沟通,使用多个LLM参与对话来加强AI系统的评估。
评估目标
毒性(toxicity):毒性指AI系统输出对人类无用或有害的内容。在语言模型前毒性检测主要关注检测毒性发言和识别有害陈述,现在针对毒性的评估使用一种prompt-生成范式来评估语言模型给特定prompt生成毒性文本的风险。
权力追寻(power-seeking):权力追寻指一旦人工智能系统具有一定的智能水平,它可能会寻求对人类的权力。现有的代表性工作构建了一个包含决策博弈的基准来评估AI系统能否平衡竞争和道德性,结果表明AI系统仍然难以在达到目标和行为道德之间保持平衡。
环境感知(situational awareness):指AI系统可以一定程度的预测和了解实体在其工作环境中的状态和发展,从而做出相应的决策。
幻觉(hallucination):人工智能系统可能会产生不基于事实性知识或数据的信息或响应,从而导致误导或虚假内容的产生。幻觉评估旨在确保AI系统输出中的知识与训练数据和知识库中知识的一致性。最早的工作使用n-grams方法来计算输入输出内容词表的重复率,现在转移到基于模型的方法了,但只能输出幻觉程度,难以定位特定错误。
前沿AI风险
- 网络安全和生物武器:LLMs可能被用于网络攻击或生物武器的生产,因此需要模型可以识别并拒绝恶意请求
- 欺骗&操纵:AI系统可能输出文本对用户产生负面影响,包括散播错误信息,改变人们的信仰和政治影响
- 越狱攻击:越狱攻击指通过构建特定输入等方式人为绕过AI系统的保护机制,因此需要特定的识别和保护方法。
- 自我保护和繁殖:指AI系统有自我保护并复制的倾向,并在此过程中破坏环境的限制。
评估方法:红队测试
红队测试指生成AI系统被诱导给出未对齐输出或动作的场景,并在这些场景中对系统进行测试的行为,旨在通过对抗压力来评估系统对齐的鲁棒性。
强化,优化,指导或逆文本生成:包括通过多种方法生成诱导语言模型输出不对齐补全的连贯文本(prompt)。 手动和自动越狱:设计方法绕过LLM不会打未对齐的诱导性问题的倾向,使LLM回答诱导性问题,现有的大多数尝试以非正式报告的形式分散在互联网上,并涉及在原文本中添加前缀和后缀。 众包对抗输入:雇一堆人来人为生成对抗prompt。 基于扰动的对抗攻击:对正常输入添加细微扰动来使LLM输出不对齐的结果。 无限制对抗攻击:对抗输入的生成方式不受限制,可由模型生成
可解释性
可解释性指使人类能够理解机器学习系统及其决策过程,设计构建工具使模型的新颖点能够被描述和预测。可解释性方法通过探索模型内部结构和表示使神经网络更加安全。
事后可解释性(post hoc interpretability)
事后可解释性方法旨在了解神经网络的低层结构和单元,以及它们对宏观行为的因果效应,称为事后是指一般是在模型训练后对模型进行解释。
路径分析(circuit analysis):环路指神经网络内部有特殊功能的子网络,环路分析旨在定位神经网络中的环路(微观)来理解模型的行为(宏观),目前的方法大多集中在小模型上。
归因(attribution):归因指观察一些成分(包括头、神经元、层和输入)对神经元响应和模型输出的贡献的方法。基于梯度的归因方法用于度量解释的质量,并指导对模型学习到的事实的搜索,但这些方法无法提供因果解释。直接逻辑归因旨在识别单个神经元对于下个神经元的预测的直接贡献,激活补丁(activation patching)使用因果干涉来识别哪些activation对模型输出的影响大。
可视化:通过可视化来理解模型结构
扰动和消融:方法用于检验反事实而非相关性,扰动修改模型输入并观察其输出变化,而消融敲除部分神经网络来建立神经元activation与神经网络行为的因果关系。
映射和编辑学到的表示:用于理解语言模型真正学到的内容,并在模型输出不真实结果时修改知识表示。相关技术包括在transformers内解释token表示,全连接层如何学习这些表示,学习key-query乘积来理解token如何相互关联,构建线性探针以了解模型是否学习有用信息,从隐空间识别学到的有意义概念等。
内在可解释性(intrinsic interpretability)
内在可解释性指设计在本质上更容易理解的模型。为了使模型具有内在的可解释性,相关研究设计了模块化的架构,对对抗攻击具有鲁棒性,并且不存在叠加。
替换黑盒组件:替换神经网络中难以理解的黑盒模块,如将激活函数替换为softmax线性单元来增加网络中可解释的神经元数量。但现在一般只用在小型网络上,可延展性有待研究。
内在可解释性的机制研究:机制可解释性旨在获得对神经网络的详细和低级理解,并为神经网络构建神经科学,因此也放在内在可解释性方法中。相关研究要么在神经网络中发现更大的结构(一旦低层次的特征和环路被定位和研究,研究人员直观地观察到更大的结构:特征被抽象为抽象特征族,差异特征被识别为等变性,具有相似功能的神经元自组织和聚集为专门分支),要么在不同的神经网络中发现相同的结构(普适性假设,在不同神经网络内发现相同的结构),这有助于获得内在的可解释性。
展望
重叠现象(superposition)提高神经元级别的分析难度:重叠现象指特征数量超过了维度,导致一个维度要代表多个特征,理想情况应该是一个维度一个特征。有三种方法来解决重叠问题:创建没有叠加(在训练时予以解决)的模型,找到一个描述特征如何存储在神经网络(在事实之后对其加以论述)中的过完备基,或者两种方法的混合。
分析方法的可延展性:目前大部分方法应用在小网络和小模型上,使用自下而上的方法时,可扩展性成为一个关注的问题。机制研究上希望可以扩展技术来自动进行解释,在真实模型上进行路径分析,或扩展分析范围,寻找更大的结构,验证普适性假设),最终我们希望在围观的分析可以回答宏观上关心的行为的原因。
基准(benchmarking):可解释性基准用于评估可解释性工具(通过评估它们在检测木马方面的有效性)和回路(测试特定子图是否被统计),目前问题是没有对度量的目标达成统一。
人类价值观验证
人类价值观验证指希望AI系统遵循社会和道德范式。
形式化方法
主要介绍形式化描述与对齐相关的人类价值观方面的框架,主要关注两个话题:形式化机器道德和合作AI的博弈论。前者主要关注搭建机器道德的形式化框架,后者讨论多智能体系统的价值观,与博弈过程有相似的源头。
形式化机器道德(Formal Machine Ethics):机器道德旨在搭建道德完备的AI系统,形式化机器道德主要关注形式化框架,主要分三类方法
- 基于逻辑的方法(Logic-based methods):基于逻辑的方法使用专门为机器道德提出的逻辑系统(例如Agent-Deed-Consequence模型,义务逻辑等),其他工作还开发了支持这种形式验证的人工智能系统的框架或形式验证道德属性的方法。
- RL&MDP-like设置:在MDP-like环境中使用统计RL或其他方法,一些方法使用了手动设计的基于道德性的奖励函数
- 基于博弈论的方法:使用基于博弈论或计算社会选择的方法。
合作AI的博弈论:这种方法倾向于学习并强化合作的激励,而不是MARL的合作能力。
- 合作AI的经典博弈论方法:一种是stackelberg博弈,博弈双方先后执行操作来响应对方操作,适合于建模博弈中的奉献。另一种是mix-motive博弈,博弈目标既不零和也不合作。
- 合作AI的进化博弈论方法:关注于理解进化如何产生合作,这包括源于达尔文进化论的人类合作,以及在其他进化环境(如复制动态)中可能出现的AI系统中的合作倾向。这些工作采用演化博弈论方法,使用动力系统的工具来研究大量agent的长期演化结果,这些agent的繁殖成功是由与他人的博弈结果决定的。
评估方法
我们假设已经知道了应当对齐的大概值,方法可以分为搭建道德数据集,场景模拟和价值观对齐评估三类。
搭建道德数据集:道德价值观的保证通常是通过构建相应的数据集来实现的,经验法则(RoT)可以作为确定人类社会可接受的行为的标准
场景模拟:一种方法是复制真实场景并收集更好的结果,另一种方法是让agent通过模拟人机交互来学习人类价值观。
价值观评估方法:现有的评估模型在取值方面显示出非常多样化的方法范围,已有研究表明LLM仍然存在显著的价值偏差,并且更倾向于选择反应中性价值观的行为。
治理
治理和方法关系不大了,主要涉及到实验室,政府和第三方机构的责任和关系。