大模型道德价值观对齐问题剖析笔记
Published:
大模型的风险和道德问题
风险
- 偏激与毒性语言:基于人类产生的数据进行训练的大模型倾向于记忆、反映甚至强化数据中存在的歧视与偏见。这些偏见往往针对某些特定的边缘化群体,并以社会化刻板印象 (social stereotypes)、排他性规范(exclusionary norms)、性能差异(different performance)等形式体现。数据中的有毒语言也会被模型再生成和传播,包括冒犯性语言、仇恨言论、人身攻击等。模型生成的内容可能无意识地显式或隐式地反映、强化这些偏见,加剧社会不平等和造成对边缘群体的伤害。
- 隐私知识产权问题:模型可能记住并生成来自预训练数据或用户交互数据中的敏感信息,导致个人信息泄露。或者生成训练数据中具有知识产权的内容,侵犯原作者的权益。增加了开发者面临的法律风险.
- 误导信息风险:大模型本身的泛化性和向量空间的平滑性 有可能赋予错误内容一定的概率,并通过随机采样解码(sampling based decoding)的方式生成这些信息。受限于数据的覆盖面和时效性,模型可能被部署于特定情境中时产生虚假信息(misinformation)、事实错误(factor error)、低质量内容(low-quality content)等内容误导。
- 恶意用途:大模型存在被恶意使用的风险,即被用户故意通过指令或诱导等方式产生上述偏激、毒性等有害内容,并进一步用于虚假宣传、诱骗欺诈、舆论操纵、仇恨引导等。模型能力的增强也使得恶意攻击更加具有针对性,显著增加了大模型被恶意滥用的风险且随之而来的后果也愈发严重。
- 资源不均:大模型也可能间接导致诸多不平等问题.
- 不平等访问 (access disparity):受限于经济、 科技、政治等因素,部分群体无法使用大模型的能力,进一步加剧数字鸿沟(digital divide)并扩大不同群体之间分配与机会的不平等。
- 劳动力不平等(labor disparity):大模型能够替代的岗位的失业风险增加或者劳动价值减小,短期无法替代的职业或开发相关的职业收入增加,这可能导致社会中大量的失业和经济不稳定。
- 话语权不平等(discursive power disparity). 拥有大模型的群体控制网络话语权;其他群体的舆论则会被淹没在模型生成的文本中,进而丧失发表意见、传达诉求的能力与途径,导致网络环境的混乱。
道德问题
现有的AI伦理准则尚不存在一个定义明确且被广泛接受的体系。同时,大部分准则没有明确区分更高层的道德价值(ethical value)(如公平、正义、非恶意等)和更细节的应用准则(applied principle)(如透明性、安全性、人类可控等),这可能会导致上述道德伦理准则在实践中遇到3个问题:
- 模糊性:某些机构发布的准则更加偏向于道德价值,一般能获得不同领域的认可,但往往过于宽泛和模糊以至于无法在实践中具体指导AI系统的研发。
- 狭义性:学术界和工业界主导制定的准则往往过于聚焦具体的技术细节且局限在已经得到长期研究和发展的某些侧面,忽略了AI领域之外更加广泛且与人类息息相关的道德价值。
- 冲突性:不同机构提出的伦理准则,甚至同一体系内的不同条款之间可能会产生冲突。
因此本文从规范伦理学(noemative ethics)道义论视角进行考虑,给出AI绝对命令的2种表达式
- \(F_1\):AI只依据人类可以同时愿意它成为AI的普遍法则的准则行动。
- A1:普遍性(universality),一旦一个命题成为AI的道德准则,则所有的AI系统都必须遵循它。
- A2:绝对必然性(absolute necessity),一旦一个命题成为AI的道德准则,则不论周围的情景和物理现实如何,在任何情况下AI必须执行。
- A3:共识(consensus),一个命题只有得到多数人类认同时才能成为AI的准则。
- \(F_2\):AI对待人类时,必须以人为目的,而不是以人为手段。
\(F_1\)蕴含了AI在道德准则下对人的影响。\(F_1\)的本质是“只有当一条规则既是人类自身需要的,又是人类期望AI具备的,它才应该成为一条普遍法则”。\(F_2\)强调的是AI在道德准则下的目的是服务于人而非支配人。\(F_2\)的本质是人本主义(anthropocentrism),体现了AI服务于人的根本要求。
结合\(F_1\)和\(F_2\)两条表达式,可以将其用于对现有的每一条道德命题(道德准则候选)进行检验,即原则标准化(universalizing a maxim)。借鉴绝对命令中的矛盾观念和矛盾意愿概念,可以考察AI是否会导致2个后果:
- \(S_1\):灾难性崩溃(catastrophic collapse)。当一条命题按上述\(F_1\)和\(F_2\)这2条表达式成为(或不能成为)AI的道德标准后,是否会导致所有利用AI的事务都无法完成或造成人类社会在法律、政治、经济等方 面的灾难性后果。
- \(S_2\):人类意志违背(violation of human will)。当一条命题按照上述\(F_1\)和\(F_2\)这2条表达式成为(或不 能成为)AI的道德标准后,是否会导致对多数人类的自由意志的违背。
基于上述\(F_1\)和\(F_2\),给定一条道德命题\(c\),任意AI模型\(M_i,i=1,2,...\),任意AI行为(即下游任务,如对话生成、图片生成、文本理解等)\(a_j,j=1,2,...\)后,可以考察:
\[\pi(c)=\sum_i\sum_j P(S_1|F_1,F_2,a_j;\mathcal{M}_i)\times P(S_2|F_1,F_2,a_j;\mathcal{M}_i)\]即独立考虑导致两种后果的概率。
考虑到现代AI多为基于神经网络的概率模型,且目前AI价值对齐无法做到较高的准确性,可认为当 \(\pi(c)<\epsilon\) 时( \(\epsilon\) 为一个较小的常数),\(c\) 能成为道德准则。
在实践中,上式中的 \(P(S_1|F_1,F_2,a_j;\mathcal{M}_i)\) 表示命题 \(c\) 成为道德准则后引起灾难性崩溃的概率(或者严重程度)。由于难以在真实场景中对道德命题进行检验,可采用大模型构建智能体(agent)以社会模拟(social simulation)的方式进行估计。 \(P(S_2|F_1,F_2,a_j;\mathcal{M}_i)\) 表示命题 \(c\) 成为道德准则后违反人类意志的程度,可以通过模拟实验或红队测试(red-teaming)的形式估计。
现有主流大语言模型的道德价值倾向
- 同系列的模型随着参数、数据和能力的增加,其道德对齐程度有一定的提升。
- 经过SFT/RLHF对齐的模型整体而言道德符合程度高于未对齐的模型。
- 不同对齐过的模型对于道德基础维度有一定的侧重和倾向。
- 在模型基础能力达到一定程度后,对齐方法的性能对道德价值的符合程度起主导作用。
现有大模型对齐的方法介绍
对于一个给定的模型\(\mathcal{M}\),其价值对齐程度可形式化为
\[f(\mathcal{M})=\mathbb{E}_{p(x)}\mathbb{E}_{y\sim P(y|x;\mathcal{M})}\left[\sum_i P(v_i|y)\right]\]其中,\(x\)表示给定的输入, \(y\)为模型\(\mathcal{M}\)给出的输出,\(v_i\)为某种预设的价值。模型对齐则是希望在给定一组价值表述后最大化模型的输出满足这组价值的程度。
由于模型的不确定性、价值表述的模糊性和价值评估的不准确性,往往人类创作的输出\(y\)也无法达到上式的最大值。因此往往以人类输出为依据,定义人类产生的输出为\(y^*\),并考虑最小化模型输出与人类输出在价值评估下的差异性,即 \(|P(v_i|y^∗)−P(v_i|y)|\)。 给定某个较小的正的常数\(\epsilon\), 当
\[\mathbb{E}_{p(x)}\mathbb{E}_{y\sim P(y|x;\mathcal{M})}\left[\sum_i|P(v_i|y^∗)−P(v_i|y)|\right]<\epsilon\]时即可认为模型\(\mathcal{M}\)已经和人类价值观足够对齐。
进行价值对齐的方法主要可分为两大类,即插入式对齐和微调式对齐。
插入式对齐
插入式对齐主要是指在不修改大模型的参数或者只调整很小一部分参数的情况下,通过参数优化、输出矫正和上下文学习等方式约束模型的行为,使其输出满足用户指定的人类价值。
- 参数高效的调整(parameter-efficient tuning): 这一系列的方法集中应用于早期的中小规模的预训练模型,旨在减少微调模型参数的开销,并具体应用于毒性去除(detoxification)和偏见去除(debiasing)等特定的风险评估任务。包括使用触发器、过滤层、提示向量和微调偏置项参数等方式。这类方法具有数据需求少、对性能影响小、训练开销小等优势. 然而,对齐的效果有限且随着模型增大逐渐下降。此外,对近年来数百亿参数规模的大模型而言,轻量化微调的计算开销也变得越来越难以承受。
- 输出矫正(output rectification):直接对模型的输出向量或分布进行后处理修改,以即插即用(plug-and-play)的方式进行矫正,以控制产生内容的属性。包括修改表示向量,调整生成概率权重,零空间投影等方式。这类方法即插即用,无需对大量参数进行训练且兼容任意模型,更加适合于当下计算开销巨大甚至完全黑盒的大模型. 然而,这类方法对齐效果较弱且会对模型本身在下游任务上的性能造成较大影响。
- 上下文学习(in content learning):直接以指令(instruction)/示范(demonstration)的方式约束大模型的行为。这类方法利用了模型自身的理解和矫正能力实现对齐,由于没有修改任何参数,能够最大程度地保留模型的基本能力。然而,这类方法极大地依赖于模型本身的能力并受限于指令微调阶段的效果,不适用于规模较小或未经过指令微调的模型。
微调式对齐
直接微调虽然有较大的算力和数据开销,但对齐效果好且能最大程度地避免对下游任务的影响。同时,在大模型成为基础模型的当下,经过一次微调的模型可以复用于多种任务和场景,大大提升了微调的性价比。
- 全监督微调 (SFT):在进行构造的无毒数据上微调来进行对齐,着重强调降低特定的风险评估指标。SFT这一范式实现简单,训练稳定且收敛较快。然而,其对未见过的用户输入泛化性差,同时在违反价值的数据点上得到的负反馈信号稀疏。
- 基于人类反馈的强化学习微调(RLHF):使用强化学习的方式进行微调,最具代表性的工作分为三个阶段。
- 人工构造符合价值的输入-输出数据,以SFT的方式微调大模型。
- 收集构造不同质量的回复数据并人工排序,用排序数据训练一个评分模型(reward model),又称为偏好模型(preference model),训练损失值\(loss\)为 \(loss(\theta)=-\frac{1}{C^2_K}\mathbb{E}_{(x,y^*,y)\sim D}\left[\log\sigma(r_{\theta}(x,y^*)-r_{\theta}(x,y))\right]\)
- 利用评分模型,以强化学习的方式再次微调大模型,最小化损失\(loss\): \(loss(\omega)=-\mathbb{E}_{(x,y)\sim P_{\omega}^{RL}}\left[r_{\theta}(x,y)-\beta\frac{P_{\omega}^{RL}(y|x)}{P_{\omega}^{SFT}(y|x)}-\gamma\mathbb{E}_{x\sim D}\left[\log P_{\omega}^{RL}(x)\right]\right]\)
该方法利用评分模型替代监督数据,有效解决了泛化性差和负反馈稀疏问题,但是训练算力开销大,需要高质量的人工标注数据,对超参数敏感且训练不稳定。后续有一系列方法提出来改进这些缺点。
大模型对齐的难点和挑战
- 道德价值观的变化性(variability of ethical values):道德价值观不是静态的,而是会随着时间、文化、社会环境的变化而改变的。这进一步涉及2个方面的问题.
- 大模型本身的基本能力:要求模型够理解并处理复杂的道德规则;
- 对齐效果的泛化性:要求对齐方法不仅能在特定的道德价值上作用,还需要泛化到不同文化、地域、情景中的道德价值,并在不同的情况下准确地遵循这些规则。
- 对齐方法的有效性(alignment efficacy):如何实现较好的道德对齐效果,即尽可能减小\(\epsilon\)值。
- 训练和数据开销问题(data and training cost):大模型的训练和优化需要海量的数据用于预训练,以及一般数万条高质量的人工标注的反馈数据用于RLHF微调。针对道德准则的数据村子不够丰富抑或存在覆盖率低和类别不平衡的问题,且增广的方法可能导致道德对齐效果出现偏向(bias)并带来进一步的风险。
- 评价方法的有效性(evaluation efficacy):如何有效评价模型的道德对齐效果。当下对齐性能的评价大多聚焦于少部分风险指标尚无面向更加广泛的道德价值的高质量评测数据集以及客观、准确和鲁棒的自动化评测指标。
- 对齐的可解释性(interpretability of alignment):为了确保道德对齐的公正性和公平性,我们需要能够解释和理解模型基于道德准则给出的解释。
- 对齐税(alignment taxes)问题:经过对齐的大模型尽管具有较强的能力,但其语言建模能力比原始模型或未对齐的模型更弱,并由此导致了对齐效果与下游性能的平衡问题。
- 可扩展性监管(scalable oversight)问题:可扩展性监管是指当AI模型在给定任务上的性能远超人类时,如何对其进行有效地监督和控制的问题。