APO背景知识

less than 1 minute read

Published: January 18, 2024

RLHF相关方法回顾

人类偏好对齐的目的是在一个偏好数据集\(\mathcal{D}_P=\{(x,y^{good},y^{bad})\}\)上微调策略模型\(\pi_{\theta}(y\vert x)\)，以使其输出与人类偏好一致，从而提升人机交互质量。一般会用一个奖励模型\(r_{\phi}(x,y)\)来度量策略模型的生成质量，奖励模型的损失一般采用Bradley-Terry ranking loss

\[\mathcal{L}_{Ranking}(r_{\phi};\mathcal{D}_P)=-\mathbb{E}_{x,y^{good},y^{bad}\sim\mathcal{D}_P}\left[\log\sigma(r_{\phi}(x,y^{good})-r_{\phi}(x,y^{bad}))\right]\]

奖励模型用于描述某个潜在的人类偏好的分布，输出的评分可以反应这个人类偏好对数据集中好回答质量优于坏回答的认同程度（概率），可以描述为

\[Q_{r_{\phi}}(y\prec y'\vert x)=\frac{\exp(r_{\phi}(x,y))}{\exp(r_{\phi}(x,y))+\exp(r_{\phi}(x,y'))}\]

可以看到\(\mathcal{L}_{Ranking}(r_{\phi};\mathcal{D}_P)\)中的\(\sigma(\cdot)\)里面的东西就是\(Q_{r_{\phi}}(y\prec y'\vert x)\)，所以对于ranking loss的优化可以解释为对于\(Q_{r_{\phi}}\)的最大对数似然：\(\mathcal{L}_{Ranking}(r_{\phi;\mathcal{D}_P})=-\mathbb{E}_{\mathcal{D}_P}\left[\log Q_{r_{\phi}}(y^{good}\prec y^{bad}\vert x)\right]\)

有了一个训练好的奖励模型之后，对齐方法会以最大化生成回答的奖励期望为目标对策略模型进行训练，一般会加一个KL散度的正则化项来避免策略模型衰退到重复奖励值最高的回答，从而保护生成的多样性。

\[\max_{\pi_{\theta}}\mathbb{E}_{x\sim\mathcal{D},y\sim\pi_{\theta}}\left[r_{\phi}(x,y)-\beta KL\left[\pi_{\theta}(y\vert x)\vert\vert\pi_{ref}(y\vert x)\right]\right]\]

为了向策略模型准确传达奖励模型的反馈，RLHF阶段会用PPO和DPO，RRHF等方法进行模型更新。DPO找到了一个奖励模型和LLM的最优解之间的关系，然后用policy model跟reference model的相似性比例替代了奖励模型。

\[\mathcal{L}_{DPO}(\pi_{\theta};\pi_{ref})=-\mathbb{E}_{(x,y^{good},y^{bad})\sim D}\left[\log\sigma(\beta\log\frac{\pi_{\theta}(y^{good}\vert x)}{\pi_{ref}(y^{good}\Vert x)}-\beta\log\frac{\pi_{\theta}(y^{bad}\vert x)}{\pi_{ref}(y^{bad}\vert x)})\right]\]

RRHF使用了最优回答进行对比学习

\[\mathcal{L}_{RRHF}=-\mathbb{E}_{(x,y^{good},y^{bad}\sim\mathcal{D})}\left[ReLU(\log\pi_{\theta}(y^{bad}\vert x)-\log\pi_{\theta}(y^{good}\vert x))-\lambda\log\pi_{\theta}(y^{best}\vert x)\right]\]

拒绝采样方法更进一步，直接在最优回答上进行监督微调来简化对齐过程

\[\mathcal{L}_{RJS}(\pi_{\theta})=-\mathbb{E}_{x\sim\mathcal{D},(y^1,y^2,...,y^S)\sim\pi_{\theta}(y\vert x)}\left[\log\pi_{\theta}(y^{best}\vert x)\right]\]

其中最优解指这采样到的\(S\)个样本中的奖励分最高的回答。

APO方法

APO方法用一个对抗方式的优化目标来进行对齐

\[\min_{r_{\phi}}\max_{\phi_{\theta}}\mathcal{E}_{(x,y)\sim P_{\theta}(x,y)}\left[r_{\phi}(x,y)\right]-\mathcal{E}_{(x,y)\sim P_{gold}(x,y)}\left[r_{\phi}(x,y)\right] \\ s.t. KL\left[\pi_{\theta}(y\vert x)\vert\vert\pi_{ref}(y\vert x)\right]<\eta_1 \\ KL\left[P(y\prec y'\vert x)\vert\vert Q_{r_{\phi}}(y\prec y'\vert x)\right]<\eta_2\]

在奖励模型优化和策略模型优化的时候分别使用一个正则项，通过对应的超参数\(\beta_1, \beta_2\)加到优化目标里面。

在奖励模型优化的时候，使用策略模型给最优回答的问题也生成一个回答，作为对最优回答的对比，这样将生成的回答数据集和最优回答数据集合并，作为APO数据集\(\mathcal{D}_{APO}\)。于是对于奖励模型的优化就成为了一个在APO数据集上的奖励模型优化过程。在正则项上，为了保证奖励模型优化的稳定性，在优化目标后面使用了一个单独的人类偏好数据集，并用这个数据集的ranking loss作为正则项。文章说是需要把超参数设大一些，因为人类偏好数据集相比最优回答数据集要小很多，而他们是要整批训练的，数据量过小会导致正则项作用变小。

策略模型优化的时候使用一个问题数据集，生成回答后最大化奖励模型对于问答的分数，正则项使用策略模型和参考模型的KL散度。

两个优化阶段都要求固定另一个模型的参数，且都是全batch训练，要把所有数据都跑过一轮之后才进入到另一个模型的优化阶段。

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

RLHF相关方法回顾

APO方法

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记