large language model unlearning论文阅读笔记

less than 1 minute read

Published: December 07, 2024

本文研究如何在大型语言模型 (LLM) 上进行遗忘，即忘记不良的不当行为。本文展示了至少三种将 LLM 与人类偏好对齐的场景可以从反学习中受益：(1) 删除有害反应，(2) 删除受版权保护的内容，以及 (3) 减少幻觉。遗忘作为一种对齐技术，有三个优点。(1) 它只需要负面（例如有害）示例，这些示例比 RLHF（从人类反馈中进行强化学习）所需的正面（例如有帮助且通常是人类编写的）示例更容易和更低成本地收集（例如通过红队或用户报告）。(2) 它在计算上是高效的；成本与轻度监督微调相当。(3) 当我们知道哪些训练样本导致不当行为时，它特别有效。

本文认为如果从业者资源有限，优先考虑的是停止生成不良输出而不是尝试生成理想输出，那么遗忘就特别有吸引力。尽管只有负样本，但消融研究表明，遗忘仍然可以实现比RLHF更好的对齐性能，而计算时间仅为RLHF的2%。

本文的背景

大模型需要与人类价值观和政策法规对齐，导致出现了包括移除有害回复，消除版权内容，缓解幻觉，保护用户隐私和强化法律遵循等等任务。由此出现了快速移除训练数据对大模型的影响的问题。

本文要研究的问题

大模型开发者的资源有限，没有足够的成本去雇佣人工标注员来得到足够规模的正例样本供RLHF。同时训练资源也有限，首要目的是阻止有害输出而不是生成有效输出。因此需要在仅有负例可用的情况下让模型忘记有害数据的影响。

大模型遗忘的难点在于：

大模型的输出空间比分类任务的空间大得多，且可能的输出远远大于分类结果。遗忘后模型的行为更加难以定义。
大模型对遗忘的效率要求更高
大模型的训练数据过多且通常难以访问，因此我们从训练数据中获得的信息较少
无法重训大模型，也就无法得到真实的对比模型和行为，导致难以评估遗忘效果。

已有方法为什么不行

机器学习模型的遗忘方法包括数据反向训练，基于优化的遗忘和基于影响函数的遗忘方法。由于大模型的参数规模和训练数据规模，很多已有方法无法应用，比如高效重训，以及影响函数方法（因为需要计算逆海森矩阵，成本过大）

大模型对齐方法RLHF需要大量标注了的正例样本，有额外的标注成本。其次RLHF的训练成本过高。

遗忘哈利波特的方法通过根据哈利波特数据训练的模型与反事实输出之间的差异进行微调，就好像未使用哈利波特数据一样。但这种方法可能导致不正确的输出。

本文方法是什么

本文假设可以获得遗忘数据集\(D^{fgt}\)，普通数据集\(D^{nor}\)，并且随机获取了一些和遗忘数据集中的提示无关的随机输出\(\mathcal{Y}^{rdn}\)。然后本文联合优化三个遗忘目标

\[\begin{aligned} \theta_{t+1}&\leftarrow\theta_t-\epsilon_1\cdot\nabla_{\theta_t}\mathcal{L}_{fgt}-\epsilon_2\cdot\nabla_{\theta_t}\mathcal{L}_{rdn}-\epsilon_3\cdot\nabla_{\theta_t}\mathcal{L}_{nor} \\ \mathcal{L}_{fgt}&=-\sum_{(x^{fgt},y^{fgt})\in D^{fgt}}L(x^{fgt},y^{fgt};\theta_t) \\ \mathcal{L}_{rdn}&=-\sum_{(x^{fgt},\cdot)\in D^{fgt}}\frac{1}{\vert \mathcal{Y}^{rdn}\vert}\sum_{y^{rdn}\in\mathcal{Y}^{rdn}}L(x^{fgt},y^{rdn};\theta_t) \\ \mathcal{L}_{nor}&=-\sum_{(x^{nor},y^{nor})\in D^{nor}}\sum_{i=1}^{\vert y^{nor}\vert}KL(h_{\theta^o}(x^{nor},y_{<i}^{nor})\Vert h_{\theta_t}(x^{nor},y_{<i}^{nor})) \\ \end{aligned}\]

本文怎么说明效果的

本文在遗忘有害输出，版权保护内容，幻觉内容三个任务上测试了遗忘方法的有效性，并与RLHF方法做对比，使用了各自任务中不同的数据集，使用llama和OPT作为基础模型。

遗忘有害输出上与使用剩余数据微调模型的结果做对比

GA和GA+Mismatch均可显着降低有害率，实现近乎于零的有害率。
GA 和 GA+Mismatch 都很好地概括了看不见的有害提示，表明遗忘的LLM确实忘记了有害行为的概念，而不仅仅是个别未学习的样本。
与原始模型相比，GA 和 GA+Mismatch 在正常提示下的输出都保持在相似的效用水平，并且接近原始模型的输出。
随机打乱的匹配有助于维持正常提示下的可用性

在遗忘版权保护内容上与使用剩余数据微调模型的结果做对比，按照文本生成的200个单词和原文做对比，按最大重叠程度算BLEU分数来衡量内容泄漏程度

GA和GA+Mismatch都可以将未学习的提取尝试的泄漏率降低到接近于零
GA 和 GA+Mismatch 都可以推广到未见过的prompt上，表明未学习的 LLM 可以区分与版权相关的提示和其他提示。
与原始 LLM 相比，GA 和 GA+Mismatch 在正常完成任务上都实现了类似的可用性。
与普通 GA 相比，添加mismatch损失可以实现类似的正常可用性，但与原始 LLM 输出的相似度相对较高

在遗忘幻觉内容上与使用剩余数据微调模型的结果做对比

GA和GA+Mismatch都能显着降低遗忘的prompt的幻觉率。
GA 和 GA+Mismatch 都可以将去幻觉推广到用于消除遗忘的同一数据集中的同分布的问题。
GA和GA+Mismatch都可以区分分布内和分布外的问题。

相较RLHF，遗忘方法可以实现更低的有害率，并且比SFT低得多的有害率，但在多样性上有所损失。

可以将随机匹配的输出换成指定的模板输出来引导大模型输出有意义的预设输出。

仅考虑损失不能有效度量遗忘效果，即使在遗忘数据上的损失已经很大了，模型依然有可能输出有害内容。在正常样本上保持性能比遗忘更难实现，用于指导LLMs在正常任务上保持效用的正常数据格式极大地影响了正常性能。

可能的未来方向

构建统一、全面的评估框架，帮助研究人员更好地理解遗忘对大模型的影响。
探索兼具计算效率和理论保证的基于影响函数的方法

感觉最有意思的地方在于GA就可以扩展到没见过的prompt上，这个方法居然就可以实现泛化？

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

本文的背景

本文要研究的问题

已有方法为什么不行

本文方法是什么

本文怎么说明效果的

可能的未来方向

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记