大模型训练动态论文笔记

less than 1 minute read

Published: December 04, 2024

尽管大型语言模型被广泛采用，但人们对其潜在的训练和记忆动态还不是很了解。我们实证研究了因果语言模型和掩蔽语言模型中跨模型大小和整个训练过程的精确记忆。我们测量了数据集大小、学习率和模型大小对记忆的影响，发现较大的语言模型在所有设置中记忆训练数据的速度都更快。令人惊讶的是，我们发现较大的模型可以在过度拟合之前记住更大一部分数据，并且在整个训练过程中遗忘的更少。我们还分析了不同词性的记忆动态，发现模型首先记忆名词和数字；我们假设并提供实证证明了名词和数字是记忆单个训练示例的唯一标识符。

本文的背景

模型记住其训练数据的速率和程度提供了有关它如何可能泛化到新测试实例的证据。经典框架（偏差-方差均衡）主张在不完全记忆的情况下拟合训练集，但近期深度学习的研究建立的记忆和泛化之间更为共生的关系[^13][^26][^28]。

语言模型近期的大部分性能提升都来自于规模。众所周知，较大的模型会记忆更多的训练数据，这是提高泛化能力的关键因素。然而，令人惊讶的是，在理解规模对语言模型记忆训练动态的影响方面，研究相对较少。现有研究主要侧重于分析事后训练（post-training）的记忆。本文研究语言模型中的记忆和遗忘动态，衡量它们在扩大模型规模时如何变化。

本文要研究的问题

训练过程中大语言模型记忆随着数据规模，模型规模和学习率等的动态变化。

研究方法

使用标签记忆作为指标度量记忆程度，因为它一直为神经网络的基本特性提供理论见解，在经验环境中仍然适用，并且计算成本相对较低。本文将度量标准表述为自监督场景的标签记忆的模拟。使用大模型准确预测下一个token的概率作为记忆程度，然后以需要在数据上进行记忆住数据信息的最少的梯度下降更新次数来衡量记忆速度。

给定一组上下文\(C\)，每个包含一个输入上下文\(s\)和一个输出token\(y\)。如果\(arg\max(f(s))==y\)，就认为一个上下文\(c=(s,y)\in C\)被模型记住了。然后将整个上下文集合被记住的比例表示为 \(M(f)=\frac{\sum_{(s,y)\in C}\mathbb{1}\{arg\max(f(s))=y\}}{\vert C\vert}\)

给定一个阈值\(\tau\)，使用\(T(N,\tau)\)表示一个\(N\)个参数的大语言模型要满足\(M(f)\geq\tau\)的话需要见每个训练样本的次数。因为大型语言模型一般预训练不会训练多个epoch，每个样本都只会见一次。本文使用\(M_{Update}(f,U)\)作为模型对第\(U\)次梯度下降更新时的训练数据批次的记忆程度（对这个批次的数据的记忆比例）。然后使用\(T_{update}(N,\tau)\)作为满足记忆比例的最小的梯度下降更新次数。

原来的定义方法包括：

\(k\)-memorized：字符串通过训练数据中k个token的上下文的提示就可以提取出来
\(k\)-eidetic memorized：字符串可以被提取并且包含在最多\(k\)个训练样本中
影响函数：如果在包含样本的数据子集和不包括样本的数据子集上预期模型性能的差异足够大，则认为模型记住了样本。

主要结论

更大的模型记忆更快

在预训练的过程中检测了\(T(N,\tau)\)的值（所以这个玩意怎么算，每更新一次就统计一次预测对的样本数，然后统计一下比例，满足比例了就记录更新次数？），发现125M大的模型需要将近170次梯度下降更新才能达到记忆比例，而13B模型只需要低于10次更新，说明更大的模型对信息的记忆速度更快。同一规模的模型下，需要的记忆比例越高更新次数越多，但是随着模型变大，不同记忆比例需要的更新次数逐渐会下降到差不多的程度。更大的模型一开始的记忆程度和其他模型没什么区别，但很快就能达到更全的记忆程度。因果语言模型和掩码语言模型都是越大记忆速度越快。

为什么？

一般来说记忆与过度拟合有关。本文检查了过拟合发生之前的记忆。在验证集上的语言模型困惑度增加的首个epoch，认为模型出现了过拟合。随着参数数量的增加，过拟合之前的记忆通常会增加，说明过拟合本身无法完全解释随着模型规模增加而出现的记忆动态特性。

即使固定学习率，记忆比例也会很快达到90%，说明记忆速度与学习率无关。随着模型规模增加，对学习率的敏感度通常会降低。学习率会先下降，然后缓慢上升，但前后变化并不明显。对于超过特定规模的神经语言模型，学习率并不是一个重要的超参数。

和唯一标识符的关系

本文在训练集中的每个示例前面添加一个唯一标识符（文档ID），并检查记忆速度是否会提高。为了利用所有这些ID就必须将它们添加到词表中，因此会导致模型大小显著增加，所以M(f) 动态的任何变化都可以归因于通过增加词典大小而添加的额外参数。

为了控制这一点，本文首先检查仅增加字典大小（不使用任何添加的标记）的效果。然后利用这些添加的标记添加到每个训练示例的前面，并观察记忆比例的动态变化。增加词表大小确实可以提高记忆速度，哪怕这些唯一标识符完全没有使用。当利用这些添加的标记来唯一地标识训练示例时会看到记忆的另一个增益，尽管在prompt中使用文档ID并不会使记忆动态随时间单调增加。

和词性长度的关系

本文追踪了正确预测了词性的位置的数量和对应词性在数据集中出现次数的比值。正确预测的词性并不一定意味着准确记忆，语言模型记忆词性的速度比记忆token的准确值的速度更快。虽然所有词性最终都会被记住，但有些词性记忆得更快。名词、专有名词和数字的记忆速度明显快于动词和形容词。这对隐私有潜在影响，因为敏感信息很可能是名词/专有名词/数字。

语言模型的遗忘曲线

遗忘曲线假说表示当人类不尝试保留记忆时，记忆会随着时间的推移而衰退。本文首先使用遗忘集作为特殊批次，然后选择了模型的一个checkpoint，插入特殊批次进行训练，然后在训练集上恢复标准训练，最后评估特殊批次上的记忆退化情况（模型对特殊批次的记忆比例）。

特殊批次的精确记忆一开始会迅速下降，但随着继续训练，遗忘曲线会呈指数级下降。换句话说，特殊批次的遗忘曲线似乎最后会接近一个基线—我们将此趋势称为遗忘基线。可以通过查看整个训练过程中特殊批次的最低记忆值来近似遗忘基线。基线的数值随着模型规模单调递增。这意味着较大的模型遗忘较少。从隐私的角度来看，这并不理想，因为这意味着较大的模型可能会保留来自训练数据的更多敏感信息。本文还研究了遗忘基线对数据批次顺序的敏感性，从不同的训练检查点开始执行上述相同的遗忘曲线分析（从第 14、39 和 63 个时期开始）来改变提供给模型的数据批次的顺序而无需大幅改变实验设置。实验结果说明遗忘基线对数据批次顺序不敏感。

也就是说如果不复习，持续训练，原来的数据的遗忘程度会逐渐逼近一个下限（遗忘基线），然后模型就停止遗忘了。

本文研究了重复和间隔重复对遗忘基线的影响。

为了研究重复的影响，本文首先将特殊批次多次注入训练集，然后继续仅在训练集上进行训练，发现遗忘基线随着重复频率的函数单调递增（但也没递增多少）。
为了研究间隔重复的影响，本文定期将保留集注入训练集，对其进行一次训练，然后继续仅在训练集上进行训练，实验结果发现间隔重复对遗忘基线的影响最小，与重复之间的间隔长度无关。

未来工作的一个方向是了解基线的结构——例如，了解基线中记忆了哪些类型的标记（词性、同义词、事实、语法）以及基线中记忆的标记与训练集中的标记的重叠。

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

大模型训练动态论文笔记

本文的背景

本文要研究的问题

相关工作

研究方法

主要结论

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记