Mini Survey of Machine Unlearning

1 minute read

Published: October 31, 2023

Machine Unlearning 相关笔记

是在阅读Machine Unlearning of Features and Labels和Graph Unlearning之后的笔记，在阅读了其他机器遗忘相关的论文后会扩展。

机器遗忘背景和研究价值

目前的机器学习方法利用用户的信息进行训练，然后在推荐，搜索，广告等场景为用户提供个性化的结果。利用用户的敏感信息训练的模型可能在刻意设计的攻击下泄露这些信息，或者在推理时表现出某些危险的行为。场景包括：

为符合隐私法规的要求，需要按照用户要求对于某些敏感数据，或者某些用户的数据对于模型的影响进行消除。
大模型的无意识记忆（记住训练数据中的某些输入并在推理中复现的现象）可能会泄露敏感信息，需要对无意识记忆的内容进行消除。
大模型的学习结果可能会有某些不符合价值观/道德标准的东西，在发现时也需要消除这部分训练数据的影响。

由此出现了隐私保护和阻止信息泄露的需求。最简单直接的方法自然是将需要遗忘的数据从训练数据中删除，然后重新训练模型————这也是目前对于遗忘效果进行数学描述的对比基准————但这种方法的问题也很明显：很多时候数据量或模型规模过大，重新训练成本很高；存储成本原因很多训练数据并不会无限保留；某些数据处于不断更新中，不是完全可用。

其实还有一种情况论文里没提，就是很多预训练模型的用户是无法进行重训练的，一方面由于根本无法接触模型参数和预训练的数据，另一方面由于无法承担模型的预训练成本。

因此需要一种高效，快速的方法来将指定数据的影响从模型中剔除的方法，让模型“忘记”指定数据的信息，也就是模型遗忘的研究内容。

和对抗攻击以及中毒攻击的区别： 从效果上说，对抗攻击或者中毒攻击有和机器遗忘类似的削弱数据影响的地方。在根本上说，这些攻击方法和机器遗忘的目标是相悖的：机器遗忘需要在去掉指定数据的影响后尽可能保留模型推理精度，但对抗攻击和中毒方法则以尽可能降低目标模型精度为目标。因此直接使用对抗或中毒攻击方法的结果很可能是以毁掉模型的代价遗忘指定的数据。

和模型微调的区别： 根据machine unlearning of feature and labels的描述，机器遗忘的目标与微调的目标有细微区别，微调的目标在于使模型的预测贴近微调数据的标签，而遗忘的目标在于使模型的预测贴近对冲的目标外远离原有数据的预测结果。

图取消学习是机器取消学习的扩展，专门针对图结构数据而设计。它涉及完全删除已删除数据的所有痕迹，例如图中的节点和其所有连接的边。图遗忘的目标是从图中删除特定的节点和边以及其他信息，同时保留其整体结构。这种级别的数据删除涉及数据点之间的相连关系，因而比传统的机器遗忘要复杂得多。

图结构数据的复杂性对图的遗忘提出了挑战。图中节点和边之间的关系错综复杂，形成了一个密集的互连信息网络。随着数据隐私法规和个人控制其数据的权利变得越来越重要，从图结构数据中全面删除敏感信息的能力成为至关重要的道德保障。确保有效、彻底地消除图表中被遗忘的数据可以让个人更好地控制自己的信息，增强对机器学习系统的信心，并维护负责任的数据管理的道德标准。

目前进展

按照看过的论文，目前的机器遗忘方法大概可以分为精确遗忘和近似遗忘两种。

分片法继承重训练的思想，并对训练成本过高的问题进行改进。改进方法是将训练数据分片（shard），在每个片上分别训练子模型，最终将每个子模型的结果进行聚合得到模型的推理结果。在得到遗忘需求时确认需要遗忘的数据所在分片，在片上去除对应数据后重新训练对应的子模型。总体来说是通过限制重训练的范围来提升训练效率，降低训练成本。 Graph Unlearning针对图数据设计了基于社团发现和图嵌入聚类的两种分片方式避免随机划分导致的模型效果恶化，同时限制每个分片的规模来避免数据规模不均衡导致的训练成本不均，最终使用自适应的聚合方式得到模型的最终分类结果。在遗忘时修改对应分片的数据（删除节点&边），然后重训练对应的子模型。

抵消法从影响函数的角度出发，设计对冲的样本加入训练，从而抵消目标数据对于模型的影响。

todo：看Machine Unlearning of Features and Labels的参考文献9和21，看这个影响函数是什么东西，要不看不懂这个损失函数。

影响函数方法的基本原理

整个方法从遗忘的目标出发：使遗忘后的模型尽可能与完全重训的模型一致。因此理想状态下，遗忘算法修改后的模型参数\(w^-\)应当与用剩余数据\(\mathcal{D}'\)完全重训的模型一样，即满足：

\[w^-=argmin_w L(w;\mathcal{D}')\]

当损失函数收敛时遗忘完成，得到遗忘后的模型，此时满足损失函数梯度为0，即

\[\nabla L(w;\mathcal{D}')=0\]

使用一阶泰勒展开处理上式，得到

\[\nabla L(w;\mathcal{D}')\approx \nabla L(w^*;\mathcal{D}')+\nabla^2L(w^*;\mathcal{D}')(w^--w^*)=0\]

其中\(w^*\)是遗忘前的模型参数，最终化简就得到

\[w^-=w^*-\overbrace{\nabla^2L(w^*;\mathcal{D}')}^{H_{w^*}^{-1}}\overbrace{\nabla L(w^*;\mathcal{D}')}^{\Delta}\]

其中\(I=H_{w^*}^{-1}\Delta\)称为影响函数。

因为原来的模型是在完整数据上的最优模型，并且样本之间没有关联关系，所以有

\[\begin{aligned} \nabla L(w^*;\mathcal{D}')&=\nabla L(w^*;\mathcal{D})-\nabla L(w^*;z_n) \\ &=0-\nabla L(w^*;z_n) \\ &=-\nabla\mathcal{l}((w^*)^Tx_n,y_n)-\lambda w \end{aligned}\]

所以在机器遗忘论文里将其中的负号提出来跟影响函数中的负号抵消，直接将在遗忘数据处的损失表示为

\[\Delta=\lambda w^*+\nabla\mathcal{l}((w^*)^Tx_n,y_n)\]

最终参数更新方式为

\[w^-=w^*+H_{w^*}^{-1}\Delta\]

对于图上的遗忘问题而言，最大的区别在于样本之间是有关联的，一个数据点的删除会导致其他数据点的预测结果也发生变化。因此\(\nabla L(w^*;\mathcal{D}')\)会发生变化，不会只是将要遗忘的样本的梯度减掉了。根据完全重训的思路，这个变化应当是所有样本的损失的变化之和，即certified graph unlearning里面提到的

\[\underbrace{\nabla L(w^*;\mathcal{D})}_{original\space prediction}-\underbrace{\nabla L(w^*;\mathcal{D}')}_{retrain\space prediction}\]

再加上要删除的样本点在\(\mathcal{D}'\)里没有，所以整个\(\Delta\)部分可以写为

\[\Delta=\lambda w^*+\nabla\mathcal{l}((w^*)^Tx_n,y_n)+\sum_{i=1}^{n-1}(\nabla\mathcal{l}((w^*)^Tx_i,y_i)-\nabla\mathcal{l}((w^*)^Tx'_i,y_i))\]

即可以将遗忘节点和其他节点的影响在传播路径处进行分离，从而完成对于遗忘节点信息的对冲操作。

潜在方向

对于Graph Unlearning这篇论文，使用分片的方式可能不是一个最好的方法，因为分片训练会在一定程度导致模型精度降低：究其根本依然是限制信息的传播范围来降低重训练成本。使用抵消法设计对冲样本进行训练可能是更好的方法。

对于机器遗忘这个方向而言，目前的方法都需要预先知道需要删除的数据样本是什么。这在需求1的场景中很容易获得，需求2的场景中可能比较容易定位，但是在需求3的场景中很难找到所有需要删除的数据样本，寻找过程本身也很依赖人的主观判断。其次如前文所言，当初的训练数据因为存储成本或者更新已经无法获得。所以需要一种不需要提前获得目标数据就可以进行有效遗忘的方法。

这种方法的效果如何衡量，以及在不精确知道需要遗忘的数据的时候如何去遗忘数据？

以及论文中所提的，已有方法在面对大量需要遗忘的数据的时候（大量的数据样本/特征/标签）普遍存在效率低下的问题。分片法的原因很直观，其底层依然是重训练方法，减少训练成本的分片方法在大量数据需要重训练时并没有作用：所有片都需要重训练的话那就是从零重训练。抵消法的原因还需要分析。

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

Mini Survey of Machine Unlearning

Machine Unlearning 相关笔记

机器遗忘背景和研究价值

目前进展

影响函数方法的基本原理

潜在方向

相关工作

2020

2022

2023

2024

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记