GUAP论文阅读思考笔记

less than 1 minute read

Published: July 09, 2024

前置定义

本文使用GCN作为攻击模型，给定的图表示为\(G=(A,X)\)，其中\(A\in\mathbb{R}^{n\times n}\)和\(X\in\mathbb{R}^{n\times d}\)分别是图的邻接矩阵和特征矩阵。一个两层的GCN的计算过程可以表示为

\[Z:=f(A,X)=softmax(\hat{A}\cdot RuLU(\hat{A}XW^{(0)})\cdot W^{(1)})\]

训练的目标是最小化所有节点标签的交叉熵损失之和

\[L=-\sum_{i\in V_L}\sum_{k=1}^K 1\{Y_i=k\}\ln Z_{ik}\]

GUAP-通过对抗补丁的图通用攻击

通过\(G_{new}=(A_{new}, X_{new})\)表示加了\(m\)个补丁节点的新图。方便起见将补丁节点后缀表示在原来的邻接矩阵和特征矩阵中，即 \(A_{new}=\left[\begin{array}{c} A & C \\ C^T & B \end{array}\right], X_{new}=\left[\begin{array}{c} X \\ X_{pathch} \end{array}\right]\)

其中\(C\)代表原节点和补丁节点之间的关联关系，\(B\)代表补丁节点内部的关联关系。\(X_{patch}\)表示补丁节点的特征。所以整个方法需要讨论的就是节点的生成方法，包括节点联系和节点特征。

节点生成

在特征生成上独立处理每一维特征，拟合一个正态分布并从中随机采样。并在最后进行二值化，将值小于\(0.5\)的归零。如果训练集中节点某一维的特征包含\(1\)的概率是\(p\)，包含\(0\)的概率是\(1-p\)，那么拟和的正态分布的均值和方差是\(p\)和\(1-p\)，新的样本以\(\frac{1}{2}[1-\operatorname{erf}(\frac{1/2-p}{\sqrt{2p(1-p)}})]\)的概率采样\(1\)。

边训练

边训练的目标是改变目标节点的预测结果，同时保留其他节点的信息，数学形式上可以表示为

\[\left\{\begin{aligned} \hat{l}(A'_{new}, X_{new},i)\neq \hat{l}(A,X,i),& & \\ \hat{l}(A'_{new}, X_{new},i)\neq \hat{l}(A,X,i),& &\forall j\neq i \end{aligned}\right.\]

使用一个攻击矩阵\(P\)完成攻击训练，其中的元素\(P_{ij}\)代表节点\(i\)和\(j\)之间的关联关系是否被反转，新的邻接矩阵可以被表示为

\[A'_{new}:=attack(A_{new}, i)=(\mathbb{1}-P)\circ A_{new}+P\circ(\mathbb{1}_0-A_{new})\]

其中\(\circ\)代表元素乘，\(\mathbb{1}\)表示全1矩阵，\(\mathbb{1}_0\)表示除对角元素为0的全1矩阵。

在训练中也需要将攻击图转换为补丁图，这样的unattack操作可以通过攻击矩阵翻转回去

\[A_{new}=unattack(A'_{new}, i)=attack(A'_{new}, i)\]

外侧循环：GUAP

GUAP算法流程如图所示

在外侧循环中，GUAP对于每个训练集中节点计算\(A'_{new}\)然后检查预测结果是否发生变化，如果没有的话就使用一个内部的IGP循环来生成一个扰动，并使用扰动更新\(A'_{new}\)，并将其转换回\(A_{new}\)。后续那一堆操作是因为扰动可能会逐渐将新邻接矩阵修改到极大，所以使用L2映射和clip操作来防止邻接矩阵爆炸。L2映射将单独应用于每个补丁节点，以便到此类节点的边向量具有 L2范数半径。我们还将\(B\)的对角元素设置为0，以防止自循环。最终攻击成功率为

\(ASR(V_L):=\frac{1}{\vert V_L\vert}\sum_{i=1}^{\vert V_L\vert}1{\hat{l}(A'_{new},X_{new},i)\neq\hat{l}(A,X,i)}\)

内侧循环：IGP

IGP流程如图所示

IGP（迭代图扰动）为当前的攻击矩阵计算一个扰动。对于攻击的第一个目标（改变目标节点的预测结果），策略是将预测结果推向另一个类别的决策边界。对于第二个目标（尽可能保持其他节点的预测结果），策略是为其他节点推进一个较小的损失。

\[L'_{new}:=-\sum_{j\in V_l\setminus i}\sum_{k=1}^K1\{Y_j=k\}\ln f(A'_{new}, X_{new})_{jk}\]

能够将节点\(i\)推向最近的其他类别\(k\)的决策边界的对于第\(i\)行的最小扰动可以计算为

\[k=\arg\min_{c\neq pred}\frac{\Delta f_c}{\Vert w_c\Vert_2},v=\frac{\vert\Delta f_k\vert}{\Vert w_c\Vert_2^2}\Delta w_k\]

其中\(\Delta f_c=f(A_{new},X_{new})_{i,c}-f(A_{new},X_{new})_{i,pred}\)，\(\Delta w_c=\nabla f(A_{new},X_{new})_{i,c}-\nabla f(A_{new},X_{new})_{i,pred}\)。此处的梯度是针对\(A_{new}\)的第\(i\)行（和第\(i\)列）计算的。将最开始的n个元素置0，因为原始图结构应当保持不变。

使用一个overshoot来将节点i推向决策边界的另一侧。从\(E'_{new}\)开始的第二部分是为了达成第二个目标，降低在其他节点的预测损失。在计算梯度时将第\(i\)行和第\(i\)列置0，因为目标节点不应该保存。

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

前置定义

GUAP-通过对抗补丁的图通用攻击

节点生成

边训练

外侧循环：GUAP

内侧循环：IGP

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记