DRO论文阅读笔记

less than 1 minute read

Published: February 03, 2024

一种保护LLM防御有害查询的方法是预先设置的模型输入带有人工合成的安全提示（safety prompt），通常包含对模型行为的明确指导和界限，但这种方式的工作机制没有很明确的研究，本文做了两种假设：(1) 模型不能很好地区分有害查询和无害查询，而安全提示增强了模型的有害识别能力。(2) 模型可以识别有害查询，但不能拒绝有害查询，而安全提示增加了整体拒绝(即拒绝提供帮助)的概率。然后通过可视化分析对机制进行了研究，最终提出了一种新的prompt表征优化方法。

Safety Prompt是如何工作的

为了理解safety prompt是如何工作的，本文首先做了一个实验。本文准备了一个有害和无害问题的数据集，然后将这个数据集中的查询发给LLM，包括添加不同的safety prompt的查询版本，最后使用最后一个input token的最后一个模型层的隐层表示进行分析。这个token之后LLM应当获取了查询的所有知识，然后要开始生成对应的回答了。这种隐藏状态也被一个语言建模头(线性映射)投射到下一个标记预测中，暗示了相应表示空间中的线性结构，从而支持进行PCA降维，降维结果如图所示。

对LLM隐层表示的PCA降维可视化分析结果

可视化结果说明在没有安全提示的情况下，有害查询和无害查询可以在很大程度上被区分，其边界(黑色链点状线条)可以很容易地通过逻辑回归以查询的危害性为标签进行拟合。添加safety prompt并没有很明显地提升可区分度。说明第一种假设可能是错的，安全提示并不能增强模型有害识别能力。

但另一方面，不同的safety prompt在将查询的表示向相似的方向移动，运动方向通常沿着”拒绝方向”具有非零分量，在该方向上拒绝概率增加，这点在有害的查询上尤其明显。这些运动也增加了对无害查询的拒绝概率，并导致错误拒绝的增加。安全提示使查询的表示朝着”高拒绝”的方向移动，从而增加模型的整体拒绝概率。

safety prompt 优化方法

提示驱动的安全保障方法有其不足，即人为设计的safety prompt的有效性随提示和模型的不同而存在较大差异。根据前面的观察结果，本文提出了一种方法来自动优化连续安全提示，命名为DRO，代表Directly Representation Optimizaiton。其核心思想是根据查询的有害程度，使查询的表示沿着或相反于拒绝方向移动。

DRO首先锚定一个模型的低维表示空间，该空间捕获与查询危害性和安全提示影响相关的特征，这些特征与模型的拒绝行为相关。然后估计指示模型的拒绝概率增加的拒绝方向。将最后一个input token的表征表示为\(x\in \mathbb{R}^n\)，向低维空间的映射由使用锚点数据计算的前m个主元给出。

\[g:\mathbb{R}^n\rightarrow\mathbb{R}^m,g(x)=V^T(x-a)\]

其中\(V\in\mathbb{R}^{n\times m}(n<<m)\)和\(a\in\mathbb{R}^n\)分别表示m个主成分和中心化向量。然后使用锚点数据的经验拒绝概率来拟合逻辑回归。

\[f_r(x):\mathbb{R}^m\rightarrow\mathbb{R},f_r(x)=w_r g(x)+b_r\]

法向量\(w_r\)表示拒绝概率增加的估计拒绝方向。锚点数据不做修改，仅用于学习上述逻辑回归的参数。

然后，DRO通过将安全提示视为连续的、可训练的嵌入来优化安全提示。使用\(x_{\theta}\)表示前置了连续安全提示\(\theta\)所对应的查询的隐层状态，\(x_0\)表示前置了初始的安全提示\(\theta_0\)的查询的隐层状态。DRO使用二值交叉熵作为优化目标

\[\mathcal{L}_r(\theta)=-l\log\sigma(f_r(x_{\theta})-f_r(x_0))-(1-l)\log(1-\sigma(f_r(x_{\theta})-f_r(x_0)))\]

\(l\in\{0,1\}\)代表问题的有害性。目标函数会给有害的查询更高的拒绝概率，而给无害的查询更低的拒绝概率。

相似的，本文还计算了一个有害性识别损失\(\mathcal{L}_h(\theta)\)，计算方式基本一致，只是最后以查询的有害性为目标。有助于保持识别有害无害查询的能力。

最后DRO添加了一个正则项，用于处理直接优化带来的原始表象的退化问题。具体来说，当监督信号仅作用于\(x\)的\(m\)维特征时，其余\(n-m\)维特征的信息会丢失，从而影响生成质量。在降维函数\(g\)中，变换矩阵\(V\)包含\(m\)个单位长度的正交向量。我们可以将\(V\)化成一个正交矩阵\(Q=[V; U]\in\mathbb{R}^{n\times n}\)，其中\(U\in\mathbb{R}^{n\times(n-m)}\)是任意的，可以通过Gram-Schmidt算法很容易地得到。\(Q\)保持向量长度(在欧几里得范数下)的性质可以得到

\[\lVert(x_{\theta}-x_0)\rVert^2=\lVert Q^T(x_{\theta}-x_0)\rVert^2 \\ = \lVert V^T(x_{\theta}-x_0)\rVert^2+\lVert U^T(x_{\theta}-x_0)\rVert^2 \\ =\lVert g(x_{\theta})-g(x_0)\rVert^2+\lVert U^T(x_{\theta}-x_0)\rVert^2\]

LHS项为新隐状态\(x\)与初始隐状态\(x_0\)之间的变化量。第一个RHS项是提取的与安全提示和查询有害性相关的m维特征的差异，通过上面的损失函数将其放大。第二个RHS项表示剩余\(n-m\)维的信息变化，它独立于前面提取的\(m\)个特征。因此，为了将\(\lVert xθ-x0\rVert\)限制在合理的变化范围内，我们可以使用第二个RHS项进行正则化

\[\mathcal{L}_U(\theta)=\lVert U^T(x_{\theta}-x_0)\rVert^2/n\]

最后将三个损失联合训练，对safety prompt进行优化。

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

Safety Prompt是如何工作的

safety prompt 优化方法

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记