Hallucination is inevitable论文阅读笔记

less than 1 minute read

Published: January 30, 2024

幻觉是不可避免的

论文整体来看是用了枚举+构造特例的方法证明LLM一定会在某些输入上产生幻觉，因此幻觉不可能完全消失。

可计算枚举的LLM会出现幻觉

首先使用对角论证来证明\(P\)-proved LLM的幻觉的不可避免性。因为无法直接枚举所有的可计算函数，从而无法直接使用对角论证，但可以使用\(P\)作为枚举函数来枚举所有的\(P\)-proved完全可计算函数。因此可以枚举出所有满足限制的LLM的输出，如果某些输出不在这些输出里面，则说明对于对应的输入样本一定会产生幻觉。

对于LLM的集合\(\{h_0,h_1,...h_i\vert h_i\in P-proved\}\)，每个LLM可以被训练样本逐渐更新为新的版本\(\{h_i^{[1]}, h_i^{[2]},...,h_i^{[j]}\}\)，使用康托尔配对函数将\(\{i,j\}\)编码为一个整数\(k\)，可以得到所有LLM的所有训练版本的新的序列\(\{\hat{h}_0, \hat{h}_1,..., \hat{h}_k\vert k=(i+j)(i+j+1)/2+j\}\)。然后对所有版本的LLM输入所有的训练样本\(s\in\mathcal{S}\)，就可以得到所有版本-所有输出的枚举表，这就是LLM集合可以学习的所有函数，如果有一个真值函数不在这个枚举表里，说明这个函数无法被这些LLM学习。

因此构造

\[f(s_i)=\Delta(\hat{h}_i(s_i)), \forall i\in\mathbb{N}\]

其中\(\Delta\)是一个输出与输入字符串不一致的可计算函数。由此可以发现对于所有的LLM都无法得到\(f(s)=\hat{h}(s)\)，所以这些LLM针对这个\(f\)一定会产生幻觉。最终得到定理如下。

定理1：对于LLM集合\(\{h_0,h_1,...h_i\vert h_i\in P-proved\}\)，存在一个可计算真值函数\(f\)，使得集合内的所有LLM都会出现幻觉。

以上定理说明如果\(f\)未在枚举表中列出，则表中的任何LLM都无法学习到\(f\)，因此表中的所有LLM都会对\(f\)产生幻觉。

LLMs会在无法计算的问题上出现幻觉

到目前为止，所有的LLM不仅在有限时间内生成输出，更在多项式时间\(O(\Pi(m))\)内生成输出，其中\(m\)是问题的长度。这说明如果它们要拟合的真值函数\(f\)无法在多项式时间内完成，那么\(P\)-proved \(O(\Pi(m))\) LLM就一定会出现幻觉。

必然结果1：如果LLM是\(P\)-proved可以在最多\(O(\Pi(m))\)步骤内生成输出，那么针对以下的真值函数\(f\)一定会出现幻觉：

组合列表：使用有两个字符的词表列出所有长度为\(m\)的字符串，复杂度为\(O(2^m)\)
Presburger算术：给出一个公理系统中的一条语句，如果能证明则\(f\)返回yes，否则返回no，复杂度为\(O(2^{2^{\Pi(m)}})\)

假设\(P\neq NP\)，\(O(\Pi(m))\) LLM会在NP完全问题上出现幻觉，比如

子集和：给定\(m\)个整数的集合和一个数字\(q\)，如果有一个子集的和为\(q\)则\(f\)返回yes，否则返回no
布尔可满足性问题（SAT）：给定一个有\(m\)个布尔变量的公式，如果有一个赋值方式让公式为真则\(f\)返回true，否则返回false

就是超出LLM可计算复杂度的问题LLM都会出现幻觉

LLM在面对无限多的问题时会出现幻觉

考虑不加\(P\)限制的所有可计算枚举LLM构成的集合\(\{h_0,h_1,...h_i\}\)，构建真值函数\(f\)为

\[f(s_i)=\Delta(\hat{h}_j(s_i)\vert j\leq i),\forall i\in\mathbb{N}\]

其中\(\Delta(\hat{h}_j(s_i)\vert j\leq i)\)返回一个与字符串集合\(\{\hat{h}_j(s_i)\vert j\leq i\}\)中的字符串都不同的字符串。这样\(\forall j\leq i, f(s_i)\neq\hat{h}_j(s_i)\)成立。一般而言，在\(\mathcal{S}\)的一对一枚举\((s_0,s_1,...)\)中，LLM(\(h_k\))会对\(s_{k-1}\)之后的所有输入字符串产生幻觉。由此得到以下定理。

定理2：对于所有的可计算枚举LLM构成的集合，存在一个可计算的真值函数\(f\)，使得集合内的所有LLM在无限多的输入上都会产生幻觉。

任意可计算的LLM都会产生幻觉

在这一步，本文将LLMs视为一般的全可计算函数，基本真值函数f仍将假设为任意的全可计算函数。任意独立的LLM构成一个单独的集合，由此是可计算枚举的，根据定理2可以知道一定存在一个真值函数让这个集合内唯一的一个LLM在无限多的输入时出现幻觉，因此可以得到如下定理。

定理3：对于所有的可计算LLM，存在一个真值函数，使得LLM的每个版本在无限多的输入上都会出现幻觉。

以及这个必然结果

必然结果2：所有可计算的LLM都无法完全消除自身的幻觉。

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

Hallucination is inevitable论文阅读笔记

相关定义

幻觉是不可避免的

可计算枚举的LLM会出现幻觉

LLMs会在无法计算的问题上出现幻觉

LLM在面对无限多的问题时会出现幻觉

任意可计算的LLM都会产生幻觉

相关讨论

现有和可能的幻觉缓解方法

待研究问题

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记