大模型与图学习的结合场景调研

less than 1 minute read

Published: August 15, 2024

主要关注大模型和GNN结合的场景，包括与大模型有关的图的场景和大模型在图学习技术上起到的角色。

与大模型有关的图的场景

完全没有文本信息的图：这种图数据没有文本信息或者没有语义丰富的文本信息，比如交通网络，能量传输网络等。这种图一般作为测试大模型的图推理能力的上下文，或者作为强化大模型的知识源（缓解幻觉）。 文本属性图：这种图的节点或者边上有语义丰富的文本信息，也被称为富文本网络，文本网络或者边文本网络，包括学术网络，线上经济网络，社交网络，法律案例网络等。这些图上的任务一般包括学习节点和边的同时具有结构和文本信息的表征。 文本伴随图：这种图一般包括一个为整个图结构定义的文本描述，比如分子网络一般伴随一个标题或者文本特征。这种图上的任务一般关注使用图结构和文本描述来理解图的整体信息。

与大模型有关的图学习技术

根据大模型的角色和解决图相关问题的最后组件，可以将与大模型有关的图学习技术分为大模型作为预测器，大模型作为编码器，和大模型作为对齐器。 大模型作为预测器(LLM as Predictor)：这种类型的技术将大模型作为最后输出表征或者预测结果的组件，可以通过GNNs进行强化。根据图数据注入大模型的方式可以分为

图作为序列：不对大模型结构做更改，使用图token序列作为输入使大模型理解图结构。图token序列可以是图的自然语言描述或者由图编码器输出的隐层表征。
图增强的LLM：这种方法修改大模型基础模块的结构，使其能够在结构内部完成文本和图信息的共同编码。
图敏感的LLM微调：这种方法不对模型输入和结构做修改，而仅在图的监督下对大模型做微调 大模型作为编码器(LLM as Encoder)：这种方法一般在文本属性图上使用。GNN是最终的结果输出组件，而大模型作为开始的文本编码器。大模型首先用于编码节点和边相关联的文本信息，输出的特征向量作为GNNs的输入嵌入进行图结构编码。GNN输出的嵌入作为最终下游任务的节点/边表征。但这种方法会遇到收敛问题，数据稀疏问题和低效问题。 大模型作为对齐器(LLM as Aligner)：这种方法使用大模型作为文本编码组件，使用GNN作为图结构编码组件，然后将这两个组件对齐。大模型和GNN结合到一起作为最终的输出组件来解决下游任务。大模型和GNN之间的对齐可以分为：
预测对齐：轮流使用一个模型生成的伪标签来训练另一个模型
隐空间对齐：使用对比学习技术对齐大模型生成的文本嵌入和GNN生成的图嵌入
技术和场景的结合方式

图片出处为本文阅读的综述。在纯图上，大模型一般作为预测器使用（因为没有什么文本属性供大模型编码和对齐），用来解决在图上的各种推理问题，包括直接问答，启发式推理和算法式推理。在文本属性图上，大模型可以作为预测器，编码器和对齐器。LLM作为预测器时主要考虑的问题是图数据如何整合进LLM的输入里面（但是纯图上就不考虑这个了？，纯图也考虑，但纯图的整合方式主要就是文字描述，或者将结构编码进隐特征空间）Graph-LLM使用Graph Transformer作为图结构的编码器

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

与大模型有关的图的场景

与大模型有关的图学习技术

技术和场景的结合方式

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记