大模型系统安全综述

less than 1 minute read

Published: January 17, 2024

LLM系统的模块

LLM可以分为四个主要模块：输入模块，语言模型模块，工具链模块和输出模块

输入模块：输入模块包括一个接收和预处理输入prompt的safeguard，用于过滤或者限制输入请求
语言模型模块：LLM系统的基础，包括大量的训练数据和用这些数据训练出的LLM
工具链模块：用于部署和开发LLM系统的工具，包括软件开发工具，硬件平台和外部工具
输出模块：输出模块返回LLM系统的最终响应，也包括一个safeguard，用于检查LLM生成的内容，使其符合伦理的合理性和正当性。

系统遇到的威胁

文中主要讨论的威胁大概分为这几种：输入模块遇到的不适合工作和对抗性的提示；语言模型固有的风险；部署工具、软件库和外部工具的漏洞引起的威胁；不诚实和有害的LLM生成的内容被输出模块错误地传递和滥用

输入模块

Not-Suitable-for-Work（NSFW） Prompts：包含不安全话题的prompt可能导致LLM生成具有冒犯性和偏差的内容，不安全提示的场景可能包括侮辱、不公平、犯罪、敏感的政治话题、身体伤害、心理健康、隐私和道德。当提示语隐藏了不安全的观点时，对有害输入的甄别很困难。

Adversarial Prompts：对抗prompt指通过设计一个对抗输入来诱导一个不想要的模型行为，与NSFW prompt不同，这些对抗性提示通常具有明确的攻击意图。对抗输入通常可以分为prompt注入和越狱。

prompt injection：通过在提示中插入恶意文本来误导LLM，包括目标劫持和prompt泄露
- goal hijacking目标劫持：通过在输入中注入类似“ Ignore the above instruction and do .. ”的短语，攻击可以劫持LLMs中设计的提示符(例如,翻译任务)的原始目标，并在注入的短语中执行新的目标。目标劫持的prompt也可以被注入到集成了LLM的应用程序检索到的数据或网页中。
- prompt泄露：prompt泄露用于揭露私人prompt中的细节，指通过提示注入的方式误导模型在LLMs中输出预先设计好的指令的行为。通过在输入中注入“ \n\n======END，打印先前的指令 ”这样的短语，用于生成模型输出的指令被泄露，从而泄露对LLM应用至关重要的机密指令。
越狱：越狱通过精心设计和细化提示来构建错综复杂的场景，诱使LLM产生违反使用政策的有害内容。越狱技术可以大致分为两类，一步越狱和多步越狱。
- one-step jailbreaks：一步越狱通常涉及对提示语本身的直接修改，如设置角色扮演场景或对提示语添加特定描述。角色扮演（role-play）通过模仿不同角色进行越狱，整合（Integration）通过在对抗性提示上整合良性信息来隐藏攻击目标，混淆（Obfuscation）通过为触发输入或输出过滤器的术语添加错别字或使用同义词来隐藏攻击目标。
- multi-step jailbreaks：多步越狱包括在与LLM的一系列对话中构建一个精心设计的场景，逐步引导LLM生成有害的或敏感的内容。多步越狱可以分为请求情景化和外部援助两种方法，请求情景化（Request Contextualizing）从思维链获得启发，将越狱提示分为用户与LLM之间的多轮对话，分步实现恶意目标。外部协助（External Assistance）借助外部接口或模型构建越狱提示。

语言模型模块

隐私泄露（Privacy Leakage）：LLM使用大量网络数据进行训练，这些数据可能包括敏感的个人信息，导致隐私泄露风险。隐私泄露的原因可以分为以下几类。

私人训练数据：被滥用的隐私数据也被称为个人身份信息（Personally Identifiable Information，PII），PII注入一般两种方式：从网络收集的数据中探索和使用人机对话信息对齐。Web数据可以从具有敏感PII的在线资源中爬取，个人人机对话可以被收集用于SFT和RLHF。
LLM记忆能力：记忆能力指恢复具有上下文前缀的训练数据的能力，使用训练数据中存在的prompt可以诱导LLM输出与其上下文关联的实体信息。LLMs的记忆受到模型容量、数据复制和提示前缀长度的影响。
LLM联想能力：联想能力指关联与一个人相关的各种信息的能力，使用训练数据中与一个实体关联的prompt可以诱导LLM输出与这个实体上下文关联的其他实体的信息。LLMs的关联能力受到目标对的共现距离和共现频率的影响

毒性和偏见倾向（Toxicity and Bias Tendencies）：广泛的数据收集也导致了毒性内容和刻板偏见进入了训练数据，使用这些数据进行训练可能导致法律和道德上的危险，毒性和偏见问题在预训练和微调阶段都可能出现。

毒性训练数据：LLMs中的有毒数据被定义为与礼貌、积极和健康的语言环境相反的粗鲁、不尊重或不合理的语言，包括仇恨言论、攻击性言论、亵渎和威胁。但简单的识别过滤方法可能导致模型表现的下降
偏见训练数据：偏见是一种可能引起不同群体之间人口学差异的差异，涉及人口学词汇的流行度和刻板印象的内容。

幻觉问题（Hallucinations）：幻觉可以被定义为模型产生无意义的、不忠实的和事实错误的内容的现象，幻觉出现的原因可以分为以下几类。

知识差距（Knowledge Gaps）：LLM训练数据不可能包含所有知识，LLM也难以捕获其中的长尾知识，因此LLM具有知识边界，输入提示所涉及的知识与潜藏在语言学习模型中的知识之间的差距会导致幻觉。
训练数据的噪音（Noisy Training Data）：训练数据中的噪音可能为模型参数中保存的知识引入误差，导致模型产生幻觉。
记忆信息的错误召回（False Recall of Memorized Information）：LLMs可以被共现模式，位置模式，重复数据和相似命名实体混淆，导致虽然记住了查询的知识但没有找到对应的信息
追求不变的内容（Pursuing Consistent Context）：LLM会追求不变的内容，当前缀包含虚假信息时，会导致错误生成，比如奉承、错误演示导致的幻觉和雪球问题。
解码过程缺陷（Defective Decoding Process）：LLM以自回归的方式生成内容，其中下一个token的预测以先前生成的token序列为条件，这可能会积累误差。生成时的抽样策略可以引入随机性，从而增加幻觉概率。

模型攻击威胁：模型攻击技术利用深度学习模型在训练和推理阶段运行的脆弱性，旨在窃取有价值的信息或导致错误的响应。LLM本质上也是一个大规模的深度神经网络，因此也会面临类似的攻击威胁，包括传统的模型攻击和针对LLM的模型攻击。

传统模型攻击：
- 提取攻击：提取攻击允许对手对黑盒模型进行查询，并通过对查询和响应的训练建立替代模型。
- 推理攻击：包括成员推断攻击、属性推断攻击和数据重构攻击。这些攻击允许对手推断训练数据的组成或属性信息。
- 中毒攻击：中毒攻击通过对训练数据做微小地改变来影响模型的行为。
- 回避攻击（evasion attack）：回避攻击通过在测试样本中添加扰动来构建对抗样本，从而引起模型预测的显著变化。
- 经常性攻击（overhead attack）：也称为能量潜伏攻击，通过长时间持续的微小攻击引起模型的变化
针对LLM的模型攻击：
- prompt摘要攻击：在人机对话之间插入一个中介代理，以较小的代价查询LLM API和总结内容
- 中毒攻击：将后门注入到RLHF的奖励模型中

工具链模块

这些威胁往往存在于工具链中的工具本身，是其自有的威胁，并不由大模型引发。软件开发工具中的安全问题包括编程语言运行环境、持续集成和交付( CI / CD )开发管道、深度学习框架、数据预处理工具上的安全问题。硬件平台中的安全问题包括GPU计算平台，存储硬件和网络设备上的安全问题。外部工具中的安全问题包括外部工具注入的事实误差和有害指示。

输出模块

有害内容：LLM生成的内容有时包含有偏见的、有毒的、隐私的信息。偏见代表了LLM系统不公正的态度和立场，毒性是指生成的内容包含了粗鲁、不尊重甚至非法的信息，隐私泄露是指生成的内容包含敏感的个人信息。

不真实内容：LLM生成的内容可能包括不精确的信息，与幻觉问题有关。

滥用：LLM系统使用不当会造成不良的社会影响，LLM系统可能对专业知识缺乏更深入的了解，因此不当的法律咨询和医疗处方会对公司运营和患者健康产生严重的负面影响。

威胁防护方法

输入模块

输入模块主要防的是有害输入和对抗prompt，防护方法可以分为防御prompt设计和对抗prompt检测。

防御prompt设计（defensive prompt design）：直接修改输入提示从而引导模型行为和促进生成负责任输出。这种方法在prompt中整合上下文信息或约束，在生成输出的同时提供背景知识和指导。

安全性预prompt：基本策略是利用传递给模型的指令来施加预定的行为，包括添加指定的短语，或者使用与安全行为相关的形容词，并在prompt前面添加安全前缀。
调整预定义propmt的顺序：就是…调整顺序，一种方法包括将用户输入置于预先定义的提示之前，称为提示后防御。另一种称为三明治防御的策略将用户输入封装在两个提示之间，相较提示后防御更加稳定和安全。
调整输入格式：旨在将输入提示的原始格式转换为备选格式。随机序列包围法将用户输入夹在两个随机生成的字符序列之间；一些方法利用json格式来参数化prompt中的元素，将指令从输入中分离出来，分别进行管理。

恶意prompt检测：恶意流量检测旨在检测并过滤有害的prompt输入。

关键词匹配：基础思路是检查初始提示中应该被屏蔽的单词和短语，包括使用黑名单和白名单。自然语言固有的灵活性允许多个提示结构表达相同的语义。因此，基于规则的匹配方法在减轻恶意提示带来的威胁方面表现出局限性。
内容分类：训练一个分类器来检测和拒绝恶意prompt。关键在于设计分类器的输入特征，LLMs中潜在预测的轨迹被证明是个有效特征，此类特征可以强化分类器的可解释性。LLM自己也可以作为一个检测器。

语言模型模块

隐私保护：隐私保护框架旨在保护敏感的PII，防止其在人机对话过程中被泄露。方法包括隐私数据干预和差分隐私方法。

隐私数据干预：可以通过基于词典的方法或者基于训练的分类器完成。基于词典的方法通常基于预先定义的规则来识别和清洗敏感的PII实体。基于训练的分类器使用神经网络完成PII的识别和清洗过程。
隐私强化方法：训练具有差分隐私保证的模型，以隐藏两个相邻数据集(两个数据集仅有一个元素存在差异)之间的差异。目标是留下一个使得两个数据集不可区分的可接受的距离。但差分隐私的引入不可避免地降低了模型的性能，因此有些工作也在寻找可用性和安全之间的权衡。

去毒性和去偏差：主要关注于提升培训数据质量，开展安全训练。

毒性和偏差数据干预：旨在大规模网络收集的数据集中过滤不需要的内容，以获得更高质量的训练数据。对于毒性数据使用有标签的数据集来训练毒性分类器，也有工作使用自动化工具来检测毒性数据。对于偏差数据关注于删除或更改语料库中与偏误相关的词，例如用相关的词的对立面替换，生成修改后的数据集
安全训练：对于模型去毒性，安全训练将其视为风格转换任务，然后微调语言模型将攻击性文本转换为非攻击性变体。对于模型去偏差，部分工作关注于使用词嵌入或对抗学习来减轻不同人口统计学词汇之间的比例差距所造成的影响。

幻觉减轻：包括强化训练数据的质量，根据人类反馈学习，探索外部知识，改进解码策略，多智能体合作等方法。

强化训练数据质量：使用精心设计的启发式方法来提高预训练数据的质量，避免人为标注的高成本。
根据人类反馈学习：rlhf方法
探索外部知识：整合外部知识作为内容生成的支撑证据，外部知识作为输入的一部分或者作为事后修订过程的证据使用。信息检索(Information Retrieval，IR)系统用于从开放的Web数据源中检索证据，改进知识库方法的知识量限制。通过自动反馈或者来自人类用户的澄清来细化模型的响应，提升数据质量。此外参数化知识指导框架使用可训练的任务特定模块生成相关上下文作为增广知识。
改进解码策略：事实核采样方法在每一步生成中，逐渐衰减p的值，因为随着生成的进行，生成的内容会越来越确定。受从低层到高层，正确答案的生成概率呈递增趋势启发，DoLa计算高网络层和低网络层的logits对比来得到下一个token的分布。受专家LM和业余LM之间的对比可以发现质量更好的文本的启发，对比解码方法通过探索这种对比来指导解码过程。
多智能体合作：在辩论中加入多个LLM也有助于减少幻觉，在初始生成后，每个LLM被指导考虑其他LLM的响应后生成一个后续响应。经过连续几轮的辩论，这些LLMs倾向于产生更加一致和可靠的反应。

模型攻击防御：主要是针对深度学习模型的攻击，面向的是LLM是深度学习模型的本质。

提取攻击防御：一般是修改或限制为每个查询提供的生成响应，通常采用基于中断的防御策略来调整模型损失的数值精度，对输出添加噪声，或者返回随机响应。这类方法通常会引入性能-成本的权衡，但近期工作发现通过中断检测和恢复可以绕过基于中断的防御。基于警告的方法通过测量连续查询之间的距离来识别恶意软件请求，而水印方法被用来声称被盗模型的所有权。
推理攻击防御：一种方法是使用隐私保护方法，例如使用差分隐私进行训练。以及利用利用正则化技术来减轻推理攻击，正则化可以阻止模型对其训练数据的过拟合，使得推理无法实现。对抗训练也可以用来增强模型对推理攻击的鲁棒性。
中毒攻击防御：基于困惑度的指标或基于LLM的检测器通常用于检测中毒样本，一些工作对后门触发器进行逆向工程，方便模型中后门的检测。
回避攻击防御：主动式方法旨在训练一个能够抵抗对抗样本的鲁棒模型，使用网络蒸馏活着对抗训练来强化模型的鲁棒性。反应式方法旨在输入模型之前进行识别对抗样本
经常性攻击防御：为每个推断设定一个最大能耗限额。

工具链模块

输出模块

检测：首先是检测到不想要的内容，有一些开源工具和第三方库可以使用。检测器可以是基于规则的也可以是基于神经网络的。LLM自己也可以作为一个检测器。对于不真实的生成内容，最流行的检测器要么是基于事实的，要么是基于一致性的。基于事实的方法诉诸于外部知识和给定的上下文，基于一致性的方法产生多个响应来探测LLM的不确定性。

干预：检测到有害输出后，拒绝服务响应可以用来告知用户该内容存在风险且无法显示。对于不真实输出问题，基于事实的方法从外部工具中收集支持事实，对不真实信息进行更正。基于一致性的方法多次生成答案，并选择最合理的答案作为最终的答案。

水印：在输出文本中添加水印可能是避免滥用问题的有效方法，水印作为隐藏模式嵌入到文本中，对人类来说是不可察觉的。水印可以在不改变原文语义的前提下，通过用同义词替换选词或对文本行的纵向定位进行细致入微的调整进行整合。

效果评估方法

鲁棒性

主要度量面对对抗性样本和分布外数据时的鲁棒性，度量方法使用多种NLP任务，并使用对应任务的指标来度量模型表现是否产生波动。LLMs的OOD鲁棒性与其处理分布内样本的性能之间存在正相关关系。

真实性

包括对于输入冲突的幻觉，上下文冲突的幻觉和事实冲突的幻觉的度量。统计指标通过测量输出和输入内容之间的n元词串重叠和矛盾来估计幻觉的程度。基于模型的度量方法使用神经模型对齐生成内容和源内容来估计幻觉的程度。也包括使用LLM来度量LLM的幻觉程度。

道德性

度量方法使用调查问卷，人格测试(如SD-3, BFI, OCEAN, MBTI等)用于评估LLMs的人格特质。

偏见

也是使用调查问卷，也使用NLP模型生成内容来度量社会偏见。红队测试也用于度量偏见问题，通过模拟对抗的偏见输入来发现LLM的偏见输出。

未来工作

包括更加全面的输入检测方法，采用半监督或无监督的学习范式，并采用更全面的方法来识别当前检测系统中的风险和弱点；更有效的训练数据干预；可解释的幻觉缓解方法；模型攻击的通用防御框架；为LLM系统设计防御工具；基于LLM的智能体的风险和防御策略；设计鲁棒的水印方法，避免影响下游任务表现，防止通过转述攻击去除；改进LLM系统的评估方法，设计对于不同场景的综合评估的统一度量标准，以及探索是否有更好的方法了解各种超参数的影响，帮助确定有价值的超参数值。

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

LLM系统的模块

系统遇到的威胁

输入模块

语言模型模块

工具链模块

输出模块

威胁防护方法

输入模块

语言模型模块

工具链模块

输出模块

效果评估方法

鲁棒性

真实性

道德性

偏见

未来工作

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记