model stealing attack论文阅读杂记

less than 1 minute read

Published: January 26, 2024

S&P

2022

Model Stealing Attacks against inductive GNN
1. 提出了在GNN上的模型提取攻击，通过与目标模型的逆向交互还原出一个替代模型，原有工作都是在transductive推理式GNN上的，需要预知图的结构，本文提出的方法是在inductive归纳式GNN上的，不需要预知图的结构，可以使用图同一分布中没有出现在训练数据中的节点进行攻击。
2. 攻击目标是构建一个与目标模型行为或精度类似的模型，场景是黑盒攻击场景，攻击方没有模型结构等的信息，也无法修改这些信息。攻击方可以与目标模型交互，提供查询图中的节点和领域信息，得到模型返回的下游任务结果（节点分类，t-SNE坐标，节点表征），查询图要求与训练图从同一数据分布中采样，但并不要求有相同的图特性，查询图中的节点也不要求一定出现在训练图中。
3. 首先针对一些图结构无法获得的情况，论文首先对查询图的结构在本地进行了重建，论文首先使用kNN方法根据节点特征初始化图结构，然后使用IDGL框架调整图结构。然后论文使用图结构和对应的节点特征分别查询目标GNN和替代模型，利用两个结果的RMSE损失对替代模型进行训练。在处理节点分类任务时在替代的GNN后面加了一个两层的MLP，使用预测误差进行训练
DeepSteal: advanced Model Extractions leveraging efficient weight stealing in memories
1. 使用内存侧信道攻击的模型提取框架，用于提取DNN模型权重参数。
2. 首先使用基于rowhammer的攻击技术来提取权重位的信息，根据rowhammer攻击只会在（0-1-0）或者（1-0-1）这样的存储模式上引发中间位的位翻转的原理进行攻击，获取大部分模型参数，然后提出一种使用平均聚类权重惩罚的子模型训练方法来获取部分泄露的位信息并生成目标模型的子模型原型。
3. 系统架构层面的攻击，没有太看明白，感觉需要补充一些前置的知识才行
StolenEncoder: stealing pre-trained encoders in self-supervised learning
1. 针对图片预训练编码器的模型提取攻击，替代模型结构自定了ResNet
2. 攻击目标是使用少量的API查询构建一个与预训练图片编码器效果类似的替代模型，攻击场景是黑盒场景，攻击方有一个用于查询API和训练替代模型的数据集，攻击方可以查询编码器服务的API，获取编码器对于图片数据编码后的特征表征向量。
3. 方法首先使用图片数据向编码器API发送查询获取表征向量，然后计算和替代模型得到的表征向量的距离获得第一个损失，为了避免替代数据集规模导致的次优结果，使用数据加强方法得到加强的图片数据，为了避免过高的API查询成本，基于对比学习的对相似样本学习到相似表征的特点，使用原图片查询得到的表征向量代替加强图片的查询结果，与强化图片由替代模型得到的表征向量计算距离得到第二个损失，两个损失联合训练替代模型。

USENIX security

2023

A Plot is Worth a Thousand Words: model information stealing attacks via scientific plots
1. 提出了针对模型窃取攻击任务的侧信道攻击方法，使用模型的效果展示图和训练损失图像来预测模型的属性（层数，优化方法，batch size，模型结构）
2. 以CNN模型为攻击对象，目标是通过模型的结果图片来获取CNN图片分类模型的超参数信息，包括模型结构/优化方法/batch size这些。
3. 攻击方预知模型的训练数据的分布，可以直接接触模型的结果图片（包括使用截图），可以对图片进行修改，并且对要窃取的目标有一些候选项
4. 于是整个任务变成了已知图片和对应的标签类别，建立模型预测对应关系的问题。论文首先根据预测的超参数候选项和预知的数据分布中的采样训练了一批shadow model，然后利用这些shadow model生成了一批结果图片样本，包括嵌入向量的t-SNE聚类图和训练损失变化图。最后论文训练了一个图片分类器来根据这些图片预测对应的shadow model超参数。
5. 论文进行了大量的实验来证明了自己方法的有效性，可以在不使用图片的轴标签，名称甚至颜色的情况下完成高精度的超参数提取。
6. 论文使用的预设条件与已有工作类似，都是要知道预测的目标的候选结果，这个现实吗…更不现实的应该是论文要知道训练数据的分布吧

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

S&P

2022

USENIX security

2023

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记