(CCS22)”AI/ML for Network Security, the Emperor has no Clothes”论文阅读笔记

less than 1 minute read

Published: November 02, 2023

论文概述

本文研究网络安全领域AI模型的可解释性问题，具体而言，通过可解释性方法识别模型学习过程中的归纳偏差现象，促使模型能够按照预期表现部署。

过去几年AI和ML方法在识别多类网络安全问题的复杂网络流量特征上显示出相较基于规则的启发式方法的优势，但同时也显示出研究者和实施者对于在生产环境中应用这些方法的迟疑。大部分已有方法的黑盒特点是导致这种迟疑的根本原因。无法有效解释模型决策的原因让这些方法无法像基于规则的方法一样让人信任并接受。因此需要方法来解析黑盒模型并解释其决策的生成原因。

原来没有针对网络安全领域的可解释性AI工作。网络安全领域的ML方法除了可信问题外还面临着其他问题。网络安全领域的数据包括网络上沟通的信息，这些信息往往涉及用户和供应商的隐私不便公开，所以公开数据集不多。公开的数据集也通常没有现实世界中的复杂性。其次网络中的数据不易被人理解，对数据的标记强依赖于专家知识，无法被外包出去。

可解释性AI使用单独的模型（post-hoc模型）来解释原来的黑盒模型，这种事后解释经常不可靠，会出现误导。另一种方法是使用决策树这种本身就可解释的AI模型。但因为网络安全领域数据包含丰富的语义信息，发现重要模式的工作逐渐交友黑盒模型来完成，而不是可解释的简单模型。可解释AI可以分为局部解释和全局解释两种类型，局部解释关注解释某个独立的决策，利用了LIME，SHAP和LEMNA等方法。这种方法只关注决策中的一个子集，因此容易提供误导解释；全局解释描述一个给定的黑盒模型整体而言如何得到决策结果，一般采用一个本身可解释的模型来学习黑盒模型的决策过程。

现有的工作在精度上无法满足实际应用要求，只关注特定的黑盒模型，难以复现，容易被误导。可能因为这些工作都是为了其他领域设计的，并不单独考虑网络安全。在同时考虑解释模型的高精确度，模型无关和易理解的时候，目前的已有方法无法兼顾三个因素。VIPER和Metic依赖模型相关的领域知识。Trepan和dtextract模型无关但解释精度不足。最大迭代次数限制的终止条件精度较高但又很高的时间消耗，降低时间消耗又会导致较低的精度。

提出了TRUSTEE，一个三步走方法来得到模型无关，高精度，易于理解和高精度的解释。具体而言，方法首先考虑精度，会通过采样和训练测试分离的方式利用模仿学习训练若干个决策树，然后从中选择解释精度最高的那个作为候补。精度选择步骤会重复若干次，得到满足精度要求的决策树集合。然后方法会其中选择精度最高的决策树，并对其进行剪枝来满足易于理解的要求。这两重嵌套会执行多次，最终得到满足精度和解释性要求的决策树集合，最后在这些决策树中两两计算预测认同次数，并选择平均认同最高的决策树作为最后的解释结果。

简单表示为：

    for i in range(S):
        for j in range(N):
            d_train, d_test = sample_and_split_data(data)
            dt = train_model(d_train)
            d_misclassfied = test_model(dt, d_test, ori_model)
            data = augment_data(data, make_data(d_misclassified, y_test))
            # augement data with misclassified test data
            # to increase accuracy & reduce leaf nodes
            dt_with_fidelity.append(dt)
        dt = argmax(dt_with_fidelity)
        dt = tree_prune(dt) # top-k prune, nothing new, i may say
        dt_stable.append(dt)
    t = argmax(dt_stable, aggrement=calc_aggrement(dt_stable))
    return t

本文将“信任解释结果”与“放弃控制”等价，即解释结果没有不可信的地方就可认为解释结果是可信的，本文针对关注的三种归纳偏移问题分别给出了观测和判断方式。

如果少部分输入结果就可以解释大部分的预测输出，说明模型很可能学到了捷径。
如果去掉最重要的结果重新学习没有导致原始模型的精度降低，说明模型很可能学到了虚假联系。
如果根据解释结果画出的特征的数据分布与从真实数据中获得的分布不一致，说明模型很可能学到了分布外的样本信息。

优缺点分析

待补充

感悟

待补充

Share on

Twitter Facebook LinkedIn

F-learning方法论文阅读笔记

less than 1 minute read

Published: December 26, 2024

大型语言模型 (LLM) 的最新进展展示了其在文本理解和生成方面的卓越能力。然而，即使是更强大的 LLM 也容易从训练语料库中获取错误或过时的信息。直接使用包含新知识的数据进行二次微调可能会因新旧知识之间的冲突而无法有效更新知识。在本文中，我们提出了一种新的微调范式，称为 F-Learning（Forgetting before Learning），它使用参数算法来促进旧知识的遗忘和新知识的学习。在两个公开数据集上的实验结果表明，我们提出的 F-Learning 可以明显提高完全微调和 LoRA 微调的知识更新性能，在大多数情况下同时超越现有基线。此外，我们还发现通过减去 LoRA 的参数来忘记旧知识可以产生与减去完全微调的参数类似的效果，有时甚至会大大超过它。

latent adversarial unlearning方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

虽然LLM在许多领域取得了成功，但仍然受到训练语料库中问题内容的困扰。LLM 反学习旨在减少它们的影响并避免不良行为。然而，现有的反学习方法仍然容易受到对抗性查询的攻击，并且反学习的知识会在手动设计的攻击查询之后重新出现。作为红队主动评估反学习模型漏洞的一部分，本文设计了动态反学习攻击 (DUA)，这是一个动态的自动化框架来攻击这些模型并评估其鲁棒性。它优化了对抗性后缀以在各种场景中重新引入未学习的知识。本文发现，即使不透露反学习模型的参数，55.2% 的问题也可以重现反学习的知识。为了解决这一弱点，本文提出了潜在对抗性反学习 (LAU)，这是一个通用框架，可以有效增强反学习过程的鲁棒性。它将反学习过程公式化为最小-最大优化问题，并通过两个阶段解决：攻击阶段，训练扰动向量并将其添加到 LLM 的潜在空间以恢复反学习的知识；防御阶段，使用先前训练的扰动向量来增强反学习模型的鲁棒性。借助LAU框架，本文获得了两种鲁棒的反学习方法：AdvGA 和 AdvNPO。本文在多个反学习基准和各种模型上进行了广泛的实验，并证明它们将反学习效果提高了 53.5% 以上，仅导致邻近知识减少不到 11.6%，并且几乎不影响模型的一般能力。

DEPN方法论文阅读笔记

less than 1 minute read

Published: December 17, 2024

在大量数据上进行预训练的大型语言模型可以捕获训练数据中的丰富知识和信息。先前的研究揭示了预训练语言模型中数据记忆和反省的能力，这带来了数据泄露的风险。为了有效降低这些风险，本文提出了一个框架DEPN来检测和编辑预训练语言模型中的隐私神经元，部分灵感来自知识神经元和模型编辑。在DEPN中，本文引入了一种新方法，称为隐私神经元检测器，用于定位与隐私信息相关的神经元，然后通过将其激活设置为零来编辑这些检测到的隐私神经元。此外，本文提出了一种隐私神经元聚合器，以批处理方式取消记忆隐私信息。实验结果表明，DEPN可以显着有效地减少隐私数据泄露的风险，而不会降低模型的性能。此外，本文从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）实证证明了模型记忆与隐私神经元之间的关系，说明了本文方法的鲁棒性。

PCGU论文阅读笔记

less than 1 minute read

Published: December 14, 2024

最近的研究表明，大规模预训练语言模型往往会表现出与种族主义、性别歧视、宗教偏见和一般毒性有关的问题。不幸的是，这些预训练语言模型几乎普遍用于下游任务，而自然语言处理通常用于进行现实世界的预测。因此，在开发过程中尽早消除这些语言模型的偏见对于防止自然语言系统造成的无意伤害越来越重要。为此，我们提出了一种称为分区对比梯度反学习 (PCGU) 的新技术，这是一种用于消除预训练掩码语言模型偏见的灰盒方法。PCGU 旨在仅优化对特定偏见领域贡献最大的权重，通过基于对比句子对的梯度计算一阶近似来实现。我们的实验表明，PCGU 既成本低廉，又似乎特别有效地查明大型预训练 Transformer 中隐性社会偏见的来源。虽然我们仅在性别职业领域使用 PCGU 进行训练，但我们发现这样做也可以部分减轻其他领域的偏见。

论文概述

优缺点分析

感悟

Share on

You May Also Enjoy

F-learning方法论文阅读笔记

latent adversarial unlearning方法论文阅读笔记

DEPN方法论文阅读笔记

PCGU论文阅读笔记