XAI survey for networking

less than 1 minute read

Published:

可解释AI与计算机网络综述

AI需要克服的问题:

  • 数据差异:网络数据有时间多样,空间多样和大量类别特征等特点,已标记数据少、场景多样均限制了AI模型的应用
  • 灵活性:目前AI模型主要部署在控制平面,向数据平面部署的尝试由于有限的资源,依然很困难
  • 稳定性:稳定性问题会让攻击者操纵模型,从而影响网络和服务质量
  • 可信性:AI模型往往包含海量的参数和非线性转换,难以让人类理解并信任,这对于网络上的应用而言非常重要

为理解以上问题,在网络上的可解释性AI(XAI)开始提出并发展。

使用AI解决网络问题的好处

  • AI模型可以发现隐藏的模式并且自动从多个数据源的海量数据中提取信息,因此很适合处理有相关因素的大规模环境中的分析任务(异常检测,根因分析等)
  • AI模型可以有效捕获时间和空间上的网络动态,因此可以做出更有效的判断
  • 基于AI的解决方案可以不经人为介入自动调整网络,因此很适合零接触网络(Zero-touch networks)的实现。
  • 由于迁移学习的发展,预训练模型也可能应用于不同设定下的网络任务了,从而有可能摆脱网络任务对于专家知识和手工设计的依赖。

一般使用的AI模型可以分为透明模型不透明模型两类,透明模型就是可解释模型,可以通过模拟,分解和算法分析的方式将推理逻辑展示出来方便人类理解,但往往过于简单,无法捕获特征间的复杂关系。不透明模型就是不可解释模型(暂时不可解释),模型往往较为复杂,但能更好地捕获特征的非线性联系,更适合解决复杂问题。

XAI在网络任务中的必要性

目前大部分网络任务应用的还是不透明模型,不透明模型的不可解释性阻碍了基于AI的网络任务解决方案的发展,并且完全阻止了人为介入,使专家知识和领域知识无法应用。因为网络任务数据的多样性,AI模型的不透明性也影响了AI模型的稳定性,可靠性和可信性。XAI可以在以下方面改善基于AI的解决方案在网络中的表现:

  • 性能:XAI可以检查模型,发现潜在的偏差和方差,分析结果是由输入数据的分布还是控制逻辑得到的,然后采取措施使模型更加适应网络和系统的动态。可以根据高层级的观察指出关键的因素并且进行专门地优化。
  • 灵活性:XAI可以与已有的模型简化方法结合,发现冗余的操作和特征,然后削减繁重的计算消耗、处理等待时间、内存台面空间和能量消耗,让AI模型适用于资源有限的网络设备
  • 稳定性:XAI可以帮助防御者从模型和数据两方面理解AI方案的脆弱点,也可以通过交互的方式帮助网络管理员发现安全威胁和漏洞
  • 可信性:XAI是基于不透明模型的解决方案的最基本需求,XAI技术提供直接明确的解释,在注重策略可预测和行为确定的重要任务的网络上尤其重要(银行,卫星,无人机,通讯系统网络)。XAI可以促进对于功能一致性,约束违反,道德要求,法律责任的认可,并使系统的决策和推荐更加可信,负责和可靠。

目前网络上的XAI方案

根据解释技术将已有XAI方案分为可视化驱动的XAI,模型简化驱动的XAI,特征相关性分析驱动的XAI

可视化驱动的XAI

最直观的解释方法,使用了可视化增强和部分降维技术来生成AI模型内部操作和交互的示意图。Beliard等人设计了一个平台来可视化一个基于CNN的商业等级网络流量分类引擎的推理过程。平台会生成一系列图示来展示分类过程,并高亮最主要的特征。

模型简化驱动的XAI

模型简化方法搭建一个功能相似但简单很多的模型来解释推理过程。Morichetta等人针对流量分类问题训练了一个基于SVM的分类器,然后他们设计了局部可解释模型无关解释方法(LIME)来解释特定的聚类结果。LIME搭建了一个与SVM模型一致的可解释模型并扰动输入来找到最有影响力的特征。Sun等人在无线多通道功率分配问题上进行研究,使用Meijer G-function 来表示一个神经网络模型并呈现低维可解释的符号表示。因为G-function有大量的搜索空间,因此无法保证是最优的表示函数。Meng等人针对基于深度学习的网络系统,使用师生训练来为本地网络系统搭建决策树,并利用超图公式来为全局网络系统生成可解释的策略。提出的方法在视频直播,流调度和基于SDN的路由等现实中的基于DL的系统上进行部署,并生成了相较LIME和LEMNA更精确的结果。

特征相关性驱动的XAI

特征相关性分析方法为每个特征计算一个特征相关性分数来度量对于最终决策的影响。Guo等人为无人机无线网络提出了一个DRL方法来选择最优服务,并使用采样策略进行局部特征分析来找到得到特定预测的最主要特征。Terra使用XGBoost模型的可解释性来预测5G网络中的延迟违规。

已有方法要么严重依赖为一般用途设计的SOTA可解释方法,要么只能应用于某些特定的模型,解释范围有限。因此虽然已经有一些成果了,XAI依然在网络领域处于初期。

挑战和未来方向

XAI被认为是赋予下一代网络自我管理、自我修复和自我优化功能的基本构建模块。 然而,XAI 仍需克服许多障碍才能充分发挥在自动化网络管理上的潜力。 本节讨论XAI的五个基本观点,包括网络专业解释、性能改进、模型细化、鲁棒性和信任培养。

针对网络问题的专业性解释

已有的直接把一般用途的XAI方法迁移过来的解释方法无法解释网络系统和数据中的独特特点,因此会导致不一致的结果。在处理网络数据的独特模式时,无法在多种特征都有类似影响的情况下作出一致地解释。因此需要针对特定的网络和系统设定的特点实现XAI方法。Meng等人做出了探索,但提出的方法无法解释基于RNN的系统,基于复杂DNN的表现也没有探索。

针对性能改进的XAI

目前的XAI方法仅提取输入特征和输出预测之间的映射,未来的XAI方法应该生成更高级的解释,以促进性能改进。XAI方法应当为模型和系统级别的自动性能优化都提供先进的观察结果和直接的建议。在模型级别,XAI方法应明确指出提高预测质量的步骤(微调参数,数据增强或者简化模型)。在系统层面,XAI方法应该为已部署的基于AI的解决方案确定最理想的执行配置(类似数据中心和ISP网络的预期的网络环境,流量类型和模型服务方案)。在某些情况下,XAI应在不同性能指标之间实现可接受的权衡。XAI的响应能力也可以通过添加具有不同准确度的分支来进行增强。因此,XAI方法应当需要有效地提取见解并将决策与行动关联起来。

针对灵活性驱动的模型细化的XAI

传统的网络管理系统都部署在控制平面上以在毫秒内对事件进行响应,只能根据有限的数据进行决策,无法捕获更加细粒度的统计特征。因此将AI模型部署在数据平面以充分利用大量的数据十分重要,可以为流量分类,冲突控制等网络管理任务搭建出更多认知解决方案。因为数据平面的硬件资源有限性和AI模型的富参数特点,需要找到最重要的特征,并将模型复杂度降低到足以部署在产品级的数据平面上。未来的XAI方法应当可以为不同的网络和设置找到最合适的模型细化方案。

XAI的鲁棒性

XAI可以找到AI模型的弱点,其自身的稳定性也值得关注。通过刻意地输入可以误导XAI得到不可靠和不相关的解释。因此有必要为全面评估XAI的一致性,正确性和可延展性提出可靠的基准,以便保证基于AI的网络方案的无偏解释。另一方面也需要研究XAI方法针对对抗攻击的防御措施,可以是针对恶意攻击的被动检测和保护机制,也可以是屏蔽执行和流量加密等主动防御措施。

XAI的信任培养

现有的XAI方法仍然在模拟和受控的实验环境中进行评估,性能不支持充分反映现实环境,极大地阻碍了基于AI的方案的接受。现有的XAI无法直接集成到网络系统中以动态解释模型。未来需要更多的系统级支持,比如API和Kit套件,将XAI方法融合到生产网络环境中,并促进不同基于AI的方案的实时自动检查和验证。通过不断提供高质量的推理和合理地解释来让利益相关者更加习惯于基于AI的方案,更信任AI的决策。