大模型机械可解释性论文笔记

less than 1 minute read

Published:

了解人工智能系统的内部工作原理对于确保价值一致性和安全性至关重要。本综述探讨了机械可解释性:将神经网络学习到的计算机制和表示逆向工程为人类可理解的算法和概念,以提供细致的因果理解。本文建立了基础概念,例如神经激活中编码知识的特征以及关于其表示和计算的假设。本文调查了因果剖析模型行为的方法,并评估了机械可解释性与人工智能安全性的相关性。本文研究了理解、控制、一致性方面的好处以及能力提升和双重用途问题等风险。本文研究了可扩展性、自动化和全面解释方面的挑战。我们主张澄清概念、制定标准和扩展技术以处理复杂的模型和行为,并扩展到视觉和强化学习等领域。随着人工智能系统变得更加强大和难以捉摸,机械可解释性可以帮助防止灾难性后果。

由外至内的解释性范式

行为可解释性将模型视作黑盒,并分析输入输出之间的联系。相关技术包括最小对分析,敏感和扰动分析等,通过检验输入输出关系来评估模型的鲁棒性和变量相关性。行为可解释性模型无关,所以适用于复杂模型,但无法深入内部决策过程。

归因可解释性旨在通过使用梯度将预测追溯到单个输入贡献来解释输出。原始梯度可能是不连续的或对轻微扰动敏感的。因此,诸如 SmoothGrad和Integrated Gradients之类的技术会在梯度之间取平均值。其他流行的技术包括逐层相关性传播、DeepLIFT或GradCAM。归因通过显示输入特征的影响来增强透明度,而无需了解内部结构,从而实现决策验证、合规性和信任,同时充当偏见检测工具,但也有根本的局限性。

基于概念的可解释性采用自上而下的方法来揭示模型的决策过程,方法是探索模型学习到的高级概念和行为模式的表征。技术包括训练监督辅助分类器、使用无监督对比和结构化探测来探索潜在知识,以及使用神经表征分析来量化不同神经网络学习到的内部表征之间的表征相似性。除了观察分析之外,基于概念的可解释性还可以操纵这些表征——也称为表征工程——通过上调诚实、无害和道德等概念来潜在地提高安全性。

所以hidden state那一套其实属于基于概念的可解释性方法?

机械可解释性是一种自下而上的方法,通过对特征、神经元、层和连接的精细分析来研究模型的基本组成部分,从而提供对操作机制的深入了解。与基于概念的可解释性不同,它旨在揭示将输入转化为输出的因果关系和精确计算,通常识别驱动行为的特定神经回路。这种逆向工程方法借鉴了物理学、神经科学和系统生物学等跨学科领域,以指导透明、价值一致的人工智能系统的开发。

核心概念和假设

将特征定义为表征基本单元

本文使用特征(feature)作为神经网络表征的基本单元,因为特征无法被再分解为更加简单或独特的因素。

概念是自然抽象。世界由各种实体组成,这些实体根据共同属性分组为类别或概念。这些概念通过丢弃许多不相关的低级细节,实现了紧凑的世界表示。神经网络可以通过学习到的特征来捕获和表示这种自然抽象,这些特征是其内部表征的构建块,旨在捕获数据背后的概念。

特征编码输入模式。在传统的机器学习中,特征被理解为直接从输入数据流中得出的特征或属性。在能够使用抽象进行推理的更高级系统中,即使在处理与输入无关的信息时,特征也可能作为表示模式出现在模型内部。在这种情况下,特征最好被概念化为指定现象的任何可测量的属性或特征,编码抽象概念而不是严格反映输入属性

特征作为原子表示。特征的一个关键属性是它们的不可约性,这意味着它们不能分解为或表示为更简单、独立的因素的组合。在与输入相关的特征的背景下,如果特征不能分解为或表示为原始输入数据中统计上独立的模式或因素的组合,则称特征为不可约的。本文将这种不可约性概念推广到编码与输入模式不直接相关的抽象概念上,在这种情况下特征不能简化为模型表示中其他独立成分的组合或混合

超出人类可解释性的特征。从以人为本的角度来看,特征可以定义为在网络激活空间中编码的语义上有意义的、可表达的输入模式。然而,虽然认知系统可能会收敛到类似的自然抽象,但这些抽象不一定与人类可解释的概念相一致。比如对抗性样本被解释为对模型有意义但对人类没有意义的非可解释特征。随着模型超越人类的能力,它们学习到的特征可能会变得越来越抽象,并以与人类直觉不一致的方式编码信息。机械可解释性旨在揭示所学的实际表征,即使与人类概念不同。虽然人类可解释的概念提供了指导,但非以人类为中心的观点将特征定义为独立的模型组件(无论是否与人类概念一致)是一种更全面、更具前瞻性的方法