GraphLime将LIME算法扩展到深度图模型,并研究不同节点特征对节点分类任务的重要性。
- 论文标题:GraphLIME: Local Interpretable Model Explanations for Graph Neural Networks
- 论文地址:https://arxiv.org/pdf/2001.06216.pdf
GraphLIME实验
实验目的
研究GraphLIME的有效性。
首先,研究GraphLIME能否过滤无用的特征并选择有用的特征作为解释。
其次,研究GraphLIME的解释能否帮助用户确定预测是否可信。
最后,研究GraphLIME的解释能否帮助用户选择更好的分类器。
实验方案
验证GraphLIME对特征的过滤能力
与其他解释器做对比实验
首先,我们在每个样本的特征向量中人工随机添加10个“噪声”特征。
然后,我们训练出GraphSAGE模型或GAT模型,让其测试准确率均在80%以上。因此,我们获得了训练模型的无用特征集(10个“噪声特征”)。
最后,我们对每个解释框架的200个测试样本进行了解释,并根据样本在不同数量噪声特征上的频率分布来比较它们的性能。
我们利用核密度估计(KDE)在Cora和Pubmed上绘制5种不同解释框架下,样本在不同数量噪声特征上的频率分布,并使用高斯核拟合分布的形状,以比较5种框架去噪数据的能力。
验证GraphLIME对预测的判断能力
与其他解释器做对比实验
首先,我们随机选取30%的特征作为“不可信”特征。然后,对GraphSAGE或GAT分类器进行训练,得到对测试样本的预测结果。我们假设用户可以识别出这些“不值得信任”的特征,并且他们不会想要这些特征作为解释。
然后,我们开发了甲骨文的“可信度”。如果在从样本中移除那些“不可信”特征后,预测发生变化(因为这意味着预测主要由那些“不可信”特征决定),则将分类器的预测标记为“不可信”,否则就是“可信赖”。我们把“可信度”作为判断预测是否可信的真实标签。
其次,对于GraphLIME和LIME,我们假设当删除解释中出现的所有“不可信”特征时,另一个近似线性模型所做的预测发生变化,则模拟用户会认为来自分类器的预测是“不可信的”。对于GNNexplexer、贪婪和随机解释器,如果他们的解释中出现了任何“不值得信任”的特征,用户就会认为这个预测是不可信的。
最后,我们将模拟用户的决策与Oracle的“可信性”理论进行了比较。
我们将所选特征的数量设置为K=10,15,20,25,并报告了100轮以上每个解释框架的可信度预测的平均F1得分。
验证GraphLIME对模型的判断能力
与其他解释器做对比实验
在最后的模拟用户实验中,我们探索解释框架是否可以用于模型选择,并指导用户在两个不同的GNN分类器中选择更好的分类器。
首先,我们人为地在数据中添加了10个噪声特征,并将它们标记为不可信的特征。我们通过重复训练GraphSAGE和GAT模型来生成分类器,直到它们的训练准确率和测试准确率都在70%以上,并且它们的测试准确率的差异超过5%。
然后,我们对这两个分类器的样本进行解释,并记录这两个分类器样本的解释中出现的不可信特征的数量。请注意,较好的分类器在其解释中应该具有较少的不可信特征;因此,我们选择不可信特征较少的分类器作为较好的分类器,并将此选择与真正具有较高测试准确率的分类器进行比较。
实验结果
GraphLIME能够过滤图数据中的无用特征并选择有用的特征作为解释
由上图可分析得到:
- 本文提出的框架GraphLIME和gnexplainer选择的噪声特征在数量上小于其他解释框架选择的噪声特征数量。
- 对于GraphLIME和gnexplainer,在选择不同数量的噪声特征时,样本的频率在0左右。这意味着GraphLIME和gnnexplain框架很少选择无用的特性作为解释,这在图形数据有大量噪声时非常有用。
- LIME不能忽略噪声特征,LIME的分布主要在1 - 4左右。对于随机过程,其频率分布与LIME相似。Greedy解释程序只是比LIME和Random稍微好一点,但不能与GraphLIME和gnexplainer相比。
结果表明,当GNN模型的图数据包含大量的噪声特征(无用特征)时,该框架可以对图数据进行去噪,并且更有能力找到有用的特征作为解释。
GraphLIME的解释既实现了高准确率又实现了高召回率
结果表明,在这两个数据集上,GraphLIME优于其他解释方法。其他解释方法的F1分较低表明它们达到了较低的准确率(即相信太多的预测)或较低的召回率(即对预测的不信任程度超过了应有的水平),而GraphLIME框架的较高的F1分表明它既实现了高准确率又实现了高召回率。
GraphLIME的解释能够选择性能更优的模型
上图给出了当样本数量在5到30之间变化时,不同解释框架选择更好分类器的准确性,平均超过200轮。
结果表明,GraphLIME方法可以用于模型选择,并且其性能优于其他解释框架。
值得注意的是,GraphLIME的性能会随着呈现实例数量的增加而提高。
数据集
此实验只用了真实数据集,没有使用合成数据集。
两个出版物数据集:
- CORA
- Pubmed
总结
本实验在两种GNN模型的两个真实图形数据集上证明了GraphLIME的有效性。
它可以过滤无用特征,选择有用特征,指导用户确定预测的信任度,帮助用户识别更好的分类器。
2021.8.21 by YI