返回

GraphLIME

GraphLime将LIME算法扩展到深度图模型,并研究不同节点特征对节点分类任务的重要性。

  • 论文标题:GraphLIME: Local Interpretable Model Explanations for Graph Neural Networks
  • 论文地址:https://arxiv.org/pdf/2001.06216.pdf

实验

在这一部分中,我们给出了使用两个真实世界的数据集来研究所提出的框架GraphLIME和现有的GNN模型解释方法的性能的实验。特别地,我们解决了以下三个问题:

(1)解释器能否从嘈杂的图数据中选择真实的信息特征;

(2)解释器的解释能否指导用户确定对预测的信任;

(3)解释是否有助于进一步选择更好的分类器。

布置

我们对广泛使用的GNN模型GraphSAGE[11]和GA T[15]进行了培训,以便进行下面的解释性实验。我们进行了模拟用户实验,以评估所提出的框架、GraphLIME和其他解释方法的有效性。更具体地说,我们比较了所提出的框架GraphLIME和LIME[3]框架,后者利用摄动法对数据进行采样,并训练线性解释模型LASSO,根据线性解释模型的系数选择特征作为解释。此外,我们将其与GNNexplexer[9]进行了比较,GNNexplexer[9]利用互信息来找到具有相关特征的子图来解释GNN模型。我们还将其与基于贪婪过程的方法[29]和随机过程进行了比较,贪婪过程[29]贪婪地删除预测的最重要的特征,直到预测改变,随机过程随机选择K个特征作为对所解释的预测的解释。

在我们的实验中,我们使用了两个图数据集,即CORA和Pubmed。CORA和PUBMED是两个出版物数据集,每个特征都指示CORA中相应单词的存在/缺失以及Pubmed中相应单词的TF/IDF值。表1简要给出了CORA和Pubmed数据集的更多统计细节。我们对被解释节点的2-hop网络邻居进行了采样,然后随机将数据集分为训练集(80%)和测试集(20%)。

解释框架会过滤无用的特征吗?

在第一个模拟用户实验中,我们调查了GraphLIME是否能够过滤无用的特征并选择信息丰富的特征作为解释。为此,我们在不同的解释框架下比较了不同数目的“噪声”特征的样本频率,以比较它们的去噪能力。

具体地,我们在每个样本的特征向量中人工随机添加10个“噪声”特征,然后训练一个测试正确率在80%以上的GraphSAGE模型或GAT模型。这样,我们就得到了训练模型的无用特征集(10个“噪声特征”)。最后,我们对每个解释框架的200个测试样本进行了解释,并根据样本在不同数量噪声特征上的频率分布比较了它们的性能。

在CORA和Pubmed 5种不同的解释框架下,使用核密度估计(KDE)绘制不同数目噪声特征上样本的频率分布,并使用高斯核来拟合分布形状。该分布如图3所示。可以看出,GraphLIME和GNNexplexer框架选择的噪声特征数量总体上比其他解释框架选择的要少。对于GraphLIME和GNNexplexer,在不同数量的所选噪声特征上的样本频率约为0。这意味着GraphLIME和GNNexplexer框架很少选择无用的特性作为解释,这在图形数据有大量噪声时非常有用。LIME不能忽略噪声的特性,LIME的分布主要在1~4之间。对于随机过程,其频率分布与LIME的频率分布相似。贪婪的解释过程仅略好于Lime和Random,但无法与GraphLIME和GNNexplexer相提并论。实验结果表明,当GNN模型中含有大量噪声时,该框架能够对图数据进行去噪处理,并且能够更好地发现信息特征作为解释。

我相信这个预测吗?

分类器模型做出的预测可能不可信;因此,对于解释框架而言,重要的是:解释可以帮助用户确定预测是否可信。在本实验中,我们比较了不同解释框架下的这种能力。

首先,我们随机选取30%的特征作为“不可信”特征。然后,对GraphSAGE或GAT分类器进行训练,得到对测试样本的预测结果。我们假设用户可以识别出这些“不值得信任”的特征,并且他们不会想要这些特征作为解释。

其次,我们开发了甲骨文的“可信度”,将分类器的预测标记为“不可信”,如果预测在从样本中移除那些“不可信”特征后发生变化(因为这意味着预测主要由那些“不可信”特征决定),否则就是“可信赖”。我们把“可信度”作为判断预测是否可信的真实标签。

第三,对于GraphLIME和LIME,我们假设当解释中出现的所有“不可信”特征被删除时,另一个近似线性模型所做的预测发生变化,则模拟用户认为来自分类器的预测是“不可信的”。对于GNNexplexer、贪婪和随机解释器,如果他们的解释中出现了任何“不值得信任”的特征,用户就会认为这个预测是不可信的。

最后,我们将模拟用户的决策与Oracle的“可信性”理论进行了比较。

我们将所选特征的数量设置为K=10,15,20,25,并报告了100轮以上每个解释框架的可信度预测的平均F1得分。表2和表5中的结果表明,在这两个数据集上,GraphLIME优于其他解释方法。其他解释方法的F1分较低表明它们达到了较低的准确率(即相信太多的预测)或较低的召回率(即对预测的不信任程度超过了应有的水平),而GraphLIME框架的较高的F1分表明它既实现了高准确率又实现了高召回率。

解释器能否有助于确定更好的模型?

在最后的模拟用户实验中,我们探索解释框架是否可以用于模型选择,并指导用户在两个不同的GNN分类器中选择更好的分类器。我们通过报告选择真实较优分类器的准确性来比较不同框架在选择较优分类器方面的性能。

为了模拟模型,我们不仅使用真实世界中的信息特征,还使用引入虚假的特征。我们人为地在数据中添加了10个噪声特征,并将它们标记为不可信的特征。我们通过重复训练GraphSAGE和GAT模型来生成分类器,直到它们的训练准确率和测试准确率都在70%以上,并且它们的测试准确率的差异超过5%。然后,我们对这两个相互竞争的分类器的分类样本进行解释,并记录了这两个分类器的解释中出现的不可信特征的数量。请注意,较好的分类器在其解释中应该具有较少的不可信特征;因此,我们选择不可信特征较少的分类器作为较好的分类器,并将此选择与真正具有较高测试准确率的较好的分类器进行比较。

本实验的目的是验证解释框架是否能够指导用户根据解释框架的解释识别出更好的模型。考虑到用户可能没有时间检查大量样本,让B捐赠他们愿意被查看的解释样本数量,以便识别更好的分类器。我们使用子模块挑选[3]来选择B的样品,并将这些样品提供给用户进行检验,子模块挑选将在附录中详细介绍。

在图4中,我们给出了当B在5到30之间变化时,选择真正更好的分类器的准确性,平均超过200轮。我们比较了GraphLIME,LIME,GNNexplexer的性能,并省略了贪婪和随机,因为它们不能像前两个实验中显示的那样产生有用的解释。此外,我们还绘制了随机选择的精度曲线。这些结果表明,GraphLIME方法可以用于模型选择,并且其性能优于LIME和GNNexplexer,后者仅略好于随机选择。值得注意的是,GraphLIME的性能也随着呈现实例数量的增加而提高

Built with Hugo
Theme Stack designed by Jimmy