C2R | Cooperative Classification and Rationalization for Graph Generalization【用于图泛化的协同分类与合理化】

论文信息

论文标题:Cooperative Classification and Rationalization for Graph Generalization
论文作者:岳临安、刘琪、刘烨、高伟博、姚方舟、李文峰
论文来源:WWW 2024
发布时间:2024
论文地址:link
论文代码:link

1 摘要

  1. 研究背景与问题:图神经网络(GNNs)在图分类任务中表现优异,但面对分布外(OOD)数据时泛化能力不足。现有解决思路存在缺陷:一是通过修改数据环境丰富普通分类的训练分布,但获取环境信息难度大;二是通过 “合理化” 提取预测所需的不变理据,但因学习信号有限,理据提取准确性低、预测效果受影响。

  2. 提出方法:设计协同分类与合理化(C2R)方法,包含分类模块与合理化模块,二者协同工作。

    • 分类模块:假设存在多个环境,借助环境条件生成网络引入多样化训练分布,得到稳健的图表示。

    • 合理化模块:用分离器识别相关理据子图,使剩余非理据子图与标签去相关;再通过知识蒸馏方法,将分类模块的图表示与理据子图表示对齐,增强理据的学习信号。

    • 协同机制:收集非理据表示推断多个环境,将其整合到分类模块中实现协同学习。

  3. 实验与成果:在基准数据集和合成数据集上的大量实验证明了 C2R 方法的有效性,相关代码已公开(可通过文中链接获取)

2 研究动机&&研究问题

2.1 研究动机

1 背景 

  图神经网络(GNNs)在各类图分类任务(如分子性质预测、 motif 类型识别)中已取得显著成果,但现实场景中训练集与测试集的分布往往存在差异,导致 GNNs 面对分布外(OOD)数据时泛化能力严重下降 —— 这一问题的本质是传统 GNN 依赖训练数据中的统计关联(甚至虚假关联),而非与任务核心相关的不变特征。

2 现有解决方案的缺陷

  现有两类主流方法均无法同时解决 “OOD 泛化” 与 “学习信号不足” 的核心矛盾:

  • 方法 1:环境多样化的分类方法

    • 思路:通过修改数据环境丰富训练分布,让模型学习跨环境的鲁棒特征。

    • 缺陷:获取环境信息的过程复杂且不切实际,难以在真实场景中落地。

  • 方法 2:基于合理化(Rationalization)的方法

    • 思路:提取与标签相关的 “理据子图”(不变特征),仅基于理据预测以提升泛化性,同时将非理据子图视为环境构建反事实样本。

    • 缺陷:理据的学习信号仅来源于 “预测结果与真实标签的对比”,导致理据探索空间极大,模型难以收敛到最优理据,进而造成理据提取精度低、预测性能受损。

3 本文核心动机

  为解决上述两类方法的局限,提出协同分类与合理化(C2R)框架

  • 通过分类模块生成鲁棒图表示,为合理化模块提供额外学习信号,减少理据探索空间;

  • 通过合理化模块挖掘非理据子图的环境信息,反馈给分类模块以优化训练分布;

  • 最终实现 “分类鲁棒性” 与 “理据准确性” 的双向促进,提升 GNN 在 OOD 数据上的泛化能力。

2.2 研究问题

1. 核心研究问题

  如何设计一种协同框架,同时解决 “环境信息获取难” 与 “理据学习信号不足” 两大问题,实现 GNN 在 OOD 数据上的高效泛化与可解释性?

2. 具体衍生问题(对应实验验证 RQ1-RQ5)

  RQ1:C2R 是否能有效提升 GNN 在 OOD 数据上的泛化性能?

  RQ2:C2R 中各组件(循环一致性约束、反事实样本、知识蒸馏)及超参数(环境数量 k、对齐方法)对性能的影响如何?

  RQ3:分类模块与合理化模块的协同训练策略是否真的有效?

  RQ4:C2R 框架是否具有扩展性,能否提升其他现有合理化方法的泛化能力?

  RQ5:C2R 是否能准确提取与任务相关的核心理据子图,为预测提供可解释性?

3 协同分类与合理化框架

image

3.1 C2R 架构(Architecture of C2R)

核心目标

  设计分类模块与合理化模块的协同架构,实现两者双向赋能,最终提升模型在分布外(OOD)数据上的泛化能力与可解释性。

架构核心逻辑

  1. 分类模块:假设存在多环境,通过生成反事实样本学习跨环境的鲁棒图表示;

  2. 合理化模块:将图划分为理据子图(与标签相关)和非理据子图(与标签解耦),并利用分类模块的鲁棒表示优化理据提取;

  3. 协同闭环:通过非理据子图推断全局环境,反馈给下一轮分类模块,形成 “分类鲁棒表示→合理化理据优化→环境推断→分类模块迭代” 的协同训练流程。

架构示意图关键组件

组件 功能定位 模块归属
Graph Encoder 编码输入图为图级表示 分类模块
Environment-conditional Generator 生成反事实样本 分类模块
Separator 划分理据 / 非理据子图 合理化模块
Knowledge Distillation 对齐鲁棒表示与理据表示 跨模块连接
Environment Inductor 基于非理据子图推断环境 合理化模块
Predictor 输出任务预测结果(参数共享) 双模块共用

3.2 分类模块(The Classification Module)

核心目标

  通过环境条件生成反事实样本,丰富训练分布,学习不依赖特定环境的鲁棒图表示,同时为合理化模块提供知识蒸馏信号。

3.2.1 图编码器(Graph Encoder)

功能

  将输入图转换为节点级表示和图级表示,为后续反事实生成和预测提供基础特征。

数学定义

  采用任意 GNN 结构(如 GIN、GCN)作为编码器,公式如下:

     $H_{en} = GNN_{en}(g), \quad h_{en} = READOUT(H_{en})$

  • 符号说明:

    • $g$:输入图(含节点集 $V$ 和边集 $E$);

    • $GNN_{en}(\cdot)$ :图编码器(可替换为任意 GNN 架构);

    • $H_{en} \in \mathbb{R}^{|V| \times d}$ :节点级表示( $|V|$  为节点数,d 为特征维度);

    • $READOUT(\cdot)$ :图级表示聚合操作(本文采用均值池化);

    • $h_{en} \in \mathbb{R}^{d}$ :最终输出的鲁棒图表示。

关键特性

  • 灵活性:支持不同 GNN 骨干网络,适配不同图数据场景;

  • 鲁棒性导向:通过后续反事实样本训练,使该表示剥离环境噪声,聚焦任务核心特征。

3.2.2 环境条件生成器(Environment-conditional Generator)

功能

  基于现有环境,将原始图表示映射到其他环境,生成反事实样本,以丰富训练分布的多样性。

核心假设

  • 每个样本关联一个特定环境  $e_m \in E$ $E = \{e_1, e_2, ..., e_k\}$  为环境集合);

  • 环境不影响任务标签(反事实样本标签与原始样本一致)。

生成流程

  1. 环境采样:对每个样本,从环境集合中随机采样不同于当前环境的目标环境  $e_j$ $e_j \neq e_m$ );

  2. 反事实表示生成:通过生成器  $EG(\cdot)$  将原始图表示  $h_{en}$  映射到目标环境,公式如下:

    $h_{en}^j = EG(h_{en}, e_j)$

  • 符号说明: $h_{en}^j \in \mathbb{R}^d$  为目标环境下的反事实图表示, $EG(\cdot)$  可采用任意网络架构(本文用 MLP)。

循环一致性约束(Cycle Consistency Constraint)

  • 目的:保证环境映射的有效性,确保反事实样本可还原为原始表示,避免生成无关特征;

  • 数学定义:

    $\mathcal{L}_{cycle} = I\left(EG(h_{en}^j, e_m) ; h_{en}\right)$

    • 符号说明: $I(\cdot;\cdot)$  为互信息,最大化该值可保证  $EG(h_{en}^j, e_m)$  与  $h_{en}$  编码相同核心信息;

    • 作用:约束生成器在环境转换中保留图的任务相关特征,仅改变环境相关噪声。

3.2.3 预测器(Predictor)

功能

  基于原始图表示和反事实图表示共同预测任务结果,迫使模型学习跨环境的通用特征。

预测逻辑

  • 原始样本预测: $\hat{y}_{en} = \Phi(h_{en})$ ,损失函数为:

    $\mathcal{L}_{ori} = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_{en}, y) \right]$

  • 反事实样本预测: $\hat{y}_e^j = \Phi(h_{en}^j)$ ,损失函数为:

    $\mathcal{L}_{cou} = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_e^j, y) \right]$

    • 符号说明:

      • $\Phi(\cdot)$  为预测器网络(与合理化模块共享参数);

      • $\ell(\cdot)$  为损失函数(分类任务用交叉熵);

      • $\mathcal{D}_G$  为训练数据集。

核心作用

  • 融合原始与反事实样本的损失,推动模型学习不受环境影响的鲁棒特征,提升 OOD 泛化能力。

3.3 合理化模块(The Rationalization Module)

核心目标

  精准提取与任务标签相关的理据子图,同时通过非理据子图推断全局环境,反馈给分类模块,实现协同优化。

3.3.1 分离器(Separator in Rationalization)

功能

  将输入图划分为 “理据子图”(与标签强相关,决定预测结果)和 “非理据子图”(与标签解耦,对应环境噪声),并生成对应的表示。

三步流程

  1. 理据概率预测:

    • 通过编码器  $GNN_m(\cdot)$  将节点转换为特征向量,再通过权重矩阵  $W_m$  输出每个节点作为理据的概率分布:

      $\tilde{M} = softmax\left(W_m(GNN_m(g))\right)$

    • 符号说明: $\tilde{M} = \{\tilde{m}_i\}_{i}^{|V|}$ $\tilde{m}_i \in [0,1]$  为第 i 个节点的理据概率), $W_m \in \mathbb{R}^{2 \times d}$  为可学习权重矩阵。

  2. 可微掩码采样:

    • 为解决二进制掩码采样的不可微问题,采用 Gumbel-softmax 方法:

      $m_j = \frac{\exp\left((\log(\tilde{m}_j) + q_j)/\tau\right)}{\sum_t \exp\left((\log(\tilde{m}_t) + q_t)/\tau\right)}$

    • 符号说明:

      • $\tau$  为温度超参数(控制采样平滑度);

      • $q_j = -\log(-\log(u_j))$ $u_j \sim U(0,1)$  为均匀分布采样值);

      • $M = \{m_j\}_{j}^{|V|}$  为最终二进制掩码(0 = 非理据,1 = 理据)。

  3. 子图表示生成:

    • 用额外编码器  $GNN_g(\cdot)$  生成图的节点表示  $H_g$

    • 理据 / 非理据子图表示通过掩码与节点表示的元素积,再经 READOUT 聚合得到:

      $h_r = READOUT(M \odot H_g), \quad h_n = READOUT((1-M) \odot H_g)$

    • 符号说明:

      • $h_r \in \mathbb{R}^d$ :理据子图表示;

      • $h_n \in \mathbb{R}^d$ :非理据子图表示;

      • $\odot$  为元素积操作。

3.3.2 预测器(Predictor in Rationalization)

功能

  仅基于理据子图表示进行任务预测,确保模型依赖核心特征而非环境噪声,同时保证与分类模块的参数共享。

数学定义

   $\hat{y}_r = \Phi(h_r), \quad \mathcal{L}_r = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_r, y) \right]$

  • 关键特性:

    • 参数共享:与分类模块的预测器  $\Phi(\cdot)$  共用参数,避免冗余,确保两模块的预测目标一致;

    • 理据依赖:仅输入理据子图表示  $h_r$ ,强制模型学习基于核心特征的预测逻辑,提升泛化性。

3.3.3 知识蒸馏(Knowledge Distillation)

核心问题

  合理化模块的理据学习信号仅来自 “预测结果与真实标签的对比”,探索空间极大,难以收敛到最优理据。

功能

  将分类模块学习的鲁棒图表示  $h_{en}$  迁移到理据表示  $h_r$ ,为理据学习提供额外信号,缩小探索空间。

数学定义

  通过最大化  $h_r$  与  $h_{en}$  的互信息实现表示对齐:

     $\mathcal{L}_{dis} = I(h_r ; h_{en})$

  • 作用机制:

    • 互信息最大化确保  $h_r$  继承  $h_{en}$  的鲁棒性和泛化能力;

    • 减少理据提取的盲目性,引导模型聚焦与任务核心相关的子图。

3.3.4 环境归纳器(Environment Inductor)

核心假设

  非理据子图捕捉了不同分布下的变异特征,是环境的判别性指标,可通过非理据表示推断全局环境。

与现有方法的区别

  • 现有方法(如 GIL):仅基于单批次样本的非理据子图推断 “局部环境”,覆盖范围有限;

  • C2R:收集所有训练样本的非理据表示  $\hat{h}_n = \{h_n^i\}_i^l$ ,推断 “全局环境”,更具代表性。

环境推断流程

  1. 收集所有样本的非理据子图表示  $h_n$

  2. 采用 k-means 聚类算法对  $h_n$  聚类,得到环境集合:

    $E = k\text{-means}(h_n)$

  3. 将推断的环境反馈给下一轮分类模块,为反事实样本生成提供环境输入,完成协同闭环。

3.4 训练与推理(Training and Inference)

3.4.1 训练流程

步骤 1:初始化与预处理

  • 设定超参数( $\lambda_{cou}, \lambda_{cycle}, \lambda_{sp}, \lambda_{dis}$  等);

  • 初始化分类模块、合理化模块的网络参数(预测器参数共享)。

步骤 2:合理化模块前向计算

  • 运行分离器,生成掩码 M、理据表示  $h_r$  和非理据表示  $h_n$

  • 基于  $h_r$  计算预测损失  $\mathcal{L}_r$

  • 收集所有样本的  $h_n$ ,通过 k-means 聚类推断初始环境 E

步骤 3:分类模块前向计算

  • 基于推断的环境 E,通过环境条件生成器生成反事实样本表示  $h_{en}^j$

  • 计算原始样本损失  $\mathcal{L}_{ori}$ 、反事实样本损失  $\mathcal{L}_{cou}$  和循环一致性损失  $\mathcal{L}_{cycle}$

步骤 4:损失融合与反向传播

  • 融合分类模块与合理化模块的所有损失(含稀疏性约束损失  $\mathcal{L}_{sp}$  和知识蒸馏损失  $\mathcal{L}_{dis}$ );

  • 整体损失函数:

    $\mathcal{L} = \underbrace{\mathcal{L}_{ori} + \lambda_{cou}\mathcal{L}_{cou} - \lambda_{cycle}\mathcal{L}_{cycle}}_{\text{分类模块损失}} + \underbrace{\mathcal{L}_r + \lambda_{sp}\mathcal{L}_{sp} - \lambda_{dis}\mathcal{L}_{dis}}_{\text{合理化模块损失}}$

  • 反向传播更新所有网络参数。

步骤 5:迭代协同

  • 每轮训练结束后,重新通过环境归纳器更新环境 E

  • 重复步骤 2-4,直至模型收敛。

关键约束:稀疏性约束

  • 目的:控制理据子图的大小,避免理据过度冗余(确保提取的是核心子图);

  • 数学定义:

    $\mathcal{L}_{sp} = \left| \frac{1}{N} \sum_{i=1}^N M_i - \alpha \right|$

    • 符号说明: $N = |V|$  为节点数, $\alpha \in [0,1]$  为预设稀疏度(如 MolHIV 设为 0.1,MolBBBP 设为 0.5)。

3.4.2 推理流程

核心原则

  推理阶段优先使用合理化模块的输出,兼顾预测性能与可解释性(理据子图可作为预测依据)。

具体步骤

  1. 输入测试图  $g_{test}$

  2. 运行合理化模块的分离器,生成掩码  $M_{test}$  和理据子图表示  $h_{r, test}$

  3. 调用共享预测器  $\Phi(\cdot)$ ,基于  $h_{r, test}$  输出最终预测结果  $\hat{y}_{test}$

  4. (可选)输出掩码  $M_{test}$  对应的理据子图,提供预测可解释性。

推理优势

  • 可解释性:明确给出预测依赖的核心子图,解决 GNN “黑箱” 问题;

  • 泛化性:理据子图是与环境无关的不变特征,在 OOD 数据上表现更稳定。

4 实验部分

4.1 实验核心目标

  围绕 5 个研究问题(RQ1-RQ5)验证所提 C2R 方法的有效性,具体目标如下:

研究问题 核心验证目标
RQ1 C2R 是否能有效提升 GNN 在 OOD 数据上的泛化性能?
RQ2 C2R 中各组件及超参数对性能的影响如何?
RQ3 分类与合理化模块的协同训练策略是否有效?
RQ4 C2R 框架是否具有扩展性,能否增强现有合理化方法的泛化能力?
RQ5 C2R 是否能准确提取核心理据子图,具备可解释性?

4.2 数据集(Datasets)

1. 数据集分类与核心信息

类型 数据集名称 训练 / 验证 / 测试划分 类别数 平均节点数 平均边数 核心特点与用途
合成数据集 Spurious-Motif(bias=0.5) 3,000/3,000/6,000 3 29.6 42.0 含 3 类 motif(理据)+3 类 base(非理据),bias 控制数据虚假关联程度;用于验证理据提取精度和 OOD 泛化
合成数据集 Spurious-Motif(bias=0.7) 3,000/3,000/6,000 3 30.8 45.9 同上,虚假关联程度中等
合成数据集 Spurious-Motif(bias=0.9) 3,000/3,000/6,000 3 29.4 42.5 同上,虚假关联程度高
真实数据集 MNIST-75sp 5,000/1,000/1,000 10 66.8 600.2 MNIST 图像转超像素图,节点含随机噪声;模拟 OOD 场景
真实数据集 MolHIV(OGB-Mol) 32,901/4,113/4,113 2 25.5 27.5 分子性质预测(是否感染 HIV);采用 scaffold 划分(OOD 分布)
真实数据集 MolToxCast(OGB-Mol) 6,860/858/858 617 18.8 19.3 分子毒性预测;多分类任务
真实数据集 MolBBBP(OGB-Mol) 1,631/204/204 2 24.1 26.0 分子血脑屏障穿透性预测;二分类任务
真实数据集 MolSIDER(OGB-Mol) 1,141/143/143 27 33.6 35.4 分子副作用预测;多分类任务

2. 数据集构建关键细节

  • Spurious-Motif

    • 数据分布控制:base 子图选择服从分布 \(P(E)=\begin{cases} bias, & if B=R \\ \frac{1- bias }{2}, & if B \neq R \end{cases}\),bias 越大,motif 与 base 的虚假关联越强;

    • 测试集:设置 bias=1/3 构建去偏平衡数据集,确保测试分布与训练分布差异(OOD)。

  • OGB-Mol 系列:采用默认 scaffold 划分,基于分子骨架结构拆分训练 / 测试集,模拟真实场景中 “未见分子结构” 的 OOD 情况。

4.3 对比方法(Baselines)

1. 分类方法

  • 传统 GNN:GCN(图卷积网络)、GIN(图同构网络)—— 作为基础对比,验证 OOD 泛化的必要性。

2. 合理化方法(核心对比对象)

方法名称 核心思路
DIR 通过干预训练分布创建多个干预分布,发现不变理据
DisC 解耦因果子结构与偏置子结构,合成反事实样本以解除两者关联
GREA 利用偏置子图生成反事实样本,无显式解耦操作
CAL 基于因果注意力学习,发现因果理据并减轻 shortcut 的混淆效应
GSAT 引入随机性屏蔽标签无关信息,基于信息瓶颈原则选择标签相关子图
GIL 训练时对批次内非理据子图聚类,推断局部环境以学习不变表示
DARE 采用解纠缠表示学习,从输入中封装更多信息以提取理据

3. 消融变体(验证 C2R 组件有效性)

  • C2R w/o cycle:移除分类模块的循环一致性约束(\(\mathcal{L}_{cycle}\));

  • C2R w/o cou:移除分类模块的反事实样本(不计算 \(\mathcal{L}_{cou}\));

  • C2R w/o dis:移除跨模块的知识蒸馏(不计算 \(\mathcal{L}_{dis}\))。

4.4 实验设置

1. 超参数配置

超参数 取值
\(\lambda_{cou}\) 1.0
\(\lambda_{cycle}\) 0.01
\(\lambda_{sp}\) 0.01
\(\lambda_{dis}\) 1.0
隐藏层维度 d Spurious-Motif=32;MNIST-75sp=64;OGB=128
优化器 Adam
学习率 Spurious-Motif/MNIST-75sp=1e-2;OGB=1e-3
稀疏度 \(\alpha\) MolHIV=0.1;MolSIDER/MolToxCast/MolBBBP=0.5;其他 = 0.4
环境数量 k Spurious-Motif=3;其他 = 10
环境条件生成器 EG MLP(输入为 \([h_{en}; e]\) 拼接向量)
互信息最大化方法 InfoNCE

2. 评价指标

  • 预测性能:Spurious-Motif/MNIST-75sp 用准确率(ACC);OGB-Mol 系列用 AUC;

  • 理据提取精度:Precision@5(Spurious-Motif 数据集,因含真实理据)—— 衡量 Top-5 提取理据与真实理据的匹配度;

  • 实验重复:5 次随机种子训练,报告测试集的均值 ± 标准差(取验证集性能最优 epoch 的结果);

  • 硬件环境:单张 A100 GPU。

4.5 实验内容、结果与结论

1. RQ1:C2R 的 OOD 泛化性能验证(核心性能对比)

实验内容

  在所有合成 / 真实数据集上,对比 C2R 与传统 GNN、现有合理化方法的预测性能(ACC/AUC),并在 Spurious-Motif 上验证理据提取精度(Precision@5)。

实验结果

  • 预测性能:C2R 在所有数据集上的性能均显著优于传统 GNN 和现有合理化方法。例如:

    • Spurious-Motif(bias=0.9):C2R 的 ACC 高于 DIR、DisC 等方法 5%-10%;

    • MolHIV(OGB):C2R 的 AUC 达到 0.79+,高于 GIN(0.75 左右)和 DARE(0.78 左右)。

  • 理据提取精度:如图 3 所示,无论 Spurious-Motif 的 bias 为 0.5、0.7 还是 0.9,C2R 的 Precision@5 均高于所有基线方法,且在高 bias(虚假关联强)场景下优势更明显。

结论

  • 传统 GNN 因依赖训练数据的统计关联,在 OOD 数据上性能较差,验证了 OOD 泛化研究的必要性;

  • 现有合理化方法因理据学习信号不足,性能不及 C2R;

  • C2R 通过分类与合理化的协同训练,既提升了 OOD 预测性能,又保证了理据提取的准确性。

2. RQ2:消融实验与超参数敏感性分析

1)消融实验

实验内容

  在 OGB 数据集上,对比 C2R 与 3 个消融变体的 AUC 性能,验证核心组件的必要性。

实验结果(图 4)

  • 性能排序:C2R > C2R w/o cycle > C2R w/o cou > C2R w/o dis;

  • 关键观察:

    • C2R w/o dis 性能最差:说明知识蒸馏是连接两模块的核心,缺少则无法传递鲁棒表示,理据探索空间过大;

    • C2R w/o cou 性能显著下降:说明反事实样本对丰富训练分布、提升泛化能力至关重要;

    • C2R w/o cycle 性能略降:说明循环一致性约束能保证反事实样本的有效性,但核心框架(协同训练)仍起主导作用。

结论

  分类模块的循环一致性约束、反事实样本,以及跨模块的知识蒸馏,均为 C2R 的关键组件,缺一不可。

2)超参数敏感性分析

实验内容 1:环境数量 k 的影响

  • 实验设置:在 Spurious-Motif(bias=0.9)和 MolSIDER 上,测试 k=3,5,10,20,30 时的性能。

  • 实验结果(图 5):

    • Spurious-Motif:最优 k=3(与真实环境数 | B|=3 一致);

    • MolSIDER:最优 k=10;

    • k≥20 时性能下降:过多环境会导致分布碎片化,反事实样本生成无效。

  • 结论:环境数量需适配数据集特性,并非越多越好,需与数据的真实环境复杂度匹配。

实验内容 2:知识蒸馏对齐方法的影响

  • 实验设置:对比 3 种对齐方法 —— 互信息(MI)最大化(C2R)、KL 散度最小化(C2R-KL)、MSE 最小化(C2R-MSE)。

  • 实验结果(图 4):C2R(MI 最大化)在所有 OGB 数据集上的 AUC 均高于 C2R-KL 和 C2R-MSE。

  • 结论:互信息最大化能更有效地对齐鲁棒表示与理据表示,传递泛化能力。

3. RQ3:协同训练策略有效性验证

实验内容

  在 MolSIDER 数据集上,记录 C2R 的分类模块、合理化模块,以及单独训练的 “纯分类模块”“纯合理化模块” 的 AUC 随训练 epoch 的变化(图 6)。

实验结果

  • 训练全程:C2R 的分类模块和合理化模块的 AUC 均高于单独训练的模块;

  • 初始阶段:分类模块 AUC 高于合理化模块(因合理化模块初期理据提取不充分);

  • 后期阶段:两者 AUC 差距缩小(协同训练使理据提取精度提升,合理化模块性能追赶)。

结论

  分类与合理化模块的协同训练策略有效,能实现双向赋能,提升整体性能。

4. RQ4:C2R 框架的扩展性验证

实验内容

  将 C2R 的合理化模块替换为现有主流合理化方法(DIR、DisC、GREA、GSAT、DARE),形成 “方法 + C2R” 混合框架,在 OGB 数据集上对比原始方法与混合框架的性能。

实验结果(表 3)

  • 所有 “方法 + C2R” 混合框架的性能均高于原始方法,提升幅度在 0.22%-2.79% 之间;

  • 示例:DisC+C2R 在 MolHIV 上的 AUC 从 0.7731 提升至 0.7959(+2.28%),GSAT+C2R 在 MolBBBP 上的 AUC 从 0.6437 提升至 0.6683(+2.46%)。

结论

  C2R 框架具有良好的扩展性,可作为现有合理化方法的增强模块,提升其 OOD 泛化能力。

5. RQ5:理据提取的可解释性验证(案例研究)

实验内容

  在 Spurious-Motif(bias=0.9)上训练 C2R(GIN 为骨干),对测试集中的 Cycle-Wheel、House-Tree、Crane-Ladder 三类图,可视化提取的理据子图(图 7)。

实验结果

  • 可视化显示:C2R 提取的理据子图(深蓝色节点 + 红色边)精准对应真实的 motif 子图(Cycle、House、Crane);

  • 非理据子图(base 子图,如 Wheel、Tree、Ladder)被成功过滤,未参与预测决策。

结论

  C2R 能准确提取与任务相关的核心理据子图,为预测结果提供可解释性,验证了合理化模块的有效性。

6. 实验整体结论汇总

  1. C2R 在合成与真实数据集上均实现了最优的 OOD 泛化性能,解决了传统 GNN 和现有合理化方法的核心局限;

  2. 分类模块的反事实样本生成、循环一致性约束,以及跨模块的知识蒸馏,是 C2R 性能优越的关键;

  3. 协同训练策略实现了分类与合理化模块的双向赋能,框架扩展性强;

  4. C2R 能精准提取核心理据子图,兼具泛化性与可解释性。

posted @ 2025-12-15 16:18  Blairs  阅读(3)  评论(0)    收藏  举报
Live2D