C2R | Cooperative Classification and Rationalization for Graph Generalization【用于图泛化的协同分类与合理化】

论文信息

论文标题：Cooperative Classification and Rationalization for Graph Generalization
论文作者：岳临安、刘琪、刘烨、高伟博、姚方舟、李文峰
论文来源：WWW 2024
发布时间：2024
论文地址：link
论文代码：link

1 摘要

研究背景与问题：图神经网络（GNNs）在图分类任务中表现优异，但面对分布外（OOD）数据时泛化能力不足。现有解决思路存在缺陷：一是通过修改数据环境丰富普通分类的训练分布，但获取环境信息难度大；二是通过 “合理化” 提取预测所需的不变理据，但因学习信号有限，理据提取准确性低、预测效果受影响。
提出方法：设计协同分类与合理化（C2R）方法，包含分类模块与合理化模块，二者协同工作。
- 分类模块：假设存在多个环境，借助环境条件生成网络引入多样化训练分布，得到稳健的图表示。
- 合理化模块：用分离器识别相关理据子图，使剩余非理据子图与标签去相关；再通过知识蒸馏方法，将分类模块的图表示与理据子图表示对齐，增强理据的学习信号。
- 协同机制：收集非理据表示推断多个环境，将其整合到分类模块中实现协同学习。
实验与成果：在基准数据集和合成数据集上的大量实验证明了 C2R 方法的有效性，相关代码已公开（可通过文中链接获取）

2 研究动机&&研究问题

2.1 研究动机

1 背景

图神经网络（GNNs）在各类图分类任务（如分子性质预测、 motif 类型识别）中已取得显著成果，但现实场景中训练集与测试集的分布往往存在差异，导致 GNNs 面对分布外（OOD）数据时泛化能力严重下降 —— 这一问题的本质是传统 GNN 依赖训练数据中的统计关联（甚至虚假关联），而非与任务核心相关的不变特征。

2 现有解决方案的缺陷

现有两类主流方法均无法同时解决 “OOD 泛化” 与 “学习信号不足” 的核心矛盾：

方法 1：环境多样化的分类方法
- 思路：通过修改数据环境丰富训练分布，让模型学习跨环境的鲁棒特征。
- 缺陷：获取环境信息的过程复杂且不切实际，难以在真实场景中落地。
方法 2：基于合理化（Rationalization）的方法
- 思路：提取与标签相关的 “理据子图”（不变特征），仅基于理据预测以提升泛化性，同时将非理据子图视为环境构建反事实样本。
- 缺陷：理据的学习信号仅来源于 “预测结果与真实标签的对比”，导致理据探索空间极大，模型难以收敛到最优理据，进而造成理据提取精度低、预测性能受损。

3 本文核心动机

为解决上述两类方法的局限，提出协同分类与合理化（C2R）框架：

通过分类模块生成鲁棒图表示，为合理化模块提供额外学习信号，减少理据探索空间；
通过合理化模块挖掘非理据子图的环境信息，反馈给分类模块以优化训练分布；
最终实现 “分类鲁棒性” 与 “理据准确性” 的双向促进，提升 GNN 在 OOD 数据上的泛化能力。

2.2 研究问题

1. 核心研究问题

如何设计一种协同框架，同时解决 “环境信息获取难” 与 “理据学习信号不足” 两大问题，实现 GNN 在 OOD 数据上的高效泛化与可解释性？

2. 具体衍生问题（对应实验验证 RQ1-RQ5）

RQ1：C2R 是否能有效提升 GNN 在 OOD 数据上的泛化性能？

RQ2：C2R 中各组件（循环一致性约束、反事实样本、知识蒸馏）及超参数（环境数量 k、对齐方法）对性能的影响如何？

RQ3：分类模块与合理化模块的协同训练策略是否真的有效？

RQ4：C2R 框架是否具有扩展性，能否提升其他现有合理化方法的泛化能力？

RQ5：C2R 是否能准确提取与任务相关的核心理据子图，为预测提供可解释性？

3 协同分类与合理化框架

3.1 C2R 架构（Architecture of C2R）

核心目标

设计分类模块与合理化模块的协同架构，实现两者双向赋能，最终提升模型在分布外（OOD）数据上的泛化能力与可解释性。

架构核心逻辑

分类模块：假设存在多环境，通过生成反事实样本学习跨环境的鲁棒图表示；
合理化模块：将图划分为理据子图（与标签相关）和非理据子图（与标签解耦），并利用分类模块的鲁棒表示优化理据提取；
协同闭环：通过非理据子图推断全局环境，反馈给下一轮分类模块，形成 “分类鲁棒表示→合理化理据优化→环境推断→分类模块迭代” 的协同训练流程。

架构示意图关键组件

组件	功能定位	模块归属
Graph Encoder	编码输入图为图级表示	分类模块
Environment-conditional Generator	生成反事实样本	分类模块
Separator	划分理据 / 非理据子图	合理化模块
Knowledge Distillation	对齐鲁棒表示与理据表示	跨模块连接
Environment Inductor	基于非理据子图推断环境	合理化模块
Predictor	输出任务预测结果（参数共享）	双模块共用

3.2 分类模块（The Classification Module）

核心目标

通过环境条件生成反事实样本，丰富训练分布，学习不依赖特定环境的鲁棒图表示，同时为合理化模块提供知识蒸馏信号。

3.2.1 图编码器（Graph Encoder）

功能

将输入图转换为节点级表示和图级表示，为后续反事实生成和预测提供基础特征。

数学定义

采用任意 GNN 结构（如 GIN、GCN）作为编码器，公式如下：

$H_{en} = GNN_{en}(g), \quad h_{en} = READOUT(H_{en})$

符号说明：
- $$g$$ ：输入图（含节点集 $ $V$$ 和边集 $ $E$$ ）；
- $GNN_{en}(\cdot)$ ：图编码器（可替换为任意 GNN 架构）；
- $H_{en} \in \mathbb{R}^{|V| \times d}$ ：节点级表示（ $$|V|$$ 为节点数， $d$ 为特征维度）；
- $READOUT(\cdot)$ ：图级表示聚合操作（本文采用均值池化）；
- $h_{en} \in \mathbb{R}^{d}$ ：最终输出的鲁棒图表示。

关键特性

灵活性：支持不同 GNN 骨干网络，适配不同图数据场景；
鲁棒性导向：通过后续反事实样本训练，使该表示剥离环境噪声，聚焦任务核心特征。

3.2.2 环境条件生成器（Environment-conditional Generator）

功能

基于现有环境，将原始图表示映射到其他环境，生成反事实样本，以丰富训练分布的多样性。

核心假设

每个样本关联一个特定环境 $e_m \in E$ （ $E = \{e_1, e_2, ..., e_k\}$ 为环境集合）；
环境不影响任务标签（反事实样本标签与原始样本一致）。

生成流程

环境采样：对每个样本，从环境集合中随机采样不同于当前环境的目标环境 $$e_j$$ （ $e_j \neq e_m$ ）；
反事实表示生成：通过生成器 $EG(\cdot)$ 将原始图表示 $h_{en}$ 映射到目标环境，公式如下：

$h_{en}^j = EG(h_{en}, e_j)$

符号说明： $h_{en}^j \in \mathbb{R}^d$ 为目标环境下的反事实图表示， $EG(\cdot)$ 可采用任意网络架构（本文用 MLP）。

循环一致性约束（Cycle Consistency Constraint）

目的：保证环境映射的有效性，确保反事实样本可还原为原始表示，避免生成无关特征；
数学定义：

$\mathcal{L}_{cycle} = I\left(EG(h_{en}^j, e_m) ; h_{en}\right)$
- 符号说明： $I(\cdot;\cdot)$ 为互信息，最大化该值可保证 $EG(h_{en}^j, e_m)$ 与 $h_{en}$ 编码相同核心信息；
- 作用：约束生成器在环境转换中保留图的任务相关特征，仅改变环境相关噪声。

3.2.3 预测器（Predictor）

功能

基于原始图表示和反事实图表示共同预测任务结果，迫使模型学习跨环境的通用特征。

预测逻辑

原始样本预测： $\hat{y}_{en} = \Phi(h_{en})$ ，损失函数为：

$\mathcal{L}_{ori} = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_{en}, y) \right]$
反事实样本预测： $\hat{y}_e^j = \Phi(h_{en}^j)$ ，损失函数为：

$\mathcal{L}_{cou} = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_e^j, y) \right]$
- 符号说明：
  - $\Phi(\cdot)$ 为预测器网络（与合理化模块共享参数）；
  - $\ell(\cdot)$ 为损失函数（分类任务用交叉熵）；
  - $\mathcal{D}_G$ 为训练数据集。

核心作用

融合原始与反事实样本的损失，推动模型学习不受环境影响的鲁棒特征，提升 OOD 泛化能力。

3.3 合理化模块（The Rationalization Module）

核心目标

精准提取与任务标签相关的理据子图，同时通过非理据子图推断全局环境，反馈给分类模块，实现协同优化。

3.3.1 分离器（Separator in Rationalization）

功能

将输入图划分为 “理据子图”（与标签强相关，决定预测结果）和 “非理据子图”（与标签解耦，对应环境噪声），并生成对应的表示。

三步流程

理据概率预测：
- 通过编码器 $GNN_m(\cdot)$ 将节点转换为特征向量，再通过权重矩阵 $$W_m$$ 输出每个节点作为理据的概率分布：
  
  $\tilde{M} = softmax\left(W_m(GNN_m(g))\right)$
- 符号说明： $\tilde{M} = \{\tilde{m}_i\}_{i}^{|V|}$ （ $\tilde{m}_i \in [0,1]$ 为第 $i$ 个节点的理据概率）， $W_m \in \mathbb{R}^{2 \times d}$ 为可学习权重矩阵。
可微掩码采样：
- 为解决二进制掩码采样的不可微问题，采用 Gumbel-softmax 方法：
  
  $m_j = \frac{\exp\left((\log(\tilde{m}_j) + q_j)/\tau\right)}{\sum_t \exp\left((\log(\tilde{m}_t) + q_t)/\tau\right)}$
- 符号说明：
  - $\tau$ 为温度超参数（控制采样平滑度）；
  - $q_j = -\log(-\log(u_j))$ （ $u_j \sim U(0,1)$ 为均匀分布采样值）；
  - $M = \{m_j\}_{j}^{|V|}$ 为最终二进制掩码（0 = 非理据，1 = 理据）。
子图表示生成：
- 用额外编码器 $GNN_g(\cdot)$ 生成图的节点表示 $$H_g$$ ；
- 理据 / 非理据子图表示通过掩码与节点表示的元素积，再经 READOUT 聚合得到：
  
  $h_r = READOUT(M \odot H_g), \quad h_n = READOUT((1-M) \odot H_g)$
- 符号说明：
  - $h_r \in \mathbb{R}^d$ ：理据子图表示；
  - $h_n \in \mathbb{R}^d$ ：非理据子图表示；
  - $\odot$ 为元素积操作。

3.3.2 预测器（Predictor in Rationalization）

功能

仅基于理据子图表示进行任务预测，确保模型依赖核心特征而非环境噪声，同时保证与分类模块的参数共享。

数学定义

$\hat{y}_r = \Phi(h_r), \quad \mathcal{L}_r = \mathbb{E}_{(g,y) \sim \mathcal{D}_G} \left[ \ell(\hat{y}_r, y) \right]$

关键特性：
- 参数共享：与分类模块的预测器 $\Phi(\cdot)$ 共用参数，避免冗余，确保两模块的预测目标一致；
- 理据依赖：仅输入理据子图表示 $$h_r$$ ，强制模型学习基于核心特征的预测逻辑，提升泛化性。

3.3.3 知识蒸馏（Knowledge Distillation）

核心问题

合理化模块的理据学习信号仅来自 “预测结果与真实标签的对比”，探索空间极大，难以收敛到最优理据。

功能

将分类模块学习的鲁棒图表示 $h_{en}$ 迁移到理据表示 $$h_r$$ ，为理据学习提供额外信号，缩小探索空间。

数学定义

通过最大化 $$h_r$$ 与 $h_{en}$ 的互信息实现表示对齐：

$\mathcal{L}_{dis} = I(h_r ; h_{en})$

作用机制：
- 互信息最大化确保 $$h_r$$ 继承 $h_{en}$ 的鲁棒性和泛化能力；
- 减少理据提取的盲目性，引导模型聚焦与任务核心相关的子图。

3.3.4 环境归纳器（Environment Inductor）

核心假设

非理据子图捕捉了不同分布下的变异特征，是环境的判别性指标，可通过非理据表示推断全局环境。

与现有方法的区别

现有方法（如 GIL）：仅基于单批次样本的非理据子图推断 “局部环境”，覆盖范围有限；
C2R：收集所有训练样本的非理据表示 $\hat{h}_n = \{h_n^i\}_i^l$ ，推断 “全局环境”，更具代表性。

环境推断流程

收集所有样本的非理据子图表示 $$h_n$$ ；
采用 k-means 聚类算法对 $$h_n$$ 聚类，得到环境集合：

$E = k\text{-means}(h_n)$
将推断的环境反馈给下一轮分类模块，为反事实样本生成提供环境输入，完成协同闭环。

3.4 训练与推理（Training and Inference）

3.4.1 训练流程

步骤 1：初始化与预处理

设定超参数（ $\lambda_{cou}, \lambda_{cycle}, \lambda_{sp}, \lambda_{dis}$ 等）；
初始化分类模块、合理化模块的网络参数（预测器参数共享）。

步骤 2：合理化模块前向计算

运行分离器，生成掩码 $M$ 、理据表示 $$h_r$$ 和非理据表示 $$h_n$$ ；
基于 $$h_r$$ 计算预测损失 $\mathcal{L}_r$ ；
收集所有样本的 $$h_n$$ ，通过 k-means 聚类推断初始环境 $E$ 。

步骤 3：分类模块前向计算

基于推断的环境 $E$ ，通过环境条件生成器生成反事实样本表示 $h_{en}^j$ ；
计算原始样本损失 $\mathcal{L}_{ori}$ 、反事实样本损失 $\mathcal{L}_{cou}$ 和循环一致性损失 $\mathcal{L}_{cycle}$ 。

步骤 4：损失融合与反向传播

融合分类模块与合理化模块的所有损失（含稀疏性约束损失 $\mathcal{L}_{sp}$ 和知识蒸馏损失 $\mathcal{L}_{dis}$ ）；
整体损失函数：

$\mathcal{L} = \underbrace{\mathcal{L}_{ori} + \lambda_{cou}\mathcal{L}_{cou} - \lambda_{cycle}\mathcal{L}_{cycle}}_{\text{分类模块损失}} + \underbrace{\mathcal{L}_r + \lambda_{sp}\mathcal{L}_{sp} - \lambda_{dis}\mathcal{L}_{dis}}_{\text{合理化模块损失}}$
反向传播更新所有网络参数。

步骤 5：迭代协同

每轮训练结束后，重新通过环境归纳器更新环境 $E$ ；
重复步骤 2-4，直至模型收敛。

关键约束：稀疏性约束

目的：控制理据子图的大小，避免理据过度冗余（确保提取的是核心子图）；
数学定义：

$\mathcal{L}_{sp} = \left| \frac{1}{N} \sum_{i=1}^N M_i - \alpha \right|$
- 符号说明： $$N = |V|$$ 为节点数， $\alpha \in [0,1]$ 为预设稀疏度（如 MolHIV 设为 0.1，MolBBBP 设为 0.5）。

3.4.2 推理流程

核心原则

推理阶段优先使用合理化模块的输出，兼顾预测性能与可解释性（理据子图可作为预测依据）。

具体步骤

输入测试图 $g_{test}$ ；
运行合理化模块的分离器，生成掩码 $M_{test}$ 和理据子图表示 $h_{r, test}$ ；
调用共享预测器 $\Phi(\cdot)$ ，基于 $h_{r, test}$ 输出最终预测结果 $\hat{y}_{test}$ ；
（可选）输出掩码 $M_{test}$ 对应的理据子图，提供预测可解释性。

推理优势

可解释性：明确给出预测依赖的核心子图，解决 GNN “黑箱” 问题；
泛化性：理据子图是与环境无关的不变特征，在 OOD 数据上表现更稳定。

4 实验部分

4.1 实验核心目标

围绕 5 个研究问题（RQ1-RQ5）验证所提 C2R 方法的有效性，具体目标如下：

研究问题	核心验证目标
RQ1	C2R 是否能有效提升 GNN 在 OOD 数据上的泛化性能？
RQ2	C2R 中各组件及超参数对性能的影响如何？
RQ3	分类与合理化模块的协同训练策略是否有效？
RQ4	C2R 框架是否具有扩展性，能否增强现有合理化方法的泛化能力？
RQ5	C2R 是否能准确提取核心理据子图，具备可解释性？

4.2 数据集（Datasets）

1. 数据集分类与核心信息

类型	数据集名称	训练 / 验证 / 测试划分	类别数	平均节点数	平均边数	核心特点与用途
合成数据集	Spurious-Motif（bias=0.5）	3,000/3,000/6,000	3	29.6	42.0	含 3 类 motif（理据）+3 类 base（非理据），bias 控制数据虚假关联程度；用于验证理据提取精度和 OOD 泛化
合成数据集	Spurious-Motif（bias=0.7）	3,000/3,000/6,000	3	30.8	45.9	同上，虚假关联程度中等
合成数据集	Spurious-Motif（bias=0.9）	3,000/3,000/6,000	3	29.4	42.5	同上，虚假关联程度高
真实数据集	MNIST-75sp	5,000/1,000/1,000	10	66.8	600.2	MNIST 图像转超像素图，节点含随机噪声；模拟 OOD 场景
真实数据集	MolHIV（OGB-Mol）	32,901/4,113/4,113	2	25.5	27.5	分子性质预测（是否感染 HIV）；采用 scaffold 划分（OOD 分布）
真实数据集	MolToxCast（OGB-Mol）	6,860/858/858	617	18.8	19.3	分子毒性预测；多分类任务
真实数据集	MolBBBP（OGB-Mol）	1,631/204/204	2	24.1	26.0	分子血脑屏障穿透性预测；二分类任务
真实数据集	MolSIDER（OGB-Mol）	1,141/143/143	27	33.6	35.4	分子副作用预测；多分类任务

2. 数据集构建关键细节

Spurious-Motif：
- 数据分布控制：base 子图选择服从分布 $P(E)=\begin{cases} bias, & if B=R \\ \frac{1- bias }{2}, & if B \neq R \end{cases}$ ，bias 越大，motif 与 base 的虚假关联越强；
- 测试集：设置 bias=1/3 构建去偏平衡数据集，确保测试分布与训练分布差异（OOD）。
OGB-Mol 系列：采用默认 scaffold 划分，基于分子骨架结构拆分训练 / 测试集，模拟真实场景中 “未见分子结构” 的 OOD 情况。

4.3 对比方法（Baselines）

1. 分类方法

传统 GNN：GCN（图卷积网络）、GIN（图同构网络）—— 作为基础对比，验证 OOD 泛化的必要性。

2. 合理化方法（核心对比对象）

方法名称	核心思路
DIR	通过干预训练分布创建多个干预分布，发现不变理据
DisC	解耦因果子结构与偏置子结构，合成反事实样本以解除两者关联
GREA	利用偏置子图生成反事实样本，无显式解耦操作
CAL	基于因果注意力学习，发现因果理据并减轻 shortcut 的混淆效应
GSAT	引入随机性屏蔽标签无关信息，基于信息瓶颈原则选择标签相关子图
GIL	训练时对批次内非理据子图聚类，推断局部环境以学习不变表示
DARE	采用解纠缠表示学习，从输入中封装更多信息以提取理据

3. 消融变体（验证 C2R 组件有效性）

C2R w/o cycle：移除分类模块的循环一致性约束（ $\mathcal{L}_{cycle}$ ）；
C2R w/o cou：移除分类模块的反事实样本（不计算 $\mathcal{L}_{cou}$ ）；
C2R w/o dis：移除跨模块的知识蒸馏（不计算 $\mathcal{L}_{dis}$ ）。

4.4 实验设置

1. 超参数配置

超参数	取值
$\lambda_{cou}$	1.0
$\lambda_{cycle}$	0.01
$\lambda_{sp}$	0.01
$\lambda_{dis}$	1.0
隐藏层维度 $d$	Spurious-Motif=32；MNIST-75sp=64；OGB=128
优化器	Adam
学习率	Spurious-Motif/MNIST-75sp=1e-2；OGB=1e-3
稀疏度 $\alpha$	MolHIV=0.1；MolSIDER/MolToxCast/MolBBBP=0.5；其他 = 0.4
环境数量 $k$	Spurious-Motif=3；其他 = 10
环境条件生成器 $EG$	MLP（输入为 $[h_{en}; e]$ 拼接向量）
互信息最大化方法	InfoNCE

2. 评价指标

预测性能：Spurious-Motif/MNIST-75sp 用准确率（ACC）；OGB-Mol 系列用 AUC；
理据提取精度：Precision@5（Spurious-Motif 数据集，因含真实理据）—— 衡量 Top-5 提取理据与真实理据的匹配度；
实验重复：5 次随机种子训练，报告测试集的均值 ± 标准差（取验证集性能最优 epoch 的结果）；
硬件环境：单张 A100 GPU。

4.5 实验内容、结果与结论

1. RQ1：C2R 的 OOD 泛化性能验证（核心性能对比）

实验内容

在所有合成 / 真实数据集上，对比 C2R 与传统 GNN、现有合理化方法的预测性能（ACC/AUC），并在 Spurious-Motif 上验证理据提取精度（Precision@5）。

实验结果

预测性能：C2R 在所有数据集上的性能均显著优于传统 GNN 和现有合理化方法。例如：
- Spurious-Motif（bias=0.9）：C2R 的 ACC 高于 DIR、DisC 等方法 5%-10%；
- MolHIV（OGB）：C2R 的 AUC 达到 0.79+，高于 GIN（0.75 左右）和 DARE（0.78 左右）。
理据提取精度：如图 3 所示，无论 Spurious-Motif 的 bias 为 0.5、0.7 还是 0.9，C2R 的 Precision@5 均高于所有基线方法，且在高 bias（虚假关联强）场景下优势更明显。

结论

传统 GNN 因依赖训练数据的统计关联，在 OOD 数据上性能较差，验证了 OOD 泛化研究的必要性；
现有合理化方法因理据学习信号不足，性能不及 C2R；
C2R 通过分类与合理化的协同训练，既提升了 OOD 预测性能，又保证了理据提取的准确性。

2. RQ2：消融实验与超参数敏感性分析

1）消融实验

实验内容

在 OGB 数据集上，对比 C2R 与 3 个消融变体的 AUC 性能，验证核心组件的必要性。

实验结果（图 4）

性能排序：C2R > C2R w/o cycle > C2R w/o cou > C2R w/o dis；
关键观察：
- C2R w/o dis 性能最差：说明知识蒸馏是连接两模块的核心，缺少则无法传递鲁棒表示，理据探索空间过大；
- C2R w/o cou 性能显著下降：说明反事实样本对丰富训练分布、提升泛化能力至关重要；
- C2R w/o cycle 性能略降：说明循环一致性约束能保证反事实样本的有效性，但核心框架（协同训练）仍起主导作用。

结论

分类模块的循环一致性约束、反事实样本，以及跨模块的知识蒸馏，均为 C2R 的关键组件，缺一不可。

2）超参数敏感性分析

实验内容 1：环境数量 k 的影响

实验设置：在 Spurious-Motif（bias=0.9）和 MolSIDER 上，测试 k=3,5,10,20,30 时的性能。
实验结果（图 5）：
- Spurious-Motif：最优 k=3（与真实环境数 | B|=3 一致）；
- MolSIDER：最优 k=10；
- k≥20 时性能下降：过多环境会导致分布碎片化，反事实样本生成无效。
结论：环境数量需适配数据集特性，并非越多越好，需与数据的真实环境复杂度匹配。

实验内容 2：知识蒸馏对齐方法的影响

实验设置：对比 3 种对齐方法 —— 互信息（MI）最大化（C2R）、KL 散度最小化（C2R-KL）、MSE 最小化（C2R-MSE）。
实验结果（图 4）：C2R（MI 最大化）在所有 OGB 数据集上的 AUC 均高于 C2R-KL 和 C2R-MSE。
结论：互信息最大化能更有效地对齐鲁棒表示与理据表示，传递泛化能力。

3. RQ3：协同训练策略有效性验证

实验内容

在 MolSIDER 数据集上，记录 C2R 的分类模块、合理化模块，以及单独训练的 “纯分类模块”“纯合理化模块” 的 AUC 随训练 epoch 的变化（图 6）。

实验结果

训练全程：C2R 的分类模块和合理化模块的 AUC 均高于单独训练的模块；
初始阶段：分类模块 AUC 高于合理化模块（因合理化模块初期理据提取不充分）；
后期阶段：两者 AUC 差距缩小（协同训练使理据提取精度提升，合理化模块性能追赶）。

结论

分类与合理化模块的协同训练策略有效，能实现双向赋能，提升整体性能。

4. RQ4：C2R 框架的扩展性验证

实验内容

将 C2R 的合理化模块替换为现有主流合理化方法（DIR、DisC、GREA、GSAT、DARE），形成 “方法 + C2R” 混合框架，在 OGB 数据集上对比原始方法与混合框架的性能。

实验结果（表 3）

所有 “方法 + C2R” 混合框架的性能均高于原始方法，提升幅度在 0.22%-2.79% 之间；
示例：DisC+C2R 在 MolHIV 上的 AUC 从 0.7731 提升至 0.7959（+2.28%），GSAT+C2R 在 MolBBBP 上的 AUC 从 0.6437 提升至 0.6683（+2.46%）。

结论

C2R 框架具有良好的扩展性，可作为现有合理化方法的增强模块，提升其 OOD 泛化能力。

5. RQ5：理据提取的可解释性验证（案例研究）

实验内容

在 Spurious-Motif（bias=0.9）上训练 C2R（GIN 为骨干），对测试集中的 Cycle-Wheel、House-Tree、Crane-Ladder 三类图，可视化提取的理据子图（图 7）。

实验结果

可视化显示：C2R 提取的理据子图（深蓝色节点 + 红色边）精准对应真实的 motif 子图（Cycle、House、Crane）；
非理据子图（base 子图，如 Wheel、Tree、Ladder）被成功过滤，未参与预测决策。

结论

C2R 能准确提取与任务相关的核心理据子图，为预测结果提供可解释性，验证了合理化模块的有效性。

6. 实验整体结论汇总

C2R 在合成与真实数据集上均实现了最优的 OOD 泛化性能，解决了传统 GNN 和现有合理化方法的核心局限；
分类模块的反事实样本生成、循环一致性约束，以及跨模块的知识蒸馏，是 C2R 性能优越的关键；
协同训练策略实现了分类与合理化模块的双向赋能，框架扩展性强；
C2R 能精准提取核心理据子图，兼具泛化性与可解释性。

posted @ 2025-12-15 16:18 Blairs 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

xxai

C2R | Cooperative Classification and Rationalization for Graph Generalization【用于图泛化的协同分类与合理化】

论文信息

1 摘要

2 研究动机&&研究问题

2.1 研究动机

3 协同分类与合理化框架

3.1 C2R 架构（Architecture of C2R）

3.2 分类模块（The Classification Module）

3.2.1 图编码器（Graph Encoder）

3.2.2 环境条件生成器（Environment-conditional Generator）

3.2.3 预测器（Predictor）

3.3 合理化模块（The Rationalization Module）

3.3.1 分离器（Separator in Rationalization）

3.3.2 预测器（Predictor in Rationalization）

3.3.3 知识蒸馏（Knowledge Distillation）

3.3.4 环境归纳器（Environment Inductor）

3.4 训练与推理（Training and Inference）

3.4.1 训练流程

3.4.2 推理流程

4 实验部分

4.1 实验核心目标

4.2 数据集（Datasets）

4.3 对比方法（Baselines）

4.4 实验设置

4.5 实验内容、结果与结论

公告