0.论文信息总览

1.论文核心问题

（1）引入：

近年来，生成式人工智能（Artificial Intelligence for Generative Content, AIGC）的融入，已成为生成合成脑电图（EEG）数据的一种复杂且高效的方法。AIGC 技术能够借助先进的生成模型（如生成对抗网络（Generative Adversarial Networks, GANs）、变分自编码器（Variational Autoencoders, VAEs）以及生成式预训练Transformer（Generative Pre-trained Transformers, GPTs）），捕捉脑电图信号中固有的细微特征，并生成与真实数据高度相似的合成脑电图样本。

然而，需要重点指出的是，部分利用 AIGC 进行脑电图数据增强的研究，对确保增强后数据的平稳性和被试不变性关注较少（motivation）。这一疏漏至关重要，因为脑电图的非平稳特性，加之被试特异性差异，对提升脑电图分析方法的性能构成了重大挑战。

为应对这一挑战，更具意义的方法是采用定制化的 AIGC 技术，从非平稳的脑电图信号中生成时间不变（在不同时间片段中保持一致性）和被试不变（生成的 EEG 数据中，情感相关核心特征具有跨被试的通用性，不受不同被试个体差异的影响）的数据。通过这种方式，有可能减轻被试特异性差异和时间波动带来的影响，进而助力开发出泛化能力优良的深度学习模型，该模型能够有效捕捉脑电图信号的关键特征。

2.论文主要贡献（工作内容+创新点）

本研究提出了一种全新的生成式预训练 Transformer 模型——EEGPT，专门用于处理 EEG（脑电）数据。通过引入多任务学习方法，EEGPT 能够从原始 EEG 信号中同时生成时间不变特征与时间特异特征，从而增强 EEG 数据的表示能力。
我们在 EEGPT 的训练过程中采用了 CLTISI 预训练策略。该策略使不同受试者的 EEG 数据在同一个高维空间中对齐，从而最大化受试者之间的相似性。
为了验证所提出方法的有效性，我们选用了情绪识别研究中广泛使用的三个开源 EEG 数据集：DEAP、SEED 和 SEED-IV。

3.方法细节

TISIG整体框架预览

图 1 展示了 TISIG 的整体工作流程

                （训练流程）
         ┌────────────────────────┐
         │ Model training based on CLTISI │
         │   - 3D Data Organization       │
Raw EEG →│   - Sample pairing             │→ 训练完成 → 获得 EEGPT 生成器
         │   - Contrastive loss           │
         └────────────────────────┘

                （分类流程）
                 调用已经训练好的 EEGPT
                            ↓
          ┌─────────────────────────────────┐
          │      Classification Procedure    │
          │  1) Raw Data + Generated Data   │
          │  2) STFT + DE 特征提取          │
          │  3) CNN/Conformer/EEGPTclf      │
          └─────────────────────────────────┘
                            ↓
                     Emotion Recognition

TISIG=整个大流程（模型训练+数据生成+分类使用）

3.1数据预处理（Model training based on CLTISI部分）

（1）ICA去噪
ICA（Independent Component Analysis）独立成分分析，是一种把“混在一起的观测信号”分解成多个“互相独立的源信号”的方法，并且可以分离伪迹，伪迹是EEG 中那些不是大脑活动、但被电极错误记录进来的干扰信号。而Infomax算法是ICA实现方法之一。
论文：Fieldtrip工具实现Infomax算法去去除EEG信号中的潜在伪迹，由于实验使用的三个EEG数据集均经过规范采集，伪迹较少，所以仅选择性地移除 1–2 个最明显的伪迹独立成分（ICs），以最大化保留原始脑电信息。

（2）滤波（Filtering）
目的：去掉EEG中无意义的低频漂移、工频干扰、高频噪声。

论文：对来自三个开源数据集的EEG信号施加0.05-47Hz的带通滤波器

（3）3D Data Organization(h × w × T 的拓扑结构)

论文：为了处理不同数据集之间 EEG 通道数量不一致的问题，将原始数据重组为统一的3D结构。

具体做法：首先将每个EEG trial（一次实验刺激或任务对应的一段EEG记录）切分为长度为 $T_s$的不重叠片段，每个片段继承其对应原始试次的标签。原始片段$X_i' \in \mathbb{R}^{M \times rT}$会根据国际10-20电极布局映射到一个固定大小的二维网格上，未出现的电极位置用零填充，从而构成尺寸为$h \times w \times rT$的3D数组。为增强信号一致性，对每个通道在同一会话（受试者在同一次进入实验、佩戴电极、开始做任务到结束，这整段连续的 EEG 记录过程。）内执行Z-score标准化，使其具有零均值和单位方差。

什么是Z-score标准化？

Z-score 标准化 = (数据 − 均值) ÷ 标准差，让不同通道 / 不同实验的数据处于同一尺度，减少个体差异，提高模型稳定性。

3.2EEGPT模型结构（基于多任务的数据分解（理论））

EEGPT的基本学习策略：对每一个 EEG 通道进行迭代式数据生成，在生成某个通道时，利用所有其他通道的信息，但排除当前正在生成的目标通道。
定义：设第 i 个片段中第 j 个通道的 EEG 数据为 $$ Y_j^i \in \mathbb{R}^{1 \times rT} $$，而所有其他通道（除要生成的通道外）的集合数据表示为 $$ X_j^i \in \mathbb{R}^{h \times w \times rT} $$。

公式分析：$$ w_j^i = \text{EEGPT}(X_j^i), \tag{1} $$
输入$X_j^i$，让EEGPT模型去预测/生成第$j$通道

定义：$X_j^{i\prime} \in \mathbb{R}^{(M-1) \times rT}$是将$X_j^i$去掉占位0向量后，展平为矩阵的版本（形状为$(M-1) \times rT$）用于与$w_i^j$相乘得到重建的$Y_j^i$(第$j$通道估计值)，因此引出公式：

\[Y_j^i = X_j^{i\prime} \times w_j^i, \tag{2} \]

$Y_j^i$是对第$j$通道的重建值

为进一步分解$w_j^i$，将其表示为两个矩阵成分的组合：

\[w_j^i = u_j^i + \theta_j^T v_j^i, \tag{3} \]

其中$u_j^i$是time-specific分量，随段$i$变化，反映该段独有的即时/短时相关性；$\theta_j^T v_j^i$对应脑电中的基础节律，即长期稳定的模式。

因此，EEGPT 模型输出两个不同的成分：时间不变成分$\theta_j^T v_j^i \in \mathbb{R}^{(M-1) \times 1}$ .时间特异性成分$u_j^i \in \mathbb{R}^{(M-1) \times 1}$。

3.3EEGPT模型结构（Generate time-specific and time-invariant signal）

Architecture of EEGPT model---TISIG内部EEGPT的具体实现

该部分覆盖了论文中的C-E的内容，基于以上图片进行分析：

EEGPT模型结构集成了一个CNN模块、Transformer模块

（1）CNN模块
由于Figure2中展示的3D Convolution并不完整，于是用文字表述CNN模块中的执行过程：
时间卷积（Temporal Conv）$\Rightarrow$空间卷积（Spatial Conv）$\Rightarrow$ 批归一化（Batch Normalization）+激活函数（ELU）$\Rightarrow$ 3D最大池化（3D Max Pooling）$\Rightarrow$ Dropout $\Rightarrow$ CNN输出：生成$X_i^{\text{CNN}}$

具体参数设置：
时间卷积是整个EEGPT模型的第一个3D卷积层，作用在经过预处理的EEG信号：

空间卷积是接着时间卷积之后的第二个3D卷积层，只在空间维上滑动,用来提取EEG的空间特征：

第二个三维卷积层（空间卷积层）的输出接着经过批归一化（Batch Normalization）和ELU 激活函数的组合处理。随后，在时间维上使用三维最大池化层对输出进行下采样。

其中：$ELU(x) = \begin{cases} x, & x > 0 \\ \alpha(e^x - 1), & x \leq 0 \end{cases}$

为什么选择ELU而不是ReLU？ EEG 数据是以 0 为中心的振荡信号（正负电位均有意义），ReLU 会截断负值；ELU 能保留负域特征。

然后进行3D最大池化以及Dropout

（2）Transformer模块

$X_i^{\text{CNN}}$进入transformer之前要进行Flatten和Reshape，并划分为$M = h \times w$个token（即每个电极通道对应一个token）：

\[X_i^{\text{CNN}} \to X_i^{\text{embed}} \in \mathbb{R}^{M \times k} \]

进入Transformer模块之后，要进行时间位置嵌入和空间位置嵌入：

时间位置嵌入（Temporal Position Embedding,TEPE）用于让模型识别时间序列中的顺序关系，这里使用的是Transformer原版使用的正弦-余弦位置编码：

\[TEPE(pos, 2m) = \sin\left( \frac{pos}{10000^{2m/M}} \right) \]

\[TEPE(pos, 2m+1) = \cos\left( \frac{pos}{10000^{2m/M}} \right) \]

空间位置嵌入（Spatial Position Embedding，SPPE）使用 EEG 电极在 10–20 系统中的三维坐标，通过计算参考电极（Cz）与其他电极的余弦距离，表示其空间关系。

\[SPPE(m, Cz) = \frac{P_{Cz} \cdot P_m}{\|P_{Cz}\| \|P_m\|} \]

其中：$P_m$：第 m 个电极的三维坐标,$P_{Cz}$：参考电极 Cz 的坐标。

接着进行嵌入融合（Embedding Combination），两个位置嵌入加到原始特征上：$$Z(X_i^{\text{CNN}}) = X_i^{\text{CNN}} + X_{te} + X_{sp}$$

其中：$X_{te}$：时间位置嵌入，$X_{sp}$：空间位置嵌入；该步骤相当于在 token 的特征向量上叠加时空信息。

到这里完成了模块中的Token/Embedding部分，然后将$Z(X_i^{\text{CNN}})$输入Transformer Block（自注意力机制），EEGPT 中共使用两个 Transformer Block，每个 Block 的处理流程如下：

输入 ( $Z(X_i^{\text{CNN}})$ )
↓
Multi-Head Self-Attention（捕获跨通道全局依赖）
↓
Add + LayerNorm（稳定训练）
↓
Feed-Forward Network（两层全连接）
↓
Add + LayerNorm（再次标准化）

输出为：$X_i^{T_1}, X_i^{T_2} \in \mathbb{R}^{M \times k}$
其中，$X_i^{T_1}$是第一个Transformer Block学习的输出结果，$X_i^{T_2}$是第二个Transformer Block学习的输出结果

经过 Transformer 的两个 Block 后，将所有特征图拼接后展平（Flatten），
其结果$X^B$作为模型主干网络（backbone）的输出。

（3）Parameter Representation模块
得到的$X^B$首先输入一个全连接层（Fully Connected Layer），然后论文中设计了三个独立的全链接投影头，分来生成不同的参数矩阵：

3.4 CLTISI: Contrastive Learning Method for Generating Time-Invariant and Subject-Invariant Components

完成EEGPT之后，设置EEGPT模型训练阶段的策略，前人策略：CLISA方法，该论文的方法，在CLISA的基础上扩展出CLTISI模型训练策略。

这样改动的意义：在于解决跨受试者差异，还重点应对EEG信号在时间维度上的变化性，这种变化会影响深度学习方法在分类任务的性能。CLTISI模型训练流程包含三个关键组成部分：样本配对（sample pairing）、数据生成器（data generator）、对比损失（contrastive loss）

什么是样本配对？
在不同被试之间构建正样本对（positive pairs）和负样本对（negative pairs），每个 mini-batch 包含来自两个被试（subjects）的 EEG 试次（trials）具有相同刺激标签的 EEG 信号组成正样本对，而具有不同标签的组成负样本对。

具体步骤：在每次训练时，模型从两个不同被试中选取 EEG 数据：

\[\{X_A^1, X_A^2, \dots, X_A^S\} 和 \{X_B^1, X_B^2, \dots, X_B^S\} \]

其中，A,B：代表两个被试（subjects）；S：每个被试的 trial 数；每个$X_i^A$对应一个情绪刺激（emotion label）

样本类型	构建方式	含义
✅ 正样本对（positive pair）	($X_A^i$, $X_B^i$)：两位被试对同一个刺激（same label）	表示相同情绪状态，应该在高维空间中相似
❌ 负样本对（negative pair）	($X_A^i$, $X_B^j$), $i \neq j$ ：不同刺激（different labels）	表示不同情绪状态，应该在特征空间中远离

因此，一个mini-batch中正样本对数量为S，而负样本对数量为2（S-1），在每个对比学习epoch中，所有可能的受试者组合都会枚举一遍，保证模型在训练阶段暴露于丰富的跨受试者组合。

什么是数据生成器？

数据生成器是将已经配对的EEG样本对输入EEGPT模型用来提取参数$u, \theta, v$，最后输出$X_{TI}$(时间不变信号)和$X_{TS}$（时间特异信号），用来作为对比学习的输入

具体步骤：首先每个EEG trial $X_i^j$输入EEGPT模型（这一步骤在figure 1中可以看出）：

\[\text{EEGPT}(X_j^i) \to \{u_j^i, \theta_j^T, v_j^i\} \]

线性组合的时间不变成分与原EEG信号逐点乘，生成时间不变信号：$$X_{TI}^i = X_j^i \otimes (\theta_j^T v_j^i)$$

原信号与时间特异成分结合，得到动态变化的EEG模式，反映EEG信号在特定情绪、时间段下的瞬时波动：

\[X_{TS}^i = X_j^i \otimes u_j^i \]

最终生成输出信号对：

\[\left(X_{TI,A}^i, X_{TI,B}^i\right)和 \left(X_{TS,A}^i, X_{TS,B}^i\right) \]

前者用于优化“时间不变特征”的一致性,后者用于优化“时间特异特征”的区分性

什么是对比学习？
用损失函数去优化EEGPT模型的参数，两个关键的损失函数：
（1）时间特异性匹配损失（Time-Specific Contrastive Loss）

\[L_{\text{pr}}^A = \sum_{i=1}^S \left( -\log \left[ \frac{\exp\left( \text{sim}(Z_i^A, Z_i^B)/\tau \right)}{\sum_{j=1}^S \delta_{j \neq i} \exp\left( \text{sim}(Z_i^A, Z_j^A)/\tau \right) + \sum_{j=1}^S \exp\left( \text{sim}(Z_i^A, Z_j^B)/\tau \right)} \right] \right) \tag{14} \]

\[L_{\text{pr}}^B = \sum_{i=1}^S \left( -\log \left[ \frac{\exp\left( \text{sim}(Z_i^B, Z_i^A)/\tau \right)}{\sum_{j=1}^S \delta_{j \neq i} \exp\left( \text{sim}(Z_i^B, Z_j^B)/\tau \right) + \sum_{j=1}^S \exp\left( \text{sim}(Z_i^B, Z_j^A)/\tau \right)} \right] \right) \tag{15} \]

\[L_{\text{pr}} = L_{\text{pr}}^A + L_{\text{pr}}^B, \tag{13} \]

该损失约束模型在同一刺激的EEG样本应当在时间特异性空间中更接近，为对比损失（representation loss）

（2）时间不变匹配损失（Time-Invariant Fitting Loss）

\[L_{\text{fit}} = \sum_{i=1}^S \sum_{j=1}^M \left( \frac{1}{2} \| y_j^i - X_j^i w_j^i \|_2^2 \right). \tag{12} \]

拟合损失，使模型学会重建时间不变的特征，即不同时间片段中应保持稳定的通道结构

CLTISI的总损失为：

\[L_{\text{total}} = L_{\text{fit}} + \alpha L_{\text{pr}}, \tag{11} \]

实验部分的内容留到下一节

posted on 2025-11-13 09:20 SBR赛后结算顶级FMVP 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

样本类型	构建方式	含义
✅ 正样本对（positive pair）	(\(X_A^i\), \(X_B^i\))：两位被试对同一个刺激（same label）	表示相同情绪状态，应该在高维空间中相似
❌ 负样本对（negative pair）	(\(X_A^i\), \(X_B^j\)), \(i \neq j\) ：不同刺激（different labels）	表示不同情绪状态，应该在特征空间中远离

导航