rain-youbih

导航

 

0.论文信息总览

1.论文核心问题

(1)引入:

近年来,生成式人工智能(Artificial Intelligence for Generative Content, AIGC)的融入,已成为生成合成脑电图(EEG)数据的一种复杂且高效的方法。AIGC 技术能够借助先进的生成模型(如生成对抗网络(Generative Adversarial Networks, GANs)、变分自编码器(Variational Autoencoders, VAEs)以及生成式预训练Transformer(Generative Pre-trained Transformers, GPTs)),捕捉脑电图信号中固有的细微特征,并生成与真实数据高度相似的合成脑电图样本。

然而,需要重点指出的是,部分利用 AIGC 进行脑电图数据增强的研究,对确保增强后数据的平稳性和被试不变性关注较少(motivation)。这一疏漏至关重要,因为脑电图的非平稳特性,加之被试特异性差异,对提升脑电图分析方法的性能构成了重大挑战。

为应对这一挑战,更具意义的方法是采用定制化的 AIGC 技术,从非平稳的脑电图信号中生成时间不变(在不同时间片段中保持一致性)和被试不变(生成的 EEG 数据中,情感相关核心特征具有跨被试的通用性,不受不同被试个体差异的影响)的数据。通过这种方式,有可能减轻被试特异性差异和时间波动带来的影响,进而助力开发出泛化能力优良的深度学习模型,该模型能够有效捕捉脑电图信号的关键特征。

2.论文主要贡献(工作内容+创新点)

  • 本研究提出了一种全新的生成式预训练 Transformer 模型——EEGPT,专门用于处理 EEG(脑电)数据。通过引入多任务学习方法,EEGPT 能够从原始 EEG 信号中同时生成时间不变特征与时间特异特征,从而增强 EEG 数据的表示能力。

  • 我们在 EEGPT 的训练过程中采用了 CLTISI 预训练策略。该策略使不同受试者的 EEG 数据在同一个高维空间中对齐,从而最大化受试者之间的相似性。

  • 为了验证所提出方法的有效性,我们选用了情绪识别研究中广泛使用的三个开源 EEG 数据集:DEAP、SEED 和 SEED-IV。

3.方法细节

TISIG整体框架预览

图 1 展示了 TISIG 的整体工作流程

                (训练流程)
         ┌────────────────────────┐
         │ Model training based on CLTISI │
         │   - 3D Data Organization       │
Raw EEG →│   - Sample pairing             │→ 训练完成 → 获得 EEGPT 生成器
         │   - Contrastive loss           │
         └────────────────────────┘

                (分类流程)
                 调用已经训练好的 EEGPT
                            ↓
          ┌─────────────────────────────────┐
          │      Classification Procedure    │
          │  1) Raw Data + Generated Data   │
          │  2) STFT + DE 特征提取          │
          │  3) CNN/Conformer/EEGPTclf      │
          └─────────────────────────────────┘
                            ↓
                     Emotion Recognition

TISIG=整个大流程(模型训练+数据生成+分类使用)

3.1数据预处理(Model training based on CLTISI部分)

(1)ICA去噪
ICA(Independent Component Analysis)独立成分分析,是一种把“混在一起的观测信号”分解成多个“互相独立的源信号”的方法,并且可以分离伪迹,伪迹是EEG 中那些不是大脑活动、但被电极错误记录进来的干扰信号。而Infomax算法是ICA实现方法之一。
论文:Fieldtrip工具实现Infomax算法去去除EEG信号中的潜在伪迹,由于实验使用的三个EEG数据集均经过规范采集,伪迹较少,所以仅选择性地移除 1–2 个最明显的伪迹独立成分(ICs),以最大化保留原始脑电信息。

(2)滤波(Filtering)
目的:去掉EEG中无意义的低频漂移、工频干扰、高频噪声。

论文:对来自三个开源数据集的EEG信号施加0.05-47Hz的带通滤波器

(3)3D Data Organization(h × w × T 的拓扑结构)

论文:为了处理不同数据集之间 EEG 通道数量不一致的问题,将原始数据重组为统一的3D结构。

  • 具体做法:首先将每个EEG trial(一次实验刺激或任务对应的一段EEG记录)切分为长度为 \(T_s\)的不重叠片段,每个片段继承其对应原始试次的标签。原始片段\(X_i' \in \mathbb{R}^{M \times rT}\)会根据国际10-20电极布局映射到一个固定大小的二维网格上,未出现的电极位置用零填充,从而构成尺寸为\(h \times w \times rT\)的3D数组。为增强信号一致性,对每个通道在同一会话(受试者在同一次进入实验、佩戴电极、开始做任务到结束,这整段连续的 EEG 记录过程。)内执行Z-score标准化,使其具有零均值和单位方差。

什么是Z-score标准化?

Z-score 标准化 = (数据 − 均值) ÷ 标准差,让不同通道 / 不同实验的数据处于同一尺度,减少个体差异,提高模型稳定性。

3.2EEGPT模型结构(基于多任务的数据分解(理论))

EEGPT的基本学习策略:对每一个 EEG 通道进行迭代式数据生成,在生成某个通道时,利用所有其他通道的信息,但排除当前正在生成的目标通道。
定义:设第 i 个片段中第 j 个通道的 EEG 数据为 $$ Y_j^i \in \mathbb{R}^{1 \times rT} $$,而所有其他通道(除要生成的通道外)的集合数据表示为 $$ X_j^i \in \mathbb{R}^{h \times w \times rT} $$。

公式分析:$$ w_j^i = \text{EEGPT}(X_j^i), \tag{1} $$
输入\(X_j^i\),让EEGPT模型去预测/生成第\(j\)通道

定义:\(X_j^{i\prime} \in \mathbb{R}^{(M-1) \times rT}\)是将\(X_j^i\)去掉占位0向量后,展平为矩阵的版本(形状为\((M-1) \times rT\))用于与\(w_i^j\)相乘得到重建的\(Y_j^i\)(第\(j\)通道估计值),因此引出公式:

\[Y_j^i = X_j^{i\prime} \times w_j^i, \tag{2} \]

\(Y_j^i\)是对第\(j\)通道的重建值

为进一步分解\(w_j^i\),将其表示为两个矩阵成分的组合:

\[w_j^i = u_j^i + \theta_j^T v_j^i, \tag{3} \]

其中\(u_j^i\)是time-specific分量,随段\(i\)变化,反映该段独有的即时/短时相关性;\(\theta_j^T v_j^i\)对应脑电中的基础节律,即长期稳定的模式。

因此,EEGPT 模型输出两个不同的成分: 时间不变成分\(\theta_j^T v_j^i \in \mathbb{R}^{(M-1) \times 1}\) .时间特异性成分\(u_j^i \in \mathbb{R}^{(M-1) \times 1}\)​。

3.3EEGPT模型结构(Generate time-specific and time-invariant signal)

Architecture of EEGPT model---TISIG内部EEGPT的具体实现
image

该部分覆盖了论文中的C-E的内容,基于以上图片进行分析:

EEGPT模型结构集成了一个CNN模块、Transformer模块

(1)CNN模块
由于Figure2中展示的3D Convolution并不完整,于是用文字表述CNN模块中的执行过程:
时间卷积(Temporal Conv)\(\Rightarrow\)空间卷积(Spatial Conv)\(\Rightarrow\) 批归一化(Batch Normalization)+激活函数(ELU)\(\Rightarrow\) 3D最大池化(3D Max Pooling)\(\Rightarrow\) Dropout \(\Rightarrow\) CNN输出:生成\(X_i^{\text{CNN}}\)

具体参数设置:
时间卷积是整个EEGPT模型的第一个3D卷积层,作用在经过预处理的EEG信号:
image

空间卷积是接着时间卷积之后的第二个3D卷积层,只在空间维上滑动,用来提取EEG的空间特征:
image

第二个三维卷积层(空间卷积层)的输出接着经过批归一化(Batch Normalization)和ELU 激活函数的组合处理。随后,在时间维上使用三维最大池化层对输出进行下采样。

其中:\(ELU(x) = \begin{cases} x, & x > 0 \\ \alpha(e^x - 1), & x \leq 0 \end{cases}\)

为什么选择ELU而不是ReLU? EEG 数据是以 0 为中心的振荡信号(正负电位均有意义),ReLU 会截断负值;ELU 能保留负域特征。

然后进行3D最大池化以及Dropout
image

(2)Transformer模块

\(X_i^{\text{CNN}}\)进入transformer之前要进行Flatten和Reshape,并划分为\(M = h \times w\)个token(即每个电极通道对应一个token):

\[X_i^{\text{CNN}} \to X_i^{\text{embed}} \in \mathbb{R}^{M \times k} \]

进入Transformer模块之后,要进行时间位置嵌入和空间位置嵌入:

时间位置嵌入(Temporal Position Embedding,TEPE)用于让模型识别时间序列中的顺序关系,这里使用的是Transformer原版使用的正弦-余弦位置编码:

\[TEPE(pos, 2m) = \sin\left( \frac{pos}{10000^{2m/M}} \right) \]

\[TEPE(pos, 2m+1) = \cos\left( \frac{pos}{10000^{2m/M}} \right) \]

空间位置嵌入(Spatial Position Embedding,SPPE)使用 EEG 电极在 10–20 系统中的三维坐标,通过计算参考电极(Cz)与其他电极的余弦距离,表示其空间关系。

\[SPPE(m, Cz) = \frac{P_{Cz} \cdot P_m}{\|P_{Cz}\| \|P_m\|} \]

其中:\(P_m\):第 m 个电极的三维坐标,\(P_{Cz}\):参考电极 Cz 的坐标。

接着进行嵌入融合(Embedding Combination),两个位置嵌入加到原始特征上:$$Z(X_i^{\text{CNN}}) = X_i^{\text{CNN}} + X_{te} + X_{sp}$$

其中:\(X_{te}\):时间位置嵌入,\(X_{sp}\):空间位置嵌入;该步骤相当于在 token 的特征向量上叠加时空信息。

到这里完成了模块中的Token/Embedding部分,然后将\(Z(X_i^{\text{CNN}})\)输入Transformer Block(自注意力机制),EEGPT 中共使用两个 Transformer Block,每个 Block 的处理流程如下:

  • 输入 ( \(Z(X_i^{\text{CNN}})\) )
  • Multi-Head Self-Attention(捕获跨通道全局依赖)
  • Add + LayerNorm(稳定训练)
  • Feed-Forward Network(两层全连接)
  • Add + LayerNorm(再次标准化)

输出为:\(X_i^{T_1}, X_i^{T_2} \in \mathbb{R}^{M \times k}\)
其中,\(X_i^{T_1}\)是第一个Transformer Block学习的输出结果,\(X_i^{T_2}\)是第二个Transformer Block学习的输出结果

经过 Transformer 的两个 Block 后,将所有特征图拼接后展平(Flatten),
其结果\(X^B\)作为模型主干网络(backbone)的输出。

(3)Parameter Representation模块
得到的\(X^B\)首先输入一个全连接层(Fully Connected Layer),然后论文中设计了三个独立的全链接投影头,分来生成不同的参数矩阵:
image

3.4 CLTISI: Contrastive Learning Method for Generating Time-Invariant and Subject-Invariant Components

完成EEGPT之后,设置EEGPT模型训练阶段的策略,前人策略:CLISA方法,该论文的方法,在CLISA的基础上扩展出CLTISI模型训练策略。

这样改动的意义:在于解决跨受试者差异,还重点应对EEG信号在时间维度上的变化性,这种变化会影响深度学习方法在分类任务的性能。CLTISI模型训练流程包含三个关键组成部分:样本配对(sample pairing)、数据生成器(data generator)、对比损失(contrastive loss)

什么是样本配对?
在不同被试之间构建正样本对(positive pairs)和负样本对(negative pairs),每个 mini-batch 包含来自两个被试(subjects)的 EEG 试次(trials)具有相同刺激标签的 EEG 信号组成正样本对,而具有不同标签的组成负样本对。

具体步骤:在每次训练时,模型从两个不同被试中选取 EEG 数据:

\[\{X_A^1, X_A^2, \dots, X_A^S\} 和 \{X_B^1, X_B^2, \dots, X_B^S\} \]

其中,A,B:代表两个被试(subjects);S:每个被试的 trial 数;每个\(X_i^A\)对应一个情绪刺激(emotion label)

样本类型 构建方式 含义
正样本对(positive pair) (\(X_A^i\), \(X_B^i\)):两位被试对同一个刺激(same label) 表示相同情绪状态,应该在高维空间中相似
负样本对(negative pair) (\(X_A^i\), \(X_B^j\)), \(i \neq j\) :不同刺激(different labels) 表示不同情绪状态,应该在特征空间中远离

因此,一个mini-batch中正样本对数量为S,而负样本对数量为2(S-1),在每个对比学习epoch中,所有可能的受试者组合都会枚举一遍,保证模型在训练阶段暴露于丰富的跨受试者组合。

什么是数据生成器?

数据生成器是将已经配对的EEG样本对输入EEGPT模型用来提取参数\(u, \theta, v\),最后输出\(X_{TI}\)(时间不变信号)和\(X_{TS}\)(时间特异信号),用来作为对比学习的输入

具体步骤:首先每个EEG trial \(X_i^j\)输入EEGPT模型(这一步骤在figure 1中可以看出):

\[\text{EEGPT}(X_j^i) \to \{u_j^i, \theta_j^T, v_j^i\} \]

线性组合的时间不变成分与原EEG信号逐点乘,生成时间不变信号:$$X_{TI}^i = X_j^i \otimes (\theta_j^T v_j^i)$$

原信号与时间特异成分结合,得到动态变化的EEG模式,反映EEG信号在特定情绪、时间段下的瞬时波动:

\[X_{TS}^i = X_j^i \otimes u_j^i \]

最终生成输出信号对:

\[\left(X_{TI,A}^i, X_{TI,B}^i\right)和 \left(X_{TS,A}^i, X_{TS,B}^i\right) \]

前者用于优化“时间不变特征”的一致性,后者用于优化“时间特异特征”的区分性

什么是对比学习?
用损失函数去优化EEGPT模型的参数,两个关键的损失函数:
(1)时间特异性匹配损失(Time-Specific Contrastive Loss)

\[L_{\text{pr}}^A = \sum_{i=1}^S \left( -\log \left[ \frac{\exp\left( \text{sim}(Z_i^A, Z_i^B)/\tau \right)}{\sum_{j=1}^S \delta_{j \neq i} \exp\left( \text{sim}(Z_i^A, Z_j^A)/\tau \right) + \sum_{j=1}^S \exp\left( \text{sim}(Z_i^A, Z_j^B)/\tau \right)} \right] \right) \tag{14} \]

\[L_{\text{pr}}^B = \sum_{i=1}^S \left( -\log \left[ \frac{\exp\left( \text{sim}(Z_i^B, Z_i^A)/\tau \right)}{\sum_{j=1}^S \delta_{j \neq i} \exp\left( \text{sim}(Z_i^B, Z_j^B)/\tau \right) + \sum_{j=1}^S \exp\left( \text{sim}(Z_i^B, Z_j^A)/\tau \right)} \right] \right) \tag{15} \]

\[L_{\text{pr}} = L_{\text{pr}}^A + L_{\text{pr}}^B, \tag{13} \]

该损失约束模型在同一刺激的EEG样本应当在时间特异性空间中更接近,为对比损失(representation loss)

(2)时间不变匹配损失(Time-Invariant Fitting Loss)

\[L_{\text{fit}} = \sum_{i=1}^S \sum_{j=1}^M \left( \frac{1}{2} \| y_j^i - X_j^i w_j^i \|_2^2 \right). \tag{12} \]

拟合损失,使模型学会重建时间不变的特征,即不同时间片段中应保持稳定的通道结构

CLTISI的总损失为:

\[L_{\text{total}} = L_{\text{fit}} + \alpha L_{\text{pr}}, \tag{11} \]

实验部分的内容留到下一节

posted on 2025-11-13 09:20  SBR赛后结算顶级FMVP  阅读(16)  评论(0)    收藏  举报