Fork me on GitHub

CIDEr公式:多模态评价指标


CIDEr 公式

CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。

📌 核心原理

CIDEr 衡量 候选描述与多条参考描述 之间的相似度:

  1. 将句子拆分为 n-gram(n=1 到 4)。
  2. 对每个 n-gram 计算 TF-IDF 权重(常见的短语权重低,不常见短语权重高)。
  3. 对候选句子与每个参考句子分别计算加权 cosine 相似度。
  4. 取所有参考句子的平均作为最终得分。

公式大致:

\(CIDEr = \frac{1}{M} \sum_{m=1}^M \text{cosine}\big(TFIDF(cand), TFIDF(ref_m)\big)\)

其中:

  • (M) 是参考句子数量
  • (TFIDF(\cdot)) 是基于 n-gram 的向量化表示

与 BLEU 等指标不同,CIDEr 强调一种 人类共识一致性(Consensus):越符合人类自然描述习惯的句子得分越高。


一句话直觉版

CIDEr 衡量的是:模型生成的句子,和“人类共识描述”在关键信息上的相似度,而且更重视“有区分度的词”。

也就是说:

  • 不是“像不像某一句参考答案”
  • 而是:是否抓住了大家都会提到的核心语义点

一、CIDEr 用在什么场景?

  • 图像描述(Image Captioning)
  • 视频描述
  • VLM 输出评估
  • 多参考文本一致性评估

它是 为 COCO 数据集专门设计 的(名字里 CI = Consensus-based Image Description)。


二、CIDEr 的整体公式(先看全貌)

对某个样本(一张图):

\( \mathrm{CIDEr}(c)=\frac{1}{N}\sum_{j=1}^{N}\sum_{n=1}^{4}\mathrm{CIDEr}_n(c, s_j) \)

其中:

  • ( c ):模型生成的 caption
  • ( s_j ):第 (j) 个参考 caption(人工)
  • ( N ):参考 caption 数量(COCO 中通常是 5)
  • ( n ):n-gram(1 到 4)

👉 核心思想

对每个参考描述、每种 n-gram,算一次“加权相似度”,再平均


三、最核心的一步:TF-IDF 表示

1️⃣ n-gram 向量表示

对某个 n(比如 2-gram):

\( \mathbf{g}_n(c) = \bigl( \mathrm{tfidf}_k(c) \bigr)_k \)

其中每一维对应一个 n-gram (k)。


2️⃣ TF-IDF 定义(重点)

\(\mathrm{tfidf}_k(c)=\underbrace{\frac{h_k(c)}{\sum_{k'} h_{k'}(c)}}*{\text{TF}} \cdot \underbrace{\log\frac{|I|}{|{i : k \in s_i}|}}*{\text{IDF}}\)

  • ( h_k(c) ):n-gram (k) 在句子 (c) 中出现次数
  • ( |I| ):数据集中图片总数
  • 分母:包含该 n-gram 的图片数量

📌 关键含义

  • 常见废话(如 “a man”) → IDF 低 → 权重小
  • 关键信息(如 “snowboard”“microwave”) → IDF 高 → 权重大

四、CIDEr_n 的核心公式(余弦相似度)

\( \mathrm{CIDEr}_n(c, s_j)=\frac{\mathbf{g}_n(c) \cdot \mathbf{g}_n(s_j)}{|\mathbf{g}_n(c)| , |\mathbf{g}_n(s_j)|} \)

也就是:

生成句子 vs 参考句子,在 TF-IDF n-gram 空间里的 cosine similarity


五、为什么 CIDEr 特别“适合人类直觉”?

1️⃣ 多参考 → 共识建模

  • BLEU:一句一句对
  • CIDEr:对“大家都说了什么”敏感

如果 5 个参考都提到 “dog”:

  • 你没提 → 扣分
  • 你提了 → 高分

2️⃣ IDF 抑制套话

BLEU CIDEr
“a man is standing” 容易高分 权重很低
“a man surfing on a wave” 稍难 高权重

👉 CIDEr 奖励信息密度,不奖励废话长度


3️⃣ n-gram = 局部结构感知

  • unigram → 物体
  • bigram → 属性 / 动作
  • trigram / 4-gram → 关系、场景

六、和 BLEU / ROUGE 的本质区别(重点)

指标 关注点 最大问题
BLEU 精确匹配 同义词 / 改写直接判错
ROUGE 覆盖率 偏向召回
CIDEr 共识 + 信息量 计算复杂,但更“像人”

所以:

Image Caption 论文默认报告 CIDEr,是有原因的


七、在 VLM / 强化学习训练中的地位

你经常会看到:

\( \mathcal{L}*{\text{RL}} = - \mathbb{E}*{c \sim p_\theta} [\mathrm{CIDEr}(c)] \)

也就是:

  • 用 CIDEr 当 reward
  • 直接做 Self-Critical Sequence Training(SCST)

📌 原因很简单:

CIDEr 是可对齐人类偏好的自动指标


八、一句“总结”

CIDEr = 在 TF-IDF 加权的 n-gram 空间里,对生成描述与人类共识的余弦相似度

它解决了三件事:

  1. 多答案一致性问题
  2. 废话泛滥问题
  3. 结构信息缺失问题

posted @ 2026-02-03 10:14  stardsd  阅读(146)  评论(0)    收藏  举报