CIDEr公式:多模态评价指标
CIDEr 公式
CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。
📌 核心原理
CIDEr 衡量 候选描述与多条参考描述 之间的相似度:
- 将句子拆分为 n-gram(n=1 到 4)。
- 对每个 n-gram 计算 TF-IDF 权重(常见的短语权重低,不常见短语权重高)。
- 对候选句子与每个参考句子分别计算加权 cosine 相似度。
- 取所有参考句子的平均作为最终得分。
公式大致:
\(CIDEr = \frac{1}{M} \sum_{m=1}^M \text{cosine}\big(TFIDF(cand), TFIDF(ref_m)\big)\)
其中:
- (M) 是参考句子数量
- (TFIDF(\cdot)) 是基于 n-gram 的向量化表示
与 BLEU 等指标不同,CIDEr 强调一种 人类共识一致性(Consensus):越符合人类自然描述习惯的句子得分越高。
一句话直觉版
CIDEr 衡量的是:模型生成的句子,和“人类共识描述”在关键信息上的相似度,而且更重视“有区分度的词”。
也就是说:
- 不是“像不像某一句参考答案”
- 而是:是否抓住了大家都会提到的核心语义点
一、CIDEr 用在什么场景?
- 图像描述(Image Captioning)
- 视频描述
- VLM 输出评估
- 多参考文本一致性评估
它是 为 COCO 数据集专门设计 的(名字里 CI = Consensus-based Image Description)。
二、CIDEr 的整体公式(先看全貌)
对某个样本(一张图):
\( \mathrm{CIDEr}(c)=\frac{1}{N}\sum_{j=1}^{N}\sum_{n=1}^{4}\mathrm{CIDEr}_n(c, s_j) \)
其中:
- ( c ):模型生成的 caption
- ( s_j ):第 (j) 个参考 caption(人工)
- ( N ):参考 caption 数量(COCO 中通常是 5)
- ( n ):n-gram(1 到 4)
👉 核心思想:
对每个参考描述、每种 n-gram,算一次“加权相似度”,再平均
三、最核心的一步:TF-IDF 表示
1️⃣ n-gram 向量表示
对某个 n(比如 2-gram):
\( \mathbf{g}_n(c) = \bigl( \mathrm{tfidf}_k(c) \bigr)_k \)
其中每一维对应一个 n-gram (k)。
2️⃣ TF-IDF 定义(重点)
\(\mathrm{tfidf}_k(c)=\underbrace{\frac{h_k(c)}{\sum_{k'} h_{k'}(c)}}*{\text{TF}} \cdot \underbrace{\log\frac{|I|}{|{i : k \in s_i}|}}*{\text{IDF}}\)
- ( h_k(c) ):n-gram (k) 在句子 (c) 中出现次数
- ( |I| ):数据集中图片总数
- 分母:包含该 n-gram 的图片数量
📌 关键含义:
- 常见废话(如 “a man”) → IDF 低 → 权重小
- 关键信息(如 “snowboard”、“microwave”) → IDF 高 → 权重大
四、CIDEr_n 的核心公式(余弦相似度)
\( \mathrm{CIDEr}_n(c, s_j)=\frac{\mathbf{g}_n(c) \cdot \mathbf{g}_n(s_j)}{|\mathbf{g}_n(c)| , |\mathbf{g}_n(s_j)|} \)
也就是:
生成句子 vs 参考句子,在 TF-IDF n-gram 空间里的 cosine similarity
五、为什么 CIDEr 特别“适合人类直觉”?
1️⃣ 多参考 → 共识建模
- BLEU:一句一句对
- CIDEr:对“大家都说了什么”敏感
如果 5 个参考都提到 “dog”:
- 你没提 → 扣分
- 你提了 → 高分
2️⃣ IDF 抑制套话
| 词 | BLEU | CIDEr |
|---|---|---|
| “a man is standing” | 容易高分 | 权重很低 |
| “a man surfing on a wave” | 稍难 | 高权重 |
👉 CIDEr 奖励信息密度,不奖励废话长度
3️⃣ n-gram = 局部结构感知
- unigram → 物体
- bigram → 属性 / 动作
- trigram / 4-gram → 关系、场景
六、和 BLEU / ROUGE 的本质区别(重点)
| 指标 | 关注点 | 最大问题 |
|---|---|---|
| BLEU | 精确匹配 | 同义词 / 改写直接判错 |
| ROUGE | 覆盖率 | 偏向召回 |
| CIDEr | 共识 + 信息量 | 计算复杂,但更“像人” |
所以:
Image Caption 论文默认报告 CIDEr,是有原因的
七、在 VLM / 强化学习训练中的地位
你经常会看到:
\( \mathcal{L}*{\text{RL}} = - \mathbb{E}*{c \sim p_\theta} [\mathrm{CIDEr}(c)] \)
也就是:
- 用 CIDEr 当 reward
- 直接做 Self-Critical Sequence Training(SCST)
📌 原因很简单:
CIDEr 是可对齐人类偏好的自动指标
八、一句“总结”
CIDEr = 在 TF-IDF 加权的 n-gram 空间里,对生成描述与人类共识的余弦相似度
它解决了三件事:
- 多答案一致性问题
- 废话泛滥问题
- 结构信息缺失问题
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

浙公网安备 33010602011771号