CIDEr公式：多模态评价指标

CIDEr 公式

CIDEr（Consensus-based Image Description Evaluation）是图像描述/自然语言生成领域常用的自动评估指标，尤其在 image captioning 任務中。

📌 核心原理

CIDEr 衡量 候选描述与多条参考描述 之间的相似度：

将句子拆分为 n-gram（n=1 到 4）。
对每个 n-gram 计算 TF-IDF 权重（常见的短语权重低，不常见短语权重高）。
对候选句子与每个参考句子分别计算加权 cosine 相似度。
取所有参考句子的平均作为最终得分。

公式大致：

\(CIDEr = \frac{1}{M} \sum_{m=1}^M \text{cosine}\big(TFIDF(cand), TFIDF(ref_m)\big)\)

其中：

(M) 是参考句子数量
(TFIDF(\cdot)) 是基于 n-gram 的向量化表示

与 BLEU 等指标不同，CIDEr 强调一种 人类共识一致性（Consensus）：越符合人类自然描述习惯的句子得分越高。

一句话直觉版

CIDEr 衡量的是：模型生成的句子，和“人类共识描述”在关键信息上的相似度，而且更重视“有区分度的词”。

也就是说：

不是“像不像某一句参考答案”
而是：是否抓住了大家都会提到的核心语义点

一、CIDEr 用在什么场景？

图像描述（Image Captioning）
视频描述
VLM 输出评估
多参考文本一致性评估

它是 为 COCO 数据集专门设计 的（名字里 CI = Consensus-based Image Description）。

二、CIDEr 的整体公式（先看全貌）

对某个样本（一张图）：

\( \mathrm{CIDEr}(c)=\frac{1}{N}\sum_{j=1}^{N}\sum_{n=1}^{4}\mathrm{CIDEr}_n(c, s_j) \)

其中：

( c )：模型生成的 caption
( s_j )：第 (j) 个参考 caption（人工）
( N )：参考 caption 数量（COCO 中通常是 5）
( n )：n-gram（1 到 4）

👉 核心思想：

对每个参考描述、每种 n-gram，算一次“加权相似度”，再平均

三、最核心的一步：TF-IDF 表示

1️⃣ n-gram 向量表示

对某个 n（比如 2-gram）：

\( \mathbf{g}_n(c) = \bigl( \mathrm{tfidf}_k(c) \bigr)_k \)

其中每一维对应一个 n-gram (k)。

2️⃣ TF-IDF 定义（重点）

\(\mathrm{tfidf}_k(c)=\underbrace{\frac{h_k(c)}{\sum_{k'} h_{k'}(c)}}*{\text{TF}} \cdot \underbrace{\log\frac{|I|}{|{i : k \in s_i}|}}*{\text{IDF}}\)

( h_k(c) )：n-gram (k) 在句子 (c) 中出现次数
( |I| )：数据集中图片总数
分母：包含该 n-gram 的图片数量

📌 关键含义：

常见废话（如 “a man”） → IDF 低 → 权重小
关键信息（如 “snowboard”、“microwave”） → IDF 高 → 权重大

四、CIDEr_n 的核心公式（余弦相似度）

\( \mathrm{CIDEr}_n(c, s_j)=\frac{\mathbf{g}_n(c) \cdot \mathbf{g}_n(s_j)}{|\mathbf{g}_n(c)| , |\mathbf{g}_n(s_j)|} \)

也就是：

生成句子 vs 参考句子，在 TF-IDF n-gram 空间里的 cosine similarity

五、为什么 CIDEr 特别“适合人类直觉”？

1️⃣ 多参考 → 共识建模

BLEU：一句一句对
CIDEr：对“大家都说了什么”敏感

如果 5 个参考都提到 “dog”：

你没提 → 扣分
你提了 → 高分

2️⃣ IDF 抑制套话

词	BLEU	CIDEr
“a man is standing”	容易高分	权重很低
“a man surfing on a wave”	稍难	高权重

👉 CIDEr 奖励信息密度，不奖励废话长度

3️⃣ n-gram = 局部结构感知

unigram → 物体
bigram → 属性 / 动作
trigram / 4-gram → 关系、场景

六、和 BLEU / ROUGE 的本质区别（重点）

指标	关注点	最大问题
BLEU	精确匹配	同义词 / 改写直接判错
ROUGE	覆盖率	偏向召回
CIDEr	共识 + 信息量	计算复杂，但更“像人”

所以：

Image Caption 论文默认报告 CIDEr，是有原因的

七、在 VLM / 强化学习训练中的地位

你经常会看到：

\( \mathcal{L}*{\text{RL}} = - \mathbb{E}*{c \sim p_\theta} [\mathrm{CIDEr}(c)] \)

也就是：

用 CIDEr 当 reward
直接做 Self-Critical Sequence Training（SCST）

📌 原因很简单：

CIDEr 是可对齐人类偏好的自动指标

八、一句“总结”

CIDEr = 在 TF-IDF 加权的 n-gram 空间里，对生成描述与人类共识的余弦相似度

它解决了三件事：

多答案一致性问题
废话泛滥问题
结构信息缺失问题

posted @ 2026-02-03 10:14 stardsd 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部

赏月斋

慎终如始宁静致远

CIDEr公式：多模态评价指标

CIDEr 公式

📌 核心原理

一句话直觉版

一、CIDEr 用在什么场景？

二、CIDEr 的整体公式（先看全貌）

三、最核心的一步：TF-IDF 表示

1️⃣ n-gram 向量表示

2️⃣ TF-IDF 定义（重点）

四、CIDEr_n 的核心公式（余弦相似度）

五、为什么 CIDEr 特别“适合人类直觉”？

1️⃣ 多参考 → 共识建模

2️⃣ IDF 抑制套话

3️⃣ n-gram = 局部结构感知

六、和 BLEU / ROUGE 的本质区别（重点）

七、在 VLM / 强化学习训练中的地位

八、一句“总结”

公告

赏月斋

慎终如始 宁静致远

CIDEr公式：多模态评价指标

CIDEr 公式

📌 核心原理

一句话直觉版

一、CIDEr 用在什么场景？

二、CIDEr 的整体公式（先看全貌）

三、最核心的一步：TF-IDF 表示

1️⃣ n-gram 向量表示

2️⃣ TF-IDF 定义（重点）

四、CIDEr_n 的核心公式（余弦相似度）

五、为什么 CIDEr 特别“适合人类直觉”？

1️⃣ 多参考 → 共识建模

2️⃣ IDF 抑制套话

3️⃣ n-gram = 局部结构感知

六、和 BLEU / ROUGE 的本质区别（重点）

七、在 VLM / 强化学习训练中的地位

八、一句“总结”

公告

慎终如始宁静致远