LLM | 常用的数学数据集:MATH、GSM8K、AIME24 等


最近在读这篇文章:

看到里面介绍数据集的一段话:

We conduct experiments on two types of tasks: mathematical reasoning and LLM-as-a-Judge. For mathematical reasoning experiments, we train models on 7.5k training samples in MATH (Hendrycks et al., 2021) and use MATH500 (Lightman et al., 2023) as the in-distribution test dataset. Additionally, we test the optimized models on out-of-distribution datasets: GSM8K (Cobbe et al., 2021), AIME24, AMC23, GaoKao2023En (Zhang et al., 2023), Minerva Math (Lewkowycz et al., 2022), and Olympiad Bench (He et al., 2024).

我们在两种类型的任务上进行了实验:数学推理和 LLM 作为裁判。在数学推理实验中,我们在 MATH(Hendrycks 等人,2021 年)上使用 7.5k 个训练样本训练模型,并使用 MATH500(Lightman 等人,2023 年)作为分布内测试数据集。此外,我们在分布外数据集上测试了优化后的模型:GSM8K(Cobbe 等人,2021 年)、AIME24、AMC23、GaoKao2023En(张等人,2023 年)、Minerva Math(Lewkowycz 等人,2022 年)和 Olympiad Bench(He 等人,2024 年)。

大意是,这个工作在做数学题的实验上,训练数据集是 MATH,分布内的测试数据集是 MATH500(这好像是一个标准做法),并且在一系列的分布外 数学题数据集上测试了模型的性能。

为了了解这些数据集 / benchmark 的信息,询问了 MiroThinker;还没仔细研究。


—— · ——


以下为 MiroThinker 的回答

下面按你给的列表,一个个介绍这些数学推理相关的数据集 / benchmark,重点放在:

  • 题目长什么样(内容/难度)
  • 数据格式(文件形式、字段)
  • 通常怎么用(训练 / 测试 / 推理方式)
  • 常见的评估指标(evaluation metrics)

会适当加一点「实战建议」,方便你直接拿来做实验。


1. MATH(Hendrycks et al., 2021)

1.1 内容与定位

这套数据的目标是测试「奥赛级」数学推理能力,是目前最经典的数学 reasoning benchmark 之一。

1.2 数据格式(你实际会接触到的)

在 Hugging Face 版本中,典型字段包括[1]:

  • problem: 字符串,题目正文(LaTeX 形式,含数学公式)。
  • solution: 完整的分步解答(LaTeX + 自然语言)。
  • answer: 最终答案(通常与 \boxed{} 里的内容一致,以便直接比对)。
  • subject: 七大科目之一。
  • level: 难度 1–5。
  • unique_id: 唯一编号。

文件形式一般是:

  • 官方原始:结构化的文本 / json;
  • Hugging Face:parquet 或自动转的 parquet,加载后就是标准字段;
  • 也有社区提供的 .json.jsonl 版本(每行一题,字段同上)。

1.3 使用方式(训练 & 测试)

训练(如你 paper 中说的 7.5k training samples)

  • 常见做法:
    • 只用 problem -> answer:训练模型直接输出最终答案;
    • problem -> solution:训练模型学会输出完整 CoT;
    • 或混合:论文中提到的「一半样本只预测答案,一半样本预测完整解答」[2]。
  • 输入:题干(可能带 category/difficulty),有时在 prompt 中要求「在最终结果前用 \boxed{} 包起来」。

测试(evaluation)

  • 通常只用测试集的一部分,或者整个 5k test set;
  • 你引文中的论文:训练用 7.5k,in-distribution 测试集用的是从 MATH 中选的 500 题(MATH500)。

1.4 评估指标(metrics)

原始论文的主指标:[2] Measuring Mathematical Problem Solving With the MATH Dataset

  • Exact-match accuracy on final answer
    • 从模型输出中解析出 \boxed{...} 内的内容(或者最后一行的答案);
    • 将它和标准答案进行「规范化后的字符串匹配」:
      • 分数:必须约分成最简;
      • 多项式:按降幂排序,变量按字母排序;
      • 向量/矩阵:有统一写法;
      • 因式分解:因子顺序不做区分;
      • 空格忽略,一些格式等价的写法视为同一个答案。
  • 常见扩展:
    • 按科目分 accuracy;
    • 按难度 level 分 accuracy。

如果你自己评测:

  • 最简单:
    • 要求模型输出 The answer is \boxed{...}.
    • 用脚本截取 \boxed{} 里的内容,做 exact match。
  • 更严格可以复现论文里的规范化规则,但起步不必这么复杂。

2. MATH500(MATH-500, Lightman et al. 2023)

2.1 内容与定位

你看到的论文将它作为 in-distribution test set,因为它与训练数据 MATH 同分布,只是固定了一小部分作为标准对比。

2.2 数据格式

Hugging Face HuggingFaceH4/MATH-500 的字段基本与 MATH 一致[3]:

  • problem
  • solution
  • answer
  • subject
  • level
  • unique_id

文件形式:

  • test.jsonl(最常用):每行一个 JSON 对象;
  • 也自动提供 parquet

2.3 使用方式

  • 通常仅作为评测集:不参与训练;
  • 你可以直接:
    • 读取 test.jsonl
    • 对每个 problem 做推理,让模型输出带 \boxed{} 的答案;
    • 比对 answer 字段,算 accuracy。

评估指标同 MATH:final answer exact-match accuracy


3. GSM8K(Cobbe et al., 2021)

3.1 内容与定位

相比 MATH,GSM8K 更偏「日常文字推理」,逻辑链不短但数学本身不难。

3.2 数据格式

在 GitHub / Hugging Face 中数据一般是 JSON 或通过脚本加载,[6] Training Verifiers to Solve Math Word Problems (GSM8K) [7] openai/gsm8k · Datasets at Hugging Face 常见字段:

  • question: 题目自然语言;
  • answer: 一段「带推理过程的文本 + 最后一行是 #### 最终数字」的形式。例如:To find the total, we add 3 and 2 to get 5. #### 5

文件组织:

  • 通常有 traintest 两个 split(在 Hugging Face datasets API 中定义)[7];
  • 有人会导出 .jsonl 做 fine-tune。

3.3 使用方式

训练:

  • 常见做法:
    • 输入:question
    • 输出:完整 CoT(包含中间推理 + 以 #### number 结尾的答案)。
  • 对一些 RL / Verifier 工作,会额外生成多条不同的解答路径,用来训练 reward model 或 verifier。

测试:

  • 对 test split 的每个问题,让模型输出一个解答;
  • 用脚本抓取末尾 #### 之后的数字作为「预测答案」。

3.4 评估指标

  • 主指标:final answer exact-match accuracy(比对数字是否一致);
  • 有的工作也会看:
    • majority voting / self-consistency 后的 accuracy;
    • 少数会做「步骤级别」的正确性分析,但标准 GSM8K benchmark 主要是答案准确率。

4. AIME24

AIME 2024(AIME24) 相关的数学 benchmark,目前社区比较统一用法是:从 2024 AIME I & II 中选 15 或 30 题构建评测集 [8] AIME 2024 Dataset Cards & Benchmarks

4.1 内容与定位

  • 来源:美国高中数学竞赛 American Invitational Mathematics Examination 2024(AIME 2024)。
  • 特点:
    • 每题答案是 000–999 之间的整数;
    • 题目难度显著高于普通高中考试;
    • 强调组合、数论、代数等竞赛型推理。
  • 数据量:

4.2 数据格式

以 Hugging Face Maxwell-Jia/AIME_2024 为例 [9] Maxwell-Jia/AIME_2024

  • 文件格式:JSONL(每行一个 JSON 对象)。
  • 字段示例 [9] Maxwell-Jia/AIME_2024{ "ID": "2024-I-1", "Problem": "题目正文 ...", "Solution": "(可选,有的版本含解析)", "Answer": 123 }

有些 eval repo(如 Qwen2.5-Math)提供的是 test.jsonl,字段类似 [10] Qwen2.5-Math AIME24 test.jsonl

4.3 使用方式

典型评测协议:

  • Prompt 中给出题目正文,不提示是「三位数答案」,只说「Give the final numeric answer.」;
  • 模型输出最终答案;
  • 将输出解析成整数(有时需从文本中抽取最后一个整数,比如 The answer is 123.);
  • Answer 字段比对是否完全相等。

训练:

  • 一般不拿这么小的数据训练,只用作 eval;
  • 有些 RL 工作会设计「AIME-Hard」版本,用来训练 reward model 或进行 reward shaping。

4.4 评估指标

  • Accuracy:答对题目的比例;
  • 因为题量小,经常会给出「原始分数 / 总题数」,比如 14/30 = 46.7%。

5. AMC23

「AMC23」很可能是指 American Mathematics Competition 2023 的一个子集(如 AMC 10/12)构成的 benchmark。一些数学 reasoning 工作会把「AMC 2023(40 题左右)」作为一个独立 eval set。

5.1 内容与定位

  • 来源:美国数学竞赛 AMC(American Mathematics Competitions),如 2023 AMC 10/12。
  • 题型:单选题(多为 5 选 1),但在 LLM benchmark 中,常常把它改造成「开放式 + 自动判分」:
    • 方式 1:让模型直接输出选项字母(A–E);
    • 方式 2:让模型输出最后的数值,然后映射到选项。
  • 难度:比 AIME 稍低,但比普通高中题高。

5.2 数据格式

以 Hugging Face 某些 amc23 数据集为例 [11] zwhe99/amc23 · Datasets at Hugging Face

  • 文件格式多为 Hugging Face datasets(内部转为 Parquet),也常见 .json 导出;
  • 典型字段:
    • problem: 题干(含选项 A–E 的文本);
    • answer: 正确选项或数值;
    • 有时会有 solution 字段。

黄皮书或 Omni-MATH 等更大 benchmark 也把 AMC2023 集成进去,统一用 jsonl(每行为一个题目)[12] OpenMathInstruct-2 Dataset [13] DeepScaleR-Preview-Dataset

5.3 使用方式与评估指标

  • 使用方式:
    • 训练时可以强制输出 Answer: (A) 这类格式;
    • 评估时从输出中抽取第一个合法选项(A/B/C/D/E),与标准答案比;
  • 指标:
    • 选择题:accuracy (选项是否匹配)
    • 若转为开放式数值题,仍是 final answer exact match

6. GaoKao2023En(Gaokao2023-Math-En)

6.1 内容与定位

  • 来源:2023 年中国高考数学试题;
  • 语言:专业翻译成英文 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En
  • 功能:测试 LLM 在「非英文原生教育体系」的数学推理能力,且题目包含填空题、大题等多种形式。

MARIO 论文中称其为 GaoKao2023-Math-En,纳入多国考试混合集合同评估 [14] MARIO-Math-Reasoning/Gaokao2023-Math-En

6.2 数据格式

MARIO-Math-Reasoning/Gaokao2023-Math-En 为例 [1] nlile/hendrycks-MATH-benchmark [14] MARIO-Math-Reasoning/Gaokao2023-Math-En

  • 样本数:385 道题(多套卷 / 多类型题合并);
  • Hugging Face datasets 格式,通常可以导出 .json.jsonl
  • 字段:
  • MARIO 论文中说明评测使用 jsonl 文件 作为问题输入:

6.3 使用方式和指标

  • 使用方式:
    • 作为 out-of-distribution eval set:因为训练通常没有高考原题;
    • 让模型用英文 CoT 解题,最终输出一个数值或表达式;
  • 指标:
    • 仍然是 final answer accuracy
    • 某些复杂题(证明题)可能需要人工或额外 LLM 判分,但大多数是选择 / 填空 / 计算类,可以 exact match。

7. Minerva Math(Lewkowycz et al., 2022)

7.1 内容与定位

在后续很多论文中,「Minerva Math」通常指他们发布的一个整合过的数学 benchmark 子集,作为统一评测集(一些开源实现叫 minervamath 数据集)[19] math-ai/minervamath · Datasets at Hugging Face

7.2 数据格式

math-ai/minervamath 为例 [19] math-ai/minervamath · Datasets at Hugging Face(通用情况):

  • 格式:Hugging Face datasets,内部通常是 json / parquet
  • 字段大致包括:
    • problem: 数学问题描述;
    • answer: 标准答案(多为数值或表达式);
    • 有时会有 solutionsource 等。

Minerva 本身使用的是 LaTeX 风格题目和解答,与 MATH 类似。

7.3 使用方式与评估指标

  • 使用方式:
    • 常作为一个「混合数学 benchmark」:与 MATH、GSM8K 等一起评测;
    • 对每道题同样让模型生成 CoT,最后给出数值/表达式。
  • 指标:
    • 仍以 final answer exact match accuracy 为主;
    • 某些子集会区分「选择题 / 开放题」分别统计。

8. Olympiad Bench(OlympiadBench, He et al., 2024)

8.1 内容与定位

8.2 数据格式

GitHub OpenBMB/OlympiadBench + Hugging Face 版本 [20] OpenBMB/OlympiadBench - GitHub [23] Hothan/OlympiadBench · Datasets at Hugging Face

  • 存储形式多为 JSON / JSONL;
  • 核心字段(数学子集通常类似):
    • problem: 题目描述(可能含图片链接,或 LaTeX);
    • answer: 参考答案(对开放式题通常是较长文本);
    • solution / analysis: 标准解析;
    • subject:如 math, physics 等;
    • language:zh / en;
    • 可能还有 difficulty, source, problem_type(选择题 / 证明题等)。

对于「开放式问答和证明题」,他们设计了一套标准化答案格式和自动评分方案 [20] OpenBMB/OlympiadBench - GitHub

8.3 使用方式与评估指标

与前面纯数值题很不一样:

  • 题目很多是:
    • 证明题;
    • 求解并解释理由;
    • 需要多步逻辑和自然语言表述。

评估方式:

  • 论文中采用了一种「自动化评分 + 人工校验」方案 [20] OpenBMB/OlympiadBench - GitHub
    • 对于有标准数值答案的子题,仍使用 final answer exact match
    • 对于开放式/证明题:
      • 先用 LLM 或规则检查是否包含关键结论、关键步骤;
      • 有时给出 0–1 或 0–N 的「部分得分」;
  • 公开实现中,为了方便复现,通常采用:
    • 对选择题 / 填空题:accuracy;
    • 对证明题:用一个Judger LLM 给出 0/1(正确/错误),再统计 accuracy 或平均得分。

因为你提到的论文同时做「LLM-as-a-Judge」,OlympiadBench 这种需要 judge 评分的开放题非常适合用来测试「评判模型」性能。


9. 怎么在实验中实际使用这些 benchmark?

如果你刚入门,可以按「难度 + 工程复杂度」从低到高循序渐进:

  1. 入门:GSM8K
    • 任务清晰:自然语言文字题 → 最终数字;
    • 工程成本低:只要写一个脚本提取 #### 后的数字,算 accuracy;
    • 适合作为你第一个 end-to-end 评测管线。
  2. 进阶:MATH + MATH500
    • 学习如何:
      • 处理 LaTeX;
      • 强制模型输出 \boxed{}
      • 写更复杂的「normalize + exact match」脚本;
    • 训练:可以用 7.5k 样本微调一个小模型;
    • 评测:在 MATH500 上报 overall accuracy + 按科目/难度分布
  3. OOD 测试:AIME24, AMC23, GaoKao2023En, Minerva Math
    • 把在 MATH 上训练/调优的模型拿来直接测试这些数据集:
      • 不调整数据分布,看 out-of-distribution generalization;
    • 指标:统一用 final answer accuracy,更方便横向比较。
  4. 最高难度:OlympiadBench-Math
    • 若你要研究「LLM-as-a-Judge」或「步骤级打分」:
      • 可选定其中一部分证明题;
      • 让 candidate-model 给出解答,再用 judge-model 评判正确性;
    • 可以设计:
      • 人类评分 vs. judge-LLM 评分的一致性(相关系数、Kappa 等);
      • 不同 judge 模型在 OlympiadBench 上的一致性和稳定性。

10. 各数据集关键信息速查表

名称 典型规模 难度 & 场景 常见格式 / 字段 主要评估指标
MATH 12.5k(7.5k 训练 + 5k 测试) 竞赛级(AMC/AIME 等),7 科目,难度 1–5 problem, solution, answer, subject, level, unique_id(LaTeX) final answer exact-match accuracy(带规范化)[2]
MATH500 500 题 从 MATH 测试集中选的子集,用作标准 eval 同 MATH,test.jsonl accuracy on final answer
GSM8K 8.5k(7.5k train + 1k test) 小学/初中应用题,多步推理 question, answer(含 CoT 和 #### number final numeric answer accuracy [6]
AIME24 / AIME241 ~15–30 题/集合 美国竞赛 AIME 2024,三位整数答案,难 ID, Problem, Answer(int),部分含 Solution 数值 exact-match accuracy
AMC23 / AMC232 ~40 题 美国竞赛 AMC 2023,多为选择题 problem, answer, optional solution 选项 / 数值 accuracy
GaoKao2023En ~385 题 2023 中国高考数学,翻译成英文,混合题型 question/problem, answer, optional solution final answer accuracy;部分复杂题需 LLM judge
Minerva Math 数量依子集而定,通常几百到几千 多来源的数学题,用于评估 Minerva 等 problem, answer, optional solution, source final answer accuracy
OlympiadBench-Math 约 675 题 各类奥赛题,含证明题,多模态 problem, answer, solution, subject, language 数值题:accuracy;证明题:LLM judge / 自动打分

如果你接下来想做一个从 0 到 1 的数学 reasoning 实验 pipeline,推荐顺序:

  1. 写一个简单的 evaluation 脚本,对 GSM8K 做 zero-shot / few-shot CoT,输出 accuracy;
  2. 扩展脚本支持 \boxed{} 解析和 LaTeX,接入 MATH500;
  3. 在 MATH 上用 7.5k 训练一个小模型或用指令微调(SFT),再在 MATH500 / GSM8K / AIME24 / GaoKao2023En 做 zero-shot transfer;
  4. 如果你对「LLM-as-a-Judge」感兴趣,再把 OlympiadBench-Math 里的证明题接上,设计 judge 模型的评分实验。

这样基本就把你引用那篇论文用到的所有 benchmark 跑通了。


References

[1] nlile/hendrycks-MATH-benchmark. https://huggingface.co/datasets/nlile/hendrycks-MATH-benchmark
[2] Measuring Mathematical Problem Solving With the MATH Dataset. https://arxiv.org/pdf/2103.03874.pdf
[3] HuggingFaceH4/MATH-500. https://huggingface.co/datasets/HuggingFaceH4/MATH-500
[4] MATH-500 Benchmark Leaderboard. https://artificialanalysis.ai/evaluations/math-500
[5] Let's Verify Step by Step. https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
[6] Training Verifiers to Solve Math Word Problems (GSM8K). https://arxiv.org/abs/2110.14168
[7] openai/gsm8k · Datasets at Hugging Face. https://huggingface.co/datasets/openai/gsm8k
[8] AIME 2024 Dataset Cards & Benchmarks. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024
[9] Maxwell-Jia/AIME_2024. https://huggingface.co/datasets/Maxwell-Jia/AIME_2024
[10] Qwen2.5-Math AIME24 test.jsonl. https://github.com/QwenLM/Qwen2.5-Math/blob/main/evaluation/data/aime24/test.jsonl
[11] zwhe99/amc23 · Datasets at Hugging Face. https://huggingface.co/datasets/zwhe99/amc23
[12] OpenMathInstruct-2 Dataset. https://huggingface.co/datasets/nvidia/OpenMathInstruct-2
[13] DeepScaleR-Preview-Dataset. https://modelscope.cn/datasets/agentica-org/DeepScaleR-Preview-Dataset
[14] MARIO-Math-Reasoning/Gaokao2023-Math-En. https://huggingface.co/datasets/MARIO-Math-Reasoning/Gaokao2023-Math-En
[15] Mobiusi/Gaokao2023-Math-En-Improved. https://huggingface.co/datasets/Mobiusi/Gaokao2023-Math-En-Improved
[16] MARIO: MAth Reasoning with code Interpreter Output. https://openreview.net/pdf/d1120bb65ec677a3f29d21512e96ac3ec1281657.pdf
[17] Solving Quantitative Reasoning Problems with Language Models (Minerva). https://arxiv.org/abs/2206.14858
[18] Minerva: Solving Quantitative Reasoning Problems with Language Models. https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/
[19] math-ai/minervamath · Datasets at Hugging Face. https://huggingface.co/datasets/math-ai/minervamath
[20] OpenBMB/OlympiadBench - GitHub. https://github.com/OpenBMB/OlympiadBench
[21] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems. https://arxiv.org/abs/2402.14008
[22] Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving. https://proceedings.neurips.cc/paper_files/paper/2024/file/0ef1afa0daa888d695dcd5e9513bafa3-Paper-Conference.pdf
[23] Hothan/OlympiadBench · Datasets at Hugging Face. https://huggingface.co/datasets/Hothan/OlympiadBench



posted @ 2026-02-13 13:13  MoonOut  阅读(64)  评论(0)    收藏  举报