随笔档案「2026年3月9日」：监督微调（SFT）笔记 ... - 绵满

2026年3月9日

摘要： SFT 简介 (1) 什么是监督微调监督微调（SFT）通过利用特定于任务的标签数据集将预训练的 LLM 适应特定任务。SFT 的数据集通常组织如下，一条样本包含一个指令和对应的回答：\(D=\{(I_K,A_K)\}_{K=1}^N\) (2) 监督微调和预训练的区别在训练方式上没有任何区别，损阅读全文

posted @ 2026-03-09 15:29 绵满阅读(26) 评论(0) 推荐(0)

绵满の博客

公告