随笔档案「2026年2月11日」：大模型跑偏问题 ... - Python喵

2026年2月11日

摘要：从“大模型训练/推理机制”的角度，这种“先答错、被你一句话纠正后回正”非常典型，通常不是知识缺失，而是 (1) 训练目标 + (2) 语境建模方式 + (3) 解码策略共同作用的结果。 1) 训练目标：最大似然学的是“最像人说的话”，不是“先求真再回答” 大多数大模型的基础训练是 next-tok 阅读全文

posted @ 2026-02-11 09:46 Python喵阅读(18) 评论(0) 推荐(0)

clark1990

公告