摘要: 从“大模型训练/推理机制”的角度,这种“先答错、被你一句话纠正后回正”非常典型,通常不是知识缺失,而是 (1) 训练目标 + (2) 语境建模方式 + (3) 解码策略 共同作用的结果。 1) 训练目标:最大似然学的是“最像人说的话”,不是“先求真再回答” 大多数大模型的基础训练是 next-tok 阅读全文
posted @ 2026-02-11 09:46 Python喵 阅读(18) 评论(0) 推荐(0)