随笔档案「2025年7月26日」：DeepSeek-R1 技术全景解析：从原理到实践的... - limingqi

2025年7月26日

DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清

摘要： DeepSeek 发布的 V3、R1-Zero、R1 三大模型，代表了一条从通用基座到专用推理的完整技术路径。许多读者对三者的关系存在困惑，本文将通过流程图解、差异对比、训练逻辑拆解三大模块，彻底厘清它们的定位与联系。一、模型定位与技术差异维度 DeepSeek-V3 R1-Zero DeepS 阅读全文

posted @ 2025-07-26 23:45 limingqi 阅读(804) 评论(0) 推荐(0)

手把手带你从零推导旋转位置编码RoPE

摘要： RNN每个step的隐状态都取决于上一个step的输出，这种连续的状态转移方式使得RNN天然带有位置信息。而Transformer仅依靠Attention机制来关注序列中不同token之间的相关性，如果只使用token embedding就无法获得句子中字与字之间的位置信息，也就是说如果没有位置编码阅读全文

posted @ 2025-07-26 13:26 limingqi 阅读(318) 评论(0) 推荐(0)

Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(130) 评论(0) 推荐(0)

DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清

手把手带你从零推导旋转位置编码RoPE

Pre-Trained Policy Discriminators are General Reward Models 论文概述

导航

公告