摘要: 第二本书出版了:《Transformer技术纵深:架构解析与前沿突破》 第二本书出版了:《Transformer技术纵深:架构解析与前沿突破》 目录第二本书出版了:《Transformer技术纵深:架构解析与前沿突破》购买链接0x01 由来0x02 收获0x03 感谢0x04 遗憾0x05 打广告 我的第二本书终于顺利出版了。这次是和清华大学出版社合作,本书的策划编辑是 阅读全文
posted @ 2026-04-14 21:06 罗西的思考 阅读(563) 评论(0) 推荐(2)
摘要: 新书出版:《分布式机器学习——系统、工程与实战》 ## 0x01 广告 经过一年多的努力,我的书 《分布式机器学习——系统、工程与实战》终于上架了,在这里打个广告。 ![](https://img2023.cnblogs.com/blog/1850883/202307/1850883-20230719224442070-381968133.jpg) 阅读全文
posted @ 2023-07-21 23:50 罗西的思考 阅读(2964) 评论(7) 推荐(3)
摘要: 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (5)工程篇 目录【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (5)工程篇0x00 概要0x01 SERL 要解决什么核心问题?0x02 系统架构:三层解耦的通用适配器 阅读全文
posted @ 2026-06-28 10:22 罗西的思考 阅读(41) 评论(1) 推荐(0)
摘要: 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (4)算法篇(DrQ vs VICE) 目录【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (4)算法篇(DrQ vs VICE)0x00 概要0x01 奖励与自动化:从手 阅读全文
posted @ 2026-06-26 21:19 罗西的思考 阅读(61) 评论(0) 推荐(0)
摘要: 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (3)算法篇(RLPD) 目录【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (3)算法篇(RLPD)0x00 概要0x01 基础 & 背景1.1 总体流程图1.2 面临的 阅读全文
posted @ 2026-06-25 20:02 罗西的思考 阅读(140) 评论(0) 推荐(0)
摘要: 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 算法篇(SAC) 目录【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 算法篇(SAC)0x00 概要0x01 基础 & 背景1.1 核心思想1.2 熵解决的问题0x02 演 阅读全文
posted @ 2026-06-23 21:41 罗西的思考 阅读(92) 评论(0) 推荐(1)
摘要: 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (1)全景篇 目录【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 (1)全景篇0x00 概要0x01 基础知识 & 背景1.1 论文基本信息1.2 为什么需要 SERL:真 阅读全文
posted @ 2026-06-22 20:24 罗西的思考 阅读(124) 评论(0) 推荐(0)
摘要: 【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 (6) Rollout 目录【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 (6) Rollout0x00 概要0x01 Rollout基础1.1 概念1.1.1 标准 R 阅读全文
posted @ 2026-06-18 20:04 罗西的思考 阅读(95) 评论(0) 推荐(0)
摘要: 【Agentic RL / 强化学习框架】Miles 项目技术分析 (2) 关键技术 目录【Agentic RL / 强化学习框架】Miles 项目技术分析 (2) 关键技术0x00 概要0x01 agentic_tool_call1.1 问题1.2 解决方案1.3 框架自动化的主要流水线1.4 深 阅读全文
posted @ 2026-06-16 20:12 罗西的思考 阅读(96) 评论(0) 推荐(0)
摘要: 【Agentic RL / 强化学习框架】Miles 项目技术分析 (1) 总体 目录【Agentic RL / 强化学习框架】Miles 项目技术分析 (1) 总体0x00 概要0x01 基础1.1 Agentic RL 的需求与难点1.1.1 传统 RLHF vs Agentic RL 范式对比 阅读全文
posted @ 2026-06-15 20:52 罗西的思考 阅读(121) 评论(0) 推荐(0)
摘要: 【强化学习框架】Uni-Agent 深度技术分析(2) 关键技术 目录【强化学习框架】Uni-Agent 深度技术分析(2) 关键技术0x00 概要0x01 修改扩展点1.1 verl 扩展点全景1.2 关键扩展点详解E1: AgentLoopBase——继承契约E3: 注册机制——外部注入 vs 阅读全文
posted @ 2026-06-11 21:33 罗西的思考 阅读(133) 评论(0) 推荐(0)
摘要: 【Agentic RL / 强化学习框架】Uni-Agent 深度技术分析(1) 总体 目录【Agentic RL / 强化学习框架】Uni-Agent 深度技术分析(1) 总体0x00 概要0x01 基本功能1.1 竞品对比与定位1.1.1 三者定位1.1.2 七维度对比表1.2 Uni-Agen 阅读全文
posted @ 2026-06-09 20:12 罗西的思考 阅读(170) 评论(0) 推荐(0)