罗西的思考 - 博客园

[置顶] 第二本书出版了：《Transformer技术纵深：架构解析与前沿突破》

摘要：

第二本书出版了：《Transformer技术纵深：架构解析与前沿突破》目录第二本书出版了：《Transformer技术纵深：架构解析与前沿突破》购买链接0x01 由来0x02 收获0x03 感谢0x04 遗憾0x05 打广告我的第二本书终于顺利出版了。这次是和清华大学出版社合作，本书的策划编辑是阅读全文

posted @ 2026-04-14 21:06 罗西的思考阅读(563) 评论(0) 推荐(2)

[置顶] 新书出版：《分布式机器学习——系统、工程与实战》

摘要：

## 0x01 广告经过一年多的努力，我的书《分布式机器学习——系统、工程与实战》终于上架了，在这里打个广告。 ![](https://img2023.cnblogs.com/blog/1850883/202307/1850883-20230719224442070-381968133.jpg) 阅读全文

posted @ 2023-07-21 23:50 罗西的思考阅读(2964) 评论(7) 推荐(3)

2026年6月

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ----（5）工程篇

摘要：【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（5）工程篇目录【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（5）工程篇0x00 概要0x01 SERL 要解决什么核心问题？0x02 系统架构：三层解耦的通用适配器阅读全文

posted @ 2026-06-28 10:22 罗西的思考阅读(41) 评论(1) 推荐(0)

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ----（4）算法篇（DrQ vs VICE）

摘要：【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（4）算法篇（DrQ vs VICE）目录【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（4）算法篇（DrQ vs VICE）0x00 概要0x01 奖励与自动化：从手阅读全文

posted @ 2026-06-26 21:19 罗西的思考阅读(61) 评论(0) 推荐(0)

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ----（3）算法篇（RLPD）

摘要：【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（3）算法篇（RLPD）目录【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（3）算法篇（RLPD）0x00 概要0x01 基础 & 背景1.1 总体流程图1.2 面临的阅读全文

posted @ 2026-06-25 20:02 罗西的思考阅读(140) 评论(0) 推荐(0)

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ---- （2）算法篇（SAC）

摘要：【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架算法篇（SAC）目录【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架算法篇（SAC）0x00 概要0x01 基础 & 背景1.1 核心思想1.2 熵解决的问题0x02 演阅读全文

posted @ 2026-06-23 21:41 罗西的思考阅读(92) 评论(0) 推荐(1)

【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架 ----（1）全景篇

摘要：【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（1）全景篇目录【机器人 / 强化学习】SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（1）全景篇0x00 概要0x01 基础知识 & 背景1.1 论文基本信息1.2 为什么需要 SERL：真阅读全文

posted @ 2026-06-22 20:24 罗西的思考阅读(124) 评论(0) 推荐(0)

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (6)--- Rollout

摘要：【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 (6) Rollout 目录【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 (6) Rollout0x00 概要0x01 Rollout基础1.1 概念1.1.1 标准 R 阅读全文

posted @ 2026-06-18 20:04 罗西的思考阅读(95) 评论(0) 推荐(0)

【Agentic RL / 强化学习框架】Miles 项目技术分析---（2）--- 关键技术

摘要：【Agentic RL / 强化学习框架】Miles 项目技术分析（2）关键技术目录【Agentic RL / 强化学习框架】Miles 项目技术分析（2）关键技术0x00 概要0x01 agentic_tool_call1.1 问题1.2 解决方案1.3 框架自动化的主要流水线1.4 深阅读全文

posted @ 2026-06-16 20:12 罗西的思考阅读(96) 评论(0) 推荐(0)

【Agentic RL / 强化学习框架】Miles 项目技术分析---（1）--- 总体

摘要：【Agentic RL / 强化学习框架】Miles 项目技术分析（1）总体目录【Agentic RL / 强化学习框架】Miles 项目技术分析（1）总体0x00 概要0x01 基础1.1 Agentic RL 的需求与难点1.1.1 传统 RLHF vs Agentic RL 范式对比阅读全文

posted @ 2026-06-15 20:52 罗西的思考阅读(121) 评论(0) 推荐(0)

【强化学习框架】Uni-Agent 深度技术分析（2）--- 关键技术

摘要：【强化学习框架】Uni-Agent 深度技术分析（2）关键技术目录【强化学习框架】Uni-Agent 深度技术分析（2）关键技术0x00 概要0x01 修改扩展点1.1 verl 扩展点全景1.2 关键扩展点详解E1: AgentLoopBase——继承契约E3: 注册机制——外部注入 vs 阅读全文

posted @ 2026-06-11 21:33 罗西的思考阅读(133) 评论(0) 推荐(0)

【Agentic RL / 强化学习框架】Uni-Agent 深度技术分析（1）--- 总体

摘要：【Agentic RL / 强化学习框架】Uni-Agent 深度技术分析（1）总体目录【Agentic RL / 强化学习框架】Uni-Agent 深度技术分析（1）总体0x00 概要0x01 基本功能1.1 竞品对比与定位1.1.1 三者定位1.1.2 七维度对比表1.2 Uni-Agen 阅读全文

posted @ 2026-06-09 20:12 罗西的思考阅读(170) 评论(0) 推荐(0)

公告