做perception如何补classical robotics
前沿感知 / world model / state estimation 做得很深,但机器人学“本体论”底子不一定完整。会建模和学习,却容易在 state definition、可观测性、约束、接触、坐标选择、动力学先验、控制接口 这些最机器人学的问题上吃亏。
补 “能和动力学、控制、规划、机构学说同一种语言” 的能力。
优先补的5块:
- 刚体运动学与李群/李代数表达
- 机器人动力学与接触建模
- 系统理论视角下的状态估计
- 运动规划与控制的接口
- 从传感器到状态到决策的系统分层
要求
- 清楚 state 到底该定义到哪一层
- 清楚 哪些量可观测,哪些只是模型补的
- 清楚 接触、约束、执行器延迟 怎样改变系统
- 清楚 估计误差如何传到规划与控制
- 清楚 机器人学里的“几何结构” 如何约束学习模型
应该怎么补:不是按课名,而是按知识图谱
第一层:“机器人状态”
做 world model / estimation,最终都会回到这几个问题:
- configuration 和 state 区别是什么
- task space / joint space / latent state 分别服务什么
- velocity 是在哪个 frame 里定义的
- pose 的误差该怎么定义
- orientation 为什么不能随便用欧拉角拼一拼
- 接触模式变了以后,state 维度和 dynamics 是否变了
这部分最推荐先看 Modern Robotics。它官方资源里专门强调,配置空间、刚体运动表示、三维空间中的位置/速度/力表示,是进一步学习机器人学最重要的基础。它的章节资源覆盖 configuration space、rigid-body motion、control、dynamics 等内容。(现代机器人学)
学会这些
- SE(3), SO(3), twist, wrench
- body frame / space frame
- exponential coordinates
- Jacobian 作为局部线性映射
- constraint 与 DOF 的关系
没补好做 learned state representation 时,很容易学出物理上不自然、变换上不协变、控制上不可用的 state。
第二层:动力学和控制接口
做状态估计,可能已经很熟滤波、贝叶斯、序列建模、latent rollout,但机器人系统里真正决定 state 是否“有用”的,经常不是预测误差,而是:
- 这个 state 对控制器是否足够
- 这个 state 在接触切换时是否稳定
- 这个 state 是否尊重动力学约束
- 这个 state 是否能支持 MPC / tracking / policy execution
这里建议用两门课分工补:
Modern Robotics:补标准机器人动力学和控制语义。
官方资源包含 Newton–Euler 动力学与多种控制目标,例如 motion control、force control、hybrid motion-force control、impedance control。(现代机器人学)
MIT Underactuated Robotics:非线性动力学、underactuated systems、系统辨识和状态估计在控制里的位置。MIT 的课程说明明确写它聚焦机械系统的非线性动力学与控制,课程目录也包含 State Estimation 和 System Identification 等章节。(underactuated.csail.mit.edu)
从“建模者”变成“闭环系统的人”,更敏感地意识到:
- 世界模型不是越大越好,而是要和闭环目标对齐
- state estimation 不是纯 inference,而是控制环中的 information bottleneck
- uncertainty 不是附属物,而是 planning/control object
- 有些 latent state 在预测里有效,在 stabilizing control 里无效
第三层:补“经典机器人学语言”
做前沿研究,很容易默认大家都接受 latent variable、representation learning、belief dynamics、implicit world model 这些语言。
但机器人学社区很多真正关键的问题,还是用这些词说清楚的:
- kinematics
- statics
- dynamics
- motion planning
- impedance
- operational space
- observability / identifiability
- constraints
- contact mode
- model mismatch
这时候 Stanford CS223A 很适合。Stanford 官方课程描述就是对机器人系统的 modeling, design, planning, and control 做导论,内容覆盖 geometry、kinematics、statics、dynamics、motion planning、control。(斯坦福工程)
机器人学共同语境对做跨组合作、写论文 related work、定义 benchmark、跟控制/规划/机构的人对话很重要。
最有效的补法不是“刷完一门课”
阶段 A:6 周,把几何和动力学语言补起来
目标是建立统一表达。
每周可以这样:
- 第 1–2 周:SE(3), SO(3), rigid body motion, frame changes, Jacobian
- 第 3–4 周:manipulator kinematics, inverse kinematics, velocity kinematics
- 第 5 周:rigid body dynamics, Euler–Lagrange / Newton–Euler
- 第 6 周:robot control basics, tracking, impedance, force interaction
材料主线:Modern Robotics。
因为它把配置空间、刚体运动、动力学、控制串得非常标准。(现代机器人学)
不要追求 breadth,要追求下面几个输出是否能自己写出来:
- 用统一 notation 写清一个机器人系统的 state
- 写清 process model / observation model 在哪个 frame
- 写清 estimate 的误差定义
- 写清 control input 是 torque、velocity 还是 task-space command
- 写清 constraint 来自哪里
阶段 B:4–6 周,把 state estimation 放回闭环机器人系统
MIT Underactuated Robotics。
挑这些主题:
- nonlinear dynamics
- local linearization
- trajectory stabilization
- uncertainty
- state estimation
- system identification
- planning/control under model mismatch
明确覆盖 nonlinear dynamics and control,并有 state estimation / system identification 相关章节。(underactuated.csail.mit.edu)
要边学边问自己这几个研究向问题:
- 我的 world model 学的是 full state、belief state,还是 control-sufficient state?
- 我的 observation model 是否尊重机器人几何?
- contact-rich systems 下,滤波器的 state 应不应该显式包含 contact mode?
- learned dynamics 的误差是 process noise,还是 structural mismatch?
- 对 planning 而言,uncertainty 应该传播在 state space、belief space,还是 latent manifold?
从“做估计方法”变成“做机器人系统估计方法”。
阶段 C:2–4 周,把术语和经典题型补全
用 Stanford CS223A 去做“扫尾校准”,检查是否已经能用经典机器人学方式表达问题:
- 会不会写基本运动学链
- 会不会分析 singularity / Jacobian
- 会不会区分 task-space control 和 joint-space control
- 会不会从 planning 角度描述约束
- 会不会把几何、动力学、控制放进同一个 pipeline
Stanford 这门课就是这样一门比较标准的 foundations 课。(斯坦福工程)
从研究收益看,补基础时最该盯住的 6 个“连接点”
1. 状态表示要和群结构兼容
很多学习式状态表示在机器人里失效,是因为它没有尊重 SE(3) 或接触约束。
做latent state 时要经常问:
- 哪些变量应显式放在群上
- 哪些误差应在 tangent space 里定义
- 哪些表示需要 equivariance / invariance
2. 观测不是“看到了什么”,而是“哪些量可辨识”
机器人里的 estimation,真正要补的是 observability intuition。
例如:
- 单目视觉下尺度何时不可观
- IMU bias 与姿态/速度的耦合
- 接触传感是否改变系统可观测性
- 外参漂移如何污染 state
3. world model 要区分 physics prior 和 decision-sufficient abstraction
有些 world model 适合 prediction,不适合 control。
补机器人学后,会更清楚:
- 哪些状态必须物理可解释
- 哪些 latent 可以只为任务服务
- 哪些隐变量必须和 actuator / contact semantics 对齐
4. 接触是核心,不是噪声
前沿感知和 world model 论文里,很多失败都来自把 contact 当成 residual。
机器人学基础:
- 接触会引入 mode switch
- 接触会改变动力学结构
- 接触估计错误会比 pose 小误差更致命
5. 误差传播最终要看闭环
state estimator 的均方误差低,不代表系统表现好。
以后看方法时应该多看:
- estimation-to-control sensitivity
- closed-loop regret / stability margin
- calibration drift 对 tracking 的影响
6. 规划与控制决定了“好状态”的定义
不是所有准确状态都是好状态。
好状态通常是:
- 对目标任务 sufficient
- 对控制器 numerically stable
- 对约束/接触切换 robust
- 对 sim2real 偏差可容忍
最实用的学习组合
组合 1:最推荐
- Modern Robotics:补几何、运动学、动力学、控制标准语言
- MIT Underactuated Robotics:补非线性控制、state estimation、uncertainty、sysid
这是收益最大的组合。
“说得标准”到“想得系统”。
Modern Robotics 的官方资源把 configuration、rigid-body motion、dynamics、control 做了体系化拆分;Underactuated Robotics 明确聚焦 nonlinear dynamics/control,并覆盖 state estimation 和 system identification。(现代机器人学)
组合 2:补“经典机器人学共同语言”
- Stanford CS223A
- 再辅以 Modern Robotics 的相关章节
Stanford 这门课对 modeling、planning、control 的表达非常标准。(斯坦福工程)
现实提醒
错误 1:跳过机构学/运动学,直接从 filtering/control 学
frame、constraint、contact geometry
错误 2:把机器人学基础当“低阶算题”
对 state / observation / action 的形式化能力。
错误 3:补课时不把自己的研究问题投影进去
其实边学要边把自己的问题改写成机器人学语言,比如:
- 我的 latent world model 对应的是 generalized coordinates 还是 task variables?
- 我的 observation model 是否 respect rigid-body symmetry?
- 我的 estimator 在 contact transitions 下是否 consistent?
- 我的 learned state 对 MPC 是否 Markov 且 control-sufficient?
具体的执行版
未来 10 周可以这样:
第 1–4 周
只学 Modern Robotics 里和 rigid motion、kinematics、Jacobian 直接相关的部分。
目标:把论文里的 state / pose / action notation 全部重写得更机器人学。
第 5–6 周
学 Modern Robotics 的 dynamics + basic control。
目标:把当前 system model 和 controller interface 说清楚。
第 7–10 周
学 MIT Underactuated Robotics 里 nonlinear dynamics、state estimation、sysid、uncertainty 相关部分。
目标:把的 world model 放回闭环系统视角里审视。
并且每周做一件事:
挑最近一篇最相关的论文,用机器人学语言重写一页“system formulation”。

浙公网安备 33010602011771号