做perception如何补classical robotics

前沿感知 / world model / state estimation 做得很深,但机器人学“本体论”底子不一定完整。会建模和学习,却容易在 state definition、可观测性、约束、接触、坐标选择、动力学先验、控制接口 这些最机器人学的问题上吃亏。

“能和动力学、控制、规划、机构学说同一种语言” 的能力。

优先补的5块:

  1. 刚体运动学与李群/李代数表达
  2. 机器人动力学与接触建模
  3. 系统理论视角下的状态估计
  4. 运动规划与控制的接口
  5. 从传感器到状态到决策的系统分层

要求

  • 清楚 state 到底该定义到哪一层
  • 清楚 哪些量可观测,哪些只是模型补的
  • 清楚 接触、约束、执行器延迟 怎样改变系统
  • 清楚 估计误差如何传到规划与控制
  • 清楚 机器人学里的“几何结构” 如何约束学习模型

应该怎么补:不是按课名,而是按知识图谱

第一层:“机器人状态”

做 world model / estimation,最终都会回到这几个问题:

  • configuration 和 state 区别是什么
  • task space / joint space / latent state 分别服务什么
  • velocity 是在哪个 frame 里定义的
  • pose 的误差该怎么定义
  • orientation 为什么不能随便用欧拉角拼一拼
  • 接触模式变了以后,state 维度和 dynamics 是否变了

这部分最推荐先看 Modern Robotics。它官方资源里专门强调,配置空间、刚体运动表示、三维空间中的位置/速度/力表示,是进一步学习机器人学最重要的基础。它的章节资源覆盖 configuration space、rigid-body motion、control、dynamics 等内容。(现代机器人学)
学会这些

  • SE(3), SO(3), twist, wrench
  • body frame / space frame
  • exponential coordinates
  • Jacobian 作为局部线性映射
  • constraint 与 DOF 的关系

没补好做 learned state representation 时,很容易学出物理上不自然、变换上不协变、控制上不可用的 state。

第二层:动力学和控制接口

做状态估计,可能已经很熟滤波、贝叶斯、序列建模、latent rollout,但机器人系统里真正决定 state 是否“有用”的,经常不是预测误差,而是:

  • 这个 state 对控制器是否足够
  • 这个 state 在接触切换时是否稳定
  • 这个 state 是否尊重动力学约束
  • 这个 state 是否能支持 MPC / tracking / policy execution

这里建议用两门课分工补:

Modern Robotics:补标准机器人动力学和控制语义。
官方资源包含 Newton–Euler 动力学与多种控制目标,例如 motion control、force control、hybrid motion-force control、impedance control。(现代机器人学)

MIT Underactuated Robotics:非线性动力学、underactuated systems、系统辨识和状态估计在控制里的位置。MIT 的课程说明明确写它聚焦机械系统的非线性动力学与控制,课程目录也包含 State EstimationSystem Identification 等章节。(underactuated.csail.mit.edu)

从“建模者”变成“闭环系统的人”,更敏感地意识到:

  • 世界模型不是越大越好,而是要和闭环目标对齐
  • state estimation 不是纯 inference,而是控制环中的 information bottleneck
  • uncertainty 不是附属物,而是 planning/control object
  • 有些 latent state 在预测里有效,在 stabilizing control 里无效

第三层:补“经典机器人学语言”

做前沿研究,很容易默认大家都接受 latent variable、representation learning、belief dynamics、implicit world model 这些语言。
但机器人学社区很多真正关键的问题,还是用这些词说清楚的:

  • kinematics
  • statics
  • dynamics
  • motion planning
  • impedance
  • operational space
  • observability / identifiability
  • constraints
  • contact mode
  • model mismatch

这时候 Stanford CS223A 很适合。Stanford 官方课程描述就是对机器人系统的 modeling, design, planning, and control 做导论,内容覆盖 geometry、kinematics、statics、dynamics、motion planning、control。(斯坦福工程)

机器人学共同语境对做跨组合作、写论文 related work、定义 benchmark、跟控制/规划/机构的人对话很重要。

最有效的补法不是“刷完一门课”

阶段 A:6 周,把几何和动力学语言补起来

目标是建立统一表达。

每周可以这样:

  • 第 1–2 周:SE(3), SO(3), rigid body motion, frame changes, Jacobian
  • 第 3–4 周:manipulator kinematics, inverse kinematics, velocity kinematics
  • 第 5 周:rigid body dynamics, Euler–Lagrange / Newton–Euler
  • 第 6 周:robot control basics, tracking, impedance, force interaction

材料主线:Modern Robotics
因为它把配置空间、刚体运动、动力学、控制串得非常标准。(现代机器人学)

不要追求 breadth,要追求下面几个输出是否能自己写出来:

  • 用统一 notation 写清一个机器人系统的 state
  • 写清 process model / observation model 在哪个 frame
  • 写清 estimate 的误差定义
  • 写清 control input 是 torque、velocity 还是 task-space command
  • 写清 constraint 来自哪里

阶段 B:4–6 周,把 state estimation 放回闭环机器人系统

MIT Underactuated Robotics
挑这些主题:

  • nonlinear dynamics
  • local linearization
  • trajectory stabilization
  • uncertainty
  • state estimation
  • system identification
  • planning/control under model mismatch

明确覆盖 nonlinear dynamics and control,并有 state estimation / system identification 相关章节。(underactuated.csail.mit.edu)

要边学边问自己这几个研究向问题:

  • 我的 world model 学的是 full state、belief state,还是 control-sufficient state?
  • 我的 observation model 是否尊重机器人几何?
  • contact-rich systems 下,滤波器的 state 应不应该显式包含 contact mode?
  • learned dynamics 的误差是 process noise,还是 structural mismatch?
  • 对 planning 而言,uncertainty 应该传播在 state space、belief space,还是 latent manifold?

从“做估计方法”变成“做机器人系统估计方法”。

阶段 C:2–4 周,把术语和经典题型补全

Stanford CS223A 去做“扫尾校准”,检查是否已经能用经典机器人学方式表达问题:

  • 会不会写基本运动学链
  • 会不会分析 singularity / Jacobian
  • 会不会区分 task-space control 和 joint-space control
  • 会不会从 planning 角度描述约束
  • 会不会把几何、动力学、控制放进同一个 pipeline

Stanford 这门课就是这样一门比较标准的 foundations 课。(斯坦福工程)

从研究收益看,补基础时最该盯住的 6 个“连接点”

1. 状态表示要和群结构兼容

很多学习式状态表示在机器人里失效,是因为它没有尊重 SE(3) 或接触约束。
做latent state 时要经常问:

  • 哪些变量应显式放在群上
  • 哪些误差应在 tangent space 里定义
  • 哪些表示需要 equivariance / invariance

2. 观测不是“看到了什么”,而是“哪些量可辨识”

机器人里的 estimation,真正要补的是 observability intuition。
例如:

  • 单目视觉下尺度何时不可观
  • IMU bias 与姿态/速度的耦合
  • 接触传感是否改变系统可观测性
  • 外参漂移如何污染 state

3. world model 要区分 physics prior 和 decision-sufficient abstraction

有些 world model 适合 prediction,不适合 control。
补机器人学后,会更清楚:

  • 哪些状态必须物理可解释
  • 哪些 latent 可以只为任务服务
  • 哪些隐变量必须和 actuator / contact semantics 对齐

4. 接触是核心,不是噪声

前沿感知和 world model 论文里,很多失败都来自把 contact 当成 residual。
机器人学基础:

  • 接触会引入 mode switch
  • 接触会改变动力学结构
  • 接触估计错误会比 pose 小误差更致命

5. 误差传播最终要看闭环

state estimator 的均方误差低,不代表系统表现好。
以后看方法时应该多看:

  • estimation-to-control sensitivity
  • closed-loop regret / stability margin
  • calibration drift 对 tracking 的影响

6. 规划与控制决定了“好状态”的定义

不是所有准确状态都是好状态。
好状态通常是:

  • 对目标任务 sufficient
  • 对控制器 numerically stable
  • 对约束/接触切换 robust
  • 对 sim2real 偏差可容忍

最实用的学习组合

组合 1:最推荐

  • Modern Robotics:补几何、运动学、动力学、控制标准语言
  • MIT Underactuated Robotics:补非线性控制、state estimation、uncertainty、sysid

这是收益最大的组合。
“说得标准”到“想得系统”。
Modern Robotics 的官方资源把 configuration、rigid-body motion、dynamics、control 做了体系化拆分;Underactuated Robotics 明确聚焦 nonlinear dynamics/control,并覆盖 state estimation 和 system identification。(现代机器人学)

组合 2:补“经典机器人学共同语言”

  • Stanford CS223A
  • 再辅以 Modern Robotics 的相关章节

Stanford 这门课对 modeling、planning、control 的表达非常标准。(斯坦福工程)

现实提醒

错误 1:跳过机构学/运动学,直接从 filtering/control 学

frame、constraint、contact geometry

错误 2:把机器人学基础当“低阶算题”

对 state / observation / action 的形式化能力。

错误 3:补课时不把自己的研究问题投影进去

其实边学要边把自己的问题改写成机器人学语言,比如:

  • 我的 latent world model 对应的是 generalized coordinates 还是 task variables?
  • 我的 observation model 是否 respect rigid-body symmetry?
  • 我的 estimator 在 contact transitions 下是否 consistent?
  • 我的 learned state 对 MPC 是否 Markov 且 control-sufficient?

具体的执行版

未来 10 周可以这样:

第 1–4 周
只学 Modern Robotics 里和 rigid motion、kinematics、Jacobian 直接相关的部分。
目标:把论文里的 state / pose / action notation 全部重写得更机器人学。

第 5–6 周
学 Modern Robotics 的 dynamics + basic control。
目标:把当前 system model 和 controller interface 说清楚。

第 7–10 周
学 MIT Underactuated Robotics 里 nonlinear dynamics、state estimation、sysid、uncertainty 相关部分。
目标:把的 world model 放回闭环系统视角里审视。

并且每周做一件事:
挑最近一篇最相关的论文,用机器人学语言重写一页“system formulation”。

posted @ 2026-03-23 19:03  asandstar  阅读(1)  评论(0)    收藏  举报