做perception如何补classical robotics

前沿感知 / world model / state estimation 做得很深，但机器人学“本体论”底子不一定完整。会建模和学习，却容易在 state definition、可观测性、约束、接触、坐标选择、动力学先验、控制接口 这些最机器人学的问题上吃亏。

补 “能和动力学、控制、规划、机构学说同一种语言” 的能力。

优先补的5块：

刚体运动学与李群/李代数表达
机器人动力学与接触建模
系统理论视角下的状态估计
运动规划与控制的接口
从传感器到状态到决策的系统分层

要求

清楚 state 到底该定义到哪一层
清楚 哪些量可观测，哪些只是模型补的
清楚 接触、约束、执行器延迟 怎样改变系统
清楚 估计误差如何传到规划与控制
清楚 机器人学里的“几何结构” 如何约束学习模型

应该怎么补：不是按课名，而是按知识图谱

第一层：“机器人状态”

做 world model / estimation，最终都会回到这几个问题：

configuration 和 state 区别是什么
task space / joint space / latent state 分别服务什么
velocity 是在哪个 frame 里定义的
pose 的误差该怎么定义
orientation 为什么不能随便用欧拉角拼一拼
接触模式变了以后，state 维度和 dynamics 是否变了

这部分最推荐先看 Modern Robotics。它官方资源里专门强调，配置空间、刚体运动表示、三维空间中的位置/速度/力表示，是进一步学习机器人学最重要的基础。它的章节资源覆盖 configuration space、rigid-body motion、control、dynamics 等内容。(现代机器人学)
学会这些

SE(3), SO(3), twist, wrench
body frame / space frame
exponential coordinates
Jacobian 作为局部线性映射
constraint 与 DOF 的关系

没补好做 learned state representation 时，很容易学出物理上不自然、变换上不协变、控制上不可用的 state。

第二层：动力学和控制接口

做状态估计，可能已经很熟滤波、贝叶斯、序列建模、latent rollout，但机器人系统里真正决定 state 是否“有用”的，经常不是预测误差，而是：

这个 state 对控制器是否足够
这个 state 在接触切换时是否稳定
这个 state 是否尊重动力学约束
这个 state 是否能支持 MPC / tracking / policy execution

这里建议用两门课分工补：

Modern Robotics：补标准机器人动力学和控制语义。
官方资源包含 Newton–Euler 动力学与多种控制目标，例如 motion control、force control、hybrid motion-force control、impedance control。(现代机器人学)

MIT Underactuated Robotics：非线性动力学、underactuated systems、系统辨识和状态估计在控制里的位置。MIT 的课程说明明确写它聚焦机械系统的非线性动力学与控制，课程目录也包含 State Estimation 和 System Identification 等章节。(underactuated.csail.mit.edu)

从“建模者”变成“闭环系统的人”，更敏感地意识到：

世界模型不是越大越好，而是要和闭环目标对齐
state estimation 不是纯 inference，而是控制环中的 information bottleneck
uncertainty 不是附属物，而是 planning/control object
有些 latent state 在预测里有效，在 stabilizing control 里无效

第三层：补“经典机器人学语言”

做前沿研究，很容易默认大家都接受 latent variable、representation learning、belief dynamics、implicit world model 这些语言。
但机器人学社区很多真正关键的问题，还是用这些词说清楚的：

kinematics
statics
dynamics
motion planning
impedance
operational space
observability / identifiability
constraints
contact mode
model mismatch

这时候 Stanford CS223A 很适合。Stanford 官方课程描述就是对机器人系统的 modeling, design, planning, and control 做导论，内容覆盖 geometry、kinematics、statics、dynamics、motion planning、control。(斯坦福工程)

机器人学共同语境对做跨组合作、写论文 related work、定义 benchmark、跟控制/规划/机构的人对话很重要。

最有效的补法不是“刷完一门课”

阶段 A：6 周，把几何和动力学语言补起来

目标是建立统一表达。

每周可以这样：

第 1–2 周：SE(3), SO(3), rigid body motion, frame changes, Jacobian
第 3–4 周：manipulator kinematics, inverse kinematics, velocity kinematics
第 5 周：rigid body dynamics, Euler–Lagrange / Newton–Euler
第 6 周：robot control basics, tracking, impedance, force interaction

材料主线：Modern Robotics。
因为它把配置空间、刚体运动、动力学、控制串得非常标准。(现代机器人学)

不要追求 breadth，要追求下面几个输出是否能自己写出来：

用统一 notation 写清一个机器人系统的 state
写清 process model / observation model 在哪个 frame
写清 estimate 的误差定义
写清 control input 是 torque、velocity 还是 task-space command
写清 constraint 来自哪里

阶段 B：4–6 周，把 state estimation 放回闭环机器人系统

MIT Underactuated Robotics。
挑这些主题：

nonlinear dynamics
local linearization
trajectory stabilization
uncertainty
state estimation
system identification
planning/control under model mismatch

明确覆盖 nonlinear dynamics and control，并有 state estimation / system identification 相关章节。(underactuated.csail.mit.edu)

要边学边问自己这几个研究向问题：

我的 world model 学的是 full state、belief state，还是 control-sufficient state？
我的 observation model 是否尊重机器人几何？
contact-rich systems 下，滤波器的 state 应不应该显式包含 contact mode？
learned dynamics 的误差是 process noise，还是 structural mismatch？
对 planning 而言，uncertainty 应该传播在 state space、belief space，还是 latent manifold？

从“做估计方法”变成“做机器人系统估计方法”。

阶段 C：2–4 周，把术语和经典题型补全

用 Stanford CS223A 去做“扫尾校准”，检查是否已经能用经典机器人学方式表达问题：

会不会写基本运动学链
会不会分析 singularity / Jacobian
会不会区分 task-space control 和 joint-space control
会不会从 planning 角度描述约束
会不会把几何、动力学、控制放进同一个 pipeline

Stanford 这门课就是这样一门比较标准的 foundations 课。(斯坦福工程)

从研究收益看，补基础时最该盯住的 6 个“连接点”

1. 状态表示要和群结构兼容

很多学习式状态表示在机器人里失效，是因为它没有尊重 SE(3) 或接触约束。
做latent state 时要经常问：

哪些变量应显式放在群上
哪些误差应在 tangent space 里定义
哪些表示需要 equivariance / invariance

2. 观测不是“看到了什么”，而是“哪些量可辨识”

机器人里的 estimation，真正要补的是 observability intuition。
例如：

单目视觉下尺度何时不可观
IMU bias 与姿态/速度的耦合
接触传感是否改变系统可观测性
外参漂移如何污染 state

3. world model 要区分 physics prior 和 decision-sufficient abstraction

有些 world model 适合 prediction，不适合 control。
补机器人学后，会更清楚：

哪些状态必须物理可解释
哪些 latent 可以只为任务服务
哪些隐变量必须和 actuator / contact semantics 对齐

4. 接触是核心，不是噪声

前沿感知和 world model 论文里，很多失败都来自把 contact 当成 residual。
机器人学基础：

接触会引入 mode switch
接触会改变动力学结构
接触估计错误会比 pose 小误差更致命

5. 误差传播最终要看闭环

state estimator 的均方误差低，不代表系统表现好。
以后看方法时应该多看：

estimation-to-control sensitivity
closed-loop regret / stability margin
calibration drift 对 tracking 的影响

6. 规划与控制决定了“好状态”的定义

不是所有准确状态都是好状态。
好状态通常是：

对目标任务 sufficient
对控制器 numerically stable
对约束/接触切换 robust
对 sim2real 偏差可容忍

最实用的学习组合

组合 1：最推荐

Modern Robotics：补几何、运动学、动力学、控制标准语言
MIT Underactuated Robotics：补非线性控制、state estimation、uncertainty、sysid

这是收益最大的组合。
“说得标准”到“想得系统”。
Modern Robotics 的官方资源把 configuration、rigid-body motion、dynamics、control 做了体系化拆分；Underactuated Robotics 明确聚焦 nonlinear dynamics/control，并覆盖 state estimation 和 system identification。(现代机器人学)

组合 2：补“经典机器人学共同语言”

Stanford CS223A
再辅以 Modern Robotics 的相关章节

Stanford 这门课对 modeling、planning、control 的表达非常标准。(斯坦福工程)

现实提醒

错误 1：跳过机构学/运动学，直接从 filtering/control 学

frame、constraint、contact geometry

错误 2：把机器人学基础当“低阶算题”

对 state / observation / action 的形式化能力。

错误 3：补课时不把自己的研究问题投影进去

其实边学要边把自己的问题改写成机器人学语言，比如：

我的 latent world model 对应的是 generalized coordinates 还是 task variables？
我的 observation model 是否 respect rigid-body symmetry？
我的 estimator 在 contact transitions 下是否 consistent？
我的 learned state 对 MPC 是否 Markov 且 control-sufficient？

具体的执行版

未来 10 周可以这样：

第 1–4 周
只学 Modern Robotics 里和 rigid motion、kinematics、Jacobian 直接相关的部分。
目标：把论文里的 state / pose / action notation 全部重写得更机器人学。

第 5–6 周
学 Modern Robotics 的 dynamics + basic control。
目标：把当前 system model 和 controller interface 说清楚。

第 7–10 周
学 MIT Underactuated Robotics 里 nonlinear dynamics、state estimation、sysid、uncertainty 相关部分。
目标：把的 world model 放回闭环系统视角里审视。

并且每周做一件事：
挑最近一篇最相关的论文，用机器人学语言重写一页“system formulation”。

posted @ 2026-03-23 19:03 asandstar 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

asandstar