背景
2022年11月30日由OpenAI推出首个对话版本 ChatGPT
2024年5月6日 Hugging Face 的le-robot
2024年12月26日 DeepSeek V3 发布
2025年1月20日 DeepSeek-R1模型发布 腊月二十一
机器
Atlas(波士顿动力)
2019年特斯拉Optimus原型机
宇树科技 Unitree H1 / G1 智元机器人 远征A1
模型
01.谷歌
RT-1
2022年12月16日谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型
RT-2
2023年7月28日 谷歌DeepMind于推出的新一代人工智能学习模型 Robotics Transformer 2(RT-2)
RT-X
2023年10月发布了RT-2和
02.Physical Intelligence(简称 PI 或 π)
Physical Intelligence Physical Intelligence(简称 PI)是一家成立于 2024 年 2 月
2024年10月,发布了Pi0 。
Pi0 是一个 Vision-Language-Action (VLA) 模型,采用了 Multi-Expert (多专家) 混合架构
2025年4月:PI发布了具身智能VLA模型π0.5
2025年11月,PI发布了具身智能VLA模型π0.6
03.英伟达
2024年3月宣布推出 GR00T 项目,这是一个面向人形机器人的通用基础模型
2025年3月19日推 GR00T N1
2025年5月20日人形机器人基础模型 Isaac GR00T N1.5 新版
https://research.nvidia.com/labs/gear/gr00t-n1_5/
2025年12月15日 GR00T N1.6
04.千寻智能-千寻 Spirit v1.5模型是
2026年1月12日开源的具身智能VLA基础模型 Spirit v1.
05.阿里-蚂蚁集团 LingBot-VLA
2026年1月28日,蚂蚁集团旗下灵波科技宣布开源其具身大模型 LingBot-VLA及全链路工具链
数据和工具链
| 数据集名称 |
发布主体 |
发布时间 |
数据来源 |
| Open X-Embodiment |
谷歌 |
2023年10月 |
仿真、开源整合、真实数采 |
| LeRobot Dataset |
Hugging Face |
2024年05月 |
|
| GR00T-X-Embodiment |
英伟达 |
2025年03月 |
真实世界、合成数据和网络数据 |
| ARIO 数据集 |
鹏城实验室 |
2024年03月 |
|
| AgiBot World |
智元 |
2024年12月 |
真实数采 |
| G1_MountCameraRedGripper_Dataset |
宇树 |
2025年03月 |
真实数采 |
工具链
数据仿真
数据
人形机器人的“大脑”(决策智能)与“小脑”(运动控制)
三类机器人训练数据的采集
遥操数据 动捕数据 仿真数据
采用仿真数据与真实数据结合训练的方式
Issac Gym 平台上
英伟达
:Isaac Sim 负责 “在虚拟世界中打磨算法
MuJoCo 模拟仿真 仿真模拟
deepmind/mujoco存储库中获取。
Advanced physics simulation
MuJoCo是Multi-Joint dynamics with Contact 的缩写,字面意思可拆解为带接触的多关节动力学。
是DeepMind(谷歌旗下)维护的高精度多体动力学物理仿真引擎 Mujoco依靠xml格式文件编辑仿真环境
Gazebo 通常与ROS深度绑定 仿真场景的编辑也需要URDF文件
URDF全称(United Robotics Description Format)统一机器人描述格式,是一个XML语法框架下用来描述机器人的语言格式
URDF(Unified Robot Discription Format),这是一个基于XML标记语言的描述方式。
它用link和joint标签来描述机器人的各个布局以及它们之间的连接关系,整个机器人被表示称为了一棵树的形式
物理引擎
PhysX 是 NVIDIA 开发的一个物理加速引擎 Unity用的是PhyX
Bullet是由AMD开放物理计划成员开发的开源跨平台物理引擎,与Havok、PhysX并列为全球三大物理引擎
Havok引擎的授权
首先大致了解物理引擎的理论基础,
然后进一步分析各种引擎的基本设计思路,
最后是探讨物理引擎在**引擎中的使用方法
物理基础:
理论力学通常分为三个部分:静力学、运动学与动力学 运动学(kinematics
设计思路
从架构设计的角度来看,物理引擎是一种中间件(Middleware
每个物理引擎都会自己实现一套数据结构、数学库、内存管理、碰撞检测、物理模拟等
对象和属性
物理引擎中总是有这样几类对象:
世界(World)或空间(Space)物体(Body)关节(Joint)
形状(Shape)或网格(Mesh)
质量(Mess)速度(Velocity)力(Force)
几何属性(Geometric attributes)和物理属性(Physical attributes)
运行机制
使用
实现引擎之间的交互通信
处理引擎之间对象的对应关系
实现不同线程的数据同步
数据过程
数据采集工具和训练数据集
训练阶段的 Issac Gym 需要 CUDA,也就是需要 N 卡,
仿真阶段的 MuJoCo 则支持各种 GPU,甚至 CPU 和 TPU 也能运行
真机迁移部署阶段
仿真场景
Sensor - 传感器 Actuator - 执行器 Tendon - 肌腱
Equality - 等式约束
Joint 定义 → 生成的 DOF
---------- -----------
free (1个) → 6个DOF: [pos_x, pos_y, pos_z, quat_w, quat_x, quat_y, quat_z]*
ball (1个) → 3个DOF: [quat_w, quat_x, quat_y, quat_z]*
hinge (n个) → n个DOF: [angle_1, ..., angle_n]
slide (n个) → n个DOF: [position_1, ..., position_n]
free 6 位置(3) + 四元数(4)
ball 3 单位四元数(4)
hinge 1 标量角度
slide 1 标量位移
输出数据
MuJoCo : Multi-Joint Dynamics with Contact
用户以 XML 文件格式 MJCF 定义 MuJoCo 模型 MJCF(MuJoCo XML Format)
二进制 MJB 文件
MuJoCo 中,mjData 用于存放仿真数据,即给定模型后,当前的状态数据。
比如,各个对象的位置、各关节的角度、碰撞信息等等
MuJoCo的XML模型格式
MuJoCo原生GUI使用 OpenGL 渲染
MuJoCo提供官方编译工具 sample/compile.cc,实现XML到二进制MJB格式的转换。
simulate 可执行程序 是交互式仿真环境,支持模型加载、参数调试和运动录制,源码实现见simulate/main.cc
joint 用来显示每个关节的角度,单位是弧度
control 用来控制关节角度,单位是弧度
Python:通过pip install mujoco 即可安装,提供与C API对应的高级接口,支持模型加载
使用mjcf格式文件定义机器人模型
mujoco.MjModel mujoco.MjData
mjModel
mjSpec C 结构体与 MJCF 文件格式一一对应。
XML 加载器解析 MJCF 或 URDF 文件,创建相应的mjSpec并将其编译为mjModel
mjModel 的不同路径:
文本编辑器 → MJCF/URDF 文件 → (MuJoCo 解析器 → mjSpec → 编译器)→ mjModel
用户代码 → mjSpec → (MuJoCo 编译器)→ mjModel
MJB 文件 → 模型加载器 → mjModel
mjData包含所有动态变量和中间结果
mjModel由编译器构建。mjData在运行时根据mjModel构建
MuJoCo传感器系统的核心在于 mjData结构体中的 sensordata 数组
在MJCF(MuJoCo模型描述格式)中,传感器通过<sensor>元素进行定义
步进仿真: mujoco.mj_step(model, data)
重置仿真: mujoco.mj_resetData(model, data)
读取(获取观察值):获取机器人的状态信息
写入(施加动作) :可以向仿真中的机器人施加控制指令
mujoco.viewer
mujoco 数据流程
强化学习 (RL) 框架集成:
可以用 PyTorch, TensorFlow 或 JAX 来构建你的 AI 智能体。
智能体在每个时间步:
01.通过 Python 绑定从 MuJoCo 获取状态(NumPy 数组形式的观察 Observation)。
02.将这个观察输入神经网络进行计算。
03.神经网络输出一个动作 Action(也是 NumPy 数组)。
04.通过 Python 绑定将这个动作写入 data.ctrl,驱动机器人。
“观察-决策-行动”流程
simulate 是官方提供的一个功能齐全的交互式仿真器
数据
数据生成的质量-数量和时间
传统-生成-存储-读取-训练的模式
数据生成的速率--数据不在是稀缺资源?
物理采集的持续精进
数据生成
高效的数据流转机制-- 实现数据高效的自动化生产,数据更好的适应真实世界。跨越虚实鸿沟
数据生成即被消费--数据不落地--在线数据流
EmbodiChain
Robot Map-Scenes algorithm simulation
数据仿真-合成
传感器仿真-图形渲染-物理引擎
搭建复杂的环境和传感器模型
域随机化 (Domain Randomization)、Sensor Noise(传感器噪声)注入等技术来缩小仿真-现实差距(Sim2Real Gap)
MuJoCo 物理引擎能够把机器人的关节运动、受力反馈算得明明白白,
Unreal Engine 5 UE5能够还原出动态天气、PBR 材质的真实场景-- 高保真视觉渲染
Isaac Lab 作为 Isaac Gym 的继任者,以GPU 原生仿真为核心
Blender 在实际应用中主要有两款渲染器可供选择:Eevee 和 Cycles
Cycles 是 Blender 内置的基于物理的路径跟踪渲染引擎,专为生产级渲染设计,能够生成高度逼真的图像
PhysX 5.0物理引擎,能够实现高度逼真的物理模拟和渲染效果
Isaac Sim 5.0版本,该平台拥有超过1000个SimReady资产,涵盖了最新的人形机器人和操作机器人,还原生支持ROS 2生态系统,
方便与实际机器人硬件进行对接。
Isaac Sim对硬件配置有一定要求,推荐使用NVIDIA RTX 3080及以上型号的GPU,且需要32GB以上的内存来应对复杂场景。
数据采集
• 导入机器人模型:
使用向导功能或预置资产快速导入各类机器人模型(如人形、机械臂、四足机器人、AMR 等)。
• 构建虚拟环境:
利用预建的 3D 资产库构建仿真场景,并配置物理参数与传感器(如 RGB-D 相机、LiDAR 等)。
• 运行模拟与数据采集:
通过运行仿真场景观察机器人行为、调试控制算法,并生成合成数据集,用于后续算法训练。
道路重建和数据仿真
渲染
3D Gaussian Splatting 是一种新兴的三维场景表示与渲染技术
3D Gaussian Splatting(3DGS)渲染器 3D高斯椭球 把场景表示成一堆各向异性的3D高斯分布
抛雪球法(Splatting,又称足迹法/Footprint)是由Westover提出的直接体绘制算法,属于计算机领域的三维数据场可视化技术
把能量由中心向四周逐渐扩散的状态形象地比喻为溅射的雪,就好像把一个雪球(体素) 扔到一个玻璃盘子上,
雪球散开以后,在撞击中心的雪量(对图像的贡献) 最大,而随着离撞击中心距离的增加,雪量(贡献) 减少
抛雪球法利用了体素本身的空间相关性,但没有利用体素之间的相关
3D Gaussian Splatting的pipeline分为3个步骤:
1、从相机配准过程中得到的稀疏点云开始,使用3D Gaussian表示场景
2、对3D Gaussians进行交叉优化和密度控制
3、使用快速可视感知渲染算法来进行快速的训练和渲染。
3DGS的核心是用大量三维高斯分布(而非传统网格或点云)表示场景,
通过优化高斯参数(位置、颜色、尺度、旋转等)实现高效渲染与精确重建
NeRF 神经辐射场(NeRF)等隐式表示方
根据几何来指导输入图像到摄像机的重投影和融合,在这个过程中来重建场景
点云(LiDAR) 体素(Voxel) 网格(Mesh) NeRF 3DGS
volume-based和 point-based 的中间态
使用车载LiDAR和摄像头数据生成道路的3DGS模型,支持车道线、交通标志的精细重建
基于3DGS生成逼真的虚拟场景,用于自动驾驶算法的测试与验证
3dgs重建结果 在 isaac sim5.0 中使用
道路的几何形状通过二维高斯面元显式表示,每个面元存储颜色、语义和几何信息。
与高斯球相比,高斯面元更贴近道路的物理现实。
与以点云为基础初始化高斯球的传统方法不同,我们引入了一种基于轨迹的高斯面元初始化方法
利用观测到的 RGB 语义图来监督由二维高斯面元渲染的 RGB 图像,同时使用真实的激光雷达点云优化道路表面几何形状
高斯球 (Gaussian Sphere) 用三维协方差矩阵和其中心坐标表示
高斯面元 (Gaussian Surfel 将高斯球在 z 方向的尺度设置为 0 来获得高斯面元 (Gaussian Surfel)。为了表示纹理信息和语义信息,我们对高斯面元的颜色 (RGB)、不透明度和语义进行参数化
通过将车辆轨迹投影到 xy-平面上获得初始的高斯面元坐标后,由于 z 被设置为 0,它在高度上与道路表面不对齐
每个高斯面元,我们通过轨迹上最近点的高度来初始化其 z-坐标
道路重建
RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation
Ruohong Mei; Wei Sui; Jiaxin Zhang; Xue Qin; Gang Wang; Tao Peng
苏州大学 未来科学与工程学院
RoMe:通过网格表示实现大规模道路表面重建
Tao Chen 陈涛 教授
Cong Yang 杨聪 副教授 https://web.suda.edu.cn/yangcong/
彭涛 副教授 未来科学与工程学院 https://web.suda.edu.cn/pt/
苏州大学(Soochow University),简称“苏大(SUDA)”,位于江苏省苏州市
东吴大学(Soochow University,SCU)地处中国台湾省台北市士林区
RoGs: Large Scale Road Surface Reconstruction with Meshgrid Gaussian
Zhiheng Feng, Wenhua Wu, Tianchen Deng, Hesheng Wang
上海交通大学自动化系 智能机器人与机器视觉(IRMV)实验室
王贺升 Google Scholar 王贺升博士,上海交通大学特聘教授
吴文华 Wenhua Wu https://irmv.sjtu.edu.cn/team/
https://github.com/IRMVLab/PSFNet
https://github.com/fzhiheng/RoGS
王光明,2018级博士生,师从王贺升教授,专业为控制科学与工程。王光明将前往剑桥大学进行博士后研究
在线标定
1.激光雷达相机校准方法依赖于特定的校准目标,如棋盘或自制物体。
通过手工标注或自动标注获得二维特征点(摄像机图像)与三维特征点(激光雷达点云)之间的匹配关系,然后利用该匹配关系计算外部参数
2.在线标定
非深度学习的方法
深度学习方法
RegNet是采用深度学习方法进行激光雷达-相机外参在线标定的开山之作,发表在2017年的IV
自动在线激光雷达相机自标定方法CFNet
I2PNet 扩展到相机-激光雷达在线标定方面
头显设备(Head-Mounted Display,HMD)
Meta公司推出的VR头戴设备系列,覆盖消费级与高端商用市场。主流产品
Meta Quest 3于2023年9月27日发布
Quest 3S
Meta公司(Meta Platform Inc),原名Facebook
字节跳动-首款VR头显——PICO 4系列。Pico 4
PICO 4 Ultra
苹果2021年发布Vision Pro原型机 Apple Vision Pro
参考
https://mujoco.readthedocs.io/en/stable/python.html
https://mujoco.readthedocs.io/en/stable/python.html
RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation https://github.com/DRosemei/RoMe
https://github.com/huggingface/lerobot