具身智能_机器人-模型-数据-工具链-仿真MuJoCo

背景

2022年11月30日由OpenAI推出首个对话版本 ChatGPT
2024年5月6日 Hugging Face 的le-robot
2024年12月26日 DeepSeek V3 发布
2025年1月20日‌ DeepSeek-R1模型发布 腊月二十一

机器

 Atlas（波士顿动力）
 2019年特斯拉Optimus原型机
 宇树科技 Unitree H1 / G1 智元机器人 远征A1

模型

01.谷歌 
   RT-1 
    2022年12月16日谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型
   RT-2
    2023年7月28日 谷歌DeepMind于推出的新一代人工智能学习模型 Robotics Transformer 2（RT-2）
   RT-X
     2023年10月发布了RT-2和	
02.Physical Intelligence（简称 PI 或 π）
   Physical Intelligence Physical Intelligence(简称 PI)是一家成立于 2024 年 2 月 
   2024年10月，发布了Pi0 。
      Pi0 是一个 Vision-Language-Action (VLA) 模型，采用了 Multi-Expert (多专家) 混合架构
   2025年4月：PI发布了具身智能VLA模型π0.5
   2025年11月，PI发布了具身智能VLA模型π0.6

03.英伟达
    2024年3月宣布推出 GR00T 项目,这是一个面向人形机器人的通用基础模型 
	2025年3月19日推  GR00T N1 
	2025年5月20日人形机器人基础模型 Isaac GR00T N1.5 新版
	     https://research.nvidia.com/labs/gear/gr00t-n1_5/
    2025年12月15日 GR00T N1.6

04.千寻智能-千寻 Spirit v1.5模型是
     2026年1月12日开源的具身智能VLA基础模型  Spirit v1.

05.阿里-蚂蚁集团 LingBot-VLA
     2026年1月28日，蚂蚁集团旗下灵波科技宣布开源其具身大模型 LingBot-VLA及全链路工具链

数据和工具链

数据集名称	发布主体	发布时间	数据来源
Open X-Embodiment	谷歌	2023年10月	仿真、开源整合、真实数采
LeRobot Dataset	Hugging Face	2024年05月
GR00T-X-Embodiment	英伟达	2025年03月	真实世界、合成数据和网络数据
ARIO 数据集	鹏城实验室	2024年03月
AgiBot World	智元	2024年12月	真实数采
G1_MountCameraRedGripper_Dataset	宇树	2025年03月	真实数采

工具链

数据仿真

数据

 人形机器人的“大脑”（决策智能）与“小脑”（运动控制）
三类机器人训练数据的采集
    遥操数据 动捕数据  仿真数据

采用仿真数据与真实数据结合训练的方式

Issac Gym 平台上
   英伟达 
   :Isaac Sim 负责 “在虚拟世界中打磨算法
MuJoCo 模拟仿真 仿真模拟
    deepmind/mujoco存储库中获取。
    Advanced physics simulation
	MuJoCo是Multi-Joint dynamics with Contact 的缩写,字面意思可拆解为带接触的多关节动力学。
	是DeepMind(谷歌旗下)维护的高精度多体动力学物理仿真引擎 Mujoco依靠xml格式文件编辑仿真环境
Gazebo 通常与ROS深度绑定 仿真场景的编辑也需要URDF文件
    URDF全称（United Robotics Description Format）统一机器人描述格式，是一个XML语法框架下用来描述机器人的语言格式
 URDF(Unified Robot Discription Format)，这是一个基于XML标记语言的描述方式。
	 它用link和joint标签来描述机器人的各个布局以及它们之间的连接关系，整个机器人被表示称为了一棵树的形式

物理引擎

PhysX 是 NVIDIA 开发的一个物理加速引擎 Unity用的是PhyX
Bullet是由AMD开放物理计划成员开发的开源跨平台物理引擎，与Havok、PhysX并列为全球三大物理引擎
Havok引擎的授权

首先大致了解物理引擎的理论基础，
然后进一步分析各种引擎的基本设计思路，
最后是探讨物理引擎在**引擎中的使用方法
物理基础：
    理论力学通常分为三个部分：静力学、运动学与动力学  运动学（kinematics
设计思路
   从架构设计的角度来看，物理引擎是一种中间件（Middleware
     每个物理引擎都会自己实现一套数据结构、数学库、内存管理、碰撞检测、物理模拟等
   对象和属性 
       物理引擎中总是有这样几类对象：
	    世界（World）或空间（Space）物体（Body）关节（Joint）
         形状（Shape）或网格（Mesh）
         质量（Mess）速度（Velocity）力（Force）
       几何属性（Geometric attributes）和物理属性（Physical attributes）
	运行机制
使用 
   实现引擎之间的交互通信
   处理引擎之间对象的对应关系
   实现不同线程的数据同步

数据过程

  数据采集工具和训练数据集
  训练阶段的 Issac Gym 需要 CUDA，也就是需要 N 卡，
  仿真阶段的 MuJoCo 则支持各种 GPU，甚至 CPU 和 TPU 也能运行
  真机迁移部署阶段

仿真场景

Sensor - 传感器   Actuator - 执行器  Tendon - 肌腱
Equality - 等式约束
Joint 定义        → 生成的 DOF
     ----------        -----------
     free (1个)        → 6个DOF: [pos_x, pos_y, pos_z, quat_w, quat_x, quat_y, quat_z]*
     ball (1个)        → 3个DOF: [quat_w, quat_x, quat_y, quat_z]*
     hinge (n个)       → n个DOF: [angle_1, ..., angle_n]
     slide (n个)       → n个DOF: [position_1, ..., position_n]

      free	6	位置(3) + 四元数(4)
      ball	3	单位四元数(4)
      hinge	1	标量角度
      slide	1	标量位移

输出数据

MuJoCo : Multi-Joint Dynamics with Contact
   用户以 XML 文件格式 MJCF 定义 MuJoCo 模型 MJCF（MuJoCo XML Format）
                 二进制 MJB 文件
  
MuJoCo 中，mjData 用于存放仿真数据，即给定模型后，当前的状态数据。
    比如，各个对象的位置、各关节的角度、碰撞信息等等
	 MuJoCo的XML模型格式
	 MuJoCo原生GUI使用 OpenGL 渲染	
MuJoCo提供官方编译工具 sample/compile.cc，实现XML到二进制MJB格式的转换。	
	simulate 可执行程序  是交互式仿真环境,支持模型加载、参数调试和运动录制,源码实现见simulate/main.cc 
        joint 用来显示每个关节的角度,单位是弧度
		control 用来控制关节角度,单位是弧度
Python：通过pip install mujoco 即可安装，提供与C API对应的高级接口，支持模型加载 
     使用mjcf格式文件定义机器人模型		 
mujoco.MjModel   mujoco.MjData	
     mjModel 
	    mjSpec C 结构体与 MJCF 文件格式一一对应。
		 XML 加载器解析 MJCF 或 URDF 文件，创建相应的mjSpec并将其编译为mjModel
		 
		mjModel 的不同路径：
            文本编辑器 → MJCF/URDF 文件 → （MuJoCo 解析器 → mjSpec → 编译器）→ mjModel
            用户代码   → mjSpec → （MuJoCo 编译器）→ mjModel
             MJB 文件  → 模型加载器 → mjModel 			 
	 mjData包含所有动态变量和中间结果
	 mjModel由编译器构建。mjData在运行时根据mjModel构建
	 
	MuJoCo传感器系统的核心在于 mjData结构体中的 sensordata 数组
        在MJCF（MuJoCo模型描述格式）中，传感器通过<sensor>元素进行定义 
		
步进仿真： mujoco.mj_step(model, data)
重置仿真： mujoco.mj_resetData(model, data)
     读取（获取观察值）:获取机器人的状态信息	
	 写入（施加动作）  :可以向仿真中的机器人施加控制指令		 
mujoco.viewer

mujoco 数据流程

 强化学习 (RL) 框架集成: 
 可以用 PyTorch, TensorFlow 或 JAX 来构建你的 AI 智能体。
 智能体在每个时间步：
   01.通过 Python 绑定从 MuJoCo 获取状态（NumPy 数组形式的观察 Observation）。
   02.将这个观察输入神经网络进行计算。
   03.神经网络输出一个动作 Action（也是 NumPy 数组）。
   04.通过 Python 绑定将这个动作写入 data.ctrl，驱动机器人。
 “观察-决策-行动”流程	 
 simulate 是官方提供的一个功能齐全的交互式仿真器

数据

数据生成的质量-数量和时间 
       传统-生成-存储-读取-训练的模式
	数据生成的速率--数据不在是稀缺资源？
       物理采集的持续精进
       数据生成		   
高效的数据流转机制-- 实现数据高效的自动化生产，数据更好的适应真实世界。跨越虚实鸿沟	
    数据生成即被消费--数据不落地--在线数据流	
EmbodiChain	
Robot  Map-Scenes  algorithm    simulation

数据仿真-合成

 传感器仿真-图形渲染-物理引擎
 搭建复杂的环境和传感器模型
      域随机化 (Domain Randomization)、Sensor Noise（传感器噪声）注入等技术来缩小仿真-现实差距(Sim2Real Gap) 	

 MuJoCo 物理引擎能够把机器人的关节运动、受力反馈算得明明白白，
 Unreal Engine 5 UE5能够还原出动态天气、PBR 材质的真实场景-- 高保真视觉渲染
  
 Isaac Lab 作为 Isaac Gym  的继任者，以GPU 原生仿真为核心

Blender 在实际应用中主要有两款渲染器可供选择：Eevee 和 Cycles
  Cycles 是 Blender 内置的基于物理的路径跟踪渲染引擎，专为生产级渲染设计，能够生成高度逼真的图像
PhysX 5.0物理引擎，能够实现高度逼真的物理模拟和渲染效果

Isaac Sim 5.0版本，该平台拥有超过1000个SimReady资产，涵盖了最新的人形机器人和操作机器人，还原生支持ROS 2生态系统，
 方便与实际机器人硬件进行对接。
 Isaac Sim对硬件配置有一定要求，推荐使用NVIDIA RTX 3080及以上型号的GPU，且需要32GB以上的内存来应对复杂场景。

数据采集

• 导入机器人模型：
     使用向导功能或预置资产快速导入各类机器人模型（如人形、机械臂、四足机器人、AMR 等）。

• 构建虚拟环境：
    利用预建的 3D 资产库构建仿真场景，并配置物理参数与传感器（如 RGB-D 相机、LiDAR 等）。

• 运行模拟与数据采集：
    通过运行仿真场景观察机器人行为、调试控制算法，并生成合成数据集，用于后续算法训练。

道路重建和数据仿真

渲染

3D Gaussian Splatting 是一种新兴的三维场景表示与渲染技术  
   3D Gaussian Splatting（3DGS）渲染器  3D高斯椭球  把场景表示成一堆各向异性的3D高斯分布
     抛雪球法（Splatting，又称足迹法/Footprint）是由Westover提出的直接体绘制算法，属于计算机领域的三维数据场可视化技术
	   把能量由中心向四周逐渐扩散的状态形象地比喻为溅射的雪,就好像把一个雪球(体素) 扔到一个玻璃盘子上,
	   雪球散开以后,在撞击中心的雪量(对图像的贡献) 最大,而随着离撞击中心距离的增加,雪量(贡献) 减少
	   抛雪球法利用了体素本身的空间相关性,但没有利用体素之间的相关
	3D Gaussian Splatting的pipeline分为3个步骤：
	    1、从相机配准过程中得到的稀疏点云开始，使用3D Gaussian表示场景
		2、对3D Gaussians进行交叉优化和密度控制
		3、使用快速可视感知渲染算法来进行快速的训练和渲染。
    3DGS的核心是用大量三维高斯分布（而非传统网格或点云）表示场景，
	     通过优化高斯参数（位置、颜色、尺度、旋转等）实现高效渲染与精确重建
NeRF 神经辐射场(NeRF)等隐式表示方 
    根据几何来指导输入图像到摄像机的重投影和融合，在这个过程中来重建场景

点云（LiDAR） 体素（Voxel） 网格(Mesh)  NeRF  3DGS
  volume-based和 point-based 的中间态
   使用车载LiDAR和摄像头数据生成道路的3DGS模型，支持车道线、交通标志的精细重建
   基于3DGS生成逼真的虚拟场景，用于自动驾驶算法的测试与验证
3dgs重建结果 在 isaac sim5.0 中使用
      道路的几何形状通过二维高斯面元显式表示，每个面元存储颜色、语义和几何信息。
   与高斯球相比，高斯面元更贴近道路的物理现实。
   与以点云为基础初始化高斯球的传统方法不同，我们引入了一种基于轨迹的高斯面元初始化方法
    利用观测到的 RGB 语义图来监督由二维高斯面元渲染的 RGB 图像，同时使用真实的激光雷达点云优化道路表面几何形状
高斯球 (Gaussian Sphere) 用三维协方差矩阵和其中心坐标表示
高斯面元 (Gaussian Surfel 将高斯球在 z 方向的尺度设置为 0 来获得高斯面元 (Gaussian Surfel)。为了表示纹理信息和语义信息，我们对高斯面元的颜色 (RGB)、不透明度和语义进行参数化
    通过将车辆轨迹投影到 xy-平面上获得初始的高斯面元坐标后，由于 z 被设置为 0，它在高度上与道路表面不对齐
	每个高斯面元，我们通过轨迹上最近点的高度来初始化其 z-坐标

道路重建

RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation
   Ruohong Mei; Wei Sui; Jiaxin Zhang; Xue Qin; Gang Wang; Tao Peng
 苏州大学 未来科学与工程学院 
  RoMe：通过网格表示实现大规模道路表面重建	
      Tao Chen  陈涛 教授
	  Cong Yang 杨聪 副教授  https://web.suda.edu.cn/yangcong/
     彭涛 副教授 未来科学与工程学院 https://web.suda.edu.cn/pt/
	 
 苏州大学（Soochow University），简称“苏大（SUDA）”，位于江苏省苏州市
 东吴大学（Soochow University，SCU）地处中国台湾省台北市士林区   
	 
 RoGs: Large Scale Road Surface Reconstruction with Meshgrid Gaussian
       Zhiheng Feng, Wenhua Wu, Tianchen Deng, Hesheng Wang  
上海交通大学自动化系 智能机器人与机器视觉（IRMV）实验室  
   王贺升   Google Scholar 王贺升博士，上海交通大学特聘教授
   吴文华 Wenhua Wu  https://irmv.sjtu.edu.cn/team/
   https://github.com/IRMVLab/PSFNet
   https://github.com/fzhiheng/RoGS
   王光明,2018级博士生,师从王贺升教授,专业为控制科学与工程。王光明将前往剑桥大学进行博士后研究

在线标定

1.激光雷达相机校准方法依赖于特定的校准目标，如棋盘或自制物体。
    通过手工标注或自动标注获得二维特征点(摄像机图像)与三维特征点(激光雷达点云)之间的匹配关系，然后利用该匹配关系计算外部参数	   
2.在线标定 
 非深度学习的方法
 深度学习方法
   RegNet是采用深度学习方法进行激光雷达-相机外参在线标定的开山之作，发表在2017年的IV
   自动在线激光雷达相机自标定方法CFNet
   I2PNet 扩展到相机-激光雷达在线标定方面

头显设备（Head-Mounted Display，HMD）

Meta公司推出的VR头戴设备系列，覆盖消费级与高端商用市场。主流产品
	Meta Quest 3于2023年9月27日发布 
	Quest 3S
	Meta公司（Meta Platform Inc），原名Facebook
字节跳动-首款VR头显——PICO 4系列。Pico 4
	PICO 4 Ultra  
苹果2021年发布Vision Pro原型机  Apple Vision Pro

参考

 https://mujoco.readthedocs.io/en/stable/python.html	   
 https://mujoco.readthedocs.io/en/stable/python.html
 RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation https://github.com/DRosemei/RoMe	 
 https://github.com/huggingface/lerobot

posted @ 2026-01-29 11:36 辰令阅读(52) 评论(0) 收藏举报

刷新页面返回顶部

辰令

辰时令节

具身智能_机器人-模型-数据-工具链-仿真MuJoCo

背景

机器

模型

数据和工具链

工具链

数据

采用仿真数据与真实数据结合训练的方式

物理引擎

数据过程

仿真场景

输出数据

mujoco 数据流程

数据

数据仿真-合成

数据采集

道路重建和数据仿真

渲染

道路重建

在线标定

头显设备（Head-Mounted Display，HMD）

参考