AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons 继承自RISE2
-
RISE (v1) 证明了:在模仿学习中,3D 稀疏点云比 2D 图片更适合做精准操作。它解决了 2D 策略(如 ACT, Diffusion Policy)在相机视角改变时容易失效的问题。
- RISE-1 (前作): 只用了3D,虽然动作准,但因为它是“瞎子”(不看颜色纹理),一旦环境变了(比如桌布颜色变了),它就懵了。
-
RISE-2 解决了 RISE (v1) 留下的坑:虽然 3D 很准,但纯 3D 缺乏语义理解,很难应对复杂的真实世界变化(光照、纹理、新物体)。RISE-2 是为了让机器人不仅“手稳”(3D),而且“眼尖”(2D)。
“RISE-2 是一个结合了 2D 语义和 3D 几何信息的机器人策略网络。
它利用 DINOv2 提取图像的语义特征,利用 稀疏卷积 提取点云的几何特征,然后通过一个 Spatial Aligner(空间对齐器) 把两者融合。
这样机器人既能看懂‘是什么’,又能搞准‘在哪里’,最后用 Diffusion 生成动作,泛化能力和精度都比以前的纯2D或纯3D方法强。”
3.2 RISE-2: A Generalizable Policy for Learning from In-the-Wild Demonstrations
为了解决“野外”(in-the-wild)数据和真实机器人环境之间的差异(比如摄像头角度不同),RISE-2 的核心设计理念是:结合 3D 的几何精准度 和 2D 的丰富语义理解。
我把这一段拆解成五个部分来详细讲解:
1. 核心思想:为什么要设计成这样?
- 背景挑战: 之前的方案要么只看 2D 图片(对空间位置不敏感,容易受视角影响),要么只看 3D 点云(对物体是什么、纹理颜色不敏感)。
- 解决方案: RISE-2 决定“我全都要”。
- 3D 感知: 提供视点不变的几何信息(View-invariant geometric information)。无论摄像头怎么变,物体的形状和空间距离是客观不变的。
- 2D 基础模型: 提供丰富的语义理解(Rich semantic understanding)。利用已经预训练好的大规模视觉模型(Foundation Models),让机器人认识“这是个杯子”、“那是个把手”。
2. 模块一:稀疏 3D 编码器 (Sparse Encoder)
作用: 专门负责“看形状”和“定坐标”。
- 输入: 深度图(Depth Image)转换成的 3D 点云。
- 特点:
- 去掉了颜色: 前一代 RISE 模型把颜色也喂给了 3D 编码器,但作者发现这容易混淆(比如光照变了颜色变了,机器就以为物体动了)。RISE-2 特意移除了颜色输入,让这个模块只专注于纯粹的几何形状。
- 架构: 使用了基于 MinkowskiEngine 的类 ResNet 架构。这是一个专门处理稀疏数据的网络(因为空气是空的,没必要计算,只计算有物体的“稀疏”点),效率非常高,支持实时运行。
- 输出: 稀疏几何特征 和对应的种子点坐标 。
3. 模块二:稠密 2D 编码器 (Dense Encoder)
作用: 专门负责“看颜色”和“懂含义”。
- 输入: 彩色图片(Color Image)。
- 其实是 (I, D, K) 彩图、深度图,相机内参都有
- 架构: 使用了 DINOv2。
- DINOv2 是什么? 它是 Meta 推出的一个超级强大的视觉大模型,“看过”海量图片,通用性极强。
- 微调 (LoRA): 作者用了 LoRA 技术对它进行了微调,让它更适应这个具体的机器人任务,增强了鲁棒性。
- 处理过程:
- 把图片变成语义特征图 。
- 同时,根据深度图和相机参数,算出这些特征图上每个像素对应的 3D 坐标 。
- 输出: 2D 语义特征 及其对应的参考 3D 坐标 。
4. 模块三:空间对齐器 (Spatial Aligner) —— 这是最关键的创新点
作用: 把 3D 几何特征和 2D 语义特征“缝合”在一起。
- 难点: 3D 编码器输出的是一堆离散的点(几何),2D 编码器输出的是一张特征图(语义),两者的分辨率和形式都不一样,怎么融合?
- 传统笨办法: 把 2D 特征图强行放大或缩小去匹配 3D 点,但这计算量太大,太慢。
- RISE-2 的巧办法: 基于坐标的加权插值。
- 步骤 1: 对于每一个 3D 种子点(来自稀疏编码器),去 2D 特征群里找它周围 最近的 M 个邻居(M-Nearest Neighbors)。
- 关于如何找:
- dense encoder里面生成了C_s,这个是和2d图像对应的点
- 步骤 2: 根据距离远近进行加权。离得越近,权重越大。通过公式 (1) 计算出一个“对齐后的语义特征”。
- 步骤 3: 把这个“对齐后的语义特征”和原本的“3D 几何特征”拼接(Concat)起来。
- 步骤 1: 对于每一个 3D 种子点(来自稀疏编码器),去 2D 特征群里找它周围 最近的 M 个邻居(M-Nearest Neighbors)。
- 结果: 这一步让每一个 3D 点不仅包含了**“我在哪、我是什么形状”(几何),还包含了“我是什么东西”**(语义)。
无论某个 3D 几何点()飘在空中的哪个角落(即 “arbitrary locations”),只要它有坐标 ,系统就能立马算出它在 2D 语义地图()中离哪几个特征点最近。
然后通过插值算法,把那几个点的语义“吸”过来。这就好比你在地图上随便指一个点,GPS 都能根据周围的基站精准算出你的位置信息。
5. 模块四:动作生成器 (Action Generator)
作用: 根据融合后的信息,决定手怎么动。
- 流程:
- 把融合后的特征通过稀疏卷积层进一步聚合。
- “The fused features are then aggregated into high-level sparse representations using sparse convolution layers:来自于Spatial Aligner的某句话
- 使用 Transformer(Decoder-only)处理这些特征。
- 最后接入一个 Diffusion Head(扩散模型头)。
- 把融合后的特征通过稀疏卷积层进一步聚合。
- 为什么用 Diffusion? 扩散模型在生成连续、复杂的动作轨迹方面表现非常好,比传统的预测单一数值更稳定。
- 输出: 机器人的具体动作(Actions),包括移动位置、旋转角度等。
4.1 Policy Evaluation: RISE-2
(无)