AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons 继承自RISE2

RISE (v1) 证明了：在模仿学习中，3D 稀疏点云比 2D 图片更适合做精准操作。它解决了 2D 策略（如 ACT, Diffusion Policy）在相机视角改变时容易失效的问题。
- RISE-1 (前作)： 只用了3D，虽然动作准，但因为它是“瞎子”（不看颜色纹理），一旦环境变了（比如桌布颜色变了），它就懵了。
RISE-2 解决了 RISE (v1) 留下的坑：虽然 3D 很准，但纯 3D 缺乏语义理解，很难应对复杂的真实世界变化（光照、纹理、新物体）。RISE-2 是为了让机器人不仅“手稳”（3D），而且“眼尖”（2D）。

“RISE-2 是一个结合了 2D 语义和 3D 几何信息的机器人策略网络。
它利用 DINOv2 提取图像的语义特征，利用 稀疏卷积 提取点云的几何特征，然后通过一个 Spatial Aligner（空间对齐器） 把两者融合。
这样机器人既能看懂‘是什么’，又能搞准‘在哪里’，最后用 Diffusion 生成动作，泛化能力和精度都比以前的纯2D或纯3D方法强。”

3.2 RISE-2: A Generalizable Policy for Learning from In-the-Wild Demonstrations

为了解决“野外”（in-the-wild）数据和真实机器人环境之间的差异（比如摄像头角度不同），RISE-2 的核心设计理念是：结合 3D 的几何精准度和 2D 的丰富语义理解。

我把这一段拆解成五个部分来详细讲解：

1. 核心思想：为什么要设计成这样？

背景挑战： 之前的方案要么只看 2D 图片（对空间位置不敏感，容易受视角影响），要么只看 3D 点云（对物体是什么、纹理颜色不敏感）。
解决方案： RISE-2 决定“我全都要”。
- 3D 感知： 提供视点不变的几何信息（View-invariant geometric information）。无论摄像头怎么变，物体的形状和空间距离是客观不变的。
- 2D 基础模型： 提供丰富的语义理解（Rich semantic understanding）。利用已经预训练好的大规模视觉模型（Foundation Models），让机器人认识“这是个杯子”、“那是个把手”。

2. 模块一：稀疏 3D 编码器 (Sparse Encoder)

作用： 专门负责“看形状”和“定坐标”。

输入： 深度图（Depth Image）转换成的 3D 点云。
特点：
- 去掉了颜色： 前一代 RISE 模型把颜色也喂给了 3D 编码器，但作者发现这容易混淆（比如光照变了颜色变了，机器就以为物体动了）。RISE-2 特意移除了颜色输入，让这个模块只专注于纯粹的几何形状。
- 架构： 使用了基于 MinkowskiEngine 的类 ResNet 架构。这是一个专门处理稀疏数据的网络（因为空气是空的，没必要计算，只计算有物体的“稀疏”点），效率非常高，支持实时运行。
输出： 稀疏几何特征 $F_{g}$ 和对应的种子点坐标 $C_{g}$ 。

3. 模块二：稠密 2D 编码器 (Dense Encoder)

作用： 专门负责“看颜色”和“懂含义”。

输入： 彩色图片（Color Image）。
- 其实是 (I, D, K) 彩图、深度图，相机内参都有
架构： 使用了 DINOv2。
- DINOv2 是什么？ 它是 Meta 推出的一个超级强大的视觉大模型，“看过”海量图片，通用性极强。
- 微调 (LoRA)： 作者用了 LoRA 技术对它进行了微调，让它更适应这个具体的机器人任务，增强了鲁棒性。
处理过程：
- 把图片变成语义特征图 $F_{s}$ 。
- 同时，根据深度图和相机参数，算出这些特征图上每个像素对应的 3D 坐标 $C_{s}$ 。
输出： 2D 语义特征 $F_{s}$ 及其对应的参考 3D 坐标 $C_{s}$ 。

4. 模块三：空间对齐器 (Spatial Aligner) —— 这是最关键的创新点

作用： 把 3D 几何特征和 2D 语义特征“缝合”在一起。

难点： 3D 编码器输出的是一堆离散的点（几何），2D 编码器输出的是一张特征图（语义），两者的分辨率和形式都不一样，怎么融合？
传统笨办法： 把 2D 特征图强行放大或缩小去匹配 3D 点，但这计算量太大，太慢。
RISE-2 的巧办法： 基于坐标的加权插值。
- 步骤 1： 对于每一个 3D 种子点（来自稀疏编码器），去 2D 特征群里找它周围 最近的 M 个邻居（M-Nearest Neighbors）。
  - 关于如何找：
  - dense encoder里面生成了C_s，这个是和2d图像对应的点
- 步骤 2： 根据距离远近进行加权。离得越近，权重越大。通过公式 (1) 计算出一个“对齐后的语义特征”。
- 步骤 3： 把这个“对齐后的语义特征”和原本的“3D 几何特征”拼接（Concat）起来。
结果： 这一步让每一个 3D 点不仅包含了**“我在哪、我是什么形状”（几何），还包含了“我是什么东西”**（语义）。

无论某个 3D 几何点（ $C_{g}$ ）飘在空中的哪个角落（即 “arbitrary locations”），只要它有坐标 $(x, y, z)$ ，系统就能立马算出它在 2D 语义地图（ $F_{s}$ ）中离哪几个特征点最近。

然后通过插值算法，把那几个点的语义“吸”过来。这就好比你在地图上随便指一个点，GPS 都能根据周围的基站精准算出你的位置信息。

5. 模块四：动作生成器 (Action Generator)

作用： 根据融合后的信息，决定手怎么动。

流程：
- 把融合后的特征通过稀疏卷积层进一步聚合。
  - “The fused features are then aggregated into high-level sparse representations using sparse convolution layers：来自于Spatial Aligner的某句话
- 使用 Transformer（Decoder-only）处理这些特征。
- 最后接入一个 Diffusion Head（扩散模型头）。
为什么用 Diffusion？ 扩散模型在生成连续、复杂的动作轨迹方面表现非常好，比传统的预测单一数值更稳定。
输出： 机器人的具体动作（Actions），包括移动位置、旋转角度等。

4.1 Policy Evaluation: RISE-2

（无）

1ji0o's Blog

目录

AirExo-2 RISE2