VLA相关

2026-01-28 研究 VLA（Vision-Language-Action）模型，目前的论文路径非常清晰：从 Google DeepMind 的开创性工作开始，到目前的开源大模型方案。

建议你按照以下顺序阅读，这能帮你理清 VLA 是如何从 LLM/VLM 演变而来的：

这两篇论文定义了 VLA 的基本架构，是绕不开的经典。

RT-2: Vision-Language-Action Models (2023)
- 地位： VLA 的“成名作”。
- 核心： 首次提出了将机器人动作（Action）直接映射为文本 Token。它证明了在海量视觉语言数据上预训练的模型，只需要少量的机器人数据微调，就能拥有极强的泛化能力（即解决你之前问的 OOD 问题）。
- 必读理由： 理解如何把“看、说、做”统一到一个大模型里。
RT-1: Robotics Transformer (2022)
- 核心： RT-2 的前身，虽然还没用到超大规模的 VLM，但它构建了机器人动作序列化（Tokenization）的基础架构。
- 必读理由： 理解机器人动作是如何被转换成模型能听懂的“数字序列”的。

Open X-Embodiment: Robotic Learning at Scale (2023)
- 地位： 机器人界的 ImageNet。
- 核心： 汇集了全球 20 多个机构、22 种机器人型号、100 万条轨迹的数据集。
- 必读理由： VLA 之所以能有泛化性，全靠这个巨大的数据集。这篇论文解释了“跨机型、跨任务”训练是如何实现的。

如果你想动手跑代码或者深入研究细节，这两篇比 Google 的闭源模型更重要。

OpenVLA: An Open-Source Vision-Language-Action Model (2024)
- 地位： 目前开源社区最火、性能最强的 VLA。
- 核心： 基于 Llama 和 Prismatic-VLM 架构，在 Open X-Embodiment 数据集上训练。它提供了非常容易使用的推理代码。
- 必读理由： 它是目前学术界研究 VLA 的“标准底座”。
Octo: An Open-Source Generalist Robot Policy (2023)
- 核心： 采用 Transformer 架构，支持灵活的输入（可以只输入指令，也可以只输入目标图）。
- 必读理由： 学习如何设计一个灵活的、可扩展的通用机器人策略。

这部分回答了你第一个问题：如何结合 VLA 的大脑和 Diffusion 的精准动作。

π0 (pi-zero): Original Multimodal Autoregressive Transformer (2024)
- 背景： 来自 Physical Intelligence (π) 公司的重磅论文。
- 核心： 它将**流匹配（Flow Matching，扩散模型的一种变体）**集成到大模型里。VLA 负责高层逻辑，扩散机制负责输出高频、丝滑的动作。
- 必读理由： 代表了 2024-2025 年最前沿的方向——大模型与连续动作生成的最优结合。

如果你时间有限，建议按照这个顺序：

小建议： 读这些论文时，重点看它们的 “Action Tokenization”（动作如何编码） 和 “Unseen Generalization”（面对没见过的情况表现如何） 章节，这能让你对 VLA 处理 OOD 的能力有最直观的科学认识。

1ji0o's Blog