
如果你让一台传统机器人”把桌上的红色杯子递给我”,它大概率会宕机,因为没有事先给它写好”识别红色杯子”和”递东西”这两个动作的程序。传统机器人能做的,是在确定环境里执行确定动作,规则写死了,遇到没见过的东西就卡壳。VLA 模型(Vision-Language-Action Model,视觉语言动作模型)的出现,试图从根本上打破这个限制。它让机器人能够”看懂”环境、”听懂”指令,并直接输出应该怎么动,它不需要人提前把每一个动作都写成代码。
这正是为什么 VLA 被称为具身智能的”大脑”,它是让机器人从”执行程序”变成”理解意图”的关键技术跨越。如果你对 Physical AI 的感知-决策-执行完整闭环还不熟悉,建议先读 《什么是 Physical AI?底层技术逻辑、应用场景和商业价值》
一. VLA 是什么
VLA,全称 Vision-Language-Action Model,中文通常译作视觉语言动作模型。顾名思义,它是一个同时处理三种信息的 AI 模型:
- Vision(视觉):看摄像头拍到的图像,理解当前环境里有什么、在哪里
- Language(语言):听或读人类发出的指令,理解”要做什么”
- Action(动作):输出机器人的控制指令,告诉电机”怎么动”
在 VLA 出现之前,机器人领域已经有了视觉模型(能看)和语言模型(能说),但两者是分离的,动作规划又是另一套单独的系统。VLA 的核心突破在于:把这三件事放进同一个模型里端到端地完成,视觉、语言、动作之间不再有”翻译”的断层。
举一个具体的例子:你对机器人说”帮我把左边那个蓝色的瓶子放到抽屉里”。
- 传统方式:视觉系统检测物体 → 把坐标传给规划模块 → 规划模块生成轨迹 → 控制器执行轨迹。每一步都是独立的模块,每一步都可能引入误差,任何一步遇到没预设的情况就卡死。
- VLA 方式:模型同时接收摄像头画面和语音指令,直接输出手臂每一个关节应该怎么运动的控制序列。端到端,一气呵成。
二. VLA 的技术架构:三个模块如何融合
视觉编码器:给机器人一双”能理解”的眼睛
VLA 的视觉部分通常基于预训练的视觉基础模型,如 ViT(Vision Transformer)或 CLIP 的视觉编码器。这些模型能把摄像头图像转化成高维的语义特征向量,不只是”看到像素”,而是”理解物体”——识别这是一个杯子、它是蓝色的、它在桌子左侧、距离机械臂大约 40 厘米。
现代 VLA 通常支持多摄像头输入,机械臂腕部的近景摄像头和环境全局摄像头同时工作,分别提供精细操作所需的局部视觉和空间定位所需的全局视觉。
语言编码器:让机器人听懂人话
VLA 的语言部分通常直接复用大语言模型(LLM)的文本编码能力,或基于预训练语言模型微调而来。这使得 VLA 能够理解自然语言指令——不需要用特定格式的命令,说”把那个红苹果拿给我”和”请将左侧的苹果递过来”,模型都能理解是同一个意图。
更重要的是,语言编码器让 VLA 具备了一定的常识推理能力。比如”把易碎的东西轻拿轻放”,机器人不需要被单独告知哪些东西易碎——从语言模型的预训练知识里,它已经知道玻璃杯和陶瓷碗需要小心对待。
动作解码器:把理解翻译成运动
动作解码器是 VLA 区别于普通多模态大模型的关键部分。它接收视觉和语言的融合表示,输出机器人的动作序列——通常是每个关节的角度变化、末端执行器的位置和夹取力度等低级控制信号。
动作解码器的设计是当前 VLA 研究中挑战最大的部分。机器人动作的维度极高(一个人形机器人可能有 30+ 个自由度需要同步控制),动作序列还需要满足物理约束(不能超过关节极限、不能与障碍物碰撞),并且对实时性要求极高——控制频率通常需要达到 50Hz 甚至更高。
三. VLA 和传统机器人控制的本质差别
理解 VLA 的价值,需要先理解它在解决什么问题。
传统机器人控制体系建立在一个核心假设上:世界是可以被完整描述的。工程师提前把所有可能的场景、物体、动作都定义好,机器人按图索骥。这套方案在结构化环境里(比如汽车流水线)运转得很好——工位固定、零件固定、动作固定。
但真实世界不是流水线。家里的杯子可能放在不同位置,指令可能用不同措辞,光线条件每天不同,桌面上的杂物每次各异。传统方案在非结构化环境里的泛化能力极差,遇到任何没有预定义的情况就失败。
| 对比维度 | 传统机器人控制 | VLA 模型驱动 |
|---|---|---|
| 指令方式 | 结构化命令,格式固定 | 自然语言,随意表达 |
| 对新场景的适应 | 需重新编程 | 依靠泛化能力自适应 |
| 对新物体的处理 | 无法识别,任务失败 | 依靠视觉理解尝试操作 |
| 开发成本 | 每个任务单独开发,高 | 一个模型覆盖多任务,低 |
| 常识推理 | 无,需要显式编程 | 继承语言模型的世界知识 |
| 计算资源要求 | 低,边缘端即可运行 | 高,通常需要云端或强力边缘算力 |
VLA 的代价是计算量大和对延迟的极度敏感——模型推理需要时间,而机器人等不了太久。这也是 VLA 落地过程中,通信和算力基础设施成为关键瓶颈的根本原因。
四. 主流 VLA 模型盘点
以下这些模型,通常也被称为”具身大模型”。关于具身大模型、具身智能和 Physical AI 三个概念的区别,见 《Physical AI、具身智能、具身大模型,这三个词到底有什么区别?》
NVIDIA GR00T N1.6
英伟达 2026 年 1 月发布的 GR00T N1.6,是目前最受关注的开放式人形机器人基础模型。它基于英伟达的 Isaac 机器人平台构建,支持跨机器人形态的迁移学习,开发者可以在此基础上针对特定任务进行微调。GR00T N1.6 的一个关键特性是与 Isaac Sim 仿真平台深度集成,支持在虚拟环境中生成大量训练数据,再迁移到真实机器人上——大幅降低了真机训练的成本和风险。
Google Gemini Robotics
谷歌 DeepMind 于 2025 年推出 Gemini Robotics,2026 年更新至 Gemini Robotics 1.5。该模型直接基于 Gemini 多模态大模型构建,继承了 Gemini 强大的视觉理解和语言推理能力。Gemini Robotics 在灵巧操作(Dexterous Manipulation)方面表现突出,能够完成折叠衣物、组装乐高积木等需要精细手部控制的复杂任务,是目前通用操作能力最强的模型之一。
Physical Intelligence π0(pi-zero)
Physical Intelligence 是一家专注于机器人基础模型的美国创业公司,其 π0 模型采用了独特的”流匹配(Flow Matching)”动作解码架构,生成的动作序列更平滑、更符合物理约束。π0 在折叠衣物、整理杂物等家居场景中展示了令人印象深刻的泛化能力——这些任务对传统机器人来说极具挑战性,因为物体形态多变、操作步骤不确定。
国内代表性进展
国内在具身大模型方向同样有密集投入。智元机器人、宇树科技、傅利叶智能等头部机器人企业均在自研具身大模型;高校和研究机构(清华、北大、上交等)也有多个开源具身大模型项目发布。整体来看,国内模型在特定垂直场景(如工业操作)的性能已接近国际水平,在通用操作泛化能力上仍有差距。
五. 世界模型:VLA 的”想象力”
与 VLA 模型紧密相关的,是近两年越来越受重视的世界模型(World Model)概念。
VLA 模型解决的是”看到什么,做什么动作”的问题;世界模型解决的是”如果我这样做,接下来会发生什么”的问题。
一个有世界模型的机器人,可以在真正动手之前,在内部”想象”一下操作的结果:如果我从这个角度夹取,物体会不会滑落?如果我把这个东西放在那里,会不会破坏旁边的东西的平衡?通过内部推演排除风险方案,再执行最优方案。
这个能力对于提升机器人在陌生场景下的成功率至关重要。没有世界模型,机器人只能靠”试错”来学习,每次失败都有可能带来真实的物理损伤;有了世界模型,大量的”试错”可以在模型内部完成,真实执行的动作已经是经过筛选的高置信度方案。
目前,世界模型通常作为独立模块与 VLA 结合使用,或直接集成进 VLA 的规划层。英伟达的 Cosmos 平台、Figure AI 的 Helix 系统,都包含了不同形式的世界模型组件。
六. VLA 的当前局限
VLA 是一个仍在快速发展的技术方向,当前版本存在几个明显的局限,开发者在选型时需要清醒认识。
推理延迟高
现有主流 VLA 模型的单次推理时间通常在 100ms 到 500ms 之间。对于需要高频控制(50Hz 以上)的精细操作任务,这个延迟远远不够。工业上通常通过”预测动作块(Action Chunking)”——一次推理输出未来若干步的动作序列——来缓解这个问题,但根本矛盾没有解决。
训练数据稀缺
语言模型有海量网络文本可以训练,图像模型有数十亿图片可以训练,但机器人操作数据的采集极其昂贵——每条数据都需要真实机械臂在真实环境里完成一次操作。这使得 VLA 的训练数据规模远低于语言或视觉模型,泛化能力受到根本限制。数据稀缺是当前具身大模型领域最核心的瓶颈之一。
从仿真到真实的迁移差距
在仿真环境中训练的模型,迁移到真实机器人时往往出现明显的性能下降——因为仿真中的物理属性(摩擦系数、柔性材料形变、光照变化)无法完美复刻真实世界。如何缩小”仿真到真实(Sim-to-Real)”的差距,是当前研究的重要课题。
长时序任务的规划能力不足
现有 VLA 在执行需要多步骤、长时程规划的复杂任务时(比如”帮我准备一份早餐”)表现仍然较弱。模型容易在中间某个步骤失败后无法自我纠错,缺乏对整体任务目标的持续追踪能力。
七. VLA 推理结果如何”送达”机器人
理解了 VLA 模型的工作原理,还有一个容易被忽视的问题:VLA 的推理结果,是怎么传递给机器人执行端的?
大多数 VLA 模型的推理运行在云端服务器或高性能边缘计算节点上,而机器人的执行端(电机控制器)在设备本地。推理结果——一串关节角度指令——需要通过网络实时传输到设备端,才能驱动机器人运动。
这里有一个严苛的时间窗口:从 VLA 完成推理到机器人开始执行,整个传输过程必须在几十毫秒以内完成。一旦超时,动作指令就会失去时效性,机器人要么停下来等待下一帧指令,要么执行了一个已经”过期”的动作,两种情况都可能导致操作失败甚至碰撞。
这个问题在 VLA 系统里尤其突出。VLA 的推理本身需要时间,留给传输的时间窗口就更窄。工程上常见的解法是 Action Chunking,一次推理输出未来若干步的动作序列,用”预测缓冲”换时间。但这只是治标:如果传输本身不稳定,缓冲序列执行到一半丢包,机器人照样会卡住。
换句话说,VLA 把对通信层的要求推向了一个新高度:不只要低延迟,还要低抖动、低丢包、在弱网下依然可靠。这三点加在一起,是传统 IoT 通信方案很难同时满足的。
声网在实时音视频通信领域积累的抗弱网算法和全球低延迟节点网络,正在被用于解决这类 Physical AI 系统的通信瓶颈。
这正是实时通信基础设施在 Physical AI 系统中的关键价值所在。声网在实时音视频通信领域积累的抗弱网算法和全球低延迟节点网络,正在被用于解决这类 Physical AI 系统的通信瓶颈;在弱网和网络抖动场景下,声网的自适应传输算法也能保障指令的可靠到达。
如果你正在基于 VLA 模型构建 Physical AI 产品,欢迎了解声网对话式 AI 开发套件和AI 机器人解决方案。
