OpenVLA:开源视觉-语言-动作模型解读

论文解读

OpenVLA

模型

Prismatic-7B VLM

关键组件

视觉编码器

投影器

视觉特征映射到语言嵌入空间

LLM骨干

微调数据集

Open X-Embodiment:包含 970k 个机器人操作轨迹,涵盖多种机器人形态、任务和场景。

微调方法:Lora

推理

量化推理

局限性

仅支持单图输入

推理吞吐量有限

在测试任务的成功率低于90%,可靠性有待提升

参考文献


OpenVLA:开源视觉-语言-动作模型解读
https://summerchengh.github.io/tech-blog/2025/03/23/机器人-OpenVLA/
Author
Your Name
Posted on
March 23, 2025
Licensed under