OpenVLA：开源视觉-语言-动作模型解读

论文解读

OpenVLA

模型

Prismatic-7B VLM

关键组件

视觉编码器

投影器

视觉特征映射到语言嵌入空间

LLM骨干

微调数据集

Open X-Embodiment：包含 970k 个机器人操作轨迹，涵盖多种机器人形态、任务和场景。

微调方法：Lora

推理

量化推理

局限性

仅支持单图输入

推理吞吐量有限

在测试任务的成功率低于90%，可靠性有待提升

参考文献

项目主页: OpenVLA
代码仓库: GitHub - OpenVLA

Research > AI > Robotics

#AI #NLP #Research #Robotics #ComputerVision

OpenVLA：开源视觉-语言-动作模型解读

https://summerchengh.github.io/tech-blog/2025/03/23/机器人-OpenVLA/

Author

Your Name

Posted on

March 23, 2025

Licensed under

PaLM-E解读 Previous

QuasiSim: Quasi-Physical Simulators for Dexterous Manipulations Transfer Next