OpenVLA:开源视觉-语言-动作模型解读
论文解读
OpenVLA
模型
Prismatic-7B VLM
关键组件
视觉编码器
投影器
视觉特征映射到语言嵌入空间
LLM骨干
微调数据集
Open X-Embodiment:包含 970k 个机器人操作轨迹,涵盖多种机器人形态、任务和场景。
微调方法:Lora
推理
量化推理
局限性
仅支持单图输入
推理吞吐量有限
在测试任务的成功率低于90%,可靠性有待提升
参考文献
- 项目主页: OpenVLA
- 代码仓库: GitHub - OpenVLA
OpenVLA:开源视觉-语言-动作模型解读
https://summerchengh.github.io/tech-blog/2025/03/23/机器人-OpenVLA/