具身智能综述:发展历程与未来展望
具身智能综述:发展历程与未来展望
具身智能起源
具身智能(Embodied Intelligence)是指通过物理或虚拟身体与环境互动来学习和适应的智能形式。这一概念最早由认知科学家提出,认为智能不仅仅是抽象的计算过程,更是一种与身体和环境密切相关的适应性能力。在人工智能领域,具身智能的研究旨在创造能够感知环境、做出决策并执行动作的智能系统。
关键技术与方法
具身智能研究涉及多个技术领域的融合,包括:
- 多模态学习:整合视觉、语言、触觉等多种输入信号
- 强化学习:通过尝试与环境互动来学习最优策略
- 仿真环境:为智能体提供安全、可控的学习场景
- 迁移学习:将模拟环境中学到的知识迁移到真实世界
一:训练数据来源、动作预测策略、模型训练方法
VLM和VLA中的动作预测
端到端及其发展之路
借鉴大语言模型的发展之路
参考文献
Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions
Huang, S., Xu, C., Yu, B., & Li, S. (2023). Language models as embodied agents.
具身智能综述:发展历程与未来展望
https://summerchengh.github.io/tech-blog/2025/03/24/具身智能-综述/