多模态问答系统(VLM)实践:图文食谱助手
项目目标
构建一个图文理解助手:输入一道菜的图片 + 简短描述,模型能理解内容并生成做法、配料推荐。
技术选型
多模态模型:BLIP2 or MiniGPT-4
基于BLIP2的图文食谱问答系统
- 使用BLIP2多模态预训练模型,结合公开数据集(Food101 + Recipe1M),构建图文理解食谱问答系统
- 支持上传图片并自动识别菜品,生成配料清单与操作步骤,提升图文交互体验
- 实现微调训练pipeline(包含image encoder, text decoder冻结/解冻策略),效果优于原始BLIP2在该任务表现
多模态问答系统(VLM)实践:图文食谱助手
https://summerchengh.github.io/tech-blog/2025/05/15/大模型-实践-多模态问答系统(VLM)实践:图文食谱助手/