视频生成 视频生成照片+提示生成 视频风格 基于大模型的视频生成核心技术 扩散模型(Diffusion Models):当前主流的视频生成方法,支持高质量帧生成和多模态输入(如文本、图片、音频)。 时序一致性建模:通过3D卷积、时序Transformer等结构,保证视频帧之间的连贯性和流畅性。 文生视频(Text-to-Video, T2V):利用大语言模型和视觉模型,将文本描述转化为连续视频片段。 多模态 2025-05-23 AI > 生成模型 #AI #深度学习 #生成式AI #视频
AutoGen简介 简介通过多智能体协作,AutoGen 框架能够有效地解决单智能体系统在处理复杂任务时的局限性,例如缺乏反思能力、工作记忆和感知能力等。 可定制性和可扩展性:选择、配置不同的智能体和功能, 实现定制化功能,也支持扩展智能体的能力。 记忆机制RAG基于chroma向量数据库实现的RAG存储机制。核心向量索引技术是基于hnswlib库实现的HNSW算法 向量数据库AutoGen使用ChromeDB而不是 2025-05-22 AI > 应用实践 #AI #Agent #实践
多模态问答系统(VLM)实践:图文食谱助手 项目目标构建一个图文理解助手:输入一道菜的图片 + 简短描述,模型能理解内容并生成做法、配料推荐。 技术选型多模态模型:BLIP2 or MiniGPT-4 基于BLIP2的图文食谱问答系统 使用BLIP2多模态预训练模型,结合公开数据集(Food101 + Recipe1M),构建图文理解食谱问答系统 支持上传图片并自动识别菜品,生成配料清单与操作步骤,提升图文交互体验 实现微调训练pi 2025-05-15 AI > 生成模型 #AI #深度学习 #多模态 #生成式AI
大模型-研究助手 研究助手DeepResearchTiny-Scientist is a lightweight, user-friendly framework for automating the entire lifecycle of scientific research—from ideation to implementation, writing, and review. Designed for f 2025-05-08 Research > Academic #Research #AcademicSkills #PaperReading #Methodology
DeepSeek开源大模型源码解读 DeepSeek开源大模型源码解读1. 模型概述 DeepSeek模型简介 模型规模与性能指标 开源许可与使用限制 2. 代码结构分析 项目目录结构 核心模块与功能划分 依赖关系 3. 模型架构 Transformer架构变体 注意力机制实现 位置编码方案 激活函数选择 3.1 Multi-head Linear Attention (MLA) 实现分析DeepSeek模型中的MLA实现是其 2025-05-02 大模型 > 源码分析 #LLM #大模型 #DeepSeek #源码解读
大模型一体机 deepseek一体机满血DeepSeek一体机671B参数、FP8原版 14.9万元 22 tokens/s 参考https://mp.weixin.qq.com/s/luK0nlylq5faBytZ6Pvc1Q 2025-05-01 AI > 生成模型 #AI #深度学习 #生成式AI
AI驱动的3D建模:技术现状与未来展望 AI驱动的3D建模:技术现状与未来展望引言近年来,生成式AI技术在图像、文本、音频等领域取得了突破性进展,而3D建模领域也正在经历AI带来的变革。传统3D建模需要专业技能和大量时间投入,但AI技术正在降低入门门槛,提高创作效率。本文将深入探讨AI驱动3D建模的最新技术动态、代表性工具及其潜力与局限性。 AI驱动3D建模的技术路径当前AI驱动3D建模主要沿着几条技术路径发展: 1. 文本到3D生成基 2025-05-01 技术前沿 > 3D技术 #人工智能 #3D建模 #生成式AI #虚拟环境
论文解读系列-任务向量做模型编辑为何有效? 背景任务向量(task vector)指微调得到的模型与预训练模型之间的权重差值。将不同的任务向量进行线性算数运算后叠加在一个预训练模型上可以直接赋予该模型新的能力,比如多任务学习、机器遗忘、分布外泛化等,这种基于任务向量的直接运算对模型进行编辑做下游任务预测的方法称为任务运算。该文章为任务加减法运算的有效性提供了一个特征学习的理论框架。 参考When is Task Vector Provabl 2025-04-23 AI > LLM #AI #深度学习 #LLM