大模型训练推理部署框架 大模型分布式训练框架主流框架对比 框架 开发机构 主要特性 并行策略 优势 适用场景 DeepSpeed Microsoft ZeRO优化器混合精度训练推理优化 数据并行模型并行流水线并行 内存优化易于使用推理支持 大规模预训练微调推理部署 Megatron-LM NVIDIA Transformer优化混合并行序列并行 张量并行流水线并行数据并行 Transformer专门优化高性 2025-08-06 AI > 生成模型 #AI #深度学习 #多模态 #生成式AI
Qwen大模型 参考Qwen3 Technical ReportQwen2.5 Technical ReportQWEN TECHNICAL REPORT 2025-08-02 大模型 > 源码分析 #LLM #大模型 #源码解读 #Qwen
记忆机制设计 记忆机制设计的重要性用户个性化/长期记忆 有限的大模型上下文窗口避免多轮对对话主题漂移 Agent记忆包括短期记忆和长期记忆。记忆内容包括:(1)内部任务信息;(2)跨任务信息;(3)外部知识。 GraphitiGraphiti 构建了具有时间感知的知识图谱,这些图谱会随着时间推移,随着关系和上下文的变化而演变,从而适应智能体的需求。 LettaLetta 是一个开源框架,用于构建具有高 2025-07-20 AI > 应用实践 #AI #Agent #实践
Agent效果优化——上下文工程 生产级Agent评估考量的指标KVCache缓存命中率 效果优化效果的稳定性工具调用在迭代过程中,动态添加或删除工具,容易导致模型选择错误行动或低效路径的概率升高。 在大多数LLM中,工具定义在序列化后位于上下文的前部,通常在系统提示之前或之后。因此任何更改都会使后续所有动作和观察的KV缓存失效。 当先前的动作和观察仍然引用当前上下文中不再定义的工具时,模型会感到困惑。如果没有约束解码,这通 2025-07-19 AI > 应用实践 #AI #Agent #实践
大模型-跟进 AI动态AI技术动态当前最顶尖、活跃在LLM一线AI大牛(排名不分先后),跟进最新动态: Ilya Sutskever(OpenAI联合创始人,GPT系列核心作者) Sam Altman(OpenAI CEO,推动GPT-4、ChatGPT等落地) Andrej Karpathy(前OpenAI、特斯拉AI负责人,LLM与多模态研究) Aidan Gomez(Cohere联合创始人,Transf 2025-07-17 AI > 跟进 #AI #大模型
大模型基础知识-浅析Transformer Transformer基础知识问答1. 什么是自注意力机制(Self-Attention)?自注意力机制是一种能够在序列的每个位置上,根据序列中所有其他位置的信息动态计算表示的方法。它通过计算查询(Query)、键(Key)、值(Value)三组向量之间的相关性分数,实现信息的全局交互。 2. Transformer相比LSTM有哪些优势? 并行计算:Transformer不依赖序列顺序,所有位置 2025-07-04 大模型 > 基础知识 #深度学习 #Transformer #自注意力 #位置编码 #多头注意力
机器人行走策略训练流程 傅立叶N1机器人参考Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning傅立叶机器人行走策略Wiki-GRx-PipelineShapeLLMMastering Diverse Domains through World ModelsDeepM 2025-07-03 Research > AI > Robotics #AI #NLP #Research #Robotics #ComputerVision
追觅科技投资分析:SWOT与行业竞争格局 追觅科技SWOT分析优势(Strengths) 技术创新能力强:拥有自主研发的高速无刷电机、激光雷达导航、AI视觉算法等核心技术。 产品线丰富:涵盖扫地机器人、洗地机、无线吸尘器等多品类,满足不同消费需求。 全球化布局:产品远销欧美、东南亚等多个国家和地区,品牌影响力逐步提升。 供应链与制造能力:自有工厂,垂直整合生产,保障产品质量与成本控制。 劣势(Weaknesses) 品牌认知度有待提升: 2025-06-24 投资分析 > 智能家居 #机器人 #追觅科技 #SWOT分析 #扫地机器人 #产业研究 #芯片产业