Tech Blog

微调语义向量模型

微调语义向量模型评估常用的模型text2vec: https://modelscope.cn/models/lili666/text2vec-word2vec-tencent-chinese BGE-3 BEG-large 微调语义向量模型向量索引faissmilvus参考embedding_model_testAwesome-Sentence-Embedding

2025-06-18

AI > 应用实践

#AI #Agent #实践

Agent效果优化——LLM基础Function Call能力强化

价值Function Call指LLM通过结构化指定调用外部函数/API，将自然语言意图转为可执行命令的能力。解决LLM实效性低（搜索：新闻、天气、股票）、专业领域能力（比如计算器、定酒店、定机票等）差等问题主流应用场景实时数据查询：天气/股票API调用（动态更新结果）自动化任务执行：定酒店+机票+行程规划（多智能体协同）企业系统执行：CRM客户查询+ERP库存更新（

2025-06-18

AI > 应用实践

#AI #Agent #实践

Agent效果优化——提示策略

思维链（Chain of Thought）最大化利用模型的推理能力。 Least-to-most提示Plan & Execute规划执行 React：思考、执行LangChain优化选择：Reflection ReAct思考、执行自我反思三个LLM角色参与者：根据状态观测量生成文本和动作。参与者在环境中采取行动并接受观察结果，形成Trajectory。参与者可以使用思维链、ReAct

2025-06-18

AI > 应用实践

#AI #Agent #实践

文档解析实战结果

开源工具PaddleOCROCR标注工具paddleOCR提供了易用的标注工具，在识别不好的数据上进行标注和训练。 MinerUSteps: 文档预处理PyMuPDF过滤掉不能处理（比如加密文档）的文档，提取PDF metadata：文档分类、语言类型、页码等语言识别主要支持中、英文识别，作为OCR识别的参数。乱码识别提前识别乱码，保证OCR识别文字的效果。扫描PDF识别基于文本的PDF，直接使

2025-06-18

AI > 应用实践

#AI #Agent #实践

TTS大模型与API报价

TTS大模型效果最好的API及报价1. ElevenLabs 效果：业界公认最自然、情感丰富，支持多语种和自定义声音克隆。 API报价（2024年6月）：免费额度：每月1万字符 Starter：$5/月，10万字符 Creator：$22/月，50万字符 Independent Publisher：$99/月，200万字符超额部分约$0.30/10万字符

2025-06-15

语音助手 > 人工智能

#AI #TTS #语音合成

ASR大模型与API报价

ASR大模型效果最好的API及报价1. OpenAI Whisper API 效果：多语种、强鲁棒性，支持长音频，准确率高。 API报价（2024年6月）： $0.006/分钟（标准模型） $0.012/分钟（大模型）官方文档 2. Google Cloud Speech-to-Text 效果：多语种、实时识别、支持自定义词汇。 API报价（2024年6月）：标准模型

2025-06-11

语音助手 > 人工智能

#AI #ASR #语音识别

Speculative Decoding

Speculative Decoding简介Speculative Decoding（投机解码）是一种用于加速大语言模型（LLM）推理生成速度的技术。其核心思想是利用一个轻量级的”草稿模型”先行生成多个候选token，然后用主模型（大模型）并行验证这些候选token，从而减少主模型的推理轮数，大幅提升生成效率。原理与流程草稿模型生成：使用一个小模型（如蒸馏模型、低精度模型）基于当前上下文一次性

2025-06-11

Research > AI

#AI #LLM #Research

基于本地知识库的智能问答

多轮问答优化受限于LLM的上下文窗口，多轮问答可能出现“偏离主题”等问题。常见的解决方案MemoryOS在LoCoMo上，其在F1和BLEU-1分数上分别实现了平均 49.11%和46.18%的提升它通过分层的方式来管理记忆，分为短期、中期以及长期记忆，使AI能更高效的处理信息可以自动更新，系统会自动把短期记忆整合到中期记忆中，中期记忆的内容如果被频繁使用，就会被分析，关键信息会被存到长期记

2025-06-10

AI > 生成模型

#AI #深度学习 #生成式AI

KVCache

大模型推理Prefill + Decode 分离 KVCache解决的是什么问题？回顾Transformer的Decoder结构，在decode阶段，模型进行推理时，预测t位置的token，会用到前t-1个token，序列token的key、value向量会被重复计算，KVCache通过缓存已计算token的key、value向量降低冗余计算。实现缓存结构（Pytorch示意）kv_cache

2025-06-10

Research > AI

#AI #LLM #Research

儿童优势发现与评估

优势评估协作速配

2025-06-09

教育 > 人工智能

#AI #教育