ElasticSearch ElasticSearchElasticSearch是一个基于Lucene的开源分布式搜索和分析引擎,由Elastic公司开发。它是Elastic Stack(也称为ELK Stack)的核心组件,能够快速存储、搜索和分析海量数据。ElasticSearch以其高性能、可扩展性和灵活性而闻名,被广泛应用于企业搜索、日志分析、实时监控、商业智能等领域。 核心特性1. 分布式架构 水平扩展能力:可以轻 2025-04-10 技术 > 搜索引擎 #搜索 #信息检索 #机器学习
搜索中的索引 简介查询的基本步骤索引结构倒排索引结构化数据各垂类业务帖子的结构化数据包括:属性、标题、正文等。正文通常会采取截断操作,更优的做法是征文做关键词提取、向量索引等,实现更充分的召回。 在索引层面提升召回:同义词、扩展词、语义向量。 查询正排索引向量索引使用faiss、milvus等数据库。 faissfaiss IVF聚类中心的向量ID建到倒排索引。 2025-04-10 技术 > 搜索引擎 #搜索 #信息检索 #机器学习
搜索排序 高频的排序需求按指定字段排序比如:按发布时间、更新时间、价格、距离等排序。 策略排序模型排序机器学习模型排序深度学习模型排序Scorer打分插件打分表达式 2025-04-10 技术 > 搜索引擎 #搜索 #信息检索 #机器学习
搜索架构 搜索架构简介现代搜索引擎架构通常采用分布式系统设计,以处理海量数据和高并发查询。下面介绍一种典型的搜索引擎分层架构。 整体架构图12345678910111213141516171819202122232425 query result ↓ ↑ 2025-04-09 技术 > 搜索引擎 #搜索 #信息检索 #机器学习
MCP协议:增强大模型认知能力的新范式 MCP协议基本概念MCP (Model Context Protocol,模型上下文协议) 是由 Anthropic 在 2024 年底推出的一种开放协议,它通过提供一种标准化的接口,旨在通过标准化的接口实现大语言模型 (LLM) 与外部数据源及工具的无缝集成。 问题 描述 MCP如何解决 上下文碎片化 模型输入只能接收简单串联的 prompt,不擅长处理结构化、多源上下文 MCP定义 2025-04-08 AI > 大模型技术 #AI #Agent #大模型 #认知计算
语义分割:技术发展脉络与大模型时代的解决方案 语义分割:技术发展脉络与大模型时代的解决方案语义分割(Semantic Segmentation)作为计算机视觉领域的基础任务之一,旨在将图像中的每个像素分配到特定的语义类别。与目标检测(产生边界框)和实例分割(区分同类不同实例)不同,语义分割关注的是像素级的分类,为场景理解提供了更精细的视觉信息。本文将梳理语义分割技术的发展脉络,并探讨大模型时代下语义分割的新范式。 一、语义分割的基本概念语义分 2025-04-08 技术 > 人工智能 #深度学习 #计算机视觉 #大模型 #语义分割
大模型-分词器 Tokenizer基于规则基于统计WordPieceByte-Pair Encoding(BPE)tiktoken是OpenAI实现BPE方法。 SentencePiece 2025-04-03 AI > 生成模型 #AI #深度学习 #生成式AI
你的大脑也许根本就不会老:认知能力与年龄的复杂关系 你的大脑也许根本就不会老:认知能力与年龄的复杂关系前言人们普遍认为,随着年龄增长,认知能力会不可避免地下降。这种观念已深入人心:30岁后,大脑开始走下坡路,记忆力减退、学习新事物变得困难、思维速度放缓。然而,来自德国的一项最新研究似乎颠覆了这一长期以来的传统观念。这项研究表明,认知能力的衰退可能并非年龄的必然结果,而更多地取决于一个简单却深刻的原则:使用它,否则就会失去它。 研究概述德国研究团队对 2025-04-02 脑科学 > 认知心理学 #脑科学 #认知能力 #神经可塑性 #生命科学
大模型训练-强化学习篇 强化学习基本概念强化学习涉及以下几个概念:智能体(Agent)、环境(Environment)、状态(State)、行为(Action)、奖励(Reward)。环境由智能体所有时刻的状态组成。智能体在执行行为后,感知环境的状态,根据状态和目标计算奖励函数,并根据策略选择下一个行动。 强化学习在大模型中的核心作用显著提升大模型的推理能力。 强化学习训练框架对比 框架 开发机构 支持算法 主要特性 2025-04-01 AI > 生成模型 > 强化学习 #AI #生成式AI #强化学习