想要更好地控制您的搜索设置?了解我们的灵活的基础设施定价

回到主页Meilisearch 的标志
返回文章

什么是向量嵌入?完整指南 [2025]

了解您需要知道的关于向量嵌入的一切。看看它们是什么,不同的类型,如何创建它们,应用等等。

2025年3月20日阅读时长16分钟
Carolina Ferreira
Carolina FerreiraMeilisearch开发者倡导者@CarolainFG
What are vector embeddings? A complete guide [2025]

向量嵌入是文本、图像、音频和其他数据类型的数值表示。它们通过使用机器学习 (ML) 模型将复杂的、高维数据映射到较低维空间来工作。这使得计算机能够解释非结构化数据、识别模式并支持语义搜索等任务。

常见类型包括词嵌入、图像嵌入和文档嵌入。它们分别使用Word2Vec、卷积神经网络 (CNN) 和Doc2Vec等嵌入算法创建,并放置在语义空间中,其中距离反映概念相似性——例如,“树”和“植物”聚集在“自然”附近。

向量嵌入可用于检索增强系统 (RAG)、搜索引擎和其他应用程序。为此,需要一个向量数据库来高效查询高维数据。这些基础设施需要高昂的工程成本、维护费用和专业技术知识。

在接下来的文章中,我们将详细介绍向量嵌入及其工作原理,并提及该技术的潜在应用、优势和挑战。

什么是向量嵌入?

向量嵌入是一种数值表示,它将文本、图像和文档等复杂数据转换为浮点数的多维数组。它们通常以多维空间中的数字序列表示,其中所有值的组合表征数据输入。

这些嵌入捕获语义关系,允许机器高效处理和比较数据。通过将相似的数据点更紧密地映射到向量空间中,嵌入可以实现各种应用,从自然语言处理 (NLP) 和推荐系统到异常检测、RAG 和问答系统。

许多人工智能应用程序都由向量嵌入提供支持,它们将复杂数据转换为紧凑、语义丰富的表示。

向量嵌入如何工作?

向量嵌入是使用机器学习模型生成的,这些模型接收非结构化数据输入(例如,文本、图像、文档、音频)并创建连续的多维向量,也称为密集向量。

该过程首先在数据集上训练嵌入模型以识别数据中的模式。对于文本,这意味着分析词语关系和上下文序列——模型的例子有Transformer的双向编码器表示 (BERT)、全局向量 (GloVe) 和Word2Vec。在图像中,卷积层检测不同级别的模式,从边缘到复杂形状——通常通过CNN实现。

在训练过程中,模型通过连续优化(通常通过梯度下降)调整向量表示,以最小化损失函数。这确保了语义相似的项目在向量图中映射得更近。

这个多维语义空间提供了一种结构化的方法来衡量关系,使用诸如K-近邻 (KNN) 和余弦相似度等指标来对结果进行排名。

生成的向量根据过程中使用的嵌入算法捕获有关输入数据的复杂细节,例如语义和上下文含义。

向量嵌入有哪些好处?

向量嵌入使系统能够处理和理解复杂数据。以下是这项技术的四个主要好处:

  • 增强结果:公司使用向量嵌入来增强其搜索引擎,并为客户提供更精确、更具上下文相关性的结果。根据Statista研究部门发布的一项研究,美国25%的成年人表示人工智能驱动的搜索引擎提供了更精确的结果,12%的人声称结果更值得信赖。
  • 降低跳出率:提高跳出率的一种方法是通过个性化。企业可以使用向量嵌入根据客户在平台内的历史行为(例如,搜索、保存和购买)提供优化建议。这在医疗保健、食品和电子商务等行业尤为关键,这些行业的跳出率分别为40.94%38.94%38.61%
  • 改进推荐系统:推荐引擎市场预计到2030年将达到381.8亿美元,这得益于改善客户体验的日益增长的需求。向量嵌入捕获细微的模式和客户偏好,随着时间的推移,提高推荐系统的质量。
  • 更好的用户体验:Google Assistant 等语音助手利用音频嵌入来提高语音识别准确性。根据The Business Research Company的这篇文章,语音助手应用程序市场规模近期呈指数级增长。预计2025年将增长72.6亿美元,复合年增长率 (CAGR) 为29.4%。

向量嵌入的不同类型有哪些?

有几种类型的向量嵌入,它们可以从不同的数据源生成,也可以由不同的机器学习模型创建。

让我们看看它们及其区别:

  • 用户嵌入:通过分析用户交互(如点击、购买和会话时长),通过协同过滤或神经网络生成。它们通常为推荐系统提供支持。一个很好的例子是Netflix,它使用用户嵌入来帮助根据观看历史显示内容。
  • 产品嵌入:它们通常从交易数据和产品元数据生成。与用户嵌入一样,它们为亚马逊等电子商务网站中的推荐系统提供支持。然后,该网站可以根据用户之前的购买行为显示产品。
  • 图像嵌入:这些表示视觉特征,如形状、颜色和纹理,使机器能够以数字方式理解图像。这些嵌入是使用卷积神经网络 (CNN),如ResNet或Vision Transformers (ViT) 生成的。它们支持图像搜索(例如Google Lens)和目标检测等应用。
  • 词嵌入:词语的向量表示,捕获语义含义和上下文关系。它们通过使用Word2Vec、GloVe或BERT等模型在大型文本数据上进行训练。词嵌入对于情感分析等任务至关重要,它们有助于将评论分类为正面或负面。
  • 句子嵌入:这些将词嵌入扩展到表示整个句子或短语,捕获其上下文含义。这些嵌入是使用Sentence-BERT或Universal Sentence Encoder等Transformer模型生成的。主要应用包括语义搜索,用于Spotify等搜索引擎中。
  • 文档嵌入:整个文档的数值表示,例如文章或PDF。它们通过聚合词或句子嵌入(例如Doc2Vec)或使用基于Transformer的模型构建。这些嵌入广泛用于RAG系统。

如何创建向量嵌入

创建向量嵌入的过程包括以下关键步骤:How to create vector embeddings.png

  1. 选择您的数据类型:选择文本、图像、文档或其他格式。无论数据源如何,请确保您有足够的训练数据以避免模型过拟合。
  2. 预处理数据:不同的应用程序需要不同的预处理技术。对于文本嵌入,这可能包括删除标点符号、表情符号或不相关的术语以减少噪声。对于图像,预处理可能涉及调整大小或应用数据增强以提高模型性能。
  3. 生成向量嵌入:对预处理后的数据应用适当的嵌入模型,例如用于文本的BERT或用于图像的CNN。然后,生成的向量嵌入在向量图中进行索引,以实现高效检索。
  4. 评估嵌入质量:当处理搜索查询时,检索模型如近似最近邻 (ANN) 或K-近邻 (KNN) 用于信息检索。如果检索结果保持语义或上下文完整性,则无需进一步调整。
  5. 根据需要优化:如果结果不理想,请重新检查训练数据,完善预处理方法,或尝试替代嵌入模型以提高向量嵌入的质量。

这个过程可能耗时且需要一定的专业知识。最新、最先进的模型不一定总能生成最佳向量嵌入,因此确保正确的数据预处理、清理和持续的数据库监控至关重要。

什么是语义空间?

语义空间表示从高维数据(例如单词、短语和图像)派生的向量嵌入。嵌入模型生成的向量嵌入在多维向量空间中聚类,根据它们的含义和模式捕获单元之间的关系。

通过将语言转换为数学坐标,语义空间使机器能够以模仿人类的方式分析上下文、相似性和类比。

语义空间应该进行同类比较。因此,为图像生成的向量图与从单词或句子派生的向量图不同。但是,它们都服务于相同的最终目的:轻松检索信息和语义。

语义空间示例

我们可以用一个简单的例子来说明语义空间。考虑一个具有三个轴的图,它们对应以下语义属性:猫科幼年犬科

Graph 1.png

  • 猫科轴上,我们有
  • 幼年轴上,我们有婴儿
  • 犬科轴上,我们有

通过组合这些轴,我们可以找到交叉点,从而得到更具体的实体。

  • 猫科幼年组合起来就是小猫
  • 幼年犬科组合起来就是小狗

Graph 2.png

通过为这些属性分配数值向量值,我们可以构建一个简单的语义空间。

词语犬科猫科幼年
100
010
婴儿001
小猫011
小狗101

语义空间中的嵌入向量

换句话说,图像是具有浮点数(向量嵌入)的数学表示,根据它们在向量空间中的相似性进行放置。这就是为什么如果用户查询“给我看一只小狗”,即使没有使用正确的关键词,系统也可以检索到“小狗”。

语义空间比前面的例子复杂得多,我们甚至无法用图形表示它,因为它是一个n维空间。

例如,属性并不总是清晰定义的。我们不知道这是否真的是犬科属性,但它与犬科的某些东西相关联,而且狗在这个属性上排名很高。这些数字不是1或0,而是一些实数。

这种复杂性允许对词语和概念如何相互关联有细致的理解。实际的语义空间可能如下所示:

词语犬科猫科幼年
0.9590.00320.022
0.0050.890.0345
婴儿0.020.0010.921
小猫0.00340.970.992
小狗0.9230.00450.842

从这些详细的值中,创建了向量嵌入,以多维向量的形式捕捉每个单词的本质,例如“dog”的[0.959, 0.0032, 0.022]。这些向量不仅仅是将单词放置在空间中;它们构建了一个详细的意义网络,每个方面都旨在揭示单词的含义。具体维度及其代表的含义可能因模型而异,反映了它们所封装的语义复杂性。

向量嵌入在实际应用中的用途是什么?

向量嵌入已成为现代人工智能系统的核心要素,使机器能够以类似人类的理解处理非结构化数据。下面,我们探讨了几个行业的实际应用:

搜索引擎

  • 语义搜索:向量嵌入为语义搜索提供支持,允许搜索引擎解释用户意图,而不仅仅依赖于关键词匹配。例如,Google搜索使用嵌入将查询和文档映射到共享向量空间,根据语义相关性检索结果。
  • 相关性排名:您可以使用向量搜索和神经网络搜索系统根据向量嵌入与用户搜索查询的语义相似性进行排名。这对于根据搜索查询向用户呈现最准确的结果至关重要。

推荐系统

  • 个性化内容交付:Netflix等流媒体服务使用向量嵌入来表示电影,基于类型、演员和用户交互,实现实时推荐。在电子商务行业,向量嵌入表示产品元数据,为用户提供与他们以前的浏览和订单相关的商品。
  • 协同过滤:这假设具有相似过去行为的用户将具有相似的未来偏好。通过交叉两个具有相似兴趣的不同客户订购的产品的向量嵌入,系统可以增强两者的推荐结果。

自然语言处理 (NLP)

  • 大型语言模型 (LLM) 中的文本理解:客户支持系统中的聊天机器人将查询(例如“如何重置我的密码?”)转换为带有LLM的向量,并从语义相似的嵌入中检索预训练的响应(例如“密码更改步骤”)。
  • 机器翻译:Facebook的LASER和多语言无监督或监督嵌入 (MUSE) 等模型生成多语言句子嵌入,从而实现直接的跨语言检索和语言翻译。

欺诈和异常检测

  • 识别异常模式:金融机构使用嵌入将交易模式编码为向量,实时标记异常行为。例如,像Revolut这样的数字银行平台可以在用户交易向量(例如,小额本地购买)突然转变为异常向量(例如,大额国际转账)时检测到欺诈。
  • 行为分析:向量嵌入捕获历史用户活动,例如交易频率、登录时间、设备使用情况和浏览模式。通过将这些行为嵌入到向量空间中,欺诈检测模型可以将新的用户行为与正常模式进行比较,以标记可疑偏差。

图像和视频分析

  • 基于内容的检索Google Lens 和 Pinterest Lens 等平台利用卷积神经网络 (CNN) 从图像生成嵌入。当用户上传照片时,系统会将其映射到嵌入空间中,并在数据库中找到最接近的匹配项。
  • 面部识别:智能手机(苹果的Face ID)和计算机不依赖精确匹配,而是使用向量嵌入来映射面部模式。这使得即使发型、光线、化妆、眼镜或其他物理变化也能准确识别。

向量数据库如何与向量嵌入一起使用?

向量数据库是强大的架构,可有效地存储和检索以向量嵌入形式存在的高维数据表示。这些数据库不处理原始数据,而是索引由机器学习和深度学习 (DL) 模型生成的紧凑数值表示——从文本和图像到音频——捕获底层信息的语义本质。

通过将数据组织到这个高维空间中,向量数据库可以实现快速相似性搜索,从而可以快速识别和检索项目。

想象一下向量嵌入是散布在广阔宇宙中的星星。在这个比喻中,相似性搜索用于找到离您当前宇宙位置最近的星星。实际情况是,这意味着根据搜索查询识别最相关的文档、图像或产品。

为了实现这一点,系统计算查询向量与数据库中存储的其他向量之间的距离,通常使用余弦相似度或欧几里得距离等方法。这些技术测量数据点与查询的距离,类似于确定夜空中星星的相对位置。

Meilisearch这样的向量数据库旨在满足向量嵌入应用的独特需求,例如个性化推荐、基于内容的检索和欺诈检测。

使用向量嵌入有哪些挑战?

虽然向量嵌入在现代具有多种应用,但它们仍然面临重大挑战。下面,我们探讨了三个主要缺点:

可扩展性问题

随着数据集的增长,管理和查询数十亿高维嵌入变得越来越复杂。向量数据库必须处理大量数据,同时保持低延迟以满足推荐系统或欺诈检测等实时应用的需求。

传统索引方法在“维度诅咒”面前举步维艰,即随着维度的增加,搜索算法的效率会降低。

一个很好的例子是文档检索应用程序,例如一个大型科学文章存储库,其中每篇论文都表示为一个高维向量,有时具有数百甚至数千个维度。随着添加更多文档,点往往彼此等距,这使得有效检索相关的科学结果变得困难。这导致查询时间变慢和准确性降低。

解决方案:分层可导航小世界 (HNSW) 图等高级技术有助于缓解这个问题。

语义漂移

向量嵌入在特定数据集上训练,其性能可能因语言、用户行为或领域特定上下文的变化而随时间下降。这种现象被称为语义漂移,当嵌入捕获的关系不再与实际使用情况一致时发生。例如,“病毒”一词在疫情期间可能会改变含义,影响搜索结果或推荐。

这在时尚和电子商务中尤为常见,因为用户的生活方式和趋势可能会随着时间的推移而改变,导致推荐不再符合客户的品味。

在流媒体平台上,用户会看到与他们过去的观看和搜索相关的剧集和电影。但是,如果他们的品味发生巨大变化,他们必须花时间研究才能找到他们想要的东西。

解决方案:为了保持相关性,模型必须定期重新训练和微调。然而,这个过程需要高昂的计算成本和持续的监控,以确保嵌入保持准确和最新。

计算成本

生成和处理向量嵌入需要计算能力,特别是对于大规模或实时应用。训练BERT或对比语言-图像预训练 (CLIP) 等模型需要高性能GPU和大型数据集,这在云计算中花费数千美元。

即使在训练之后,实时查询也会给基础设施带来巨大压力,尤其是在自动驾驶等应用中。自动驾驶汽车依赖于连续的传感器输入——摄像头、激光雷达和雷达——来为其环境中的物体生成嵌入。

这些嵌入帮助车辆实时识别行人、路标和其他车辆。由于每一毫秒都很重要,系统必须高速处理嵌入,同时保持准确性,这需要强大的车载计算硬件和高效的优化技术。这些资源要求使得基于嵌入的解决方案部署和维护成本高昂。

解决方案:AWS、Google Cloud和Azure等云提供商提供可扩展的、按需访问GPU和TPU的功能,从而可以根据工作负载需求进行经济高效的扩展。

开始使用向量嵌入

虽然向量嵌入现在是电力应用不可或缺的技术,但它们也复杂、计算要求高且工程成本高。成功始于选择正确的向量数据库——一个能够优化语义空间中的索引并提供无缝集成、监控和分析的数据库。

借助Meilisearch的开源搜索引擎,用户可以通过直观的云平台轻松上传文档和数据集,或者使用灵活的API将向量数据库集成到现有基础设施中。

常见问题 (FAQs)

下面我们列出有关向量嵌入最常见的问题。

向量嵌入的缺点是什么?

向量嵌入的缺点是由于数据库规模极其庞大而引起的可扩展性问题,这使得信息检索效率低下。还存在语义漂移,通常与用户行为或某些词语的语义含义变化有关。最后,还存在与训练数据相关的计算成本,特别是对于实时用例。

哪些类型的数据可以转换为向量嵌入?

向量嵌入可以应用于多种数据类型。这些包括:

  • 产品元数据,常见于电子商务平台;
  • 用户行为数据,例如流媒体服务的历史观看记录;
  • 图像,使用卷积神经网络 (CNN) 嵌入;
  • 单个词语,常用于翻译系统中的句子,比单个词语提供更多的上下文信息;
  • 文档,可包括PDF等完整文件。

向量嵌入与独热编码有何不同?

向量嵌入与独热编码不同,前者将数据表示为捕获语义关系的密集、低维向量。相反,独热编码使用没有固有含义的稀疏向量。后者表示分类变量,其中每个唯一类别都被分配一个二进制向量,在对应于类别的位置上为“1”,在所有其他位置上为“0”。因此,向量是稀疏的。

使用 Meilisearch 构建您的应用程序

Meilisearch 支持向量搜索和混合搜索,利用向量嵌入的强大功能来提供准确的语义结果。

What is RAG (Retrieval-Augmented Generation) & how it works?

什么是 RAG(检索增强生成)及其工作原理?

RAG(检索增强生成)的完整指南。了解它的含义、工作原理、不同 RAG 类型、RAG 系统的组成部分等等。

Ilia Markov
Ilia Markov2025 年 8 月 14 日
What is search relevance: Everything you need to know

什么是搜索相关性:你需要了解的一切

了解什么是搜索相关性,它对用户体验和业务成果为何如此重要,以及如何通过实用策略和见解来改进它。

Ilia Markov
伊利亚·马尔科夫2025年8月12日
On-site search: Definition, implementation, best practices & more

站内搜索:定义、实现、最佳实践及更多

了解什么是站内搜索、它如何运作、其优势、如何实现、最佳实践等。

Ilia Markov
Ilia Markov2025年8月7日
© . This site is unofficial and not affiliated with Meilisearch.