Meilisearch 1.9

Meilisearch 1.9 带来了相似文档、排序分数阈值、按属性分组以及改进的 AI 搜索功能。

发布

2024年7月2日4分钟阅读

Laurent Cazanove开发者体验工程师@StriftCodes

分享文章

本文目录

新参数：`regenerate`突破性变更：空`embeddings`数组突破性变更：搜索结果中移除`_vectors`突破性变更：优化用户提供的`embeddings`

我们很高兴推出 Meilisearch v1.9。在本文中，我们将回顾最具影响力的更改。如需完整列表，请查看 GitHub 上的更新日志。

Meilisearch 1.9 也可在 Meilisearch Cloud 上使用——立即升级！

新功能：排名分数阈值

Meilisearch 1.9 允许排除排名分数较低的搜索结果。使用新的 rankingScoreThreshold 选项时，Meilisearch 将不会返回低于指定阈值的任何文档。

curl 
 -X POST 'https://:7700/indexes/movies/search' 
 -H 'Content-Type: application/json' 
 --data-binary '{
    "q": "green ogre living in a swamp",
    "hybrid": { 
	    "semanticRatio": 0.9, 
	    "embedder": "default" 
	},
    "showRankingScore": true,
    "limit": 5,
    "rankingScoreThreshold": 0.2
 }'

在实现混合搜索时使用排名分数阈值可以消除不相关的结果，并允许您的搜索分析正确收集“无搜索结果”指标。

被排除的结果不计入 estimatedTotalHits、totalHits 或分面分布。

新功能：搜索时唯一属性（分组）

Meilisearch 1.9 增加了在搜索时定义唯一属性的功能。使用新的 distinct 搜索参数时，Meilisearch 将只返回一个具有指定属性值的文档。

此功能通常用于电子商务应用程序。考虑一个 products 索引，其中包含同一产品的多个变体，例如 蓝色 iPhone 15 和 红色 iPhone 15 文档，它们共享相同的 product_id。下面的 API 调用将返回*单个* iPhone 15。

curl 
 -X POST 'https://:7700/indexes/products/search' 
 -H 'Content-Type: application/json' 
 --data-binary '{
    "q": "iphone",
    "distinct": "product_id"
 }'

当提供 distinct 时，Meilisearch 会忽略索引的唯一属性。

新功能：`frequency` 匹配策略

Meilisearch 1.9 引入了一种新的匹配策略，用于优先处理包含最不常见查询词的文档。当使用 frequency 匹配策略时，Meilisearch 将降低非常常见词语的优先级。

以查询 "小王子" 为例。在我们的索引文档中，词语 "的" 和 "小" 很可能出现很多次。因此，匹配策略将优先处理包含 "王子" 的文档。

实验性：新的相似文档 API

Meilisearch 1.9 引入了一个新的人工智能搜索功能，允许搜索与现有文档相似的文档。

以下 API 调用搜索在电影索引中，其主键为 23 的相似文档

curl 
  -X POST /indexes/movies/similar
  -H 'Content-Type: application/json' 
  --data-binary '{
    "id": "23",
    "embedder": "default",
  }'

有关更多附加参数的信息，请查看相似文档 API。

实验性：避免重新生成嵌入

当导入使用 Meilisearch 1.9 或更高版本创建的转储时，Meilisearch 将不会重新生成嵌入。这将避免在升级 Meilisearch 数据库时进行不必要的计算。

新功能：`regenerate` 参数

此外，Meilisearch 1.9 引入了一个新的 API，可以更精细地控制文档嵌入生成。具体来说，它在文档更新时启用嵌入生成。

文档 _vectors 对象现在除了数组外，还接受对象。提供的对象接受一个 regenerate 布尔值和一个可选的 embeddings 数组。

请考虑以下带有用户提供的嵌入的示例文档

{
	"id": 42,
	"_vectors": {
		// Embeddings for the `default` embedder
		// Equivalent to `regenerate: true`
		"default": [0.1, 0.2 ],
		// Embeddings for the `text` embedder
		"text": {
			"embeddings": [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]],
			// Never regenerate embeddings
			"regenerate": false
		},
		"translation": {
			"embeddings": [0.1, 0.2, 0.3, 0.4],
			// Regenerate embeddings when document is updated
			"regenerate": true
		}
	}
}

虽然通常情况下，您可能希望在文档更新时重新生成嵌入，但这有助于从用户提供的嵌入迁移到让 Meilisearch 处理嵌入，而不会产生不必要的成本。

实验性：混合搜索重大变更

随着我们迈向稳定 AI 搜索功能，我们引入了一些细微的突破性更改，以使 API 更不易出错。

突破性变更：空 `embeddings` 数组

根据用户反馈，之前的行为出乎意料且无益，现在提供一个空的 embeddings 数组将告诉 Meilisearch 该文档没有嵌入。

在 Meilisearch 1.9 之前，一个空的 embeddings 数组被解释为维度为 0 的单个嵌入。

突破性变更：搜索结果中移除 `_vectors`

从 Meilisearch 1.9 开始，对向量搜索和混合搜索请求的 API 响应将不再包含 _vectors。

但是，如果您希望 API 响应包含它们，现在可以使用新的 retrieveVectors 搜索参数

curl 
  -X POST 'https://:7700/indexes/movies/search' 
  -H 'Content-Type: application/json' 
  --data-binary '{
    "q": "star wars",
    "retrieveVectors": true
  }'