
我们宣布发布Meilisearch 1.6。让我们深入了解一些最重要的变化。您也可以在GitHub上查看完整变更日志。
Meilisearch 1.6也已在Meilisearch Cloud上提供,包括所有实验性功能。
实验性功能:混合搜索
Meilisearch引入了混合搜索。它结合了全文搜索和语义搜索,以提高搜索结果的准确性和全面性。想象一个像where2watch这样的电影应用。现在,您的用户将能够找到那些他们记不住名字但记得故事情节的电影。
此外,Meilisearch现在简化了向量嵌入的创建。选择您偏好的嵌入器,Meilisearch将为您处理与外部工具的所有交互。
配置嵌入器
您可以在索引设置中配置嵌入器。根据您的需求选择三种类型的嵌入器:
openAI
:
- 使用OpenAI API 计算嵌入
- 需要OpenAI API密钥才能运行
huggingFace
:
- 通过从HuggingFace Hub下载模型,实现嵌入的本地计算
- 在您的CPU(而非GPU)上运行,这可能会影响索引性能
userProvided
:
- 功能类似于Meilisearch v1.3,但有一个关键区别:您必须定义一个特定的嵌入器
- 允许您将预计算的嵌入添加到您的文档中。您可以使用向量而不是文本进行搜索。
要使用混合搜索,请在索引设置中定义至少一个嵌入器
{ "embedders": { "default": { "source": "openAi", "apiKey": "<your-OpenAI-API-key>", "model": "text-embedding-ada-002", "documentTemplate": "A movie titled '{{doc.title}}' whose description starts with {{doc.overview|truncatewords: 20}}" }, "image": { "source": "userProvided", "dimensions": 512 }, "translation": { "source": "huggingFace", "model": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", "documentTemplate": "A movie titled '{{doc.title}}' whose description starts with {{doc.overview|truncatewords: 20}}" } } }
documentTemplate
字段充当创建文档嵌入的蓝图。它使用Liquid模板语言。虽然它的包含是可选的,但强烈建议使用,尤其是因为嵌入模型针对简洁的文本进行了优化。它只保留必要的内,排除非必要数据,例如id
,并有助于添加上下文以提高相关性。
混合搜索
要执行混合搜索,请在POST /index/:index_uid/search
路由中使用hybrid字段。
{ "q": "Plumbers and dinosaurs", "hybrid": { "semanticRatio": 0.9, "embedder": "default" } }
embedder
:您的索引设置中配置的嵌入器选项之一。
semanticRatio
:浮点值,范围从0
到1
;1
表示完全语义搜索;0
表示精确、匹配的全文搜索;默认值为0.5
,表示混合两种方法。
您对语义比例的控制直接影响搜索结果的排名。较高的语义比例会将重点转向查询背后的上下文和含义,对语义相关性更高的结果进行更高排名。
另一方面,较低的语义比例会增加排名过程中关键词准确性的权重,使与您的特定搜索词紧密匹配的结果排在最前面。
实验性向量搜索API的突破性变更
Meilisearch v1.6引入了向量搜索API的一些突破性变更。
以前,您可以在不指定模型的情况下发送向量。现在,您必须在设置中定义一个模型。
"embedders": { "default": { "source": "userProvided", "dimensions": 512 } }
由于Meilisearch现在支持多个嵌入器,它已将向量提交格式从数组更新为JSON对象。
- 以前的格式:
“_vectors”:[[0.0, 0.1]]
- 新格式:
“_vectors”:{“image2text”:[0.0, 0.1, …]}
有关这些更新的详细信息,请参阅文档。
有关深入的技术信息,请浏览基于Spotify的Annoy并用Rust开发的开源存储库Arroy的系列文章。这个由Meilisearch引擎团队创建和维护的库专门用于在空间中搜索靠近指定查询向量的向量。
性能优化
改进的索引速度
我们很高兴分享Meilisearch索引性能的重大改进。我们最近的测试,包括频繁和部分文档更新的场景,都显示出令人印象深刻的结果:索引时间减少了高达50%,在某些情况下,甚至高达75%。
得益于我们最新的优化,Meilisearch现在存储和预计算的数据更少。此外,在文档更新期间,它只重新索引或删除必要的数据。例如,在电子商务数据集中,更新产品的库存水平只会重新索引“库存”字段,而不是整个产品文档。
减少磁盘空间使用
Meilisearch减少了内部数据存储,从而使磁盘上的数据库大小更紧凑。对于大约15MB的数据集,我们观察到数据库大小减少了40%到50%。
此增强功能不仅减少了数据库大小,而且还提高了其稳定性,随着文档数量的增加,空间节省将更加明显。
新功能:自定义近似度精度
为了进一步提高索引速度,Meilisearch现在允许您根据特定需求调整近似度排名规则的准确性。
近似度排名规则计算量大,可能导致索引时间延长。降低其准确性可以大大提高性能,在大多数情况下,它不会实质性影响结果的相关性。
要调整其影响,请配置proximityPrecision
设置
curl -X PATCH 'http://:7700/indexes/books/settings/proximity-precision' -H 'Content-Type: application/json' --data-binary '{ "proximityPrecision": "byAttribute" }'
默认的proximityPrecision
设置为byWord
,它根据确切的单词距离计算近似度。
byAttribute
设置将同一属性中的单词视为近似,无论其确切距离如何。
使用byAttribute
可以提高索引速度,但可能会稍微改变结果的相关性。这在需要单词彼此接近的搜索中变得更为明显。
例如,当您浏览歌曲歌词或长文章时,比如在大量维基百科页面中查找“世界大战”,您可能会得到包含这些单词但并不一定紧密相连或按所需顺序排列的结果。对于短语搜索和涉及多词同义词的搜索,其中特定单词组合至关重要,情况也是如此。
新功能:任务队列Webhook
Meilisearch现在提供了一个Webhook功能,当异步任务完成(成功、失败或取消)时,会通知自定义URL。
此功能对于简化工作流程特别有用,可避免您轮询任务路由。
使用这些环境变量在启动时设置您的Webhook:
MEILI_TASK_WEBHOOK_URL=https://mywebsite.com/my-super-webhook?user=1234&number=8 MEILI_TASK_WEBHOOK_AUTHORIZATION_HEADER='Bearer 12340987546wowowlolol'
您也可以使用相应的命令行选项。
设置完成后,Webhook会以JSON Lines (ndjson) 格式向您指定的URL发送包含已完成任务列表的有效负载。
//POST HTTP request to https://myproject.com/mywebhook?common=people {"uid":4,"indexUid":"movie","status":"failed","type":"indexDeletion","canceledBy":null,"details.deletedDocuments":0,"error.message":"Index `movie` not found.","error.code":"index_not_found","error.type":"invalid_request","error.link":"https://docs.meilisearch.com/errors#index_not_found","duration":"PT0.001192S","enqueuedAt":"2022-08-04T12:28:15.159167Z","startedAt":"2022-08-04T12:28:15.161996Z","finishedAt":"2022-08-04T12:28:15.163188Z"} {"uid":5,"indexUid":"movie","status":"failed","type":"indexDeletion","canceledBy":null,"details.deletedDocuments":0,"error.message":"Index `movie` not found.","error.code":"index_not_found","error.type":"invalid_request","error.link":"https://docs.meilisearch.com/errors#index_not_found","duration":"PT0.001192S","enqueuedAt":"2022-08-04T12:28:15.159167Z","startedAt":"2022-08-04T12:28:15.161996Z","finishedAt":"2022-08-04T12:28:15.163188Z"}
实验性功能:限制批量任务的数量
为了加快索引过程,Meilisearch会以大批量处理类似的任务。然而,过多的排队任务有时会导致崩溃或停滞。
要控制批量任务的数量,可以在启动时使用命令行参数--experimental-max-number-of-batched-tasks
、环境变量MEILI_EXPERIMENTAL_MAX_NUMBER_OF_BATCHED_TASKS
或配置文件来设置限制。
贡献者鸣谢
我们非常感谢所有参与此次发布的社区成员。我们要感谢@Karribalu和@vivek-26对Meilisearch的帮助。我们还要特别感谢我们的SDK维护者🦸
v1.6 就到这里!本次发布文章重点介绍了最重要的更新。如需完整列表,请阅读Github 上的变更日志。
订阅时事通讯,随时了解Meilisearch的所有动态。要了解Meilisearch的未来并帮助塑造它,请查看我们的路线图,并参与我们的产品讨论。
如有其他事宜,请加入我们在Discord上的开发者社区。