Meilisearch 1.10

Meilisearch 1.10 引入了联合搜索和区域设置，并为 AI 驱动的搜索稳定铺平了道路。

发布

2024 年 8 月 27 日阅读时长 5 分钟

Laurent Cazanove开发者体验工程师@StriftCodes

分享文章

本文目录

查询加权设置搜索查询区域设置设置文档属性的区域设置新增：基于 REST API 的嵌入器自定义标头新增：生活质量改进 ⚠️ 破坏性变更：基于 REST API 的嵌入器破坏性变更升级程序

今天，我们宣布推出 Meilisearch v1.10。在本文中，我们将回顾最具影响力的变更。有关详尽的列表，请查看 GitHub 上的更新日志。

Meilisearch 1.10 也可在Meilisearch Cloud 上使用——立即升级！

新增：联合搜索

我们很高兴地宣布，联合搜索 ([federated search](/blog/what-is-federated-search/#release-v1-10&utm_source=blog)) 终于登陆 Meilisearch。此功能扩展了多重搜索 API，允许您将多个查询的结果合并到一个统一的响应中。现在，您可以搜索不同的索引，并从整个数据集中获得最相关的结果，而不仅仅是每个索引中最相关的结果。

对于需要跨各种资源类型进行搜索的 SaaS 平台或具有不同产品类别的电子商务网站，联合搜索是一个颠覆性的功能。

以下是针对 movies 和 comics 索引发起联合搜索请求的示例负载：

{
  "federation": {
    "offset": 5,
    "limit": 10
  },
  "queries": [
    {
      "q": "Batman",
      "indexUid": "movies"
    },
    {
      "q": "Batman",
      "indexUid": "comics"
    }
  ]
}

在此示例中，联合搜索响应将如下所示：

{
  "hits": [
    {
      "id": 42,
      "title": "Batman returns",
      "overview": "..",
      "_federation": {
        "indexUid": "movies",
        "queriesPosition": 0
      }
    },
    {
      "comicsId": "batman-killing-joke",
      "description": "..",
      "title": "Batman: the killing joke",
      "_federation": {
        "indexUid": "comics",
        "queriesPosition": 1
      }
    },
 ],
  "processingTimeMs": 0,
  "limit": 2,
  "offset": 0,
  "estimatedTotalHits": 2,
  "semanticHitCount": 0
}

查询加权

联合搜索不仅仅是合并结果；它关乎让这些结果更有意义、更相关。得益于查询加权，您可以优先处理某些查询，确保最重要的数据浮现出来。

以下示例负载在联合搜索中使用了**查询加权**，以赋予 boosted 字段为 true 的文档更高的重要性。

{
  "federation": {},
  "queries": [
    {
      "q": "iphone case",
      "indexUid": "products",
      "filter": "BOOSTED = true",
      "federationOptions": {
        "weight": 3.0
      }
    },
    {
      "q": "iphone case",
      "indexUid": "products"
      // federationOptions.weight defaults to 1
    }
  ]
}

了解更多关于联合搜索及其用例

新增：查询和文档的语言设置

默认情况下，Meilisearch 会自动检测文档和查询中使用的语言。这对于边缘情况有一些限制。Meilisearch 1.10 引入了新的语言设置，允许用户手动自定义其语言偏好。

有两种方法可以声明搜索中使用的语言：

设置查询中使用的语言
设置文档字段中使用的语言

设置搜索查询区域设置

您可以在搜索参数中定义查询中使用的语言。

使用查询 locales 进行搜索的示例负载

{
   "q": "進撃の巨人",
   "locales": ["jpn"]
}

设置文档属性的区域设置

您可以通过索引设置定义数据集中使用的语言。

带有 localizedAttributes 设置的示例负载

{
  "localizedAttributes": [
    {
      "locales": ["jpn"], 
      "attributePatterns": ["*_japanese"]
    }
  ]
}

Meilisearch 支持所有ISO-639-2B 区域设置。

自托管：现在需要 Ubuntu v20

如果您正在自托管 Meilisearch，请注意：Meilisearch 1.10 现在需要 Ubuntu 版本 20。此更新确保与最新功能的兼容性，并保持最佳性能和安全性。我们建议阅读有关如何升级 Ubuntu 版本的文档。

此变更不影响Meilisearch Cloud 用户。

实验性：AI 驱动的搜索 DX 改进

新增：基于 REST API 的嵌入器自定义标头

Meilisearch 1.10 支持向您的基于 API 的嵌入服务发送自定义标头。当您的嵌入器设置使用 rest 源时，Meilisearch 现在接受一个可选的 headers 对象。这些标头将被添加到所有发送到嵌入器 API 的请求中。

嵌入器设置的示例负载

{
  "source": "rest",
  "apiKey": "•••••••••••••••••",
  "headers": {
    "Custom-Header": "value"
  }
}

新增：生活质量改进

此外，我们还添加了一些小的更改，以便更轻松地使用 Meilisearch AI 驱动的搜索 API

嵌入器设置现在接受 OpenAI 嵌入器的 url 参数，以便通过代理访问 OpenAI。
嵌入器设置现在接受 Ollama 嵌入器的 dimensions 参数
Meilisearch 现在在没有向量的文档的响应中包含 _vectors（仅当 retrieveVectors 启用时）

⚠️ 破坏性变更：基于 REST API 的嵌入器破坏性变更

配置基于 REST API 的嵌入器（例如 OpenAI、Mistral 等）的 API 发展迅速，为了避免混淆，我们决定将参数重新组织到专门的 request 和 response 字段中。

实际上，此更改：

移除了 query、inputField、inputType、pathToEmbeddings 和 embeddingObject 字段
添加了 request 和 response 字段

请参阅以下示例，了解如何迁移到新语法。

之前 — 使用 Meilisearch 1.9

{
   "source": "rest",
   "url": "https://:10006",
   "query": {
     "model": "minillm",
   },
   "inputField": ["prompt"],
   "inputType": "text",
   "embeddingObject": ["embedding"]
}

之后 — 从 Meilisearch 1.10 开始

{
   "source": "rest",
   "url": "https://:10006",
   "request": {
     "model": "minillm",
     "prompt": "{{text}}"
   },
   "response": {
     "embedding": "{{embedding}}"
   }
}

升级步骤

此过程仅在使用基于 REST API 的嵌入器时才需要。要升级到 Meilisearch 1.10，请按照以下步骤操作：

移除源为 "rest" 的嵌入器
照常更新您的Meilisearch Cloud 项目或自托管 Meilisearch 实例

实验性：`CONTAINS` 过滤器运算符

Meilisearch 1.10 引入了 CONTAINS 运算符。由于一些我们正在努力解决的性能问题，该功能仍处于实验阶段。这个新的过滤器运算符允许检查子字符串是否包含在较大的字符串中。

给定文档 { id: 1, name: "Keffir" }，您可以按如下方式使用过滤器：

name CONTAINS kef — 搜索将匹配该文档
name CONTAINS clifford — 搜索将不匹配该文档

请记住，所有过滤器都使用小写、标准化的字符串（所有重音符号都已移除）。

请通过此Github 讨论分享您的反馈。

实验性：使用函数更新文档

Meilisearch 1.10 允许您通过执行Rhai 函数来编辑文档。这使您可以使用过滤器只更新数据集的一部分。此外，使用函数还允许您实现基于文档数据的动态逻辑。

以下负载更新了所有 id 大于 3000 的文档的标题：

{
  "filter": "id > 3000",
  "function": "doc.title = `✨ ${doc.title.to_upper()} ✨`"
}

这也实现了更复杂的用例，例如实现衰减排名策略。根据您的需求，您可能会实现如下功能，该功能将由 Cron 作业定期运行。

{
  "context": { "now": 1715423249 },
  "function": "
    // `posted_at` and `now` are Unix Epoch timestamps in seconds
    // they must be converted to hours.
    let age_hours = (context.now - doc.posted_at) / 60 / 60;
    doc.ranking_score = doc.upvotes ** 0.8 / (age_hours + 2) ** 1.8;
  "
}