
今年,我们推出了 Meilisearch 的首个贡献者计划:Meilistars。贡献者计划的目的是汇集顶尖的社区贡献者,培养我们的关系,突出他们所做的出色工作,甚至可能帮助建立联系。目前我们不会深入探讨这个话题,因为我们希望在专门的博客文章中分享更多内容,敬请关注!
为了让我们的优秀社区成员受到关注,我们询问他们是否有兴趣参与一系列采访,以便我们更好地了解他们。
我们以 Minoru Osuka 的采访拉开序幕。你可能已经在 GitHub 上以 Mosuka 的身份或者在 Twitter 上以 @minoru_osuka 的身份遇到过他。
让我们一起来听听他的更多故事!
认识 Minoru
首先,我们请他用自己的话介绍一下自己!
“我是 Minoru Osuka。我是一家在日本提供求职搜索引擎的公司的软件工程师和技术主管。我主要从事搜索平台开发。我的爱好是软件开发,我已将一些自己开发的软件作为开源软件发布在 GitHub 上。”
所以 Minoru 不仅从事技术工作,他还把技术视为自己的爱好!我们很好奇他是如何进入技术领域的。
Minoru 解释说,他最初是在一所技术学校担任编程讲师,但他希望增加实践经验,于是决定加入一家软件开发公司。
“这是我作为软件开发人员职业生涯的开始。在工作中我使用搜索引擎,我对它们的工作方式产生了兴趣,所以我转到了一家互联网门户网站,从那时起就一直从事搜索引擎领域的工作。”
Minoru + Meilisearch:命中注定
听说 Minoru 实际从事过搜索引擎工作,我们忍不住问他是什么时候听说 Meilisearch 以及如何开始使用它的。
“大约在 2022 年 5 月,Meilisearch 开始支持日语。Meilisearch 使用日语形态分析器 Lindera 作为其日语分词器。我维护着 Lindera,所以这是一件非常幸运的事。”
Minoru 非常感谢 Kination 和 Miiton,他们分别提交了第一个将日语支持添加到 Meilisearch 的 拉取请求 并实现了它。正是由于他们的共同努力,Meilisearch 的日语支持才有了今天的成就。
“我还没有在工作中实际使用 Meilisearch,但是 voluntas 介绍了 一个使用 Meilisearch 的案例研究,用于他们的日语文档搜索服务,这引起了很多关注。”
开源的骨子里
Minoru 在采访中频繁提及 Meilisearch 社区的其他成员,这一点不容忽视。他对于能够与其他社区成员建立联系感到非常满意。
“自从 Meilisearch 采用了 Lindera 之后,我的 Twitter 关注者增加了。我很高兴能遇到他们。我非常感谢 Meilisearch。”
Minoru 在开源社区中的深度参与确实令人惊叹。除了为 Meilisearch 贡献并维护 Lindera 之外,他还构建了自己的 分布式搜索服务器。
“我使用 Elasticsearch 和 Solr 已经很长时间了,但使用它们对我来说还不够,所以我决定在学习 Rust 的同时构建一个分布式搜索服务器。这很艰难,但我学到了很多。”
奇怪的是,正是这个项目让他开始维护 Lindera。
“我开始研究 Lindera 是因为我独立开发了一个分布式搜索服务器。[...] 我的朋友正在开发一个全文搜索库,他也开发了一个日语形态分析器,但它没有在 crates.io 上注册。当我联系他询问是否会在 crates.io 上注册时,他给了我一个令人惊讶的答案:‘我希望你接手这个项目。’我也对形态分析器感兴趣,所以我决定接手开发。”
Minoru 还感谢了 fulmicoton,他是 kuromoji-rs 的开发者,该软件最终演变为 Lindera,他称之为“一个很棒的开源软件”。
展望未来
鉴于他的广泛贡献,Minoru 对 Meilisearch 了如指掌也就不足为奇了。它的即时可用性是 Minoru 最看重的。事实上,他特别看重一个有助于实现这种可访问性的特定功能。
“Meilisearch 自动检测索引文档所用语言的功能非常棒。对于不熟悉搜索引擎的用户来说,这是一个非常有用的功能。”
在与 Minoru 的谈话中,我们没有放过询问他希望在 Meilisearch 的近期未来看到哪些改进的机会。不出所料,他的建议集中在语言支持上。具体来说,他建议在分词**之前**实现一种字符标准化机制。
对于不熟悉此过程的人来说,目前的情况是相反的。文本被分词——分割成单词——然后,每个单词根据语言特点进行标准化。对于法语等罗曼语族语言,此过程包括小写化和去除重音符号或任何不影响文本含义的变音符号。对该主题感兴趣的人可以加入 GitHub 上的讨论,或者阅读更多关于我们如何处理语言支持的信息。
Minoru 对语言支持的建议包括为每个字段自定义规范器。假设有一个包含地址字段的文档,他希望能够指示 Meilisearch 将地址字段中的汉字数字转换为阿拉伯数字。用他的话说
“目前,Meilisearch 没有日语规范器,但如果能为每个字段自定义它会很好……我也想为日语规范器做出贡献。”
我们期待与 Minoru 以及所有愿意支持我们工作的语言爱好者一起改进我们的语言支持!
与 Minoru 交谈,更好地了解他,并理解他对 Meilisearch 的见解、他的使用方式以及他通过 Meilisearch 结识的人,真是一件愉快的事。
提醒一下,你可以在 GitHub 上找到 Minoru,或者为 Lindera 做出贡献。
希望您觉得这次采访和我们一样有趣,并期待与我们所有优秀的 Meilistars 见面。