SpO₂,小巧的动态监控工具

SpO₂ 是血氧饱和度,用于医疗人员监测。
我是 Kerollmops,我是 Meili 的首席技术官,今天我将发布 SpO₂。
在 Meili,我们需要一个工具来监控我们的 pod,我们已经有 Vigil 来检查我们的前端和后端运行状况,但这些服务的数量是有限的。我们不会动态地(目前)弹出新的前端或后端服务器。当我们为用户创建新的搜索引擎时,我们会实例化一个 kubernetes pod,我们需要监控此服务的运行状况。手动在 Vigil 配置文件中添加这些 URL 并不是一个解决方案。
因此,我们决定我们需要一个简单的工具,一个可以接受 HTTP 请求来注册/注销 URL 以进行健康检查的工具。我们使用 新的 async/await Rust 语法 以及 Tide 作为 HTTP 服务器,这没什么大不了的。
我们目前的云提供商是 Digital Ocean,因此,我们无法在那里托管我们的 SpO₂ 服务。我们选择了 Scaleway,因为它便宜得多,而且开箱即用。我们需要对健康检查的 URL 进行持久存储。如果这些只存储在 RAM 中你会怎么做?如果服务器重启了呢?我之前曾开发过 一个基于 Rust 的磁盘支持键值存储,名为 Sled。所以我们决定依赖它。
@qdequele 使用纯 JavaScript 构建了前端。通过 WebSocket,我们能够实时显示 pod 状态。由于大多数人不会一整天都坐在电视机前,通过颜色变化来通知开发运维人员,我们决定实现通知功能。我们所有的监控工具都使用 Slack,而且由于它像 webhook 一样简单易行,所以我们选择了它。
在上次发布中,我们对 Slack 通知系统进行了一些改进。我们现在将状态更改事件批量处理为40个;这意味着 SpO₂ 发送一条最多包含40个事件的消息,并调节频道垃圾信息。它还显示与不健康测量相关的 HTTP 状态以及无法访问的错误消息。
SpO₂ 本身不支持 SSL/TLS,无论是 HTTP 还是 WebSocket 端点。我们需要这种安全性,所以我们研究了 NGINX,一个很小的模糊反向代理服务器,我们用基本认证配置了它。这不是一项容易的任务,而且因为我们很酷,所以我们提供了文档来帮助你做同样的事情。
请毫不犹豫地分享或收藏此项目,欢迎提交拉取请求😊
另外,顺便提一下,我们实际上测量的是机器,而不是人类。