最近有做一个Prometheus metrics代理的一个小项目,暂称为prom-proxy,目的是为了解析特定的指标(如容器.traefik.istio等指标),然后在原始指标中加入应用ID(当然还有其他指标操作,暂且不表).经过简单的本地验证,就发布到联调环境,跑了几个礼拜一切正常,以为相安无事.但自以为没事不代表真的没事. 昨天突然老环境和新上prom-proxy的环境都出现了数据丢失的情况,如下图: prom-proxy有一个自服务指标request_total,经观察发现,该指标增长极