前端监控落地记：从没人看报表到主动追着看数据

很多团队都在谈「前端监控」，真正落地后常见的情况是：接了 SDK，搭了看板，告警也配了一堆，但一年下来，除了出事没人看。我们团队也是这样一路踩坑过来的，这篇就简单讲讲，我们是怎么把一套「装饰性监控」逐步变成「真有用的监控」的。

1. 第一次上监控：埋了一堆点，没人看

两年前，我们第一次上前端监控，典型组合：Sentry + 自建埋点。那会儿大家的心态很简单——先把 SDK 接上，错误能收进来就是成功。于是我写了一个埋点 SDK，在入口文件里一行 initTracker()，全站搞定，心里还有点小成就感。

真正的问题从一周后开始暴露：每天都有几十上百条错误，Dashboard 红成一片，但没人愿意看。后端同事吐槽：「这玩意儿太吵了」，产品说：「我看不懂这些英文异常信息跟用户有什么关系」，前端自己也只在上线当天心虚地瞟几眼。

后来复盘的时候，我们很诚实地承认：那一轮所谓「前端可观测性改造」，本质上就是多装了几个监控 SDK，却没有回答一个关键问题——

第二轮我们换了思路，先不谈技术方案，只问一个问题：现在线上到底有哪些我们「经常被骂」的问题？ 很快列出了三条：

于是我们把监控目标缩成了三件事：

指标一旦收窄，技术方案反而简单了很多——我们把原来那些「想到就埋」的点砍掉 60%，只保留真正能串起来「一次用户访问」的核心事件。

最后真正留下来的埋点，大概就这么几类：

我们没有追求「全埋点」，反而刻意控制了埋点数量。一开始有人不放心，总觉得「多采点总没坏处」，真上了之后发现，多出来的那些点基本没人看，还会影响前端包体积和上报压力。

之前的监控报表，标题大多是这种：

error_count_by_message api_duration_p95 chunk_load_error_total

乍一看很专业，但产品、运营完全看不懂。后来我们直接把看板拆成了两套：

这一步其实没有什么高深技术，主要是换个说话方式。比如把「某接口 500 次请求中失败 20 次」翻译成：

「今天有 3.2% 的下单请求失败，估算影响了 80 多个真实订单。」

从那天起，产品经理第一次主动问我们：「这块能不能想办法再优化一点？」

前端监控想真正有用，光有数据还不够，关键在于把数据写进复盘。我们后来定了一个非常简单的规则：

连续几次之后，大家慢慢形成了一个习惯：上线前看看监控大盘有没有明显异常，出了问题优先去看那几个核心看板。你会发现，监控是不是「好用」，不是研发说了算，而是看复盘里它被引用的次数。

最后简单列几个我们自己踩过的坑，给还在路上的同学做个参考：

现在再回头看，我们其实没做什么「高大上」的东西，更多是一点点把问题讲清楚：谁看监控、为什么看、看完能做什么决策。工程上复杂的地方是细节，比如采样率怎么调、前后端 TraceID 怎么贯通，这些各家有各自的实现，思路都差不多。

如果你们团队也在做前端监控建设，我只建议一件事：别从「能接多少 SDK」开始，而是从「下一个版本发布时，我们想少掉哪类线上问题」开始。这时候你会发现，很多你以为必须上的图表，可能一张都用不上。