相关文章

  1. https://www.notion.so/7-314254b59a8380ad85cfcaadd3ba4fa8
  2. https://www.notion.so/31a254b59a8380c1bc04cc503475cc61
  3. https://www.notion.so/SOA-31a254b59a83807ba50ceabcca6910f1
  4. https://www.notion.so/IDKEY-MCP-31a254b59a838013b6c5fd0033d9a609
  5. https://www.notion.so/315254b59a838039b635db83846b5b48
  6. https://www.notion.so/315254b59a8380b1846ee28aa76c1a51
  7. https://www.notion.so/IDKey-315254b59a83805ea41ace2ecd06c568
  8. https://www.notion.so/IDKEY-315254b59a8380b99875eac26a0267ac
  9. https://www.notion.so/315254b59a838075a91be79e7ac15716
  10. https://www.notion.so/315254b59a8380d39a83c3c1892e978d
  11. https://www.notion.so/3-4-5-314254b59a83801686abf8551e5d6ed4
  12. https://www.notion.so/313254b59a8380f5880dcc738ebea1bb
  13. https://www.notion.so/313254b59a8380859956cfeee15d3526
  14. https://www.notion.so/CPU-314254b59a8380c39de5f3b0e3ba25a6
  15. https://www.notion.so/314254b59a8380a68b18e9583b8919c6
  16. https://www.notion.so/314254b59a8380d1819eefcd1255ff85
  17. https://www.notion.so/314254b59a8380d7a8f1ca0cb41bb29e
  18. https://www.notion.so/31a254b59a83800d875dfe845faa45d6

可以看看

  1. https://www.notion.so/314254b59a8380fcb196ca97deba561c
  2. https://www.notion.so/314254b59a83803da226f294b00f7a85
  3. https://www.notion.so/agent-server-314254b59a83804385e1d25722e66450
  4. https://www.notion.so/Appset-314254b59a8380bcb460c7c5b718fa2e

告警拓扑图

告警分类

  1. 现象告警:用例告警,反映真实业务异常
  2. 变更模块告警:变更模块自身 + 直接/间接上游
  3. 下游资源告警:直接/间接下游模块 + 单机资源

告警分类具体实现

  1. 下游模块资源告警负载,是直接下游还是要包含间接下游。—— 现阶段仅直接下游模块
  2. 现象告警展示视图中调用架构上的最小单元是模块,模块模块之间的连接是仅要模块间的关系?—— 按模块接口来展示,且架构图中先展示模块接口维度的最终失败的告警
  3. 变更模块维度的视图,直接展示告警事件单? —— 直接展示跟变更模块能够关联起来的所有告警
  4. 下游模块资源告警,需要包含容量评估预测的告警吗?—— 不包含
  5. 阶段一是否是仅需要通过资产的关系关联到告警的即可,不需要做变更相关性分析? —— 可以先不做变更相关性的分析

使用现有的模调接口查询,找到与变更模块相关的模块:从变更模块出发,找到调用到该变更模块的CGI,再查询完整的CGI调用链路。

2025.11–2026.03实习相关整理-告警查找链路分析

从上游消息队列中提取告警信息并落库。

重复告警的原因

  1. https://www.notion.so/315254b59a838039b635db83846b5b48

屏蔽截止时间

告警标签-查询最近7天首次告警

使用Redis实现-设计方案

QPS,每秒查询 TPS,每秒事务,在非常普通的意义上,术语每秒事务数是指每秒由某些实体执行的原子动作的数量。从更严格的角度来看,DBMS供应商和用户社区通常使用该术语来表示每秒执行的数据库事务数。 RT,响应时间 Concurrency,并发数 QPS(TPS)= 并发数/平均响应时间 并发数 = QPS*平均响应时间

  1. https://www.notion.so/Redis-314254b59a8380878cade73c89631ef7
  2. https://www.notion.so/DB-314254b59a838032ac7efc6d001847c9
  3. https://www.notion.so/314254b59a838098a306c890caf08273
  4. https://www.notion.so/31a254b59a8380c1bc04cc503475cc61
  5. https://www.notion.so/18-AlarmAnalyzer-318254b59a8381f09677ecae5b20f546
  6. https://www.notion.so/09-318254b59a83818cb73bdc34e0bdf930
  7. https://www.notion.so/01-Redis-TTL-318254b59a8381f0a3eaef2255831269

服务需要支撑 40 TPS 的实时查询与写入

为什么不能直接查询表:即使建立索引,需要在表被不断插入数据(插入速度也是40TPS)的情况下,在25ms(40TPS)内查询并返回结果,DB无法支撑峰值情况下的实时查询,会造成告警消息积压。

结论:需要引入 Redis 缓存层,将 7 天内的告警数据缓存在内存中,降低查询延迟。

注意跨天时间段处理,要看最近一周该告警的天数不能直接用当前时间戳减去7天时间再算日期,这可能会变成“最近一周告警8天”得到8个日期,需要获取当前日期0点的时间戳再减去6天时间再算日期

区分冷启动和正常消费的流程图

告警分析:变更关联分析、告警标签分析 规则引擎 + 策略模式的架构 任务队列实现并发控制 时区处理:所有时间计算均使用 Intl.DateTimeFormat + Asia/Shanghai 时区,不依赖服务器本地时区。 任务队列容量:当前每进程 30 并发、300 排队。如果告警量增长,需关注队列溢出监控指标并适时调整参数。

可以新增 消息队列的订阅 通过异步任务去接受告警消息;为现有功能添加耗时监控

频繁告警治理

  1. https://www.notion.so/SOA-31a254b59a83807ba50ceabcca6910f1
  2. https://www.notion.so/315254b59a83805f8bf3d32985c09ccc

任务幂等键格式 过滤规则 联合索引 查询时按模块名分批(每批 500 个模块),每批内先查 count 再按 1000 条分页查明细。 模调告警指标类型 如果开启了算法告警,检查算法特征与告警类型是否匹配 如果开启了阈值告警,检查阈值是否偏低(≤ 10)

变更审计

完善变更审计机制,覆盖变更流程、人员及单据维度,对变更步骤执行情况(是否灰度发布、是否正常结单)、变更人员资质(是否通过考试)及单据完整性(是否包含关联任务计划链接)进行校验,提升变更规范性与风险可控性,辅助告警与变更关联分析。

告警分析

  1. https://www.notion.so/02-BFS-318254b59a8381468cd3dbbdb30eb551
  2. https://www.notion.so/01-mmpayalarmanalysis-318254b59a83812e9bf5cf56e7a1ae08
  3. https://www.notion.so/313254b59a8380b580f8d26c4ca15591

在同一条调用链上,如果上下游有影响就可以用这个根因分析

变更阻断

  1. https://www.notion.so/314254b59a8380d7a8f1ca0cb41bb29e
  2. https://www.notion.so/315254b59a83801d8f96e14f5ff88387
  3. https://www.notion.so/314254b59a8380a68b18e9583b8919c6
  4. https://www.notion.so/314254b59a8380d1819eefcd1255ff85
  5. https://www.notion.so/01-mmpayxdcchangeanalysis-318254b59a83815b951aeada7a6ecdf2
  6. https://www.notion.so/03-318254b59a83812fb263e8cbc6d6b0ab

减少误告-时间序列异常检测方法

目前告警大多是按 阈值 来设置的,缺点是无法适应业务的动态变化,容易产生误告(毛刺、周期趋势不变但用量放大【都正常需去除此类误告】)。时间序列异常检测方法可以根据历史数据自动学习正常的模式,能够更准确地识别异常情况,从而减少误告。

2025.11–2026.03实习相关整理-时间序列异常检测完整方案指南

难点与问题解决

https://www.notion.so/1-315254b59a8380cf952cf4c22a20d0b7

第6

https://www.notion.so/2-317254b59a838083abdae9701288b740

第2

https://www.notion.so/3-317254b59a838081afe4c35b54f507a8

第1、3

https://www.notion.so/4-317254b59a8380fc95eee4449c5e4be6

第2、4、5、6

https://www.notion.so/5-317254b59a8380c38bcef3621e30af4e

第3、4、6、7

https://www.notion.so/6-317254b59a83803ca1a9ee44bae9de7e

第3、4