2025.11–2026.03实习相关整理-亮点
相关文章
- https://www.notion.so/7-314254b59a8380ad85cfcaadd3ba4fa8
- https://www.notion.so/31a254b59a8380c1bc04cc503475cc61
- https://www.notion.so/SOA-31a254b59a83807ba50ceabcca6910f1
- https://www.notion.so/IDKEY-MCP-31a254b59a838013b6c5fd0033d9a609
- https://www.notion.so/315254b59a838039b635db83846b5b48
- https://www.notion.so/315254b59a8380b1846ee28aa76c1a51
- https://www.notion.so/IDKey-315254b59a83805ea41ace2ecd06c568
- https://www.notion.so/IDKEY-315254b59a8380b99875eac26a0267ac
- https://www.notion.so/315254b59a838075a91be79e7ac15716
- https://www.notion.so/315254b59a8380d39a83c3c1892e978d
- https://www.notion.so/3-4-5-314254b59a83801686abf8551e5d6ed4
- https://www.notion.so/313254b59a8380f5880dcc738ebea1bb
- https://www.notion.so/313254b59a8380859956cfeee15d3526
- https://www.notion.so/CPU-314254b59a8380c39de5f3b0e3ba25a6
- https://www.notion.so/314254b59a8380a68b18e9583b8919c6
- https://www.notion.so/314254b59a8380d1819eefcd1255ff85
- https://www.notion.so/314254b59a8380d7a8f1ca0cb41bb29e
- https://www.notion.so/31a254b59a83800d875dfe845faa45d6
可以看看
- https://www.notion.so/314254b59a8380fcb196ca97deba561c
- https://www.notion.so/314254b59a83803da226f294b00f7a85
- https://www.notion.so/agent-server-314254b59a83804385e1d25722e66450
- https://www.notion.so/Appset-314254b59a8380bcb460c7c5b718fa2e
告警拓扑图
告警分类
- 现象告警:用例告警,反映真实业务异常
- 变更模块告警:变更模块自身 + 直接/间接上游
- 下游资源告警:直接/间接下游模块 + 单机资源
告警分类具体实现
- 下游模块资源告警负载,是直接下游还是要包含间接下游。—— 现阶段仅直接下游模块
- 现象告警展示视图中调用架构上的最小单元是模块,模块模块之间的连接是仅要模块间的关系?—— 按模块接口来展示,且架构图中先展示模块接口维度的最终失败的告警
- 变更模块维度的视图,直接展示告警事件单? —— 直接展示跟变更模块能够关联起来的所有告警
- 下游模块资源告警,需要包含容量评估预测的告警吗?—— 不包含
- 阶段一是否是仅需要通过资产的关系关联到告警的即可,不需要做变更相关性分析? —— 可以先不做变更相关性的分析
使用现有的模调接口查询,找到与变更模块相关的模块:从变更模块出发,找到调用到该变更模块的CGI,再查询完整的CGI调用链路。
2025.11–2026.03实习相关整理-告警查找链路分析从上游消息队列中提取告警信息并落库。
重复告警的原因
- https://www.notion.so/315254b59a838039b635db83846b5b48
屏蔽截止时间
告警标签-查询最近7天首次告警
使用Redis实现-设计方案
QPS,每秒查询 TPS,每秒事务,在非常普通的意义上,术语每秒事务数是指每秒由某些实体执行的原子动作的数量。从更严格的角度来看,DBMS供应商和用户社区通常使用该术语来表示每秒执行的数据库事务数。 RT,响应时间 Concurrency,并发数 QPS(TPS)= 并发数/平均响应时间 并发数 = QPS*平均响应时间
- https://www.notion.so/Redis-314254b59a8380878cade73c89631ef7
- https://www.notion.so/DB-314254b59a838032ac7efc6d001847c9
- https://www.notion.so/314254b59a838098a306c890caf08273
- https://www.notion.so/31a254b59a8380c1bc04cc503475cc61
- https://www.notion.so/18-AlarmAnalyzer-318254b59a8381f09677ecae5b20f546
- https://www.notion.so/09-318254b59a83818cb73bdc34e0bdf930
- https://www.notion.so/01-Redis-TTL-318254b59a8381f0a3eaef2255831269
服务需要支撑 40 TPS 的实时查询与写入
为什么不能直接查询表:即使建立索引,需要在表被不断插入数据(插入速度也是40TPS)的情况下,在25ms(40TPS)内查询并返回结果,DB无法支撑峰值情况下的实时查询,会造成告警消息积压。
结论:需要引入 Redis 缓存层,将 7 天内的告警数据缓存在内存中,降低查询延迟。
注意跨天时间段处理,要看最近一周该告警的天数不能直接用当前时间戳减去7天时间再算日期,这可能会变成“最近一周告警8天”得到8个日期,需要获取当前日期0点的时间戳再减去6天时间再算日期
区分冷启动和正常消费的流程图
告警分析:变更关联分析、告警标签分析 规则引擎 + 策略模式的架构 任务队列实现并发控制 时区处理:所有时间计算均使用 Intl.DateTimeFormat + Asia/Shanghai 时区,不依赖服务器本地时区。 任务队列容量:当前每进程 30 并发、300 排队。如果告警量增长,需关注队列溢出监控指标并适时调整参数。
可以新增 消息队列的订阅 通过异步任务去接受告警消息;为现有功能添加耗时监控
频繁告警治理
- https://www.notion.so/SOA-31a254b59a83807ba50ceabcca6910f1
- https://www.notion.so/315254b59a83805f8bf3d32985c09ccc
任务幂等键格式 过滤规则 联合索引 查询时按模块名分批(每批 500 个模块),每批内先查 count 再按 1000 条分页查明细。 模调告警指标类型 如果开启了算法告警,检查算法特征与告警类型是否匹配 如果开启了阈值告警,检查阈值是否偏低(≤ 10)
变更审计
完善变更审计机制,覆盖变更流程、人员及单据维度,对变更步骤执行情况(是否灰度发布、是否正常结单)、变更人员资质(是否通过考试)及单据完整性(是否包含关联任务计划链接)进行校验,提升变更规范性与风险可控性,辅助告警与变更关联分析。
告警分析
- https://www.notion.so/02-BFS-318254b59a8381468cd3dbbdb30eb551
- https://www.notion.so/01-mmpayalarmanalysis-318254b59a83812e9bf5cf56e7a1ae08
- https://www.notion.so/313254b59a8380b580f8d26c4ca15591
在同一条调用链上,如果上下游有影响就可以用这个根因分析
变更阻断
- https://www.notion.so/314254b59a8380d7a8f1ca0cb41bb29e
- https://www.notion.so/315254b59a83801d8f96e14f5ff88387
- https://www.notion.so/314254b59a8380a68b18e9583b8919c6
- https://www.notion.so/314254b59a8380d1819eefcd1255ff85
- https://www.notion.so/01-mmpayxdcchangeanalysis-318254b59a83815b951aeada7a6ecdf2
- https://www.notion.so/03-318254b59a83812fb263e8cbc6d6b0ab
减少误告-时间序列异常检测方法
目前告警大多是按 阈值 来设置的,缺点是无法适应业务的动态变化,容易产生误告(毛刺、周期趋势不变但用量放大【都正常需去除此类误告】)。时间序列异常检测方法可以根据历史数据自动学习正常的模式,能够更准确地识别异常情况,从而减少误告。
2025.11–2026.03实习相关整理-时间序列异常检测完整方案指南难点与问题解决
https://www.notion.so/1-315254b59a8380cf952cf4c22a20d0b7
第6
https://www.notion.so/2-317254b59a838083abdae9701288b740
第2
https://www.notion.so/3-317254b59a838081afe4c35b54f507a8
第1、3
https://www.notion.so/4-317254b59a8380fc95eee4449c5e4be6
第2、4、5、6
https://www.notion.so/5-317254b59a8380c38bcef3621e30af4e
第3、4、6、7
https://www.notion.so/6-317254b59a83803ca1a9ee44bae9de7e
第3、4

