神策小秘书
|
2021年02月26日
Troubleshooting 即故障排查检修,这绝对不是一项简单的任务,不同技术体系之间天差地别,这个问题可有统一答案?因为具体的技术终将过时,所以本文不谈任何具体的技术细节,而是针对 troubleshooting 提出十条方法论。
本文原作者:Steve Mushero
原文链接: https://medium.com/faun/shit-breaks-dao-of-troubleshooting-6cc1b3869ce0
啊,你的服务又挂了,很不幸。
更不幸的是,因为负载高、业务复杂,它挂掉是常事。
它以一种不能被 “自动扩容”、“加容器”、“重启” 等手段轻易 “解决” 的方式挂掉,花里胡哨的调度系统此时也起不到作用。当然我不是说这些方法没用,毕竟它们各有各的场景。 有时候,你面对一个故障,5 分钟就能定位原因,但作为 “老兵” 的你一定懂得这背后需要多少经验积累和努力,常言道 “功夫都在戏外”。 如果你恰好用了微服务(micro-service)、无服务器(server-less)、无限可分割(infinitely-divisible)、无处不在的松散连接组件(loosely-connected pieces and parts)之类的新玩意,修复起来就更难了。 何解?具体技术早晚会过时,而方法论则具备长久生命力。唯有 “道”(指方法论)才是应对复杂系统的指路明灯。 管你喜不喜欢,真正运行着的系统就是一切真相的源头。
热门文章
用户分析模型——分布分析的使用方法
2018年05月14日
神策学堂发布——你有一份数据驱动指南待查收
2018年04月02日
埋点套路深,千万别掉“坑”
2017年08月30日
数据驱动与用户画像
2017年06月20日
解析常见的数据分析模型——留存分析
2017年06月16日
如何运用点击分析优化产品体验
2017年04月05日
如何应用 Sensors Analytics 进行 Session 分析
2016年10月12日
神策分析的技术选型与架构实现
2016年09月20日
iOS 渠道追踪原理与实现
2016年05月24日
数据采集与埋点
2016年01月26日
视频学习 - 总体介绍
2015年08月08日
视频学习 - 事件分析
2015年08月07日