SRE Google 运维 解密
第Ⅰ部分概览 第1章介绍2 系统管理员模式2 Google的解决之道:SRE4 SRE方法论6 确保长期关注研发工作6 在保障服务SLO的前提下很大化迭代速度7 监控系统8 应急事件处理8 变更管理9 需求预测和容量规划9 资源部署10 效率与性能10 小结10 第2章Google生产环境:SRE视角11 硬件11 管理物理服务器的系统管理软件13 管理物理服务器13 存储14 网络15 其他系统软件16 分布式锁服务16 监控与警报系统16 软件基础设施17 研发环境17 莎士比亚搜索:一个示范服务18 用户请求的处理过程18 任务和数据的组织方式19 第Ⅱ部分指导思想 第3章拥抱风险23 管理风险23 度量服务的风险24 服务的风险容忍度25 辨别消费者服务的风险容忍度26 基础设施服务的风险容忍度28 使用错误预算的目的30 错误预算的构建过程31 好处32 第4章服务质量目标34 服务质量术语34 指标34 目标35 协议36 指标在实践中的应用37 运维人员和最终用户各关心什么37 指标的收集37 汇总38 指标的标准化39 目标在实践中的应用39 目标的定义40 目标的选择40 控制手段42 SLO可以建立用户预期42 协议在实践中的应用43 第5章减少琐事44 琐事的定义44 为什么琐事越少越好45 什么算作工程工作46 琐事繁多是不是一定不好47 小结48 第6章分布式系统的监控49 术语定义49 为什么要监控50 对监控系统设置合理预期51 现象与原因52 黑盒监控与白盒监控53 4个黄金指标53 关于长尾问题54 度量指标时采用合适的精度55 简化,直到不能再简化55 将上述理念整合起来56 监控系统的长期维护57 BigtableSRE:警报过多的案例57 Gmail:可预知的、可脚本化的人工干预58 长跑59 小结59 第7章Google的自动化系统的演进60 自动化的价值60 一致性60 平台性61 修复速度更快61 行动速度更快62 节省时间62 自动化对GoogleSRE的价值62 自动化的应用案例63 GoogleSRE的自动化使用案例63 自动化分类的层次结构64 让自己脱离工作:自动化所有的东西66 舒缓疼痛:将自动化应用到集群上线中67 使用Prodtest检测不一致情况68 幂等地解决不一致情况69 专业化倾向71 以服务为导向的集群上线流程72 Borg:仓库规模计算机的诞生73 可靠性是最基本的功能74 建议75 第8章发布工程76 发布工程师的角色76 发布工程哲学77 自服务模型77 追求速度77 密闭性77 强调策略和流程78 持续构建与部署78 构建78 分支79 测试79 打包79 Rapid系统80 部署81 配置管理81 小结82 不仅仅只对Google有用83 一开始就进行发布工程83 第9章简单化85 系统的稳定性与灵活性85 乏味是一种美德86 我绝对不放弃我的代码86 “负代码行”作为一个指标87 最小API87 模块化87 发布的简单化88 小结88 …… 第Ⅲ部分具体实践 第Ⅳ部分管理 第Ⅴ部分结束语 附录A系统可用性411 附录B生产环境运维过程中的佳实践412 附录C事故状态文档示范417 附录D事后总结示范419 附录E发布协调检查列表423 附录F生产环境会议记录示范425 参考文献427 索引439
用户评论
好喜欢这资源, 一定好好读读