读书笔记(SRE:Google运维解密):第14章 紧急事故管理

    科技2022-09-15  102

    紧急事故的流程管理要素 (a)嵌套式职责分离:在事故处理中,让每个人清楚自己的职责是非常重要的 (b)控制中心:受到事故影响的部门或者人需要知道他们可以与事故总控负责人联系。在很多情况下,可以设立一个“作战室”(warroom),将处理问题的全部成员挪到该地办公。 (c)实时事故状态文档 (d)明确公开的职责交接

    以下是系统中可以分配给某个人的角色:

    事故总控(incident command):事故总控负责人掌握这次事故的概要信息。他们负责组建事故处理团队,按需求和优先级将一些任务分配给团队成员。未分配的职责仍由事故总控人负责。如果有必要的话,他们要负责协调工作,让事务处理团队可以更有效地解决问题,比如代申请访问权限、收集联系信息等。事务处理团队(operational work):事务处理团队负责人在与事故总控负责人充分沟通的情况下,负责指挥团队具体执行合适的事务来解决问题。事务处理团队是在一次事故中唯一能够对系统做修改的团队。发言人(communication):该人是本次事故处理团队的公众发言人。他的职责包括向事故处理团队和所有关心的人发送周期性通知(通常以电子邮件形式),同时可能要负责维护目前的事故文档,保证其正确性和信息的及时性。规划负责人(planning):规划负责人负责为事务处理团队提供支持,负责处理一些持续性工作,例如填写Bug报告记录系统,给事务处理团队订晚餐,安排职责交接记录。同时负责记录在处理过程中对系统进行的特殊操作,以便未来事故结束后能够复原。

     

    事故流程管理最佳实践 (a)划分优先级:控制影响范围,恢复服务,同时为根源调查保存现场。 (b)事前准备:事先和所有事故处理参与者一起准备一套流程。 (c)信任:充分相信每个事故处理参与者,分配职责后让他们自主行动。 (d)反思:在事故处理过程中注意自己的情绪和精神状态。如果发现自己开始惊慌失措或者感到压力难以承受,应该寻求更多的帮助。 (e)考虑替代方案:周期性地重新审视目前的情况,重新评估目前的工作是否应该继续执行,还是需要执行其他更重要或者更紧急的事情。 (f)练习:平时不断地使用这项流程,直到习惯成自然。 (g)换位思考:上次你是事故总控负责人吗?下次可以换一个职责试试。鼓励每个团队成员熟悉流程中的其他角色。
    Processed: 0.015, SQL: 9