사후 보고서를 또 미뤘다 — 패턴 해부
post-mortem 24시간 룰을 왜 매번 어기는지, 이유보다 구조를 본다.
또 미뤘다
장애는 새벽 2시에 났다. 복구는 4시에 끝났다. post-mortem 마감은 ‘오늘 안’이었다.
막상 아침이 되면 우선순위가 밀린다. 티켓, 슬랙, 배포 큐. 보고서 초안 파일은 Notion에 제목만 남긴 채 3일째 열리지 않았다. 이게 올해만 세 번째다.
패턴을 보면 매번 같다.
- 복구 직후 → “일단 자자”
- 다음날 오전 → “미팅 끝나고”
- 오후 → “내일 오전에 깔끔하게”
- 다음날 → 이미 기억이 흐릿
흐릿해진 기억으로 쓴 보고서는 타임라인이 뭉개진다. 5분 단위로 살아있던 판단 맥락이 “대략 새벽 3시쯤”으로 평탄화된다. 그 디테일이 사라지면 재발 방지 액션도 추상적이 된다. “모니터링 강화” 같은 문장만 남는다.
미루는 진짜 이유
‘피곤해서’가 표면 이유다. 진짜는 따로 있다.
형식 부담. 팀에 공유되는 문서라 잘 써야 한다는 압박이 생긴다. 잘 쓰려면 시간이 필요하고, 시간이 없으면 미룬다. 악순환.
책임 소재 불안. 타임라인을 명확히 쓸수록 누가 무엇을 놓쳤는지 드러난다. 무의식적으로 펜이 느려진다.
‘끝난 일’ 심리. 서비스가 돌아가면 뇌가 케이스를 닫는다. 보고서는 이미 닫힌 케이스를 억지로 여는 작업이라 에너지가 안 붙는다.
세 가지 다 구조 문제다. 개인 의지로 고칠 수 있는 게 아니다.
그래서 이번에 바꾼 것
완성도를 포기했다. 대신 규칙 하나만 박았다.
복구 완료 즉시, 타임라인 bullet 만 Slack 스레드에 던진다. 문장 금지, 시각 + 사실만.
예시:
02:14 알림 수신
02:21 DB 커넥션 풀 고갈 확인
02:38 스케일아웃 적용
03:57 트래픽 정상 복귀
이걸 Slack에 올리는 데 5분이면 된다. 나중에 보고서 쓸 때 이 스레드가 뼈대가 된다. 형식도 없고, 잘 써야 한다는 부담도 없다. 그냥 로그다.
두 번 해봤다. 보고서 완성까지 걸린 시간이 눈에 띄게 줄었다. 타임라인 재구성에 쓰던 30분이 사라졌기 때문이다.
책임 소재 불안은 아직 남아있다. 이건 팀 문화 문제라 혼자 못 고친다. 다만 ‘사실 기록’과 ‘원인 분석’을 문서에서 섹션으로 분리하니까 조금 나아졌다. 타임라인 쓸 때는 판단 배제, 분석 섹션에서만 why를 다룬다.
다음 한 가지
다음 장애 때 Slack 타임라인 스레드를 실제로 올렸는지, 다음 글 첫 줄에 한 줄 적는다.
🛒 이 글과 어울리는 추천 상품
위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.