새벽에 영화를 보고 장애 채널이 떠올랐다.
살린 것은 판단이었는데, 나중에 재심받는 것은 그 판단이었다.

밤늦게 Clint Eastwood의 Sully (2016)를 봤다. 2009년 US Airways 1549편, 이륙 직후 새 떼에 엔진이 멈추고 허드슨 강에 비상 착륙한 이야기.

영화 전체가 “영웅전”만은 아니다. 조종사가 208초 안에 내린 판단과, 그 뒤 NTSB가 시뮬레이터로 “공항 복귀도 가능하지 않았나?”를 재현하는 장면이 맞선다.

장애 대응을 오래 해 본 사람에게는 익숙한 구도다.


TL;DR

  • 촘촘한 장애 프로세스는 공유·재현·재발 방지에 강하다.
  • 부작용은 사후 완벽한 정보로 사전 판단을 재심하는 순간 생긴다.
  • “왜 그때 X를 안 했나?”가 학습이 되려면, 대응 중 방해가 아니어야 한다.
  • 목표는 프로세스 제거가 아니라 208초 구역208분 구역을 나누는 것.

1. 208초 — 정보가 부족한데 결정해야 하는 시간

영화에서 Sully는 이륙 후 몇 분 만에 선택한다.

  • LaGuardia 복귀?
  • Teterboro?
  • 아니면 강 위 착륙?

그때 그는 전체 로그·시뮬레이션·위원회의 질문을 갖고 있지 않다. 새, 연료, 고도, 승객 — 불완전한 조각만으로 손실을 최소화하는 쪽을 고른다.

장애 채널을 오래 보면 비슷한 순간이 있다.

  • “아직 원인 모름”
  • “일단 완화 vs 롤백 vs 선포 레벨”
  • “고객 영향 범위 불명”

on-call이 서 있는 자리는 정답을 아는 자리가 아니라, 손실을 줄이는 자리다.
장애 대응이 촘촘한 조직일수록, 이 208초 구간에 템플릿·선포·역할·타임라인이 붙어 있다. 그건 대부분 맞다. 사람이 흩어지지 않게 하니까.


2. 208분 — 사후에야 가능한 “그때는 됐을 텐데”

영화 후반, NTSB는 시뮬레이터로 “공항 복귀 가능했지 않나?”를 보여준다.
Sully는 인간 반응 시간·위기 순간의 지연을 넣어야 공정하다고 말한다. 완벽한 조건의 재현은 당시 조종석과 같지 않다.

장애가 끝난 뒤 채널·postmortem·회고에서 자주 듣는 말:

  • “그때 바로 revert 했으면…”
  • “왜 이 대시보드를 먼저 안 봤지?”
  • “선포 문구를 10분 일찍…”

전부 맞을 수 있다. 다만 전부 사후 정보다.

이 질문이 학습이 되면 조직은 강해진다.
같은 질문이 재심이 되면, 다음 on-call은 208초에 덜 과감해진다.

  • revert는 빨라지는데 원인 추적은 미뤄진다.
  • 기록은 길어지는데 첫 완화는 늦어진다.
  • “일단 아무거나”가 아니라 “일단 아무 말도 안 하기”로 변한다.

촘촘함의 그림자다.


3. 촘촘한 장애 대응이 살린 것 (먼저 인정)

부작용만 쓰면 불공정하다. 장애 채널·프로세스가 없던 시절을 기억하는 사람은 안다.

없을 때 촘촘할 때
누가 말할지 모름 역할·선포·에스컬레이션
타임라인이 oral history 채널 로그 = 공통 ground
같은 장애 반복 postmortem·액션 아이템
야간 혼란 on-call 루트

my-cursor에 장애 레이어를 둔 것도 같은 이유다. 감정이 아니라 문장으로 움직이게 하려고.

문제는 “촘촘함 = 나쁨”이 아니라, 촘촘함이 208초 구역까지 침범할 때다.


4. 부작용 네 가지 (패턴)

특정 회사·특정 사건이 아니라, 촘촘한 조직에서 흔한 패턴으로 적는다.

① 사후 시뮬레이터 syndrome

로그·메트릭·재현이 갖춰진 뒤 “그때는 이렇게 했어야”를 말하는 것.
맞고, 동시에 unfair할 수 있다.

postmortem에 남길 질문:
“당시 알 수 있었던 정보 기준으로, 합리적 선택이었는가?”

② 선포·기록이 완화보다 앞서는 순간

프로세스 compliance가 첫 손실 차단보다 우선될 때.
채널은 활발한데 고객 영향 시간은 줄지 않는 case.

③ 방어적 대응

다음 장애에서 on-call이 “틀리면 재심받는다”를 학습하면,
가장 안전한 행동 = 가장 보수적인 행동이 된다.
revert 남발, 실험적 완화 회피, “누군가 승인 후에”.

④ 장애 톤의 일상화

채널이 많고 템플릿이 많으면, 중간 심각도도 전부 P1처럼 느껴진다.
피로가 쌓이면 208초 판단력이 떨어진다 — 아이러니하게도.


5. 208초와 208분을 나누기

설리도 결국 조종사 판단 + 안전 시스템이 같이 가야 산다.
장애 대응도 구역을 나누면 촘촘함과 현장 판단이 공존할 여지가 있다.

208초 구역 (대응 중)

  • 질문은 앞으로: “지금 손실을 줄이려면?”
  • “왜 안 했어?”는 hold — 채널에 적어두고 나중에
  • 완화·롤백·커뮤니케이션 우선

208분 구역 (대응 후)

  • 타임라인·재현·액션 아이템
  • “당시 정보로 합리적이었는가?”
  • 프로세스 개선 — 다음 208초를 위한 변경

p99와 낮은 샘플링과도 연결된다.
장애 중 “일단 revert”만 외치는 팀과, 어떤 경로가 깨졌는지 증거로 말하는 팀은 다르다.
208분에 쌓인 관측·자동화가 다음 208초를 짧게 만든다.


6. 채널을 오래 본 사람에게

장애 대응을 잘하는 조직은 조용한 조직이 아니다.
채널이 붐비는 건 나쁜 신호만은 아니다.

다만 채널이 대응자를 재판하는 공간이 되면,
다음 Sully는 강에 안 내리더라도 판단을 포기할 수 있다.

밤에 영화를 보고 이 생각이 든 건, 감성 때문만은 아닐 것이다.
같은 패턴을 너무 많이 봤기 때문일 거다.


마치며

설리는 “비행기를 살린 영웅” 이야기이기도 하고,
“판단을 사후에 재현하는 시스템” 이야기이기도 하다.

장애 프로세스를 약하게 만들자는 게 아니다.
208초에는 살리고, 208분에는 배우되, 재심과 학습을 구분하자는 것이다.

한 줄 결: 촘촘한 장애 대응의 목적은 조종사를 교체하는 게 아니라, 다음 208초를 더 안전하게 만드는 것이다.


읽을 거리

영화 줄거리·역사적 사건 요약이며, 특정 회사·특정 장애 사건을 지칭하지 않습니다.