크리스마스 이브에 발생한 아메리칸 항공의 운항 중단과 크리스마스 당일 노르웨이의 열차 운행 중단은 모두 IT 외주업체와 관련해 발생한 사고다. 하지만 두 조직이 각각의 문제를 처리하는 방식은 매우 달랐다.
크리스마스 이브와 크리스마스 당일은 운송 회사에게 중요한 시기다. 즉 시스템 결함으로 인해 크리스마스 이브에 아메리칸 에어라인이 정부에 전면 셧다운을 요청해야 했던 사태는 큰 문제였다. 그리고 다음 날 노르웨이 철도 시스템을 운영하는 베인 노르(Bane NOR)는 노르웨이의 모든 열차를 운행 중단해야 하는 중대한 문제를 겪었다.
두 사건 모두 IT 문제와 관련이 있었고, 원인의 대부분은 외주 업체와 관련성을 가졌다. 사실 써드파티 리스크는 이미 익숙한 주제다. 하지만 공급업체의 오류로 인해 기업의 모든 운영이 중단될 수 있다고 인정하는 CIO는 없을 것이다. 의미 있는 실사를 거쳤다고 가정할지라도 외부 업체를 송두리째 믿을 수는 없는 노릇이기 때문이다.
일단 이 크리스마스의 악몽 2건은 각각 어떤 사건일까? 각각을 자세히 살펴보고 두 거대 운송업체의 접근 방식이 어떻게 달랐는지 알아본다.
두 사건 중 크리스마스 당일 오전 8시부터 오후 9시까지 13시간 동안 지속된 노르웨이 열차 운행 중단 사건이 더 흥미롭다. 문제는 열차가 교통 관제 센터와 통신이 되지 않아 안전하게 운행할 수 없었다는 것이다. 원인은 방화벽 설정이 잘못되었기 때문이었다.
오늘날의 시스템 대다수가 인터넷을 통해 실행되기에, 방화벽 문제는 무엇이든 차단되는 상황으로 이어질 수 있다. 그러나 이 사건이 발생하기 전까지는 방화벽 설정이 모든 열차의 운행을 중단시킬 수 있음을 인지한 베인 노르의 IT 관리자는 드물었다.
이것이 열차 운행 재개가 오랫동안 지연된 주요 원인이었다. 통신이 중단되면 관리자들은 일단 통신 장비의 고장을 의심한다. 베인 노르의 외부 커뮤니케이션 매니저인 스트라찬 스타인 스메모는 컴퓨터월드에 보낸 이메일에서 “방화벽 문제를 추적하기까지 시간이 좀 걸렸다. 우선적으로 추정된 원인 중 하나가 아니었기 때문이다. 문제를 찾는 것이 까다로웠다”라고 전했다.
베인의 팀은 방화벽 설정을 변경하지 않고 다른 방화벽으로 전환하는 임시방편을 채택했다. 이후 영향을 받는 구성 요소를 변경했다고 스메모는 전했다.)
베인의 정보 및 통신 기술 책임자인 아릴드 니브로달이 사건 직후 밝힌 내용은 따르면, 그의 팀은 크리스마스 이브에 ‘시스템 불안정’을 감지했으며, 당시부터 문제 해결을 위한 노력이 시작됐다. 다음 날 오전 8시까지는 운영을 중단할 만큼 상황이 나빠지지는 않았다.
당시 그는 “해당 장애가 철도의 폐쇄형 모바일 네트워크(GSM-R)와 기타 중요한 통신 시스템에 영향을 미쳤다. 열차와 기관사 간의 비상 전화 및 기타 통신이 작동하지 않으면 열차를 운행할 수 없다. 우리는 전국적인 IT 인프라에서 오류의 원인을 찾아냈으며 현재 오류를 수정하기 위한 솔루션을 개발 중이다. 아직 근본 원인은 해결하지 못했지만 오류가 발생한 네트워크 부분을 나머지 인프라로부터 격리하도록 조치를 취했다”라고 말했다.
베인은 관련된 외주업체를 밝히지 않았으며 심지어 해당 공급업체의 노력을 칭찬하기도 했다. 스메모는 “공급업체로부터 좋은 도움을 받았다”라고 말했다.
그러나 아메리칸 항공의 대처는 달랐다. 이 항공사는 문제가 된 공급업체를 DXC라고 밝혔을 뿐만 아니라 기자들에게 문제가 발생한 것이 해당 공급업체의 잘못이라고 말하기까지 했다. 파트너 기업을 버스 밑으로 던지는 것과 같은 행태였다.
아메리칸 항공과 DXC 모두 구체적인 사항을 언급하지 않았기 때문에 두 회사 간에 정확히 어떤 일이 있었는지는 명확하지 않다. 하지만 아메리칸 항공은 1시간의 서비스 중단이 끝난 직후에 이러한 발언을 했다. 이는 감정이 작용했다는 뜻이며, 항공사 측의 누군가가 매우 격노했다는 의미다. (DXC 역시 주가가 타격을 입었기 때문에 불만이 많았을 것이다.)
DXC는 아메리칸 항공의 오랜 공급업체였지만(DXC 웹사이트에는 “20년 이상 ”이라고 명시되어 있다), 이번 셧다운에 어떤 역할을 했는지는 정확히 밝혀지지 않았다. 이 회사는 항공사의 비행 운영 시스템에서 일부 역할을 담당하고 있으며 레거시 코드를 클라우드로 이전하는 등 아메리칸 항공의 시스템을 현대화에 개입한 것으로 알려졌다.
아메리칸 항공은 네트워크 하드웨어 문제를 모호하게 지목했으며 미국 연방항공청에 약 한 시간 동안 지속되는 전국적인 그룹 중단을 요청했다. MSN의 보도에 따르면 이 사고로 인해 “미국 200개 공항의 약 90만 명의 승객에게 영향을 미치는 900편 이상의 항공편이 지연되어 많은 승객이 발이 묶여 터미널에서 잠을 자야 했다.”
사건이 공휴일에 발생했다는 점을 고려할 때, 한 가지 분명한 요인은 항공사에 근무하는 승무원이 극소수였다는 점이다. 휴일 근무가 두 사건의 원인일 가능성은 낮지만, 이로 인해 대응 속도가 느려졌을 가능성이 높다.
크리스마스 이브에 DXC의 IT 리더십 교체가 진행 중이었다는 점도 원인으로 지목할 수 있다. CIO인 크리스티 그리넬이 TD 시넥스의 CIO로 자리를 옮긴다는 소식을 알렸다. 이 소식은 12월 19일에 발표되었고, 2주 후 DXC는 새로운 CIO로 브래드 노박을 선임했다.
공급업체 파트너를 버스 아래로 던지는 행태의 문제점은 – 완전한 조사를 하지 않았거나 누가 잘못했는지 확정하지 않았다는 사실 외에도 – 중요한 질문에 대한 답을 얻지 못한다는 것이다. 이 외주업체가 제공하기로 한 서비스를 제공할 수 있는 적절한 기술과 인력을 갖추고 있었는가? 그렇지 않다면 그 회사를 고용한 사람에게 잘못이 있지 않을까?
선정 과정이 적절했다고 가정할지라도“누가 그 업체를 감독해야 했는가?”라는 질문이 생긴다. 그리고 외주업체는 업무를 수행하는 데 필요한 모든 것을 제공받았는지도 따져볼 문제다.
주주의 입장에서는 외부 업체를 감독하고 데려온 사람들에게 책임을 지게 하는 것이 일반적이다. 외부 업체가 지시를 무시하거나 나쁜 행동을 하지 않는 한, 대부분의 사고는 기업에게 책임이 있다는 시각이다. 사실 외부 업체를 비난하는 기업은 자신의 잘못을 드러나기 전에 논점을 바꾸려는 경향을 보이기 마련이다.
[email protected]
Read More from This Article: 칼럼 | 비행기와 기차, 서비스 중단에 대한 각기 다른 이야기
Source: News