카카오 “서버 3만2000대 전체가 다운, IT 역사상 유례없어”
판교에 서버 몰려 있고 데이터 이중화 관리 미흡 ‘복구 지연’
전화·인터넷망처럼 데이터센터도 국가적 관리 필요 지적
카카오T 주차장 무인정산기도 ‘먹통’ 경기 과천의 한 카카오T 주차장 무인정산기에 16일 카카오 서비스 시스템 장애를 알리는 안내문이 붙어 있다. 연합뉴스
SK C&C 판교 데이터센터 화재로 장시간 서비스 장애가 이어지면서 카카오가 데이터 백업과 재난 시 대응체계에 한계를 드러냈다. 카카오가 자체 데이터센터도 없이 서비스만 성급히 늘린 바람에 재난상황에 잘 대처하지 못한 게 아니냐는 비판도 나온다.
16일 정보기술(IT) 업계 관계자들의 말을 종합하면, IT 회사들은 자사 서비스의 원활한 구동을 위해 국내외 데이터센터 여러 곳에 기업 서버를 둔다.
카카오 역시 경기 판교·안양 등 4개 지역 데이터센터에 서버를 뒀다. 카카오는 카카오톡 등 주요 서비스에 이상이 생기는 경우 다른 서버를 이용해 20분 안에 복구하는 것을 원칙으로 한다.
그러나 판교 데이터센터 화재를 진화하기 위해 데이터센터 서버의 전원을 모두 차단하자 취약성이 바로 드러났다. 카카오톡 등 카카오의 주요 서비스 대부분이 이날 오후 3시30분부터 장시간 ‘먹통’이 됐다. 카카오톡 문자 수·발신 기능이 일부 복구된 건 장애 발생 10시간이 지난 16일 오전 2시16분이었다. 카카오톡과 카카오페이, 카카오T, 카카오맵 등 일부 주요 서비스는 이날까지도 완전히 복구되지 않았다.
장시간 장애가 이어진 것은 카카오가 판교 데이터센터 한 곳에 가장 많은 서버를 몰아넣었기 때문이다. 양현서 카카오 대외협력실장(부사장)은 “서버 3만2000대 전체가 다운된 것은 IT 역사상에도 유례가 없는 사항이기 때문에 그런 점에서 저희 대처에 어려운 점이 있었다”고 말했다.
반면 네이버는 자체 데이터센터를 별도로 운영하고 있고 판교 데이터센터에 상대적으로 적은 서버를 둬서 복구가 빠른 것으로 알려졌다. 네이버 관계자는 “네이버는 춘천·판교·안양 등 서버를 분산시키는 작업을 오랫동안 진행했고 ‘이중화’가 잘 관리됐기 때문에 상대적으로 영향이 적었다”고 밝혔다. 이중화는 같은 데이터를 복제해 분산 저장하는 방식이다.
카카오의 경우 덩치에 걸맞지 않게 데이터센터를 제대로 구축하지 않고 성장에 급급한 게 이번 사태의 근본 원인으로 지목됐다.
업계 관계자는 “갑작스러운 화재 등에 대비해 이중화 조치 등 재난 복구 계획이 제대로 짜였어야 한다”면서 “카카오의 경우 데이터센터를 빌려 쓰고 있어 한계가 있는 데다, 재난 대응 계획도 충분치 않았던 것으로 보인다”고 평했다. 카카오는 내년 완공을 목표로 경기 안산 한양대 에리카캠퍼스에 첫 자체 데이터센터를 건설 중이다.
대기업 데이터센터 등을 관리하는 업계 관계자는 “카카오톡에서는 실시간으로도 움직이는 데이터 수준이 몇 백 테라바이트(TB)에 달했을 것”이라며 “이 데이터를 다른 데이터센터를 통해서 복구하고 서비스를 재개한다 하더라도 소요 시간이 상당할 수밖에 없다”고 말했다. 이 관계자는 “특히 비상시에 전원 공급을 차단한다고 하더라도 서버에 무리가 가지 않게 하기 위해 서버 수천대의 전원 차단에만 한 시간 이상이 걸린다”고 설명했다. 이어 “카카오 서버의 경우 화재 발생 직후 차단됐기 때문에 손상된 하드웨어 복구는 물론, 관련 데이터 등을 확인하는 데만 수십 시간이 걸렸을 것으로 보인다”고 말했다.
이번 사태를 계기로 정부와 IT업계가 ‘최악의 상황’에 대비해 비상대응체계를 재점검해야 한다는 목소리가 높다. 나아가 화재나 자연재해, 해커 공격 등에 대비해 민간 서비스라도 핵심적인 것은 범정부적인 관리 방안이 필요하다는 지적도 이어지고 있다. 마치 전화나 인터넷망 자체가 주요 국가기반시설이듯, 데이터센터도 국가적 책임이 따라야 한다는 뜻이다.