3월 29, 금요일
(왼) 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (오) 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO) (아랫줄) (왼) 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (오) 비상대책위원회 재발방지대책 공동 소위원장, 고우찬

카카오, “HWㆍ설비ㆍ서비스 앱 등 전체 시스템 레이어 이중화 마련하겠다”ㆍㆍㆍ개발자 행사서 원인과 대응 발표

[테크수다 기자 도안구 eyeball@techsuda.com]남궁훈 비상대책위원회 재발방지대책 공동 소위원장은 “지금이라도 우리는 반성하고 개선해 나가려고 합니다. 미래에는 이런 사고가 발생하지 않도록 최선을 다하고 앞으로도 카카오의 서비스의 안정화가 우리의 최우선 과제이며, 사회적 책임이라는 것을 항상 명심하겠습니다”라고 밝혔다.

카카오(대표 홍은택)는 오늘 오전 11시, 개발자 컨퍼런스 ‘이프 카카오 데브 2022(if (kakao) dev 2022) (이하 ‘이프 카카오’)’ 에서 지난 10월 15일 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지대책을 공개했다.

 

이번 이프 카카오는 올 한해 부족했던 부분을 솔직하게 돌아보고, 기술로 더 나은 세상을 만들기 위해 다시 새롭게 나아간다는데 중점을 두고 있다.

그런 의미에서 행사 첫날인 7일 발표를 맡은 남궁훈, 고우찬 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장(그렙 CEO), 이채영 비상대책위원회 재발방지대책 소위원회 부위원장 등 4명의 연사는 서비스 장애 원인에 대한 분석과 개선 사항을 공유하며 다시는 이런 일이 발생하지 않도록 개선하는 계기로 삼겠다는 의지를 밝혔다.

이확영 원인조사 소위원장(그렙 CEO)은 “데이터센터간 이중화, 운영도구와 모니러팅 시스템 이중화, 장애 대응 인력과 자원이 전반적으로 미흡했고 부족했다”고 전했다.

데이터센터간 이중화 관련해 캐시서버와 오브젝트 스토리지 이중화는 판교 SK C&C 데이터센터에만 구현되어 카카오로그인이나 카카오톡 사진전송 등이 문제가 발생했다. 장애가 날 경우 다른 데이터센터로 자동전환되어야 하는데 이런 기능도 판교 내에서만 작동하게 했고 물리적인 다른 데이터센터로 연결되는 기능이 구현되지 않았다.

컨테이너 이미지를 저장하고 관리하는 서비스 개발과 관리 위한 운영 관리 도구들의 이중화 문제도 늦어진 장애 복구 원인으로 확인되었다. 

첫날 키노트는 우리의 사회적 미션(Our Social Mission),  10월 15일 장애원인 분석,  달라지는 카카오 1) 재발방지를 위한 기술적 개선 △ 달라지는 카카오 2) 미래 투자와 혁신 계획 등 총 4개 주제로 구성돼 있다.

카카오 개발자 컨퍼런스 ‘이프 카카오’ 키노트 발표 발췌

남궁훈 재발방지대책 공동 소위원장은 ‘Our Social Mission’ 키노트에서 카카오의 사회적 소명과 유사 사고 재발 방지를 위한 각오를 피력했다. 카카오 ESG 최우선 과제를 ‘서비스를 안정적으로 제공하는 것’으로 설정하고 인프라 개선을 위해 과거 원인 분석, 현재 재발방지책, 미래 투자 크게 3가지 관점에서 실천과제를 세우겠다고 밝혔다. 고우찬 재발방지 공동 소위원장을 필두로 인프라 조직을 대폭 강화하고 안정적인 서비스 환경을 조성하겠다고 전했다.

이확영 원인조사 소위원장(그렙 CEO)은 ‘1015 장애원인 분석’ 키노트에서 카카오 서비스 장애 원인을 제 3자 관점에서 객관적으로 분석했다. 데이터센터와 운영 관리 도구들의 이중화 미흡, 가용 자원 부족 등을 주요 원인으로 꼽았고 서비스 복구에 시간이 소요된 이유를 자세히 설명했다.

이채영 재발방지대책소위원회 부위원장은 ‘달라지는 카카오 1) 재발방지를 위한 기술적 개선’ 키노트에서 재발방지를 위한 기술적 개선 사항을 발표했다. 데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화 등 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체의 철저한 이중화를 적용하겠다는 내용이다. 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리도구 삼중화 등 구체적인 개선 사항들을 전했다.

고우찬 재발방지대책 공동 소위원장은 ‘달라지는 카카오 2) 미래 투자와 혁신 계획’ 키노트에서 자체 데이터센터 방재 대책 및 향후 5년간의 IT 엔지니어링 혁신 방안을 제시했다. 현재 총 4,600억원의 예산을 투입해 시공 중인 안산 데이터센터의 운영 안정성, IT 엔지니어링 전담 조직 및 인재 확보, 각종 자연 재해와 인위적 사건 사고로 사업을 중단하는 상황을 최소화하기 위한 비상대응계획 (Business Continuity Plan) 및 데이터센터 DR (Disaster Recovery) 체계 구축 등에 관해 설명했다.

카카오는 이프 카카오 첫날에 이어 둘째날에도 ‘1015 회고’ 특별 세션 5개를 별도로 열고 데이터센터, 인프라 설비, 데이터, 서비스 플랫폼, 어플리케이션 등 다섯 개 영역에 적용하는 다중화 기술에 관해 개별적으로 설명하는 자리를 이어갈 예정이다.

한편, 카카오는 7일 키노트 연설을 시작으로 9일까지 카카오 공동체 소속 개발자 120여 명이 연사로 나서 △1015 데이터센터 화재 회고 △AI △백엔드 △클라우드 △데브옵스 △블록체인 △데이터 △프론트엔드 △모바일 △ESG △문화 등으로 이루어진 12개 트랙에서 총 106개 발표 세션을 진행한다. 기술 외, 접근성이나 기술윤리 등 디지털 책임을 높이기 위한 카카오의 실천적 활동을 소개한 콘텐츠도 공개된다.

[테크수다 기자 도안구 eyeball@techsuda.com]

[참고

이프 카카오 사이트: https://if.kakao.com

About 도안구 기자

도안구 기자
긴 여정을 떠나며. 동료들은 다 어디 있는 거야.

추천 기사

카카오엔터프라이즈, ‘카카오 i 커넥트 라이브 2.0’ 공개···2000명 수용 가능·접속 성공률 99%·지연 대기 시간 0.5초

[테크수다 기자 도안구 eyeball@techsuda.com] 카카오엔터프라이즈(대표 백상엽)가 인공지능(AI) 기술을 강화해 대규모 인원이 동시 접속 및 상호작용할 …

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다