본문 바로가기

공부 자료/IT관련 이슈

[카카오 화재] 이중화, DR

이중화

: 시스템의 가용성을 높이기 위해 장비를 다중화 시키는 방법

: 가용성을 높여주기 때문에 고가용성을 뜻하는 HA(Hight Avaliability)라는 용어와 혼재해 사용함

즉, 하나의 서버에 문제가 발생하더라도 다른 장비에서 서비스가 될 수 있도록 구현하는 것

(1개의 다른 서버가 다운되더라도 다른 1개의 서버로 커버하는 것)

>>이중화의 경우 동일한 서버가 1개 더 존재하며 비용이 그만큼 많이 들 수 있음.

 

 

DR(Disaster Recovery)

: 재해 복구라고 칭함

: 재해로부터 데이터센터를 보호하는 1차 보호 전략으로서, 재해가 발생할 경우 재해 복구 계획(disaster recovery plan, DRP)를 통해 유지

>> 재해로 인해 데이터센터에 문제가 발생하더라도 다른 데이터센터에서 커버가 가능해야 함. (이럴 경우 데이터센터는 아예 다른 지역에 세우게 되며 지역적 문제가 발생하더라도 영향을 미치지 않도록 함)

 

 

이번 카카오 사태에서 카카오는 '이중화'에 미지했다는 것을 인정하며 설계를 고도화 할 것이라 발표했다. Naver와 카카오 같은 기업은 이중화 의무에 대한 규제가 없기 때문에 재난 관리 대상에 포함시켜야 한다는 말과 해당 법안에 대해 추진중에 있다.

 

이번 사태로 인해 이중화, DR에 대해서도 찾아보게 되었다.

이중화라는 것은 동일한 서버를 가지고 있어야 하기 때문에 비용적인 문제에서 쉬운 결정은 아니겠지만 준비를 진행해야 한다는 것, 데이터센터를 지역적으로 두어 지역적 피해로 인해 사용자의 피해는 없어야 한다는 것을 알 수 있었다.

DR의 경우 갖추어져 있다고 하더라도 실질적으로 DR이 동작되지 않는 경우도 존재한다고 한다. 재해가 발생할 것이라는 가정 하에 대비가 필요하다. 예를 들어 소화기를 배치해 두는 것 뿐 아니라 가끔 소화기가 잘 작동하는지 문제가 없는지에 대해서 확인을 진행하는 것 처럼 DR도 동일하다는 것이다. DR 체계가 존재한다고 하더라도 동작하지 않을 수 있다는 것을 알고 있어야 하며, 동작하지 않는 원인으로는 재해가 자주 발생하지 않기 때문에 동작 여부를 확인하지 못한다는 점, 이를 보안하기 위한 모의 장애 훈련이 필요하지만 이를 진행하지 않는 경우를 뽑을 수 있을 것이다. 실제로 넷플릭스의 경우 '카오스 몽키' 라고 하여 시스템을 위한 훈련을 많이 한다고 알려져 있다.

RTO(Recovery Time Objective) : 데이터를 복구하는데 걸리는 목표 시간을 의미하며 평균적으로 4시간정도라고 한다.

RPO(Recovery Point Objective) : 데이터를 복구하는 시점을 어느 시점으로 되돌릴 것인지를 의미하며, 백업 시스템에 따라서 복구 시점이 많이 다를 수 있다. 만약 실시간 백업이 잘 이루어지고 있었다면 서비스 장애가 발생하기 이전으로 되돌릴 수 있겠으나 만약 하루에 한 번씩 백업이 진행되거나 이틀에 한 번씩 진행되고 있을 경우 읽어버리는 시간이 존재했을 것이라고 판단한다. 이번 사태에서 백업 시스템은 잘 작동중이며, 복구에 있어 시간이 소요되고는있지만 읽어버린 시간이 존재하지는 않는 것으로 보인다.

계속 상황을 지켜봐야겠지만 이번 사태로 인해서 많은 IT 기업에서 모의 훈련을 진행하고 있는 것으로 파악된다. 나 또한 이번 사태로 인해서 이중화와 DR에 대해서 알아가는 시간을 가졌다.