안녕하세요. 에이클라우드 이동하 매니저입니다.
저번시간에 이어서 오늘은 AWS 기반 재해 복구에 대해서 알아보는 시간을 가져보도록 하겠습니다.
재해 복구(DR)에 대해서 궁금하시다면 아래 링크를 참고 하시면 되겠습니다.
재해 복구 목표
재해 복구 목표는 워크로드를 복구하거나 다운타임을 방지하는 것입니다. 재해 복구 목표를 수립하기 위해서는 먼저 RTO(Recovery Time Objective)복구 시간 목표와 RPO(Recovery Point Objective)복구 지점 목표에 대해서 알아둘 필요가 있습니다.
RTO(복구 시간 목표) : 서비스 중단과 서비스 복원 사이의 최대로 허용 되는 지연시간 입니다. 이에 따라 서비스 다운타임의 허용 가능한 기간이 결정됩니다. 예를 들어 RTO가 5분인 경우 재난 발생 직후부터 시작해서 복구까지 5분이라는 시간이 걸린다는 뜻입니다.
RPO(복구 지점 목표) : 마지막 데이터 복구 가능한 시점 이후에 장애시 데이터 손실을 허용 할수 있는 최대 시간입니다. 이에 따라 마지막 데이터 손실 복구 허용 가능한 데이터 손실 시간을 결정합니다. 예를 들어 RPO가 10분인 경우 복구 가능한 데이터가 재난 발생 시점 기준으로 10분이라는 뜻입니다.
이에 맞춰 클라우드 환경에서 RTO와 RPO를 높은 수준으로 이용하려면 보다 많은 비용이 첨부 될 수도 있습니다.
사용자는 현재 혹은 차후 예정 되어있는 워크로드의 요구 조건을 정확하고 세부적으로 파악하여 효율적인 RTO와 RPO를 계획 할 수 있어야 합니다.
AWS 재해 복구 전략
AWS에서는 아래와 같이 4가지 재해 복구 전략을 가지고 있습니다. 그림을 참고하면 좌측에서 우측으로 갈수록 높은 RTO & RPO와 높은 비용을 필요로 합니다.
-
- 백업 및 복구(Backup & Restore)
-
- 파일럿 라이트(Pilot Light)
-
- 웜 스탠바이(Warm standby)
-
- 멀티 사이트 액티브/액티브(Multi-site active/active)
백업 및 복구 : 시간 단위의 RPO, 24시간 이내의 RTO를 요구합니다. 구성은 데이터와 애플리케이션을 보조(DR) 리전에 주기적인 스냅샷을 통해 백업을 합니다. 재해가 발생하여 필요시 보조 리전에 있는 데이터로 복원을 합니다.
파일럿 라이트 : 분 단위의 RPO, 시간 단위의 RTO를 요구합니다. 구성은 애플리케이션 및 데이터(시스템의 핵심 요소)를 액티브로 보조(DR) 리전에 유지합니다. 재해 발생시 시스템의 핵심 요소를 전체 프로덕션 환경으로 프로비저닝 하면서 재해 복구를 합니다.
웜 스탠바이 : 초 단위의 RPO, 분 단위의 RTO를 요구합니다. 구성은 액티브 리전에서 실행 되고 있는 모든 환경이 미니멈(축소)버전으로 보조(DR) 리전에 구성이 되어야 합니다. 시스템의 핵심 요소는 완벽한 복제가 되어야 하지만 시세템의 핵심 요소가 아닌 다른 요소는 축소되어 실행 됩니다. 재해 발생시 시스템의 가용성을 확보하기 위해 보조(DR)리전으로 신속하게 프로비저닝 하면서 확장합니다.
멀티 리전 액티브/액티브 : RPO 대기 시간이 없음, 초 단위의 RTO 시간을 요구합니다. 앞에 소개 했던 3가지의 재해 복구 전략과는 다르게 액티브/패시브가 아닌 액티브/액티브 전략입니다. 따라서 많은 비용을 요구하는 재해 복구 전략입니다. 워크로드를 하나의 리전이 아닌 멀티 리전으로 배포 하면서 실시간으로 서로 백업을 하는 방식입니다. 예제 아키텍처에서는 Aurora Grobal Database를 사용하였으며, DynamoDB도 적합한 대안이 될 수도 있습니다. 주의할 것은 멀티 리전 액티브/액티브에 따른 손실도 고려해야 한다는 것입니다. 특히 멀티 리전을 사용하여 재해 복구 전략을 구현하고 운영하는 것은 다른 재해 복구 전략보다 더 복잡하고 비용이 많이 발생할 수 있습니다.
이렇게 AWS 재해 복구 전략에 대해 소개 해보았습니다.
재해 복구 전략은 비즈니스의 핵심 부분이며, AWS의 다양한 전략을 적용하는 것은 더 높은 가용성과 안정성을 확보하는 중요한 과제입니다. 각 전략은 RTO와 RPO, 그리고 비용 측면에서 고려해야 할 다양한 요소가 있습니다. 앞 내용의 4가지 재해 복구 전략을 참고하여 사용자에 맞는 재해 복구 전략을 계획해야 합니다.
멀티 리전 액티브/액티브 전략의 경우, 초 단위의 RTO와 RPO를 제공하지만 그에 따른 복잡성과 비용 측면에서 신중한 검토가 필요합니다. 특히 데이터 일관성과 동기화를 유지하는 것은 효과적인 운영을 위해 항상 고려되어야 하는 과제입니다.
이것으로 AWS 재해 복구 전략에 대해 배워 보는 시간을 가져보았습니다.
긴글 읽어주셔서 감사합니다. (__)