AWS

장애 복구 전략을 세우기 전에 꼭 알아야 할 개념: RTO vs RPO

heesoohi 2025. 5. 16. 22:59

서버나 시스템에 장애가 발생했을 때, 얼마나 빨리 복구해야 할까? 또 어느 시점까지의 데이터를 복구할 수 있으면 괜찮을까? 장애 복구(Disaster Recovery)를 설계할 때 꼭 알아야 하는 두 가지 핵심 지표가 바로 RTORPO이다.

 

RTO (Recovery Time Objective): 복구 시간 목표

"장애 발생 후, 시스템이 몇 분(또는 몇 시간) 이내에 다시 동작해야 하는가?"

  • 초점: 시간
  • 예시: 장애 발생 후 10분 내에 시스템이 작동 상태로 돌아와야 한다면,
    RTO = 10분
  • RTO가 짧을수록, 복구 환경이 빠르게 준비되어 있어야 함

 

RPO (Recovery Point Objective): 복구 지점 목표

"장애 발생 시점 기준, 얼마나 이전의 데이터까지 복구할 수 있으면 괜찮은가?"

  • 초점: 데이터 손실 허용 범위
  • 예시: 최대 10분 전 데이터까지만 복구되면 괜찮다면
    RPO = 10분
  • RPO가 짧을수록, 더 자주 데이터 백업 또는 복제가 필요함

 

RTO / RPO 기준에 따른 DR(Disaster Recovery) 전략 선택 가이드

장애 복구 전략은 비용복구 속도/정확도 사이에서 트레이드오프가 있다. RTO와 RPO 시간에 따라 어떤 전략이 적절한지 아래 표로 정리해보았다.

 

DR 전략 RTO RPO 특징 비용
Backup & Restore 수 시간 이상 수 시간 이상 정기 백업 후 수동 복구 💰 매우 낮음
Pilot Light 수십 분 수~10분 핵심 인프라만 최소 운영, 필요 시 전체 확장 💰 낮음
Warm Standby 수~10분 수~10분 축소된 전체 환경 상시 운영, 빠른 전환 💰 중간
Multi-Site Active-Active 거의 0 거의 0 이중화된 실시간 운영, 무중단 복구 💰 매우 높음

 

 

  • RTO = 얼마나 빨리 시스템을 복구해야 하는가
  • RPO = 얼마나 최근 시점까지의 데이터를 복구해야 하는가
  • DR 전략 선택 시, RTO/RPO 조건과 예산 사이의 균형이 중요
  • Pilot LightWarm Standby는 많은 기업이 선호하는 현실적인 DR 전략