AWS
장애 복구 전략을 세우기 전에 꼭 알아야 할 개념: RTO vs RPO
heesoohi
2025. 5. 16. 22:59
서버나 시스템에 장애가 발생했을 때, 얼마나 빨리 복구해야 할까? 또 어느 시점까지의 데이터를 복구할 수 있으면 괜찮을까? 장애 복구(Disaster Recovery)를 설계할 때 꼭 알아야 하는 두 가지 핵심 지표가 바로 RTO와 RPO이다.
RTO (Recovery Time Objective): 복구 시간 목표
"장애 발생 후, 시스템이 몇 분(또는 몇 시간) 이내에 다시 동작해야 하는가?"
- 초점: 시간
- 예시: 장애 발생 후 10분 내에 시스템이 작동 상태로 돌아와야 한다면,
→ RTO = 10분 - RTO가 짧을수록, 복구 환경이 빠르게 준비되어 있어야 함
RPO (Recovery Point Objective): 복구 지점 목표
"장애 발생 시점 기준, 얼마나 이전의 데이터까지 복구할 수 있으면 괜찮은가?"
- 초점: 데이터 손실 허용 범위
- 예시: 최대 10분 전 데이터까지만 복구되면 괜찮다면
→ RPO = 10분 - RPO가 짧을수록, 더 자주 데이터 백업 또는 복제가 필요함
RTO / RPO 기준에 따른 DR(Disaster Recovery) 전략 선택 가이드
장애 복구 전략은 비용과 복구 속도/정확도 사이에서 트레이드오프가 있다. RTO와 RPO 시간에 따라 어떤 전략이 적절한지 아래 표로 정리해보았다.
DR 전략 | RTO | RPO | 특징 | 비용 |
Backup & Restore | 수 시간 이상 | 수 시간 이상 | 정기 백업 후 수동 복구 | 💰 매우 낮음 |
Pilot Light | 수십 분 | 수~10분 | 핵심 인프라만 최소 운영, 필요 시 전체 확장 | 💰 낮음 |
Warm Standby | 수~10분 | 수~10분 | 축소된 전체 환경 상시 운영, 빠른 전환 | 💰 중간 |
Multi-Site Active-Active | 거의 0 | 거의 0 | 이중화된 실시간 운영, 무중단 복구 | 💰 매우 높음 |
- RTO = 얼마나 빨리 시스템을 복구해야 하는가
- RPO = 얼마나 최근 시점까지의 데이터를 복구해야 하는가
- DR 전략 선택 시, RTO/RPO 조건과 예산 사이의 균형이 중요
- Pilot Light와 Warm Standby는 많은 기업이 선호하는 현실적인 DR 전략