Azure VM 백업 정책 실무 설계: KST 기준 시간 최적화와 멀티리전 Vault 전략



Azure VM 백업 정책 설계 - 클라우드 데이터 보호
Photo by Taylor Vick on Unsplash

Azure VM 백업은 공식 문서만 따라가면 설정 자체는 어렵지 않습니다. 하지만 실제 운영 환경에 배포할 때는 몇 가지 한국 기업 특유의 제약사항을 마주하게 됩니다. 특히 업무 시간과 겹치지 않는 백업 스케줄, 감사 대응을 위한 장기 보관 정책, 재해 복구를 위한 멀티리전 Vault 설계가 대표적입니다. 이번 글에서는 실제 금융권 프로젝트에서 설계한 VM 백업 정책을 공유합니다.

기본 개념 간단 정리

Azure Backup은 Recovery Services Vault를 중심으로 동작합니다. 핵심 구성 요소는 다음과 같습니다.

  • Recovery Services Vault: 백업 데이터를 저장하는 논리적 컨테이너
  • Backup Policy: 백업 주기, 보관 기간, 스냅샷 설정을 정의
  • Restore Point: 특정 시점의 복구 지점, VM 단위로 생성

1. KST 기준 백업 시간 설정의 함정

Azure Portal에서 백업 정책을 생성할 때 가장 먼저 마주치는 문제는 시간대(Timezone) 설정입니다. 기본값이 UTC로 잡혀있어 한국 시간 오전 2시로 설정하려면 UTC 기준 전날 오후 5시로 입력해야 합니다.

실제 운영에서 추천하는 백업 시간대는 다음과 같습니다.

  • 금융권·보험권: KST 23:30 ~ 01:30 (마감 배치 작업 종료 후)
  • 일반 엔터프라이즈: KST 02:00 ~ 04:00 (트래픽 최저 구간)
  • 24/7 서비스: KST 03:00 (업무 영향 최소화)

Azure Portal에서는 KST가 선택 옵션에 있으므로 반드시 Timezone을 (UTC+09:00) Seoul로 먼저 설정한 후 시간을 입력해야 합니다. 이 순서를 바꾸면 UTC로 해석되어 의도와 다른 시간에 백업이 실행됩니다.

2. 실무에서 쓰는 백업 정책 예시

티어별 백업 정책 설계

모든 VM에 동일한 정책을 적용하면 Storage 비용이 급증합니다. 워크로드 중요도에 따라 3단계로 나눠 운영하는 것이 합리적입니다.

  • Tier 1 (Critical): DB 서버, 결제 시스템
    • 백업 주기: 매일 1회 + 추가로 4시간마다 스냅샷
    • 보관: 일간 30일 / 주간 12주 / 월간 24개월 / 연간 7년
  • Tier 2 (Standard): 웹 서버, API 서버
    • 백업 주기: 매일 1회
    • 보관: 일간 14일 / 주간 4주 / 월간 12개월
  • Tier 3 (Dev/Test): 개발, 테스트 환경
    • 백업 주기: 매일 1회
    • 보관: 일간 7일
Azure Backup 멀티리전 Vault 전략 - 재해복구 설계
Photo by Taylor Vick on Unsplash

3. 멀티리전 Vault 설계 패턴

한국 내 주요 Azure 리전은 Korea Central(서울)과 Korea South(부산)입니다. 두 리전을 활용한 백업 전략을 소개합니다.

방법 A: Geo-Redundant Storage(GRS) 활용

Recovery Services Vault의 스토리지 복제 옵션을 GRS 또는 RA-GRS로 설정하면 Azure가 자동으로 Korea Central → Korea South로 복제합니다. 별도 설정이 없어 가장 간편하지만, 백업 복제는 Microsoft가 관리하는 영역이라 RPO를 직접 제어할 수는 없습니다.

방법 B: Cross Region Restore(CRR) 활성화

GRS에 추가로 CRR을 활성화하면 재해 발생 시 페어 리전(Korea South)에서 직접 복구할 수 있습니다. 금융 감독 당국의 BCP 요건을 충족시키기에 유리합니다.

방법 C: 리전별 독립 Vault 운영

Korea Central과 Korea South에 각각 독립된 Vault를 두고, 중요 VM만 양쪽에 백업하는 방식입니다. 비용은 가장 높지만 운영 주권이 완전히 보장됩니다.

4. 실전에서 겪은 트러블슈팅

문제 1: 백업이 예상보다 훨씬 오래 걸림

디스크가 수 TB인 VM의 초기 백업이 12시간 이상 걸린 사례가 있었습니다. 원인은 다음과 같았습니다.

  • Premium SSD가 아닌 Standard HDD로 구성된 대용량 디스크
  • 동시 백업 VM 수가 Backup Job 한도를 초과
  • 네트워크 대역폭 부족 (특히 ExpressRoute 구간)

해결책: 디스크 SKU 재검토, Tier별 백업 시작 시간 분산, Initial Seed 시 네트워크 사용량 모니터링.

문제 2: 한국 공휴일 백업 누락

일간 백업은 정상 동작했으나, 월말/분기말 배치와 충돌해 백업이 실패한 경우가 있었습니다. 해결책은 Azure Monitor Alert를 통한 Backup Job 실패 감지 및 즉시 Retry 자동화입니다.

5. 백업 비용 최적화 팁

  • Archive Tier 활용: 3개월 이상 장기 보관 데이터는 Archive Tier로 전환해 비용 80% 절감
  • 보관 기간 과다 설정 주의: 일간 30일 + 주간 12주 + 월간 12개월은 대부분의 컴플라이언스를 만족시킴
  • Snapshot Only 정책: 단기 복구만 필요하면 Vault 전송 없이 스냅샷만 유지

마무리

Azure VM 백업은 기술적 설정보다 비즈니스 요구사항(RTO/RPO)에 맞춘 정책 설계가 핵심입니다. 티어별 정책 분리와 KST 시간대 설정, 멀티리전 전략을 고려하면 비용과 안정성을 모두 잡을 수 있습니다. 다음 글에서는 Azure Front Door와 Traffic Manager를 활용한 멀티리전 서비스 구성을 다루겠습니다.

댓글 남기기