chapter9. Preparing and Recovery of disaster

  • 학습목표
    • 재난의 유형
    • 전력 장애의 영향을 최소화하는 방법
    • 데이터 센터를 파괴하거나 접근을 막는 화재, 홍수, 기타 재난들
    • 데이터 상실을 야기하는 보안 침해, 바이러스, 인간의 실수, 기타 재난들
    • 재난 발생시 업무 영향 분석의 중요성
    • 제 2차 보조 사이트의 여러 유형과 이용방법
    • 재난 복구 계획을 작성, 테스트, 유지하는 방법
    • 재난 훈련 수행하기
  1. IT 재난이란: 정보 기수 세계에서 재난이란 지속적인 시간 동안 운영을 두절시키는 사건이나 상황이라고 정의한다. 일반적인 재난이란 다음을 포함한다.
    1. 전력 장애
    2. 화재
    3. 홍수와 자연재해
    4. 데이터 상실
  2. 전력 장애: 전력 장애는 폭풍, 홍수, 잘못 계획된 땅파기 작업 등을 포함해서 다양한 유형의인재와 천재로부터 발생한다. 비록 원인을 예측할 수 없다고 하더라도 시스템에 미치는 영향을 최소화할 수 있는 절차를 준비해야만 한다.
    1. 전력 장애에 따른 잠재적 손상: 전력 장애는 개별 시스템을 뛰어 넘어 문제를 일으키는 원인이 된다. 데이터 센터에 있어 적절한 공기의 제어가 시스템 하드웨어를 안전하게 그리고 최대 운용 용량으로 구동하는데 있어 필수적인 사항이다. 만약 더운 환경에서 HVAC가 고장나게 되면 하드웨어가 급격하게 뜨거워 질 것이다. 또한 전력 장애가 시스템에 끼칠 수 있는 더 심각한 결과는 다음과 같다.
      1. 민감한 전자 구성요소가 전력 회복 시 발생하는 서지로 인해 손상될 수 있으며, 이는 각 구성 요소나 전체적인 시스템을 쓸모 없게 만들 수 있다.
      2. 만일 시스템이 메모리에 있는 데이터를 디스크에 플러시하기 전에 전력이 중단된다면, 시스템은 데이터를 상실하게 된다.
    2. 무정전 전원 공급 장치(UPS): 전력 장애로 발생되는 손실을 최소화하는데 있어서, 무정전 전원 공급 장치(UPS)를 설치하는 것이 가장 편리하며 비용 효율이 높은 수단이다. 대부분의 전력 장애가 단지 수분간 지속되기 때문에, 전형적인 전력 장애동안 시스템을 가동 유지하는데 있어 ups가 일반적으로 충분한 역할을 한다. 이를 위해 ups가 얼마나 버틸 수 있는 지에 대한 시간 테스트를 해야할 것이다.
    3. 비상 전력 공급용 발전기 사용: 발전기는 긴 시간 동안 중단된 전력 공급을 대체할 수 있는 충분한 전기를 생산한다. 하지만 값이 싸지 않고 ups가 필요하다.
    4. 휴대용 발전기 이용: 휴대용 발전기는 값싼 솔루션이지만 위험을 피하기 위해 주의를 기울여 사용해야한다. 케이블 배치, 배기가스 방출, 불완전한 전력공급 등이 있다.
    5. 터빈 발전기: 터빈 발전기는 크고 이동이 가능하지 않은 자이이며, 빌딩의 전력 분배 장치에 연결되는 장치이다. 터빈 발전기가 전체 전력을 공급하는데 충분한 전력을 제공해줄 수 있는지 확인한다.
    6. 발전기 테스트: 주기적으로 데이터센터 내의 발전기가 정상적으로 작동하는지 테스트를 해야한다.
  3. 물리적 재난과 환경적 재난: 화재, 태풍, 지진, 폭풍우, 홍수, 기타 자연 재해는 데이터 센터와 장비에 심각한 손상을 가져오는 원인이 된다. 이에 대비하는 계획을 함으로써 자연 재난으로 인한 손상을 최소화 할 수 있다.
    1. 화재: 화재는 굉장히 파괴적인 결과를 초래하기 때문에 중요한 요소이다. 이를 진압하기 위해 스프링클러나 고형 화학소화기를 사용하면서 더 심각하게 하드웨어에 손상을 입힐 수 있다. 추가적인 대책은 보험이나 중요한 하드웨어는 내열 금고에 보관하는 것이다.
    2. 홍수와 폭풍: 홍수와 복풍으로 인해 전력장애가 발생할 수 있고 또 건물 구조를 해어지게 해 빗물로 인한 2차적 손상을 가져올 수 있다. 이런 홍수와 폭풍으로 인한 손상을 최소화하기 위해서는 장비를 캐비닛 안에 설치하여 토사물에 대비하고 살짝 높게 설치하여 빗물로 부터 보호할 수 있게 한다.
    3. HVAC 장비 고장: HVAC 시스템이 고장난다면, 시스템 주위의 조절되지 않은 온도와 습도가 시스템을 고장나게 할 수 있는 지점에 이르게 될 것이다. 이를 막기위해 HVAC를 실시간으로 모니터링하고 보조 HVAC 시스템을 구축하여 대비할 수 있게 한다.
    4. 접근 방법의 상실: 환경적, 물리적, 또는 상황적 사건이 일어나서 시스템 관리자가 접근할 수 없게 된다면 운용에 심각한 지체를 겪거나 잠재적 손상을 겪게 만들 수 있다. 이를 위해 재난 복구 계획의 조직화를 통해 해결한다.
  4. 데이터 상실 관리: 기업에 있어 가장 중요한 자산 중의 하나는 기업의 데이터일 것이다.재난 시 데이터 상실을 최소화하기 위해 할 수 있는 일 중에서 가장 중요한 일은 백업하여 지리적으로 떨어진 위치에 있는 보조 장소에 보관하는 것이다. 데이터 상실은 아주 다양한 원인으로 인해 일어나며, 몇가지 예시는 다음과 같다.
    1. 하드웨어 고장: RAID, 네트워크 중복화
    2. 인간의 실수(rm -rf): 적절한 훈련, root계정돠 특권 사용자 계정의 사용 최소화
    3. 악의적인 행동: 나중에
    4. 운영체제의 충
    5. 일관되지 않은 백업
  5. 재난 복구 계획의 조직화: 효과적인 재난 복구 계획을 공식화하려면, 업무에 내재한 잠재적 재난의 영향을 이해해야만 한다. 그렇게 함으로써 업무가 겪을 수 있는 상실을 비용 효과적으로 조명할 수 있는 계획을 작성할 수 있다. 계획은 다음 요소를 포함하는 노동 집약적인 과정이다.(불가결한 중대 기능 파악, 자원할당, 불가결한 중요작업 파악, 재난 복구 계획 산출, 계획 테스트) 재난 복구 계획은 일반적으로 더 큰 계획인 업무 영속성 계획(BCP: business continuity plan)의 일부분이다. BCP는 기술적인 면과 함께 업무의 모든 측면을 포함하며, 재난 시나리오 상에서 어떻게 각 업무 장비가 기능을 계속할 수 있는가를 다룬다.
    1. 재난 복구 계획 팀 구성: IT 부서는 재난 복구 계획 관리자를 임명해야 한다. 계획 관리자는 전체적인 계획을 수립하고 테스트하며 지속적인 유지 보수 작업을 하고 재난 시 실제적인 실행을 감독하는 책임을 가진다. 계획 관리자는 복구 절차를 구성하기 위해 시스템 관리자, 개발자, 백업 오퍼레이터, 자신의 전문 분야를 대표하는 다른 IT직원을 구성원으로 하는 팀을 조직해야 한다. 각 구성 맴버들은 실제적인 재난의 발생 시 접촉의 포인트가 되므로, 그들이 가지고 있는 책임 영역과 조직의 다른 부서와의 연관성을 철저히 이해해야만 한다.
    2. 업무 영향 분석(BIA) 수행: 재난의 유형에 대한 견해를 갖게 되었다면, 이제 업무에 있어 그러한 재난이 가져오는 영향을 측정해야 한다. 시스템 관리자는 비록 우리 웹사이트는 2일동안 다운될 것이다와 같이 기술적인 관점에서 생각하게 될 것이지만, 경영자의 입장에서는 얼마의 돈이 손실될 것인가를 궁금해할 것이다. 이처럼 업무상 재난에 의한 영향을 평가하기 위해서는 업무 영향 분석을 수행할 필요성이 있다. BIA의 다른 일부분은 각 재난 유형이 업무에 어떠한 결과를 가져오는지 결정하는 것이다.
    3. 불가결한 중대 기능 파악: 재난이 기업에 중대한 재정적 영향을 가져올 수 있으며 그러한 영향을 최소화하도록 대비해야 한다는 사실을 알고 있다. 그러면 어디서 부터 시작해야 하는가? 모든 중요한 자원에 대해 파악함으로써 재난 복구 계획을 수립해야한다. 중요한 자원은 재난이 닥친 이후에도 이용가능해야 한다. 기업에서 없어서는 안되는 필수 업무 기능의 관점으로 파악해야한다.
    4. 필요 자원할당: 할당된 자원은 비상시 이용 불가능하게 된 자원이나 작동 불가능하게 된 자원을 대체한다. 이러한 자원은 다음을 포함한다.(데이터 센터 대체용 하드웨어, 제2차 보조 데이터 센터 사이트, 운용 요원) 재난 복구 계획 과정에 있어 이 부분은 복잡하다. 왜냐하면 대체용 데이터 센터, 장비, 운용 요원이 주 데이터 센터가 정상적으로 가동되기 전까지 it 인프라 업무를 지원할 수 있는 능력과 운용력을 가지고 있어야 하기 때문이다. 이렇게 하기 위해서는 신중하게 계획하고 예산을 수립하여야 한다.
      1. 응급용 하드웨어 계획
      2. 제 2차 보조 시설 계획
      3. 재난 복구 협력사 선정
      4. 비상 요원 할당
    5. 불가결한 중요작업 파악
    6. 재난 복구 계획 산출
    7. 재난 복구 절차 테스트
    8. 변경 작업 관리: 재난 복구 계획 갱신
  6. 재난 훈련