Аварийное восстановление

69 0 0 0

Материалы для лекции №11 «Аварийное восстановление»

 

 

Часть 1.

Обзор решений аварийного восстановления.

 

Потребность в аварийном восстановлении

 

Три основных риска: потеря данных, повреждение данных, прерывание работы служб. Каждый час простоя служб может привести к потерям миллионов долларов.

173941kx6zvv***8sdv0s8.png

 

Соответствие нормативным требованиям: финансовое соответствие, защита 3 уровня, аварийная изоляция, решение с 3 ЦОД, непрерывность бизнес-процессов.

 

173942xfkxnm93npnm3xjd.png

 

 

Эксплуатация и ТО: система аварийного восстановления готова к использованию, упрощает эксплуатацию и ТО, а также помогает ИКТ-специалистам смягчать последствия непредвиденных происшествий.

 

173942fgxphxvogpppggqh.png

Проблемы аварийного восстановления

Крупные инвестиции

Высокие затраты

·        Высокая стоимость инфраструктуры, серверов, систем хранения и программного обеспечения.

·        Высокая стоимость строительств аппаратных помещений.

Высокие операционные расходы

·        Профессиональная поддержка O&M (внедрение, обучение, текущая поддержка)

·        Постоянные расходы на водоснабжение и электроснабжение.

 

Сложное управление

 

Множество устройств и неунифицированное управление

·        Управление носителями, серверами и сетью – это независимые, сложные рабочие процессы с низкой эффективностью.

Сложное расширение

·        Слишком длинный цикл расширения в режиме онлайн при низкой емкости, требуется автоматическое расширение.

 

Ограниченные возможности аварийного восстановления

 

Низкий уровень безопасности и ограниченные возможности аварийного восстановления

·        Резервные данные остаются в ЦОД, а сбои инфраструктуры могут легко привести к авариям.

Недостаточная гибкость

·        Аварийное восстановление, обмен данными и другие возможности ограничены физическим расположением данных. Приложения и данные не могут быть разделены, и поэтому невозможно использовать гибкие приложения и более совершенные функции аварийного восстановления.

 

 

Что такое высокая доступность?

 

·        Высокая доступность –это способность обеспечивать непрерывный доступ к приложениям в случае отказа одного компонента в локальной системе, независимо от источника неисправности: производственный процесс, инфраструктура и механическое оборудование или ИКТ-оборудование и ПО.

·        Пример наиболее высокой доступности: машина в ЦОД вышла из строя, но пользователи, использующие службы ЦОД, этого не заметили. Однако, когда машина ЦОД неисправна, службе отказоустойчивости требуется некоторое время для запуска, и пользователи могут заметить простой.

·        Ключевым показателем высокой доступности является удобство использования. Формула его вычисления [1 -(время простоя)/(время простоя + время простоя)/(время простоя + время работы)]. Мы часто используем принцип нескольких девяток для измерения доступности:

o   Четыре девятки: 99,99% = 0,01% * 365 * 24 * 60 = 52,56 минут простоя в год.

o   Пять девяток: 99,999% = 0,001% * 365 = 5,265 минут простоя в год.

o   Шесть девяток: 99,9999% = 0.0001% * 365 = 31 секунд простоя в год.

·        Важными параметрами высокой доступности являются интервал обновления резервных копий (RPO) и допустимое время восстановления данных (RTO). В идеале данные параметры должны быть равны 0. Для этого часто используется совместное хранение и кластеры типа Active-Active. Если используется режим Active-Passive, то RTO необходимо сократить до возможного минимума.

 

Сведения об аварийном восстановлении

·        Антропогенные или природные катастрофы могут вызвать серьезные неполадки в работе информационной системы ЦОД, в результате информационная система не выполняет сервисные функции должным образом или перестает их выполнять в течение определенного периода времени. Это приводит к переключению информационной системы на альтернативное АО для продолжения работы.

·        Аварийное восстановление означает возможность восстановления данных, приложений или служб в ЦОД в разных точках, когда катастрофа разрушает производственное оборудование.

·        Аварийное восстановление означает, что в случае катастрофы и повреждения основного производственного оборудования нормальная и непрерывная работа служб обеспечивается резервным оборудованием. Для обеспечения более высокой доступности многие пользователи даже создают несколько точек с резервным оборудованием.

Взаимосвязь между высокой доступностью и аварийным восстановлением

 

Данные понятия связаны друг с другом, дополняют друг друга и взаимодействуют друг с другом, но в то же время имеют существенные различия:

 

Параметры

Высокая доступность

 

Аварийное восстановление

Сценарии применения

 

Относится к локальной системе, в которой нескольких серверов выполняют одно или несколько приложений. При сбое одного или нескольких серверов приложение продолжит непрерывную работу; приложение и система быстро переключатся на другой сервер, который находится в локальном кластере и в области горячего резервного копирования.

Аварийное восстановление–это высокодоступные системы, размещенные в разных местах(в одном или нескольких городах), готовые восстановить данные приложений и служб в случае аварии.

 

Хранение

 

Система высокой доступности часто использует совместное хранение, в результате интервал обновления резервных копий равен нулю (RPO = 0), однако допустимоевремя восстановления данных(RTO) может быть увеличено.

 

Аварийное восстановление на другом объекте использует репликацию данных. В зависимости от технологии репликации данных (синхронная или асинхронная) обычно происходит потеря даннях (RPO > 0);переключение приложений на другой объект часто занимает больше времени, поэтому RTO > 0.

Неисправности

В основном обрабатывает сбои отдельных компонентов, переключение происходит между серверами в кластере.

Справляется с крупномасштабными сбоями, переключение нагрузки происходит между ЦОД.

Сеть

Работает в LAN.

Работает в WAN.

Облако

Высокая доступность – это механизм обеспечения непрерывности бизнеса в облачной среде.

Аварийное восстановление –это механизм обеспечения непрерывности бизнеса в множестве облачных сред.

Цель

 

Главная цель – обеспечить высокую доступность бизнеса и служб.

Аварийное восстановление – это решение для обеспечения непрерывности бизнеса, основанное на надежной защите данных.

 

Различия между аварийным восстановлением и резервным копированием

 

 

Резервное копирование является фундаментальной технологией аварийного восстановления и относится к процессу, в котором данные, собранные с жесткого диска хоста приложения или массивов хранения данных, полностью или частично дублируются на другие носители.

 

173943ddzxx9xanwnxsans.png

 

·        Аварийное восстановление–это создание двух или более комплектов ИКТ-систем с одинаковыми функциями и разным местоположением. Между ними можно осуществлять мониторинг состояния и переключение функций. Когда одна система прекращает работу из-за аварии (например, пожара или землетрясения), все приложения могут быть переключены на другую систему, которая может продолжать нормальную работу.

·        Как правило, аварийное восстановление относится к резервному копированию данных или приложений, которые находятся в разных серверных помещениях. Резервное копирование относится к локальным данным или резервному копированию системы.

·        В целом, аварийное восстановление включает резервное копирование, то есть объединяет локальное резервное копирование с удаленной репликацией данных.

 

173943x6ge56gq6liss58m.png

Ключевые индикаторы производительности систем аварийного восстановления

 

·        RPO (Recovery Point Objective) – это количество данных, которые могут быть потеряны при возникновении аварии.

·        RTO (Recovery Time Object) – это время восстановления системы.

·        Чем ниже RPO и RTO, тем выше доступность системы и тем больше средств нужно вложить пользователю.

 

Уровни систем аварийного восстановления

Уровень

Определение

RTO

TCO

Уровень данных

 

Благодаря созданию удаленных центров аварийного восстановления данных выполняется удаленное резервное копирование для сохранения исходных данных в случае аварии.

В режиме восстановления на уровне данных создаются центры аварийного восстановления, которые можно рассматривать как удаленные центры резервного копирования данных. При возникновении аварии работа приложений прерывается.

Аварийное восстановление на уровне данных занимает много времени, но его стоимость ниже, чем аварийное восстановление на других уровнях, а его реализация относительно проста.

Источники данных –это важнейший элемент для всех бизнес-систем, поэтому аварийное восстановление уровня данных имеет огромное значение

Самое длинное RTO (несколько дней), поскольку после аварии необходимо заново развернуть оборудование для восстановления с использованием резервных данных

 

Самая низкая

 

Уровень приложений

В рамках аварийного восстановления данных аналогичные наборы прикладных систем создаются на резервном узле. Благодаря технологии синхронной или асинхронной репликации ключевые приложения могут быть гарантированно восстановлены в пределах допустимого диапазона времени. Это позволяет минимизировать потери и обеспечить непрерывную работу. Таким образом, предоставляемые системой службы являются полными, надежными и безопасными.

Среднее RTO (несколько часов)

 

Средняя. Соответствует стоимости создания систем или подсистем вне узла.

 

Уровень служб

В дополнение к необходимым ИКТ-технологиям для аварийного восстановления служб требуется полная инфраструктура. Большинство ее компонентов это не ИКТ-системы (такие как телефоны, офисные помещения и т.д.). Когда произойдет катастрофа, исходное офисное пространство будет уничтожено. В дополнение к восстановлению данных и приложений необходимо обеспечить резервное рабочее место.

 

Наименьшее RTO (несколько минут или секунд)

 

Самая высокая

 

 

Сравнительный анализ производительности различных систем аварийного восстановления

173944istvanj54mi4f4ww.png

 

Обзор решений аварийного восстановления

173944zqwwko12e6k68683.png

 

 

Часть 2.

Архитектура решений аварийного восстановления.

 

Схемы применения резервного копирования в рамках аварийного восстановления

173945nedkbfem47cffxa0.png

 

Модель проектирования аварийного восстановления. Синхронное и асинхронное восстановление

 

173945dncpzn0520cj90pr.png

 

Режим аварийного восстановления

 

Обеспечение надежности

 

Аварийное восстановление

 

Требования к резервному копированию данных

 

Active-Active

 

Кластер + распределение нагрузки

Автоматическое

 

Синхронная репликация в реальном времени(< 100км)

 

Горячее резервное копирование

Кластер

 

Автоматическое

 

Синхронная репликация в реальном времени (<100км)

Теплое

резервное копирование

Ручное управление

 

Вручную

 

Асинхронная репликация (> 100км)

Холодное резервное копирование

Полное ручное управление

 

Вручную

 

Асинхронная репликация (> 100км)

 

Аварийное восстановление Active-Standby

173945y0w4gitgegpoea4a.png

Аварийное восстановление с 3 ЦОД

173946qe9z4z1ahixv33ec.png

173946pxvvmjy2vzsvt4be.png

Аварийное восстановление Active-Active

173947ylgix7z72s2v72ii.png

Аварийное восстановление. Репликация массива.

173947rmvvhim5am4e5bma.png

Аварийное восстановление. База данных Oracle.

173947b7grr1ng8g6zkgrz.png

Аварийное восстановление. Кампусный уровень или уровень одного города (физические машины)

173948m2ii2l2u23eadz1g.png

Новая модель аварийного восстановления с использованием облачных технологий

173948oox7jr74o4for2fr.png

Аварийное восстановление для облака в режиме Active-Standby на уровне данных

173949w278ovz77g5y2b7o.png

 

 

Часть 3.

Распространенные технологии аварийного восстановления.

 

Основные технологии аварийного восстановления

173949qfssscb9fscfxlti.png

Raw-устройство – устройство без обработки данных

СУБД – система управления базами данных

Технология аварийного восстановления на уровне хоста. Уровень приложений.

 

Технология аварийного восстановления уровня приложений позволяет удаленную репликацию и синхронизацию данных с помощью прикладного ПО. При сбое основного ЦОД, система прикладного ПО резервного ЦОД берет на себя обеспечение работы служб

 

173949pzjpdagjapilknkk.png

Технология аварийного восстановления на уровне хоста. Уровень данных

 

Технология аварийного восстановления баз данных–это решение аварийного восстановления, специально предназначенное для баз данных. Обычно у баз данных есть свой инструмент аварийного восстановления, например, Oracle Data Guard, DB2 HADR и т.д. Аварийное восстановление на уровне базы данных достигается главным образом за счет передачи журналов баз данных и их восстановления на резервных сайтах. В случае аварии технология аварийного восстановления данных плавно переключает базы данных.

 

173950k2wz75l77fpc87w7.png

Технология аварийного восстановления на уровне хоста. Уровень логического тома

 

Удаленная репликация данных на основе логических дисков – это удаленная синхронная (или асинхронная) репликация одного или нескольких томов по требованию. Реализация этого решения обычно осуществляется через программное обеспечение.

 

173950avp333vtq13s80z8.png

 

Технология аварийного восстановления на уровне сети

 

Технология репликации данных на базе SAN соединяет фронтенд-сервером приложений и бэкенд-СХД по шлюзу СХД. Добавляется уровень интеллектуальных коммутаторов.

173951zcqlkh07x6cph73k.png

 

Принцип работы мгновенного снимка пространства хранения на сетевом уровне

 

173951db9n9tlczbut599s.png

Технология аварийного восстановления на уровне массивов

 

Аварийное восстановление на уровне массивов осуществляется главным образом с использованием технологии репликации между массивами. Поскольку репликация массива не проходит через хост, она практически не оказывает влияние на его производительность.

173951ymishwzxfqqigrih.png

Аварийное восстановление. Синхронная репликация в SAN

173952a6jdcwt3o995dxdz.png

Принципы работы синхронной репликации в SAN

173952czrrukf5urck259f.png

Аварийное восстановление. Асинхронная репликация в SAN

173953b4xl1v4x1m6l1xz5.png

Принципы работы асинхронной репликации в SAN

173953qia85iq81hv8a8hv.png

Принцип работы асинхронной репликации в SAN

173953abax331gmvt3hvxh.png

Аварийное восстановление. Асинхронная репликация в NAS

173954dru5rrr28ee281u7.png

Принципы работы асинхронной репликации в NAS

173954zzdzk3xl3vrx5lvd.png

Многочасовая асинхронная удаленная репликация. RPO менее 1 минуты

173955hz6fd3b18q4dc1qb.png

Удаленная репликация. Согласованность приложений

173955duqcqoufkcfyzfgy.png

Удаленная репликация. Группа согласования

Используется для поддержания временной согласованности зеркальных данных в нескольких LUN.

Все элементы одновременно синхронизируются, разделяются, разбиваются и переключаются между ведущими и ведомыми LUN.

173955ay26n26ba3knbr8j.png

Сравнение типов аварийного восстановления

173956irjxfqn5aji5jur9.png

173956b8o16yoay6tswb48.png

Стандартная процедура учебного аварийного восстановления

173956a0iwi5s8wn9nwn0w.png

 

Часть 4.

Примеры реализации аварийного восстановления

 

Пример 1. Централизованная система аварийного восстановления для нескольких регионов компании ХХ

173957ldz0oetl10vygydy.png

Пример 2. Виртуализированная система аварийного восстановления для компании XX

173957v6clcyajr96azaqd.png

Пример 3.Аварийное восстановление уровня приложений

173958mnpswnusghsewlip.png

 

 


  • x

Комментарий

Отправить
Выполните вход в систему, чтобы ответить на пост. Вход | Регистрация

Внимание Внимание! В целях защиты правовых интересов Вас, сообщества и третьих лиц, не публикуйте любой материал, содержащий политические высказывания, порнографию, упоминание азартных игр, употребление наркотиков, а также материал, нарушающий коммерческую тайну или содержащий персональные данные пользователей. Также не предоставляйте данные от вашей учетной записи. Вы будете нести ответственность за все действия, выполняемые под вашим аккаунтом. Подробная информация: “Политика конфиденциальности..”
Если кнопка вложения недоступна, обновите Adobe Flash Player до последней версии.
Авторизуйтесь и пользуйтесь всеми преимуществами участника!

Авторизуйтесь и пользуйтесь всеми преимуществами участника!

Вход