Отказоустойчивость системы и кластеров

Стабильная работа IT-инфраструктуры является критическим фактором для непрерывности бизнес-процессов в современном цифровом мире. Простой ключевых сервисов даже на несколько минут ведет к прямым финансовым потерям, репутационным рискам и нарушению договорных обязательств. Грамотно спроектированная отказоустойчивая архитектура позволяет минимизировать эти риски и обеспечить бесперебойную работу даже при сбоях отдельных компонентов.

Что такое отказоустойчивость системы

Это фундаментальное свойство инфраструктуры продолжать штатное выполнение всех заявленных функций при полном или частичном выходе из строя одного или нескольких ее компонентов. Ключевая цель - обеспечить непрерывность бизнес-процессов без прерывания обслуживания пользователей, при этом сбой должен быть устранен максимально прозрачно.

Важно различать несколько смежных, но не тождественных понятий:

высокая доступность - это способность системы непрерывно выполнять свои функции и оставаться доступной для пользователя в течение запланированного процента времени;
катастрофоустойчивость - характеристика системы, позволяющая ей в кратчайшие сроки восстановить работоспособность после масштабного аварийного события, затрагивающего весь дата-центр или его значительную часть. Реализуется через географически распределенные решения.

Уровень отказоустойчивости информационных систем количественно измеряется в процентах доступности (uptime) и напрямую определяет допустимый годовой простой. Например, показатель 99.999% (так называемые "пять девяток") допускает всего около 5 минут простоя в год.

На достижение целевого уровня влияют несколько взаимосвязанных факторов:

продуманная архитектура системы и принципы ее построения, такие как избыточность и декомпозиция;
прогнозируемая пиковая нагрузка и способность инфраструктуры ее выдерживать;
время автоматического или ручного восстановления после сбоя.

Кроме того, имеет значение допустимый простой для каждого из бизнес-критичных сервисов, определенный в рамках политик компании.

Отказоустойчивые кластеры: назначение и принципы работы

Отказоустойчивый кластер - это группа независимых серверов (узлов), объединенных высокоскоростными каналами связи и специализированным программным обеспечением в единый логический вычислительный узел. Его основное назначение - автоматическое перераспределение нагрузки и ресурсов в случае сбоя одного из элементов, что делает простои абсолютно незаметными для конечных пользователей и внешних систем.

Принцип работы кластера основан на постоянном мониторинге состояния всех узлов специальным программным обеспечением, которое отслеживает "пульс" каждого сервера через общую сеть или выделенные каналы heartbeat. В случае обнаружения сбоя или отсутствия ответа от одного из серверов, его рабочая нагрузка автоматически мигрирует на исправные узлы в кластере. Этот процесс включает перенос виртуальных машин, переключение IP-адресов и перенаправление запросов.

Существуют две основные схемы работы кластеров, каждая из которых имеет свои преимущества и области применения:

активный/пассивный. В этой конфигурации один или несколько элементов активно обрабатывают нагрузку, в то время как остальные находятся в режиме горячего резерва (standby) и запускаются только при отказе основных. Этот подход проще в настройке, но требует простаивающих ресурсов;
активный/активный. Все узлы кластера активно обрабатывают нагрузку параллельно, повышая общую производительность системы. В случае выхода из строя одного сервера его нагрузка динамически распределяется между оставшимися работоспособными элементами. Эта схема требует более сложной настройки балансировки.

Кроме того, широко применяются и другие модели, такие как N+1 (один резерв на несколько активных элементов) и N+M (несколько резервных узлов), которые позволяют найти баланс между стоимостью владения и требуемым уровнем резервирования.

Отказоустойчивый кластер серверов находит свое применение во всех без исключения критически важных сервисах: кластеризации баз данных (например, Microsoft SQL Server Always On, Oracle RAC), платформах виртуализации (VMware vSphere HA, Hyper-V Failover Cluster), веб-сервисах и системах управления предприятиями (ERP, CRM).

Как достигается отказоустойчивость: архитектура и технологии

Достижение высокой доступности требует комплексного и многоуровневого подхода. Отказоустойчивая архитектура строится на нескольких незыблемых принципах: избыточность всех критических компонентов, грамотная балансировка нагрузки, автоматическое переключение (failover) и безусловное устранение единых точек отказа (Single Point of Failure - SPOF).

Реализация этих принципов происходит на разных уровнях.

На уровне сервера обеспечение отказоустойчивости включает:

резервные блоки питания (с возможностью горячей замены) и системы охлаждения;
использование RAID-массивов (например, RAID 1, 5, 6, 10) для защиты данных от выхода из строя одного или нескольких физических дисков без остановки системы;
дублирование сетевых карт (NIC Teaming) и их объединение в группы для повышения надежности и пропускной способности, а также подключение к разным коммутаторам;
применение специализированных отказоустойчивых серверов с полностью дублированными критическими компонентами: процессорами, памятью, шинами и контроллерами.

На уровне сети реализуются следующие меры:

резервирование маршрутизаторов и коммутаторов по протоколам STP (Spanning Tree Protocol) или более современным аналогам (HSRP, VRRP), которые создают виртуальный IP-адрес шлюза;
использование протоколов динамической маршрутизации (OSPF, BGP) для автоматической перестройки таблиц и путей при обрывах каналов связи;
организация избыточных физических каналов связи между ключевыми устройствами.

Следует понимать, что отказоустойчивость сети является фундаментом для всей инфраструктуры, так как остальные компоненты, сколь бы надежны они ни были, бесполезны без стабильного сетевого взаимодействия.

На уровне программного обеспечения и приложений применяются различные технологии:

разделение монолитных приложений на микросервисы для изоляции сбоев и независимого масштабирования;
использование аппаратных или программных балансировщиков нагрузки (HAProxy, Nginx, F5) для интеллектуального распределения запросов между экземплярами сервисов;
автоматический перезапуск упавших сервисов и контейнеров с помощью оркестраторов, таких как Kubernetes. Он следит за их состоянием и при необходимости запускает новые копии, чтобы сохранить нужное количество работающих экземпляров.

Ключевые инструменты для построения такой архитектуры включают кластеризацию гипервизоров, синхронное и асинхронное зеркалирование данных между массивами хранения и live-миграцию виртуальных машин без прерывания обслуживания. При выборе уровня отказоустойчивости необходимо проводить тщательный анализ, учитывать бизнес-критичность процессов и строго соотносить потенциальную стоимость простоя со стоимостью реализации и владения решением.

Компания Netwell более 20 лет поставляет на рынок России и СНГ оборудование ведущих производителей, проверенное в реальных условиях эксплуатации. В каталоге представлены решения для построения масштабируемых корпоративных систем. Среди них - отказоустойчивые серверы YADRO, спроектированные для работы в критически важных средах и соответствующие требованиям российского законодательства в сфере информационной безопасности.

Эксперты Netwell помогут выбрать оптимальную конфигурацию под конкретные задачи, проведут аудит инфраструктуры и будут сопровождать проект на всех этапах - от внедрения до технической поддержки.