Разработка отказоустойчикой архитектуры центра обработки данных преприятия

 

Оглавление


1. Обзор предприятия и постановка задачи

. Расчет пропускной способности сети

. Назначение и цели Системы

. Требования к Системе

. Требования к системе управления

. Требования к дисковой подсистеме

. Требования к сетевой инфраструктуре

. Требования к надежности и отказоустойчивости

. Основные понятия и расчёт отказоустойчивости

. Схема отказоустойчивого ЦОД

. Выбор комплектующих

Вывод

Список литературы


1. Обзор предприятия и постановка задачи


Я работаю системным интегратором на крупном предприятии, которое занимается производством и разработкой радиоэлектронной аппаратуры. На нём существует сложная иерархическая структура с разделением на отделы и производственные цеха. Поверхностная структура компании представлена на рисунке 1.


Рисунок 1


Часть инфраструктуры компании на сегодняшний день уже реализована. Установлены сервера контроллера домена на Windows Server 2008, почтовый сервер, сервер антивирусной защиты, интернет сервер и реализована сеть.

В связи с расширением компании, директором принято решение увеличить ИТ инфраструктуру. Исходя из задач, которые выполняются в отделах, мне была дана задача продумать и доработать слабые стороны компании.

Конструкторский отдел насчитывает порядка 500 специалистов и руководителей. Они занимаются разработкой аппаратуры, схем, чертежей и документации. Для разработки схем применяются сетевые САПРы. Для разработки документов используется Microsoft Office. Часто возникает необходимость работы с общими документами. Пока эта возможность реализована лишь за счёт предоставления общего доступа на папку одного из ПК. Однако если компьютер пользователя выключен, то получить доступ к документам невозможно. В связи с этим мной принято решение создать файловый сервер. Работа конструкторского отдела играют одну из важнейших ролей в нашей компании и потеря документов недопустима. По этой причине необходимо внедрить систему резервирования. Большое количество работников конструкторского отдела накладывает требование на высокую производительность сети, большой объём дисковых носителей и высокую доступность предоставляемой информации. Некоторые работники предпочитают работать в ночное время суток, поэтому проектируемый сервер должен работать 23 часа в сутки, каждый месяц и 365 дней в году. При этом должно обеспечиваться окно для обслуживания, с суммарным временем простоя не более 5 часов в день, один раз в неделю.

Отдел бухгалтеров состоит из 50 человек. Бухгалтера используют сетевые задачи, которые уже реализованы на старых серверов. Однако, они тоже сохраняют и обмениваются важными документами, поэтому задача резервирования и создания файлового сервера стоит весьма остро. Также у бухгалтеров есть крупная база данных, которая занимает большие объёмы. На данный момент она находиться на работающем сервере. Проанализировав пропускную способность сети и возможности старого сервера, мной принято решение перенести эту базу на новый сервер, что обеспечит более высокую скорость доступа.

В ИТ отделе работает 10 человек. Задача работников ИТ отдела состоит в технический поддержке пользователей, а так же программной и аппаратной составляющей всего предприятия. Некоторые системные администраторы занимаются мониторингом серверов и сети компании. Возможности старой базы данных ограничены по числу подключений и так как структура предприятия постоянно увеличивается, принято решение установить подчинённый сервер антивирусной защиты с выделенным экземпляром SQL Server.

Отдел составления договоров состоит из 50 человек. Задачами этого отдела является заключение, составление и сопровождение договоров. Работники договорного отдела используют Microsoft Office для решения своих задач. У сотрудников данного отдела имеется база договоров, которая занимает большие объёмы и критически важна для работы компании. Организован обмен всеми сотрудниками отдела за счёт предоставления доступа к обменным папкам компьютеров пользователей. Необходимо перенести базу на новый сервер и обеспечить сохранность и высокую доступность данных.

Отдел снабжения состоит из 200 человек. Задачей отдела закупок является снабжения сотрудников компании всем, что необходимо для дальнейшего функционирования и производства. Сотрудники этого отдела используют Microsoft Office, а также программы, написанные нашими программистами. Имеется база данных закупок, имеющая очень большие размеры.

Экономический отдел состоит из 50 человек. Экономисты используют программы 1С на уже установленном сервере. У них есть много важных документов, которые хранятся на их компьютерах и не подлежат просмотру сторонними сотрудниками компании. Эти документы критически важны для работы компании. В связи с этим было принято решение перенести эти данные на файловый сервер, тем самым обеспечить более высокую степень защиты от несанкционированного доступа и потери критически важных данных.

Производство насчитывает около 600 человек. Специалисты производственных цехов берут на себя все обязанности связанные с созданием спроектированной аппаратуры. Работники постоянно обмениваются документами и фотографиями с сотрудниками других отделов. Также используются Microsoft Office и другие программы написанные нашими программистами. Необходимо обеспечить сохранность информации и разместить общие документы на файловом сервере.

Использование программного обеспечения Microsoft Office на всех машинах обязывает покупать лицензии, что ведёт к значительным затратам. Для экономии средств принято решение установить на отказоустойчивый кластер сервер распределённых лицензий. Он позволяет выделить диапазон динамических лицензий, которые будут использоваться только в случае, когда Microsoft Office запущен на ПК. Это значит, что лицензии будут распределяться оптимальным методом.

Потребность в больших объёмах дисковых носителей и высокая степень сохранности информации задаёт требование к введению серверную структуру отдельного сервера iscsi экземпляра, либо сервера имитирующего iscsi технологию.


. Расчет пропускной способности сети


Расчёт пропускной способности сети будем производить на основе деятельности конструкторского отдела, т.к. они максимально задействуют сеть в своей работе.

Следует различать полезную и полную пропускную способность. Под полезной пропускной способностью понимается скорость передачи полезной информации, объем которой всегда несколько меньше полной передаваемой информации, так как каждый передаваемый кадр содержит служебную информацию, гарантирующую его правильную доставку адресату.

Рассчитаем теоретическую полезную пропускную способность Fast Ethernet без учета коллизий и задержек сигнала в сетевом оборудовании.

Отличие полезной пропускной способности от полной пропускной способности зависит от длины кадра. Так как доля служебной информации всегда одна и та же, то, чем меньше общий размер кадра, тем выше «накладные расходы». Служебная информация в кадрах Ethernet составляет 18 байт (без преамбулы и стартового байта), а размер поля данных кадра меняется от 46 до 1500 байт. Сам размер кадра меняется от 46 + 18 = 64 байт до 1500 + 18 = 1518 байт. Поэтому для кадра минимальной длины полезная информация составляет всего лишь 46 / 64 ? 0,72 от общей передаваемой информации, а для кадра максимальной длины 1500 / 1518 ? 0,99 от общей информации.

Чтобы рассчитать полезную пропускную способность сети для кадров максимального и минимального размера, необходимо учесть различную частоту следования кадров. Естественно, что, чем меньше размер кадров, тем больше таких кадров будет проходить по сети за единицу времени, перенося с собой большее количество служебной информации.

Так, для передачи кадра минимального размера, который вместе с преамбулой имеет длину 72 байта, или 576 бит, потребуется время, равное 576 бит, а если учесть межкадровый интервал в 96 bt то получим, что период следования кадров составит 672 бит. При скорости передачи в 100 Мбит/с это соответствует времени 6,72 мкс. Тогда частота следования кадров, то есть количество кадров, проходящих по сети за 1 секунду, составит 1/6,72 мкс ? 148810 кадр/с.

При передаче кадра максимального размера, который вместе с преамбулой имеет длину 1526 байт или 12208 бит, период следования составляет 12208 + 96 = 12304 бит, а частота кадров при скорости передачи 100 Мбит/с составит 1/123,04 мкс = 8127 кадр/с.

Зная частоту следования кадров f и размер полезной информации Vп в байтах, переносимой каждым кадром, нетрудно рассчитать полезную пропускную способность сети: Пп(бит/с) = Vп·8·f. Для кадра минимальной длины (46 байт) теоретическая полезная пропускная способность равна Ппт1=148810 кадр/с =54,76 Мбит/с, что составляет лишь немногим больше половины от общей максимальной пропускной способности сети. Для кадра максимального размера (1500 байт) полезная пропускная способность сети равна Ппт2=8127 кадр/с = 97,52 Мбит/с. Таким образом, в сети Fast Ethernet полезная пропускная способность может меняться в зависимости от размера передаваемых кадров от 54,76 до 97,52 Мбит/с. Это означает что минимальная пропускная способность канала должна составлять не менее 100мб/с. Это касается только обмена между кластерной системой и пользователями компании. Внутри самого кластера обмен между компонентами должен осуществлять по технологии, позволяющей получить скорость до 10гб/c и выше, т.к. за хранение информации отвечает shared storage system, а управление производится с группы хостов.

Топология сети схематически изображена на рисунке 2.


Рисунок 2.


3. Назначение и цели Системы


Отказоустойчивый кластер должен обеспечивать текущие потребности организации в предоставлении сервиса систем резервирования информации, обеспечения антивирусной защиты, а так-же файловый сервер. Система должна обеспечивать оптимальное управление, обслуживание и возможность дальнейшего масштабирования.

Система управления должна располагать в одном здании и по возможности устанавливаться в одну стойку.

Система управления отказоустойчивым кластером должна быть развёрнута на базе ПО Microsoft Windows Server 2008R2, т.к. остальные системы в компании работают так же под управлении ОС Microsoft Windows

Основными целями внедрения системы являются:

1.Обеспечить отказоустойчивый доступ к данным хранящимся на серверах;

2.Обеспечивать оптимальное использование имеющихся серверных и дисковых ресурсов для предоставления наилучшей производительности сервиса.

.Обеспечение антивирусной защиты всей компании

.Обеспечение резервирования информации критически важной для пользователей

.Создание отказоустойчивой системы с защитой от случайных сбоев.

.Создание системы динамического распределения лицензий Microsoft Office.

.Обеспечение сохранности критически-важной информации.


. Требования к Системе


Отказоустойчивый кластер должен включать в себя следующие элементы:

·Node #1 - Узел кластера под управлением операционной системы Microsoft Windows Server Hyper-V 2012. На данном хосте будут устанавливаться виртуальные машины с установленной операционной системной Microsoft Windows Server 2008R2 Enterprise Edition, Kaspersky Endpoint Security Server 2012, Cobian Backup;

·Node #2 - Узел кластера под управлением операционной системы Microsoft Windows Server Hyper-V 2012. На данном хосте будут устанавливаться виртуальные машины с установленной операционной системной Microsoft Windows Server 2008R2 Enterprise Edition, Kaspersky Endpoint Security Server 2012, Cobian Backup;

·Server Node - с этого узла будет осуществляться управление Node1, Node2 и Shared Storage System. Этот узел будет объединять Node1, Node2 в кластер. Windows Server 2008R2 или Windows8;

·Shared Storage System - Разделяемая (общая) система хранения данных с соответствующими логическими томами и дисковыми группами для хранения данных. Операционная система под управлением Linux (Proxmox);

·Public Network - Публичная (общая) сеть на базе протокола TCP/IP для подключения клиентов и обработке запросов к базам данных SQL;

·Heartbeat Network - Частная сеть на базе протокола TCP/IP для обмена служебной информацией между узлами кластера.


5. Требования к системе управления


Система управления и кластерная часть включает следующие компоненты:

·Node 1 Microsoft Windows Server Hyper-V 2012 - Виртуальная машина на базе Windows Server 2008R2 EE без дополнительных служб (Kaspersky Endpoint Security Server 2012, Cobian backup);

·Node 2 Microsoft Windows Server Hyper-V 2012 - Виртуальная машина на базе Windows Server 2008R2 EE без дополнительных служб (Kaspersky Endpoint Security Server 2012, Cobian backup);

·Server Node Microsoft Windows Server 2008R2 Роль DPCH;

·Server Node Microsoft Windows Server 2008R2 Роль DNS;

·Server Node Microsoft Windows Server 2008R2 Роль контроллер домена;

·Server Node Microsoft Windows Server 2008R2 Роль Hyper-V;

·Server Node Microsoft Windows Server 2008R2 SQL Server 2012;

·Server Node Microsoft Windows Server 2008R2 Служба кластеризации;

·Server Node Microsoft Windows Server 2008R2 Служба распределение лицензий;

·Server Node Microsoft Windows Server 2008R2 Роль файловый сервер;

·Shared Storage System Proxmox - операционная система имитирующая iscsi устройства;


. Требования к дисковой подсистеме


Характеристики дисковых систем для отказоустойчивого кластера:

·Дисковые системы хостов Hyper-V должны обеспечивать максимально возможную производительность

·Отдельный логический том для хранения служебной информации кластера Windows Failover Cluster Service;

·Балансировку нагрузки по путям к дисковым группам к каждой дисковой группе и логическому тому с данными;

·Отказоустойчивую конфигурацию дисковой подсистемы по управляющим, коммуникационным компонентам и по физическим шпинделям (HDD Drive);

·Обеспечить соответствующую дисковую ёмкость, свободное пространство для функционалов требуемой программной части.

·Обеспечить зеркалирование каждого тома серверов за счёт введения RAID


. Требования к сетевой инфраструктуре


Отказоустойчивый кластер должен использовать две независимые сети для различных типов взаимодействия компонентов.

Частная сеть - для служебного взаимодействия узлов и подсистем кластера отказоустойчивой системы управления базами данных.

Публичная сеть - для взаимодействия системы с внешними потребителями сервисов.

Сетевая инфраструктура должна обеспечивать минимальные задержки и максимальную пропускную способность для каждой из сетей.

Публичная сеть кластера систем управления должна отвечать следующим требованиям:

·Маршрутизируемая, доступная IP подсеть для потребителей сервиса;

·Отказоустойчивое подключение к сетевой инфраструктуре каждого из узлов кластера, в случае выхода из строй физического интерфейса или линка узла кластера, сетевая связанность не нарушается;

·Производительность сетевых интерфейсов не менее 1 Гб/с;

·Каждый из публичных сетевых ресурсов кластера обладает собственным IP адресом, зарегистрированным во всех внутренних инфраструктурных сервисах Заказчика (DNS, WINS, etc..).

Частная сеть кластера систем управления базами данных должна отвечать следующим требованиям:

Не маршрутизируемая, не доступная извне кластера IP подсеть;

Отдельная виртуальная подсеть только для служебного трафика (VLAN).

8. Требования к надежности и отказоустойчивости


Проектируемая система должна обеспечивать следующие показатели по надёжности:

·Доступность системы 24/7/365;

·Техническое окно по обслуживанию системы - не более 24 часов в год;

·В случае аппаратного сбоя одного из компонентов системы, продолжить выполнять свои функции.

Система управления базами данных должна обеспечивать следующие показатели по отказоустойчивости, предоставление сервисов потребителям в случае:

·Выхода из строя одного из узлов кластера;

·Выхода из строя одного из сетевых интерфейсов узлов кластера;

·Выхода из строя одного из коммутаторов сетевой инфраструктуры;

·Выхода из строя одного из предпочитаемых путей к системе хранения данных;

Выхода из строя одного из физических шпинделей каждой из дисковых групп.


. Основные понятия и расч6т отказоустойчивости


Коэффициент готовности - это вероятность того, что компьютерная система в любой момент времени будет находиться в рабочем состоянии.

Этот коэффициент определяется по формуле:


К = MTBF / MTBF + MTTR


MTBF (Mean Time Between Failure) - среднее время наработки на отказ. MTTR (Mean Time To Repair) - среднее время восстановления работоспособности.

В отличие от надежности, величина которой определяется только значением MTBF, готовность зависит еще и от времени, необходимого для возврата системы в рабочее состояние.

Кластер высокой готовности (далее кластер) - это разновидность кластерной системы, предназначенная для обеспечения непрерывной работы критически важных приложений или служб. Применение кластера высокой готовности позволяет предотвратить как неплановые простои, вызываемые отказами аппаратуры и программного обеспечения, так и плановые простои, необходимые для обновления программного обеспечения или профилактического ремонта оборудования.

Кластер состоит из двух узлов (серверов), подключенных к общему дисковому массиву. Все основные компоненты этого дискового массива - блок питания, дисковые накопители, контроллер ввода/вывода - имеют резервирование с возможностью горячей замены. Узлы кластера соединены между собой внутренней сетью для обмена информацией о своем текущем состоянии. Электропитание кластера осуществляется от двух независимых источников. Подключение каждого узла к внешней локальной сети также дублируется.

Таким образом, все подсистемы кластера имеют резервирование, поэтому при отказе любого элемента кластер в целом останется в работоспособном состоянии. Более того, замена отказавшего элемента возможна без остановки кластера.

На обоих узлах кластера устанавливается операционная система Microsoft Windows Server 2003 Enterprise, которая поддерживает технологию Microsoft Windows Cluster Service (MSCS).

Принцип работы кластера следующий. Приложение (служба), доступность которого обеспечивается кластером, устанавливается на обоих узлах. Для этого приложения (службы) создается группа ресурсов, включающая IP-адрес и сетевое имя виртуального сервера, а также один или несколько логических дисков на общем дисковом массиве. Таким образом, приложение вместе со своей группой ресурсов не привязывается "жестко" к конкретному узлу, а, напротив, может быть запущено на любом из этих узлов (причем на каждом узле одновременно может работать несколько приложений). В свою очередь, клиенты этого приложения (службы) будут "видеть" в сети не узлы кластера, а виртуальный сервер (сетевое имя и IP-адрес), на котором работает данное приложение.

Сначала приложение запускается на одном из узлов. Если этот узел по какой-либо причине прекращает функционировать, другой узел перестает получать от него сигнал активности ("heartbeat") и автоматически запускает все приложения отказавшего узла, т.е. приложения вместе со своими группами ресурсов "мигрируют" на исправный узел. Миграция приложения может продолжаться от нескольких секунд до нескольких десятков секунд и в течение этого времени данное приложение недоступно для клиентов. В зависимости от типа приложения после рестарта сеанс возобновляется автоматически либо может потребоваться повторная авторизация клиента. Никаких изменений настроек со стороны клиента не нужно. После восстановления неисправного узла его приложения могут мигрировать обратно.

Если на каждом узле кластера работают различные приложения, то в случае отказа одного из узлов нагрузка на другой узел повысится и производительность приложений упадет.

Если приложения работают только на одном узле, а другой узел используется в качестве резерва, то при отказе "рабочего" узла производительность кластера не изменится (при условии, что запасной узел не "слабее").

Основным преимуществом кластеров высокой готовности является возможность использования стандартного оборудования и программного обеспечения, что делает это решение недорогим и доступным для внедрения предприятиями малого и среднего бизнеса.

Следует отличать кластеры высокой готовности от отказоустойчивых систем ("fault-tolerant"), которые строятся по принципу полного дублирования. В таких системах серверы работают параллельно в синхронном режиме. Достоинством этих систем является малое (меньше секунды) время восстановления после отказа, а недостатком - высокая стоимость из-за необходимости применения специальных программных и аппаратных решений.

Как упоминалось выше, применение кластеров высокой готовности позволяет уменьшить число простоев, вызванное плановыми или неплановыми остановками работы.

Плановые остановки могут быть обусловлены необходимостью обновления программного обеспечения или проведения профилактического ремонта оборудования. На кластере эти операции можно проводить последовательно на разных узлах, не прерывая работы кластера в целом.

Неплановые остановки случаются из-за сбоев программного обеспечения или аппаратуры. В случае сбоя ПО на обычном сервере потребуется перезагрузка операционной системы или приложения, в случае с кластером приложение мигрирует на другой узел и продолжит работу.

Наименее предсказуемым событием является отказ оборудования. Из опыта известно, что сервер является достаточно надёжным устройством. Но можно ли получить конкретные цифры, отражающие уровень готовности сервера и кластера?

Производители компьютерных компонентов, как правило, определяют их надежность на основании испытаний партии изделий по следующей формуле:

= Время теста х Число тестируемых изделий

Например, если тестировалось 100 изделий в течение года и 10 из них вышло из строя, то MTBF, вычисленное по этой формуле, будет равно 10 годам. Т.е. предполагается, что через 10 лет все изделия выйдут из строя.

Отсюда можно сделать следующие важные выводы. Во-первых, такая методика расчета MTBF предполагает, что число отказов в единицу времени постоянно на протяжении всего срока эксплуатации. В "реальной" жизни это, конечно, не так.

Второй интересный вывод заключается в том, что понятие MTBF отражает совсем не то, что очевидно следует из его названия. "Среднее время наработки на отказ" в буквальном смысле означает время, составляющее только половину MTBF. Так, в нашем примере это "среднее время" будет не 10 лет, а пять, поскольку в среднем все экземпляры изделия проработают не 10 лет, а вполовину меньше. Т.е. MTBF, заявляемый производителем - это время, в течение которого изделие выйдет из строя с вероятностью 100%.

Итак, поскольку вероятность выхода компонента из строя на протяжении MTBF равна 1, и если MTBF измерять в годах, то вероятность выхода компонента из строя в течение одного года составит:


Р = 1 / MTBF


Очевидно, что отказ любого из недублированных компонентов сервера будет означать отказ сервера в целом.

Отказ дублированного компонента приведет к отказу сервера только при условии, что компонент-дублер тоже выйдет из строя в течение времени, необходимого для "горячей" замены компонента, отказавшего первым. Если гарантированное время замены компонента составляет 24 часа (1/365 года) (что соответствует сложившейся практике обслуживания серверного оборудования), то вероятность такого события в течение года:



Теперь, зная вероятность отказа всех N компонентов (дублированных и недублированных) сервера, можно рассчитать вероятность отказа сервера в течение одного года:



Поскольку отказы сервера (отказы компонент) распределены во времени равномерно, то, зная вероятность отказа сервера в течение года, можно определить время его наработки на отказ (время, через которое сервер выйдет из строя с вероятностью 100%):



Теперь можно определить коэффициент готовности:



Перейдем к расчету. Пусть наш сервер состоит из следующих компонентов:

Сведем данные производителей по надежности отдельных компонент, а также данные по реальной статистике отказов, предоставленные нашим сервисным центром, в следующую таблицу:

Тогда:


Компоненты сервераЗаявленная надёжностьВер-ть отказа за год (факт.)Вер-ть отказа за год (сред.)Кол-во эл-тов в серв.Вер-ть отказа с учетом дублир-яКомпоненты сервераЗаявленная надежностьБлок питания90 000100,0970,0430,07020,00003Системная плата300 000340,0290,0030,01610,01606Процессор №11 000 0001140,0090,0010,00510,00477Процессор №21 000 0001140,0090,0010,00510,00477RAM, модуль №11 000 0001140,0090,0030,00610,00613RAM, модуль №21 000 0001140,0090,0030,00610,00613Жесткий диск400 000460,0220,0130,01820,00000Вентилятор №1100 000110,0880,0010,04520,00001Вентилятор №2100 000110,0880,0010,04520,00001Контроллер HDD300 000340,0290,0060,01810,01752Плата сопряжения300 000340,0290,0120,02010,02043Ленточный накопитель220 000250,0400,0200,03010,02991Итого:0,4570,1080,2820,10576

Вероятность отказа сервера в течение года:0,106MTBF сервера (лет):9,455Среднее время устранения неисправности (часов): 24Коэффициент готовности сервера (%):99,97Среднее время простоя в год (часов):2.54

Вообще, для серверного оборудования нормальным коэффициентом готовности считается величина 99,95%, что примерно соответствует результату наших расчетов.

Выполним аналогичный расчет для кластера.

Кластер состоит из двух узлов и внешнего дискового массива. Нарушение работоспособности кластера произойдет либо в случае отказа дискового массива либо в случае одновременного отказа обеих узлов в течение времени, необходимого для восстановления узла, первым вышедшего из строя.

Предположим, что в качестве узла кластера используется рассмотренный нами сервер с коэффициентом готовности K = 99,97%, а время восстановления работоспособности узла - 24 часа.


Компоненты сервераЗаявленная надежностьВер-ть отказа за год(факт.)Вер-ть отказа за год(сред.)Кол-во эл-тов в серв.Вер-ть отказа с учетом дублир-яMTBF (часов)MTBF (лет)Вер-ть отказа за годБлок питания90 000100,0970,0430,07020,00003Жесткий диск400 000460,0220,0130,01820,00000Вентилятор100 000110,0880,0010,04520,00001Контроллер HDD300 000340,0290,0060,01820,00000Итого:0,2360,0630,1500,00004

Вероятность отказа массива в течение года:Pm = 0,00004Вероятность отказа одного из узлов в течение года: Pn = 0,106Вероятность отказа кластера в течение года:P = Pm + 2 x Pn x Pn /365 = 0,0001Время наработки на отказ для кластера (лет):MTBF = 1 / P = 9 739Время восстановления после отказа (часов):MTTR = 24Коэффициент готовности кластера (%):K = 99,99997Среднее время простоя в течение года (секунд):T = 8

Таким образом, кластер высокой готовности демонстрирует гораздо более высокую устойчивость к возможному отказу аппаратуры, нежели сервер традиционной архитектуры.


10. Схема отказоустойчивого ЦОД



На центральном управляемом коммутаторе требуется настроить балансировку нагрузки между двумя промежуточными коммутаторам и объединением сетей nc1 и nc2. Подключить управляемый коммутатор к источнику бесперебойного питания.

Сеть nc1 и nc2 обеспечивают отказоустойчивость сети. Если один из промежуточных коммутаторов выходит из строя, то передача осуществляется без заметных изменений.

Node 1 и Node 2 связываются между собой по интерфейсу heartbit. Если на Node 1 происходит сбой то виртуальная машина автоматически переходит под управление Node2, при этом пользователь не ощущает никаких заметных изменений в работе. Эта технология называется Live Migration. ISCSI интерфейсы установленные на node1, node2 и shared storage system обеспечат достаточную скорость передачи данных.

Для хостов Node 1 и Node 2 предусмотрена установка двух программных RAID, позволяющих осуществлять полное зеркалирование жёсткого диска. RAID0 это группа SSD носителей, на одном из которых будет установлена операционная система Windows Server 2008R2 со всеми сопутствующими службами и программами. Можно легко подсчитать, что объём занимаемых таким образом данных не будет превышать 64ГБ. Это значит, что нас устроят 4 SSD накопителя объёмом 64ГБ. RAID1 это группа SSD накопителей предназначенных для хранения полного резерва системы RAID0. Объём этих носителей должен справлять как минимум с недельной резервной копией системы, а это порядка 750ГБ. Нам необходимо 4 SSD накопителя объёмом не менее 750ГБ. Материнская плата должна иметь в своём составе минимум 5 SATA слотов (4 накопителя информации + 1 CD-ROM), поддерживать память DDR3 суммарным объёмом около 32ГБ, 4 сетевых интерфейса или PCI разъёмы для подключения сетевых интерфейсов, поддерживать технологию Hot Swap, поддерживать высокопроизводительные типы процессоров (начинаю от Intel Core i7 и выше). Блоки питания должны быть не менее чем на 600W, иметь не менее 5 питающих шлейфов на накопителей и CD-ROM. Память с частотой не менее 10600 и объёмом не менее 32ГБ. Системные. Блоки должны быть не более чем 3u, т.к. весь проектируемый кластер должен находиться в одной стойке и обеспечивать удобство управления и обслуживания. Система охлаждения должна справлять с нагрузками на процессор и отводить тепло. Дополнительно устанавливаются карты для передачи по iscsi интерфейсу между node 1,2 и shared storage system.

Shared storage system имеет в своём составе 4 независимых RAID. RAID1 и RAID2 предназначены для размещения на них общих папок и каталогов которыми будет управлять файловый сервер. Объём занимаемый данных будет очень большой, отсюда возникает требование к размеру и скорости передачи носителей. RAID S предназначен для установки операционной системы. Достаточно 2 SSD накопителя объёмом не более 64ГБ. RAID 2,3 предназначены для размещения на них резервных копий, которые будут делаться со всей группы кластерного сервера. Необходимо размещать резервные копии, которые будут производиться 1 раз в день, 7 раз в неделю. Подсчитав объём резервных копий можно определить, что нам необходимо около 4ТБ для хранения месячного резерва. Получаем, что необходимо 4 HDD носителя по 4ТБ каждый. Материнская плата должна иметь 2 сетевых интерфейса скорость передачи которых не мeнее 10Гб/c. Необходимо предусмотреть установки платы расширения iscsi интерфейса или более высокоскоростного интерфейса. Блок питания должен иметь не менее 11 питающих вывода и мощность не менее 800W. Производительность процессора не играет важнейшую роль в работе системы, поэтому можно установить процессор серии intel core 2 duo или его аналоги. Оба сетевых интерфейса можно объединить по программной технологии nits timing (nt) для увеличения производительности сети и отказоустойчивости. Если выходит из строя интерфейс 1 то передача продолжается по другому интерфейсу с понижением скорости.

Промежуточные коммутаторы необходимо выбрать с поддержкой технологии балансировки нагрузки и пропускной способностью не менее 1Гб/c. Установка 2х коммутаторов обеспечивает технологию отказоустойчивой передачи данных. Если 1 из коммутаторов выходит из строя, передача продолжается по второму, без понижения скорости.

Система обеспечения бесперебойного питания должна обеспечивать надёжное резервирование всей группы кластера и коммутаторов. Источник бесперебойного питания должен устанавливаться в одну стойку с серверами и обеспечить удобство обслуживания. Необходимо выбрать коммутатор с поддержкой технологии сигнализирующей отключение питания и автоматическим сообщением shared storage system для обеспечения оптимальной производительности. UPS должен обеспечивать питанием всю систему не менее 1 часа, для предоставления возможности оперативного реагирования на отключение питания.


11. Выбор комплектующих


В качестве активного сетевого оборудования предлагается использовать оборудование фирмы Allied Telesyn, которая зарекомендовала себя с самой лучшей стороны и является одной из наиболее качественных продуктов на мировом рынке.

Коммутация зарекомендовала себя как наиболее экономичная и гибкая технология, обеспечивающая увеличение полосы пропускания и повышение управляемости сети на всех уровнях; к тому же ее внедрение сопряжено с минимальными перестройками в сети. Так же оборудование этой фирмы зарекомендовало себя безупречной работой на протяжении нескольких лет и устойчивостью к перепадам напряжения в сети.

В качестве Switch предлагается использовать коммутатор семейства AT-GS 950/24. В качестве преимуществ можно отметить:

-Поддержка стандарта 802.1w Rapid Spanning Tree;

-Зеркалирование портов;

-Поддержка технологии Enhanced Stacking;

-Монтаж в 19" стойку или шасси;

-Порты 1000 Base-T с экранированными разъемами RJ-45;

-Сетевое управление через SNMP, TELNET или HTTP;

-Две приоритетных очереди;

-Бесплатное обновление ПО;

-Гарантия на весь срок службы (один год - на блок питания).

Благодаря технологии Enhanced Stacking один коммутатор может использоваться для управления группой, насчитывающей до 24 коммутаторов, каждый из которых имеет 24 порта 10/100TX. Таким образом, в одном широковещательном домене может быть объединено до 576 портов 10/100TX.

В качестве Hub предлагается использовать концентратор семейства AT-GS 750/24. В качестве преимуществ можно отметить:

-Соответствие стандарту IEEE 802.3, версии 1.0 и 2.0;

-Порты 100Base-T с экранированными разъемами RJ-45;

-Модульный магистральный порт 1000 Base-FL (волоконная оптика);

-Автономное использование, монтаж в 19" стойку или шасси;

-Сетевое управление через SNMP, TELNET или HTTP;

-Совершенная система диагностических индикаторов (LEDs);

-Гарантия на весь срок службы (один год - на блок питания).

В качестве серверного оборудования (серверов) предлагается использовать оборудование фирмы IMANGO семейства Escaler.

Эти компактные стоечные серверы, оптимизированные для создания кластеров, обладают высокой гибкостью и управляемостью и идеально подходят для сред с большим количеством серверов и внешними системами хранения данных, информационных центров и эффективных кластерных приложений, что позволяет заказчику подобрать модели, максимально соответствующие его требованиям. Благодаря свободному доступу к компонентам и оптимизированной разводке кабелей они очень просты в развертывании и обслуживании.

В качестве оборудования бесперебойного питания предлагается использовать оборудование фирмы APC семейства Smart-UPS RM. Продукты этого семейства отличаются выдающейся производительностью и легендарной надежностью, а также оснащаются портом USB, передней панелью стандартного белого цвета и обладают немного повышенной выходной мощностью по сравнению со своими предшественниками - моделями мощностью 700 и 1400 ВА. Высокопроизводительные ИБП с гибкими возможностями монтажа для защиты электропитания серверов и корпоративных сетей. ИБП высотой 2U продолжают оставаться основным продуктом для большинства приложений, включая приложения с жесткими требованиями к стоимости оборудования. Модели высотой 2U предназначены для эксплуатации в оптимизированных по плотности средах с глубокими стойками (800, 1000, 1100 мм), где основным преимуществом устройства является минимальная высота.

Для обеспечения разрабатываемой сети требуется два ИБП Smart-UPS RM 2U.

Из пассивного сетевого оборудования предлагается использовать телекоммуникационные шкафы (стойки) 19

Телекоммуникационные шкафы служат для размещения оптического и электротехнического оборудования различных стандартов. Наиболее широкие возможности по функциональному применению представляет серия телекоммуникационных шкафов, предназначенных для размещения различного оборудования вплоть до компьютеров промышленного назначения. Оборудование располагается на вертикальном перфорированном профиле или на 19" полках. Перфорация соответствует стандарту DIN 41494, Part1. В перфорированный профиль устанавливаются любые стандартные устройства 19 ". Глубина постановки профиля может изменяться в зависимости от устанавливаемого оборудования. Доступны различные варианты исполнения по глубине, классу защищенности и конструкции дверей. Несколько отдельных шкафов, объединенных механически в жесткую конструкцию, могут составить единый комплекс. Максимально возможное количество установочных мест (Unit) увеличено до 45 U (высота шкафа 2200 мм).

В качестве оборудования для поддержания в серверной необходимого температурного режима предлагается использовать сплит системы фирмы Toshiba SM 1402.

Являясь лидером на рынке климатического оборудования, компания Toshiba предлагает лучшее мировое оборудование, прошедшее сертификацию ISO 9001. Поставляемое оборудование отличается высокой надежностью и долговечностью его эксплуатации.


Вывод


В результате проделанной работы была спроектирована аппаратная составляющая отказоустойчивого кластерного сервера для компании, которая отвечает заявленным требованиям в ТЗ. Также была доработана существующая инфраструктура и исправлено много недостатков.

кластерный сервер сеть дисковой

Список литературы


1.Олифер В.Г., Олифер Н.А. «Компьютерные сети. Принципы, технологии, протоколы, 2-е изд» СПб, Питер-пресс, 2006

.«Администрирование сети на основе Microsoft Windows 2000. Учебный курс MCSE». Москва, Русская редакция

.Кульгин М. «Технология корпоративных сетей. Энциклопедия». СПб, Питер, 2006

.А.Б. Семенов, С.К. Стрижаков, И.Р. Сунчелей. «Структурированные Кабельные Системы АйТи-СКС, издание 3-е». Москва, АйТи-Пресс, 2007

.А.Б. Семенов «Волоконная оптика в локальных и корпоративных сетях» Москва, АйТи-Пресс, 2006

.Новиков Ю. «Локальные сети: архитектура, алгоритмы, проектирование». Москва, ЭКОМ, 2006

.«LAN/Журнал сетевых решений». Москва, Открытые системы, январь 2005

.Администрирование сети на основе Microsoft Windows 2000. Учебный курс, изд-во Русская редакция, 2007 г.

.Интрасети: доступ в Internet, защита. Учебное пособие для ВУЗов, Милославская Н.Г и др., изд-во ЮНИТИ, 2006 г.

.Новиков Ю.В. и др. Локальные сети: архитектура, алгоритмы, проектирование. Изд-во ЭКОМ, 2008 г.


Оглавление 1. Обзор предприятия и постановка задачи . Расчет пропускной способности сети . Назначение и цели Системы . Требования к Системе

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ