Эффективное управление инженерной инфраструктурой дата-центра

СОДЕРЖАНИЕ
Ландшафтное разнообразие
Режимы управления
Мониторинг и диспетчеризация
Проблема выбора
Точки оптимизации
Перспективы отрасли

управление инженерной инфраструктурой

Инструменты для автоматизации задач управления и мониторинга в центрах обработки данных появились на рынке относительно недавно. Первые подобные продукты позволяли вести учет оборудования, а также контролировать его перемещение и обслуживание. Сегодня дело уже не ограничивается возможностью нарисовать красивые схемы машинных залов с привязкой к базе данных, современные системы позволяют в реальном времени решать множество связанных с эксплуатацией дата-центра задач. Мы рассмотрим возникающие в этой области проблемы и поищем пути их решения.

Ландшафтное разнообразие

В инженерной инфраструктуре дата-центра можно выделить два контура управления: один из них работает с охлаждением и распределением питания на уровне стойки, другой — на уровне всего объекта и захватывает не только энергоснабжение и кондиционирование, но и различные вспомогательные подсистемы (пожаротушение, контроль доступа и т.д.). Нередко эти контуры и даже их части независимы друг от друга и обслуживаются разными командами операторов.

Комплексные решения для управления инженерной инфраструктурой закупаются далеко не всегда. В коммерческих дата-центрах такого обычно не бывает, но в корпоративном сегменте еще нередки случаи, когда руководство компании пытается сэкономить и соглашается включить в смету только разрозненные системы для кондиционеров и/или ИБП. Отсутствие связки между контурами управления, различный уровень автоматизации подсистем дата-центра и парк оборудования разных вендоров затрудняют согласованную работу всех частей комплекса, делая оптимизацию невозможной.

Режимы управления

В самом плохом варианте (на небольших объектах) подсистемы дата-центра управляются вручную, а учет установки и перемещения оборудования ведется в Excel. Часто при этом в документации наблюдается беспорядок, что вполне естественно — вести корректную базу данных в электронных таблицах получается только до определенного предела. Когда количество стоек измеряется десятками, проблемы с ручным учетом неизбежны. Замена оборудования в таком ЦОДе производится по мере выхода из строя, что увеличивает накладные расходы и сроки простоя в случае аварии.

Если для владельцев ЦОДа время простоя критично, используется реактивная модель управления. В этом случае процедура поиска и устранения неисправностей регламентирована, ведется сопутствующая документация, однако процесс держится на опыте сотрудников и знании ими особенностей конкретного дата-центра. В случае аварии проблема устраняется достаточно быстро, но из-за отсутствия возможностей комплексного анализа причин неисправности с профилактикой есть серьезные трудности. Кроме того, когда процессы управления объектом держатся на нескольких ключевых специалистах, в случае, например, увольнения одного из них, возникают новые проблемы.

Более совершенная модель управления – сервис-ориентированная. Она предполагает наличие полной документации по всем подсистемам объекта. В ней четко прописаны регламенты замены и профилактического обслуживания оборудования, ведется тщательный учет его установки и перемещения, а эксплуатационные службы готовят отчеты по параметрам инженерных систем, авариям и действиям персонала по их устранению.

Главная отличительная черта сервис-ориентированного подхода к управлению дата-центром — проактивность. Эта модель позволяет не только анализировать причины ошибок, но и предвидеть проблемы еще до их возникновения, а также устанавливать обходные пути для быстрого восстановления работоспособности сервисов. Разумеется, подобный подход невозможен без внедрения единой автоматизированной системы мониторинга и диспетчеризации для всех критически важных подсистем ЦОДа. Практика показывает, что их отказы часто происходят по вине сотрудников. Высококлассных специалистов всегда не хватает, но, если центр диспетчеризации автоматизирован, а все регламенты обслуживания объекта формализованы, большей части персонала нужны только базовые знания.

Мониторинг и диспетчеризация

Около 10 лет назад на рынке появились решения класса DCIM (Data Center Infrastructure Management), объединяющие все инженерные подсистемы в цельную логическую структуру. Первые версии DCIM позволяли строить схемы/планы объекта и вести документацию, но сейчас их функциональность серьезно изменилась — современные решения могут взаимодействовать со встроенными в оборудование различных производителей средствами мониторинга и подключать дополнительные датчики, контроллеры, конвертеры сигналов и системы сбора данных. Чаще всего собирается информация об энергопотреблении на всех уровнях, вплоть до уровня стойки, о температуре и влажности в стойках, системах охлаждения и внутри воздуховодов, а также данные об утечках жидкости — это необходимый минимум.

После внедрения DCIM заказчик получает интегрированную среду мониторинга и управления, в которую будут включены все узлы критичных для работы объекта подсистем и даже в ряде случаев ИТ-оборудование. Главная ее задача — объединить потоки данных из максимально доступного количества источников. Информация собирается и обрабатывается в реальном времени, что дает обслуживающему персоналу полную картину функционирования всех подсистем дата-центра, включая (при необходимости) вычислительные мощности. Здесь мы видим еще один плюс DCIM — уменьшение влияния человеческого фактора на работоспособность подсистем центра обработки данных.

Проблема выбора

Сценарии внедрения возможны разные: лучше всего заложить DCIM еще на стадии проектирования объекта, есть также варианты интеграции уже работающих автономных подсистем, использующих оборудование разных производителей. Выбор решения на этапе проектирования ЦОД проблем не вызывает, обычно этим занимается системный интегратор, который помогает определиться с необходимым оборудованием и программным обеспечением.

Куда сложнее ситуация в действующем дата-центре. Здесь, в первую очередь, нужно собрать рабочую группу, включив в нее представителей всех заинтересованных отделов. Необходимо составить список всех параметров и узлов инфраструктуры, за которыми будет вестись наблюдение, и расставить их в порядке убывания важности. Дальше стоит провести аудит поддерживающихся инфраструктурным оборудованием протоколов и средств коммуникации, а также продумать, какие дополнительные датчики и контроллеры придется установить.

Имея всю эту информацию, можно выбрать программные решения, составить список дополнительного оборудования и рассчитать бюджет проекта. Внедрение DCIM на действующем объекте оптимально также отдать внешнему подрядчику — ошибки на этапе проектирования точно обойдутся дороже услуг системного интегратора. Изначально системы DCIM были локальными, но сейчас многие разработчики начинают предлагать их как сервис (SaaS). Такой подход позволяет существенно снизить капитальные затраты.

Точки оптимизации

Основная статья в структуре операционных затрат дата-центра — это расходы на электроэнергию. Работа ИТ-оборудования и систем охлаждения выливается в крупные счета от ресурсоснабжающих организаций и поэтому энергопотребление необходимо оптимизировать в первую очередь. Зависит оно от огромного количества внешних и внутренних факторов. Например, климат и погодные условия (в том числе сезонные) напрямую влияют на системы охлаждения. Сюда же можно добавить пики и спады нагрузки на вычислительное и телекоммуникационное оборудование и еще десятки различных нюансов. Учесть их все вручную невозможно, но система DCIM позволит накопить реальную статистику эксплуатации и проанализировать ее, выявив проблемные участки в инфраструктуре объекта.

Одним из важнейших показателей для центра обработки данных считается коэффициент PUE (Power Usage Effectiveness), показывающий, какая часть электроэнергии расходуется на обеспечение работы ИТ-нагрузки, а какая уходит на вспомогательные нужды (охлаждение, работу ИБП и т.д.) и потери в системе распределения. Получают его, разделив общее энергопотребление на потребление ИТ-оборудования, и до недавних пор коэффициент PUE в диапазоне от 1,6 до 2,0 считался вполне приемлемым. Сейчас рынок требует более эффективных дата-центров, потому борьба идет уже за величины 1,1—1,2. Чаще всего измеряют потребление на выходе ИБП, на выходе блока распределения питания и фактическое потребление ИТ-оборудования.

Ориентируясь на полученные данные, можно достаточно точно определить энергоэффективность ЦОДа, однако PUE отражает далеко не все связанные с ней нюансы. Этот коэффициент по-прежнему важен, но он не позволяет, например, учесть простой серверов или выявить проблемные горячие участки. К тому же, снижение PUE до близких к единице значений часто идет за счет снижения надежности дата-центра — аварии и уменьшение срока эксплуатации оборудования могут свести на нет эффект экономии электроэнергии.

Современные системы управления собирают данные по энергопотреблению с серверов, со стоек, с распределительного оборудования — можно даже вести мониторинг каждой отдельной розетки. Статистику потребления основных ресурсов можно визуализировать в удобной для восприятия форме, что упрощает поиск самых затратных с энергетической точки зрения зон и задачу оптимизации расходов. Можно найти периоды спада нагрузки и запланировать на это время техническое обслуживание. Анализ пиков потребления позволит держать запас мощности в пределах 10-15% вместо 30-40% при ручном управлении — и это тоже существенная экономия.

Решения класса DCIM отслеживают работу и других инженерных подсистем. Например, помогают составить карту воздушных потоков, чтобы выявить проблемные участки системы кондиционирования и управления микроклиматом, которая по энергопотреблению в дата-центре стоит на втором месте после ИТ-оборудования. Не стоит забывать и про определение неисправностей (зачастую еще до возникновения серьезных проблем), профилактика и оперативное устранение которых повышают надежность инфраструктуры и также снижают издержки. Ручное управление возможно только в небольшой серверной комнате, но, когда в машинном зале стоят десятки или сотни стоек, внедрение DCIM становится необходимостью.

Перспективы отрасли

До сих пор мы говорили только про инженерную инфраструктуру, поскольку управление ИТ-инфраструктурой считается отдельной задачей. Обычно для этого используются не связанные с DCIM системы, а в коммерческих дата-центрах работа ИТ-оборудования и вовсе находится в зоне ответственности клиентов. Однако развитие средств виртуализации и конвергентной/гиперконвергентной архитектуры постепенно меняет ситуацию. Сегодня разработчики создают решения, позволяющие в реальном времени отслеживать состояние виртуальных серверов на каждом из физических устройств, а производители ИТ-оборудования встраивают в свои продукты огромное количество датчиков для мониторинга энергопотребления и температуры.

Эффективное планирование нагрузки в виртуальных средах должно захватывать все уровни: операционные системы и приложения, серверы, системы хранения данных, телекоммуникационное оборудование и каналы связи, а также, разумеется, физические ресурсы (энергоснабжение, охлаждение, увлажнение воздуха и т.д.). В больших корпоративных ЦОДах решения DCIM уже не являются "вещью в себе". Их тесная интеграция с платформами виртуализации и системами управления ИТ-инфраструктурой — дело ближайшего будущего

=> <= список