ToggleМеню
   +7 (495) 221 2146

Главная

    • Главная
      • Услуги
      • Новости
      • Клиенты
      • Партнеры
      • Экскурсии
      • Написать директору
      • Контакты

О компании

    • О компании
      • Наша команда
      • Сертификаты
      • Отзывы клиентов
      • Лицензии

Проектирование

    • Проектирование
      • Подходы
      • Этапы
      • Услуги
      • Объекты
      • Реализованные проекты

Строительство

    • Строительство
      • Подходы
      • Услуги
      • Оборудование
      • Объекты
      • Реализованные проекты

Фальшпол

    • Фальшпол
      • Об услуге
      • Реализованные проекты
      • Галерея

Сервис ЦОД

    • Сервис ЦОД
      • Пакеты услуг
      • Сервисы
      • Объекты
      • Системы
      • Проекты
      • Преимущества

Аудит

    • Аудит
      • Услуги
      • Преимущества
      • Реализованные проекты

Хаб знаний

    • Хаб знаний
      • Статьи
      • Документация
      • Калькулятор ЦОД
   +7 (495) 221 2146 info@datadome.ru
DataFloor
  • Главная
    • Услуги
    • Новости
    • Клиенты
    • Партнеры
    • Экскурсии
    • Написать директору
    • Контакты
  • О компании
    • О компании
    • Наша команда
    • Сертификаты
    • Отзывы клиентов
    • Лицензии
  • Проектирование
    • Подходы
    • Этапы
    • Услуги
    • Объекты
    • Реализованные проекты
  • Строительство
    • Подходы
    • Услуги
    • Оборудование
    • Объекты
    • Реализованные проекты
  • Фальшпол
    • Об услуге
    • Реализованные проекты
    • Галерея
  • Сервис ЦОД
    • Пакеты услуг
    • Сервисы
    • Объекты
    • Системы
    • Проекты
    • Преимущества
  • Аудит
    • Услуги
    • Преимущества
    • Реализованные проекты
  • Хаб знаний
    • Статьи
    • Документация
    • Калькулятор ЦОД

Статьи

Типовые отказы ЦОДов и их профилактика

11 декабря 2012, 19:30

Надежность ЦОДа, как известно, зависит не только от качества установленного в нем оборудования и правильности проектных решений. Может быть, даже в большей степени на нее влияют качество монтажных работ и исполнения процедур эксплуатации.

В данной статье мы расскажем о типовых проблемах в процессе эксплуатации ЦОДа, которые встречались в нашей практике.

Дизель-генераторные установки

Основой бесперебойной работы ЦОДа является беспрерывное энергоснабжение ИТ-оборудования и систем кондиционирования. С учетом качества и надежности отечественных внешних электрических сетей узким местом в системе энергоснабжения ЦОДа становятся ДГУ и ИБП. Причем незапуск ДГУ может принести гораздо больший ущерб, нежели выход из строя ИБП.

Очевидно, что в случае пропадания внешнего городского энергоснабжения последним оплотом бесперебойной работы ЦОДа остается дизель-генераторная установка. А значит, любой сбой в ее работе может привести к остановке всего ЦОДа. При этом сама ДГУ представляет собой сложное инженерное устройство, состоящее из множества компонентов, каждый из которых может стать причиной аварии.

Cервис
Сервисное обслуживание инженерных систем в соответствии с требованиями SLA.
> Выnолненные nроекты
S
общ
1
9
8
0
8
МВт
общ
3
1
Пакет услуг

В качестве примера рассмотрим проблему, возникшую в результате поломки системы вентиляции контейнера ДГУ. В одном из ЦОДов произошел следующий инцидент: в момент пропадания напряжения на городских вводах ДГУ запустилась в аварийном режиме, электроснабжение ЦОДа было восстановлено. Дежурная смена, инженеры, присутствовавшие в то время в дата-центре, занялись выяснением причин пропадания внешнего снабжения, при этом перестав уделять внимание «стабильно работающей» системе. Через короткий промежуток времени ДГУ остановилась, ЦОД был обесточен полностью. После выяснения причин аварии оказалось, что в контейнере ДГУ из-за засора всего-навсего не открылись шторки жалюзи вентиляции. Температура в контейнере существенно поднялась, и была подана автоматическая команда на отключение двигателя. А поскольку в ЦОДе отсутствовала централизованная система мониторинга, то информация об ошибке не появилась на мониторах дежурной смены. Аварию удалось устранить, лишь принудительно открыв шторки жалюзи ДГУ.

Один из способов решения данной проблемы – система мониторинга, отслеживающая максимальное количество параметров ДГУ, в том числе температуру в контейнере, и работоспособность и состояние вспомогательных систем. В случае же отсутствия такой системы (что сложно себе представить для ЦОДа) необходимы четкие инструкции дежурной смене, предписывающие личную проверку пуска ДГУ и работоспособности вспомогательных систем.

Электрощитовое оборудование и автоматика

Как показывает практика, некорректные алгоритмы работы и ошибки системы автоматики электрощитового оборудования могут вызвать не менее серьезные проблемы, чем неработоспособность ДГУ.

Например, в одном из дата-центров случился сбой, хотя и не приведший к аварийному останову инженерных систем, но ухудшивший экономические показатели бизнеса. Произошло кратковременное пропадание городского ввода, в результате чего автоматика подала сигнал на запуск ДГУ, но при дальнейшем восстановлении энергоснабжения она не перевела нагрузку обратно на внешний ввод. Дизель-генераторная установка находилась вне зоны прямой видимости дежурной смены, а система мониторинга не отслеживала работу системы автоматического ввода резерва (АВР). В результате ДГУ мощностью 1 МВт проработала не менее 4 ч и сожгла порядка 1 куб. м дизельного топлива, что обошлось ЦОДу в сумму около $1000. Сумма, может быть, и не критичная для устойчивости экономики ЦОДа, но эти расходы были совершенно лишними и их легко было избежать. К тому же, проработай ДГУ еще какое-то время, могло закончиться дизельное топливо, а это спровоцировало бы остановку всего дата-центра.

Случаются на практике и ошибки автоматики другого рода, вызванные некорректной настройкой реле контроля фаз. При приемке вновь построенного дата-центра зачастую не уделяется должного внимания уставкам границ срабатывания АВР. Настройка может проводиться на граничное значение по умолчанию – 400 В, в то время как среднее значение входного напряжения составляет 380 В. Пока ЦОД еще недостаточно нагружен, срабатывания АВР и перехода на ДГУ не происходит, но когда дата-центр начинает приближаться к расчетной мощности, напряжение под нагрузкой проседает на 5–7 В, автоматика может воспринять это как пропадание городского ввода и дать команду на запуск ДГУ и перевод всей нагрузки на резервный источник электроснабжения. Затем городское напряжение начинает расти, происходит обратный переход на городской ввод. Такая ситуация может запустить неконтролируемую цепочку переключений с городского ввода на ДГУ и обратно, которую можно прервать только вручную.

Зачастую во время пусконаладки системы энергоснабжения подрядчик неправильно выставляет настройки селективности групповых и стоечных автоматов, что впоследствии может вызвать каскадное отключение группы потребителей от нагрузки во время короткого замыкания на одном из потребителей. Ток короткого замыкания, возникающий в стойке, при неверных настройках автоматов может пройти на групповой автомат, либо отключив его, либо пройдя еще выше по иерархии электрораспределительной системы и отключив автомат более высокого уровня, включая ГРЩ. Для ЦОДа это достаточно критично, так как ошибка всего лишь в одной стойке способна обесточить от нескольких рядов стоек до всего ЦОДа целиком.

Помимо приведенных примеров работа автоматики электроснабжения может вызвать массу других ошибок в работе дата-центра, так как логика ее работы – суть основа надежности ЦОДа. Чтобы избежать ошибок, связанных с автоматикой электроснабжения, следует обратить на нее пристальное внимание на стадии проектирования, а во время эксплуатации проводить периодические комплексные испытания логики взаимодействия инженерных систем ЦОДа, моделируя всевозможные аварийные ситуации и отслеживая поведение системы.

Источники бесперебойного питания

Продолжая тему ошибок в энергосистеме ЦОДа, нельзя обойти вниманием такой важный элемент системы энергоснабжения, как ИБП. Наиболее типичной аварийной ситуацией с ИБП можно считать короткое замыкание на его электросхемах вследствие некачественного обеспыливания устройства и уборки. В нашей практике было два прецедента, связанных с некачественной уборкой ИБП, которые привели к выгоранию его электрических схем и далее к деградации всей системы бесперебойного энергопитания ЦОДа. Нельзя сказать, что данная проблема – удел исключительно инженерии дата-центра, но с учетом важности этих компонентов для работоспособности ЦОДа и высокой вероятности события из-за больших мощностей ИБП, рекомендуем обратить на нее пристальное внимание в процессе эксплуатации.

Часто также происходят инциденты с батарейными блоками ИБП, приводящие к задымлению и даже пожару. А виной всему некачественная протяжка соединительных перемычек аккумуляторных батарей. Особенно часто это происходит, если при производстве батарей используют свинцовые клеммы. Свинец – пластичный материал, со временем он становится текучим, в буквальном смысле течет. И если периодически не протягивать соединения, то через некоторое время контакт ослабевает, в этом месте возникает локальное повышенное сопротивление, и при прохождении большого электрического тока оно начинает нагреваться. Со временем под воздействием электричества и тепла свинец плавится, что с высокой вероятностью может привести к задымлению и пожару.

Проблема касается не только контактов ИБП, но и в целом всей системы электрораспределения ЦОДа. Как часто говорят, электрика – наука о контактах, и 80% всех проблем с электрикой связаны с некачественно выполненными соединениями. Эти проблемы могут вызвать в ЦОДе пожар, не говоря уж о том, что даже минимальное локальное задымление может привести к значительному простою ЦОДа в результате срабатывания системы газового пожаротушения.

Помимо прочего необходимо уделять повышенное внимание равномерности заряда аккумуляторных батарей (АКБ). В начале эксплуатации ИБП аккумуляторные батареи часто заряжаются и разряжаются крайне неравномерно, что может негативно повлиять на их срок службы и длительность работы ИБП в автономном режиме. Эта проблема возникает вследствие различных уровней заряда батарей в начале их эксплуатации. Частично ее можно устранить, используя метод «раскачки» АКБ – так же, как мы поступаем обычно с батареями мобильных устройств. Перед началом промышленной эксплуатации ИБП желательно несколько раз провести процедуру полного разряда и затем полного заряда батарей.

Система кондиционирования

Известно, что за несколько минут простоя системы кондиционирования температура внутри машинного зала может вырасти на десятки градусов. При этом вероятна, как минимум, остановка ИТ-нагрузки по перегреву, а в худшем случае – потеря важной информации. Поэтому вторым по значимости для работы ЦОДа фактором, после непрерывности энергоснабжения, является поддержание требуемых значений влажности и температуры.

Мы постоянно пропагандируем идею, что ЦОД – это единый организм, живущий по своим правилам, в котором инженерные подсистемы неразрывно взаимодействуют между собой, растут и развиваются вместе с дата-центром. Если нет поддержки и понимания этой идеи, возникает первая проблема – отсутствие оптимизации ресурсов ЦОДа с ростом его энергопотребления. Например, во вновь построенном ЦОДе неопытная служба эксплуатации включает в работу все кондиционеры или большую их часть, не учитывая, что работает только небольшая часть ИТ-нагрузки и, соответственно, выделяется лишь малая часть номинальной тепловой нагрузки. Это провоцирует слишком частые повторения циклов включения и выключения компрессоров, что влечет за собой повышенный износ оборудования и преждевременный выход его из строя. Точно так же необходимо четко и правильно настроить периоды переключения кондиционеров в режиме ротации, чтобы снизить риск преждевременного износа оборудования. Ни в коем случае нельзя допускать частого включения кондиционеров на непродолжительное время.

Стоит обратить внимание и на такую проблему, как обмерзание вентиляторов внешних блоков системы кондиционирования в холодное время года. И хотя частое переключение кондиционеров в режиме ротации приводит к более быстрому износу оборудования, тем не менее зимой эту процедуру стоит проводить чуть чаще, чем в теплый период.

Не работающий длительное время вентилятор зимой вполне может механически заклинить после атмосферных осадков (ледяного дождя, снега) или из-за образования сосулек. При последующем запуске кондиционера это приведет к сбою и к отключению кондиционера по аварии.

Этих проблем можно избежать, просто проведя подготовку кондиционеров к наступающему холодному или теплому сезону, скорректировав количество хладагента в системе и уделив особое внимание обслуживанию внешних блоков.

Касаясь жидкостных систем холодоснабжения, нельзя не отметить проблемы с системой распределения хладагента, т. е. трубопроводами. Как ни старались мы равняться на Запад в области качества проведения монтажных работ, оно по-прежнему оставляет желать лучшего. Особенно это относится к простым, казалось бы, сантехническим работам. Причем, как известно, жидкость – один из основных врагов электрических систем ЦОДа, а жидкость, находящаяся непосредственно в ЦОДе, – это враг в квадрате. Поэтому предотвращение протечек в жидкостных системах холодоснабжения – задача номер один для службы эксплуатации любого ЦОДа. Мы неоднократно сталкивались с авариями в дата-центрах, при которых происходили утечки хладагента непосредственно в машинный зал, и в подавляющем большинстве случаев это случалось в местах подсоединения шкафных кондиционеров к системе трубопроводов. Такие соединения, как правило, выполняются с помощью гибкой подводки, поэтому на этапе строительства необходимо максимум внимания уделить качеству применяемых в данном узле материалов и квалификации персонала, выполняющего работы. Не стоит и забывать о периодической проверке и протяжке креплений этих узлов в процессе эксплуатации.

В завершение темы об ошибках системы кондиционирования расскажем еще об одной проблеме: автоматическом запуске системы фреонового кондиционирования после кратковременного пропадания энергоснабжения либо после переключения на аварийный источник энергоснабжения. Это случается с оборудованием далеко не всех производителей, но если вам не повезло и вы выбрали оборудование, для которого такая проблема существует, лучше диагностировать ее заранее. Дело в том, что некоторые модели прецизионных кондиционеров после пропадания питания или всплесков напряжения трактуют данное событие как «ошибку чередования фаз». Эта авария относится к критическим, автоматически она не снимается, сделать это можно только вручную. Каково же было удивление службы эксплуатации некоего коммерческого ЦОДа, когда после пропадания напряжения на городском вводе и запуске ДГУ все кондиционеры выдали «ошибку по фазировке» и отказались запускаться. Для диагностирования этой аварии рекомендуем провести комплексные испытания ЦОДа при его приемке и обязать подрядчика устранить проблему до начала эксплуатации. В некоторых случаях может помочь перепрограммирование контроллера, а в других придется ставить стабилизатор напряжения или принимать иные меры.

Аудит и консалтинг
Проверка и аттестация ЦОД от бизнес-плана до ввода в эксплуатацию
> Выnолненные nроекты
S
общ
3
7
9
4
5
МВт
общ
1
2
6
Пройти проверку

Система видеонаблюдения

Описанную ниже проблему нельзя классифицировать как аварию или отказ, но если вы учтете следующий совет, это позволит вам избежать затяжных споров с подрядчиками по эксплуатации инженерных систем. Старайтесь содержать систему видеонаблюдения в состоянии «полной боевой готовности»! Этой системе, особенно в машинных залах, многие не придают особого значения, считая, что она полностью работоспособна, а по факту нередко нужная камера оказывается не в фокусе, смотрит «в землю», или же запись просто не ведется. Но при «разборах полетов» только видео-запись позволяет однозначно определить виновных и оценить действия персонала в критических ситуациях.

Собственно, этот последний совет касается не столько технической части ЦОДа, сколько организации его службы эксплуатации в целом.

Как показывает наш опыт, большая часть аварий в дата-центре происходит из-за повышенного влияния человеческого фактора и зачастую из-за отсутствия у службы эксплуатации опыта, строго прописанных регламентов и технологических карт проведения работ. Резюмируя все сказанное выше, хочется отметить, что четко отлаженная работа службы эксплуатации, способной предотвратить большинство возникающих проблем, как известных, так и новых, – залог надежной и безотказной работы столь сложного объекта, как ЦОД.

Источник: журнал ИКС, №12 от 11 декабря 2012 года

ООО «ДатаДом»
ИНН 7722398513
ОГРН 1177746489304
Юридический адрес:
111033, Москва, ул. Золоторожский Вал, д. 22, мансарда, комн. 22
+7 (495) 221 2146
info@datadome.ru

Написать в Whatsapp
Написать в Telegram

↑