10 аспектов, которые должен знать каждый ИТ-директор о своем ЦОД

Источник: 10 Things Every CIO Must Know about Their Data Centers

Автор: TIM KITTILA

10 вопросов ИТ-директора.JPG

В то время как ЦОД может не занимать мысли каждого ИТ-директора на ежедневной основе, существует список ключевых моментов, которые должен знать каждый профессионал в этой роли применительно к процессам эксплуатации ЦОД. Все они связаны с аварийными отключениями ЦОД, прошлыми и будущими. Эти инциденты несут значительный риск отрицательного влияния на производительность и рентабельность всей организации, что часто входит в зону ответственности ИТ-директора.

Каждый руководитель службы ИТ должен знать ответы на следующие 10 вопросов, и данные ответы должны проверяться и обновляться на регулярной основе.

1. Если бы вы знали, что завтра ваш основной ЦОД будет вынужденно отключен, что вы сегодня сделали бы иначе?

Это вопрос на миллион долларов, хотя отсутствие ответа на него обычно обходится ИТ-директору значительно дороже. Говоря проще, если вы не имеете представления о слабых местах вашего ЦОД, риск отключения вашего ЦОД значительно выше. Взаимодействие с опытными консультантами обычно помогает как с точки зрения использования их экспертизы, так и с позиции свежего взгляда на задачу. Как минимум два события должны быть подвергнуты оценке: 1) Как был спроектирован ЦОД, и 2) Как он эксплуатируется. Данная ревизия поможет идентифицировать риски простоя и наметить методы по их снижению.

2. Ваша компания когда-нибудь переживала значимый перерыв в работе ЦОД? Как вы определяли его значимость?

Ключевым здесь является определение «значимого отказа». Определение может варьироваться от компании к компании и даже на уровне разных ролей в пределах одной организации. Также оно может изменяться в зависимости от области применения. Формирование единого понимания термина «значительного отказа» играет ключевую роль в идентификации и ликвидации последствий незапланированных отключений. После утверждения определения начните отслеживать, измерять и распространять это определение внутри вашей организации.

3. Какие приложения наиболее критичны для вашей организации, и как вы обеспечиваете их безотказность?

Стандартный ответ с позиции лени будет таким: «Каждое приложение является важным». Но каждая компания имеет приложения и сервисы, которые более критичны, чем остальные. Неработающий веб-сайт больницы не остановит процесс лечения пациентов, в то время как сбой веб-сайта интернет-магазина означает падение продаж. Обозначьте свои наиболее критические приложения и сервисы, определите кто и как будет защищать их, исходя из вашей конкретной ситуации в бизнесе и политики в отношении рисков.

4. Как вы оцениваете потери от простоя ЦОД?

Ясность в это вопросе поможет бизнесу принимать более правильные решения. Разрабатывая модель, определяющую стоимость простоя ЦОД, и сопоставляя эту стоимость с затратами на управление связанными рисками, компания сможет принимать более взвешенные решения. Общие потери от простоя может быть сложно определить, но время, потраченное в стремлении приблизиться к точной цифре, и поддержка высшего руководства могут помочь с вопросом. Мы были свидетелями случаев, когда проекты установки генераторов и модернизации систем бесперебойного питания отклонялись только из-за того, что ответственный менеджер не мог объяснить их необходимость для бизнеса. Обращаем внимание: доводы и оценки потерь от простоя должны быть реалистичными. Косвенные затраты сложно рассчитать, что влечет за собой кажущуюся простоту выбора, однако порой аварийные отключения сигнализируют только о недостаточном внимании к проработке доступной информации. Даже самые наивные руководители не склонны к принятию нереалистичных гипотез. Оценка издержек простоя ЦОД должна быть адекватной.

5. К каким косвенным затратам может привести аварийная остановка ЦОД?

Ответ на этот вопрос может значительно отличаться от организации к организации. Очень сложно рассчитать такие затраты от таких факторов, как потеря производительности, потеря конкурентного преимущества, снижение потребительской лояльности, штрафные санкции и прочие типы издержек.

6. Применяете ли вы документирование процессов и процедур для уменьшения фактора человеческой ошибки в ЦОД? Если да, то уверены ли вы, что они соблюдаются?

Согласно последней статистике Uptime Institute, около 73% отказов ЦОД были продиктованы человеческим фактором. До тех пор, пока мы не сможем заменить всех людей машинами, единственный способ работать с этой проблемой – иметь четко определенные процессы и процедуры. Тот факт, что данная статистика не демонстрирует тенденций к улучшению с течением времени, говорит о том, что большинству организаций по-прежнему предстоит большой объем работ в этом направлении. Внедрение данных регламентов является критическим пунктом. Многие компании имеют проработанные системы процедур, но при этом не отслеживают их исполнение.

7. Интегрирована ли политика безопасности ЦОД в политику безопасности вашего бизнеса?

Мы можем написать отдельную статью на эту тему (и одна из них сейчас в работе), но сформулируем вкратце: теперь, когда службы ИТ и эксплуатации инженерных систем выясняют как наилучшим образом взаимодействовать внутри ЦОД, самое время службе ИТ и службе внутренней безопасности сделать то же самое. Одной из распространенных проблем, которую мы наблюдаем, связана с ситуаций, когда корпоративная система безопасности физического доступа должна работать в помещении ЦОД по стандартам, отличными от применяемых стандартов в остальной части компании. Построить взаимодействие корпоративной безопасности и эксплуатации ЦОД, или хотя бы наладить обмен данными, как правило, весьма проблематично.

8. Имеете ли вы структурированный, функционирующий процесс определения того, какие приложения работают только на базе локального ЦОД, в условиях коллокации ЦОД, через общедоступное «облако»?

Поскольку требования вашего бизнеса все время меняются, ваши приложения и ресурсы тоже должны меняться, что удовлетворять этим требованиям. Все приложения, запущенные в ЦОД, должны оцениваться и пересматриваться как минимум ежегодно, если не чаще, и наиболее подходящий вид инфраструктуры должен быть определен для каждого приложения на основании требований надежности, производительности и с учетом требований безопасности вашего бизнеса.

9. Какая у вас стратегия безопасности в отношении Интернета Вещей (IoT)? Разработан ли план действий на случай инцидентов?

Сейчас, когда большинство компаний решили проблему угрозы от использования персональных устройств в рабочих целях (BYOD), IoT-устройства, вероятно, являются следующей основной категорией для отслеживания и мониторинга. Как мы уже смогли убедиться, многие организации контролируют активности на уровне стека приложений, в то время как IoT-устройства остаются без наблюдения и защиты. Эти устройства играют критическую роль в физической инженерной инфраструктуре (электроснабжении, охлаждении), которая обеспечивает жизнедеятельность ИТ-систем. Отсутствие решения по их мониторингу и защите увеличивает риск аварийного отключения ЦОД.

10. Как у вас организован процесс организации непрерывности работы бизнеса и восстановления работоспособности в случае форс-мажорных ситуаций?

И вытекающий из этого вопрос: Знает ли ваш персонал, где ему следует находиться, и что ему следует делать в случае возникновения критической внештатной ситуации в ЦОД? Отрабатывался ли данный план действий на практике? Опять же, ключ ко всему – процессы. Основная масса организаций, с которыми мы консультируемся, внедрили, применяют и документируют эти процессы. Основной проблемой снова является человеческий фактор: зачастую персонал не располагает полной информацией о процессах, а если и знает о них, то никогда не отрабатывали их на практике в целях сохранения бдительности и осознанного принятия решений в случае возникновения реального инцидента.

Существует масса других актуальных вопросов, но мы верим, что данный список отражает самые большие риски и обладает наибольшим влиянием на эффективность эксплуатации ИТ-систем в ЦОД. Можете ли вы полностью и подробно ответить на все эти вопросы применительно к вашей компании? Если нет, то пришло время искать ответы.


Другие Статьи: