Как
подготовить дата-центр к растущим ИИ-нагрузкам
Бурный рост
систем ИИ требует от операторов дата-центров пересмотра подходов к их
проектированию и эксплуатации. В статье
рассказывается о том, как грамотно организованный технический учет может помочь
операторам ЦОД успешно справиться со стремительно растущим спросом на
вычислительные ресурсы.
Скачать статью в формате PDF
Вместо предисловия
Широкое внедрение систем искусственного интеллекта —
особенно в части обучения и развертывания больших языковых моделей —
вызовет резкий рост потребности в вычислительных ресурсах ЦОД, электро- и
холодоснабжении. По сравнению с относительно стабильными и предсказуемыми
корпоративными нагрузками ИИ-системам требуется в 20-50 раз больше
вычислительной мощности. Такая ситуация требует пересмотра подходов к
проектированию ЦОД в направлении более гибких, модульных, энергоэффективных
концепций.
Параллельно с увеличением нагрузки со стороны систем
искусственного интеллекта стремительно увеличивается объем данных, генерируемых
пользователями.
На фоне этих процессов значение ЦОД как крайне важных
элементов социально-экономической инфраструктуры заметно усиливается. Однако усиление зависимости экономической
деятельности и социальной жизни от дата-центров порождает инфраструктурные
риски в виде дефицита электроэнергии и ужесточения технических требований.
Компании, которые уже сейчас задумаются об этих факторах и
примут необходимые меры, смогут обуздать расходы, повысить эффективность
использования имеющихся ресурсов и подготовить свои дата-центры к резко
увеличивающимся нагрузкам.
Масштаб стоящих перед операторами центров обработки данных задач
диктует необходимость применения специализированных инструментов для технического учета и управления инфраструктурой ЦОД (DCIM).
Современные DCIM-решения
дают точную, актуальную и детальную информацию о вычислительном оборудовании,
инженерных и кабельных системах. Наличие полной и ясной картины о том,
что/где/в каком количестве имеется, позволяет адекватно оценивать ситуацию,
принимать грамотные решения, минимизировать ошибки при планировании,
своевременно проводить необходимые мероприятия. DCIM-инструменты помогают
операторам сократить неиспользуемые мощности, повысить
энергоэффективность и поддерживать бесперебойную работу даже при всплесках
нагрузки.
Искусственный интеллект стимулирует инновации, но подрывает
устоявшиеся подходы и практики. Те компании, которые заблаговременно внедрят
правильные инструменты, чтобы оказаться во всеоружии перед лицом надвигающихся
вызовов, обеспечат себе долгосрочную конкурентоспособность в эру господства
нейросетей.
Основные тезисы
ИИ крайне «прожорлив»:
Системы ИИ создают нагрузку, в десятки раз превышающую текущую,
что вызывает необходимость в изменении подхода к проектированию и эксплуатации
дата-центров.
Мощность на стойку – на взлёт:
В обозримом будущем мощность на стойку может увеличиться с 5-8
кВт до 30-70 кВт, а в долгосрочной перспективе – до 300 кВт.
Энергосети сдерживают рост:
Дефицит мощности создает риски для развития.
DCIM-инструменты помогут справиться с вызовами
Детальный и всеобъемлющий технический учет, моделирование и управление
жизненным циклом позволят подготовиться к нагрузкам, создаваемым ИИ.
Действующие на опережение окажутся в выигрыше
Тот, кто своевременно наладит технический учет, сократит затраты,
выдержит пиковые нагрузки и обеспечит высокую доступность услуг ЦОД.

ИИ –
фактор кардинальных изменений для ЦОД
Высокая энергетическая плотность ИТ-оборудования
Сегодня типовая стойка потребляет 5–8 кВт. Скоро стойки будут
потреблять 30-70 кВт, а в перспективе высоконагруженным стойкам с GPU-серверами, которые нужны для
обучения ИИ-моделей, будет требоваться до 300 кВт.
Большой траффик данных
Коммерческая эксплуатация ИИ-моделей связана с необходимостью
обеспечения бесперебойного трафика больших объемов данных, что серьезно
нагружает системы хранения данных и сетевую инфраструктуру.
Сложности масштабирования
Обучение моделей связано с непродолжительными пиковыми
нагрузками, тогда как для их эксплуатации (инференса) не требуется энергоемких
ИТ-ресурсов. Такая ситуация усложняет прогнозирование и чревато избытком или
нехваткой ресурсов.
Возросшая значимость ЦОД
Дата-центры – уже не просто фундамент облачной инфраструктуры.
Они становятся «фабриками ИИ», от которых будут зависеть технологическое
лидерство и экономическая конкурентоспособность предприятий. Для удовлетворения
взрывного спроса на вычисления им нужно своевременно провести подготовительные
мероприятия.
ЦОД становятся «фабриками ИИ», от которых будут зависеть
технологическое лидерство и экономическая конкурентоспособность предприятий.
Тенденции развития отрасли ЦОД
Рост популярности искусственного интеллекта вызывает
тектонические изменения в отрасли ЦОД, которые из рядовых элементов облачной
инфраструктуры превращаются в «фабрики искусственного интеллекта» – объекты
следующего поколения, рассчитанных на эксплуатацию крайне энергоемких кластеров
GPU-серверов. Эти объекты требуют
беспрецедентного уровня вычислительной плотности, энергоснабжения и охлаждения.
В соответствии с прогнозами к 2028 году инвестиции в центры
обработки данных во всем мире превысят 500 млрд долларов. Лидерами в гонке за
инфраструктуру для ИИ являются Соединенные Штаты и Европа.
В США доходы отрасли ЦОД в начале 2020-х годов составляли от 103
до 208 млрд долларов США, а к 2030 году, как ожидается, достигнут 158–309 млрд
долларов, что соответствует среднегодовому темпу роста (CAGR) около 6–7%.
Рынок ЦОД в Европе растет еще быстрее: его оценка в начале
2020-х составляла приблизительно 55–87 млрд долларов США, а к 2030–2032 годам,
по прогнозам, достигнет 123–189 млрд долларов при среднегодовом темпе роста
10–13%.
В России отрасль ЦОД также стремительно развивается.
Увеличивается как общее число ЦОД, так и масштабы отдельных объектов. И
благодаря усилению интереса к системам, использующим искусственный интеллект,
которым требуется все больше ресурсов ЦОД, цифры в прогнозах также непрерывно
растут.
Одним из ключевых показателей ширящегося внедрения ИИ-систем
служит быстрое увеличение объема потребляемой ими электроэнергии. Так, на
системы ИИ в 2023 году пришлось 4,3 ГВт (или 8%) мощности ЦОД. К 2028 году этот
показатель может достичь 20 ГВт (20%) при среднегодовом росте на 26–36%.
Эти цифры демонстрируют как масштаб, так и сложность
инфраструктурных изменений. Строительство и эксплуатация ЦОД для систем
искусственного интеллекта требуют не только капитальных вложений, но и
соответствующего проектирования, грамотного подхода к использованию ресурсов и
применения передовых практик управления инфраструктурой.
Масштаб стоящих перед операторами ЦОД задач диктует
необходимость применения специализированных инструментов для технического учета и управления инфраструктурой дата-центров (DCIM).

Основные вызовы для операторов ЦОД
Энергоснабжение и охлаждение
GPU-кластеры,
необходимые для систем ИИ, потребляют значительно больше электроэнергии, чем
традиционное оборудование, поэтому затраты на электроэнергию становятся
ключевым элементом эксплуатационных расходов ЦОД.
Энергоемкие кластеры ИИ создают повышенную нагрузку на
энергосети в местах высокой концентрации ЦОД, что может привести к проблемам,
связанным с дефицитом электроэнергии.
Традиционные системы воздушного охлаждения подходят к пределу
своих возможностей. Дальше – только жидкостное охлаждение.
Прогнозирование нагрузок и баланс генерация/потребление
По прогнозам Международного энергетического агентства (МЭА) к 2030 году мировое потребление
электроэнергии дата-центрами увеличится в два раза. Это кратно превышает темпы
роста общемирового потребления электроэнергии, а соответственно и темпы
наращивания энергогенерации.
В России темпы увеличения генерации также существенно отстают от
потребностей отрасли: по прогнозам спрос со стороны ЦОД растет на 30–40% в год,
тогда как предложение генерации — лишь на 2–4% в год.
Более быстрый рост потребностей ЦОД по сравнению с ростом
генерации создает сложности с долгосрочным планированием расширений и
модернизаций инфраструктуры.
Чтобы эти факторы не привели к замедлению развития дата-центров
и темпов внедрения передовых ИИ-систем, возможны два решения: строительство
новых объектов преимущественно в местах с профицитом электроэнергии и развитие
систем локальной генерации.
Сетевая инфраструктура
Искусственный интеллект создает значительный внутренний
трафик в центре обработки данных. Для работы систем, требующих минимальных
задержек, необходима высокоэффективная организация кабельной, коммутационной и
периферийной инфраструктуры.
По мере распространения ИИ нагрузка на сетевую
инфраструктуру будет продолжать расти, что потребует увеличения пропускной
способности, новых сетевых топологий и систем мониторинга.
Сложности учета и кадровые проблемы
В современных ЦОД эксплуатируются миллионы взаимосвязанных
активов с разными жизненными циклами. При отсутствии их комплексного
технического учета в ситуациях высокой энергетической плотности стоек, частых
обновлений оборудования и изменений взаимозависимостей повышается риск сбоев и
снижения эффективности.
Параллельно с этим операторы ЦОД сталкиваются с нехваткой
квалифицированных специалистов. Многие объекты работают в режиме минимальной
укомплектованности персоналом — этого достаточно для поддержания
работоспособности, но недостаточно для модернизации, оптимизации и
стратегических преобразований.
Почему без DCIM-инструментов
не обойтись
Решение задач, связанных с ИИ-нагрузками, требует не только
обновления и изменения конфигурации оборудования и пространства ЦОД. Необходим
комплексный подход, обеспечивающий прозрачность, контроль и оперативность на
всех уровнях дата-центра. Эти возможности предоставляют программные решения для
управления инфраструктурой.
Исчерпывающая информация
Центры обработки данных – это высокосложные экосистемы, где
тесно переплетены технологические подсистемы. DCIM-инструменты позволяет получить детальную
и исчерпывающую информацию обо всех объектах учета, благодаря чему специалисты
ЦОД могут видеть взаимосвязи, выявлять риски, понимать, что/где/в каком
количестве имеется, обкатывать планируемые изменения в цифровой среде. Это
кратно повышает качество принимаемых решений относительно инфраструктуры.
Планирование мощностей
Нагрузки, связанные с искусственным интеллектом, отличаются
непредсказуемостью: на этапе обучения моделей они пиковые, а в ходе
эксплуатации (инференса) – относительно невысокие. Функции планирования DCIM-системы позволяют заранее
отработать различные сценарии, чтобы обеспечить баланс мощностей и нагрузок без
избыточных расходов. Решение помогает сократить объем неиспользуемых ресурсов и
одновременно свести риск недостаточного уровня производительности к минимуму.
Рост эффективности
Анализ размещения оборудования в стойках, конфигурации кабельных
линий, электрической нагрузки и холодопроизводительности, выполненный с помощью
DCIM-системы, способствует
выявлению зон неполного или нерационального использования мощностей. Полученные
данные позволяют оптимизировать заполнение стоек и перераспределить нагрузку.
Как результат -
более эффективное использование имеющихся ресурсов, снижение расходов на
электроэнергию и перенос капитальных вложений на более поздний срок.

Техническое регулирование
Требования регулирующих органов и экологические стандарты
постепенно ужесточаются. DCIM-система,
благодаря функциям документирования и формирования отчетности, позволяет
подтверждать соответствие техническим требованиям, нормам безопасности и
операционным стандартам. Это не только снижает риски при аудитах, но и повышает
прозрачность для заинтересованных лиц и клиентов.
Управление жизненным циклом
Оборудование для ИИ, такое как GPU-серверы, имеет иные сроки
эксплуатации чем традиционные устройства. DCIM-система позволяет отслеживать полный
жизненный цикл каждого актива — от закупки до вывода из эксплуатации. Это
обеспечивает своевременное обновление, уменьшает вероятность снижения
производительности и предотвращает сбои.

Оптимизация энергопотребления
Поскольку энергопотребление является ключевой статьей расходов
ЦОД, критически важно отслеживать в реальном времени электрическую и тепловую
нагрузку. DCIM-система
позволяет динамически распределять ресурсы, выявлять точки недостаточной
энергоэффективности.
Все вышеупомянутые возможности делают DCIM-систему единым источником достоверной
информации как для ИТ-отдела, так и для эксплуатационной службы. Это позволяет
операторам ЦОД работать более эффективно уже сегодня и одновременно готовиться
к созданию высокорентабельных, масштабируемых дата-центров для систем
искусственного интеллекта.
Несмотря на то, что DCIM-система
закладывает основу для эффективности и контроля, для раскрытия ее полного
потенциала необходима структурированная стратегия преобразований. Ниже описана
последовательность шагов, которые помогут операторам трансформировать свои ЦОД
под работу с ИИ-системами.
DCIM-система
является единым источником точной и актуальной информации для всех служб
дата-центра.
План подготовки ЦОД к новым нагрузкам
Невозможно подготовить ЦОД к работе с ИИ, действуя точечно и
импульсивно. Достижение данной цели требует продуманного поэтапного подхода,
обеспечивающего баланс между немедленным повышением эффективности и
масштабируемостью и устойчивостью в долгосрочной перспективе. Структурированный
план позволит модернизировать существующие ЦОД и подготовить их к быстро
растущим ИИ-нагрузкам.
Оцените текущее положение дел
Сначала необходимо получить ясную картину имеющейся
инфраструктуры. Всесторонний аудит энергопотребления, охлаждения, использования
пространства и соединений поможет выявить скрытые ограничения и нехватку или
избыток ресурсов. Такая оценка позволит принять обоснованные решения о том,
какие системы можно оптимизировать, какие требуют модернизации и где новые
капиталовложения принесут наибольшую отдачу.
Результат: Количественная оценка готовности, которая послужит основой для
планирования капитальных затрат и снижения рисков.
Соберите полную информацию обо всех объектах и системах ЦОД
Ясность — залог успешного решения возможных
проблем. Внедрение DCIM-системы позволяет закрыть вопрос с
инвентаризацией, учетом и контролем инженерного и ИТ-оборудования.
Аккумулирование данных в одной системе помогает выявить взаимозависимости,
которые часто остаются в «мертвой зоне» в разрозненных системах, и позволяет операторам
увидеть слабые места в планируемых изменениях.
Результат: Единый достоверный источник информации для операционной
деятельности и планирования.
Повысьте эффективность работы имеющихся систем
Прежде чем наращивать мощности, следует в первую очередь
оптимизировать использование имеющихся систем. Анализ собранных данных позволит
при необходимости скорректировать плотность размещения оборудования в стойках и сбалансировать энергопотребление. Целенаправленная работа по
оптимизации пространства, кабельных подключений и холодопроизводительности
приведёт к ощутимому повышению показателя эффективности использования энергии
(PUE) и снижению операционных расходов без крупных капиталовложений.
Результат: Снижение энергопотребления, сокращение операционных расходов и
отсрочка капитальных затрат.
Проводите масштабирование, опираясь на полные и актуальные
данные о своей инфраструктуре
После оптимизации использования имеющихся ресурсов в результате
аудита можно приступать к подготовке архитектуры к предстоящим нагрузкам.
Постепенное расширение без масштабных модернизаций может быть проведено за счет
модульного подхода и применения гибридных систем охлаждения.
Моделирование запланированных изменений в цифровой модели ЦОД
облегчит стратегическое планирование и позволит убедиться в том, что ЦОД готов
к размещению оборудования нового поколения и изменению профиля нагрузок.
Результат: Инфраструктура способна гибко адаптироваться к новым
технологиям и ужесточающимся техническим требованиям.
От реагирования к предупреждению
Такая стратегия поможет заблаговременно подготовиться к грядущим
изменениям, связанным с распространением ИИ. Каждый этап строится на основе
предыдущего: аудит дает ясную информационную картину, ясность позволяет
повысить эффективность, эффективность способствует грамотному масштабированию,
а все три этапа закладывают основу для устойчивого роста. Такой системный
подход позволяет удовлетворять сегодняшние потребности, и параллельно готовить
инфраструктуру к вызовам завтрашнего дня.
К ИИ-нагрузкам будь готов!
Искусственный интеллект стимулирует инновации, но подрывает
устоявшиеся подходы и практики. Стойки становятся более энергоемкими, нагрузки
– минее предсказуемыми. С одной стороны это создает новые проблемы для
операторов ЦОД, но с другой стороны открывает огромные возможности для тех, кто
проявит дальновидность.
Компании, которые заблаговременно наведут порядок в техническом
учете своей инфраструктуры, оптимизируют использование ресурсов, сэкономят на
закупках нового оборудования, сократят эксплуатационные расходы. Те, кто
медлит, рискуют отстать, поскольку использование ИИ становится повсеместным, а
проблема ограниченности ресурсов обостряется.
В конечном счете ЦОД будущего будет определяться не только его
оборудованием, но и способностью его персонала успешно управлять гибридной
инфраструктурой. Именно здесь комплексные системы технического учета
инфраструктуры ЦОД — такие, как DCIM-система
компании «СДИ Софт» — могут оказать неоценимую помощь.
О компании «СДИ Софт»
ООО «СДИ Софт» – российский разработчик программного
обеспечения. Компания основана в 2018 году группой экспертов в области
технического учета инфраструктуры.
В 2019 году компания предложила российским предприятиям систему
документирования инфраструктуры «Базис». Данное решение позволяет навести
порядок в учете ИКТ-ресурсов и сформировать основу для эффективного управления
гибридной инфраструктурой и бесперебойной работы сервисов. Целевыми
пользователями СДИ «Базис» являются компании и госструктуры, критично зависящие
от ИТ-систем и обеспечивающей ИТ-инфраструктуры, в т.ч. операторы ЦОД.
Продукт зарегистрирован в реестре российских программ для
электронных вычислительных машин и баз данных Минкомсвязи РФ (рег. № 6395). В
рамках импортозамещения СДИ «Базис» является полноценной альтернативой для
решений следующих иностранных разработчиков: FNT Software, Sunbird Software,
Vertiv, Schneider Electric, Cormant.
За прошедшее время успешно реализовано несколько крупных
проектов поставки решения в коммерческом и государственном секторах, в
том числе в странах СНГ.