ДОКУМЕНТИРОВАНИЕ ИНЖЕНЕРНОЙ, ТЕЛЕКОМ- И ИТ-ИНФРАСТРУКТУРЫ

Влияние систем искусственного интеллекта на проектирование и эксплуатацию ЦОД

Главная / О нас /публикации /

Как подготовить дата-центр к растущим ИИ-нагрузкам

Бурный рост систем ИИ требует от операторов дата-центров пересмотра подходов к их проектированию и эксплуатации. В статье рассказывается о том, как грамотно организованный технический учет может помочь операторам ЦОД успешно справиться со стремительно растущим спросом на вычислительные ресурсы.

Скачать статью в формате PDF

Вместо предисловия

Широкое внедрение систем искусственного интеллекта — особенно в части обучения и развертывания больших языковых моделей — вызовет резкий рост потребности в вычислительных ресурсах ЦОД, электро- и холодоснабжении. По сравнению с относительно стабильными и предсказуемыми корпоративными нагрузками ИИ-системам требуется в 20-50 раз больше вычислительной мощности. Такая ситуация требует пересмотра подходов к проектированию ЦОД в направлении более гибких, модульных, энергоэффективных концепций.

Параллельно с увеличением нагрузки со стороны систем искусственного интеллекта стремительно увеличивается объем данных, генерируемых пользователями.

На фоне этих процессов значение ЦОД как крайне важных элементов социально-экономической инфраструктуры заметно усиливается.  Однако усиление зависимости экономической деятельности и социальной жизни от дата-центров порождает инфраструктурные риски в виде дефицита электроэнергии и ужесточения технических требований.

Компании, которые уже сейчас задумаются об этих факторах и примут необходимые меры, смогут обуздать расходы, повысить эффективность использования имеющихся ресурсов и подготовить свои дата-центры к резко увеличивающимся нагрузкам.

Масштаб стоящих перед операторами центров обработки данных задач диктует необходимость применения специализированных инструментов для технического учета и управления инфраструктурой ЦОД (DCIM). Современные DCIM-решения дают точную, актуальную и детальную информацию о вычислительном оборудовании, инженерных и кабельных системах. Наличие полной и ясной картины о том, что/где/в каком количестве имеется, позволяет адекватно оценивать ситуацию, принимать грамотные решения, минимизировать ошибки при планировании, своевременно проводить необходимые мероприятия. DCIM-инструменты помогают операторам сократить неиспользуемые мощности, повысить энергоэффективность и поддерживать бесперебойную работу даже при всплесках нагрузки.

Искусственный интеллект стимулирует инновации, но подрывает устоявшиеся подходы и практики. Те компании, которые заблаговременно внедрят правильные инструменты, чтобы оказаться во всеоружии перед лицом надвигающихся вызовов, обеспечат себе долгосрочную конкурентоспособность в эру господства нейросетей.

Основные тезисы

ИИ крайне «прожорлив»:
Системы ИИ создают нагрузку, в десятки раз превышающую текущую, что вызывает необходимость в изменении подхода к проектированию и эксплуатации дата-центров.

Мощность на стойку – на взлёт:
В обозримом будущем мощность на стойку может увеличиться с 5-8 кВт до 30-70 кВт, а в долгосрочной перспективе – до 300 кВт.

Энергосети сдерживают рост:
Дефицит мощности создает риски для развития.

DCIM-инструменты помогут справиться с вызовами
Детальный и всеобъемлющий технический учет, моделирование и управление жизненным циклом позволят подготовиться к нагрузкам, создаваемым ИИ.

Действующие на опережение окажутся в выигрыше
Тот, кто своевременно наладит технический учет, сократит затраты, выдержит пиковые нагрузки и обеспечит высокую доступность услуг ЦОД.


ИИ – фактор кардинальных изменений для ЦОД

Высокая энергетическая плотность ИТ-оборудования

Сегодня типовая стойка потребляет 5–8 кВт. Скоро стойки будут потреблять 30-70 кВт, а в перспективе высоконагруженным стойкам с GPU-серверами, которые нужны для обучения ИИ-моделей, будет требоваться до 300 кВт.

Большой траффик данных

Коммерческая эксплуатация ИИ-моделей связана с необходимостью обеспечения бесперебойного трафика больших объемов данных, что серьезно нагружает системы хранения данных и сетевую инфраструктуру.

Сложности масштабирования

Обучение моделей связано с непродолжительными пиковыми нагрузками, тогда как для их эксплуатации (инференса) не требуется энергоемких ИТ-ресурсов. Такая ситуация усложняет прогнозирование и чревато избытком или нехваткой ресурсов.

Возросшая значимость ЦОД

Дата-центры – уже не просто фундамент облачной инфраструктуры. Они становятся «фабриками ИИ», от которых будут зависеть технологическое лидерство и экономическая конкурентоспособность предприятий. Для удовлетворения взрывного спроса на вычисления им нужно своевременно провести подготовительные мероприятия.

ЦОД становятся «фабриками ИИ», от которых будут зависеть технологическое лидерство и экономическая конкурентоспособность предприятий.

Тенденции развития отрасли ЦОД 

Рост популярности искусственного интеллекта вызывает тектонические изменения в отрасли ЦОД, которые из рядовых элементов облачной инфраструктуры превращаются в «фабрики искусственного интеллекта» – объекты следующего поколения, рассчитанных на эксплуатацию крайне энергоемких кластеров GPU-серверов. Эти объекты требуют беспрецедентного уровня вычислительной плотности, энергоснабжения и охлаждения.

В соответствии с прогнозами к 2028 году инвестиции в центры обработки данных во всем мире превысят 500 млрд долларов. Лидерами в гонке за инфраструктуру для ИИ являются Соединенные Штаты и Европа.

В США доходы отрасли ЦОД в начале 2020-х годов составляли от 103 до 208 млрд долларов США, а к 2030 году, как ожидается, достигнут 158–309 млрд долларов, что соответствует среднегодовому темпу роста (CAGR) около 6–7%.

Рынок ЦОД в Европе растет еще быстрее: его оценка в начале 2020-х составляла приблизительно 55–87 млрд долларов США, а к 2030–2032 годам, по прогнозам, достигнет 123–189 млрд долларов при среднегодовом темпе роста 10–13%. 

В России отрасль ЦОД также стремительно развивается. Увеличивается как общее число ЦОД, так и масштабы отдельных объектов. И благодаря усилению интереса к системам, использующим искусственный интеллект, которым требуется все больше ресурсов ЦОД, цифры в прогнозах также непрерывно растут.

Одним из ключевых показателей ширящегося внедрения ИИ-систем служит быстрое увеличение объема потребляемой ими электроэнергии. Так, на системы ИИ в 2023 году пришлось 4,3 ГВт (или 8%) мощности ЦОД. К 2028 году этот показатель может достичь 20 ГВт (20%) при среднегодовом росте на 26–36%.

Эти цифры демонстрируют как масштаб, так и сложность инфраструктурных изменений. Строительство и эксплуатация ЦОД для систем искусственного интеллекта требуют не только капитальных вложений, но и соответствующего проектирования, грамотного подхода к использованию ресурсов и применения передовых практик управления инфраструктурой.

Масштаб стоящих перед операторами ЦОД задач диктует необходимость применения специализированных инструментов для технического учета и управления инфраструктурой дата-центров (DCIM).


Основные вызовы для операторов ЦОД

Энергоснабжение и охлаждение

GPU-кластеры, необходимые для систем ИИ, потребляют значительно больше электроэнергии, чем традиционное оборудование, поэтому затраты на электроэнергию становятся ключевым элементом эксплуатационных расходов ЦОД.

Энергоемкие кластеры ИИ создают повышенную нагрузку на энергосети в местах высокой концентрации ЦОД, что может привести к проблемам, связанным с дефицитом электроэнергии.

Традиционные системы воздушного охлаждения подходят к пределу своих возможностей. Дальше – только жидкостное охлаждение.

Прогнозирование нагрузок и баланс генерация/потребление

По прогнозам Международного энергетического агентства (МЭА) к 2030 году мировое потребление электроэнергии дата-центрами увеличится в два раза. Это кратно превышает темпы роста общемирового потребления электроэнергии, а соответственно и темпы наращивания энергогенерации.

В России темпы увеличения генерации также существенно отстают от потребностей отрасли: по прогнозам спрос со стороны ЦОД растет на 30–40% в год, тогда как предложение генерации — лишь на 2–4% в год.

Более быстрый рост потребностей ЦОД по сравнению с ростом генерации создает сложности с долгосрочным планированием расширений и модернизаций инфраструктуры.

Чтобы эти факторы не привели к замедлению развития дата-центров и темпов внедрения передовых ИИ-систем, возможны два решения: строительство новых объектов преимущественно в местах с профицитом электроэнергии и развитие систем локальной генерации.

Сетевая инфраструктура

Искусственный интеллект создает значительный внутренний трафик в центре обработки данных. Для работы систем, требующих минимальных задержек, необходима высокоэффективная организация кабельной, коммутационной и периферийной инфраструктуры.

По мере распространения ИИ нагрузка на сетевую инфраструктуру будет продолжать расти, что потребует увеличения пропускной способности, новых сетевых топологий и систем мониторинга.

Сложности учета и кадровые проблемы

В современных ЦОД эксплуатируются миллионы взаимосвязанных активов с разными жизненными циклами. При отсутствии их комплексного технического учета в ситуациях высокой энергетической плотности стоек, частых обновлений оборудования и изменений взаимозависимостей повышается риск сбоев и снижения эффективности.

Параллельно с этим операторы ЦОД сталкиваются с нехваткой квалифицированных специалистов. Многие объекты работают в режиме минимальной укомплектованности персоналом — этого достаточно для поддержания работоспособности, но недостаточно для модернизации, оптимизации и стратегических преобразований. 

Почему без DCIM-инструментов не обойтись

Решение задач, связанных с ИИ-нагрузками, требует не только обновления и изменения конфигурации оборудования и пространства ЦОД. Необходим комплексный подход, обеспечивающий прозрачность, контроль и оперативность на всех уровнях дата-центра. Эти возможности предоставляют программные решения для управления инфраструктурой.

Исчерпывающая информация

Центры обработки данных – это высокосложные экосистемы, где тесно переплетены технологические подсистемы. DCIM-инструменты позволяет получить детальную и исчерпывающую информацию обо всех объектах учета, благодаря чему специалисты ЦОД могут видеть взаимосвязи, выявлять риски, понимать, что/где/в каком количестве имеется, обкатывать планируемые изменения в цифровой среде. Это кратно повышает качество принимаемых решений относительно инфраструктуры.

Планирование мощностей

Нагрузки, связанные с искусственным интеллектом, отличаются непредсказуемостью: на этапе обучения моделей они пиковые, а в ходе эксплуатации (инференса) – относительно невысокие. Функции планирования DCIM-системы позволяют заранее отработать различные сценарии, чтобы обеспечить баланс мощностей и нагрузок без избыточных расходов. Решение помогает сократить объем неиспользуемых ресурсов и одновременно свести риск недостаточного уровня производительности к минимуму.

Рост эффективности

Анализ размещения оборудования в стойках, конфигурации кабельных линий, электрической нагрузки и холодопроизводительности, выполненный с помощью DCIM-системы, способствует выявлению зон неполного или нерационального использования мощностей. Полученные данные позволяют оптимизировать заполнение стоек и перераспределить нагрузку. Как результат - более эффективное использование имеющихся ресурсов, снижение расходов на электроэнергию и перенос капитальных вложений на более поздний срок.


Техническое регулирование

Требования регулирующих органов и экологические стандарты постепенно ужесточаются. DCIM-система, благодаря функциям документирования и формирования отчетности, позволяет подтверждать соответствие техническим требованиям, нормам безопасности и операционным стандартам. Это не только снижает риски при аудитах, но и повышает прозрачность для заинтересованных лиц и клиентов.

Управление жизненным циклом

Оборудование для ИИ, такое как GPU-серверы, имеет иные сроки эксплуатации чем традиционные устройства. DCIM-система позволяет отслеживать полный жизненный цикл каждого актива — от закупки до вывода из эксплуатации. Это обеспечивает своевременное обновление, уменьшает вероятность снижения производительности и предотвращает сбои.


Оптимизация энергопотребления

Поскольку энергопотребление является ключевой статьей расходов ЦОД, критически важно отслеживать в реальном времени электрическую и тепловую нагрузку. DCIM-система позволяет динамически распределять ресурсы, выявлять точки недостаточной энергоэффективности.

Все вышеупомянутые возможности делают DCIM-систему единым источником достоверной информации как для ИТ-отдела, так и для эксплуатационной службы. Это позволяет операторам ЦОД работать более эффективно уже сегодня и одновременно готовиться к созданию высокорентабельных, масштабируемых дата-центров для систем искусственного интеллекта.

Несмотря на то, что DCIM-система закладывает основу для эффективности и контроля, для раскрытия ее полного потенциала необходима структурированная стратегия преобразований. Ниже описана последовательность шагов, которые помогут операторам трансформировать свои ЦОД под работу с ИИ-системами.

DCIM-система является единым источником точной и актуальной информации для всех служб дата-центра.

План подготовки ЦОД к новым нагрузкам

Невозможно подготовить ЦОД к работе с ИИ, действуя точечно и импульсивно. Достижение данной цели требует продуманного поэтапного подхода, обеспечивающего баланс между немедленным повышением эффективности и масштабируемостью и устойчивостью в долгосрочной перспективе. Структурированный план позволит модернизировать существующие ЦОД и подготовить их к быстро растущим ИИ-нагрузкам.

Оцените текущее положение дел

Сначала необходимо получить ясную картину имеющейся инфраструктуры. Всесторонний аудит энергопотребления, охлаждения, использования пространства и соединений поможет выявить скрытые ограничения и нехватку или избыток ресурсов. Такая оценка позволит принять обоснованные решения о том, какие системы можно оптимизировать, какие требуют модернизации и где новые капиталовложения принесут наибольшую отдачу.

Результат: Количественная оценка готовности, которая послужит основой для планирования капитальных затрат и снижения рисков.

Соберите полную информацию обо всех объектах и системах ЦОД

Ясность — залог успешного решения возможных проблем. Внедрение DCIM-системы позволяет закрыть вопрос с инвентаризацией, учетом и контролем инженерного и ИТ-оборудования. Аккумулирование данных в одной системе помогает выявить взаимозависимости, которые часто остаются в «мертвой зоне» в разрозненных системах, и позволяет операторам увидеть слабые места в планируемых изменениях.

Результат: Единый достоверный источник информации для операционной деятельности и планирования.

Повысьте эффективность работы имеющихся систем

Прежде чем наращивать мощности, следует в первую очередь оптимизировать использование имеющихся систем. Анализ собранных данных позволит при необходимости скорректировать плотность размещения оборудования в стойках и сбалансировать энергопотребление. Целенаправленная работа по оптимизации пространства, кабельных подключений и холодопроизводительности приведёт к ощутимому повышению показателя эффективности использования энергии (PUE) и снижению операционных расходов без крупных капиталовложений.

Результат: Снижение энергопотребления, сокращение операционных расходов и отсрочка капитальных затрат.

Проводите масштабирование, опираясь на полные и актуальные данные о своей инфраструктуре

После оптимизации использования имеющихся ресурсов в результате аудита можно приступать к подготовке архитектуры к предстоящим нагрузкам. Постепенное расширение без масштабных модернизаций может быть проведено за счет модульного подхода и применения гибридных систем охлаждения.

Моделирование запланированных изменений в цифровой модели ЦОД облегчит стратегическое планирование и позволит убедиться в том, что ЦОД готов к размещению оборудования нового поколения и изменению профиля нагрузок.

Результат: Инфраструктура способна гибко адаптироваться к новым технологиям и ужесточающимся техническим требованиям.

От реагирования к предупреждению

Такая стратегия поможет заблаговременно подготовиться к грядущим изменениям, связанным с распространением ИИ. Каждый этап строится на основе предыдущего: аудит дает ясную информационную картину, ясность позволяет повысить эффективность, эффективность способствует грамотному масштабированию, а все три этапа закладывают основу для устойчивого роста. Такой системный подход позволяет удовлетворять сегодняшние потребности, и параллельно готовить инфраструктуру к вызовам завтрашнего дня.

К ИИ-нагрузкам будь готов!

Искусственный интеллект стимулирует инновации, но подрывает устоявшиеся подходы и практики. Стойки становятся более энергоемкими, нагрузки – минее предсказуемыми. С одной стороны это создает новые проблемы для операторов ЦОД, но с другой стороны открывает огромные возможности для тех, кто проявит дальновидность.

Компании, которые заблаговременно наведут порядок в техническом учете своей инфраструктуры, оптимизируют использование ресурсов, сэкономят на закупках нового оборудования, сократят эксплуатационные расходы. Те, кто медлит, рискуют отстать, поскольку использование ИИ становится повсеместным, а проблема ограниченности ресурсов обостряется.

В конечном счете ЦОД будущего будет определяться не только его оборудованием, но и способностью его персонала успешно управлять гибридной инфраструктурой. Именно здесь комплексные системы технического учета инфраструктуры ЦОД — такие, как DCIM-система компании «СДИ Софт» — могут оказать неоценимую помощь.

О компании «СДИ Софт»

ООО «СДИ Софт» – российский разработчик программного обеспечения. Компания основана в 2018 году группой экспертов в области технического учета инфраструктуры.

В 2019 году компания предложила российским предприятиям систему документирования инфраструктуры «Базис». Данное решение позволяет навести порядок в учете ИКТ-ресурсов и сформировать основу для эффективного управления гибридной инфраструктурой и бесперебойной работы сервисов. Целевыми пользователями СДИ «Базис» являются компании и госструктуры, критично зависящие от ИТ-систем и обеспечивающей ИТ-инфраструктуры, в т.ч. операторы ЦОД.

Продукт зарегистрирован в реестре российских программ для электронных вычислительных машин и баз данных Минкомсвязи РФ (рег. № 6395). В рамках импортозамещения СДИ «Базис» является полноценной альтернативой для решений следующих иностранных разработчиков: FNT Software, Sunbird Software, Vertiv, Schneider Electric, Cormant.

За прошедшее время успешно реализовано несколько крупных проектов поставки решения в коммерческом и государственном секторах, в том числе в странах СНГ.