Компания NVIDIA представила новое программное обеспечение с открытым кодом, предназначенное для операторов дата-центров. Оно позволит получать детализированную информацию о тепловом режиме и других рабочих характеристиках ускорителей искусственного интеллекта. Ожидается, что это поможет в решении вопросов, связанных с перегревом и надёжностью аппаратного обеспечения, продлив срок его службы и повысив эффективность. NVIDIA особо отмечает, что сбор телеметрических данных осуществляется только в режиме чтения, без какого-либо контроля над оборудованием, а в ПО отсутствуют «аварийные выключатели» и скрытые уязвимости. Кроме того, использование этого решения является полностью добровольным.
Данное ПО предоставляет специалистам дата-центров возможность мониторить энергопотребление, уровень загрузки, пропускную способность памяти и другие критически важные показатели для всего парка ускорителей. Это способствует раннему обнаружению потенциальных рисков, проблемных компонентов и нештатных условий эксплуатации, а также позволяет отслеживать использование ИИ-ускорителей, их настройки и возникающие сбои. Как заявляет компания, детальный сбор телеметрии приобретает всё большее значение для планирования и администрирования крупномасштабных инфраструктур. Новое программное обеспечение обеспечит следующие возможности:
- контролировать резкие изменения в энергопотреблении для соблюдения установленных лимитов и достижения максимальной производительности на ватт;
- отслеживать уровень загрузки, пропускную способность памяти и состояние межсоединений во всём парке оборудования;
- заранее выявлять локальные перегревы и нарушения воздушного потока, чтобы предотвратить снижение производительности (троттлинг) и ускоренный износ компонентов;
- проверять единообразие программных конфигураций и настроек для обеспечения воспроизводимости результатов и стабильной работы;
- обнаруживать ошибки и аномалии, а также заранее идентифицировать компоненты, выходящие из строя.
Источник изображения: NVIDIA
Подобный мониторинг становится особенно актуальным в свете недавнего отчёта исследователей из Принстонского университета. В нём указывается, что интенсивные тепловые и электрические нагрузки могут сократить срок службы чипов для ИИ до одного-двух лет, в то время как обычно предполагается их стабильная работа в течение примерно трёх лет. Современные ускорители потребляют 700 Вт и более, а высокоплотные системы — от 6 кВт. Это приводит к образованию зон перегрева, колебаниям энергопотребления и повышает риск деградации межсоединений в высокоплотных серверных стойках.
Системы телеметрии, дающие возможность отслеживать энергопотребление в режиме реального времени, состояние соединений, систем воздушного охлаждения и других параметров, открывают путь от реагирования на проблемы к их предупреждению на этапе планирования. Это позволяет распределять вычислительные задачи с учётом температурных условий, ускорять внедрение жидкостного или комбинированного охлаждения, а также оптимизировать функционирование сетей, снижая уровень тепловыделения.
Кроме того, специализированное программное обеспечение помогает операторам дата-центров обнаруживать скрытые неполадки, возникающие из-за несовместимости версий микропрограмм или драйверов. Это способствует повышению общей надёжности всего парка ускорителей. Оперативная передача данных о сбоях и текущем состоянии компонентов также может существенно сократить среднее время на восстановление работоспособности и упростить расследование инцидентов. Полученная информация влияет на принятие решений по инвестициям в инфраструктуру и её долгосрочному развитию на корпоративном уровне.
Источник изображения: NVIDIA
Как отмечают аналитики Gartner, современный искусственный интеллект превратился в «прожорливого и сильно греющегося монстра», что подрывает экономику и меняет принципы функционирования дата-центров. В связи с этим компаниям требуются специальные средства мониторинга и управления, чтобы удерживать ситуацию под контролем. В ближайшей перспективе применение подобных инструментов, скорее всего, станет необходимым стандартом. Также полная прозрачность в отношении всего парка оборудования становится ключевым аргументом для обоснования увеличения бюджетов на ИИ-инфраструктуру.
По мнению специалистов, такие программные решения позволяют оптимизировать капитальные и операционные расходы на дата-центры и сопутствующую инфраструктуру, запланированные на следующие годы. «Каждый доллар и каждый ватт» должны быть использованы с максимальной эффективностью.
Источники: