Глобальный отраслевой альянс IOWN (Innovative Optical and Wireless Network Global Forum), как сообщает издание Blocks & Files, представил идею географически распределённой вычислительной платформы. Она подразумевает физическое разнесение дата-центров с кластерами GPU-ускорителей и All-Flash систем хранения данных. Подобный подход, как предполагается, сделает процесс обучения крупных ИИ-моделей более экономически выгодным.
Альянс IOWN был создан в январе 2020 года компаниями NTT, Intel и Sony. Его деятельность сосредоточена на создании коммуникационной и вычислительной инфраструктуры нового поколения, основанной на фотонных технологиях. На сегодняшний день в консорциум входит свыше 170 компаний и организаций, среди которых Microsoft, NVIDIA, Cisco, Nokia, Samsung, Fujitsu, KDDI, Orange, Red Hat и другие.
Участники IOWN отмечают, что нехватка и высокая цена электроэнергии в городах создают препятствия для развёртывания ЦОД, предназначенных для ИИ. При этом информация, необходимая для обучения искусственного интеллекта, обычно генерируется и сохраняется именно в мегаполисах, и её перенос в регионы с дешёвой энергией не всегда практичен. В качестве альтернативы IOWN предлагает размещать дата-центры с графическими ускорителями в удалённых районах, соединяя их через полностью фотонную сеть (APN) с системами хранения, расположенными в городской черте.
Источник изображения: IOWN
Предложенная концепция предполагает использование одномодового оптического волокна (SMF) со скоростью передачи 100 Гбит/с, а также технологии NFS over RDMA/ТСР. В тестовой системе были задействованы All-Flash хранилище NetApp и большая языковая модель Tsuzumi, созданная японским телекоммуникационным гигантом NTT. Благодаря прямому подключению GPU-серверов к хранилищу NetApp, время обучения модели Tsuzumi в географически распределённой системе на базе APN увеличилось менее чем на 1% по сравнению с использованием традиционной инфраструктуры. При этом дистанция между удалёнными площадками может составлять до 3000 км. Детали проекта изложены в отчёте «Green Computing with Remote GPU over APN (tsuzumi-7B)».
Стоит обратить внимание, что крупнейшие облачные провайдеры уже начали обучать модели искусственного интеллекта в распределённых дата-центрах, хотя в большинстве случаев речь идёт о создании плотных ИИ-кластеров, а не о территориальном разделении систем хранения и вычислительных ресурсов. По сложившейся практике, операторы предпочитают располагать дата-центры в пределах 60 километров друг от друга, в то время как NetApp и NTT заявляют о возможности работы на дистанциях в тысячи километров.
Источник: