ОС и софт

SK hynix создала гибрид HBM и флеш-памяти для ускорения нейросетей

Как сообщает издание Blocks & Files, специалисты SK hynix представили идею гибридной памяти, где на одном интерпозере совмещаются чипы HBM (High Bandwidth Memory) и высокоскоростная флеш-память HBF (High Bandwidth Flash). По задумке, это решение будет интегрироваться с графическими процессорами для ускорения операций вывода в системах искусственного интеллекта.

Современные GPU для ИИ-ускорения обычно используют высокопроизводительную память HBM. Однако её объём ограничен, что замедляет процесс инференса, вынуждая обращаться к более медленным твердотельным накопителям. SK hynix предлагает решить эту проблему с помощью гибридной архитектуры HBM/HBF, получившей название H3.

Конструкция HBF предполагает вертикальную компоновку кристаллов NAND поверх логического чипа. Вся сборка размещается на интерпозере рядом с контроллером памяти, а также GPU, CPU, TPU или SoC — в зависимости от конечного устройства. В архитектуре H3 на том же интерпозере дополнительно располагается стек HBM. Хотя доступ к HBF происходит медленнее, чем к HBM, он всё же значительно быстрее, чем к обычным SSD. Это позволяет использовать HBF в качестве высокоскоростного кэша большой ёмкости.

 Источник изображения: SK hynix

Источник изображения: SK hynix

По данным SK hynix, массивы HBF могут обладать ёмкостью в 16 раз большей, чем HBM, при сопоставимой пропускной способности. В то же время, у HBF ниже устойчивость к записи, энергопотребление может быть выше до 4 раз, а задержки при доступе — больше. HBF выдерживает примерно 100 тысяч циклов перезаписи, что делает её оптимальной для задач с высокой нагрузкой на чтение. Как утверждается, такая гибридная система позволит эффективно выполнять инференс на больших языковых моделях (LLM) с огромным числом параметров.

В рамках исследования технологии H3, выполненного инженерами SK hynix, анализировалась работа ускорителя NVIDIA Blackwell B200, оснащённого восемью модулями HBM3E и таким же числом модулей HBF. При оценке скорости обработки токенов в секунду система с памятью H3 продемонстрировала прирост производительности в 1,25 раза для 1 миллиона токенов и в 6,14 раза для 10 миллионов токенов относительно решений, использующих исключительно чипы HBM. Кроме того, зафиксировано увеличение энергоэффективности на 2,69 раза в расчёте на каждый ватт потребляемой мощности по сравнению с конфигурациями без HBF. Также комбинация HBM и HBF способна обслуживать в 18,8 раз больше параллельных запросов, чем система только на HBM.

Источник:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории
Популярные новости