Генеративные нейросети отличаются колоссальным энергопотреблением. Когда вы обращаетесь к Gemini, ChatGPT или Grok, серверы, обрабатывающие ваш запрос, тратят в 7–10 раз больше электричества по сравнению с обычным поисковым запросом. Согласно данным Google, её центры обработки данных за 2024 год выделили в атмосферу 30,8 ТВт·ч энергии — конечно, не только ради генерации картинок с котиками, но в значительной степени именно для выполнения задач ИИ. Международное энергетическое агентство предсказывает, что к 2030 году все дата-центры мира суммарно израсходуют 945 ТВт·ч электричества — примерно вдвое больше, чем в прошлом году. Если сейчас почти 1,5% всей мировой электроэнергии, вырабатываемой любыми способами, уходит на питание дата-центров, то уже через несколько лет эта доля достигнет 3%. И пока неясно, какие природные ограничения (кроме банальной нехватки мест для строительства новых электростанций) существуют для этого роста, ведь спрос на генеративные вычисления лишь увеличивается, несмотря на навязчивые опасения скептиков о скором лопании «пузыря ИИ». В 2025 году, по подсчётам Gartner, на серверы, оптимизированные для задач ИИ, приходилось 21% общего энергопотребления ЦОДов; к 2030 году эта цифра составит не менее 44%. Не слишком ли дорогую плату — в тераватт-часах — человечество вносит за возможность в любой момент, как только придёт в голову, спросить у нейросетей, будет ли скучать оставленный на столе бутерброд по своему создателю или как сочинить рэп-балладу о жизненном пути картофелины?
Во-первых, термодинамические вычислители выглядят просто великолепно (источник: Extropic)
Еще в 2019 году значительная группа ученых из Computing Community Consortium (CCC; Консорциум вычислительного сообщества — входит в Ассоциацию вычислительных исследований при поддержке американского Национального научного фонда) обратилась к мировой ИТ-индустрии с призывом обратить внимание на такую многообещающую для решения задач ИИ область, как термодинамические вычисления (thermodynamic computing). Этот подход поистине уникален: ведь начала термодинамики носят всеобщий характер и действуют независимо от того, какие именно физические объекты образуют ту или иную макроскопическую систему — вычислительную, в частности. Другими словами, и привычный полупроводниковый чип, и фотонный процессор, и даже квантовый компьютер, работающий на колебательных контурах микронных размеров, так или иначе подчиняются законам термодинамики. Так зачем же выделять термодинамические вычисления в отдельную категорию? Однако суть в том, что для всех перечисленных вычислительных систем проявления этих термодинамических начал в основном вредны: тепловые возмущения сбивают электроны с верного пути, нагрев оптических элементов приводит к их деформации и размыванию фотонных потоков, а о том, как сильно квантовые вычислители страдают от макроскопических несовершенств своих компонентов, мы уже не раз подробно рассказывали.
⇡#Вы просто не умеете правильно обращаться с теплотой
Основная концепция термодинамических вычислений базируется на известном афоризме: «Враг, который мешает, становится нашим союзником». Дело в том, что негативное влияние термодинамических эффектов на вычислительные процессы заключается не просто в настойчивом, а в неотвратимом привнесении случайной (стохастической) составляющей в изначально математически точные операции, выполняемые некой схемой. К счастливому совпадению, в наше время существует и активно применяется целый спектр вычислительных задач, где стохастика перестаёт быть досадной помехой и превращается в неотъемлемую часть главного, авторегрессионного, процесса. Речь идёт о тех самых генеративных моделях искусственного интеллекта, которые всё активнее поглощают энергетические ресурсы человечества. Не настал ли момент отказаться от искусственного, цифрового способа генерации случайных величин в памяти физических систем (и от огромных затрат энергии на охлаждение процессоров, которые их создают) — и начать получать необходимую долю случайности напрямую из природы; из теплового движения элементарных частиц, составляющих вычислительное устройство?
Принципиальная схема термодинамической вычислительной системы. В верхней части изображён классический компьютер: физическое устройство, выполняющее в цифровом пространстве безупречные (разумеется, с учётом неизбежных ошибок, возникающих из-за неидеальности его аппаратного обеспечения) математические расчёты. Такая машина полностью зависит от человека: лишь благодаря людям — проектирующим её логические схемы, готовящим и загружающим информацию — она взаимодействует с реальностью. В нижней части показан термодинамический вычислитель, имеющий прямой доступ к окружающей среде, не зависящий напрямую от человека (например, от разработчика микросхем или программиста). В ходе вычислений он проходит через сложную, многослойную, повторяющуюся и адаптивную эволюцию, которую люди способны лишь корректировать — устанавливая определённые рамки для его взаимодействия с внешней средой. Кроме того, ТДВ обеспечивает обратную связь с окружением, влияя на энергетические потенциалы, которые могут служить входными данными (источник: CCC)
«Настало время», — заключили в CCC и обнародовали своё представление о том, как термодинамические вычисления могут развиваться на благо планеты (чьи энергостанции, по мере совершенствования этих технологий, станут выделять в атмосферу меньше тепла, чем сегодня прогнозирует Международное энергетическое агентство) и её многочисленных поклонников искусственного интеллекта. Основная идея заключается в использовании естественных процессов неравновесной термодинамики для осуществления вычислительных операций по заданным алгоритмам, начиная с упомянутого ранее авторегрессионного метода. По оценкам учёных (а также первых практиков — термодинамические вычислители, ТДВ, уже выпускаются небольшими партиями, и вскоре мы о них расскажем), прирост производительности на каждый ватт потребляемой мощности составляет примерно стократную величину для большинства задач, требующих использования стохастики, и достигает почти 10000-кратного значения в ряде отдельных, особенно успешных случаев.
Подавляющее большинство современных компьютеров функционирует на основе архитектурных принципов фон Неймана, которые, по сути, отделяют ключевые компоненты вычислительного устройства — такие как блоки ввода-вывода, память и процессор — от физической среды их реализации. С одной стороны, такой подход оказывается крайне эффективным: благодаря ему алгоритмы, созданные ещё для релейных и ламповых машин, без особых сложностей были перенесены на полупроводниковые системы, сохраняющие ту же фундаментальную логическую архитектуру. С другой стороны, заложенная в принципах фон Неймана абстракция от деталей реализации структур на более низких уровнях вынуждает инженеров — как аппаратных, так и программных — придерживаться подхода грубой грануляризации (coarse-graining) при решении стоящих перед ними задач.
Наглядное изображение эффективности четырёх различных подходов к совершенствованию вычислений. Каждый подход затрагивает больше уровней вычислительной системы, чем предыдущий, и вносит в неё больше возмущений (disruption), влекущих за собой серьёзную перестройку аппаратно-программной архитектуры. Термодинамические вычисления, которые производятся вразрез с принципами фон Неймана, относятся к категории 4, так что для их внедрения придётся глубоко перелопатить все уровни существующей вычислительной архитектуры (источник: IEEE Rebooting Computing)
Сам по себе такой подход тоже вроде бы неплох: допустим, сумматор на основе штрихов Шеффера в составе очередного процессора можно предварительно спроектировать, имея лишь общее представление о свойствах составляющих его логических вентилей и шин — не вдаваясь в подробности того, как именно эти элементы будут реализованы на кремниевой подложке и какими реальными физическими характеристиками каждый из них будет обладать по отдельности. Да, на этапе адаптации созданного в системе автоматизированного проектирования чертежа под конкретные технологические процессы, используемые на данной фабрике по производству чипов, потребуется внести некоторые доработки (например, формально «3-нм» техпроцессы у TSMC и Samsung довольно существенно отличаются), но инженеру-проектировщику из fabless-компании, разрабатывающей микросхемы, изначально вполне хватает того уровня абстракции, на котором он работает. То же самое справедливо и для программирования: из набора библиотек, словно из «чёрных ящиков» с хорошо описанными входами и выходами, вполне можно собрать код, который будет функционировать должным образом. Возможно, не идеальный, потому что внутреннее устройство каждой библиотеки, включая скрытые там неоптимальные решения и ошибки, останется нетронутым, — но ожидаемый результат он будет выдавать.
Обратная сторона грубой грануляризации, на которую справедливо обращают внимание исследователи из CCC, состоит в том, что построенные на её основе устройства и алгоритмы оказываются полностью оторванными от физической реальности; точнее, совершенно к ней безразличны. Компьютер превращается в абстрактную машину состояний (конечный автомат, автомат с памятью), которая имеет дело исключительно с нулями и единицами в рамках тщательно продуманной, детерминированной последовательности переходов состояний, каждый из которых рассеивает в пространство пусть небольшую, но вполне измеримую долю тепла. Даже работа той самой авторегрессионной большой языковой модели сводится к операциям матричного умножения с добавлением некоторого стохастического слагаемого — которое, в свою очередь, формируется полупроводниковыми схемами генерации псевдослучайных чисел; тоже, можно сказать, по детерминированному алгоритму (истинно случайные числа выдают соответствующие генераторы, TRNG, true random number generators, но они как раз используют подлинно стохастические явления физической реальности — образуя своего рода нефоннеймановский островок в построенной по классическим канонам компьютерной архитектуре).
Как постепенно меняется энтропия в небольшом модельном логическом контуре во время вычислений. Схема стартует с состояния, доставшегося от предыдущего цикла (отмечены серыми кружками), и все значения вентилей изначально взаимосвязаны (поэтому общая энтропия системы низкая), ведь предыдущий запуск уже дал логически определённый результат. Далее входные данные обновляются (розовые кружки), и их значения перестают быть логически связанными с теми, что хранятся в других ячейках схемы, — энтропия контура растёт. По мере последовательного срабатывания вентилей уровень энтропии возвращается к минимуму благодаря формированию логических корреляций между ячейками в процессе вычислений, что закономерно приводит к выделению тепла (источник: arxiv.org/abs/2504.04031v3)
⇡#Энтропия в помощь
Если задуматься, это же полнейшая нелепость: термодинамические законы, изначально присущие любому макроскопическому объекту, инженеры намеренно игнорируют — а вместо этого, прибегая к целому ряду весьма энергозатратных уловок, заставляют систему, которая по своей сути является стохастической от природы, порождать псевдослучайный шум. Согласно принципу Ландауэра, в любой вычислительной системе при утрате одного бита информации выделяется строго определённое минимальное количество тепла; следовательно, любые детерминированные вычисления неизбежно ведут к нагреву окружающего пространства — и для матричных операций с триллионами операндов, типичных для современных больших языковых моделей, это особенно актуально. На деле же всё ещё запутаннее: логические уровни «0» и «1» в электронных схемах представляются конкретными значениями напряжений с определёнными погрешностями, то есть каждый такой сигнал в каждой отдельной точке логической цепи (где на него влияют разнообразные поля помех и проявляются особенности расположенных именно здесь субмикронных проводников, резисторов и конденсаторов) является уникальным. Выходит, что два совершенно одинаковых логических контура в пределах одного и того же чипа, даже если они находятся рядом, будут получать слегка различающиеся входные сигналы — незначительно отличающиеся по величине импульсы, кодирующие, казалось бы, один и тот же «0» или одну и ту же «1», — и их выходные результаты тоже будут разными с физической точки зрения, хотя с логической они останутся идентичными.
Вот переписанный HTML-контент на русском языке с сохранением всех тегов и смысла, но с изменёнными словами и структурой предложений:В документе CCC данное утверждение изложено следующим образом: «Термодинамическая цена логической схемы — а именно общее снижение энтропии во всех её состояниях за время функционирования, которое в итоге обязано выделиться в форме тепла, — определяется распределением входных состояний этой же схемы». Эта цена, разумеется, заметно колеблется по всей поверхности чипа (и тем более по всем его слоям, если речь идёт о 2.5D- или 3D-микросхемах), — перед нами самая настоящая, естественно возникающая стохастика! С помощью данной иллюстрации авторы демонстрируют принцип работы полупроводникового термодинамического вычислителя: хотя, безусловно, существует множество вариантов аппаратной реализации ТДВ, было бы непростительно не воспользоваться текущим уровнем развития микроэлектроники. В общем виде такой вычислитель получает на вход определённые сигналы (внешние потенциалы), под действием которых его контуры выполняют спонтанные и быстрые переходы между своими предельными состояниями (условно соответствующими логическим «0» и «1»), причём эти переходы — строго следуя законам неравновесной термодинамики — на более продолжительном временном отрезке, благодаря внутренним адаптивным механизмам, приводят сложную систему к упорядоченному состоянию. Здесь очевидны параллели с квантовыми компьютерами: кубиты также обладают предельными состояниями, и собранные из них схемы тоже используют физические свойства своей структуры для выполнения вычислений.
В координатах «характерное время выполнения операции — характерный размер вычислительного элемента» термодинамические вычислители занимают промежуточное место между классикой на основе принципов фон Неймана и квантовыми системами (источник: CCC)
Исследователи из CCC представляют ТДВ как гибридное устройство, которое объединяет термодинамические вычислительные цепи с классическими полупроводниковыми компонентами. Последние выполняют роль интерфейса, через который пользователь взаимодействует с вычислителем, а также служат каналом обратной связи для вывода и анализа результатов термодинамических операций. Однако, в отличие от традиционных систем, основанных на архитектуре фон Неймана, ТДВ принимает на вход электрические потенциалы из реального мира в их истинных значениях — без необходимости искусственно преобразовывать их в логические нули и единицы, — и эти потенциалы, в свою очередь, направляют изменения внутренней структуры термодинамической системы. Задача классического управляющего компьютера ограничивается установкой параметров для ТДВ: он выбирает конкретные значения внешних потенциалов и физически настраивает термодинамическое оборудование (напрямую или через программный интерфейс, если используются микросхемы, подобные FPGA). Само же функционирование этого оборудования сводится, по сути, к автоматизированному выполнению метода градиентного спуска — к самопроизвольному переходу отдельных блоков (ядер) ТДВ в состояния с низкой энергией в зависимости от поступающих входных данных. Здесь прослеживается явная параллель с нейроморфными вычислениями, с той лишь разницей, что в данном случае термофизическая эволюция сложной системы заменяет эмуляцию нейробиологических процессов.