Эпоха универсальных GPU завершается: как Nvidia делит архитектуру и будущее ИИ

Nvidia своим стратегическим лицензионным соглашением с Groq на $20 млрд сделала один из первых открытых шагов в четырехсторонней битве за стек технологий будущего для искусственного интеллекта. К 2026 году эта борьба станет очевидной для всех, кто создает ИИ-продукты.

Для технических специалистов, с которыми мы общаемся ежедневно, эта сделка служит сигналом: время, когда универсальный GPU был стандартным решением для инференса ИИ-моделей, подходит к концу.

Начинается эпоха распределённой архитектуры инференса, где сами чипы разделяются на два различных типа, чтобы удовлетворить потребности мира, требующего одновременно и работы с огромным контекстом, и мгновенного выполнения задач.

Почему инференс разрывает архитектуру GPU надвое
Чтобы понять, почему генеральный директор Nvidia Дженсен Хуанг потратил треть своих денежных резервов на лицензионное соглашение, нужно увидеть экзистенциальные угрозы, сходящиеся на долю его компании в 92% рынка.

В конце 2025 года отрасль достигла переломного момента: впервые доходы от инференса — фазы, когда обученные модели непосредственно работают, — превысили доходы от тренировки моделей в дата-центрах. В этом новом «перевороте инференса» изменились ключевые метрики. Если точность остаётся базовым требованием, то битва теперь ведётся за задержки и способность автономных агентов сохранять «состояние».

Существует четыре фронта этой битвы, и каждый ведёт к одному выводу: рабочие нагрузки инференса фрагментируются быстрее, чем GPU могут под них подстроиться.

1. Разделение GPU: префилл vs. декодирование

Инвестор Groq Гэвин Бейкер чётко обозначил главную причину сделки: «Инференс разделяется на префилл и декодирование». Это две разные фазы.

  • Фаза префилла: Её можно считать стадией «промпта». Модель должна обработать огромный объём данных — будь то кодовая база в 100 000 строк или час видео — и вычислить контекстуальное понимание. Это «вычислительно-ограниченная» задача, требующая масштабного матричного умножения, с которым исторически отлично справляются GPU Nvidia.
  • Фаза генерации (декодирования): Это пошаговое «порождение» токенов. Как только промпт обработан, модель генерирует результат слово за словом, каждый раз возвращая его в систему для предсказания следующего. Это «ограниченная задача по пропускной способности памяти». Если данные не могут перемещаться из памяти в процессор достаточно быстро, модель «заикается», независимо от мощности GPU. Именно здесь слабое место Nvidia и сильная сторона специального процессора Groq (LPU) с его статической памятью SRAM.

Nvidia анонсировала будущее семейство чипов Vera Rubin, созданное именно для такого разделения. Компонент Rubin CPX в этой линейке — предназначенный для «префилла» работяга, оптимизированный для контекстных окон в 1 млн токенов и более. Для экономичной работы в таком масштабе он отходит от дорогой памяти HBM в пользу 128 ГБ новой памяти GDDR7. HBM обеспечивает высокую скорость, но её объём на GPU ограничен, а стоимость препятствует масштабированию; GDDR7 предлагает более рентабельный способ обработки больших данных.

Тем временем, «основанные на Groq» чипы, которые Nvidia интегрирует в свою дорожную карту для инференса, будут служить высокоскоростным «движком декодирования». Это шаг для нейтрализации угрозы со стороны альтернативных архитектур, таких как TPU от Google, и для сохранения доминирования CUDA — программной экосистемы Nvidia, более десяти лет служившей её главным конкурентным преимуществом.

2. Особая сила SRAM

В основе технологии Groq лежит SRAM. В отличие от DRAM в вашем ПК или HBM на GPU Nvidia H100, SRAM встраивается непосредственно в логическую схему процессора.

SRAM — лучший вариант для перемещения данных на короткие расстояния с минимальными энергозатратами. В мире 2026 года, где агенты должны рассуждать в реальном времени, SRAM действует как высокоскоростная «рабочая память»: пространство, где модель может манипулировать символами и сложными логическими процессами без «холостых тактов» на обмен с внешней памятью.

Однако у SRAM есть крупный недостаток: она физически громоздка и дорога в производстве, что ограничивает её объём. Вейка Берковичи, глава по ИИ в компании Weka, видит здесь сегментацию рынка.

Нагрузки, где выгодна SRAM, — это работа с компактными моделями до 8 миллиардов параметров. Это не маленький рынок. Он включает периферийный инференс, задачи с низкой задержкой, робототехнику, голосовые интерфейсы и IoT-устройства. «Сладкое пятно» в 8 млрд параметров важно, потому что в 2025 году произошёл взрыв «дистилляции» моделей, когда крупные компании сжимают огромные модели в высокоэффективные компактные версии.

3. Угроза от Anthropic: рост «переносимого стека»

Возможно, самым недооценённым драйвером этой сделки является успех Anthropic в создании переносимого стека технологий, работающего на разных ускорителях.

Компания стала пионером в разработке переносимого программного слоя, который позволяет её моделям Claude работать на различных семействах ИИ-ускорителей — включая GPU Nvidia и TPU Google. До недавнего времени доминирование Nvidia было защищено, потому что запуск высокопроизводительных моделей вне её экосистемы был техническим кошмаром. Мультиплатформенный подход Anthropic гарантирует, что компания не станет заложником ценовой политики или ограничений поставок Nvidia.

Таким образом, для Nvidia сделка с Groq — это и оборонительный ход. Интегрируя технологии сверхбыстрого инференса Groq, Nvidia гарантирует, что даже самые требовательные к производительности задачи останутся в рамках её экосистемы CUDA, пока конкуренты пытаются перейти на TPU Google.

4. Война за «состояние» агентов: Manus и KV Cache

Сделка с Groq по времени совпала с приобретением Meta пионера в области агентов — компании Manus. Значимость Manus отчасти заключалась в её одержимости «состоятельностью» агента.

Если агент не может вспомнить, что он делал 10 шагов назад, он бесполезен для реальных задач. KV Cache (Ключ-Значение Кэш) — это «кратковременная память», которую большая языковая модель создаёт во время фазы префилла.

Для промышленных агентов соотношение входных и выходных токенов может достигать 100:1. Это означает, что на каждое произнесённое агентом слово он «думает» и «помнит» ещё 100. В такой среде процент попаданий в KV Cache — важнейшая метрика. Если этот кэш «вытесняется» из памяти, агент теряет ход мысли, и модель тратит колоссальную энергию на пересчёт.

SRAM от Groq может служить «рабочей памятью» для таких агентов, обеспечивая почти мгновенное восстановление состояния. В сочетании с фреймворком Dynamo от Nvidia компания создаёт «операционную систему для инференса», позволяя серверам распределять это состояние между SRAM, DRAM, HBM и другими типами памяти.

Итог для 2026 года

Мы вступаем в эру экстремальной специализации. Лидеры рынка больше не могут побеждать, предлагая одну универсальную архитектуру. Nvidia своим шагом показывает, что не намерена повторять ошибки прошлого.

Для технических руководителей посыл ясен: пора перестать проектировать инфраструктуру как единое целое с одним типом ускорителя. В 2026 году преимущество будет у команд, которые явно классифицируют рабочие нагрузки и направляют их на правильный «уровень»:

  • с преобладанием префилла или декодирования;
  • с длинным или коротким контекстом;
  • интерактивные или пакетные;
  • для маленьких или больших моделей;
  • с ограничениями периферийных устройств или для дата-центров.

Архитектура будет строиться исходя из этих меток. В 2026 году «стратегия по GPU» перестанет быть вопросом закупок и превратится в вопрос маршрутизации. Победители будут спрашивать не какой чип они купили, а где и почему был обработан каждый токен.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

5 − четыре =

Прокрутить вверх