Согласно новому исследованию Shanghai AI Laboratory, небольшие языковые модели (SLM) могут превосходить крупные языковые модели (LLM) в задачах, требующих логического мышления. Ученые доказали, что при использовании правильных инструментов и методов масштабирования на этапе тестирования, SLM с 1 миллиардом параметров способна обойти LLM с 405 миллиардами параметров в сложных математических тестах.
Возможность применения SLM в задачах, требующих глубокого анализа, открывает новые перспективы для бизнеса, который ищет способы внедрения таких моделей в различные сферы.
Оглавление
Что такое масштабирование на этапе тестирования?
Масштабирование на этапе тестирования (TTS) — это процесс, при котором LLM получают дополнительные вычислительные ресурсы во время выполнения задачи для улучшения их результатов.
Существует два основных подхода к TTS:
- Внутреннее TTS: модели обучаются «думать медленно», генерируя длинные цепочки рассуждений (chain-of-thought, CoT). Этот метод используется в таких моделях, как OpenAI o1 и DeepSeek-R1.
- Внешнее TTS: производительность модели улучшается за счет внешних инструментов. Этот подход позволяет адаптировать существующие модели для решения логических задач без дополнительного обучения.
Внешнее TTS обычно включает два компонента:
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
- Основная модель (policy model): генерирует ответы.
- Модель оценки (process reward model, PRM): анализирует ответы основной модели и выбирает лучшие варианты.
Методы внешнего TTS
- Best-of-N: основная модель создает несколько ответов, а PRM выбирает наиболее подходящие.
- Поиск по лучшим вариантам (beam search): ответ разбивается на шаги, и на каждом этапе выбираются лучшие кандидаты.
- Поиск по дереву с разнообразием (diverse verifier tree search, DVTS): создается несколько ветвей ответов, которые затем объединяются в итоговый результат.


Как выбрать правильную стратегию масштабирования?
Выбор оптимальной стратегии TTS зависит от нескольких факторов:
- Размер модели: для небольших моделей (менее 7 млрд параметров) лучше подходят методы поиска, а для крупных (более 72 млрд параметров) — best-of-N.
- Сложность задачи:
- Для простых задач с небольшими моделями эффективен best-of-N.
- Для сложных задач лучше использовать beam search.
- Для моделей среднего размера (7–32 млрд параметров) DVTS показывает хорошие результаты на задачах средней сложности.
Почему малые модели могут обойти крупные?


Исследователи доказали, что при использовании оптимальных стратегий TTS малые модели могут превосходить крупные. Например:
- Модель Llama-3.2-3B с оптимальной стратегией TTS обошла Llama-3.1-405B в тестах MATH-500 и AIME24.
- Модель Qwen2.5 с 500 млн параметров показала лучшие результаты, чем GPT-4o.
- Упрощенная версия DeepSeek-R1 (1,5 млрд параметров) превзошла o1-preview и o1-mini в тех же тестах.
Эти результаты показывают, что SLM могут быть эффективнее крупных моделей, используя в 100–1000 раз меньше вычислительных ресурсов.
Выводы исследования
- Оптимальные стратегии TTS значительно улучшают способности моделей к логическому мышлению.
- Эффективность TTS зависит от способностей модели: для слабых моделей улучшение заметно, а для сильных — минимально.
- Исследование подтверждает, что SLM могут быть более эффективными, чем крупные модели, при правильном использовании TTS.
В будущем ученые планируют изучить применение этих методов в других областях, таких как программирование и химия.