Оглавление
Конфигурация вывода LLM
После выбора модели необходимо настроить её конфигурацию. Большинство LLM предлагают различные параметры, управляющие выводом модели. Эффективный инжиниринг промптов требует оптимальной настройки этих параметров под конкретную задачу.
Длина вывода
Важный параметр — количество токенов, которые модель должна сгенерировать в ответе. Чем больше токенов, тем больше вычислительных ресурсов требуется от LLM, что приводит к повышенному энергопотреблению, потенциально более медленному отклику и увеличению затрат.
Ограничение длины вывода не делает текст стилистически или содержательно более лаконичным — оно просто заставляет модель прекращать генерацию по достижении лимита. Если вам нужен короткий ответ, возможно, потребуется также адаптировать промпт.
Ограничение длины особенно важно для некоторых техник работы с LLM, например, ReAct, где модель может продолжать выдавать бесполезные токены после нужного ответа.
Управление сэмплированием
LLM формально не предсказывают единственный токен. Вместо этого они предсказывают вероятности для каждого возможного следующего токена из своего словаря. Затем на основе этих вероятностей выбирается конкретный токен для вывода.
Температура, top-K и top-P — наиболее распространённые настройки, определяющие, как обрабатываются предсказанные вероятности для выбора следующего токена.
Температура
Температура контролирует степень случайности при выборе токенов. Низкие значения подходят для задач, требующих детерминированного ответа, а высокие — для более разнообразных или неожиданных результатов.
- Температура 0 (жадное декодирование) всегда выбирает токен с максимальной вероятностью (но если несколько токенов имеют одинаковую вероятность, результат может варьироваться в зависимости от реализации).
- Высокая температура делает выбор более случайным. При очень высоких значениях все токены становятся равновероятными.
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
В Gemini температура работает аналогично функции softmax в машинном обучении:
- Низкая температура делает модель более уверенной в одном варианте.
- Высокая температура допускает больший разброс, что полезно для творческих задач.


Top-K и top-P
Эти настройки ограничивают выбор следующего токена только теми, которые имеют наибольшие вероятности.
- Top-K выбирает K токенов с самыми высокими вероятностями. Чем выше K, тем разнообразнее вывод. При K=1 получается жадное декодирование.
- Top-P (ядерное сэмплирование) выбирает токены, чья суммарная вероятность не превышает P (от 0 до 1).
Лучший способ выбрать между top-K и top-P — экспериментировать с обоими методами.
Комбинирование параметров
Выбор между температурой, top-K, top-P и длиной вывода зависит от конкретной задачи, и все эти настройки взаимосвязаны.
- Если доступны все три параметра (например, в Vertex Studio), сначала применяются top-K и top-P, а затем температура.
- Если температура недоступна, токены выбираются случайно из подходящих по top-K/top-P.
- Экстремальные значения одной настройки могут отменить влияние других:
- Температура 0 делает top-K и top-P неважными.
- Очень высокая температура (>10) сводит её влияние к минимуму.
- Top-K=1 игнорирует температуру и top-P.
- Top-P=0 эквивалентен жадному декодированию.
Рекомендуемые начальные значения:
- Для сбалансированных результатов: температура 0.2, top-P 0.95, top-K 30.
- Для креативности: температура 0.9, top-P 0.99, top-K 40.
- Для строгости: температура 0.1, top-P 0.9, top-K 20.
- Для задач с единственным верным ответом (например, математика): температура 0.
Примечание: Чем выше свобода (температура, top-K, top-P, длина вывода), тем менее релевантным может быть текст.
Предупреждение: Иногда модель может зацикливаться на повторяющихся словах или фразах («баг рекурсивного цикла»). Это происходит:
- При низкой температуре — из-за излишней детерминированности.
- При высокой температуре — из-за чрезмерной случайности.
Решение требует тонкой настройки температуры и top-K/top-P для баланса между предсказуемостью и разнообразием.