Как агенты развиваются и учатся
Агенты, развернутые в реальном мире, работают в динамичных средах, где политики, технологии и форматы данных постоянно меняются. Без способности адаптироваться производительность агента со временем снижается — этот процесс часто называют «старением» — что приводит к потере полезности и доверия. Ручное обновление большого парка агентов для того, чтобы идти в ногу с этими изменениями, неэкономично и медленно. Более масштабируемым решением является разработка агентов, которые могут самостоятельно учиться и развиваться, улучшая качество своей работы с минимальными инженерными усилиями.
Как агенты учатся и развиваются самостоятельно
Подобно людям, агенты учатся на опыте и внешних сигналах. Этот процесс обучения подпитывается несколькими источниками информации:
- Опыт выполнения: агенты учатся на основе фактов выполнения, таких как журналы сеансов, трассировки и память, которые фиксируют успехи, неудачи, взаимодействия с инструментами и траектории принятия решений. Важно отметить, что сюда входит обратная связь Human-in-the-Loop (HITL), которая обеспечивает авторитетные исправления и рекомендации.
- Внешние сигналы: обучение также стимулируется новыми внешними документами, такими как обновленные корпоративные политики, публичные нормативные рекомендации или критика со стороны других агентов.
Эта информация затем используется для оптимизации будущего поведения агента. Вместо простого обобщения прошлых взаимодействий, передовые системы создают обобщаемые афифакты для руководства будущими задачами. Наиболее успешные методы адаптации делятся на две категории:
- Улучшенная контекстная инженерия: система постоянно совершенствует свои подсказки, примеры с несколькими выстрелами и информацию, которую она извлекает из памяти. Оптимизируя контекст, предоставляемый LM для каждой задачи, она увеличивает вероятность успеха.
- Оптимизация и создание инструментов: Рассуждения агента позволяют выявлять пробелы в его возможностях и принимать меры для их устранения. Это может включать в себя получение доступа к новому инструменту, создание нового инструмента на лету (например, скрипта Python) или модификацию существующего инструмента (например, обновление схемы API).
Дополнительные методы оптимизации, такие как динамическая переконфигурация многоагентных шаблонов проектирования или использование метода укрепления обучения на основе обратной связи от человека (RLHF), являются активными областями исследований.
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
Пример: изучение новых правил соответствия
Рассмотрим корпоративного агента, работающего в строго регулируемой отрасли, такой как финансы или биологические науки. Его задача — генерировать отчеты, которые должны соответствовать правилам конфиденциальности и нормативным требованиям (например, GDPR). Это можно реализовать с помощью многоагентного рабочего процесса:
- Агент запросов извлекает необработанные данные в ответ на запрос пользователя.
- Агент по созданию отчетов синтезирует эти данные в черновой вариант отчета.
- Агент-критик, вооруженный известными правилами соответствия, проверяет отчет. Если он сталкивается с неоднозначностью или требует окончательного утверждения, он передает его человеку-эксперту в данной области.
- Агент-обучающий наблюдает за всем взаимодействием, уделяя особое внимание корректирующей обратной связи от эксперта-человека. Затем он обобщает эту обратную связь в новое, повторно используемое руководство (например, обновленное правило для агента-критика или уточненный контекст для агента-репофи).


Например, если эксперт-человек отмечает, что статистические данные о домохозяйствах должны быть анонимизированы, обучающийся агент записывает эту поправку. В следующий раз, когда будет сгенерирован аналогичный отчет, агент-критик автоматически применит это новое правило, что снизит необходимость вмешательства человека. Этот цикл критики, обратной связи от человека и обобщения позволяет системе автономно адаптироваться к меняющимся требованиям соответствия.






