Оглавление
Таксономия агентских систем
Понимание 5-ступенчатого операционного цикла — это первая часть головоломки. Вторая — признание того, что этот цикл можно масштабировать по сложности для создания различных классов агентов. Для архитектора или руководителя продукта ключевым первоначальным решением является определение того, какой тип агента следует создать.
Мы можем классифицировать агентские системы по нескольким общим уровням, каждый из которых основывается на возможностях предыдущего.


Уровень 0: Основная система рассуждений
Прежде чем мы сможем создать агента, мы должны оснастить его «мозгом» в его наиболее базовой форме: самим механизмом рассуждения. В этой конфигурации языковая модель (LM) работает изолированно, реагируя исключительно на основе своих обширных предварительно обученных знаний, без каких-либо инструментов, памяти или взаимодействия с реальной средой.
Ее сила заключается в обширной подготовке, которая позволяет ей объяснять устоявшиеся концепции и планировать подход к решению проблемы с большой глубиной. Компромиссом является полное отсутствие осознания реальности в режиме реального времени; она функционально «слепа» к любым событиям или фактам, выходящим за рамки ее обучающих данных.
Например, она может объяснить правила профессионального бейсбола и полную историю команды «Нью-Йорк Янкиз». Но если вы спросите: «Какой был окончательный счет вчерашней игры «Янкиз»?», она не сможет ответить. Эта игра — конкретное событие реального мира, которое произошло после сбора данных для обучения, поэтому эта информация просто отсутствует в ее знаниях.
Уровень 1: Связанный решатель проблем
На этом уровне механизм рассуждений становится функциональным агентом, подключаясь к внешним инструментам и используя их — это компонент «Руки» нашей архитектуры. Его решение проблем больше не ограничивается статическими, заранее обученными знаниями.
Используя 5-ступенчатый цикл, агент теперь может ответить на наш предыдущий вопрос. Учитывая «задачу»: «Каков был окончательный счет вчерашней игры Yankees?», его этап «Размышление» распознает это как потребность в данных в режиме реального времени. Затем его этап «Действие» вызывает инструмент, такой как Google Search API, с соответствующей датой и поисковыми терминами. Он «наблюдает» за результатом поиска (например, «Янки выиграли 5:3») и синтезирует этот факт в окончательный ответ.
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
Эта фундаментальная способность взаимодействовать с миром — будь то использование поискового
инструмента для получения результатов, финансового API для получения текущих цен на акции или
базы данных через Retrieval-Augmented Generation (RAG) — является основной способностью агента
уровня 1.
Уровень 2: Стратегическое решение проблем
Уровень 2 знаменует собой значительное расширение возможностей, переход от выполнения простых задач к стратегическому планированию сложных, многосторонних целей. Ключевым навыком, который появляется на этом уровне, является контекстная инженерия: способность агента активно выбирать, объединять и управлять наиболее релевантной информацией для каждого этапа своего плана.
Точность агента зависит от сфокусированного, высококачественного контекста. Контекстная инженерия курирует ограниченное внимание модели, чтобы предотвратить перегрузку и обеспечить эффективную работу.
Рассмотрим, например, «миссию»: «Найти хорошую кофейню на полпути между моим офисом по адресу 1600 Amphitheatre Parkway, Маунтин-Вью, и офисом моего клиента по адресу 1 Market St, Сан-Франциско».
Агент уровня 2 начнет создавать план:
- Подумает: «Сначала я должен найти середину пути».
- Действие: вызов инструмента «Карты» с обоими адресами.
- Наблюдать: «Середина пути — это Миллбрей, Калифорния».
- Подумать: «Теперь я должен найти кофейни в Миллбрей. Пользователь просил найти «хорошие» кофейни, поэтому я буду искать заведения с рейтингом 4 звезды и выше».
- Действие: вызовите инструмент google_places с запросом query=»кофейня в Миллбрей, Калифорния», min_rating=4.0. (Это контекстная инженерия — она автоматически создала новый целенаправленный поисковый запрос на основе результатов предыдущего шага).
- Наблюдайте: «Поиск возвращает результаты «Millbrae Coffee» и «The Daily Grind».
- Подумайте: «Я обобщу эти результаты и представлю их пользователю».
Такое стратегическое планирование также позволяет оказывать проактивную помощь, например, агент, который читает длинное электронное письмо с подтверждением рейса, анализирует ключевой контекст (номер рейса, дата) и добавляет его в ваш календарь.






