Оглавление
Инструменты: «руки» вашего ИИ-агента
Если модель — это мозг агента, то инструменты — это руки, которые связывают его мышление с реальностью. Они позволяют агенту выйти за пределы статических обучающих данных, чтобы получать информацию в режиме реального времени и действовать в мире. Надежный интерфейс инструмента представляет собой цикл из трех этапов: определение того, что может делать инструмент, его вызов и наблюдение за результатом.
Вот несколько основных типов инструментов, которые разработчики предоставят своим агентам. Более подробную информацию можно найти в техническом документе, посвященном инструментам для агентов, из этой серии.
Поиск информации: опора на реальность
Самым основным инструментом является возможность доступа к актуальной информации. Технология RAG (Retrieval-Augmented Generation) дает агенту «библиотечную карточку» для запроса внешних знаний, часто хранящихся в векторных базах данных или графах знаний, от внутренних документов компании до веб-знаний через Google Search. Для структурированных данных инструменты Natural Language to SQL (NL2SQL) позволяют агенту запрашивать базы данных для ответа на аналитические вопросы, такие как «Какие продукты были самыми продаваемыми в прошлом квартале?». Изучая информацию перед тем, как ответить — будь то в документе или базе данных — агент опирается на факты, что значительно снижая количество ошибок.
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
Выполнение действий: изменение мира
Истинная сила агентов раскрывается, когда они переходят от чтения информации к активным действиям. Объединяя существующие API и функции кода в виде инструментов, агент может отправлять электронные письма, планировать встречи или обновлять записи о клиентах в ServiceNow. Для более динамичных задач агент может писать и выполнять код на лету. В безопасной песочнице он может сгенерировать SQL-запрос или скрипт Python для решения сложной проблемы или выполнения вычислений, превращаясь из знающего помощника в автономного участника.
Сюда также входят инструменты для взаимодействия с людьми. Агент может использовать инструмент Human in the Loop (HITL) для приостановки своего рабочего процесса и запроса подтверждения (например, ask_for_confirmation()) или запроса конкретной информации из пользовательского интерфейса (например, ask_for_date_input()), обеспечивая участие человека в принятии важных решений. HITL может быть реализован с помощью SMS-сообщений и задачи в базе данных.
Вызов функций: подключение инструментов к вашему агенту
Чтобы агент мог надежно выполнять «вызов функций» и использовать инструменты, ему необходимы четкие инструкции, безопасные соединения и оркестрация. Это обеспечивают давно существующие стандарты, такие как спецификация OpenAPI, предоставляющая агенту структурированный контракт, в котором описываются назначение инструмента, необходимые параметры и ожидаемый ответ. Эта схема позволяет модели каждый раз генерировать правильный вызов функции и интерпретировать ответ API. Для упрощения обнаружения и подключения к инструментам стали популярны открытые стандарты, такие как Model Context Protocol (MCP), поскольку они более удобны. Кроме того, некоторые модели имеют встроенные инструменты, такие как Gemini с встроенным Google Search, где вызов функции происходит как часть самого вызова LM.






