Взаимодействие агентов
После создания высококачественных агентов вы захотите соединить их с пользователями и другими агентами. В нашей аналогии с телом человека это будет лицо агента. Существует разница между подключением к агентам и подключением агентов к данным и API; агенты не являются инструментами. Давайте предположим, что у вас уже есть инструменты, подключенные к вашим агентам, и теперь рассмотрим, как вы можете внедрить своих агентов в более широкую экосистему.
Агенты и люди
Наиболее распространенной формой взаимодействия агента и человека является пользовательский интерфейс. В своей простейшей форме это чат-бот, в котором пользователь вводит запрос, а агент, действующий в качестве бэкэнд-сервиса, обрабатывает его и возвращает блок текста. Более продвинутые агенты могут предоставлять структурированные данные, такие как JSON, для обеспечения богатых и динамичных интерфейсов. Взаимодействие человека в цикле (HITL) включают уточнение намерения, расширение цели, подтверждение и запросы на разъяснение.
Использование компьютера — это категория инструментов, в которой LM контролирует пользовательский интерфейс, часто с участием человека и под его контролем. Агент с поддержкой использования компьютера может решить, что следующим лучшим действием будет переход на новую страницу, выделение определенной кнопки или предварительное заполнение формы соответствующей информацией.
Вместо того, чтобы агент использовал интерфейс от имени пользователя, LM может изменить пользовательский интерфейс в соответствии с текущими потребностями. Это можно сделать с помощью инструментов, которые управляют пользовательским интерфейсом (MCP UI), или специализированных систем обмена сообщениями пользовательского интерфейса, которые могут синхронизировать состояние клиента с агентом (AG UI), и даже с помощью генерации индивидуальных интерфейсов (A2UI).
Конечно, человеческое взаимодействие не ограничивается экранами и клавиатурами. Передовые агенты преодолевают текстовый барьер и переходят к мультимодальному общению в режиме реального времени с «живым режимом», создавая более естественную, похожую на человеческую связь. Такие технологии, как Gemini Live API, обеспечивают двунаправленную потоковую передачу, позволяя пользователю разговаривать с агентом и прерывать его, как в естественном разговоре.
Эта возможность коренным образом меняет характер сотрудничества между агентом и человеком. Имея доступ к камере и микрофону устройства, агент может видеть то, что видит пользователь, и слышать то, что он говорит, отвечая сгенерированной речью с задержкой, имитирующей человеческий разговор.
Это открывает широкий спектр возможностей, которые просто невозможны с текстом, от технического специалиста, получающего инструкции в режиме громкой связи во время ремонта оборудования, до покупателя, получающего советы по стилю в режиме реального времени. Это делает агента более интуитивным и доступным помощником.
Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!
Агенты и агенты
Так же как агенты должны связываться с людьми, они должны связываться друг с другом. По мере расширения использования ИИ в предприятии различные команды будут создавать разных специализированных агентов. Без общего стандарта для их связи потребовалось бы создать запутанную сеть хрупких, настраиваемых API-интеграций, которые невозможно поддерживать. Основная задача состоит из двух частей: обнаружение (как мой агент находит других агентов и узнает, что они могут делать?) и коммуникация (как мы обеспечим, чтобы они говорили на одном языке?).
Протокол Agent2Agent (A2A) — это открытый стандарт, разработанный для решения этой проблемы. Он действует как универсальный протокол обмена данными для агентской экономики. A2A позволяет любому агенту публиковать цифровую «визитную карточку», известную как Agent Card. Этот простой файл JSON содержит информацию о возможностях агента, его сетевом конечной точке и учетных данных безопасности, необходимых для взаимодействия с ним. Это упрощает и стандартизирует процесс обнаружения. В отличие от MCP, который фокусируется на решении транзакционных запросов, коммуникация Agent 2 Agent обычно предназначена для решения дополнительных задач.
После обнаружения агенты общаются с помощью архитектуры, ориентированной на задачи. Вместо простого запроса-ответа взаимодействия оформляются как асинхронные «задачи». Клиентский агент отправляет запрос на задачу серверному агенту, который затем может предоставлять потоковые обновления, работая над проблемой через долгосрочное соединение. Этот надежный, стандартизированный протокол связи является последним элементом головоломки, позволяющим создать совместные мультиагентные системы уровня 3, которые представляют собой передовую технологию автоматизации. A2A превращает набор изолированных агентов в настоящую, взаимодействующую экосистему.
Агенты и деньги
Поскольку агенты ИИ выполняют за нас все больше задач, некоторые из них связаны с покупкой или продажей, ведением переговоров или содействием в проведении транзакций. Современный Интернет создан для людей, которые нажимают кнопку «купить», и ответственность лежит на человеке. Если автономный агент нажимает кнопку «купить», это создает кризис доверия — если что-то пойдет не так, кто будет виноват? Это сложные вопросы авторизации, подлинности и ответственности. Чтобы раскрыть потенциал настоящей агентской экономики, нам нужны новые стандарты, которые позволят агентам безопасно и надежно совершать транзакции от имени своих пользователей.
Эта новая область еще далека от стабильности, но два ключевых протокола прокладывают путь к ее развитию. Agent Payments Protocol (AP2) — это открытый протокол, разработанный как универсальный язык для агентской коммерции. Он расширяет протоколы типа A2A за счет введения криптографически подписанных цифровых «мандатов». Они служат в качестве проверяемого доказательства намерения пользователя, создавая невозвратный контрольный след для каждой транзакции. Это позволяет агенту безопасно просматривать, вести переговоры и совершать транзакции в глобальном масштабе на основании полномочий, делегированных пользователем.
Дополняет его x402 — открытый интернет-протокол платежей, использующий стандартный статус-код HTTP 402 «Требуется оплата». Он обеспечивает беспрепятственные микроплатежи между машинами, позволяя агенту оплачивать такие вещи, как доступ к API или цифровой контент, на основе оплаты по факту использования, без необходимости создания сложных учетных записей или подписок. Вместе эти протоколы создают основополагающий уровень доверия для агентского веба.






