Возможности и ограничения языковых моделей в разработке программного обеспечения

Крупные языковые модели (LLM) внесли значительные изменения в сферу разработки программного обеспечения, однако компании должны тщательно обдумать, стоит ли полностью заменять человеческих инженеров на такие модели. Несмотря на заявление генерального директора OpenAI Сэма Альтмана о том, что модели способны заменить «низкоуровневых» инженеров, реальность оказывается сложнее.

Оглавление

1 Тестирование моделей на реальных задачах
2 Как создавался тест SWE-Lancer
3 Результаты тестирования
- 3.1 Ключевые выводы
4 Будущее языковых моделей в разработке
- 4.1 Таблица: Сравнение результатов моделей

Тестирование моделей на реальных задачах

Исследователи OpenAI разработали специальный тест под названием SWE-Lancer, чтобы оценить, насколько языковые модели способны справляться с задачами, которые обычно выполняют фриланс-разработчики. В ходе тестирования выяснилось, что модели могут находить и исправлять ошибки, но не способны понять их причину, что приводит к повторным ошибкам.

Для эксперимента были выбраны три модели: GPT-4o и o1 от OpenAI, а также Claude-3.5 Sonnet от Anthropic. Им предложили 1 488 задач с платформы Upwork, общая стоимость которых составила $1 миллион. Задачи разделили на две категории:

Индивидуальные задачи — исправление ошибок и реализация функций.
Управленческие задачи — модели выступали в роли менеджеров, выбирая лучшие предложения для решения проблем.

Результаты показали, что даже самые передовые модели не справляются с реальными задачами на уровне, достаточном для полной замены человека.

Как создавался тест SWE-Lancer

Исследователи вместе с сотней профессиональных разработчиков отобрали задачи с Upwork и, не изменяя их формулировок, поместили в Docker-контейнер. Это позволило создать набор данных SWE-Lancer, изолированный от интернета и GitHub, чтобы исключить возможность использования моделями внешних ресурсов.

Задачи включали:

Проверь свои знания в наших бесплатных тестах по ИИ! Пройди тест и узнай, насколько хорошо ты разбираешься в технологиях искусственного интеллекта!

Исправление ошибок (от 15 минут до недели).
Реализацию новых функций.
Анализ предложений фрилансеров и вакансий.

Для каждой задачи создавались подсказки на основе заголовка, описания и снимка кодовой базы. Если были доступны предложения по решению проблемы, добавлялись управленческие задачи.

Результаты тестирования

Ни одна из моделей не смогла заработать полный 1 миллион. Лучший результат показала Claude 3.5 Sonnet, заработавшая 208 050 и решившая 26,2% индивидуальных задач. Однако большинство её решений оказались ошибочными, что подчеркивает необходимость повышения надёжности.

Ключевые выводы

Скорость vs. Качество. Модели быстро находят источник проблемы, но часто не понимают её глубинных причин.
Ограниченное понимание. Модели редко анализируют, как проблема затрагивает несколько компонентов или файлов.
Управленческие задачи. Модели справляются лучше, когда требуется оценить технические предложения.

Будущее языковых моделей в разработке

Хотя модели способны решать некоторые «низкоуровневые» задачи, они пока не могут полностью заменить инженеров. Они тратят время, допускают ошибки и не всегда находят корень проблемы. Однако исследователи отмечают, что ситуация может измениться в ближайшем будущем.

Таблица: Сравнение результатов моделей

Модель	Заработано ($)	Решено задач (%)
Claude 3.5 Sonnet	208,050	26.2
o1	150,000	20.1
GPT-4o	120,000	18.5

В заключение, языковые модели — это мощный инструмент, но их использование требует осторожности и дальнейшего совершенствования.