Global-News.com.ua

GPT-5, Grok и Gemini не справились с реальными задачами фрилансеров — исследование

Январь 21
04:33 2026

Сегодня 04:06 — Технологии&АвтоИИ провалил 97% задач для фрилансеров.Чтобы проверить, могут ли современные системы искусственного интеллекта выполнять проекты на уровне профессиональных фрилансеров, группа исследователей протестировала ряд ведущих ИИ-моделей, включая Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.Об этом пишет ZDNET.Для тестирования были использованы реальные рабочие задачи, ранее успешно выполнявшие фрилансеры в сферах разработки игр, продуктового дизайна, архитектуры, анализа данных и видеоанимации.Какие задачи выполняли ИИ-моделиИИ-системам предложили выполнить шесть проектов разной сложности, в частности:создать интерактивную панель инструментов для исследования данных из Отчета о счастье в мире;разработать версию игры «Арбуз» на тему пивоварения, где игроки объединяют падающие предметы, чтобы достичь предмета высочайшего уровня;сделать 3D анимацию для демонстрации характеристик и дизайна новых наушников и зарядного кейса;сделать 2D-анимированное видео, рекламирующее предложения компании, предоставляющей бесплатные услуги;разработать архитектурные планы и 3D-модель контейнерного дома на основе имеющегося PDF-проекта;отформатировать документ, используя предоставленные функции и уравнения, для конференции IEEE.Вышеперечисленные задачи охватывали разные уровни сложности, обошлись в $10 000 и заняли у реальных исполнителей более 100 часов времени.Результаты оценкиДля сравнения возможностей ИИ-автоматизации и реального труда фрилансеров, исследователи разработали систему оценки Remote Labor Index (RLI).По результатам тестирования даже самые лучшие модели продемонстрировали очень низкий уровень автоматизации.«Наилучшая модель достигла уровня автоматизации всего в 2,5%. Это доказывает, что современные системы искусственного интеллекта не могут выполнить подавляющее большинство проектов на уровне качества, который приемлем для работ по заказу», — отмечают авторы исследования.Читайте такжеManus показал самые лучшие результаты с показателем производительности 2,5%. Grok 4 и Sonnet 4.5 разделили показатели на 2,1%, GPT-5 был следующим с 1,7%, а агент ChatGPT — на 1,3%. Gemini занял последнее место с 0,8%.Один из исследователей, Дэн Хендрикс, признал: хотя современные ИИ и умные, они до сих пор не слишком полезны, учитывая общий показатель автоматизации менее чем в 3%.Почему ИИ не справился с задачамиОбъясняя причины такого провала, Хендрикс отметил, что многие возможности ИИ остаются дефицитными. ИИ не способны учиться непосредственно в процессе работы, поскольку не имеют длительной памяти. Кроме того, зрительные навыки ИИ ограничены, хотя именно они были необходимы для выполнения многих задач.Тестирование специально включало задачи, требовавшие достаточно высокого уровня квалификации. Вероятно, с другими видами работ и проектов ИИ справилось бы гораздо легче.Читайте также«Хотя абсолютные показатели автоматизации пока низкие, наш анализ свидетельствует о том, что модели стабильно совершенствуются, а прогресс в выполнении этих сложных задач вполне измерим, — отмечают исследователи. — Это создает общую базу для отслеживания траектории автоматизации с помощью ИИ, что позволит заинтересованным сторонам заранее адаптироваться к ее последствиям».По материалам: dev.uaЕсли Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.Finance.ua/Все новости/Технологии&Авто/GPT-5, Grok и Gemini не справились с реальными задачами фрилансеров — исследование

Share

Статьи по теме

Последние новости

В 2025 году вкладчикам ликвидируемых банков выплатили более 350 млн грн возмещения

Читать всю статью

Наши партнёры

UA.TODAY - Украина Сегодня UA.TODAY