Каждый десятый ответ ИИ-обзоров Google ошибочный — исследование — Finance.ua
Сегодня 23:45 — Технологии&Авто1 из 10 ответов ложнаЭксперимент с функцией AI Overviews в поиске Google показал, что искусственный интеллект выдает точные ответы в 90% случаев. Однако ключевой нюанс состоит в том, что по крайней мере 1 из 10 ответов ложный. Учитывая количество запросов, можно говорить о миллионах «ложных ответов» в час.Об этом говорится в исследовании The New York Times и стартапа Oumi.Результаты тестированияAI Overviews — это функция поисковой системы Google, использующая искусственный интеллект (Gemini) для создания автоматических и кратких ответов на запрос пользователя. Впервые ее запустили в 2024 году, а с мая прошлого года она получила широкое распространение, в том числе и в Украине.С момента внедрения Google AI Overviews вызвали массу споров и жалоб, но со временем и запуском новых моделей Gemini стали лучше. В новом эксперименте The New York Times попыталось оценить точность ответов ИИ на это время: оказалось, что они верны в 90% случаев, то есть как минимум 1 из 10 ответов ошибочный.Эксперимент проводился совместно с ИИ-стартапом Oumi, а для проверки ответов использовали SimpleQA — стандартный тест для моделей из 4 тысяч вопросов, созданный OpenAI в 2024 году. Первые тесты Oumi провела в прошлом году, когда была актуальна модель Gemini 2.5. — тогда точность AI Overviews составила 85%. После обновления до Gemini 3 она повысилась до 91%. В то же время, если экстраполировать уровень ошибок на все поисковые запросы, можно говорить о миллионах обманчивых ответов в час и сотни тысяч ежеминутно.Примеры ошибокВ отчете приводятся примеры ошибок. В частности, в запросе о том, когда бывший дом Боба Марли стал музеем, Google AI Overviews привел три источника: два вообще без дат, а третий — из Википедии — с ошибкой. Другой запрос в бенчмарке предлагал указать дату, когда виолончелист Йо-Йо Ма попал в Зал славы классической музыки — ИИ сказал, что такого зала не существует, хотя сам сослался на официальный сайт организации.Реакция GoogleОжидалось, в Google раскритиковали методологию. Спикер Нед Адрианс заявил, что SimpleQA может содержать неточности. Компания использует собственный текст SimpleQA Verified, основанный на меньшей, но более тщательно проверенной выборке.«Это исследование имеет серьезные пробелы», — сказал Адрианс NYT. — Оно не отражает то, что люди действительно ищут в Google».Оценка ИИ остается сложной задачей. Каждая из компаний имеет собственный способ демонстрации возможностей, хотя проверка усложняется и тем, что модели могут давать разные ответы на один и тот же вопрос.Еще одна особенность состоит в том, что AI Overviews не является единственной моделью. Google в комментарии для Ars Technica сообщила, что система выбирает «самую подходящую» для каждого запроса. Самые точные ответы могла бы обеспечить Gemini 3.1 Pro, но она медленная и дорогостоящая, поэтому чаще используются модели Gemini Flash.Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.Finance.ua/Все новости/Технологии&Авто/Каждый десятый ответ ИИ-обзоров Google ошибочный — исследование

