Национальный центр развития ИИ при правительстве РФ подтвердил, что за последнее время ChatGPT "поглупел". До этого Стэнфордский университет опубликовал результаты исследования, из которого следует, что качество ответов от генеративного ИИ снизилось.
© ComNews
31.07.2023

Сергей Наквасин, директор национального центра развития искусственного интеллекта (ИИ) при правительстве РФ сообщил: "На прошлой неделе вышло знаковое исследование Стэнфордского университета, из которого следует, что ChatGPT потупел за последние три месяца. Правительство РФ поручило нам это перепроверить. Мы провели тестовые испытания по той же методологии, что и исследователи в Стэнфорде, и подтверждаем этот тезис".

По мнению Сергея Наквасина, из-за добавления новых модальностей, ИИ, с одной стороны, способен выполнять сложные задачи, но при решении простых качество ответов снижается. "Есть ощущение, что во второй половине года мы массово столкнемся с этой проблемой, и возникнет эффект от разочарования от новых технологий", - считает он.

Согласно данным исследования, которое провели сотрудники Стэнфордского университета, точность ответов чат-ботa GPT-4: нa математические запросы упала с 97,6% дo 2,4% (с 488 дo 12 верных ответов); нa задания сгенерировать компьютерный код уменьшилась c 52% дo 10%; нa графические загадки повысилась с 24,6% дo 27,4%.

Никита Куликов, генеральный директор автономной некоммерческой организации "Право Роботов", объяснил, что алгоритмы принятия решений для ИИ разработчики могут корректировать, отключать, заменять на новые, еще не до конца обученные, поэтому, как и любая программа, которой отключили базу данных, ИИ может внезапно прекратить давать верные для пользователей ответы.

"Но это не означает, что в моменте ИИ поглупел - скорее всего, алгоритмы и базы данных хранятся на серверах у разработчиков, а простые пользователи, как и специалисты национального центра развития искусственного интеллекта при правительстве РФ, видят только то, что доступно широкой общественности. Теперь надо будет работать с такой новой итерацией ChatGPT", - считает Никита Куликов.

"Ситуация очень похожа на то, что разработчики ChatGPT решили "законсервировать" уже порядком "поумневшую" версию ИИ, который получил взрывную популярность на волне хайпа и за несколько месяцев сделал гигантский скачок в обучении благодаря притоку миллионов новых пользователей. Разработчики решили оперативно обучить новую версию ChatGPT, причем с использованием еще сохранившегося интереса со стороны пользователей", - добавил глава "Право Роботов".

Алексей Сергеев, руководитель практики машинное обучение и искусственный интеллект ООО "АксТим" (Axenix, до весны 2022 г. было российским подразделением глобальной компании Accenture) считает, что по совокупности тестов сложно дать достоверную оценку и тем более охарактеризовать полученные в исследовании результаты как подтверждение деградации моделей.

"Не уверен, что функциональность проверки на простые числа отдельно заложена в упомянутых сервисах и, если верить тестовой выборке (доступна по ссылке в исследовании), то модели проверяли исключительно на простых числах. В таком случае верным выводом из результатов теста будет то, что модели стали реже отвечать "согласием", а не "модели стали хуже считать". Вероятно, поведение моделей изменили, и, в случае "неуверенности" в достоверности ответа она теперь склоняется к отрицанию, чем согласию", - прокомментировал Алексей Сергеев.

По его словам, в ответах на "чувствительные" вопросы модели стали чаще избегать ответа на провокационные вопросы, не объясняя причины. Это также свидетельствует об изменениях в поведении, этических ограничениях, а не способностях к рассуждениям на заданную тему.

Что касается задач программирования, Алексей Сергеев объясняет, что в исследовании метрикой оценки качества была "исполняемость" кода (то есть возможность запустить сгенерированный код как есть, и сразу получить результат), а не оценка его правильности. "Мы видим что ответы моделей стали включать дополнительные символы, возможно, для поддержки форматированного отображения кода (вместо отображения кода в виде обычного текста) в веб-версии ChatGPT. Это элемент эргономики, удобства использования, который был засчитан исследователями как ошибки моделей, что не совсем справедливо характеризует именно способности моделей", - добавил он.

Партнер и директор по развитию ООО "Инновации в управлении кадрами" (HRlink) Дмитрий Махлин отметил, что как пользователь он не заметил снижения скорости и качества ответов ChatGPT. "Инструмент по-прежнему можно эффективно использовать для подготовки маркетинговых материалов, продающих писем на английском языке и многих других задач, связанных с выходом бизнеса на иностранные рынки", - полагает он.

Отвечая на вопрос, каково будущее генеративного ИИ, Дмитрий Махлин отметил, что мир будет и дальше уходить от России на пути развития искусственного интеллекта: "Мы находимся в точке дефицита необходимых базовых технологий и кадров для работы с большими данными и "умными" технологиями. Поэтому шанса догнать лидеров в этой отрасли - США и Китай - на этом историческом промежутке у нас, к сожалению, нет. Те продукты с искусственным интеллектом, которые разрабатывают российские ИТ-гиганты - аналоги ChatGPT или популярные голосовые помощники - пока только развиваются".

По мнению Дмитрия Махлина, даже те страны, которые не являются лидерами в индустрии - Индия, ОАЭ - уже ушли вперед, в том числе, благодаря доступу к глобальным базам данных, которые позволяют обучать нейросети значительно быстрее и эффективнее.

Новости из связанных рубрик