Альянс в сфере ИИ запустил MERA Code

21.07.2025

Альянс в сфере ИИ представил новый инструмент - MERA Code - первый комплексный открытый бенчмарк для оценки больших языковых моделей в прикладных задачах программирования на русском языке. В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании "Сибирские нейросети".

С развитием больших языковых моделей разработчики все чаще используют искусственный интеллект для генерации кода, автоматизации рутинных задач и работы с документацией. Однако до сих пор не существовало единого способа оценить, насколько хорошо эти модели справляются с практическими задачами в русскоязычной среде. MERA Code - это важный шаг к стандартизации и объективности оценки больших языковых моделей в русскоязычной среде программирования. Он позволяет увидеть, насколько современные большие языковые модели действительно полезны и эффективны в реальных задачах локального рынка.

Ключевые особенности MERA Code:

Прозрачная методика оценки LLM для русского языка: впервые создан стандарт, учитывающий специфику постановки задач и документации на русском языке.
Задачи и методика оценки отражают типичные кейсы, с которыми сталкиваются программисты в русскоязычной среде.
11 разнообразных задач в форматах text2code, code2text и code2code — на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
Честное тестирование — код запускается в изолированных средах, а не просто оценивается по тексту.
Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования.
Анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.

Инструмент MERA Code будет полезен как разработчикам и инженерам в возможности выбирать наиболее эффективные модели для своих проектов, так и исследователям, которые смогут объективно сравнивать модели в единых условиях, и компаниям, получающим возможность принимать решения на основе открытых и прозрачных данных о качестве LLM.

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Онлайн-встречи похудели вдвое. Спасибо ИИ

В 2025 г. пользователи стали проводить на онлайн-встречах в среднем в два раза меньше времени в день по сравнению с предыдущим годом. Теперь они тратят около двух часов на встречи ежедневно. Это изменение может быть связано с активным использованием ...

Искусственный интеллект Яндекс Маркета распознает подозрительные заказы в ПВЗ

Яндекс Маркет начал использовать искусственный интеллект, чтобы выявлять подозрительные заказы, оформленные с постоплатой. Решение позволит предотвратить мошеннические схемы, когда в пункт выдачи (ПВЗ) заказывают товары с оплатой ...

Альянс в сфере ИИ запустил MERA Code

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Онлайн-встречи похудели вдвое. Спасибо ИИ

Искусственный интеллект Яндекс Маркета распознает подозрительные заказы в ПВЗ

Опять двойка. Правоохранительные органы открыли 222 уголовных дела на дропперов

Онлайн-встречи похудели вдвое. Спасибо ИИ

Отечественные серверы обрели популярность в промышленных регионах

АРТ-группировки ополчились на госсектор и промышленность

"Раском" запустил новую высокоскоростную DWDM-магистраль Москва-Минск-Варшава-Франкфурт

Компания StormWall запустила новую точку фильтрации в Санкт-Петербурге

"Нацпроектстрой" цифровизировал управление железнодорожным полигоном "Курскагротерминала"

Россия нацелилась на создание национальной морской системы связи при бедствии

Майнинга меньше не стало, а спрос на электроэнергию вырос

Австралийский контроль в России не появится

"ЕВРАЗ ЗСМК" внедрил интегрированное планирование продаж и производства

"Гравитон" и "Интегра-С" развернули систему видеоаналитики для федеральных трасс по заказу "Автодора"

НБИ помогло повысить прозрачность бизнес-процессов в "Росэнергоатоме"

Партнерский статус с BPMSoft позволит "Газпромнефть-ЦР" выводить экспертизу на внешний рынок

ЛСР цифровизирует жизнь в новостройках

МегаФон ПроБизнес укрепляется на рынке M2M

Осторожно, цифруны! Как при внедрении ИИ не повторить ошибок цифровой трансформации прошлого 10-летия

Российский рынок систем process mining в 2026 г. превысит 2 млрд руб.

Правительство реализовало план по запуску всех 70 федеральных и 425 региональных жизненных ситуаций

Около 31% российских компаний не имеют стратегии внедрения информационной безопасности

За три года маркетплейсы заблокировали по жалобам правообладателей 13,3 млн карточек товаров

Сергей Журавель назначен директором направления "Телеком" компании VPG LaserONE