Российские ученые представили первые модели для перевода надиктованных математических формул в текстовый вид

27.04.2026

На конференции ICLR 2026 в Бразилии ученые из Института AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет, способы решения и оценки качества предсказаний модели для Speech-to-LaTeX - перевода устных формул в письменную математическую запись. Решение позволяет человеку произнести формулу или целое предложение с математическими выражениями, а на выходе получить структурированный текст в формате LaTeX. Это стандарт, который широко используется в научных статьях, учебных материалах и цифровых редакторах, таких как Overleaf.

Распознавать математическую речь гораздо сложнее, чем обычную, поскольку формулы часто содержат сложные вложенные конструкции, неоднозначные фразы и зависят от контекста. Одна и та же устная формулировка может означать несколько различных математических записей.

Ключевой проблемой в этой области долгое время было отсутствие качественных открытых данных для обучения ИИ-моделей. Когда исследователи начали работу, готовых крупных датасетов с аудиозаписями математической речи, особенно записанной людьми, практически не существовало. Были текстовые наборы с формулами и их описанием, но не хватало именно живого аудио, на котором можно полноценно обучать и проверять такие системы. Поэтому исследователи создали собственный открытый датасет. В него вошло более 66 тыс. человеческих аудиозаписей и 571 тыс. синтетических, а также около 12 тыс. уникальных математических предложений и 10,7 тыс. отдельных уравнений на русском и английском языках.

Для сбора данных использовалась платформа разметки: людей просили озвучивать формулы, а синтетические аудиозаписи помогли существенно расширить выборку. Такое сочетание живой и сгенерированной речи сделало модели более устойчивыми к разным голосам, акцентам и особенностям произношения.

Кроме того, в ходе исследования ученые сравнили два подхода к решению задачи распознавания устной математической речи. Первый подход - ASR post-correction. Когда сначала аудио переводится в обычный текст с помощью системы распознавания речи, а затем большая языковая модель исправляет результат и преобразует его в корректную запись LaTeX. Второй - end-to-end Audio-LLM, когда модель дообучается так, чтобы работать напрямую с аудио и сразу выдавать готовую формулу. Лучшие результаты показал именно второй вариант, но он требует значительно больше вычислительных ресурсов и более крупных моделей. Поэтому с практической точки зрения исследователи считают разумным компромиссом первый подход - ASR post-correction с языковыми моделями размером около 0,5-1,5 млрд параметров.

"Наш датасет может быть полезен исследовательскому и профессиональному сообществу далеко не только для задачи Speech-to-LaTeX. Благодаря своему составу и качеству разметки он может использоваться в самых разных задачах, включая автоматическое распознавание речи, определение языка, голосовую биометрию, защиту от подделки голоса и другие направления, где важно анализировать аудиосигнал и речевые особенности", - отметил Дмитрий Корж, научный сотрудник группы "Доверенные и безопасные интеллектуальные системы" Института AIRI.

Российские ученые представили первые модели для перевода надиктованных математических формул в текстовый вид

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

Сбер представил первый в России оптический вычислитель для задач искусственного интеллекта

Россия изучает опыт Китая для развития беспилотных сервисов

В ВЭБ.РФ выделили три главных тренда технологического лидерства

"Мажордом" расширил возможности маркетплейса и аналитики

"Бюро 1440" и ФПК внедрят спутниковую связь нового поколения в поездах дальнего следования

"ЛокоТех" начал масштабный переход на ЭДО

Inventorus запустил ИИ-сервис "Отчёт по ГОСТ" для патентных исследований

"Скорозвон" выпустил голосового робота нового поколения

Цифровая архитектура производства: как АСУ ТП меняет нефтегазовую промышленность

Что нам стоит ЦОД построить

Холдинг ON Медиа и Республика Саха (Якутия) подписали соглашение о развитии кинопроизводства

Сбер представил первый в России оптический вычислитель для задач искусственного интеллекта

Билайн и CDNvideo представили интеллектуальный ИИ-терминал на ПМЭФ-2026

Выручка ПАО "Ива" снизилась на 64%

"Бюро 1440" и ФПК внедрят спутниковую связь нового поколения в поездах дальнего следования