© ComNews
27.04.2026

На конференции ICLR 2026 в Бразилии ученые из Института AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет, способы решения и оценки качества предсказаний модели для Speech-to-LaTeX - перевода устных формул в письменную математическую запись. Решение позволяет человеку произнести формулу или целое предложение с математическими выражениями, а на выходе получить структурированный текст в формате LaTeX. Это стандарт, который широко используется в научных статьях, учебных материалах и цифровых редакторах, таких как Overleaf.

Распознавать математическую речь гораздо сложнее, чем обычную, поскольку формулы часто содержат сложные вложенные конструкции, неоднозначные фразы и зависят от контекста. Одна и та же устная формулировка может означать несколько различных математических записей.

Ключевой проблемой в этой области долгое время было отсутствие качественных открытых данных для обучения ИИ-моделей. Когда исследователи начали работу, готовых крупных датасетов с аудиозаписями математической речи, особенно записанной людьми, практически не существовало. Были текстовые наборы с формулами и их описанием, но не хватало именно живого аудио, на котором можно полноценно обучать и проверять такие системы. Поэтому исследователи создали собственный открытый датасет. В него вошло более 66 тыс. человеческих аудиозаписей и 571 тыс. синтетических, а также около 12 тыс. уникальных математических предложений и 10,7 тыс. отдельных уравнений на русском и английском языках.

Для сбора данных использовалась платформа разметки: людей просили озвучивать формулы, а синтетические аудиозаписи помогли существенно расширить выборку. Такое сочетание живой и сгенерированной речи сделало модели более устойчивыми к разным голосам, акцентам и особенностям произношения.

Кроме того, в ходе исследования ученые сравнили два подхода к решению задачи распознавания устной математической речи. Первый подход - ASR post-correction. Когда сначала аудио переводится в обычный текст с помощью системы распознавания речи, а затем большая языковая модель исправляет результат и преобразует его в корректную запись LaTeX. Второй - end-to-end Audio-LLM, когда модель дообучается так, чтобы работать напрямую с аудио и сразу выдавать готовую формулу. Лучшие результаты показал именно второй вариант, но он требует значительно больше вычислительных ресурсов и более крупных моделей. Поэтому с практической точки зрения исследователи считают разумным компромиссом первый подход - ASR post-correction с языковыми моделями размером около 0,5-1,5 млрд параметров.

"Наш датасет может быть полезен исследовательскому и профессиональному сообществу далеко не только для задачи Speech-to-LaTeX. Благодаря своему составу и качеству разметки он может использоваться в самых разных задачах, включая автоматическое распознавание речи, определение языка, голосовую биометрию, защиту от подделки голоса и другие направления, где важно анализировать аудиосигнал и речевые особенности", - отметил Дмитрий Корж, научный сотрудник группы "Доверенные и безопасные интеллектуальные системы" Института AIRI.

Новости из связанных рубрик