Петербургские ученые разработали инструмент для улучшения поисковых систем и ИИ-ассистентов

06.05.2026

Исследователи из ИТМО создали библиотеку для обработки данных DocuMentor, чтобы точнее анализировать и извлекать иерархическую структуру документов. Программа работает на основе большой языковой модели для оптического распознавания текста и определяет расположение элементов в PDF-файле с точностью до 98%. С помощью инструмента можно сделать документы машиночитаемыми и использовать их для создания эффективных систем поиска или чатов-ассистентов в крупных компаниях. Систему планируют использовать в проекте Министерства строительства и жилищно-коммунального хозяйства России для построения базы данных на основе нормативных документов.

Чтобы обрабатывать большой объем корпоративных документов и строить на их основе базы данных, нужно точно распознавать текст и его структуру. Обычно для этого используют алгоритмы автоматизации — это программное обеспечение, которое считывает текст и идентифицирует его отдельные элементы: заголовки, абзацы и другие. Однако у существующих инструментов в этой сфере есть недостатки: например, программа для оптического распознавания символов Tesseract не умеет определять структуру текста, а решения на основе больших языковых моделей (например, от OpenAI) плохо работают с объемными документами и "теряются" в контексте и структуре. Кроме того, при работе с открытыми сервисами велик риск утечки конфиденциальных данных, которые могут содержаться в корпоративных документах.

Разработчики Института ИИ ИТМО разработали инструмент, компенсирующий недостатки известных решений. Они создали библиотеку для обработки данных DocuMentor, которая позволяет с высокой точностью распознавать и извлекать иерархическую структуру документов, идентифицируя различные элементы внутри: заголовки, таблицы, изображения, формулы. Сервис работает с наиболее распространенными форматами документов: PDF (тексты и сканы текстов), DOCX и языком разметки для форматирования текстовых документов Markdown. В дальнейшем авторы планируют "научить" программу обрабатывать и другие форматы документов.

Библиотека преобразует документы в машиночитаемые JSON-файлы (текстовый формат обмена данными, основанный на JavaScript), которые содержат информацию о структуре документа: заголовках, абзацах, таблицах и других элементах. "Размеченные" документы можно использовать в системах поиска — в частности, они применяются при создании чатов-ассистентов для сотрудников крупных компаний.

В основе библиотеки — большая языковая модель для оптического распознавания изображений vlm dots OCR. Также разработчики дополнили решение инструментами по автоматизированному сбору и структурированию DOCX и считыванию текстового слоя из PDF и построили дополнительные алгоритмы, чтобы улучшить качество распознавания документов на каждом этапе: выделении отдельных элементов внутри документа, распознавании заголовков разного уровня, извлечении стилей, размеров шрифтов и исправлении ошибок, сделанных vlm dots OCR при выделении структуры.

Исследователи проверили, насколько точно система обрабатывает документ и анализирует его структуру, и сравнили с популярными аналогами Dedoc и Marker. DocuMentor совершает ошибки при распознавании символов в 1,3% случаев, а при распознавании слов — в 2,5%. Это примерно в 6-10 раз меньше ошибок при анализе текстов и в 2-6 раз меньше ошибок при анализе сканов PDF-файлов по сравнению с аналогами. Также DocuMentor с высокой точностью определяет расположение элементов в PDF-файлах — около 98% для обычных текстовых PDF и 94% для сканов.

Сервис можно интегрировать в любые продукты для распознавания и анализа структуры документов. Например, создатели планируют внедрить программу в мультиагентную систему ProAGI для разработки ПО. Фреймворк станет одним из инструментов, который агент сможет использовать для обработки PDF-файлов.

"Преимущество нашей библиотеки в том, что мы впервые поэтапно построили алгоритм извлечения из документа максимального объема информации о его структуре при минимальном количестве ошибок. Нашим инструментом заинтересовались не только ученые, но и коммерческие компании, где с помощью библиотеки можно обрабатывать документы во внутреннем контуре. Понимание структуры документа — ключевой навык для разработки систем поиска и построения баз знаний для интеграции ИИ в рабочие процессы", — рассказал один из разработчиков библиотеки, инженер Института ИИ ИТМО Михаил Ковальчук.

Петербургские ученые разработали инструмент для улучшения поисковых систем и ИИ-ассистентов

Новости из связанных рубрик

Регионы

"Пилар" построил для своих клиентов более 70 новых АМС на юге России

"Аквариус" представил результаты запуска образовательного проекта по робототехнике в Тверской области

РФ

Алексей Клонцак назначен замминистра цифрового развития Республики Татарстан

Единую экосистему для инноваций создают в Приморье

Санкт-Петербург

Петербургские археологи оцифруют памятники культурного наследия Палестины

VK Tech и Ленинградский зоопарк займутся поддержкой исследовательских проектов в природной среде

На GitHub случился сбой

Доля застройщиков, использующих ТИМ, достигла 49%

Android-приложения можно взломать за 50 центов

Интернет-рекламодатели снизили бюджеты

Rusprofile назвал онлайн-торговлю одним из самых быстрорастущих секторов

"Пилар" построил для своих клиентов более 70 новых АМС на юге России

Lamoda перевела на КЭДО VK HR Tek всех сотрудников

ФНС России внедрила систему технического учета "СДИ Базис"

Cometal внедрил ИИ-помощников для работы с данными и контрагентами

"Газпром нефть" модернизировала систему управления добычей на месторождении в Оренбуржье

"Свеза" усилила безопасность производства с помощью цифровых технологий

Минимум пять провайдеров по одной сети в каждый дом - как должен работать недискриминационный доступ

Видео-невидео. Как "М.Видео" из профильного поставщика электроники превратился в "тысячу мелочей"

Каждый второй пользователь создает веб-проекты с помощью искусственного интеллекта

"МТС Линк" и "Рустелетех" представили совместное решение для телемедицины

Рост спроса на Wi-Fi на вокзалах: пассажиры скачали почти 3,5 тыс. терабайт за полгода

"Холдинг Аква" запустил цифровую систему комплаенса на платформе MWS Tables

В Контур.Банке появился интернет-эквайринг для бизнеса