19.12.2023

Каждая компания сталкивается с необходимостью обработки документов. Особенно большие объемы приходятся на бухгалтерию, департаменты логистики и кадров, юридическую службу. Автоматизация рутинных процедур позволяет повысить производительность труда операторов ввода данных и сократить число разного рода ошибок. Мы рассмотрим возможности современных OCR-решений на примере платформы SOICA.

Платформа SOICA от российской компании SL Soft предназначена для распознавания, извлечения и обработки данных из скан-образов и цифровых копий структурированных и неструктурированных документов любого типа. SOICA используется совместно с системами хранения или обработки документации — благодаря REST API платформа легко интегрируется в любой ИТ-ландшафт заказчика.

Задачи, для которых применяется SOICA:

  • оцифровка потока документов любого типа — электронных, сканов и фотографий бумажных экземпляров,
  • атрибутирование электронных документов для последующего автоматического заполнения карточки документа,
  • сравнение различных версий документов для поиска несогласованных изменений,
  • проверка подписей, печатей, реквизитов и других обязательных элементов,
  • модификация документов, в том числе, деперсонализация, нанесение штрих- и qr-кодов,
  • формирование комплектов документов,
  • автоматическое разделение единого файла на отдельные документы.

Импорт и экспорт документов

Платформа SOICA объединяет средства импорта документов из всех источников, включая как физические носители, так и разные информационные системы компании (уже оцифрованные архивы, фотографии, данные с корпоративных почтовых серверов, электронных архивов). Поддерживаются форматы PDF, PDF/A, DOCX, JPG, PNG и другие. Распознанные данные экспортируются в системы заказчика — ERP, CRM, WMS, электронного документооборота, различного рода отраслевые решения (банковские, страховые, медицинские и т.д.). Выгрузка данных происходит в форматах XML, JSON, TXT, а также в шаблоны Office. Система может выгружать обработанное изображение в нужном формате — PDF, JPG, PNG и т. д.

Важно отметить, что при получении документов SOICA самостоятельно определяет их типы, благодаря чему понимает, как документ должен дальше обрабатываться и маршрутизироваться.

Распознавание и классификация данных

Платформа использует 18 фильтров для бинаризации и очистки изображений, пример одного из фильтров на рисунке ниже.


Система может удалить пустые листы, повернуть их, устранить перекосы текста, поправить перспективу, причем сделать это автоматически во время обработки потока документов. При этом каждое изображение сохраняется в оптимальном качестве и размере. Платформа позволяет оцифровывать, в том числе, ветхие документы и копии низкого качества, даже имеющие механические повреждения (порваны, прожжены, рассыпан тонер). Важно отметить, что SOICA, в отличие от большинства имеющихся на рынке OCR-систем, работает не с зонами, а с форматами предоставления данных, что устраняет целый ряд узких мест, которые обычно возникают при распознавании текста с физических носителей.


Поиск и выверка данных

SOICA умеет выполнять целый комплекс задач по первичной обработке документов, которые раньше невозможно было проводить без участия людей. Так, например, она автоматически может определять наличие на документе разного рода печатей, штампов, меток, подписей и прочих критичных для валидации документа элементов. Причем даже тогда, когда они нанесены бледно и нечетко. Соответственно, если такая метка отсутствует, то документ не уйдет в конечную систему автоматически, а пользователь будет оповещен о найденной ошибке. Дополнительно есть возможность анонимизировать документы, например, убрать персональные и иные чувствительные данные.

Кроме того, платформа позволяет сопоставлять данные (номенклатуры, имена, товарные позиции, единицы измерения) с различными базами и справочниками, в том числе, и с внешними источниками, например, с базами ФНС, МВД и другими.

Еще одной полезной функцией является сравнение разных версий документов, причем они могут быть в разных форматах — согласованная версия в .docx и подписанный скан в .pdf.


Работа с комплектностью документов

Платформа позволяет собирать комплекты из обрабатываемых документов, проверять их полноту и идентичность значимых данных. Комплект собирается автоматически, пользователю может приходить уведомление на почту об отсутствии нужных документов в пакете, либо наоборот о наличии лишних документов. Контроль комплектности происходит на основе заранее настроенных ключей — перекрестная проверка данных.

Архитектура и технологии

Для работы клиентской части SOICA достаточно любого более-менее современного браузера, включая Internet Explorer, Firefox, Safari, Chromium и всех продуктов на его кодовой базе (Google Chrome, Microsoft Edge, Opera, Яндекс Браузер и др.). Это значит, что система будет работать на любой из представленных в настоящее время операционных систем для настольных ПК и ноутбуков, в том числе российских. Учитывая, что наиболее требовательные к системным ресурсам элементы производятся на серверах, требования к клиентским рабочим местам минимальны.

Серверная составляющая SOICA может быть развернута на сервере стандартной архитектуры с 32 процессорными ядрами с тактовой частотой 2,7 Ггц, 500 Гбайт места на диске (лучше SSD), сетью с пропускной способностью 100 Мбит/с и выше, работающим под управлением Windows Server 2022 или новее, а также ОС семейства Linux (Alt, Astra и т. д.). SOICA масштабируется горизонтально и вертикально.

Стоимость

Лицензирование системы, при условии развертывания в инфраструктуре заказчика, складывается из бессрочной лицензии на конвейер (набор докеров с сайтами и сервисами SOICA) годовой пропускной способности, измеряемой в количестве страниц в год. Никаких ограничений, как по количеству сотрудников, работающих в системе (администраторы, валидаторы, аналитики), так и связанных с запуском виртуальных средах, нет.

Как заверяют разработчики, до 95% распознавания происходит без участия оператора. По опыту реальных проектов внедрения платформа выполняет 90% технической работы при вводе и первичной обработке документов. При этом SOICA является no-code платформой, и создание сценариев может проводиться без привлечения квалифицированного персонала. Разработчик предоставляет обучающие материалы и оказывает техподдержку.

SOICA рассчитана на применение в компаниях с документооборотом от 100 тыс. страниц в год. Средний объем документов у клиентов составляет 5 млн стр. в год на одно юр. лицо.

В итоге применение SOICA позволяет снизить затраты на обработку документов минимум вдвое по сравнению с традиционными системами потокового распознавания текста. Стоимость обработки одной страницы не превышает 3 руб., а при объемах обрабатываемой документации в несколько сотен тысяч листов она снижается до 1 руб. Средний срок возврата инвестиций — около 6 месяцев.

SOICA является российской разработкой, входит в реестр отечественного ПО и может успешно замещать иностранные решения.

Реклама. ИНН 7704451468 ООО "СОЙКА"