В статье приводится описание разработанного экспериментального метода оценки существующих OCR инструментов для решения проблемы присутствия сканированных документов в наборах данных, использующихся для задач классификации текста. Для классификации документов сканированные документы и документы, в которых невозможно получить текст с помощью программных средств извлечения текста, необходимо преобразовать в машиночитаемый текст, и для этой задачи используется технология оптического распознавания символов (OCR). Цель данной статьи заключается в том, чтобы экспериментально сравнить существующие OCR инструменты, а именно качество перевода сканированных документов в текст. Основными критериями для выбора инструмента OCR были: OCR инструмент должен быть свободно распространяемым, иметь встроенную поддержку русского языка и быть активно развивающимся проектом. Под эти критерии подходили три инструмента: Tesseract, EasyOCR и PaddleOCR. Для данной задачи был составлен корпус цифровых документов, половина из которых являлась отсканированными документами. Документы были взяты из открытых источников: 4 из 6 представленных классов являлись документами, связанными с процессом обучения в высших учебных заведениях Российской Федерации, остальные 2 представляли документы с государственных закупок: договоры и технические задания. Экспериментальная схема включала в себя обучение классификатора Longformer, трансформера для обработки длинных документов, на наборах данных, созданных тремя различными инструментами OCR. Оценка OCR-инструментов производилась по качеству классификации текста, достигнутому Longformer. Результаты эксперимента показали, что Tesseract OCR демонстрирует превосходство в точности распознавания текста, что и повиляло на результирующую точность классификации извлеченного из документов текста.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.