Платные и бесплатные программы для распознавания текста

Содержание

Программа для распознавания текста: ТОП-7 лучших утилит

Платные и бесплатные программы для распознавания текста

Оптическое распознавание текста – процесс, при котором сфотографированный или отсканированный текст, с помощью специальной программы, переводится в формат документа.

То есть, вместо картинки вы будете иметь стандартный набранный текст, который можно редактировать.

В данном материале мы обсудим, какая программа для распознавания текста лучше (ТОП-7 утилит приведены ниже).

Выбор

Как же выбрать наиболее подходящую программу, и какие основные особенности имеет такой софт?

Отличаться он может по разным показателям – точности распознавания, способности работать с тем или иным языком, возможности сохранять исходную структуру текста и т. п.

Такой софт может распространяться платно и бесплатно, и быть реализован как онлайн (в виде особых сервисов), так и в форме предустанавливаемых программ.

Алгоритм работы заключается в том, что для каждой буквы алфавита составляется база вариантов того, как она может выглядеть на фото, выделяются и сохраняются ее основные элементы.

Как только такие элементы обнаруживаются на фото, программа распознает соответствующую букву.

В зависимости от того, насколько качественно и подробно была составлена такая база, зависит качество распознавания материала в итоге.

Потому важно, чтобы софт был рассчитан на работу именно с русским языком (некоторые программы могут работать с текстом, написанным сразу на двух языках, другие – нет).

Кроме того, некоторые утилиты и сервисы способны сохранять даже изначальную структуру текста (таблицы, списки), тип его оформления (отступы и т. п.) и даже шрифт.

В каких же случаях такой софт необходим?

  • При создании документов, когда имеется только распечатанный вариант;
  • При составлении рефератов, докладов и необходимости процитировать в них большой отрывок текста из книги;
  • Для редакторских работ, когда текст имеется лишь в формате фото и т. д.

На самом деле сфера использования софта очень велика, и правильно выбранный, он способен облегчить и ускорить работу с текстом.

Технические характеристики

Софт отличается по многим параметрам: способу реализации (онлайн или в виде утилиты), лицензии на использование (платно или бесплатно), списку распознаваемых языков, качеству распознавания и другое.

Для того, чтобы пользователь мог сделать правильный выбор максимально быстро, ниже в таблице приведены основные характеристики таких программ.

Все утилиты, перечисленные в таблице, ниже описаны подробно, и размещены в порядке ТОПа, от лучшей к худшей.

Abbyy Fine Reader

Скачать Abbyy Fine Reader можно по ссылке: http://soft.mydiv.net/win/files-ABBYY-FineReader-OCR-Professional.html.

Это наиболее качественный и многофункциональный софт в данном ТОПе. Он отличается высокой точностью распознавания и имеет целый ряд преимуществ, распространяется платно.

Программа успешно работает со множеством языков, в ходе распознавания способна сохранять структуру текста и тип его форматирования.

Предназначена для профессионалов, потому, по мнению большинства пользователей, своих денет стоит.

Позитив:

  • Высокое качество распознавания;
  • Большое количество поддерживаемых языков;
  • Способность сохранять стиль форматирования и особенности структуры документа достаточно точно;
  • Наличие бесплатной пробной версии на 10 дней;
  • Отсутствие снижения качества работы даже при больших объемах текста (что нередко наблюдается у других программ, которые хуже и хуже распознают текст с каждой последующей загруженной фотографии, и проблема устраняется только после перезапуска).

Негатив:

  • Довольно значительная нагрузка на аппаратные ресурсы компьютера;
  • Платное распространение по высокой стоимости при довольно коротком пробном периоде (всего на 10 дней);
  • Замедление работы устройства при работе программы.

Отзывы о данном софте различны: «Хорошая программа, очень помогает в работе», «Не стоит своих денег – есть и бесплатные программы с таким же качеством распознавания».

OCR Cunei Form

Загрузить программу OCR Cunei Form можно по ссылке: http://soft.mydiv.net/win/files-CuneiForm.html.

OCR Cunei Form – пожалуй, одна из наиболее функциональных и удобных программ, среди тех, что распространяются бесплатно.

Обеспечивает достаточно высокое качество распознавания, работает даже с фотографиями плохого качества.

Программа позволяет редактировать фото прямо в процессе работы с ним, достаточно хорошо распознает шрифты и структуры (хотя и не работает с рукописным текстом).

Способна сканировать файлы напрямую, и отправлять их в редактор в текстовом виде.

Имеет достаточно удовлетворительную скорость работы.

Позитив:

  • Высокое качество распознавания;
  • Поддержка большого количества языков;
  • Бесплатное распространение;
  • Довольно высокая скорость работы.

Негатив:

  • Отсутствие встроенного переводчика;
  • Никое качество проверки на орфографию;
  • Отсутствие возможности работы с рукописным текстом.

Отзывы юзеров об этой программе таковы: «Неплохой софт», «Учитывая, что программа бесплатная, работает просто отлично».

Readiris Pro

Загрузите программу Readiris Pro на свой компьютер по ссылке: http://soft.mydiv.net/win/files-Readiris-Pro.html.

Readiris Pro – еще один платный софт, обеспечивающий достаточно разнообразную и стабильную работу по распознаванию и редактированию теста.

Имеет более узкий функционал по сравнения с первой программой в ТОПе, но и распространяется по более низкой цене.

Может работать с изображениями плохого качества, распознает различные, но не рукописные, шрифты.

Не способен выполнять перевод, а также сканировать документы напрямую в программу для дальнейшего распознавания – можно только добавлять по отдельности готовые файлы-картинки.

Позитив:

  • Высокое качество распознавания материала;
  • Достаточно значительная скорость работы;
  • Способность сохранять структуру документа и распознавать шрифт, которым он напечатан.

Негатив:

  • Отсутствие возможности прямого сканирования прямо в программу;
  • Отсутствие встроенного переводчика;
  • Программа не может работать с рукописным текстом.

Что же пользователи говорят о данном софте? «Хорошая программа за свои деньги», «Если уж покупать софт, то лучше отдать предпочтение Abbyy Fine Reader – стоит почти столько же, а качество работы лучше и функционал шире».

OCR Freemore

Скачать данную утилиту вы можете по ссылке: http://softcatalog.info/ru/obzor/programmy-dlya-raspoznavaniya-teksta#collection-57242.

OCR Freemore распространяется бесплатно и имеет, вполне приемлемый для бесплатного софта, базовый функционал. Качество работы достаточно высокое.

Программа легкая и небольшая, при работе существенной нагрузки на центральный процессор не оказывает, работу компьютера не тормозит.

Ориентирована полностью на англоязычного пользователя, но с текстами на русском языке работает довольно хорошо, и вообще поддерживает для распознавания достаточно много языков.

Имеет очень узкий, даже для бесплатной программы, дополнительный функционал.

Позитив:

  • Бесплатное распространение;
  • Минимальная нагрузка на аппаратные ресурсы компьютера;
  • Высокое качество работы;
  • Высокая скорость работы.

Негатив:

  • Отсутствие проверки орфографии;
  • Отсутствие возможности перевода;
  • Отсутствие сканирования напрямую в программу для дальнейшего распознавания;
  • Полностью англоязычный интерфейс.

Отзывы пользователей об OCR Freemore таковы: «Очень неудобно пользоваться, так как все на английском», «Работает быстро и стабильно без потери качества распознавания».

Abbyy Screenshot Reader

Загрузить данный софт можно по ссылке: http://softcatalog.info/ru/obzor/programmy-dlya-raspoznavaniya-teksta#collection-57243.

Abbyy Screenshot Reader – специфическая программа от того же разработчика, что и первый софт в ТОПе.

Она довольно необычна и предназначена для работы не со сканированным или сфотографированным текстом, а именно со скриншотами экрана, что очень удобно, когда требуется работать с текстом, защищенным от копирования.

В связи с этим базовый функционал программы несколько необычен.

Она не способна сканировать, а также плохо работает с изображениями низкого качества, но может осуществлять перевод и проверку орфографии. Не предназначена для работы с рукописным текстом, но при наличии небольших его фрагментов вполне способна распознать его. Распространяется платно, но имеет бесплатный пробный период.

Позитив:

  • Качественная работа со скриншотами любого разрешения;
  • Наличие встроенного переводчика и проверка орфографии;
  • Высокое качество распознавания.

Негатив:

  • Очень узкую специализированность;
  • Не всегда качественное распознавание шрифтов и структур;
  • Платное распространение, хотя есть бесплатный пробный период на 2 недели.

Пользователи оставляют о программе следующие отзывы: «Вообще не вижу смысла в ее использовании, ведь содержимое страницы можно просмотреть и так», «Довольно удобно – ускоряет многие рабочие процессы».

Adobe Acrobat

Скачайте данный софт по ссылке: http://softcatalog.info/ru/programmy/adobe-acrobat.

Программа выполняет не только распознавание, но и иные работы с файлами PDF. Распространяется платно.

Имеет достаточно узкий функционал именно относительно распознавания текста, но оснащена множеством других функций.

Позитив:

  • Многофункциональность;
  • Стабильная работа;
  • Минимальная нагрузка на аппаратные ресурсы ПК;

Негатив:

  • Платное распространение с коротким бесплатным периодом;
  • Отсутствие проверки орфографии и перевода;
  • Плохо распознает шрифты.

Отзывы о софте таковы: «Хорошая многофункциональная программа», «Удобно работать, выполняет множество целей».

Free Online OCR

Сервис доступен по ссылке: http://www.newocr.com/.

Единственный онлайн-сервис в этом ТОПе.

Функционал сервиса достаточно узкий, но он работает стабильно, легко грузится и доступен всегда.

Позитив:

  • Не нужно ничего скачивать на свой компьютер;
  • Нагрузка на аппаратные ресурсы минимальная;
  • Не занимает память на ПК;
  • Быстро загружается и всегда доступен.

Негатив:

  • Полное отсутствие дополнительных функций;
  • Недоступность в режиме офлайн;
  • Скорость работы зависит от скорости интернета.

Отзывы пользователь; «Довольно удобно», «На один раз подойдет».

Вывод

Если вы работаете с текстом постоянно и профессионально, то вам подойдет софт Abbyy Fine Reader.

Однако, если нужна именно бесплатная программа, то вполне удастся обойтись и OCR Cunei Form.

Для простой и быстрой работы со скриншотами скачайте Abbyy Screenshot Reader, но строго говоря, без этой программы вообще можно обойтись.

Если распознавание – только одна, и не самая частая задача при вашей работе с документами, то отдайте предпочтение многофункциональной Adobe Acrobat, способной заменить множество программ.

Если де необходимость в распознавании единична, то используйте Free Online OCR.

Источник

Юрий созерцатель

  • Активность: 141k
  • Пол: Мужчина

Юрий созерцатель

Источник: https://pomogaemkompu.temaretik.com/1809334639309884201/programma-dlya-raspoznavaniya-teksta-top-7-luchshih-utilit/

Лучшие программы для распознавания и сканирования текста

Платные и бесплатные программы для распознавания текста

Представляем вашему вниманию программы для распознавания и сканирования текста, с помощью которых можно оптимизировать процесс оцифровки документов, рукописных или бумажных книг.

Рассматриваемые нами приложения легко переводят png, jpg, pdf и «бумажные файлы» в удобный для редактуры в Word формат и другие офисные ПО, редактируют распечатанный или сфотографированный материал в полноценный текст.

ABBYY FineReader скачать

Приложение легко распознает печатные символы и преобразовывает отсканированные документы в цифровые форматы. Считается лидером в своей категории, поскольку выполняет свои задачи качественно и быстро, в отличие от подобных аналогов.

Эбби ФайнРидер имеет свою OCR технологию обработки материала, функции для захвата данных на разных источниках, а также инструменты для обработки PDF-объектов, их редактирования и комментирования.

Также доступна автоматизированная конвертация, сохранение разметок, обработка текста на разных языках, поддержка подключаемых устройств и интегрированный редактор. Бесплатная версия ограничивает работу софта после 15 дней использования.

OCR CuneiForm скачать

Программа специализируется на идентификации сканированного или сфотографированного текста, сохраняя его структурирование и гарнитуру шрифта.

Понимает любой печатный шрифт, отправляет распознанный результат во встроенный редактор текста, переделывает электронные копии и графические файлы в удобный вид для редактуры. В состав комплекса входят два программных обеспечения для пакетной и одиночной обработок.

Распознанные документы легко сохранить в удобном формате или отыскать их в поиске. Дополнительно прога может определять таблицы, текстовые блоки и графические картинки вне зависимости от сложности, объема и четкости текста.

Adobe Reader скачать

Популярный просмотрщик всех видов PDF-файлов с базовыми функциями работы с документацией. Позволяет просматривать, копировать, менять ориентацию или отправлять на печать документы. Для слабовидящих юзеров доступна опция масштабирования, увеличивающая размер шрифта до нужных параметров.

Также можно воспользоваться функцией трёхмерного изображения и воспроизведения интегрированных в мультимедийный контент объектов. Доступен поиск в PDF картах, портфолио и файлах, а также комментирование файлов, присоединение электронных подписей и настройка плагинов для веб-навигаторов.

Из минусов бесплатной версии отметим ограниченный только просмотром функционал.

WinScan2PDF скачать

Портативная утилита для считывания данных со сканеров и сохранения материала в PDF.

Софт переводит содержимое документов в цифровые форматы, одновременно обрабатывает несколько книг с последующим сохранением в один файл с соответствующим количеством страниц.

В настройках можно выбирать качество сохраняемой работы, создавать много страниц в одном документе, менять язык интерфейса. ВинСкан2ПДФ позволит быстро отсканировать бумажную документацию, обработать сразу несколько страниц и создать многостраничный ПДФ.

VueScan скачать

Программа-имитатор работы драйвера для расширения функциональных возможностей разнообразных моделей сканеров. Быстро подключается к устройствам сканирования, работает с негативами, старыми фотоснимками и слайдами без потери качества.

В пользовательских настройках можно настраивать все этапы сканирования, сохранять отсканированную документацию в TIFF, JPEG и PDF форматах, распознавать тексты, использовать глубокую настройку готовой работы и применять множество установок.

Фри-версия накладывает водяные знаки на работу.

SimpleOCR скачать

Утилита распознает рукописный и машинный текст на датском, английском и французском языках, имеет интегрированный редактор и большой словарный запас.

СимплеОЦР считывает данные со сканеров и проводит конвертацию материала в TXT, TIFF и DOC форматы, переводит напечатанный на бумаге текст и рукопись в цифровой формат, идентифицирует картинки и шрифты.

Также доступно сравнение отсканированного ранее текста с полученным, а также внесение изменений. Бесплатная версия предоставляет только 14 дней распознавания текстов.

Readiris Pro скачать

Один из лидеров в категории OCR программ, который сканирует и распознает бумажную и рукописную документацию, работает с более 100 языками и имеет интегрированный редактор. Позволяет отсканировать и оцифровать материал, а с помощью редактора внести изменения.

Реадирис конвертирует в формат изображения, таблицы и документа, работает с облачными хранилищами и ftp-папками, экспортирует в DJVU. В настройках можно улучшать качество документа, поворачивать его или сохранять в виртуальном хранилище.

Ознакомительная версия активна 10 дней и дает на обработку только 100 страниц.

Microsoft OneNote скачать

Является дополнением к Office Mobile пакету и предоставляет расширения для создания списков задач, покупок или заметок.

В функционале доступно создание маркированных списков, отметка галочкой выполненных пунктов, ввод рукописных примечаний сенсорным нажатием или цифровым пером, добавление графических картинок.

Немаловажным плюсом утилиты является работа мобильной версии с OneDrive для хранения всех правок заметок, их просмотра или редактуры. Понятный русскоязычный интерфейс и бесплатное распространение станут приятными плюсами в работе с этой удобной прогой.

Freemore OCR Features скачать

Качественное ПО для оптического распознавания текста из изображений и ПДФ-документации.

Доступно извлечение текста из картинки, которая получена с цифровой камеры, сканера или мобильного телефона, дешифровка и зашифровка символов, сохранение материала в TXT и Word, редактура метаданных, предпросмотр документации, применение пароля или цифровой подписи.

Софт имеет методику сверхскоростной обработки и передовой кодировки, пресеты с оптимальной настройкой, поддерживает многоядерные процессоры. Продукт совместим со многими известными фирмами сканеров, открывает картинки разных форматов, защищает работу паролем и в реальном времени быстро обрабатывает материал.

TopOCR скачать

Программа легко оптически распознает, редактирует и читает текстовую документацию.

Благодаря своей многофункциональности может распознать и отсканировать материал, а также внести изменения с помощью опций графического редактора и электронного переводчика.

Приложение озвучивает текст на 11 языках, быстро переводит документацию и создает аудиокниги. Поддерживает многие распространенные форматы, работает напрямую со сканером и озвучивает текст. Из минусов отметим отсутствие русскоязычной поддержки.

Источник: https://zen.yandex.ru/media/tvoiprogrammyru/luchshie-programmy-dlia-raspoznavaniia-i-skanirovaniia-teksta-5d494e85ae56cc00ac9512cf

Распознавание документов на частном примере — обзор доступных платных и бесплатных решений

Платные и бесплатные программы для распознавания текста

Всем привет! Типичная ситуация сложилась в компании, в которой я работаю. В бухгалтерии вечный аврал, людей не хватает, все занимаются чем-то безусловно важным, но по сути бесполезным. Такое положение дел не устраивало руководство.

Если подробнее, то проблема в том, что ресурсов бухгалтерии не хватает на текущие задачи, а выделять ставки под новых людей никто не хочет. Поэтому сверху приняли решение порезать некоторые задачи и освободить время бухгалтеров для более полезных дел.

Под нож попала такая работа как сканирование и распознавание документов, копирование, внесение их в прочие рутинные радости.

Так передо мной, как аналитиком, встала задача: найти решение для распознавания документа типичного для моей компании — счет-фактуры — структурировать его в имеющиеся хранилища, а также в 1С. Решение, которое будет удобным, понятным, и не влетит компании в копеечку.

Опыт получился занятным, решил поделиться тем, что удалось собрать. Возможно я что-то упустил, поэтому велком в комментарии, если есть, что добавить. Программы сканирования документов, программы распознавания документов — не новое решение на рынке, его можно найти как в бесплатных программах, так и встроенных в системы.

Начал я с бесплатных программ:

  • glmageReader
  • Paperwork
  • VietOCR
  • CuneiForm.

В ходе распознавания нашего счета-фактуры такими программами я увидел следующее:

  • В таких программах как VietOCR, Paperwork, glmageReader можно настроить хранение отсканированных документов в определенные папки, Paperwork умеет их даже сортировать, согласно меткам.
  • В основном они хорошо справляются с текстом, а там, где текст распознан некорректно, в некоторых программах можно вручную изменить содержимое, прежде чем экспортировать файл.

Однако есть и проблемы:

  • Есть разница между работой с pdf сканами и png. Не всегда удается удачно конвертировать png в pdf.
  • Большинство таких программ сложно справляются с распознаванием документов табличного вида, даже самого простого формата. В результате мы получаем распознанный текст без размеченных полей.
  • Иногда неточно определяется шрифт, вследствие чего при конвертации весь распознанный текст наезжает друг на друга.
  • В процессе распознавания иногда необходимо делать выравнивание по ключевым словам, с доворотами и смещением координат.
  • В некоторых программах таблица распознавалась как картинка и экспортировалась в новый документ Word тоже в качестве картинки, очень урезанной, которую даже сложно разглядеть.
  • При редактировании распознанного содержимого в некоторых программах возникали проблемы, менялся шрифт или сам текст.

Технология сработала достаточно хорошо, Учитывая, что программы бесплатные, описанные выше проблемы допустимы. Однако, я искал более упорядоченного решения.

Затем я исследовал распознавание в ABBYY FineReader 15 Corporate

За 7-дневный срок триала я изучил и эту платформу. Что отметил:

  • Когда я открыл png файл, он отлично был считан и в результате удачно конвертирован в pdf без потери качества изображения и текста.
  • Программа отлично знает, как отсканировать документ для редактирования текста. Причем в режиме редактирования файла формата png текст удается отредактировать без проблем, но иногда слетает разметка.
  • Однако то же самое я не могу сказать про редактирование файла-скана pdf. При попытке редактирования летели слои.
  • Табличный вид распознается качественно, вся структура сохраняется, меня это порадовало.
  • OCR редактор хорошо распознал мой сформированный pdf счет-фактуры. Где-то пару символов требовалось поправить вручную.
  • Однако, была ситуация, что почти весь подобный документ распознался с меньшей точностью и данных для изменения вручную было уйма. Думаю, здесь можно было бы решить вопрос технически, но это затратило бы больше времени.
  • Здесь можно настроить автоматическую конвертацию входящих документов, которые регулярно будут тянуться из указанной папки, по указанному расписанию.
  • Он позволяет сравнивать версии документов, даже если они в разных форматах. При большом потоке документов и правок в них, это очень удобно.

От использования этого софта были приятные впечатления. Однако, когда я обратился к ценнику системного решения ABBYY Flexicapture (а мне нужно именно системное), то выяснил, что решение, особенно кастомизированное, обходится в довольно круглую сумму, около 400 тыс. руб./мес.

и выше за 10 тыс. страниц. Я стал искать альтернативу. Как освободить руки сотрудника, получить качественное распознавание документов и не переживать за сохранность и структуру данных.

И тут я решил получше разглядеть elma rpa, которую я уже изучал ранее

Вендор предлагает перекинуть значительную часть работы по экспорту данных в ERP с плеч бухгалтеров на роботов. По сути, именно это решает поставленную передо мной задачу. Чтобы познакомиться с распознаванием в этой системе, я взял у вендора триальную версию системы.

Здесь я обнаружил, что распознавание не преследует цели конвертировать полученные данные в новый документ-файл. Здесь главная цель — распознавание реквизитов документа и их передача в другие системы/сайты/приложения.

Кроме того, роботы складывают всю информацию куда надо: автоматически находят нужные папки и сохраняют в необходимых форматах. Какие виды распознавания в системе я посмотрел:

Распознавание по шаблону

Нам предлагается на основании шаблона документа распознать подгружаемый документ. Насколько мне известно, этот вид распознавания бесплатный, внутрь зашит движок Tesseract. Что отметил:

  • Этот вид распознавания работает именно со сканами формата jpg и png, pdf он пока не рассматривает. Но продукт еще молодой, думаю, все впереди.
  • Этот вид распознавания входит в бесплатную версию Community Edition
  • Удобно размечен текст по блокам, которые можно сопоставить, согласно переменным, которые мы создали в контексте робота. Таким образом вручную настроить, что именно тянем в распознавание.
  • Нашу счет-фактуру он распознал 50/50, некоторые слова подменил как посчитал нужным. 🙂

Однако, вендор на данный кейс сообщил, что этот вид распознавания адаптирован под простые документы, с текстовой структурой или с легкими формами.

И посоветовал для распознавания счета-фактуры использовать другой вид распознавания — intellect lab.

Процесс тот же, загружаем шаблон и по нему распознаем. Но здесь шаблон отправляется на облачный сервер. От сервера получаем ответ (распознает такой тип документа или нет), и если распознается, то передается структура шаблона (переменные для маппинга), для сопоставления переменных, которые необходимо будет записать в RPA процессе. В процессе воспроизведения мы отправляем уже документ, который хотели бы распознать и получаем ответ от iLab сервера о распознавании.

Что отметил по поводу этого распознавания:

  • Здесь уже распознавание работает как программа сканирования документов pdf, и при этом работает и с форматами jpg и png.
  • Качество документа не влияет на эффективность распознавания. Даже документы с плохим качеством распознаются корректно.
  • Счет-фактура распозналась полностью и без подмен переменных.
  • Робот сумел получить скан с почты, распознать его и создать его экземпляр в 1С. То есть автоматически сохранил файл там, где мы ему задали, что, естественно, крайне удобно.
  • Входит в бесплатную Community Edition в виде распознавания документа в облаке. Подходит, если используем стандартные типы (СФ, УПД, АВР и др.), и, например до 100 документов в месяц или до 500 в год. (Стоит заметить, что считаем не в страницах, а в документах непосредственно.)

Сам процесс распознавания документов довольно сложно отобразить на видео, так как это происходит в коробке, а экран пустует несколько секунд. Поэтому я сделал отдельную запись распознанных данных в блокнот для визуализации. Соответственно, эти же данные робот записывает в 1С, создавая там новый документ: Что удалось выяснить по ценам: Если мы, например, хотим работать масштабно именно с ilab распознаванием, то за наши 10 000 документов придется выложить:

  • примерно 180 000 руб. единовременно,
  • плюс, допустим, 400 000 руб. покупка робота с оркестратором
  • итого: 580 000 руб.

Робот бессрочный, а 10 000 документов на какое-то время хватит. Довольно выгодно получается, как минимум в том, что заплатим за все один раз.

Что понравилось в распознавании в этой платформе в целом:

  • Можно настроить получение документов по событию, а также, например из электронной почты и любых других внешних источников. У меня пока была цель настроить получение с почты.
  • Все считанные данные с документа можно спокойно записать в контекстные переменные и далее их передать в необходимые системы, приложения, сайты, ВМ и т д. И я не переписываю уже ничего руками.
  • Скорость обработки. 15 секунд и объект распознан, а остальной порядок действий — это счет по минутам. Если заявиться с потоковым сканированием с большим количеством документов, думаю это не составит больших временных затрат.
  • Много качественного функционала в свободном доступе, для небольших компаний им можно вполне обойтись.

Итого:

  • Бесплатные программы справляются с задачей распознавания документов лучше, чем я предполагал, однако за счет них значительно ускорить работу с большим объемом не удастся
  • ABBYY FineReader хорошо справляется с обработкой и распознаванием документов после, однако, чтобы получить системное решение, нужны большие финансовые возможности.
  • ELMA RPA удивила по качеству распознавания документов, вариативностью, а также возможностям хранения и передачи после распознавания, но стоит учесть, что продукт молодой.

Хабы:

  • Искусственный интеллект
  • Финансы в IT

Источник: https://habr.com/ru/post/518460/

8 лучших программ и веб-сервисов для сканирования и распознавания текста

Платные и бесплатные программы для распознавания текста

Наверное, каждому знакома ситуация, когда скан документа, например, страницы книги, необходимо преобразовать в печатный текст. Для этого существуют специальные программы, но основная их масса очень мало кому известна. На слуху у всех, пожалуй, только ABBYY FineReader.

Действительно, FineReader вне конкуренции. Это лучшая программа для сканирования и распознавания текста на русском языке, однако выпускается она исключительно в платных версиях и стоит весьма недешево.

Многие ли готовы выложить за самую бюджетную лицензию почти 7 000 рублей, если собираются обрабатывать одну-две книги в год?

Если вы считаете покупку дорогостоящего коммерческого продукта неоправданной, почему бы не воспользоваться аналогами, среди которых есть бесплатные? Да, они не так богаты функциями, но со многими задачами, которые, как считают многие, «по зубам» только FineReader, справляются вполне успешно. Так давайте познакомимся с несколькими доступными альтернативами. И заодно посмотрим, чем они отличаются от общепризнанного эталона.

ABBYY FineReader

Чтобы сравнивать другие программы с ABBYY FineReader, выясним, чем же он так хорош. Вот перечень его основных функций:

  • Работа с фотографиями, сканами и бумажными документами.
  • Редактирование содержимого файлов pdf — текста, отдельных блоков, интерактивных элементов и прочего.
  • Конвертация pdf в формат Microsoft Word и обратно. Создание pdf-файлов из любых текстовых документов.
  • Сравнение содержимого документов на 35 языках, например, отсканированного бумажного и электронного (не во всех редакциях).
  • Распознавание и преобразование сканированных текстов, таблиц, математических формул.
  • Автоматическое выполнение рутинных операций (не во всех редакциях).
  • Поддержка 192 национальных алфавитов.
  • Проверка орфографии распознанного текста на русском, украинском и еще 46 языках.
  • Поддержка 10 графических и 10 текстовых форматов входных файлов, не считая pdf.
  • Сохранение файлов в графическом и текстовом форматах, а также в виде электронных книг EPUB и 2.
  • Чтение штрих-кодов.
  • Интерфейс на 20 языках, включая русский и украинский.
  • Поддержка большинства существующих моделей сканеров.

Возможности программы великолепны, но для домашних пользователей, которые не обрабатывают документы в промышленных объемах, избыточны.

Впрочем, тем, кому нужно распознать лишь несколько страниц, компания ABBYY предоставляет услуги бесплатно — через веб-сервис FineReaderOnline.

После регистрации доступна обработка 10 страниц отсканированного или сфотографированного текста, в дальнейшем — по 5 страниц в месяц. Больше — за доплату.

Стоимость самой недорогой лицензии FineReader для установки на компьютер — 6990 рублей (версия Standard).

WinScan2PDF

Крошечная и крайне простая бесплатная утилитка WinScan2PDF, конечно, не в состоянии конкурировать с монстром, но основную задачу — распознавание сканированного текста, решает как положено. Причем для этого она не требует даже установки на ПК (портабельная). И управляется всего тремя кнопками.

Для распознавания текста с помощью WinScan2PDF нажмите «Выбрать источник» и укажите подключенный сканер (с готовыми файлами программа, к сожалению, не работает). Поместите в сканер документ и нажмите «Сканировать». Если хотите отменить операцию, нажмите «Отмена». Вот и вся инструкция.

Утилита поддерживает 23 языка, включая русский, и работает с многостраничными файлами. Готовый результат сохраняется в формате pdf, скан документа — в jpg.

Веб-сервис Free-OCR.com

Free-OCR.

com (OCR — Optical character recognition, оптическое распознавание символов) — бесплатный Интернет-сервис для распознавания отсканированных или сфотографированных текстов, сохраненных в формате графического изображения (jpg, gif, tiff, bmp) или pdf. Поддерживает 29 языков, включая русский и украинский, причем пользователь может выбрать не один, а несколько, если их содержит исходный текст.

Free-OCR не требует регистрации и не имеет каких-либо ограничений по количеству загруженных документов. Ограничивается только размер файла — до 6 Mb. Многостраничные документы сервис не обрабатывает, точнее, игнорирует всё, кроме первого листа.

Скорость распознавания сканированного текста довольно высока. Лист А4 с фрагментом книги на русском языке был обработан примерно за 5 секунд, но вот качество не порадовало.

Крупные шрифты — как в детских книжках, он распознает на 100%, а средние и мелкие — примерно на 80%.

С англоязычными документами дела обстоят несколько лучше — мелкий и неконтрастный шрифт распознался правильно примерно на 95%.

Веб-сервис Free Online OCR

Free Online OCR — еще один бесплатный веб-сервис, очень похожий на предыдущий, но с расширенным функционалом. Он:

  • Поддерживает 106 языков.
  • Обрабатывает многостраничные документы, в том числе на нескольких языках.
  • Распознает тексты на сканах и фотодокументах множества типов. Помимо 10 форматов графических изображений, обрабатывает документы pdf, djvu, doxc, odt, архивы zip и сжатые файлы Unix.
  • Сохраняет выходные файлы в одном из 3 форматов: txt, doc и pdf.
  • Поддерживает распознавание математических уравнений.
  • Позволяет повернуть изображение на 90-180° в обе стороны.
  • Правильно распознает текст в нескольких столбцах на одной странице.
  • Может распознать один выбранный фрагмент.
  • После обработки предлагает скопировать файл в буфер обмена, скачать на компьютер, загрузить на сервис Google Docs или опубликовать в Интернете. Также доступна возможность сразу перевести текст на другой язык, используя Google Translate или Bing Translator.

Надо отдать должное Free Online OCR и за то, что он неплохо читает картинки низкого разрешения и малой контрастности. Результат распознавания всех скормленных ему русскоязычных текстов отказался стопроцентным или близким к этому.

Free Online OCR, по нашему мнению, одна из лучших альтернатив FineReader, но бесплатно он обрабатывает только 20 страниц (правда, не указано, за какой период). Дальнейшее использование сервиса стоит от $0,5 за страницу.

Microsoft OneNote

Программа для создания заметок Microsoft OneNote, исключая очень старые и последнюю — 17 версии, тоже содержит функционал OCR. Он не такой продвинутый как в специализированных приложениях, но тоже пригодный к использованию, если нет других вариантов.

Чтобы распознать текст с изображения с помощью OneNote, вставьте картинку в файл («Рисунок» — «Вставить»), нажмите на нее правой клавишей мышки и выберите «Копировать текст из рисунка».

После этого вставьте скопированный текст в любое место заметки.

По умолчанию языком распознавания назначен английский. Если вам нужен русский или какой-либо другой, измените настройку вручную.

Качество распознавания русскоязычного текста в Microsoft OneNote оставляет желать лучшего, поэтому его нельзя назвать полноценной заменой FineReader. Да и обрабатывать в нем большие многостраничные документы весьма неудобно.

SimpleOCR

Старенькая бесплатная программа SimpleOCR — тоже весьма достойный инструмент распознавания текстов с электронных изображений и сканов, но, к сожалению, без поддержки русского языка. Зато в ней есть уникальная функция считывания рукописных слов, а также редактор, позволяющий исправить ошибки перед сохранением готового результата.

Другие возможности SimpleOCR:

  • Проверка орфографии с возможностью пополнять словарь вручную.
  • Чтение документов в низком разрешении и с помарками (есть опция очистки «шума»).
  • Максимально близкая подборка шрифта и передача стилей написания (жирный, курсив). При желании функцию можно отключить.
  • Одновременная обработка нескольких листов или отдельного фрагмента.
  • Выделение возможных ошибок в готовом тексте для ручного редактирования.
  • Поддержка множества модификаций сканеров.
  • Входные форматы электронных документов: tif, jpg, bmp, ink, а также сканы.
  • Сохранение готового текста в форматах txt и doc.

Качество распознавания и печатных текстов, и рукописей довольно высокое.

Программу можно было бы назвать универсальной, если бы не ограничение языковой поддержки. Последняя версия поддерживает только английский, французский и датский языки, добавление других, скорее всего, не планируется. Интерфейс полностью на английском, но прост для понимания. Кроме того, в главном окне есть кнопка «Demo», которая запускает обучающий ролик по работе с SimpleOCR.

Readiris

Программа Readiris бельгийской компании-разработчика I.R.I.S — вот это действительно настоящий конкурент российскому ABBYY FineReader. Мощная, быстрая, кроссплатформенная, основанная на фирменном OCR-движке, используемом производителями Adobe, HP и Canon, она великолепно распознает даже самые трудночитаемые тексты. Поддерживает 137 языков, среди которых есть русский и украинский.

Особенности и функции Readiris:

  • Самая высокая скорость обработки файлов среди приложений такого класса, рассчитано на большие объемы.
  • Сохранение форматирования исходного текста (шрифты, кегль, стиль написания).
  • Одиночная и пакетная обработка файлов, поддержка многостраничных документов.
  • Распознавание математических уравнений, специальных символов и штрих-кодов.
  • Очистка текста от «шумов» — линий, помарок и т. п.
  • Интеграция с различными облачными сервисами — Google Документы, Evernote, Dropbox, SharePoint и некоторыми другими.
  • Поддержка всех современных моделей сканеров.
  • Форматы входных данных: pdf, djvu, jpg, png и другие, в которых сохраняют графические изображения, а также полученное непосредственно со сканера.
  • Форматы выходных данных: doc, docx, xls, xlsx, txt, rtf, html, csv, pdf. Поддерживается конвертация в djvu.

Интерфейс программы русскоязычный, использование интуитивно понятно. Она не предоставляет пользователям возможности редактировать содержимое файлов pdf, как FineReader, но с главной задачей — распознаванием текстов, на наш взгляд, справляется отлично.

Readiris выпускается в двух платных версиях. Стоимость лицензии Pro составляет 99,00€, Corporate — 199€. Почти как у ABBYY.

Freemore OCR

Freemore OCR — (! сайт программы http://freemoresoft.com/freeocr/index.php может блокироваться антивирусами из-за встроенного в установщик рекламного «мусора») — еще одна простая, компактная и бесплатная утилитка, которая тоже неплохо распознает тексты, но по умолчанию только на английском. Пакеты других языков нужно загружать и устанавливать отдельно.

Прочие функции и возможности Freemore OCR:

  • Одновременная работа с несколькими сканерами.
  • Поддержка множества форматов графических данных, в том числе проприетарных, вроде psd (файл Adobe Photoshop). Стандартные форматы графики поддерживаются все.
  • Поддержка pdf.
  • Сохранение готового результата в формате pdf, txt или docx, причем для экспорта текста в Word достаточно нажать одну кнопку на панели инструментов.
  • Встроенный редактор (к сожалению, форматирование исходного документа программа не сохраняет).
  • Просмотр свойств документа.
  • Печать распознанного текста прямо из главного окна.
  • Защита паролем файлов в формате pdf.

На первый взгляд интерфейс программы может показаться сложным, но на самом деле пользоваться ею очень легко. Инструменты поделены на группы, как на ленте Microsoft Office. Если рассмотреть их повнимательнее, назначение той или иной кнопки быстро станет понятным.

Чтобы загрузить электронный документ в окно Freemore OCR, сначала выберем его тип — изображение или файл pdf, и следом нажмем соответствующую кнопку «Load». Чтобы начать процесс распознавания, нажимаем на кнопку «OCR» в одноименной группе инструментов рядом с изображением волшебной палочки (показана на скриншоте).

Результат сканирования англоязычных текстов как с хорошо-, так и с плохочитаемой картинки оказался вполне удовлетворительным.

Не понравилось лишь одно — то, что вместе с программой на компьютер устанавливается всякий мусор — какие-то липовые антивирусные сканеры, оптимизаторы и прочие ненужные вещи, причем без возможности отказаться от них во время установки.

Словом, если бы не этот недостаток, приложение можно было бы рекомендовать в качестве неплохой бесплатной альтернативы FineReader.

Источник: https://CompConfig.ru/software/programmy-i-servisy-dlya-skanirovaniya.html

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.