Перевод изображения в текст

перевести изображение в текст
С переводом изображенного на листе текста в текстовый файл легко справиться FineReader. Когда у вас его нет?
Что делать? В моем недавнем случае перепечатать пачку факсов это совершить подвиг. Воспользоваться онлайн конвектором? Не советую вам использовать онлайн конвектор, когда вы работаете с деловыми или личными документами. 
Прогнав текстовое изображение онлайн, вы передаете всю вашу информацию стороннему ресурсу и возможно даже все авторские права на ваш отсканированный печатный труд.

Внимательно читайте пользовательское соглашение. Статьи, повести, бизнес-план, отчетные документы и прочее могут стать вашим подарком сервису.
Не хочется ставить смайлик.


Чтобы вам ни в чем не сомневаться и не перепечатывать с листа, мы воспользуемся программой на русском языке CuneiForm. Программа распространяется бесплатно и без дополнительных условий и распознает изображенные отсканированные тексты на русском, английском и других языках. CuneiForm хорошее подспорье для учащихся и для обычной рутины офисного документооборота.

УСТАНОВКА ПРОГРАММЫ.
После запуска setup.exe, вам будет предложена обычная процедура инсталляции.

Примеры на скриншотах.


Каждая программа имеет свои нюансы, плюсы и минусы. Вам важно понять одно. Исходный источник текста (газетная вырезка, отрывок из книги, документ) его внешний вид, гарнитура и стиль шрифта, цвет самой бумаги, наличие рисунков, фотографий напрямую повлияют на конечный и качественный результат распознания текста.

Ведь перед тем как получить графический файл, нам нужно отсканировать текстовый бумажный документ.

Подготовка сканированного изображения.
Для нашего примера я взял статью из бесплатной газеты для родителей "Непоседа".

Сканируем статью.


Сканирование может быть осуществлено из самой программы, но мой сканер она видеть отказалась.

С принтером - сканером моего коллеги все срослось. Если у вас не получилось отсканировать через программу, сканируйте изображение по-своему.
Я сделал проще. Без входа в программу, отсканировал документ. 
При сканировании выставляем разрешение 600 dpi. Расширение конечного графического файла BMP. Рекомендуемый формат TIFF. 
Выставлять 1200 бесполезно, поверьте моему опыту. Формат JPG для распознания не подойдет, из-за образования вокруг текста муара.


Отсканировав текстовое изображение, открываем программу. 
Программа сохраняется в той директории, которую вы указали при инсталляции, или по умолчанию, Program Files (x86) – папка Cognitive.



 
Запуск программы – sface.exe
Выбирая язык распознавания, обратите внимание. Если в вашем тексте присутствуют английские слова или предложения, установите “Русско-Английский”. Английский язык программа распознаёт прилично, ошибок или пропусков допускает минимальное, но с условием качественного графического изображения текста.


 
Не пытайтесь получить текстовый документ один в один, как на вашем отсканированном изображении.



Программа видит картинки, к сожалению снижая их качество. Сделайте все раздельно.

Перед загрузкой в программу вырежьте текст отдельно, картинки отдельно и сохраните два разных файла.

Картинка-текст и картинка-картинка.


Отличный пример представлен в самой директории программы в папке Images.


Результат распознавания текста может быть различным. Все зависит от настроек (галочек) установленных вами. Поэкспериментируйте с разными настройками. Распознание происходит быстро и не займет у вас много времени.


Когда программа распознала текст, я вам советую экспортировать документ в MSWord. (Microsoft Word).

Выделите всё и увеличьте шрифт.

В нашем примере статья распознана удовлетворительно, и совсем не плохо. Конечный результат зависит от качества исходного документа и шрифта. Хоть заголовок в статье напечатан крупно, буквы для программы оказались не читаемые. Такие пропуски могут случиться, когда в тексте используются дизайнерские шрифты или сложное форматирование с различными эффектами оформления самого текста. Остальной текст в норме, но требует небольшого редактирования. Сама бумага газетной статьи старая, ей уже 7 лет и это тоже может повлиять на качество распознания.

Программа поддерживает пакетное распознание нескольких файлов одновременно.

Очень удобно и быстро. На выходе вы получаете сразу несколько распознанных текстовых файлов.

Для пакетного распознания текста.
Для пакетного распознания, откройте в папке с программой приложение - sbatch.exe.
1. Нажмите |Действия|-|Создание нового пакета|.
2. Впишите в открывшееся окошко название вашего пакета, после этого продолжайте заполнение по примеру в скриншотов.

   
Рекомендую подготовить текстовые изображения в формате TIF.
К примеру, отсканировав файл в формате BMP, откройте этот файл в графическом редакторе, да хотя бы в Paint и сохраните в TIFF.

Плюсы:
- Простота освоения;
- Поддержка словаря "Ефрат" (Если он у вас установлен);
- Прямое распознание текста и цифр;
- Мультиязычность;
- Быстрый процесс распознания текста;
- Проверка правописания;
- Полная состыковка с пакетом Microsoft Office.

Минусы:
Требуется неплохое качество изображения. Или дополнительная обработка в графическом редакторе, но уже вами.
Буфер приложения sface.exe слабоват, и при большом количестве различных текстов, программа в Windjws 7, может подвиснуть.
Совет простой. Или используйте пакетное приложение программы sbatch.exe, или распознав 4-5 страниц, закрывайте эти страницы в самой программе, тем более когда вы их уже перевели в Microsoft Word.

Из-за исходного текста на фоне подложек, рисунков, фотографий, в распознании может возникнуть много ошибок. Пример - сканирования глянца, веселых статей из глянцевых пестрых журналов. 
При сканировании на нужной странице может образоваться просвечивание текста и графики обратной стороны этой страницы. 
Это тоже может сказаться на конечном результате распознания.

Желаю вам удачи. Василий Яринин.

Программа CuneiForm распространяется бесплатно.
СКАЧАТЬ ФАЙЛ
33,37 Mb .zip


____________________________
В статье использовалась статья из бесплатной газеты, для родителей
“Непоседа” № 58. Март-Апрель 2010 год.
Официальный разработчика программы CuneiForm: www.cognitiveforms.com
Актуальные
ВАКЦИНЫ ДЛЯ ПРОФИЛАКТИКИ КОРОНАВИРУСНОЙ ИНФЕКЦИИ COVID-19 НЕТ. | ПОДРОБНЕЕ НА САЙТЕ WHO.INT | ДЛЯ УМЕНЬШЕНИЯ РИСКА ЗАРАЖЕНИЯ НЕОБХОДИМО: РЕГУЛЯРНО ОБРАБАТЫВАТЬ РУКИ СПИРТОСОДЕРЖАЩИМ СРЕДСТВОМ ИЛИ МЫТЬ ИХ ВОДОЙ С МЫЛОМ. | ПОДРОБНЕЕ НА САЙТЕ WHO.INT | ВО ВРЕМЯ КАШЛЯ ИЛИ ЧИХАНИЯ ПРИКРЫВАТЬ НОС И РОТ САЛФЕТКОЙ ИЛИ МЕСТОМ ЛОКТЕВОГО СГИБА. | ПОДРОБНЕЕ НА САЙТЕ WHO.INT |