Перевод изображения в текст

С переводом изображенного на листе текста в текстовый файл легко справиться FineReader. Когда у вас его нет? Что делать? В моем недавнем случае перепечатать пачку факсов это совершить подвиг. Воспользоваться онлайн конвектором? Не советую вам использовать онлайн конвектор, когда вы работаете с деловыми или личными документами. 
Прогнав текстовое изображение онлайн, вы передаете всю вашу информацию стороннему ресурсу и возможно даже все авторские права на ваш отсканированный печатный труд.

Внимательно читайте пользовательское соглашение. Статьи, повести, бизнес-план, отчетные документы и прочее могут стать вашим подарком сервису.
Не хочется ставить смайлик.

перевод изображения в текст

Чтобы вам ни в чем не сомневаться и не перепечатывать с листа, мы воспользуемся программой на русском языке CuneiForm. Программа распространяется бесплатно и без дополнительных условий и распознает изображенные отсканированные тексты на русском, английском и других языках. CuneiForm хорошее подспорье для учащихся и для обычной рутины офисного документооборота.

УСТАНОВКА ПРОГРАММЫ.
После запуска setup.exe, вам будет предложена обычная процедура инсталляции. Примеры на скриншотах.



Каждая программа имеет свои нюансы, плюсы и минусы. Вам важно понять одно. Исходный источник текста (газетная вырезка, отрывок из книги, документ) его внешний вид, гарнитура и стиль шрифта, цвет самой бумаги, наличие рисунков, фотографий напрямую повлияют на конечный и качественный результат распознания текста. Ведь перед тем как получить графический файл, нам нужно отсканировать наш текстовый бумажный документ.
 
Для нашего примера я взял статью из бесплатной газеты для родителей "Непоседа". Сканируем статью.



Сканирование может быть осуществлено из самой программы, но мой сканер она видеть отказалась. С принтером - сканером моего коллеги все срослось. Если у вас не получилось отсканировать через программу, сканируйте изображение по-своему.
При сканировании выставляем разрешение 600 dpi. Расширение конечного графического файла BMP. Рекомендуемый формат TIFF. 
Выставлять 1200 бесполезно, поверьте моему опыту. Формат JPG для распознания не подойдет, из-за образования вокруг текста муара.
Отсканировав текстовое изображение, открываем программу. 
Программа сохраняется в той директории, которую вы указали при инсталляции, или по умолчанию,  Program Files (x86) – папка Cognitive.



 
Запуск программы – sface.exe
Выбирая язык распознавания, обратите внимание. Если в вашем тексте присутствуют английские слова или предложения, установите “Русско-Английский”. Английский язык программа распознаю прилично, ошибок или пропусков допускает минимальное, но с условием качественного графического изображения текста.



Не пытайтесь получить текстовый документ один в один, как на вашем отсканированном изображении. Программа видит картинки, к сожалению снижая их качесво. Сделайте все раздельно. 
Перед загрузкой в программу вырежьте текст отдельно, картинки отдельно и сохраните два разных файла. Картинка-текст и картинка-картинка.


Отличный пример представлен в самой директории программы в папке Images.


Результат распознавания текста может быть различным. Все зависит от настроек (галочек) установленных вами. Поэкспериментируйте с разными настройками. Распознание происходит быстро и не займет у вас много времени.


Когда программа распознала текст, я вам советую экспортировать документ в MSWord. (Microsoft Word).

Выделите всё и увеличьте шрифт. В нашем примере статья распознана удовлетворительно, и совсем не плохо. Конечный результат зависит от качества исходного документа и шрифта. Хоть заголовок в статье напечатан крупно, буквы для программы оказались не читаемые. Такие пропуски могут случиться, когда в тексте используються дизайнерские шрифты или сложное форматирование с различными эффектами оформления самого текста. Остальной текст в норме, но требует небольшого редактирования. Сама бумага газетной статьи старая, ей уже 7 лет и это тоже может повлиять на качество распознания.

Программа поддерживает пакетное распознание нескольких файлов одновременно. Очень удобно и быстро. На выходе вы получаете сразу несколько распознанных текстовых файлов.


Для пакетного распознания текста.
Для пакетного распознания, откройте в папке с программой приложение - sbatch.exe. Нажмите |Действия|-|Создание нового пакета|. Впишите в открывшееся окошко название вашего пакета, после этого продолжайте заполнение по примеру в скриншотов.

   
   
Рекомендую подготовить текстовые изображения в формате TIF.
К примеру, отсканировав файл в формате BMP, откройте этот файл в графическом редакторе, да хотя бы в Paint и сохраните в TIFF.

Плюсы:
Простота освоения.
Поддержка Ефрат (Если он у вас установлен).
Прямое распознание текста и цифр.
Мультиязычность
Быстрый процесс распознания текста.
Проверка правописания.
Полная состыковка с пакетом Microsoft Office.

Минусы:
Требуется неплохое качество изображения. Или дополнительная обработка в графическом редакторе, но уже вами.
Буфер приложения sface.exe слабоват, и при большом количестве различных текстов, программа в Windjws 7, может подвиснуть.
Совет простой. Или используйте пакетное приложение программы sbatch.exe, или распознав 4-5 страниц, закрывайте эти страницы в самой программе, тем более когда вы их уже перевели в Microsoft Word.

Из-за исходного текста на фоне подложек, рисунков, фотографий, в распознании может возникнуть много ошибок. Пример - сканирования глянца, веселых статей из глянцевых пестрых журналов. 
При сканировании на нужной странице может образоваться просвечивание текста и графики обратной стороны этой страницы. 
Это тоже может сказаться на конечном результате распознания.

Желаю вам удачи. Василий Яринин.

Программа CuneiForm распространяется бесплатно.
СКАЧАТЬ ФАЙЛ
33,37 Mb .zip


____________________________
В статье использовалась статья из бесплатной газеты, для родителей
“Непоседа” № 58. Март-Апрель 2010 год.
Официальный разработчика программы CuneiForm: www.cognitiveforms.com


✅ СЕГОДНЯ
День специалиста юридической службы
В 1730 году В Москве появилось первое уличное освещение
В 1886 году Создан рецепт кока-колы
В 1823 году Заложен первый русский паровой корабль - 14-пушечный «Метеор»
Именины Трофим, Александр
Информация
Для комментирования публикации зарегистрируйтесь. Простая регистрация: e-mail + логин.