на главную | войти | регистрация | DMCA | контакты | справка | donate |      

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я


моя полка | жанры | рекомендуем | рейтинг книг | рейтинг авторов | впечатления | новое | форум | сборники | читалки | авторам | добавить



Распознавание текста

Программа Fine Reader, выпущенная ABBYY, позволяет выполнить оптическое распознавание текстов, то есть преобразовывать текстовую информацию из графического формата в символьный. Существует много документов в графическом формате: факсимильные сообщения, отсканированное тексты, графические файлы с текстом. В них буквы являются элементами изображения, то есть представлены в виде точек. В задачу программы входит анализ каждого символа и принятие решения о том, что это за символ.

Особенностью программы является возможность работы с различными графическими форматами в качестве исходного материала. Это позволяет использовать для распознавания большинство документов, так как их можно конвертировать в подходящий формат при помощи графического редактора.

Основным источником данных для программы является сканирование – перевод информации с бумажных носителей в электронную форму. Процесс работы с программой можно разбить на несколько этапов; сканирование, выделение блоков на изображении, распознавание.

Современная техника дает возможность выполнить сканирование с очень высоким качеством, поэтому все зависит от самого документа: типа, размера и качества шрифта, насыщенности цвета, наличия фона и т. д. Отсканированные страницы (или открытые файлы) отображаются в виде значков страниц на левой панели окна.

На главной панели инструментов расположено несколько больших кнопок-списков, с помощью которых выполняются все операции. Для запуска сканирования используется большая кнопка Сканировать или кнопка мастера Scan&Read. Перед работой с программой обязательно раскройте списки всех больших кнопок и посмотрите, какие команды они содержат.

Если изображение плохого качества, то есть содержит много мелких точек (мусор), документ можно попытаться очистить при помощи кнопки – Очистить изображение.

Перед тем как запускать распознавание, страницу надо разбить на блоки. Программа работает эффективнее, если выделены участки с текстом. В документе могут находиться рисунки, которые, естественно «распознавать» не нужно. К тому же различные участки текста могут иметь разный формат и разный язык. FineReader может выполнить разбиение на блоки самостоятельно, после того как вы нажмете кнопку Сегментировать открытую страницу. Но блоки можно создавать и вручную. Для этого надо выделить часть текста мышью так, как выделяют объекты в приложениях Windows: нажать левую кнопку и обвести участок текста прямоугольной рамкой. Блок можно и удалить. Для этого его надо выделить мышью и нажать клавишу Del. Для того чтобы было удобнее работать с блоками, не забывайте изменять масштаб: можно использовать режим уменьшения 50 % или 25 %.

Для работы с блоками можно использовать контекстное меню. Например, важно определить для каждого блока его тип: текст, таблица, картинка, штрих-код. Разумеется, если документ заполнен однородным текстом, то выделять блоки не нужно.

Для всей страницы надо выбрать из списков на панели инструментов язык и тип шрифта. Стандартных типов шрифта два: «матричный принтер» и «пишущая машинка». Дело, конечно, не в том, на чем отпечатан документ, а в том, как выглядят буквы. На матричном принтере можно отпечатать текст так, что он будет иметь вид машинописного. Если у вас есть сомнения, всегда можно поэкспериментировать, благо распознавание проводится достаточно быстро. Но по умолчанию программа выбирает автоматическое определение типа шрифта, так что, возможно, эту задачу следует оставить для нее.

Теперь можно включить распознавание большой кнопкой Распознать открытую страницу. Проверьте результат. Если он неудовлетворительный, значит надо изменить параметры и попробовать еще раз.

Практика показывает, что лучше распознаются буквы в полужирном начертании, нежели тонкие. Кроме того, более крупные буквы распознаются лучше мелких. Но при прочих равных условиях полужирное начертание имеет преимущество перед большим размером букв.

После того как получен текст в символьном формате, можно сразу проверить орфографию. Для этого есть кнопка Проверить. Затем можно сохранить текст в виде отдельного документа. Большая кнопка Мастер сохранения результатов позволяет выбрать один из популярных текстовых форматов.


Сократ | Секретарское дело | Архивация данных