Студопедия — Глава II Программное обеспечение
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Глава II Программное обеспечение






 

Рис. 6

Рис. 7

Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифи­цировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

 

Рис. 8







Дата добавления: 2015-10-19; просмотров: 405. Нарушение авторских прав; Мы поможем в написании вашей работы!



Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

БИОХИМИЯ ТКАНЕЙ ЗУБА В составе зуба выделяют минерализованные и неминерализованные ткани...

Типология суицида. Феномен суицида (самоубийство или попытка самоубийства) чаще всего связывается с представлением о психологическом кризисе личности...

ОСНОВНЫЕ ТИПЫ МОЗГА ПОЗВОНОЧНЫХ Ихтиопсидный тип мозга характерен для низших позвоночных - рыб и амфибий...

Билиодигестивные анастомозы Показания для наложения билиодигестивных анастомозов: 1. нарушения проходимости терминального отдела холедоха при доброкачественной патологии (стенозы и стриктуры холедоха) 2. опухоли большого дуоденального сосочка...

Сосудистый шов (ручной Карреля, механический шов). Операции при ранениях крупных сосудов 1912 г., Каррель – впервые предложил методику сосудистого шва. Сосудистый шов применяется для восстановления магистрального кровотока при лечении...

Трамадол (Маброн, Плазадол, Трамал, Трамалин) Групповая принадлежность · Наркотический анальгетик со смешанным механизмом действия, агонист опиоидных рецепторов...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия