способ факсимильного распознавания и воспроизведения текста печатной продукции

Классы МПК:G06K9/62 способы и устройства для распознавания с использованием электронных средств
Автор(ы):,
Патентообладатель(и):Войсковая часть 45807 (RU)
Приоритеты:
подача заявки:
2003-08-21
публикация патента:

Изобретение относится к области полиграфии. Его использование в компьютерной системе обработки текстовой информации для создания текстовых фотоформ при факсимильном воспроизведении образцов акцидентной печатной продукции малых форматов позволяет получить технический результат в виде достоверного распознавания любых знаков текста печатной продукции. Способ включает в себя преобразование в цифровую форму распознаваемого и эталонного изображений, их цифровую обработку путем определения координат, сравнение и определение совпадения распознаваемого и эталонного контуров. Технический результат достигается благодаря тому, что определение координат линии характеристического контура распознаваемого изображения символа производят с помощью соответствующего эталонного графического изображения путем нахождения значений координат X, Y, угла способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208 местоположения оптического центра знаков текста наложением по площади печатного очка цифровых изображений - в прямом контрасте эталонного на соответствующее распознаваемое в обратном контрасте. 1 з.п. ф-лы, 1 ил. способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208

способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208

Формула изобретения

1. Способ факсимильного распознавания и воспроизведения текста печатной продукции, включающий преобразование в цифровую форму распознаваемого и эталонного изображений, их цифровую обработку путем определения координат, сравнение и определение совпадения распознаваемого и эталонного контуров, отличающийся тем, что определение координат линии характеристического контура распознаваемого изображения символа производят с помощью соответствующего эталонного графического изображения путем нахождения значений координат X, Y, угла способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208 местоположения оптического центра знаков текста наложением по площади печатного очка цифровых изображений - в прямом контрасте эталонного на соответствующее распознаваемое в обратном контрасте.

2. Способ факсимильного распознавания и воспроизведения текста печатной продукции по п.1, отличающийся тем, что в качестве эталонного шрифта при выполнении операции сравнения используют выборку знаков текста распознаваемого изображения, оптимизированных по печатному очку.

Описание изобретения к патенту

Изобретение относится к области полиграфии, в частности к компьютерной системе обработки текстовой информации и создания текстовых фотоформ средствами интерактивной графики при факсимильном воспроизведении (репродуцировании) текстовых образцов акцидентной печатной продукции.

В общей полиграфии в зависимости от назначения и использования образцов печатной продукции, а также от требований к степени факсимильности (соответствия) полученных тиражный печатных оттисков к оригиналам (эталонам) применяются различные системы и способы автоматического и полуавтоматического распознавания и воспроизведения графем знаков текста с соответствующим созданием текстовых фотоформ и получения печатных оттисков одним из способов печати.

Согласно теоретических положений распознавания образов (Горелик А.П., Скрыпник В.А. Методы распознавания. М., Высшая школа, 1977) и требований к точности воспроизведения геометрических параметров изображений на полиграфической репродукции (Лахимова Е.А. Контроль размеров и формы изображений в фоторепродукционных процессах. Р.Ж Полиграфическая промышленность. Вып.1, с.40, Москва, "Книга", 1975) критериями факсимильности являются различительные пороги. Такие пороги, расчитанные из условий сравнительной оценки при визуальном восприятии репродукции и оригинала, в изменямых толщинах штрихов составляют ±5-10 мкм.

В известном фототелеграфном способе факсимильной связи автоматизированная обработка и воспроизведение газетного текста осуществляются в технологическом цикле "оттиск с наборной формы (оригинал) способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208 фотоотпечаток (фотоформа) способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208 тиражные оттиски с матриц (стереотипов)" (Витт А.А. Определение оптимальных параметров технологического процесса децентрализованного выпуска газет с использованием фототелеграфной передачи. Автореферат кандидатской диссертации. М., 1971). Способ заключается в том, что оттиск, отпечатанный с оригинальной формы текстового набора и растрированных изображений, сканируется в аналоговом режиме в продольном или кадровом направлении развертки. Сигналы с фотоэлектрического преобразователя после формирования и трансформирования по спектру подаются в канал связи с частотой 240 кГц. В пункте приема электрические сигналы управляют действием газоразрядной лампы, экспонирующей фотоматериал. Полученная после фотографической обработки факсимильная негативная фотокопия используется для изготовления печатной формы или ее стереотипов и получения тиража печатных оттисков. За критерий оценки точности воспроизведения знаков шрифта по их печатному очку принята величина абсолютной деформации вертикальных и горизонтальных штрихов. Такие отклонения даже при воспроизведении качественного оттиска оригинала на мелованной бумаге составляют ±13% (20-40 мкм) и выходят за пороги неразличимости, что нарушает в отдельных гарнитурах шрифта единство его построения. Причиной абсолютных деформаций элементов изображения знаков шрифта являются систематические апертурные искажения, возникающие при электронно-оптическом анализе и распознавании изображений развертывающим элементом, а также неравномерность амплитудно-частотных характеристик, шумов, селективных помех и случайных расхождений мгновенных скоростей передатчика и приемника. Данный способ обеспечивает факсимильность на тиражных оттисках с матриц (стереотипов) лишь общую гарнитуру шрифта и в пределах порогов и зон неразличимости такие параметры, как интерлиньяж и выключку строк, высоту и ширину полос текстового набора.

Существующие в настоящее время способы автоматического распознавания изображений основаны на использовании соответствующих эталонных изображений (Патент (19) ЕПВ (ЕР), (11) заявка №0114248, кл. МКИ G 06 К 9/78, УДК 681.32, публ. 84.08.01, №31, патент (19) ЕПВ (ЕР), (11) заявка №115462, (51) МКИ G 06 К 9/30, (53) УДК 681.327, публ. 64.08.08, №32).

Наиболее близким к заявляемому техническому решению является запатентованный способ по заявке №115462 (прототип). Способ влючает преобразование в цифровую форму распознаваемого изображения и эталонного изображения, определение координат распознаваемого и эталонного изображений, сравнение и определение совпадения распознаваемого контура и эталонного контура. Например, система распознавания и воспроизведения заполненных форм ABBYY Fine Reader 6.0 предназначена для ввода в компьютер с помощью сканера текстов, заполненных анкет, регистрационных карточек и т.п. Система обеспечивает распознавание считанных изображений знаков печатного текста путем сравнения с эталонными знаками компьютерного каталога гарнитур шрифта и переводит эти текстовые оригиналы в электронный вид - в редактируемые файлы, как правило, формата (DOC) с версткой текста, в которой необходимый размер строк достигается путем равномерного увеличения межсловных и межбуквенных расстояний (апрошей). После сканирования система распознает полученные графемы знаков и выделяет цветом все сомнительные символы. Изображения с такими пометками передаются на верификацию для сопоставления с оригиналом и проверки орфографии и синтаксиса текста.

Данный способ распознавания изображений, отпечатанных с широким диапазоном качества печати, где пространственный спектр помех в виде пятен и точек перекрывается со спектром самого изображения, где знаки текста имеют непропечатки, неконтрастные и размытые изображения, дефекты в виде сливающихся загрязненных элементов параллельных штрихов, разрывы линий и неравномерности толщин, а кроме того, перекос строк не обеспечивает необходимую достоверность распознавания, так как процент знаков, имеющих те или иные искажения, достаточно велик. В результате все сомнительные знаки текста неоднозначно классифицируются, с большими ошибками, плохо распознаются и требуют много времени на процесс верификации. Кроме того, способ не обеспечивает требуемой факсимильности при воспроизведении геометрических параметров верстки текста. При распознавании текста может иметь место использование другой похожей гарнитуры шрифта, угрубление общего контура графемы знака шрифта, нарушение соотношений в толщинах основных штрихов символов по отношению к оригиналу и наборной верстке сплошного текста. Имеют место нарушения в длине фраз текста, межсловных расстояний и величинах апрошей, переносе слов при выключке текста по отношению к оригиналу, что очень важно, ибо от композиционно-целостного текста зависит его факсимильное зрительное восприятие.

Основная задача настоящего изобретения состоит в обеспечении достоверности распознавания знаков текста печатной продукции и достижении факсимильного воспроизведения очка печатных знаков шрифта любых гарнитуро-кеглей и наборной верстки в широком диапазоне качества печати.

Положительный результат достигается тем, что определение координат линии характеристического контура распознаваемого и эталонного изображений, сравнение и определение совпадения каждого распознаваемого изображения знаков шрифта оригинала с эталонными знаками (знаками шрифтоносителя), имеющими то же самое начертание и кегль, производят дополнительно по площади их печатного очка оптическим наложением и равномерным совмещением позитивного (в прямом контрасте) эталонного изображения на соответствующее негативное (в обратном контрасте) распознаваемое изображение. Определение координат линии характеристического контура распознаваемого изображения производят с помощью соответствующего эталонного изображения путем нахождения местоположения оптического центра знаков шрифта на оригинале при совмещении и равномерном перекрытии по площади печатного очка одноименных знаков текста. В качестве эталонного шрифта при выполнении операции сравнения используют гарнитуру знаков текста распознаваемого изображения, оптимизированных по качеству печатного очка, кеглю и ширине с целью обеспечения единства их гарнитурного построения и создания электронного шрифтоносителя.

Операцию сравнения распознаваемого и эталонного изображений производят по предварительной интерактивной разметке распознаваемого изображения текста оригинала путем определения и нахождения осевых линий контуров знаков и выделения по ним левой и правой границ полосы набора текста, верхней и нижней линии шрифта и интерлиньяжа строк.

Таким образом, верификация символов распознаваемого текста печатной продукции оптическим наложением и совмещением одноименных знаков текста, а также определение координат местоположения оптического центра знаков шрифта на оригинале повышает достоверность распознавания знаков текста печатной продукции и обеспечивает факсимильность воспроизведения очка и верстки печатных знаков шрифта любых гарнитуро-кеглей и наборной верстки текста.

Возможность осуществления изобретения поясняется представленной блок-схемой способа факсимильного распознавания и воспроизведения текста печатной продукции.

Способ факсимильного распознавания и воспроизведения текста печатной продукции включает два этапа: этап создания и факсимильного воспроизведения шрифтоносителя (эталона) на основе графического и метрического анализа шрифта и этап распознавания и воспроизведения изображения текста печатной продукции. Причем второй этап включает в себя два уровня распознавания. Первый уровень - распознавание путем сравнения с эталонами всех классов шрифта воспроизводимого изображения текста системой ABBYY Fine Reader 6.0, и второй - программными методами и методом интерактивной графики - более точное сравнение и определение совпадения по графическим и метрическим характеристикам параметров шрифта и особенностям наборной верстки распознанного изображения оптическим наложением и последовательным или выборочным совмещением с эталонами, набор знаков которых представляют факсимильно распознанные изображения знаков оригинала.

На первом этапе проводят графический и метрический анализ знаков шрифта и определяют способ печати текста оригинала. Вводят изображение текста в компьютер с помощью сканера с разрешением 1200 dpi в цветовом режиме RGB Color 24 bit на пиксель и переводят текстовое изображение оригинала в электронный вид.

Далее на экране монитора в увеличенном масштабе до 50 крат на печатном изображении текста печатной формы выбирают наиболее четкие по печатному очку знаки алфавита и другие графические символы, встречающиеся в тексте. На основе графического и метрического анализа определяют высоту и ширину одноименных знаков, толщины основных и вспомогательных штрихов и их соотношение. Комплект выбранных знаков используют для создания электронного шрифтоносителя (эталона).

Аппаратным и программным уровнем обработки обеспечивают выполнение функций качественного ввода изображений и выделение полезной информации. В программе Photoshop 4.0 используют алгоритмы выделения контуров знаков, т.е. устраняют характерные графические искажения в выборке знаков алфавита, обусловленные процессом печати тем или иным способом. Производят тоновую коррекцию изображений текста, усиление яркости и контрастности, удаление вуали за счет повышения резкости краев изображений электронными фильтрами. Операцию выделения контуров, корректуру графем знаков текста, выявление и восстановление очка знаков по изображению оттиска с печатной формы проводят на экране монитора с увеличением изображения знака до 50 крат по отношению к оригиналу. Методами электронной ретуши удаляют ростиск вокруг печатного очка, восстанавливают непропечатанные места в графеме букв, выдерживают характер подсечек и соотношение толщин основных и вспомогательных штрихов, обеспечивают и сохраняют тем самым единство гарнитурного построения шрифта. С помощью программы редактирования шрифтов (FontLab) импортируют восстановленный шрифт и экспортирует его в формат TrueType, а далее в качестве нового шрифта вводят в каталог эталонов программы распознавания ABBYY Fine Reader.

После сканирования и обработки в цифровой форме оригинала текста системой распознавания и воспроизведения изображений ABBYY Fine Reader 6.0 с использованием выборки гарнитуры знаков эталона (шрифтоносителя), его верификации (сопоставления с оригиналом на экране монитора считанного и распознанного текста) и проверки синтаксиса и орфографии осуществляют запись текста в редактируемый файл, который экспортируют с разрешением 1200 dpi в пакет векторной графики CorelDraw 10.0, позволяющий преобразовывать текст в графические объекты и редактировать их в интерактивном режиме. Интерактивное редактирование текста позволяет выбирать отдельные знаки шрифта, изменять их параметры: угол наклона, высоту, отступ, расстояние между знаками и между словами, изменять наборную верстку текста.

Методом электронной трансформации в пакете обработки графических изображений CorelDraw 10.0, изображения текста оригинала и знаков шрифтоносителя (эталона) приводят к единому масштабу.

В выбранном формате и масштабе с необходимой разрешающей способностью производят разметку оригинала в пакете векторной графики CorelDraw 10.0, в результате которой с использованием направляющих линий Guidelines на оригинале определяют и выделяют левую и правую стороны полосы набора текста, нижнюю и верхнюю линии шрифта, интерлиньяж строк путем определения и выделения осевых линий толщин контуров знаков текста с помощью смоделированной для этих целей прямоугольной палетки с высотой одного из прямоугольников, равной кеглю соответствующего шрифта, а высотой другого, равной межстрочному расстоянию (интерлиньяжу строк).

Одновременно с распознанным изображением во входной файл импортируют цифровое изображение оригинала. Пакет CorelDraw позволяет проецировать на экран монитора несколько изображений, одновременно их инвертировать и производить сложение, вычитание (позитив-негатив) этих изображений. Совмещение одноименных изображений производят оптическим наложением и сложением эталонных знаков шрифтоносителя в прямом контрасте с соответствующими распознанными знаками оригинала в обратном контрасте методами пакета векторной графики CorelDraw 10.0. Это позволяет расширить возможности процесса верификации путем дополнительного сравнения распознаваемого изображения с эталоном последовательно или выборочно и осуществить дополнительный контроль совпадения (факсимильности) по графике каждого распознаваемого изображения знаков шрифта с одноименными эталонными знаками по площади их печатного очка в масштабе увеличения до 30 крат.

Вдоль выделенных и обозначенных верхней и нижней линий шрифта контролируют геометрические параметры наборной верстки текста: местоположение совмещенных по очку знаков шрифта, их взаимное положение друг относительно друга, правильность переноса слов текста, выключку и интерлиньяж строк, расположение полосы набора текста в целом. В случае отклонения от оригинала интерактивным путем и программными методами осуществляют изменение положения знака шрифтоносителя (эталона), его разворот в соответствии с аналогичным изображением оригинала. Достигают 100% перекрытия по площади печатного очка последовательным оптическим наложением и совмещением одноименных знаков текста (позитив-негатив). Затем фиксируют степень совпадения изображений двух одноименных знаков текста или целых слов по всей полосе набора и только при их полном совпадении с оригиналом программным путем происходит фиксация идентичности (факсимильности), т.е. местоположения изображения знака или групп знаков текста шрифтоносителя (эталона) на полосе текстового набора оригинала и копирование их кода в выходной файл с соответствующими кординатами X, Y, угол способ факсимильного распознавания и воспроизведения текста печатной   продукции, патент № 2260208 местоположения знаков шрифта.

На лазерном устройстве фотовывода с разрешением 3600Х3600 dpi получают текстовую фотоформу для изготовления печатной формы к способу печати соответствующего оригинала.

Использование предлагаемого способа обеспечивает, по сравнению с существующими способами, возможность факсимильного распознавания и воспроизведения текста печатной продукции малых форматов, отпечатанной в широком диапазоне качества печати и степени старения издания. При этом точно воспроизводится используемая гарнитура шрифта печатного оттиска за счет восстановления очка печатных знаков шрифта любых гарнитуро-кеглей, при сохранении метрических и графических параметров знаков текста, сложных элементов верстки, длины фраз, переноса и выключки строк, что может быть использовано при реставрации и переиздании старинных раритетных образцов акцидентной печатной продукции, чтобы сохранить композиционно-целостный текст и обеспечить его факсимильное зрительное восприятие.

Источники информации

1. Патент (19) ЕПВ (ЕР), (11) заявка №0114248, кл. МКИ G 06 К 9/78, УДК 681.32, публ. 84.08.01 №31, (аналог).

2. Патент (19) ЕПВ (ЕР), (11) заявка №115462, (51) МКИ G 06 К 9/30, (53) УДК 681.327, публ. 64.08.08 №32, (прототип).

3. Горелик А.П., Скрыпник В.А. Методы распознавания. - М.: Высшая школа, 1977.

4. Лахимова Е.А. Контроль размеров и формы изображений в фоторепродукционных процессах. - Р.Ж. Полиграфическая промышленность. Вып.1, Москва, "Книга", 1975. 40 с.

5. Витт А.А. Определение оптимальных параметров технологического процесса децентрализованного выпуска газет с использованием фототелеграфной передачи. Автореферат кандидатской диссертации. - М., 1971.

Класс G06K9/62 способы и устройства для распознавания с использованием электронных средств

устройство обработки бумажных листов и способ обработки бумажных листов -  патент 2527203 (27.08.2014)
система и способ для автоматического планирования двухмерных видов в объемных медицинских изображениях -  патент 2526752 (27.08.2014)
способ комплексного контроля людей на пунктах пропуска -  патент 2524561 (27.07.2014)
способ аутентификации владельца банковского счета при дистанционном банковском обслуживании -  патент 2523743 (20.07.2014)
классификация данных выборок -  патент 2517286 (27.05.2014)
способ и система поиска нарушений авторских прав на изображения -  патент 2515706 (20.05.2014)
классификация изображения на основе сегментации изображения -  патент 2513905 (20.04.2014)
способ маркирования и распознавания сигналов -  патент 2510624 (10.04.2014)
устройство ассоциативного распознавания -  патент 2504837 (20.01.2014)
способ и устройство для выполнения видеоаутентификации пользователя -  патент 2504004 (10.01.2014)
Наверх