способ анализа изображения, в частности, для мобильного устройства

Классы МПК:	G06K9/46 выделение деталей или характеристик изображения
Автор(ы):	МОСАКОВСКИ Герд (DE)
Патентообладатель(и):	Т-МОБИЛЕ ИНТЕРНАЦИОНАЛЬ АГ (DE)
Приоритеты:	подача заявки: 2008-10-28 публикация патента: 27.06.2012

Изобретение относится к способу анализа изображения, в частности, для мобильного устройства со встроенной цифровой камерой для автоматического оптического распознавания символов. Техническим результатом является повышение надежности и скорости распознавания символов, требующее малой вычислительной мощности. Способ анализа графических данных, состоящих из массива отдельных пикселей, причем каждый пиксель имеет изменяющееся во времени значение пикселя, несущее информацию о цвете или яркости пикселя, включает этапы, на которых получают значение приоритета для каждого пикселя массива посредством задания используемого пикселя в качестве базового пикселя и расчета разности значений пикселей на основании текущего значения базового пикселя по отношению к текущим значениям предварительно заданной группы соседних пикселей; объединяют в одну группу пиксели, использованные для расчета значения приоритета пикселей; сортируют группы пикселей на основании значения приоритета соответствующего базового пикселя и сохраняют в массиве приоритетов; сохраняют и/или передают группы пикселей в соответствии с их приоритетами в массив приоритетов, причем для оптимизации вычислительной мощности для формирования списков используют только часть групп пикселей, отличающийся тем, что в значение приоритета добавляют позиционный фактор, который тем больше, чем ближе расположена группа пикселей к заранее заданному в зависимости от языка начальному пикселю. 18 з.п. ф-лы.

Формула изобретения

1. Способ анализа графических данных, состоящих из массива отдельных пикселей, причем каждый пиксель имеет изменяющееся во времени значение пикселя, несущее информацию о цвете или яркости пикселя, включающий этапы, на которых:

a) получают значение приоритета для каждого пикселя массива посредством задания используемого пикселя в качестве базового пикселя и расчета разности значений пикселей на основании текущего значения базового пикселя по отношению к текущим значениям предварительно заданной группы соседних пикселей;

b) объединяют в одну группу пиксели, использованные для расчета значения приоритета пикселей;

c) сортируют группы пикселей на основании значения приоритета соответствующего базового пикселя и сохраняют в массиве приоритетов;

d) сохраняют и/или передают группы пикселей в соответствии с их приоритетами в массив приоритетов, причем для оптимизации вычислительной мощности для формирования списков используют только часть групп пикселей,

отличающийся тем, что в значение приоритета добавляют позиционный фактор, который тем больше, чем ближе расположена группа пикселей к заранее заданному в зависимости от языка начальному пикселю.

2. Способ по п.1, отличающийся тем, что разность значений пикселей получают из разности значения рассматриваемого пикселя и значения нескольких рассматриваемых соседних пикселей группы.

3. Способ по п.1, отличающийся тем, что на основании разности значений пикселей делают вывод о толщине штриха.

4. Способ по п.1, отличающийся тем, что списки формируют из сходных групп пикселей.

5. Способ по п.1, отличающийся тем, что после этапов а)-d) выполняют этапы, на которых:

сначала выполняют предварительную обработку самонастраивающуюся и оптимизированную по группам пикселей, в ходе которой в изображении ищут штрихи, затем пытаются наиболее оптимальным образом скопировать эти штрихи, затем на основании последовательности перемещений делают вывод о соответствующем символе с помощью сохраненных ключевых слов/поисковых деревьев.

6. Способ по п.1, отличающийся тем, что после этапов а)-d) выполняют этапы, на которых:

сходные группы пикселей объединяют в отдельном списке и каждый полученный таким образом список сортируют так, что группы пикселей, расположенные более низко по оси Y, сортируют по убыванию, при этом если несколько сходных групп пикселей располагаются в одинаковом положении по оси Y, для них формируют новые списки, причем из этих списков выводят вектора и находят группы пикселей с самым малым и самым большим значением Y, между этими положениями групп пикселей рассчитывают линию и определяют отклонение других групп пикселей от этой линии.

7. Способ по п.6, отличающийся тем, что, если все отклонения лежат ниже определенного порогового значения, для этого списка находят описательный вектор, а если все отклонения лежат выше порогового значения, список делят и пытаются сгенерировать соответствующие вектора для каждой части списка.

8. Способ по п.7, отличающийся тем, что список делят там, где имеются наибольшие отклонения от рассчитанной линии.

9. Способ по п.8, отличающийся тем, что затем нормируют векторные списки, например, по максимальной разности по оси Y.

10. Способ по п.9, отличающийся тем, что с помощью нормированных списков векторов просматривают дерево решений, в котором сохранены различные буквы.

11. Способ по п.10, отличающийся тем, что соприкасающиеся вектора объединяют в дополнительный список векторов и соответственно сортируют значения Y.

12. Способ по п.11, отличающийся тем, что ширину используемой группы пикселей выбирают таким образом, чтобы она была в три раза больше толщины линий, а оптимальная высота группы пикселей зависит от высоты шрифта.

13. Способ по п.12, отличающийся тем, что далее сканируют изображение с помощью таким образом оптимизированных групп пикселей.

14. Способ по п.13, отличающийся тем, что для каждого текста с данным типом шрифта генерируют оптимизированные деревья результатов.

15. Способ по п.14, отличающийся тем, что для машинного шрифта уже распознанные буквы или слоги сохраняют в качестве образцов групп пикселей.

16. Способ по п.15, отличающийся тем, что используют словарь/лексикон, с помощью которых распознанные буквы используют для оптимизации распознавания текста.

17. Способ по п.16, отличающийся тем, что распознанные слова переводят на выбранный язык и выдают оптическим или акустическим способом.

18. Способ по п.17, отличающийся тем, что с помощью обратного контроля на основании распознанных слов оптимизируют соответствующим образом деревья решений и толщину штрихов оригинала.

19. Способ по п.1, отличающийся тем, что выполняют непрерывное определение и выдачу отсортированных по приоритету групп пикселей с помощью используемого устройства съемки изображений, в частности интегрированного в мобильном телефоне сканера или ПЗС-камеры.

Описание изобретения к патенту

Существует множество OCR-устройств для ПК. Как правило, для считывания текста используют планшетный сканер. Существуют ручные сканеры для мобильного применения, которые отображают отсканированный текст на дисплее, сохраняют его или передают на компьютер. Проблемы возникают каждый раз, когда оригинал отсканирован криво или различимы буквы только отдельных фрагментов (например, флаг с надписями на ветру). Кроме того, такие технологии оказываются несостоятельными, когда непосредственно сканирование невозможно осуществить (например, в случае указателей на обочине дороги). Согласно современному уровню техники такое изображение может быть снято с большим разрешением и затем отсканировано. Однако оптическое распознавание символов непосредственно в камере не осуществляется, так как при традиционных способах это требует слишком большой вычислительной мощности.

Если необходимо распознать более длинные тексты, часто требуется снять несколько изображений и затем объединить их (составить 360°-снимки). Чтобы обеспечить необходимое качество, процесс, как правило, требует ручной доработки.

Важнейшие способы оптического распознавания символов основаны на простом сопоставлении с образцом (pattern-matching) или, как при распознавании рукописного текста, с помощью описания букв посредством линий и точек пересечения. Сопоставление с образцом особенно успешно применяется тогда, когда речь идет о нормированных символах (например, обозначении транспортного средства). При распознавании номеров распознаваемые символы ограничены небольшим количеством и к тому же нормированы.

Кроме того, известны различные приложения из области дополненной реальности. В качестве примера можно привести наложение снимка (фото, сделанного со спутника) на дорожную карту, на которой показаны названия отдельных улиц (www.clicktel.de).

Уровень техники представлен способом для групп пикселей с приоритетами из патента DE 10113880 В4 или эквивалентного патента ЕР 1371229 В1, который имеет признаки согласно ограничительной части п.2 формулы изобретения.

В DE 10025017 А1 описан мобильный телефон, предназначенный для простых приложений и использования дополнительных служб и функций, таких как, например, служба коротких сообщений, платежные операции, проверка подлинности и безопасности и т.п. Данный мобильный телефон имеет встроенное устройство считывания символов, знаков, кодов и/или признаков для идентификации, которым являются сканер, устройство для считывания штрихового кода или считыватель отпечатков пальцев в виде ПЗС-сенсора. При этом возможен удобный и быстрый ввод и регистрация текста, символов или признаков, связанных с безопасностью.

В DE 202005018376 U1 описан мобильный телефон с клавиатурой, дисплеем, системой обработки данных и расположенным позади отверстия или окна корпуса оптическим развертывающим устройством, в частности, ручным сканером, а также с встроенной программой перевода. С помощью оптической системы развертки можно сканировать символы и/или слова на другом языке. С помощью выбора языка осуществляют перевод слова или слов. Благодаря этому пользователь мобильного телефона может понимать слова и тексты на иностранном языке. Предпочтительно это могут быть меню, предупреждающие указатели, инструкции и географические карты, а также вывески. Кроме того, пользователь может с помощью клавиатуры мобильного телефона самостоятельно вводить или выбирать слова из хранящейся в памяти системы обработки данных энциклопедии. Путем соединения системы обработки данных с дисплеем и клавиатурой с помощью выбора языка эти слова переводятся и отображаются на дисплее.

В DE 10163688 А1 описаны способ и устройство отслеживания товаров, снабженных оптически читаемой алфавитно-цифровой маркировкой, а также регистрирующее устройство для этих целей. Маркировка регистрируется регистрирующим устройством как изображение и преобразуется в графические данные. С помощью радиосвязи они передаются регистрирующим устройством на приемник, который соединен с компьютерным устройством, осуществляющим дальнейшую обработку графических данных. Альтернативно перед передачей на приемник графические данные обрабатываются регистрирующим устройством. Конкретный процесс обработки графических данных подробно не раскрывается.

В DE 102005033001 А1 описан способ обработки изображений в мобильных оконечных устройствах, например, мобильных телефонах с камерой, которая записывает цифровую графическую информацию и с помощью способов распознавания образа, например, оптического распознавания символов (OCR), анализирует часть этой графической информации. Конкретный способ оптического распознавания символов (OCR) в данной публикации не описывается.

Поэтому задачей настоящего изобретения является предложение существенно более точного и быстрого типового способа обработки изображений в мобильных оконечных устройствах с цифровой камерой.

Изобретение характеризуется признаками независимых пунктов 1 или 2 формулы изобретения.

Предпочтительные усовершенствованные варианты осуществления изобретения являются предметом зависимых пунктов формулы изобретения.

Преимуществом изобретения является более надежная OCR-регистрация с факультативным переводом в режиме реального времени, требующая значительно меньшей вычислительной мощности. Надежность, в частности, относится к тому, что распознавание осуществляется лучше, чем в традиционных системах даже при неблагоприятных условиях (в частности, в условиях освещения, наложении помех).

Это достигается, с одной стороны, за счет того, что сначала выполняется самонастраивающаяся оптимизированная по группам пикселей предварительная обработка, в ходе которой в изображении осуществляется поиск штрихов. Существенный отличительный признак по сравнению с известными способами состоит в том, что дальнейшее прямое сопоставление с образцом не выполняется, а осуществляется попытка наиболее оптимально скопировать штрихи. На основании этой последовательности перемещений делается вывод о соответствующем символе. Так как данную последовательность перемещений можно легко масштабировать и несложно описать, такая технология пригодна как раз для мобильного применения. Последовательность перемещений известных символов сохранена в ключевом слове, таким образом, на основании перемещений можно сделать непосредственный вывод о символе. Дополнительно может использоваться словарь или лексикон. Когда слова распознаны на основе словаря или лексикона, распознанные буквы могут использоваться для оптимизации распознавания текста.

Возможным применением могут быть мобильные телефоны с камерой для иностранных туристов для чтения дорожных знаков, меню, указателей общего назначения. При этом содержание может быть сразу переведено на второй язык. Для пользователя перевод отображается на дисплее или прочитывается вслух с помощью приложений преобразования текста в речь.

Надежность распознавания основывается, прежде всего, на нормировании толщины штрихов или размеров букв. После этого буквы копируются, причем в ходе копирования сами буквы распознаются. Надежность способа распознавания реализуется путем выполнения комбинации различных этапов решения. Благодаря нормированию толщины штрихов теневые эффекты и плохое освещение почти не влияют на скорость распознавания. С помощью нормирования размеров можно, например, компенсировать эффекты, возникающие на удаленных вывесках. Посредством копирования с помощью простых нетрудоемких и расширяемых деревьев решений можно верно определить букву или цифру. Чтобы сделать результаты еще надежнее, дополнительно может применяться словарь. Обратный контроль на основании распознанных слов позволяет соответствующим образом оптимизировать деревья решений и толщину штрихов оригинала.

Для решения задачи выполняют следующие этапы.

Сначала с помощью элемента записи изображения, например ПЗС-камеры, изображение преобразуют в электрические сигналы. Затем эти сигналы в соответствии со способом из патента DE 10113880 В4 сохраняют в массиве с приоритетами. Факультативно при назначении приоритетов может использоваться позиционный фактор. Позиционный фактор тем больше, чем ближе к начальному пикселю находится группа пикселей.

Для западных языков (английского, немецкого, французского) начальный пиксель исходно расположен в левом верхнем углу массива.

В отличие от патента DE 10113880 В4, в котором работают с заранее заданной формой группы пикселей, здесь группы пикселей могут изменяться в ходе распознавания. Примером группы пикселей является горизонтально расположенная строка пикселей, длина которой зависит от двукратного изменения яркости. Тогда при распознавании темных букв на светлом фоне расстояние между первым переходом «свет-тень» и следующим переходом «тень-свет» являлось бы величиной заданной толщины штриха. Группы пикселей, для которых толщина штриха считается одинаковой, объединяются в отдельный список. Чтобы повысить надежность способа в отношении ошибок для пикселей, дополнительно может применяться фильтр нижних частот. В случае использования такого фильтра, чтобы определить соответствующий переход «свет-тень» или «тень-свет», каждый раз берется сумма n соседних пикселей. С помощью формирования сумм в значительной мере устраняются возможные ошибки пикселей или ошибки вследствие сильных помех.

Для распознавания буквы сходные группы пикселей объединяются в соответствующем отдельном списке. Каждый полученный таким образом список сортируют так, что группы пикселей, расположенные ниже на оси Y, сортируются по убыванию. Если несколько сходных групп пикселей расположено на одном уровне по оси Y, для них формируются новые списки. Затем из этих списков выводятся соответствующие вектора. При этом из соответствующих списков выбираются группы пикселей с самым малым и самым большим значением Y. Затем между этими положениями групп пикселей рассчитывается линия. После этого определяют отклонения других групп пикселей от этой линии. Если все отклонения лежат ниже определенного порогового значения, то для этого списка находится описательный вектор. Если отклонения лежат выше порогового значения, список делят и пытаются сгенерировать для каждой части списка соответствующие вектора. При этом целесообразно разделить список там, где имеются наибольшие отклонения от рассчитанной линии. Таким образом получают множество векторов. Соприкасающиеся вектора объединяются в дополнительном векторном списке и значения Y сортируются соответствующим образом.

Такой векторный список описывает соответствующие буквы. Векторный список затем нормируется (например, по максимальной разнице Y). Такой нормированный векторный список может затем проходить по дереву решений, в котором сохранены различные буквы. При таком подходе сначала распознается только часть букв. Однако таким образом получают первичную информацию о распознаваемом тексте. В случае больших шрифтов каждый раз получают двойные буквы. Это объясняется тем, что в соответствии с толщиной линии буквы как переход «свет-тень», так и «тень-свет» интерпретируются как отдельная буква соответственно. При этом исходят из того, что расстояние между этими двойными буквами является более или менее постоянным. Это обстоятельство можно использовать для того, чтобы оптимизировать форму используемых групп пикселей в соответствии с толщиной линии. Так, ширину используемой группы пикселей нужно выбирать таким образом, чтобы она была в три раза шире толщины линии. Оптимальная высота группы пикселей зависит от высоты шрифта. С помощью таким образом оптимизированных групп пикселей изображение сканируется далее. За счет укрупнения групп пикселей благодаря меньшему количеству необходимых внутренних списков осуществляется более быстрая обработка, к тому же дающая более точный результат. Дополнительная оптимизация заключается в оптимизации деревьев результатов. Так как тип шрифта в тексте, как правило, не меняется, для каждого текста с таким типом шрифта существуют деревья результатов. Исходя из наличия 26 букв, с учетом заглавных и строчных букв получается 52 различных символа. Исходя из бинарного дерева, состоящего из 128 знаков, для определения буквы достаточно 7 ветвлений (2 в степени 7).

В случае машинного шрифта весь процесс распознавания текста можно дополнительно оптимизировать, сохраняя уже распознанные буквы или даже слоги в качестве образцов групп пикселей. Параллельно с помощью вышеописанного способа с помощью образца групп пикселей можно, например, легко распознавать гласные, так как они могут достигать очень большого значения групп пикселей.

В качестве дополнительной возможности ошибки распознавания частично могут распознаваться и корректироваться с помощью словарей. Вывод распознанных символов может осуществляться как на дисплей, так и с помощью приложений преобразования текста в речь.

Описан оптимизированный способ, с помощью которого из изображений на основе пикселей строят вектора, причем каждый отдельный пиксель (в одной строке группы пикселей) требуется пройти только один раз. В известных на сегодня способах оптического распознавания символов для повышения скорости распознавания, как правило, предварительно осуществляют оптимизацию контура и только затем приступают к распознаванию. В вышеописанном способе это осуществляется на одном этапе, снижая потребность в вычислительной мощности и повышая надежность.

Класс G06K9/46 выделение деталей или характеристик изображения

способ и система улучшения текста при цифровом копировании печатных документов - патент 2520407 (27.06.2014)
способ кодирования/декодирования многоракурсной видео последовательности на основе адаптивной локальной коррекции яркости опорных кадров без передачи дополнительных параметров (варианты) - патент 2510944 (10.04.2014)

способ и система и для просмотра изображения на устройстве отображения - патент 2509377 (10.03.2014)
способ выявления дефектов в продукте питания в режиме реального времени - патент 2509356 (10.03.2014)
способ кодирования/декодирования многоракурсной видеопоследовательности на основе локальной коррекции яркости и контрастности опорных кадров без передачи дополнительных служебных данных - патент 2493668 (20.09.2013)
способ определения ориентации элементов изображения - патент 2491630 (27.08.2013)
способ определения линии поверхности земли - патент 2488881 (27.07.2013)
способ локализации дорожных знаков и распознавания их групп и подгрупп - патент 2488164 (20.07.2013)
способ распознавания образа, устройство распознавания образов и компьютерная программа - патент 2487408 (10.07.2013)
способ выделения объекта в изображении - патент 2483354 (27.05.2013)