способ оценки сходства образцов почерка и способы верификации личности и идентификации почерка с использованием данного способа оценки

Классы МПК:G06K9/00 Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев
Автор(ы):
Патентообладатель(и):Институт проблем информатики Российской академии наук (RU)
Приоритеты:
подача заявки:
2006-09-21
публикация патента:

Изобретение относится к распознаванию изображений и более конкретно к автоматическому анализу образцов почерка, представленных в цифровом виде. Изобретение позволяет простым и надежным образом сравнивать образцы почерка и осуществлять верификацию и идентификацию личности по почерку. Определение количественной оценки сходства образцов почерка осуществляется путем нахождения количественной меры близости векторных темплейтов сравниваемых образцов. Формирование каждого векторного темплейта включает получение каждого образца почерка в цифровой форме, выделение набора графем и обработку данного набора с получением набора векторных описаний графем, который затем преобразуют в векторный темплейт. При этом нормируют графемы по положению и ориентации с использованием оценки угла наклона строк в исходном образце почерка и используют на этапе преобразования графемы в вектор фиксированное количество точек графемы, а также некоторые ее метрические характеристики. При этом с использованием представительной обучающей выборки векторов описаний образцов почерка находят оператор приведения векторов описаний образцов почерка к главным компонентам, что позволяет использовать для анализа векторы меньшей размерности и тем самым существенно упростить практическую реализацию способа. 3 н. и 15 з.п. ф-лы, 2 ил.

(56) (продолжение):

CLASS="b560m"Innovative Binarised Features of Handwitten Numerals. IEEE, ICDAR 2003, с.413-417.

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

Формула изобретения

1. Способ определения количественной оценки сходства образцов почерка, содержащих символы, расположенные, по меньшей мере, в одной строке, включающий:

(а) получение каждого образца почерка в цифровой бинаризованной форме,

(б) сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков;

(в) обработку каждого набора графем с получением набора векторных описаний графем,

(г) формирование на основе каждого полученного набора векторных описаний графем векторного темплейта образца почерка,

(д) получение количественной меры близости векторных темплейтов сравниваемых образцов почерка и

(ж) определение количественной меры близости сравниваемых образцов почерка с использованием количественной меры, полученной на операции (д), отличающийся тем, что операция (б) включает нахождение оценки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 угла наклона строк, скелетизацию линий символов в образце почерка и

удаление точек ветвления линий с разбиением образца почерка на графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 ;

операция (в) включает

получение описания каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в виде набора координат

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 ,

где ni - количество точек графемы,

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 - координаты ее j-й точки,

преобразование, с использованием найденной оценки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 угла наклона строк, каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в нормированную по положению и ориентации графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 , где

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

xc, yc - координаты опорной точки нормировки,

определение метрических характеристик каждой графемы и исключение графем с нетипичными метрическими характеристиками и преобразование каждой графемы в вектор с использованием фиксированного количества n f точек графемы, где nf<n i; при этом перед выполнением операции (г) для сравниваемых образцов почерка создают выборку образцов различных почерков, выполняют операции (а)-(в) для каждого образца выборки с формированием представительной обучающей выборки векторов описаний образцов почерка и по результатам анализа сформированной выборки определяют оператор приведения векторов описаний образцов почерка к главным компонентам, причем

операция (г) включает преобразование посредством указанного оператора каждого вектора, полученного на операции (в) для сравниваемых образцов почерка, в вектор меньшей размерности и

использование в качестве темплейта образца почерка набора векторов меньшей размерности, соответствующего указанному образцу.

2. Способ по п.1, отличающийся тем, что длину образцов почерка выбирают таким образом, чтобы набор графем, формируемый из каждого образца почерка, составлял не менее 300 графем.

3. Способ по п.1, отличающийся тем, что сравниваемые образцы почерка формируют из текстов несовпадающего содержания.

4. Способ по п.1, отличающийся тем, что образцы почерка, образующие указанную выборку, формируют из текстов несовпадающего содержания.

5. Способ по п.1, отличающийся тем, что в качестве опорной точки при преобразовании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 используют центроид графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 с координатами способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 , способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

6. Способ по п.1, отличающийся тем, что в качестве опорной точки при преобразовании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 используют начальную или конечную точку графемы G i.

7. Способ по п.6, отличающийся тем, что перед определением метрических параметров графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 из двух ее крайних точек (x1, y 1) и способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 выбирают в качестве точки ее начала точку с наименьшим значением x, а при x1=x n - точку с наименьшим значением y, при этом в случае выбора в качестве точки начала точки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 производят перестановку точек в описании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в обратном порядке, с преобразованием графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

8. Способ по п.1, отличающийся тем, что в качестве метрических характеристик каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 используют косинус и синус ее угла наклона, длину графемы и/или размеры наименьшего охватывающего прямоугольника.

9. Способ по п.8, отличающийся тем, что посредством векторной фильтрации исключают из набора графем графемы с нетипичными характеристиками.

10. Способ по п.8, отличающийся тем, что при преобразовании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в вектор указанные метрические характеристики графемы включают в компоненты указанного вектора.

11. Способ по п.1, отличающийся тем, что количество компонент в векторе меньшей размерности определяют по результату обработки представительной обучающей выборки с использованием метода анализа главных компонент.

12. Способ по п.1, отличающийся тем, что количество компонент в векторе меньшей размерности определяют по результату обработки представительной обучающей выборки векторов описаний образцов почерка с использованием метода анализа независимых компонент.

13. Способ по п.12, отличающийся тем, что в качестве количественной меры близости темплейтов используют произведение Р-значений критерия согласия Колмогорова-Смирнова по всем компонентам вектора меньшей размерности.

14. Способ по п.12, отличающийся тем, что в качестве количественной меры близости темплейтов используют произведение Р-значений критерия согласия хи-квадрат по всем компонентам вектора меньшей размерности.

15. Способ верификации личности по верифицируемому образцу почерка путем определения сходства верифицируемого образца почерка и заранее сформированного эталонного образца текста, привязанного к установочным данным верифицируемой личности, с использованием количественной оценки сходства, отличающийся тем, что количественную оценку сходства верифицируемого и эталонного образцов определяют в соответствии со способом по любому из пп.1-14.

16. Способ по п.15, отличающийся тем, что эталонный образец почерка хранят в виде темплейта.

17. Способ идентификации почерка путем определения сходства образца идентифицируемого почерка и образцов почерка из предварительно сформированной базы данных, содержащей идентифицированные образцы почерка, причем в способе используют количественные оценки сходства и составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка, отличающийся тем, что количественные оценки сходства образца идентифицируемого почерка и каждого используемого образца почерка из указанной базы данных определяют в соответствии со способом по любому из пп.1-14.

18. Способ по п.17, отличающийся тем, что база данных идентифицированных образцов почерка представляет собой базу данных темплейтов указанных образцов.

Описание изобретения к патенту

Область техники

Настоящее изобретение относится к области распознавания данных и обработки цифровых данных с помощью электрических устройств и более конкретно к автоматическому анализу образцов почерка, представленных в цифровом виде, в частности, с целью верификации (подтверждения идентичности) личности по почерку или идентификации почерка и соответствующей ему личности.

Уровень техники

По мере развития вычислительной техники и электронных средств коммуникации все более широкое применение получают различные методы верификации личности по цифровым образцам почерка (например, по образцам подписи). Любой метод верификации применим также для идентификации (получения списка наиболее похожих образцов) при поиске по некоторой базе темплейтов.

Известные методы верификации, применяемые при осуществлении различных электронных транзакций, описаны, например, в RU 2000114185, МПК G06T 7/00, 2002 и RU 2002119571, МПК G06F 17/60, 2004. Наиболее эффективные методы верификации по почерку состоят в определении количественной оценки сходства образцов почерка. Один из образцов в этом случае хранится в виде заранее сформированного темплейта (от англ. template - описание в цифровом виде) и привязан к установочным данным определенного человека. Второй образец предъявляется для распознавания, причем процедура верификации рассматривается как состоявшаяся, если оценка сходства сравниваемых образцов является достаточно высокой для признания идентичности почерка в обоих случаях. Один из известных способов анализа сходства образцов почерка в виде подписей, используемый для целей идентификации личности, описан в RU 2148274, МПК G06K 9/22, G06K 9/62, G06F 15/18, 2000. Однако данный и аналогичный ему способы требуют для своей реализации специального оборудования типа специальных графических планшетов и, как следствие, имеют ограниченную область применения.

Известны также различные способы получения количественной оценки сходства образцов почерка в целях осуществления верификации или идентификации, использующие стандартное оборудование для преобразования рукописных образцов в цифровую форму. Подобные способы основываются, в частности, на технике автоматической кластеризации и скрытых марковских моделях (см., например, А.Schlappbach, H.Bunke. Off-Line Handwriting Identification Using HMM Based Recognizers. IEEE, 2004 (2), pp.654-658) или на использовании определенного, специфичного набора признаков (см., например, G.Leedham, S.Chachra. Writer Identification Using Innovative Binarised Features of Handwritten Numerals. IEEE, ICDAR 2003, pp.413-417). Известные способы используют нормировку, со всеми вытекающими неудобствами, и транскрипцию, т.е. очень громоздки и требуют серьезного участия человека на этапе формирования темплейта.

Наиболее близким аналогом предлагаемого способа является способ определения количественной оценки сходства образцов почерка, представленный в работе A.Bensefia, Т.Paquet, L.Heutte. Handwritten Document Analysis for Automatic Writer Recognition. Electronic Letters on Computer Vision and Image Analysis, 2005, 5(2), pp 72-86. Как и другие вышеупомянутые способы, данный способ ориентирован на использование базы данных темплейтов, соответствующих различным почеркам и сформированных по выборке рукописных документов, написанных различными почерками (т.е. имеющих различных авторов). При этом подготовка каждого темплейта включает получение образца почерка в цифровой бинаризованной форме и его предварительную обработку, предусматривающую, в частности, сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков. В результате дальнейшей обработки каждого набора графем (с применением процедуры автоматической кластеризации) получают наборы векторных описаний графем, составляющих основу векторных темплейтов образцов почерка. При этом, как и в других аналогичных способах, в качестве меры близости сравниваемых образцов почерка используют количественную меру близости векторных темплейтов. В указанной работе Bensefia et al. описано также использование рассмотренного способа оценки сходства образцов почерка для осуществления способов верификации и идентификации.

Использование в известном способе операций автоматической кластеризации существенно усложняет его осуществление. Кроме того, результаты статистического анализа, выполняемого при проведении верификации или идентификации известным способом, зависят от конкретной базы (при вводе образца почерка нового автора список всех состояний по всем авторам изменяется). При этом решение в отношении верификации или идентификации принимается на основании статистического критерия взаимной информации по данным очень большой размерности (400-500 состояний).

Раскрытие изобретения

Таким образом, существует потребность в разработке простого в осуществлении и эффективного способа количественного сравнения образцов почерка, которые могут быть преобразованы в цифровую форму стандартными цифровыми устройствами ввода с умеренным разрешением. При этом необходимо обеспечить высокую надежность получаемых оценок без необходимости использования образцов почерка, содержащих большое количество символов.

Еще одна задача, решаемая изобретением, заключается в обеспечении возможности распознавания почерка (в целях верификации и/или идентификации) в условиях независимости от текста, т.е. с получением сравниваемых образцов почерка из текстов несовпадающего содержания.

Перечисленные задачи решены созданием способа определения количественной оценки сходства образцов почерка, который включает следующие операции:

- (а) получение каждого образца почерка в цифровой бинаризованной форме,

- (б) сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков;

- (в) обработку каждого набора графем с получением набора векторных описаний графем;

- (г) формирование на основе каждого полученного набора векторных описаний графем векторного темплейта образца почерка;

- (д) получение количественной меры близости векторных темплейтов сравниваемых образцов почерка; и

- (ж) определение количественной меры близости сравниваемых образцов почерка с использованием количественной меры, полученной на операции (д).

При этом отличительными особенностями способа по изобретению является то, что операция сегментации включает в себя нахождение оценки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 угла наклона строк, скелетизацию линий символов в образце почерка и удаление точек ветвления линий с разбиением образца почерка на графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

Кроме того, операция обработки каждого набора графем включает:

получение описания каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в виде набора координат способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где

ni - количество точек графемы,

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 - координаты ее j-й точки;

преобразование, с использованием найденной оценки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 угла наклона строк, каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в нормированную по положению и ориентации графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

с, yс ) - координаты опорной точки нормировки;

определение метрических характеристик каждой графемы и исключение графем с нетипичными метрическими характеристиками, и

преобразование каждой графемы в вектор с использованием фиксированного количества n f точек графемы, где nf<n i.

При этом перед выполнением операции формирования темплейта для сравниваемых образцов почерка выполняют перечисленные операции (а)-(в) для каждого образца предварительно созданной выборки образцов различных почерков с формированием представительной обучающей выборки векторов описаний образцов почерка и по результатам анализа сформированной выборки определяют оператор приведения векторов описаний образцов почерка к главным компонентам.

Еще одной особенностью является то, что операция (г) в способе по изобретению включает преобразование, посредством указанного оператора, каждого вектора, полученного на операции (в) для сравниваемых образцов почерка, в вектор меньшей размерности и использование, в качестве темплейта образца почерка, набора векторов меньшей размерности, соответствующего указанному образцу.

Предлагаются также предпочтительные варианты осуществления способа по изобретению, которые характеризуются соответствующими дополнительными признаками.

Так, для обеспечения высокой достоверности идентификации анализируемого образца почерка длину этого образца (как и длину каждого образца из используемой выборки образцов почерка) выбирают таким образом, чтобы набор графем, формируемый из каждого образца почерка, составлял не менее 300 графем. Важной полезной особенностью способа является то, что сравниваемые образцы почерка могут формироваться из текстов несовпадающего содержания. Эта особенность существенно облегчает формирование базы данных образцов почерка и позволяет использовать для анализа любой доступный текст достаточной длины, а не только текст, подготовленный по определенным правилам, например включающий заданные слова.

Далее перед определением метрических параметров графемыспособ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 из двух ее крайних точек (х1, y 1) и способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 рекомендуется выбрать в качестве точки ее начала точку с наименьшим значением х, а при х1 n - точку с наименьшим значением y. При этом в случае выбора в качестве точки начала точки способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 необходимо произвести перестановку точек в описании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в обратном порядке, с преобразованием графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

Основная часть операций способа по изобретению может быть реализована в различных альтернативных вариантах. Так, при преобразовании графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в графему способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 в качестве опорной точки может быть выбран центроид исходной графемы, ее начало или конец, а также центр тяжести.

В качестве метрических характеристик каждой графемы способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 может быть использована любая приемлемая комбинация следующих параметров: косинуса и синуса ее угла наклона, длины графемы и размеров наименьшего охватывающего прямоугольника. При этом графемы с нетипичными значениями перечисленных характеристик (соответствующие присутствующим в образце почерка различным посторонним элементам типа линеек, клеток и т.д.) целесообразно исключить из используемого набора графем посредством векторной фильтрации. В то же время названные метрические характеристики графемы (или их часть) могут быть включены в компоненты вектора, в который преобразуется графема.

Количество компонент в векторе меньшей размерности может быть определено по результату обработки представительной обучающей выборки с использованием одного из стандартных методов уменьшения размерности, например метода анализа главных компонент или метода анализа независимых компонент. При этом качестве количественной меры близости сопоставляемых темплейтов предпочтительно использовать произведение Р-значений одного из стандартных критериев согласия (например, критерия Колмогорова-Смирнова или критерия хи-квадрат) по всем компонентам указанного вектора.

В качестве достоинств способа по изобретению (которые будут более подробно рассмотрены в разделе "Осуществление изобретения") можно отметить, что он позволяет избежать таких этапов предварительной обработки образцов текста, как нормировка всего изображения по размеру и наклону рукописных символов. Кроме того, обеспечивается автоматическое удаление нетекстовых элементов (строк, подчеркиваний, линий, шумов и т.д.). Не требуется этапа транскрипции, т.е. расшифровки самого текста.

Изобретение охватывает также способ верификации личности по верифицируемому образцу почерка путем определения сходства верифицируемого образца почерка и заранее сформированного эталонного образца текста, привязанного к установочным данным верифицируемой личности, с использованием количественной оценки сходства. При этом для определения указанной количественной оценки сходства в способе верификации по изобретению используют любой из вышеописанных вариантов осуществления способа определения количественной оценки сходства образцов почерка, причем эталонный образец почерка предпочтительно хранят в виде темплейта в составе сформированной для этой цели базе данных темплейтов.

Изобретение охватывает, кроме того, способ идентификации почерка путем определения сходства образца идентифицируемого почерка и образцов почерка из предварительно сформированной базы данных, содержащей идентифицированные образцы почерка, причем в способе используют количественные оценки сходства и составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка. Подобно тому, как это предложено для вышеупомянутого способа верификации, количественные оценки сходства определяют с использованием любого из вышеописанных вариантов осуществления способа определения количественной оценки сходства образцов почерка. При этом база данных идентифицированных образцов почерка предпочтительно представляет собой базу данных темплейтов этих образцов.

Краткое описание чертежей

На фиг.1 приведен характерный исходный образец почерка, пригодный для осуществления изобретения.

На фиг.2 представлен результат обработки образца почерка, приведенного на фиг.1.

Осуществление изобретения

Способ определения количественной оценки сходства образцов почерка согласно изобретению можно разделить на две стадии: построение темплейта и сравнение темплейтов. Для реализации способа необходимо располагать базой данных (БД) темплейтов, построенной на основе представительной выборки образцов различных почерков. Порядок построения темплейтов, вводимых в БД, точно такой же, как и для образцов почерка, подлежащих сравнению в рамках способа по изобретению. При этом для формирования темплейта с целью занесения в БД желательно иметь образец текста не менее 30 слов. Желательно также, чтобы текст имел форму нескольких (предпочтительно не менее трех) рукописных строк. Такая длина и форма текста в принципе достаточны для получения стабильных результатов, при этом одним из преимуществ способа является то, что исходные (рукописные) образцы почерка могут соответствовать текстам несовпадающего содержания. Один из реальных образцов почерка, использованный при экспериментальной проверке изобретения, приведен на фиг.1.

Построение темплейта

Первой операцией, выполняемой на этапе обработки изображения образца почерка, является получение образца почерка в цифровой бинаризованной форме. Преобразование исходных (рукописных) образцов в электронную форму может быть осуществлено любым подходящим для этой цели цифровым устройством ввода (предпочтительно стандартным планшетным сканером) с разрешением, при котором эффект дискретизации не искажает качество распознавания (рекомендуемое разрешение 300 dpi). Далее оцифрованное изображение или какой-либо выделенный его участок преобразуют к бинарному виду, т.е. пикселы изображения, соответствующие линиям символов, получают одно из двух бинарных значений, а пикселы, соответствующие фону, - другое. Для осуществления этой операции может быть использован любой метод автоматической бинаризации, который хорошо отделяет изображения букв от фона. При дальнейшем рассмотрении принимается, что линии белые (значение "1"), а фон черный (значение "0").

После бинаризации образца почерка находят оценку угла наклона строк (УНС). Специалистам хорошо известны различные методы оценки УНС. В качестве одного из предпочтительных вариантов можно отметить метод, основанный на суммировании бинарных значений вдоль различных направлений в растровом монохромном изображении рукописного текста (полученного в результате выполнения бинаризации). Для каждого выбранного направления получают одномерную последовательность и находят оценку ее дисперсии. В качестве оценки УНС принимают значение угла способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 , который дает наибольшую дисперсию.

После этого одним из известных методов, в частности с использованием фильтра низких частот выполняют фильтрацию шумовых участков в бинарном изображении образца почерка, а также скелетизацию линий символов. После данного преобразования каждая точка линии символа в образце почерка (кроме случаев окончания и ветвления линий) будет иметь только два соседа со значением 1.

На следующей операции удаляют точки, соответствующие ветвлениям линий (т.е. имеющие более 2-х соседей со значением 1). В результате формируется набор несвязных линий, каждая точка которых имеет не более двух равнозначных соседей и только 2 точки (точки окончаний) на одной линии имеют только одного равнозначного соседа. Такие линии далее будут именоваться графемами. Графема представляет собой участок линии (в дискретном представлении) без самопересечений, т.е. она задается координатами начальной точки, конечной точки и всех точек линии. Путем обхода каждой отдельной графемы от конечной точки получают ее описание в виде набора координат на дискретной сетке.

Пусть в преобразуемом образце почерка содержится ng графем, а исходное описание i-й графемы представлено в виде:

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где ni - количество точек графемы, способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 - координаты j-й точки.

Далее выполняют нормировку графем по положению:

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 = оценка УНС.

В качестве опорной точки для нормировки (хc, yc) можно взять любую однозначно вычисляемую оценку-, В качестве опорной можно взять, например, начальную точку, конечную точку или любую функцию, переводящую набор координат в вектор, например центр тяжести или центроид: способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

Если нужно избежать вариабельности наклона символов, которая может быть связана с нечетким соблюдением наклона строки при написании либо с психологическим состоянием автора, можно сделать дополнительную нормировку по ориентации, определяемую любой из однозначно вычисляемых оценок, например по направлению вектора начала графемы (х1, y 1)T, либо вдоль оси инерции и т.д. После преобразования (2) важно выбрать точку начала графемы. Это можно сделать, например, следующим образом: из двух точек (х1, y1) и способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 выбирают ту, у которой абсцисса меньше, если же абсциссы совпадают, выбирают ту, у которой ордината меньше. Если начальной точкой оказалась способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 , то точки в описании графемы переставляются в обратном порядке. После выбора начальной точки и изменения порядка следования точек линии (там, где это необходимо) получают описание графемы следующего уровня:

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

После преобразования графем в векторную форму проводят "векторную" фильтрацию, т.е. исключение графем с нетипичными метрическими характеристиками. Данная фильтрация позволяет удалять линейки, клетки и прочие нетекстовые элементы на изображении.

Каждое описание способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 преобразуют в новое описание с фиксированным количеством точек nf:

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

квадратные скобки здесь означают округление до ближайшего целого. Таким образом, описание графемы получают в виде вектора Vi с 2nf компонентами, которые далее будут обознаться, как способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

Для каждой графемы вычисляют также дополнительные метрические параметры, в качестве которых могут быть использованы, например, угол наклона графемы, ее длина и/или размеры наименьшего охватывающего прямоугольника. Эти признаки более отдалены от природы изображения (рукописного текста) и описывают скорее параметры текстуры. Можно использовать и другие текстурные признаки. В распознавании (т.е. при верификации или идентификации) их можно использовать для вычисления дополнительного критерия соответствия текстурных характеристик.

Более предпочтительный вариант использования дополнительных метрических параметров заключается в том, что к 2nf компонентам графемы добавляют еще несколько компонентов, например длину, косинус и синус угла наклона, размеры наименьшего охватывающего прямоугольника, с получением результирующего вектора из n0 =2nf+k компонент (в приведенном примере k=5). Дальнейшая обработка в этом варианте проводится именно для векторов размерности n0 (а не 2n f).

Если есть необходимость в обеспечении инвариантности к размеру символов, можно нормировать координаты в описании (2) делением на усредненный по всем графемам метрический параметр.

Результаты векторизации исходного образца почерка (приведенного на фиг.1) представлены на фиг.2, где светлые линии отображают векторное представление графем. Приведенный на фиг.2 результат получен при выборе 16 точек на графему (nf =16), причем для получения графического представления точки соединяют отрезками прямых. Как видно из фиг.2, при таком выборе количества точек графемы в векторном представлении отображаются вполне адекватно. Видно также, что нетекстовые структуры автоматически фильтруются, а графемы нормируются по интегральному значению УНС.

Используя представительную выборку векторов описаний образцов почерка, полученную по множеству текстов различных авторов, одним из методов приведения к главным компонентам, независимым в рамках некоторой модели, например методом анализа главных компонент (РСА - principal component analysis) или методом анализа независимых компонент (ICA - independent component analysis), - см., например, R.О.Duda, Р.Е.Hart, D.G. Stork. Pattern Classification (2nd ed.), (2000). New York: John Wiley Press и L.I.Smith A tutorial on principal components analysis. (2002). Retrieved from www.cs.otago.ac.nz/cosc453/student.tutorials/principal_component.pdf. - находят оператор преобразования векторов Vi в вектора меньшей размерности Рi с компонентами способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 , j=1÷np, np <2nf. Размерность вектора главных компонент определяют исходя из особенностей статистики исследуемой выборки.

Полностью темплейт описания почерка для данного участка текста определяется набором способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

Метод сравнения двух темплейтов

Поскольку главные компоненты предположительно независимы, для сравнения двух темплейтов способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 и способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 можно для каждой компоненты k отдельно вычислить Р-значение статистики одного из стандартных критериев согласия, например, Колмогорова-Смирнова или способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 2 (хи-квадрат) выборок способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 и способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 .

Обозначим это значение через способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941 . Поскольку в базисе главных векторов корреляционной матрицы (главных компонент) значения компонент рассматриваются как статистически независимые между собой, для многомерной оценки можно просто умножать оценки для каждой из компонент. Тогда в качестве меры сходства двух почерков можно использовать величину

способ оценки сходства образцов почерка и способы верификации   личности и идентификации почерка с использованием данного способа   оценки, патент № 2340941

где f(x) - любая монотонно возрастающая функция, которая обычно выбирается нормировкой по ошибке ложного опознавания "чужого".

В качестве основных отличительных особенностей и преимуществ способа по изобретению можно отметить следующие:

- графемы в анализируемых образцах рассматриваются как характеристики написания, а не как элементы букв или других зависящих от текста структурных единиц;

- графемы преобразуются в векторный вид, что позволяет обойтись без таких сложных этапов предобработки, как нормировка всего изображения по размеру и наклону рукописных символов, удаление нетекстовых элементов (строк, подчеркиваний, линий, шумов и т.д.), тогда как нормировка и фильтрация нетекстовых структур в векторном виде намного проще в вычислительном смысле;

- не требуется выделение строк, отдельных слов, букв и т.д.;

- не требуется этапа транскрипции, т.е. расшифровки самого текста;

- оператор преобразования в пространство главных компонент вычисляется один раз и в дальнейшем не зависит от предъявляемых данных.

Перечисленные преимущества способа определения количественной оценки сходства образцов почерка делают его весьма эффективным в качестве основы способа верификации личности по верифицируемому образцу почерка. В этом случае в качестве одного из двух сравниваемых темплейтов используют хранящийся в базе данных темплейт эталонного образца почерка, привязанного к установочным данным верифицируемой личности. Темплейт эталонного образца формируют точно так же, как это было описано выше, т.е. на него не накладываются какие-либо дополнительные ограничения в отношении содержания текста, разбиения на строки и т.д.

При этом, как уже было отмечено, критерий верификации представляет собой обычный, теоретически обоснованный уровень значимости. Кроме того, не используются никакие дополнительные неробастные настройки, которые имеют место на этапе автоматической кластеризации и выделения основных состояний в большинстве известных способов аналогичного назначения (включая способы, упомянутые в разделе "Уровень техники").

Использование предложенного способа определения количественной оценки сходства образцов почерка для осуществления идентификации, по существу, аналогично его использованию для целей верификации. Способ идентификации также предусматривает использование базы данных идентифицированных образцов почерка, предпочтительно организованной в виде базы данных темплейтов образцов почерка, сформированных, как это было описано выше. Однако в этом случае образец почерка, подлежащий идентификации, предъявляется без каких-либо дополнительных данных о личности человека, которому принадлежит данный идентифицируемый образец, поэтому сравнение данного образца производится не с единственным эталонным образцом, а с множеством идентифицированных образцов. По результатам такого множественного сравнения составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка. Если темплейт образца идентифицированного почерка имеется в базе данных темплейтов, он с высокой вероятностью окажется первым в ранжированном списке темплейтов, т.е. будет иметь наивысшую (и очень высокую) оценку сходства с темплейтом идентифицируемого образца. В результате анализируемый образец почерка может быть идентифицирован как почерк личности, соотнесенной с темплейтом соответствующего образца почерка, тем самым будет идентифицирована личность человека, которому принадлежит анализируемый образец почерка.

При проведении экспериментальной проверки изобретения были получены следующие результаты, свидетельствующие о высокой надежности способов верификации и идентификации согласно изобретению: при наличии не менее 300 графем в сравниваемых образцах в 95% случаев можно говорить об идентичности сравниваемых образцов почерка с достоверностью 90%, в 70% случаев - с достоверностью 99%, в 60% случаев - с достоверностью 99,9%.

Специалистам в данной области должно быть очевидно, что в конкретные варианты их осуществления, представленные в данном описании, могут быть внесены многочисленные модификации и дополнения, не выходящие за пределы предложенной группы изобретений. Например, возможно применение различных методик количественного сопоставления образцов почерка в векторной форме, а также использование различных критериев согласия и т.д.

Класс G06K9/00 Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев

способ и оптическое устройство для анализа метки на светопроницаемой или прозрачной криволинейной стенке -  патент 2528150 (10.09.2014)
cпособ автоматического распознавания объектов на изображении -  патент 2528140 (10.09.2014)
устройство обработки бумажных листов и способ обработки бумажных листов -  патент 2527203 (27.08.2014)
система и способ для автоматического планирования двухмерных видов в объемных медицинских изображениях -  патент 2526752 (27.08.2014)
записывающее устройство, способ записи, устройство воспроизведения, способ воспроизведения, носитель записи и программа -  патент 2525483 (20.08.2014)
способ и устройство временного декодера -  патент 2525441 (10.08.2014)
система и способ сжатия мультитипотокового видео с использованием множества форматов кодирования -  патент 2524845 (10.08.2014)
информационный процессор, способ обработки и программа -  патент 2524836 (10.08.2014)
устройство и способ обработки информации и система обработки информации -  патент 2524677 (10.08.2014)
способ комплексного контроля людей на пунктах пропуска -  патент 2524561 (27.07.2014)
Наверх