способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения

Классы МПК:G06F17/20 манипулирование данными, представленными на естественном языке
G06F17/21 обработка текста
G06F17/22 манипулирование или регистрация с помощью кодов, например, в последовательности символов текста
G06F17/27 автоматический анализ, например, синтаксический разбор, коррекция орфографических ошибок
G06F17/28 обработка или перевод текстов на естественном языке
Автор(ы):, ,
Патентообладатель(и):Закрытое акционерное общество "Аби Программное обеспечение"
Приоритеты:
подача заявки:
1999-04-08
публикация патента:

Изобретение относится к области электроники и предназначено, например, для использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения. Техническим результатом является снижение погрешности преобразования и/или верификации. Способ заключается в том, что производят выработку смысловых единиц распознаваемых фрагментов изображения, содержащих n составляющих их элементов, где n выбирают в пределах 1способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207nспособ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207103. В отобранных выборках выделяют подлежащие верификации совокупности их фрагментов изображения, содержащие n1 элементов, где n1 выбирают в пределах 1способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207(n1+n)/nспособ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072. Осуществляют поиск во вспомогательном массиве данных смысловых единиц, отличающихся от выделенных совокупностей фрагментов изображения, с погрешностью способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207, выбираемой в пределах 0способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207(способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1 - 1)/n1, где способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,6способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071,2, выбираемый в зависимости от частоты fi появления любой смысловой i-й единицы в допустимом множестве смысловых единиц, которую определяют как количество n2 повторений конкретной смысловой единицы, соотнесенное с общим количеством n3 смысловых единиц в допустимом множестве смысловых единиц. Выявляют в распознанных смысловых единицах элементы, которые не совпадают с эквивалентными им по месту расположения символами в смысловых единицах, найденных в процессе поиска, и производят их замену соответствующими им по месту расположения символами из найденных смысловых единиц. Формируют дополнительный массив динамических растровых эталонов компьютерных кодов элементов в составе распознаваемых смысловых единиц и с учетом предшествующих операций преобразуют вспомогательный массив данных до уменьшения итоговой погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 способа, которую выбирают по отношению к промежуточной погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071+способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073)/способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2.

Формула изобретения

Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения, заключающийся в том, что производят выборку смысловых единиц распознаваемых фрагментов изображения, содержащих n составляющих их элементов, где n выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 103, в отобранных выборках выделяют подлежащие верификации совокупности их фрагментов изображения, содержащие n1 элементов, где n1 выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207(n1 + n)/n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2, осуществляют поиск во вспомогательном массиве данных смысловых единиц, отличающихся от выделенных совокупностей фрагментов изображения, с погрешностью способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207, выдираемой в пределах 0 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1-1)/n1 где способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,6 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,2, выбираемый в зависимости от части fi появления любой смысловой i-ой единицы в допустимом множестве смысловых единиц, которую определяют как количество n2 повторений конкретной смысловой единицы, соотнесенное с общим количеством n3 смысловых единиц в допустимом множестве смысловых единиц, выявляют в распознанных смысловых единицах элементы, которые не совпадают с эквивалентными им по месту расположения символами в смысловых единицах, найденных в процессе поиска, и производят их замену соответствующими им по месту расположения символами из найденных смысловых единиц, формируют дополнительный массив динамических растровых эталонов компьютерных кодов элементов в составе распознаваемых смысловых единиц количеством n7, величину которого выбирают в пределах 1способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207(n2 + n5 + n6 + способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 n7 + n3)/ n3 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 6,3, где способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,4 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,3, выбираемый в зависимости от задаваемых погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 вспомогательного массива данных по отношению к допустимому множеству смысловых единиц, определяемой как вероятность ненахождения в массиве данных элемента nj, в общем количестве смысловых единиц n4 во вспомогательном массиве данных, и погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 преобразования, определяемой как количество n5 ошибочно преобразованных элементов, соотнесенное с общим количеством n6 элементов в преобразуемом наборе смысловых элементов из их допустимого множества, и преобразуют вспомогательный массив данных до уменьшения погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 способа, которую выбирают по отношению к погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071+способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073)/способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2.

Описание изобретения к патенту

Изобретение относится к области электроники и может быть применено, например, для использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения.

Известен способ использования вспомогательных данных в процессе преобразования компьютерных кодов и соответствующих им фрагментов изображения, включающий производимое человеком и/или заменяющим его устройством, и/или компьютерной программой использование вспомогательных данных, привлекаемых для распознавания соответствующих им оригиналов [Patent USA N 5153927: Character reading system and method., МПК Oct. 6, 1992.].

Известен также способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов, заключающийся в осуществляемом компьютерной программой использовании вспомогательных массивов данных, привлекаемых для распознавания соответствующих им оригиналов [Руководство пользователя Fine Reader 4.0 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 ABBYY Software House, М. , 1998. Казанский производственный комбинат программных средств. Заказ Ф-377].

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе высокие значения достигаемых погрешностей преобразования.

Решаемой изобретением задачей является совершенствование способов использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения с достижением технического результата в виде снижения погрешности преобразования и/или верификации.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов.

Оригинал - преобразуемая информация, материализованная преимущественно в виде совокупности компьютерных кодов, соответствующих исходному объекту, например распознаваемому фрагменту изображения.

Компьютерный код (например, символ) - компьютерное представление некоторого фрагмента информации (в частности, символьной).

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.

Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов (символов) с графическим изображением, введенным в компьютер.

Допустимое множество смысловых единиц включает в себя всю совокупность вероятных для распознавания наборов смысловых единиц.

Смысловая единица - это совокупность компьютерных кодов, соответствующих ориентированному на какое-либо практическое использование образу, например букве, слову, символу, графическому элементу, логической операции, их совокупности и др.

Вспомогательный массив данных - это произвольным образом сформированная совокупность электронных кодов смысловых единиц, охватываемых, в частности, допустимым множеством смысловых единиц.

Погрешность соответствия способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 между исходными смысловыми единицами и соответствующими им смысловыми единицами объема n1 в дополнительном массиве данных, определяется как допустимое число способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1 несовпадающих в них элементов, соотнесенное с n1: способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 = способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1/n1.

Частота fi появления любой смысловой i-й единицы в допустимом множестве смысловых единиц определяется как количество n2 повторений конкретной смысловой единицы, соотнесенное с общим количеством из смысловых единиц в допустимом множестве смысловых единиц: f1 = n2i/n3.

Погрешность способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 вспомогательного массива данных по отношению к допустимому множеству смысловых единиц определяется, как вероятность не нахождения в массиве данных элемента nj, соотнесенного с общим количеством смысловых единиц n4 во вспомогательном массиве данных.

Погрешность способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 преобразования определяется как количество n5 ошибочно преобразованных элементов, соотнесенные с общим количеством n6 элементов в преобразуемом наборе смысловых элементов из их допустимого множества: способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 = n5/n6.

Погрешность способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 определяется как итоговая погрешность преобразования.

Дополнительный массив динамических растровых эталонов - это совокупность элементов смысловых единиц, формируемая в процессе преобразования для уменьшения погрешностей способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071, способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072.

В качестве кратких сведений, раскрывающих сущность изобретения следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного способа использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения, заключающегося в том, что производят выборку смысловых единиц распознаваемых фрагментов изображения, содержащих n1 составляющих их элементов, где n1 - выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 103. В отобранных выборках выделяют подлежащие верификации совокупности их фрагментов изображения, содержащие n1 элементов, где n1 выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (n1+n)/n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2. Осуществляют поиск во вспомогательном массиве данных смысловых единиц, отличающихся от выделенных совокупностей фрагментов изображения, с погрешностью способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 выбираемой в пределах 0 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1-1)/n1. Здесь способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,6 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,2, выбираемый в зависимости от частоты fi появления любой смысловой i-й единицы в допустимом множестве смысловых единиц, которую определяют как количество n2 повторений конкретной смысловой единицы, соотнесенное с общим количеством n3 смысловых единиц в допустимом множестве смысловых единиц.

Выявляют в распознанных смысловых единицах элементы, которые не совпадают с эквивалентными им по месту расположения символами в смысловых единицах, найденных в процессе поиска, и производят их замену соответствующими им по месту расположения символами из найденных смысловых единиц. Формируют дополнительный массив динамических растровых эталонов компьютерных кодов элементов в составе распознаваемых смысловых единиц количеством n7, величину которого выбирают в пределах 1способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (n2 + n5 + n6 + способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n7 + n3)/n3 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 6,3. Здесь способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - - экспериментальный коэффициент в пределах 0,4 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,3, выбираемый в зависимости от задаваемых погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 вспомогательного массива данных по отношению к допустимому множеству смысловых единиц, определяемой как вероятность не нахождения в массиве данных элемента nj, в общем количестве смысловых единиц n4 во вспомогательном массиве данных, и погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 преобразования, определяемой как количество n5 ошибочно преобразованных элементов, соотнесенное с общим количеством n6 элементов в преобразуемом наборе смысловых элементов из их допустимого множества. Затем с учетом предшествующих операций преобразуют вспомогательный массив данных до уменьшения итоговой погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 способа, которую выбирают по отношению к погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071+способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073)/способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2.

При изложении сведений, подтверждающих возможность осуществления изобретения целесообразно более подробно описать предложенный способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им фрагментов изображения. Детально целесообразно остановиться только на существенных особенностях осуществления операций предложенного способа, заключающегося в том, что производят выборку смысловых единиц распознаваемых фрагментов изображения, содержащих n составляющих их элементов, где n - выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 103. Смысловыми единицами могут быть в произвольном случае буквы, математические и другие символы, отдельные слова, предложение, графические элементы, а также их любые сочетания. В отобранных выборках выделяют подлежащие верификации совокупности их фрагментов изображения, содержащие n1 элементов, где n1 выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (n1+n)/n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2. Осуществляют поиск во вспомогательном массиве данных смысловых единиц, отличающихся от выделенных совокупностей фрагментов изображения, с погрешностью способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207, выбираемой в пределах 0 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n1-1)/n1. Здесь способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,6 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,2, выбираемый в зависимости от частоты fi появления любой смысловой i-й единицы в допустимом множестве смысловых единиц, которую определяют как количество n2 повторений конкретной смысловой единицы, соотнесенное с общим количеством n3 смысловых единиц в допустимом множестве смысловых единиц. Фрагментами могут быть как смысловые единицы в целом, так и их части, ориентированные, например, на автономное применение. Погрешность преобразования в основном связана с качеством исходных графических изображений, которое определяется, в частности, тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст.

Выявляют в распознанных смысловых единицах элементы, которые не совпадают с эквивалентными им по месту расположения символами в смысловых единицах, найденных в процессе поиска, и производят их замену соответствующими им по месту расположения символами из найденных смысловых единиц. Формируют дополнительный массив динамических растровых эталонов компьютерных кодов элементов в составе распознаваемых смысловых единиц количеством n7, величину которого выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (n2 + n5 + n6 + способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207n7 + n3)/n3способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 6,3. Здесь способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 - экспериментальный коэффициент в пределах 0,4 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 1,3, выбираемый в зависимости от задаваемых погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 вспомогательного массива данных по отношению к допустимому множеству смысловых единиц, определяемой как вероятность не нахождения в массиве данных элемента nj, в общем количестве смысловых единиц n4 во вспомогательном массиве данных, и погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 преобразования, определяемой как количество n5 ошибочно преобразованных элементов, соотнесенное с общим количеством n6 элементов в преобразуемом наборе смысловых элементов из их допустимого множества.

Процесс построения динамических растровых эталонов целесообразно определить как производимое человеком и/или заменяющим его устройством, и/или компьютерной программой построение дополнительного массива данных, используемых для ускорения процесса распознавания. Динамический растровый эталон - это дополнительный массив данных, создаваемый и используемый для ускорения процесса распознавания. Понятие "динамический" отражает изменяемый характер создаваемых эталонов, то есть означает, что в процессе использования предложенного способа постоянно изменяют совокупность построенных эталонов пополнением ее новыми эталонами, видоизменением существующих и исключением ненужных, а понятие "растровый" характеризует их особенности выполнения в виде совокупности элементов, образующих, например, периодическую структуру. Создать эталон - значит для каждого встречающегося в тексте символа записать в память растровой подсистемы пару: точечное изображение символа и его название (т.е. какую буквы это изображение представляет).

Затем с учетом предшествующих операций преобразуют вспомогательный массив данных до уменьшения итоговой погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 способа, которую выбирают по отношению к погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071+способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073)/способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2. На практике возможно использование и отдельных логически завершенных совокупностей операций предложенного способа. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых величин получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют.

В качестве примера практического выполнения заявленного способа использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им фрагментов изображения, целесообразно привести следующий, реализованный в последних версиях системы оптического распознавания текстов FineReader. В процессе реализации способа производят выборку смысловых единиц распознаваемых оригиналов, содержащих n составляющих их элементов, где n - выбирают в пределах 1 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 20. В отобранных выборках выделяют подлежащие верификации совокупности их фрагментов, содержащие n1 элементов, где n1 выбирают из условия 1,8 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 (n1+n)/n способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 2. Осуществляют поиск во вспомогательном массиве данных смысловых единиц с погрешностью способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 отличающихся от выделенных совокупностей фрагментов, выбираемой в пределах способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 0,1 при способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 = 0,9 fi = 0,01 - 0,1. Выявляют в распознанных смысловых единицах элементы, которые не совпадают с эквивалентными им по месту расположения символами в смысловых единицах, найденных в процессе поиска, и производят их замену соответствующими им по месту расположения символами из найденных смысловых единиц. Формируют дополнительный массив динамических растровых эталонов компьютерных кодов элементов в составе распознаваемых смысловых единиц количеством n7, величину которого по отношению к общему количеству n3 смысловых единиц в допустимом множестве смысловых единиц выбирают из условия n7/n3 = 0,9 при способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 2166207 = 1,1, способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 = 0,05 и способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662072 = 0,05, пренебрегая в конкретном случае влиянием n2, n5, и n6 на величину n7. Преобразуют в результате вспомогательный массив данных до уменьшения погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073 по отношению к погрешности способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 из условия (способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071+способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662073)/способ использования вспомогательных массивов данных в   процессе преобразования и/или верификации компьютерных   кодов, выполненных в виде символов, и соответствующих им   фрагментов изображения, патент № 21662071 = 1,2.

Компьютерный код в заявленном объекте, как уже указывалось, - это преобразуемая компьютером совокупность электромагнитных сигналов, адекватно соответствующих распознаваемым исходным символам или любым другим распознаваемым фрагментам исходной информации. Каждый из эталонов совокупности динамических растровых эталонов, образующих периодическую структуру, представляет собой, например, упорядоченный набор электромагнитных сигналов или соответствующих рельефно намагниченных фрагментов жесткого диска. Динамические свойства растровых эталонов определяют временными параметрами их преобразования.

В отношении технических средств, необходимых для реализации заявленного способа, целесообразно в дополнении к вышеизложенному отметить, что ими могут быть как специализированные функциональные блоки, так и функциональные узлы компьютера, управляемые задаваемой системой команд. В частности, некоторые операции осуществляются математическим сопроцессором центрального процессора системного блока компьютера под управлением специализированных для операций с массивами данных и статистических вычислений функциональных программных блоков (библиотек команд, эталонов и других данных), производящих выборку и сортировку списков эталонов. Сами списки находятся либо в оперативной памяти (ОЗУ), либо на дисковом носителе компьютера и управляются системными библиотеками команд операционной среды. Под заменяющим человека устройством подразумевается любое устройство, которое может на необходимом для осуществления способа уровне выполнить операции, которые ранее выполнял или которые может выполнить человек. На практике техническими средствами реализации способа построения динамических растровых эталонов компьютерных кодов в процессе распознавания соответствующих им оригиналов могут являться, в частности, система состоящая из сканера, компьютера с загруженной в оперативную память программой сканирования, программой Fine Reader, подсистемой синхронизации компьютерных кодов, а также монитора, либо печатающего устройства и манипулятора для контроля и управления процессом. Соответствие критерию промышленная применимость предложенного способа также доказывается отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых признаков и известностью средств для их осуществления.

Указанные в формуле изобретения отличия, как уже отмечалось, дают основание сделать вывод о новизне предложенного технического решения, а совокупность испрашиваемых притязаний - о неочевидности их создания или об их изобретательном уровне, что доказывается также вышеприведенным описанием способа. Практическое использование способа обеспечивает достижение вышеуказанного технического результата взаимосвязанной совокупностью существенных признаков и особенностей, отраженных в формуле изобретения. Особенности использования способа и других объектов, не отраженные в описании, общеизвестны и не являются предметом изобретения.

Кроме указанного выше технического результата, практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами, либо документам плохого качества.

Класс G06F17/20 манипулирование данными, представленными на естественном языке

способ обнаружения текстовых объектов -  патент 2498401 (10.11.2013)
обработка электронных чернил -  патент 2485579 (20.06.2013)
разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка -  патент 2480822 (27.04.2013)
способ изучения системы письма китайскими иероглифами и основанных на китайских иероглифах систем письма других языков -  патент 2470354 (20.12.2012)
системы и способы манипулирования данными в системе хранения данных -  патент 2413984 (10.03.2011)
способ и система для создания, хранения, управления и потребления специфичных культуре данных -  патент 2412474 (20.02.2011)
устройство кросс-кластерной управляемой перестановки информации, хранимой в персональной эвм -  патент 2409842 (20.01.2011)
способ и система форматирования по условию, активируемая одним щелчком мыши, для программ -  патент 2398271 (27.08.2010)
способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации -  патент 2395117 (20.07.2010)
отображение таблиц с помощью команд на естественном языке -  патент 2380747 (27.01.2010)

Класс G06F17/21 обработка текста

поддержка быстрого слияния для устаревших документов -  патент 2527744 (10.09.2014)
длина документа в качестве статического признака релевантности для ранжирования результатов поиска -  патент 2517271 (27.05.2014)
оптимизация формата поискового индекса -  патент 2503058 (27.12.2013)
веб-канал, базируемый на языке xml, для веб-доступа удаленных источников -  патент 2503056 (27.12.2013)
совместная авторская подготовка документа -  патент 2501077 (10.12.2013)
структурированная соавторская разработка -  патент 2495484 (10.10.2013)
передатчик графических команд и способ передачи графических команд -  патент 2471226 (27.12.2012)
система и способ автоматического измерения высоты строки, размера и других параметров международного шрифта -  патент 2464631 (20.10.2012)
двухпроходное хеш извлечение текстовых строк -  патент 2464630 (20.10.2012)
способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа -  патент 2460154 (27.08.2012)

Класс G06F17/22 манипулирование или регистрация с помощью кодов, например, в последовательности символов текста

способ конверсии данных, устройство конверсии данных и система конверсии данных -  патент 2527201 (27.08.2014)
реализуемый компьютером способ кодирования числовых данных и способ кодирования структур данных для передачи в телекоммуникационной системе, основанной на вышеуказанном способе кодирования числовых данных -  патент 2470348 (20.12.2012)
устройство и метод формирования потока данных и устройство и метод считывания потока данных -  патент 2450344 (10.05.2012)
способ сжатия и восстановления сообщений в системах обработки, передачи и хранения текстовой информации -  патент 2437148 (20.12.2011)
шаблон электронной формы -  патент 2413987 (10.03.2011)
способ и система для преобразования иерархической структуры данных на основе схемы в плоскую структуру данных -  патент 2378690 (10.01.2010)
программируемая объектная модель для поддержки библиотеки пространств имен или схем в программном приложении -  патент 2371759 (27.10.2009)
система и способ проверки правильности документов xml и выдачи сообщения о нарушениях схемы -  патент 2328032 (27.06.2008)
способ взаимосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения -  патент 2165641 (20.04.2001)

Класс G06F17/27 автоматический анализ, например, синтаксический разбор, коррекция орфографических ошибок

способ автоматизированной семантической индексации текста на естественном языке -  патент 2518946 (10.06.2014)
способ синтаксического анализа языка программирования с расширяемой грамматикой -  патент 2515684 (20.05.2014)
способ семантической обработки естественного языка с использованием графического языка-посредника -  патент 2509350 (10.03.2014)
способ классификации документов по категориям -  патент 2491622 (27.08.2013)
идентификация семантических взаимоотношений в косвенной речи -  патент 2488877 (27.07.2013)
способ построения семантической модели документа -  патент 2487403 (10.07.2013)
механизм динамического синтаксического анализа/компоновки на основе схем для синтаксического анализа мультиформатных сообщений -  патент 2429533 (20.09.2011)
способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители -  патент 2399959 (20.09.2010)
упрощение сложных символов для поддержания разборчивости -  патент 2394268 (10.07.2010)
способ поиска информации в массиве текстов -  патент 2392660 (20.06.2010)

Класс G06F17/28 обработка или перевод текстов на естественном языке

сайты, переводимые пользователем после предоставления сайта -  патент 2498403 (10.11.2013)
архитектура распознавания для генерации азиатских иероглифов -  патент 2477518 (10.03.2013)
проверка ошибок сочетаний слов на базе сети интернет -  патент 2458391 (10.08.2012)
гибкий перевод отображения -  патент 2436146 (10.12.2011)
создание ресурса с использованием онтологий -  патент 2422890 (27.06.2011)
способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы -  патент 2419142 (20.05.2011)
адаптивный машинный перевод -  патент 2382399 (20.02.2010)
способы и системы для перевода с одного языка на другой -  патент 2357285 (27.05.2009)
перевод сообщений, передаваемых в электронной форме -  патент 2332709 (27.08.2008)
система автоматизированного упорядочения неструктурированного информационного потока входных данных -  патент 2312391 (10.12.2007)
Наверх