способ и устройство для естественно-речевого распознавания речевого высказывания

Классы МПК:	G10L15/18 с использованием моделирования естественного языка G10L15/28 конструктивные детали систем распознавания речи
Автор(ы):	ХАЙН Эккехард (DE), ЛИДТКЕ Клаус-Дитер (DE), МАРКЕФКА Гунтберт (DE)
Патентообладатель(и):	ДОЙЧЕ ТЕЛЕКОМ АГ (DE)
Приоритеты:	подача заявки: 2007-06-14 публикация патента: 27.10.2011

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. Техническим результатом является создание способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Указанный технический результат достигается тем, что способ для естественно-речевого распознавания речевого высказывания включает анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26). Способ включает одновременную подачу речевого сигнала (10) к первой и второй ветвям распознавания речи, включающим в себя соответственно первую грамматику (12) и вторую грамматику (14) для анализа речевого сигнала. В случае распознавания или нераспознавания речевого высказывания посредством первой грамматики (12) или второй грамматики (14) получают первый или второй положительные результаты распознавания или первый или второй отрицательные результаты распознавания. Решение об успешном распознавании речевого высказывания принимают на основании оценки первого и второго результатов распознавания. Посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывания, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания. Используют либо выданный первой грамматикой (12) результат распознавания, либо результат распознавания с наибольшей надежностью распознавания. 2 н. и 1 з.п. ф-лы, 2 ил., 1 табл.

способ и устройство для естественно-речевого распознавания речевого высказывания, патент № 2432623

Формула изобретения

1. Способ для естественно-речевого распознавания речевого высказывания, включающий в себя следующие этапы:

распознавание речевого высказывания и его преобразование в обрабатываемый в устройстве распознавания речи речевой сигнал (10);

анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26);

успешное завершение процесса распознавания речевого высказывания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат;

и способ включает в себя следующие этапы:

a) подачу речевого сигнала (10), по меньшей мере, к одной первой ветви распознавания речи, включающей в себя первую грамматику (12) для анализа речевого сигнала, и одновременно ко второй ветви распознавания речи, включающей в себя вторую грамматику (14) для анализа речевого сигнала,

b) анализ речевого сигнала посредством первой грамматики (12), причем в случае распознавания речевого высказывания получают первый положительный результат распознавания, а в случае нераспознавания речевого высказывания - первый отрицательный результат распознавания;

c) анализ речевого сигнала посредством второй грамматики (14), причем в случае распознавания речевого высказывания получают второй положительный результат распознавания, а в случае нераспознавания речевого высказывания - второй отрицательный результат распознавания;

d) принятие решения об успешном распознавании речевого высказывания на основании оценки первого и второго результатов распознавания, отличающийся тем, что посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывании, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания,

в случае, если и первый, и второй результаты распознавания не являются положительными, то речевое высказывание считается нераспознанным,

в случае, если либо первый, либо второй результат распознавания является положительным, то речевое высказывание считается распознанным, и

в случае, если и первый, и второй результаты распознавания являются положительными, то речевое высказывание считается распознанным,

и используют либо выданный первой грамматикой (12) результат распознавания,

либо результат распознавания с наибольшей надежностью распознавания.

2. Способ по п.1, отличающийся тем, что правила грамматик (12, 14, 26) не пересекаются.

3. Устройство для осуществления способа по пп.1 или 2 для естественно-речевого распознавания речевого высказывания, содержащее

средства (10) для регистрации речевого высказывания и для его преобразования в обрабатываемый в устройстве распознавания речи речевой сигнал,

устройство распознавания речи с несколькими ветвями распознавания речи, причем каждая ветвь распознавания речи содержит грамматику (12, 14, 26) для анализа речевого сигнала (10),

причем речевой сигнал подается к ветвям распознавания речи параллельно, и

средства (20, 22, 24) для управления и оценки процесса распознавания, в зависимости от результата распознавания, по меньшей мере, в одной ветви распознавания речи.

Описание изобретения к патенту

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания, в частности, на основе системы распознавания речи, который осуществляется, например, в электронной системе обработки данных.

Системы распознавания речи используются в различных областях. Например, они используются в сочетании с офисными приложениями для регистрации текстов или в сочетании с техническими устройствами для управления ими и для ввода команд. Системы распознавания речи используются также для управления информационными и коммуникационными приборами, например радио, мобильными телефонами и навигационными системами. Кроме того, многие фирмы используют системы речевых диалогов для консультирования и информирования клиентов, также основанные на системах распознавания речи. На это и направлена заявка.

При автоматическом распознавании речи для оценки последовательностей слов используются так называемые речевые модели, основанные на грамматическом правиле, называемом также грамматика или граммар. Грамматики определяют однозначные правила предложений. Основанные на грамматиках системы распознавания речи имеют высокую надежность распознавания.

В частности, при консультировании клиентов в технической области, например, что касается мобильных телефонов и тарифов, всегда требуются более мощные системы распознавания речи. Чтобы понимать многочисленные высказывания клиентов, требуются очень большие грамматики, объем которых снижает надежность распознавания.

Любой автоматизированный процесс распознавания речи основан на сравнении конкретного высказывания позвонившего с записанными словами или выражениями. Только в случае совпадения высказывание считается распознанным и может инициировать установленное действие. Однако из этого следует «Grammar Dilemma»: небольшие грамматики имеют небольшой объем распознавания, зато лучшую надежность распознавания. Большие грамматики, наоборот, покрывают широкий спектр выражений, тогда как надежность распознавания снижается.

В US 2002/013346 А1 раскрыт способ распознавания речи, при котором речевое высказывание лица регистрируется и преобразуется в обрабатываемый в устройстве распознавания речи речевой сигнал. Затем параллельно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик проводится анализ речевого сигнала, и процесс распознавания считается успешно завершенным, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат распознавания.

Аналогичный способ с параллельной обработкой речевого сигнала с помощью нескольких грамматик раскрыт в US 2002/005845 A1.

В WO 00/14727 A1 раскрыта система распознавания речи, в которой с помощью нескольких грамматик проводится последовательная обработка речевого сигнала. Результаты отдельных этапов обработки взвешиваются и выдается общий результат.

Задачей изобретения является реализация способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Следовательно, необходимо создать грамматическую модель, которая использовала бы позитивные аспекты больших и малых грамматик без имплицирования их негативных аспектов.

Эта задача решается согласно изобретению посредством способа и устройства, охарактеризованными признаками независимых пунктов формулы.

Предпочтительные варианты осуществления и другие предпочтительные признаки изобретения приведены в зависимых пунктах формулы.

Предложенный способ основан на регистрации речевого высказывания лица и его преобразовании в обрабатываемый в устройстве распознавания речи речевой сигнал, анализе речевого сигнала параллельно или последовательно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик и успешном завершении процесса распознавания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат.

В первом варианте происходит одновременный анализ речевого высказывания двумя или более независимыми грамматиками. В этом случае речевое высказывание лица инициирует два или более одновременных процесса распознавания, которые анализируют и оценивают речевое высказывание независимо друг от друга. Например, здесь сравнительно небольшая основная грамматика с небольшим объемом распознавания уступает место вспомогательной грамматике большего охвата с расширенным объемом распознавания. Обе грамматики не пересекаются.

Второй вариант касается грамматического каскада. В этой модели друг за другом, т.е. последовательно, используются различные грамматики. В тот момент, когда одна грамматика выдает результат распознавания, каскад покидается, и процесс распознавания заканчивается. В этом способе 100% всех распознаваемых высказываний сравниваются с первой грамматикой. В зависимости от производительности и выполнения этой грамматики часть нераспознанных высказываний, например 20%, передается на вторую ступень распознавания. В случае наличия третьей ступени распознавания можно исходить из того, что часть всех входящих высказываний, например 5%, достигает этой третьей ступени распознавания.

Оба способа распознавания покрывают широкий спектр выражений с несколькими «меньшими» грамматиками, которые в комбинации тем не менее гарантируют высокую надежность распознавания. Это может происходить, как сказано выше, в виде одновременного или последовательного процесса распознавания.

Оба предпочтительных варианта осуществления изобретения описаны ниже с помощью чертежей, на которых изображают:

фиг.1 - схематично первый вариант системы распознавания речи с параллельно работающими ветвями распознавания речи;

фиг.2 - схематично второй вариант системы распознавания речи с последовательно работающими, каскадными ветвями распознавания речи.

На фиг.1 речевое высказывание лица в виде речевого сигнала 10 подается одновременно к двум ветвям распознавания речи и анализируется двумя грамматиками 12, 14 (грамматики А, В). Обе грамматики 12, 14 не пересекаются, т.е. они основаны на разных правилах. За счет параллельной обработки речевого сигнала повышаются затраты на анализ и тем самым необходимая вычислительная нагрузка при применении способа в компьютере. Это обстоятельство компенсируется более быстрым распознаванием и существенно более высокой его надежностью.

Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. Точно так же сравнение 18 речевого сигнала с грамматикой (В) 14 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. В процессе распознавания с одновременно работающими грамматиками 12, 14 возникают четыре возможных случая распознавания, которые могут оцениваться разными методами посредством логики 20 (см. таблицу).

Случай распознавания	Грамматика 1 (основная грамматика)	Грамматика 2 (вспомогательная грамматика)	Общий результат
1	Отсутствие результата (нет)	Отсутствие результата (нет)	Не распознан
2	Результат (да)	Отсутствие результата (нет)	Распознан
3	Отсутствие результата (нет)	Результат (да)	Распознан
4	Результат (да)	Результат (да)	Распознан

Случаи 1-3 распознавания не связаны с проблемами, поскольку они дают однозначные результаты. В случае 1 речевой сигнал не распознается и тем самым отклоняется (поз.24). Случаи 2, 3 дают только положительный результат и показывают тем самым однозначно распознавание речевого сигнала (поз.22).

В случае 4, когда обе грамматики 12, 14 распознают речевой сигнал 10, необходимо, напротив, реализовать логику, поскольку результат неоднозначен. Она может принять решение в пользу грамматики 12, может быть ориентирована на надежность распознавания (Confidence Level) или может представлять собой смешанную форму из обоих (например, результат от грамматики 14 используется только тогда, когда надежность распознавания на заданное значение выше, чем от грамматики 12).

Вместо двух параллельных ветвей распознавания речи могут быть предусмотрены согласно изобретению также три или более таких параллельно работающих ветвей.

На фиг.2 изображен другой предпочтительный вариант. Здесь несколько грамматик 12, 14, 26 (грамматики А, В, С) последовательно соединены между собой каскадом. Это значит, что в случае грамматического каскада обращение к различным грамматикам 12, 14, 26 происходит не одновременно, а последовательно. Схематично процесс распознавания можно представить следующим образом: в момент, когда одна грамматика дает положительный результат распознавания, каскад покидается и процесс распознавания завершается (поз.22).

Речевой сигнал 10 подается сначала к первой грамматике (А) 12 и подвергается там анализу. Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа ко второй грамматике (В) 14. Сравнение 18 речевого сигнала 10 с грамматикой (В) 14 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа к третьей грамматике (С) 26. Сравнение речевого сигнала с грамматикой (С) 26 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал отклоняется как нераспознанный (поз.24).

В этом способе сначала все 100% входящих речевых сигналов 10 сравниваются с первой грамматикой 12. В зависимости от производительности и выполнения этой грамматики часть речевых высказываний не распознается. Эти нераспознанные речевые сигналы передаются на вторую ступень распознавания. В зависимости от производительности и выполнения второй ступени распознавания речевые сигналы передаются на третью ступень распознавания.

Преимущество грамматического каскада по сравнению со способом одновременного распознавания посредством нескольких грамматик состоит в том, что не возникает дополнительной вычислительной нагрузки, поскольку речевой сигнал 10 в любой момент сравнивается только с одной грамматикой. Однако последовательное распознавание неизбежно приведет к увеличению латентного времени в системе.

Вместо трех ветвей распознавания речи каскадом могут быть предусмотрены согласно изобретению также четыре или более последовательно работающих ветвей распознавания речи.

Перечень ссылочных позиций

10 - речевой сигнал

12 - грамматика А

14 - грамматика В

18 - ответвление А

20 - ответвление В

22 - распознавание завершено

22 - распознавание не завершено

26 - грамматика С

28 - ответвление С

Класс G10L15/18 с использованием моделирования естественного языка

Класс G10L15/28 конструктивные детали систем распознавания речи

способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления - патент 2291499 (10.01.2007)