способ обнаружения пауз в речевых сигналах и устройство его реализующее
Классы МПК: | G10L15/00 Распознавание речи |
Автор(ы): | Белов Сергей Павлович (RU), Белов Александр Сергеевич (RU), Жиляков Евгений Георгиевич (RU), Прохоренко Екатерина Ивановна (RU) |
Патентообладатель(и): | ГОУ ВПО "Белгородский государственный университет" (RU) |
Приоритеты: |
подача заявки:
2006-10-30 публикация патента:
20.02.2008 |
Изобретение относится к области распознавания речи. Технический результат заключается в сокращении объема памяти для хранения речи и в уменьшении графика при ее передаче. Для этого осуществляют дискретизацию с шагом t сигнала, записывают в запоминающее устройство поток отсчетов сигнала определенной длины с выхода микрофона в режиме молчания диктора, разделяют его на ряд участков длиной R, разделяют диапазон (1/ t) энергетического спектра Фурье каждого из этих участков на ряд частотных интервалов (i=1,...,N), вычисляют значения P i пауза, соответствующих каждому из интервалов, записывают в запоминающее устройство вычисленные средние значения P i пауза ср, в случае поступления сигнала речи, вычисляют значения Pi, вычисляют отношения P i к Pi пауза ср в каждом из N частотных интервалов всех участков длиной R и определяют max (P i/Pi пауза ср), которые сравнивают со значением порога h, определенным в схеме вычисления значения порога, и при max (Pi/P i пауза ср) h принимают решение о наличии паузы, затем значение P i пауза ср обновляют с учетом текущего значения Р i пауза. 2 н. и 1 з.п. ф-лы, 2 ил.
Формула изобретения
1. Способ обнаружения пауз в сигналах речи, включающий определение спектрального отклонения сигнала речи от сигнала в паузе, сравнение суммы энергий сигнала речи и сигнала в паузе со значением порога, вынесение решения о наличии паузы, отличающийся тем, что оценку определения спектрального отклонения сигнала речи от сигнала в паузе проводят посредством определение отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе, причем сначала осуществляют дискретизацию с шагом At и разбиение на квантованные отсчеты сигналов, поступающих с выхода микрофона, записывают в запоминающее устройство поток отсчетов сигнала определенной длины в паузе с выхода микрофона в режиме молчания дикторам разделяют поток отсчетов сигнала определенной длины в паузе на ряд участков длиной R, разделяют диапазон (1/ t) энергетического спектра Фурье каждого из этих участков на ряд частотных интервалов (i=1,...,N), вычисляют значения долей энергии отсчетов сигнала в паузе Pi пауза , соответствующих каждому из частотных интервалов, определяют средние значения долей энергии отсчетов сигнала в паузе в каждом частотном интервале для всего потока отсчетов сигнала определенной длины в паузе, записывают в запоминающее устройство вычисленные средние значения долей энергии отсчетов сигнала в паузе Р i пауза ср, разделяют поток отсчетов сигнала речи на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе, вычисляют для каждого участка длиной R в каждом из N частотных интервалов значения отсчетов сигнала речи Pi , вычисляют отношения Pi к P i пауза ср в каждом из N частотных интервалов всех участков длиной R и определяют максимальное из них max (P i/Pi пауза ср), причем обнаружение пауз проводят путем сравнения значения max (P i/Pi пауза ср) со значением порога h, который определяют в схеме вычисления значения порога и при значении max (Pi/Pi пауза ср) меньше или равным значению порога h принимают решение о наличии паузы, затем значение Pi пауза ср обновляют с учетом текущего значения Pi пауза , обнаруженные паузы кодируют, при этом код каждой паузы содержит информацию о моменте начала и продолжительности паузы.
2. Устройство обнаружения пауз в сигналах речи, включающее схему вычисления значения порога, пороговый обнаружитель, отличающееся тем, что содержит алгоритмический модуль, причем первый вход порогового обнаружителя подключен к первому выходу алгоритмического модуля, а второй вход подключен к выходу схемы вычисления значения порога h, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля, первый вход алгоритмического модуля подключен к выходу микрофона, второй выход алгоритмического модуля подключен к входу схемы вычислений значения порога h, а алгоритмический модуль содержит аналогово-цифровой преобразователь, связанный с устройством вычисления отношений Pi к Pi пауза ср как через последовательно соединенные запоминающее устройство и устройство вычисления энергии спектра, в котором вычисляют значения долей энергии отсчетов сигнала в паузе Pi пауза и сигнала речи P i, в каждом из N частотных интервалов, так и через присоединенное к устройству вычисления энергии спектра устройство определения среднего значения долей энергии отсчетов сигнала в паузе P i пауза ср, в каждом из N частотных интервалов и запоминающее устройство, а устройство вычисления отношений P i к Pi пауза ср соединено c устройством определения значения max (Pi/P i пауза ср), выход которого соединен с первым входом порогового обнаружителя, кроме того, в состав алгоритмического модуля входит записывающее устройство, соединенное с запоминающим устройством, а также связанное с запоминающим устройством считывающее устройство, которое соединено с устройством вычисления отношений P i к Pi пауза ср и устройством определения значения max (Pi/Pi пауза ср).
3. Способ обнаружения пауз в сигналах речи по п.1, отличающийся тем, что спектральное отклонение сигнала речи от спектра сигнала в паузе определяют с помощью вычисления значений энергии отсчетов в каждом из N частотный интервалов по формуле
где
, j=1,...,L - отрезок анализируемого сигнала в i-м частотном интервале 2i, 1i, 10=0, 2N= ;
- собственные вектора матриц m, n=1,...,L с элементами вида , соответствующие собственным числам k 1, k=1,...,M, причем Pi=P i пауза, если на входе присутствует только сигнал в паузе.
Описание изобретения к патенту
Изобретение относится к технике цифровой обработки речевых данных и может быть использовано в различных приложениях, например в системах аудиоархивации, в справочных службах, в системах передачи речевых сигналов, использующих прерывистые каналы связи.
Известен способ обнаружения пауз в речевом сигнале [1], использующий коррекцию спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение. Однако недостатком этого способа является трудоемкость и сложность его осуществления.
Наиболее близким техническим решением (прототипом) является способ обнаружения пауз в речевых сигналах, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) и устройство его реализующее [2].
Этот способ осуществляется путем обнаружения пауз в речевом сигнале, включающем определение спектрального отклонения сигнала речи от сигнала в паузе (шума), с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня. В этом способе подавление сигнала в паузе (шума) производят инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только сигнала в паузе (шума). При наличии на входе сигнала речи и сигнала в паузе (шума) инверсный фильтр осуществляет подавление компонентов сигнала в паузе (шума) и, в целом, снижает его интенсивность. Сумма энергий сигнала речи и сигнала в паузе (шума) на выходе инверсного фильтра сравнивается с порогом, который устанавливается в период воздействия на входе только сигнала в паузе (шума). Если величина суммы энергии сигнала речи и сигнала в паузе (шума) не превышает порогового уровня, принимается решение о наличии на входе паузы. Коэффициенты инверсного фильтра (рассчитанные с использованием оценивания модели авторегрессии) и уровень порога изменяются во времени в зависимости от текущего значения уровня сигнала в паузе (шума) при воздействии на входе только сигнала в паузе (шума).
Данный способ обладает рядом недостатков. В частности, расчет характеристик инверсного фильтра, как указано выше, проводится с применением оценивания параметров модели авторегрессии. Следует отметить, что эти модели эффективно работают, если шум «окрашен», в противном же случае, если шум абсолютно «белый», то порядок аппроксимирующей модели р должен быть бесконечно большим, что физически нереализуемо. В реальных условиях, как правило, наблюдаемый фоновый шум «окрашен» и в связи с этим может быть описан стохастическим разностным уравнением вида:
в котором порядок уравнения р - конечная величина, а параметры:
m - математическое ожидание,
0 - дисперсия сигнала в паузе,
k - коэффициенты линейного предсказания
определяются заранее. Необходимо подчеркнуть, что при скачкообразном изменении параметров этого уравнения, при так называемой разладке, наблюдаемая случайная последовательность по-прежнему может быть описана следующим уравнением:
но, в общем случае, другого порядка и с неизвестными параметрами m1, 1, k. При отсутствии априорной информации о значениях параметров уравнения (2) в прототипе применяют одномерную решающую функцию, построенную на анализе значения порога вида = 1/ 0. В случае, если величина отношения 1/ 0 превышает порог, то принимается решение о наличии разладки, т.е. о присутствии на входе системы суммы сигнала речи и сигнала в паузе (шума). В противном случае принимается решение о наличии на входе системы только сигнала в паузе (шума).
При использовании данных решающих функций возникают так называемые мертвые зоны, когда решающая функция для некоторых сочетаний параметров до и после разладки или не изменяется, или ее значение растет так медленно, что за приемлемое время разладки обнаруживается с вероятностью ложной тревоги. Необходимо также обратить внимание на трудности, которые в данном случае возникают при вычислении границ доверительного интервала и, более того, при этом не гарантируются как минимальность их размеров, так и максимальная чувствительность.
Другим существенным недостатком прототипа является подавление как компонентов сигнала в паузе (шума), так и компонентов сигнала речи, в случае совпадения их максимумов, что иллюстрируется графиками на фиг.1.
Кроме этого, при вычислении энергетического спектра процесса авторегрессии, который в математическом виде может быть записан следующим образом:
где - дисперсия сигнала в паузе (шума),
неточность определения k приводит к смещению спектра относительно истинного положения, что в свою очередь не позволяет оптимально рассчитать характеристики инверсного фильтра. Необходимость осуществления непрерывного подстраивания характеристик фильтра под текущее значение сигнала в паузе (шума) приводит к большим временным затратам на вычисления. И, наконец, для обеспечения одинаковой вероятности обнаружения пауз в речевом сигнале, при изменении уровня входного шума, необходимо корректировать коэффициент усиления речевого тракта.
Известно техническое решение, осуществляющее техническую реализацию указанного способа. В состав устройства [2] входят инверсный фильтр, первый вход которого соединен с выходом микрофона, а второй вход - с первым выходом схемы адаптивной установки коэффициентов предсказания, второй выход которой соединен с входом схемы вычисления порога, выход схемы вычисления порога соединен со вторым входом порогового обнаружителя, а первый вход порогового обнаружителя - с выходом инверсного фильтра.
Недостатки данного устройства соответствуют недостаткам способа, который на нем реализован.
Задачей предлагаемого изобретения является создание способа и устройства для его реализации, обеспечивающих повышение достоверности обнаружения пауз в речевом сигнале.
Техническим результатом использования предложенного изобретения является сокращение объема памяти для хранения речи и уменьшение трафика при ее передаче.
Поставленная задача достигается тем, что в способе обнаружения пауз в речевом сигнале, включающем определение спектрального отклонения сигнала речи от сигнала в паузе (шума) с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня, в предлагаемом техническом решении оценку определения спектрального отклонения сигнала речи от сигнала в паузе (шума) вместо использования оценивания параметров модели авторегрессии проводят посредством определения отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе (шума), выполняя следующие действия:
1. Осуществляют дискретизацию с шагом t и квантование сигналов с выхода микрофона (получение отсчетов);
2. Записывают в запоминающее устройство поток отсчетов отрезка определенной длины сигнала в паузе (шума) с выхода микрофона в режиме молчания диктора;
3. Разделяют поток отсчетов отрезка сигнала в паузе (шума) на ряд участков длиной R;
4. Разделяют частотный диапазон (1/ t) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1,...,N);
5. Вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) Р iпауза, соответствующих каждому из частотных интервалов, по формуле где M=2[R/(2N)]+2;
6. Определяют среднее значение долей энергии отсчетов сигнала в паузе (шума)
Р i пауза ср в каждом частотном интервале для всего потока отсчетов отрезка сигнала в паузе (шума);
7. Записывают в запоминающее устройство вычисленные значения энергии отсчетов сигнала в паузе (шума) Рi пауза ср;
8. Разделяют поток отсчетов речевого сигнала на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе (шума);
9. Вычисляют для каждого участка в каждом из N частотных интервалов значения долей энергии отсчетов речевого сигнала Р i по формуле
10. Вычисляют отношения Рi к Рi пауза ср в каждом из N частотных интервалов всех выбранных участков и определяют из них максимальное значение max (Pi/P i пауза ср);
11. Передают максимальное значение max (Рi/Рi пауза ср) на вход порогового обнаружителя;
12. Определяют значение порога h в схеме вычисления порога с учетом вычисленного значения М;
13. Сравнивают в пороговом обнаружителе максимальное значение max (Рi /Pi пауза ср) со значением порога h;
14. Принимают решение о наличии паузы при значении max (Рi/Рi пауза ср), меньшем или равным порогу h, обновляют значение Рi пауза ср с учетом текущего значения Рi пауза;
15. Производят кодирование пауз, при этом код каждой паузы содержит информацию только о моменте начала и продолжительности паузы.
Новизна предложенного способа заключается в том, что учитывают различие в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе (шума) (фиг.1), вычисляют их точные значения в каждом из анализируемых частотных интервалов по формуле:
где
j=1,...,L - отрезок анализируемого сигнала в i-том частотном интервале 2i, 1i, 10=0, 2N= ;
- собственные векторы матриц m, n=1,...,L с элементами вида
соответствующие собственным числам k 1, k=1,...,М, причем Рi=Р i пауза, если на входе присутствует только сигнал в паузе.
Критерию «изобретательский уровень» предложенный способ соответствует, т.к. он:
- основан на учете различий в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе и точном вычислении их значений в каждом из анализируемых частотных интервалов с использованием указанной выше формулы (4), что повышает достоверность обнаружения паузы в речи за счет большей чувствительности к присутствию долей энергии отсчетов сигнала речи, которые неравномерно распределены по частотным интервалам,
- в решающей функции предложенного способа отсутствуют мертвые зоны, что повышает вероятность обнаружения отсчетов сигнала в паузе и, соответственно, уменьшает вероятность искажения речевых данных,
- так как сравниваются отношения энергий Рi к Рi пауза ср , то вероятность обнаружения пауз не зависит от изменения коэффициента усиления речевого тракта, что устраняет необходимость его коррекции при изменении уровня входного шума.
Для реализации указанного способа предложено устройство обнаружения пауз в речевом сигнале, включающее пороговый обнаружитель, схему вычисления порога, которое в отличие от известного вместо инверсного фильтра и схемы адаптивной установки коэффициентов предсказания содержит алгоритмический модуль, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов сигнала в паузе, устройство вычисления отношений Рi к Р i пауза ср, устройство определения max (Рi/Pi пауза ср ), устройство кодирования, устройство синхронизации.
Причем первый вход алгоритмического модуля подключен к выходу микрофона, первый выход алгоритмического модуля подключен к первому входу порогового обнаружителя, второй выход алгоритмического модуля подключен к входу схемы вычисления порога, выход которой подключен ко второму входу порогового обнаружителя, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля.
Отличительными признаками предложенного устройства, подтверждающими новизну и изобретательский уровень, являются:
- наличие алгоритмического модуля вместо инверсного фильтра и схемы адаптивной установки коэффициентов предсказания, что позволяет повысить качество сигнала речи за счет того, что устранена операция подавления сигнала в паузе, при выполнении которой могут подавляться также и компоненты сигнала в речи в случае совпадения их максимумов. Кроме того, это техническое решение позволяет сократить временные затраты на вычисления, а отсутствие в устройстве инверсного фильтра исключение необходимости непрерывного подстраивания его характеристик под текущее значение сигнала в паузе;
- состав алгоритмического модуля, который включает аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения долей энергии отсчетов сигнала в паузе, устройство вычисления отношений Рi к Pi пауза ср, устройство определения max (Рi /Рi пауза ср), устройство кодирования, устройство синхронизации.
Сущность изобретений поясняется изображениями, представленными на чертежах:
Фиг.1a - Энергетический спектр звука «а»;
Фиг.1б - Энергетический спектр звука «и»;
Фиг.1в - Энергетический спектр звука «ч»;
Фиг.1г - Энергетический спектр сигнала в паузе;
Фиг.2 - блок-схема заявляемого устройства.
Устройство состоит из алгоритмического модуля 1, порогового обнаружителя 2, схемы 3 вычисления порога.
Предложенный способ реализуют на данном устройстве следующим образом. Прежде всего сигнал в паузе (шум) с выхода микрофона 4 подают на вход алгоритмического модуля 1, в котором производят дискретизацию с шагом t и квантование входного воздействия (получение отсчетов) с помощью аналого-цифрового преобразователя, записывают при помощи записывающего устройства полученные данные в запоминающее устройство, затем считывают при помощи считывающего устройства участки длиной R потока отсчетов отрезка сигнала в паузе в устройство вычисления энергии спектра, в котором вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) по формуле в каждом из частотных интервалов (i=1,...,N), на которые разделяют частотный диапазон (1/ t) энергетического спектра Фурье каждого из участков длиной R. Далее в устройстве определения среднего значения долей энергии отсчетов сигнала в паузе (шума) определяют Рi пауза ср в каждом частотном интервале для всего потока отсчетов сигнала в паузе (шума) и записывают данные значения в запоминающее устройство. При наличии на входе микрофона 4 речи речевой сигнал с выхода микрофона 4 поступает на вход алгоритмического модуля 1 в аналого-цифровой преобразователь для дискретизации с шагом t и квантования, после чего речевые данные записывают в запоминающее устройство, затем считывают при помощи считывающего устройства участки длиной R потока отсчетов отрезка речевого сигнала в устройство вычисления энергии спектра, в котором вычисляют по формуле точные значения долей энергии отсчетов речевого сигнала в каждом из частотных интервалов (i=1,...,N), на которые разделяют частотный диапазон (1/ t) энергетического спектра Фурье каждого из участков длиной R. После вычисления отношения Рi к Р i пауза ср и определения его максимального значения max (Рi/Рi пауза ср) последнее поступает с первого выхода алгоритмического модуля 1 на первый вход порогового обнаружителя 2, на второй вход которого поступает сигнал о значении порога h, полученного в схеме 3 вычисления порога, определенного с учетом вычисленного значения М, поступающего со второго выхода алгоритмического модуля 1. Если отношение значения max (Pi/Рi пауза ср ) меньше или равно порогу h, с выхода порогового обнаружителя 2 на второй вход алгоритмического модуля 1 поступает сигнал о наличии паузы, которую кодируют в устройстве кодирования алгоритмического модуля 1. Код каждой паузы содержит информацию только о моменте начала и продолжительности паузы, что позволяет сократить объем битового представления сигнала в паузе. После этого значение Рi пауза ср обновляют с учетом текущего значения Рi пауза. Устройство синхронизации обеспечивает синхронную работу всех блоков, входящих в алгоритмический модуль 1.
В результате использования предложенных технических решений благодаря учету различий в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе и точном вычислении их значений в каждом из анализируемых частотных интервалов, а также отсутствию мертвых зон в решающей функции предложенного способа, что повышает вероятность обнаружения отсчетов сигнала в паузе и, соответственно, уменьшает вероятность искажения речевых данных, повышаются достоверность и скорость обнаружения пауз, которые затем кодируют таким образом, чтобы код каждой паузы содержал информацию только о моменте начала и продолжительности пауз, что позволяет сократить объем памяти для хранения речи и уменьшить трафик при ее передаче.
Использованная литература
1. Авторское свидетельство СССР по заявке №836656, кл. G10L 1/04, 16.07.79.
2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. / Под ред. О.И.Шелухина. - М.: Радио и связь, 2000. - 456 с.: ил.
Класс G10L15/00 Распознавание речи