система и способ улучшения декодированного тонального звукового сигнала

Классы МПК:	G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала G10L19/14 детали, не отнесенные к группам 19/06
Автор(ы):	ВАЙАНКУР Томми (CA), ЕЛИНЕК Милан (CA), МАЛЕНОВСКИ Владимир (CA), САЛАМИ Редван (CA)
Патентообладатель(и):	ВОЙСЭЙДЖ КОРПОРЕЙШН (CA)
Приоритеты:	подача заявки: 2009-03-05 публикация патента: 20.12.2012

Изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, в частности музыкального сигнала, закодированного с использованием речевого кодека, посредством подавления уровня шума квантования в областях спектра, в которых наблюдается малая энергия. Техническим результатом является улучшение декодированного тонального звукового сигнала, например музыкального сигнала. Указанный результат достигается тем, что в системе улучшения тонального звукового сигнала, декодированного декодером речевого кодека в ответ на принятый закодированный поток битов, спектральный анализатор реагирует на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал. Спектральные параметры содержат спектральную энергию, рассчитываемую спектральным анализатором в кадре декодированного тонального звукового сигнала. Классификатор декодированного тонального звукового сигнала на множество разных категорий звукового сигнала содержит искатель отклонения вариации рассчитанной спектральной энергии кадра по множеству предыдущих кадров декодированного тонального звукового сигнала. Подавитель шума квантования уменьшает шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора и классификацию декодированного тонального звукового сигнала на множество разных категорий звукового сигнала. 2 н. и 24 з.п. ф-лы, 6 ил., 1 табл.

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

Формула изобретения

1. Система для улучшения тонального звукового сигнала, декодированного декодером речевого кодека в ответ на принятый закодированный поток битов, содержащая:

спектральный анализатор, реагирующий на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральные параметры содержат спектральную энергию, рассчитываемую спектральным анализатором в кадре декодированного тонального звукового сигнала,

классификатор декодированного тонального звукового сигнала на множество разных категорий звукового сигнала, причем классификатор сигнала содержит искатель отклонения вариации рассчитанной спектральной энергии кадра по множеству предыдущих кадров декодированного тонального звукового сигнала, и

подавитель шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора и классификацию декодированного тонального звукового сигнала на множество разных категорий звукового сигнала.

2. Система для улучшения декодированного тонального звукового сигнала по п.1, содержащая препроцессор декодированного тонального звукового сигнала, который искажает верхние частоты декодированного тонального звукового сигнала до подачи декодированного тонального звукового сигнала в спектральный анализатор.

3. Система для улучшения декодированного тонального звукового сигнала по п.1, в которой классификатор сигнала содержит компараторы для сравнения отклонения вариации рассчитанной спектральной энергии кадра со множеством порогов, соответствующим образом соответствующих категориям звукового сигнала.

4. Система для улучшения декодированного тонального звукового сигнала по п.3, в которой категории звукового сигнала содержат категорию нетонального звукового сигнала, и в которой классификатор сигнала содержит контроллер подавителя шума квантования, выдающий команду упомянутому подавителю не подавлять шум квантования, когда сравнения компараторами указывают на то, что декодированный звуковой сигнал является нетональным звуковым сигналом.

5. Система, для улучшения декодированного тонального звукового сигнала по п.3, в которой категории звукового сигнала содержат категории тонального звукового сигнала, и в которой, когда сравнения компараторами указывают на то, что декодированный тональный звуковой сигнал содержится в пределах одной из категорий тонального звукового сигнала, классификатор сигнала содержит контроллер подавителя шума квантования, выдающий команду упомянутому подавителю подавлять шум квантования на заданную амплитуду и в пределах заданного диапазона частот, причем и то, и другое ассоциировано с упомянутой одной категорией тонального звукового сигнала.

6. Система для улучшения декодированного тонального звукового сигнала по п.3, в которой пороги содержат плавающие пороги, увеличивающиеся или уменьшающиеся в ответ на счетчик последовательности кадров заданной одной из упомянутых категорий звукового сигнала.

7. Система для улучшения декодированного тонального звукового сигнала по п.3, в которой пороги содержат плавающие пороги, увеличивающиеся или уменьшающиеся в ответ на счетчик последовательности кадров заданных одних из упомянутых категорий звукового сигнала.

8. Система для улучшения декодированного тонального звукового сигнала по п.1, в которой:

спектральный анализатор разделяет спектр, получающийся в результате спектрального анализа посредством спектрального анализатора, на набор критических полос частот, и

подавитель шума квантования содержит корректор коэффициента передачи для каждой полосы, который повторно масштабирует спектральную энергию для каждой критической полосы частот таким образом, что спектральная энергия в каждой критической полосе частот в конце повторного масштабирования является близкой к спектральной энергии в критической полосе частот перед подавлением шума квантования.

9. Система для улучшения декодированного тонального звукового сигнала по п.8, в которой критические полосы частот содержат соответствующие количества отсчетов частоты и в которой корректор коэффициента передачи для каждой полосы повторно масштабирует несколько обладающих наибольшей энергией отсчетов частоты.

10. Система для улучшения декодированного тонального звукового сигнала по п.8, в которой корректор коэффициента передачи для каждой полосы содержит калькулятор корректирующего коэффициента передачи как отношения между спектральной энергией в критической полосе частот перед подавлением шума квантования и спектральной энергией в критической полосе частот после подавления шума квантования.

11. Система для улучшения декодированного тонального звукового сигнала по п.10, в которой корректор коэффициента передачи для каждой полосы содержит калькулятор коэффициента коррекции как функции соотношения событий, обладающих большой энергией, в критической полосе частот, причем корректор коэффициента передачи для каждой полосы умножает корректирующий коэффициент передачи на коэффициент коррекции.

12. Система для улучшения декодированного тонального звукового сигнала по п.1, причем:

спектральный анализатор выполняет Быстрое преобразование Фурье на декодированном тональном звуковом сигнале для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и

система для улучшения декодированного тонального звукового сигнала содержит калькулятор обратного Быстрого преобразования Фурье улучшенных спектральных параметров из подавителя шума квантования для получения улучшенного декодированного тонального звукового сигнала во временной области.

13. Система для улучшения декодированного тонального звукового сигнала по п.12, содержащая постпроцессор улучшенного декодированного тонального звукового сигнала для устранения искажений верхних частот улучшенного декодированного тонального звукового сигнала.

14. Способ улучшения тонального звукового сигнала, декодированного декодером речевого кодека в ответ на принятый закодированный поток битов, содержащий этапы, на которых:

выполняют спектральный анализ декодированного тонального звукового сигнала для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральные параметры содержат спектральную энергию, рассчитываемую посредством спектрального анализа в кадре декодированного тонального звукового сигнала,

классифицируют декодированный тональный звуковой сигнал на множество разных категорий звукового сигнала, причем классификация декодированного тонального звукового сигнала содержит этап, на котором выполняют поиск отклонения вариации спектральной энергии кадра по множеству предыдущих кадров декодированного тонального звукового сигнала, и

подавляют шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализа и классификацию декодированного тонального звукового сигнала на множество разных категорий звукового сигнала.

15. Способ улучшения декодированного тонального звукового сигнала по п.14, содержащий этап, на котором искажают верхние частоты декодированного тонального звукового сигнала до спектрального анализа декодированного тонального звукового сигнала.

16. Способ улучшения декодированного тонального звукового сигнала по п.14, в котором классификация декодированного тонального звукового сигнала содержит этап, на котором сравнивают отклонение вариации спектральной энергии кадра со множеством порогов, соответствующим образом соответствующих категориям звукового сигнала.

17. Способ улучшения декодированного тонального звукового сигнала по п.16, в котором категории звукового сигнала содержат категорию нетонального звукового сигнала и в котором классификация декодированного тонального звукового сигнала содержит этап, на котором управляют подавлением шума квантования так, чтобы не подавлять шум квантования, когда сравнение отклонения вариации спектральной энергии всего кадра со множеством порогов указывает на то, что декодированный звуковой сигнал является нетональным звуковым сигналом.

18. Способ улучшения декодированного тонального звукового сигнала по п.16, в котором категории звукового сигнала содержат категории тонального звукового сигнала и в котором, когда сравнение отклонения вариации спектральной энергии всего кадра со множеством порогов указывает на то, что декодированный тональный звуковой сигнал содержится в одной из категорий тонального звукового сигнала, классификация декодированного тонального звукового сигнала содержит этап, на котором управляют подавлением шума квантования так, чтобы подавлять шум квантования на заданную амплитуду и в пределах заданного диапазона частот, причем и то, и другое ассоциировано с упомянутой одной категорией тонального звукового сигнала.

19. Способ улучшения декодированного тонального звукового сигнала по п.16, в котором пороги содержат плавающие пороги, и причем способ содержит этап, на котором увеличивают и уменьшают плавающие пороги в ответ на счетчик последовательности кадров заданной одной из упомянутых категорий звукового сигнала.

20. Способ улучшения декодированного тонального звукового сигнала по п.16, в котором пороги содержат плавающие пороги, и причем способ содержит этап, на котором увеличивают и уменьшают плавающие пороги в ответ на счетчик последовательности кадров заданных одних из упомянутых категорий звукового сигнала.

21. Способ улучшения декодированного тонального звукового сигнала по п.14, причем

спектральный анализ декодированного тонального звукового сигнала содержит этап, на котором разделяют спектр, получающийся в результате спектрального анализа, на набор критических полос частот, и

подавление шума квантования содержит этап, на котором повторно масштабируют спектральную энергию для каждой критической полосы частот таким образом, что спектральная энергия в каждой критической полосе частот в конце повторного масштабирования является близкой к спектральной энергии в критической полосе частот перед подавлением шума квантования.

22. Способ улучшения декодированного тонального звукового сигнала по п.21, в котором критические полосы частот содержат соответствующие количества отсчетов частоты и в котором повторное масштабирование спектральной энергии для каждой критической полосы частот содержит этап, на котором повторно масштабируют несколько обладающих наибольшей энергией отсчетов частоты.

23. Способ подавления уровня шума квантования по п.21, в котором повторное масштабирование спектральной энергии для каждой критической полосы частот содержит этап, на котором рассчитывают корректирующий коэффициент передачи как отношение между спектральной энергией в критической полосе частот перед подавлением шума квантования и спектральной энергией в критической полосе частот после подавления шума квантования.

24. Способ улучшения декодированного тонального звукового сигнала по п.23, в котором повторное масштабирование спектральной энергии для каждой критической полосы частот содержит этапы, на которых рассчитывают коэффициент коррекции как функцию соотношения событий, обладающих большой энергией, в критической полосе частот и умножают корректирующий коэффициент передачи на коэффициент коррекции.

25. Способ улучшения декодированного тонального звукового сигнала по п.14, в котором:

спектральный анализ декодированного тонального звукового сигнала содержит этап, на котором выполняют Быстрое преобразование Фурье на декодированном тональном звуковом сигнале для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и

способ улучшения декодированного тонального звукового сигнала содержит этап, на котором рассчитывают обратное Быстрое преобразование Фурье улучшенных спектральных параметров из подавления шума квантования для получения улучшенного декодированного тонального звукового сигнала во временной области.

26. Способ улучшения декодированного тонального звукового сигнала по п.25, содержащий этап, на котором устраняют искажения верхних частот улучшенного декодированного тонального звукового сигнала.

Описание изобретения к патенту

Область техники, к которой относится изобретение

Настоящее изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, например, такого аудиосигнала, как музыкальный сигнал, закодированный с использованием специального речевого кодека. С этой целью система и способ подавляют уровень шума квантования в областях спектра, в которых наблюдается малая энергия.

Уровень техники

Спрос на эффективные методики цифрового кодирования речи и аудио с хорошим компромиссом между субъективным качеством и скоростью передачи битов увеличивается в различных прикладных областях, таких как телеконференцсвязь, мультимедиа и беспроводная связь.

Речевой кодер конвертирует речевой сигнал в цифровой поток битов, который передают по каналу связи или хранят на носителе информации. Речевой сигнал оцифровывают, то есть производят выборку и квантуют обычно с помощью 16 битов для каждой выборки. Роль речевого кодера заключается в представлении цифровых выборок с помощью меньшего количества битов при сохранении хорошего субъективного качества речи. Речевой декодер или синтезатор оперирует передаваемым или хранимым потоком битов и конвертирует его обратно в звуковой сигнал.

Линейное предсказание с кодовым возбуждением (CELP) является одной из лучших методик предшествующего уровня техники для достижения хорошего компромисса между субъективным качеством и скоростью передачи битов. Методика CELP-кодирования является основой для нескольких стандартов кодирования речевого сигнала как в беспроводных, так и в проводных приложениях. В CELP-кодировании подвергнутый выборке речевой сигнал обрабатывают в последовательных блоках по L выборок, обычно называемых кадрами, где L - предопределенное количество выборок, соответствующих, как правило, 10-30 мс. Вычисляют фильтр с линейным предсказанием (LP) и передают каждый кадр. Вычисление LP-фильтра, как правило, использует опережающий просмотр, например, речевого сегмента 5-15 мс из последующего кадра. Кадр из L выборок разделяют на меньшие блоки, называемые подкадрами. Обычно количество подкадров равно трем (3) или четырем (4), в результате чего получают подкадры 4-10 мс. В каждом подкадре сигнал возбуждения обычно получают из двух компонентов, прошлого возбуждения и нового, возбуждения фиксированной кодовой книги. Компонент, сформированный из прошлого возбуждения, часто называют возбуждением кодовой книги основного тона или адаптивной кодовой книги. Параметры, характеризующие сигнал возбуждения, кодируют и передают в декодер, где сигнал возбуждения восстанавливают и используют как входной сигнал LP-фильтра.

В некоторых приложениях, таких как музыка при удержании вызова, используют специальные речевые кодеки с низкой скоростью передачи битов для оперирования музыкальными сигналами. Это обычно в результате приводит к плохому качеству музыки из-за использования модели выработки речевого сигнала в специальном речевом кодеке с низкой скоростью передачи битов.

В некоторых музыкальных сигналах наблюдается тональная структура спектра, в которой присутствуют несколько тонов (соответствующих спектральным пикам), которые не являются соотнесенными гармонически. Эти музыкальные сигналы трудно кодировать с помощью специального речевого кодека с низкой скоростью передачи битов, использующего полюсный синтезирующий фильтр и фильтр основного тона. Фильтр основного тона способен моделировать голосовые сегменты, в которых наблюдается гармоническая структура спектра, содержащая основную частоту и гармоники этой основной частоты. Однако такой фильтр основного тона не может должным образом моделировать тоны, которые гармонически не соотнесены. Кроме того, полюсный синтезирующий фильтр не может моделировать впадины на спектре между тонами. Таким образом, когда используют специальный речевой кодек с низкой скоростью передачи битов с использованием модели выработки речевого сигнала, например CELP, наблюдается слышимый шум квантования музыкальных сигналов в областях малых энергий спектра (межтоновые области или впадины на спектре).

Сущность изобретения

Целью настоящего изобретения является улучшение тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, например, такого аудиосигнала, как музыкальный сигнал, посредством подавления шума квантования в областях малых энергий спектра (межтоновые области или впадины на спектре).

Более конкретно, согласно настоящему изобретению, предоставлена система для улучшения тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, содержащая: спектральный анализатор, реагирующий на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и подавитель шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора.

Настоящее изобретение дополнительно относится к способу улучшения тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, содержащему этапы, на которых: выполняют спектральный анализ декодированного тонального звукового сигнала для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и подавляют шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора.

Настоящее изобретение дополнительно относится к системе для улучшения декодированного тонального звукового сигнала, содержащей: спектральный анализатор, реагирующий на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральный анализатор разделяет спектр, получающийся в результате спектрального анализа, на набор критических полос частот, и причем каждая критическая полоса частот содержит множество отсчетов частоты, и подавитель шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора, причем подавитель шума квантования содержит аттенюатор шума, который масштабирует спектр декодированного тонального звукового сигнала для каждой критической полосы частот, для каждого отсчета частоты или и для каждой критической полосы частот, и для каждого отсчета частоты.

Настоящее изобретение, кроме того, дополнительно относится к способу улучшения декодированного тонального звукового сигнала, содержащему этапы, на которых: выполняют спектральный анализ декодированного тонального звукового сигнала для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральный анализ декодированного тонального звукового сигнала содержит этап, на котором разделяют спектр, получающийся в результате спектрального анализа, на набор критических полос частот, каждая содержит множество отсчетов частоты, и подавляют шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора, причем подавление шума квантования содержит этап, на котором масштабируют спектр декодированного тонального звукового сигнала для каждой критической полосы частот, для каждого отсчета частоты или и для каждой критической полосы частот, и для каждого отсчета частоты.

Вышеизложенные и другие цели, преимущества и признаки настоящего изобретения станут более очевидными после прочтения нижеследующего не ограничивающего описания их иллюстративных вариантов осуществления, заданных только для примера со ссылкой на прилагаемые чертежи.

Краткое описание чертежей

В прилагаемых чертежах:

Фиг.1 - схематическая блок-схема, изображающая общее представление системы и способа для улучшения декодированного тонального звукового сигнала.

Фиг.2 - график, иллюстрирующий обработку методом окна при спектральном анализе.

Фиг.3 - схематическая блок-схема, изображающая общее представление системы и способа для улучшения декодированного тонального звукового сигнала.

Фиг.4 - схематическая блок-схема, иллюстрирующая коррекцию коэффициента передачи тона.

Фиг.5 - схематическая блок-схема примера классификатора типа сигнала.

Фиг.6 - схематическая блок-схема декодера специального речевого кодека с низкой скоростью передачи битов с использованием модели выработки речевого сигнала, содержащей синтезирующий LP-фильтр, моделирующий форму голосового тракта (спектральная огибающая), и фильтр основного тона, моделирующий голосовые связки (гармоническая тонкая структура).

Подробное описание

В нижеследующем подробном описании внутри специального речевого кодека с низкой скоростью передачи битов выполняют методику подавления межтонового шума для подавления уровня межтонового шума квантования, например, в музыкальном содержимом. Методика подавления межтонового шума может применяться или с узкополосными звуковыми сигналами, из которых произведена выборка с 8000 выборок/с, или с широкополосными звуковыми сигналами, из которых произведена выборка с 16000 выборок/с, или с любой другой частотой выборки. методику подавления межтонового шума применяют к декодированному тональному звуковому сигналу для подавления шума квантования во впадинах на спектре (области малой энергии между тонами). В некоторых музыкальных сигналах наблюдается тональная структура спектра, в которой присутствуют несколько тонов (соответствующих спектральным пикам), которые не являются соотнесенными гармонически. Эти музыкальные сигналы трудно кодировать посредством специального речевого кодека с низкой скоростью передачи битов, который использует полюсный синтезирующий LP-фильтр и фильтр основного тона. Фильтр основного тона может моделировать сегменты вокализированной речи, в отношении спектра которых наблюдается гармоническая структура с основной частотой и гармониками этой основной частоты. Однако фильтр основного тона не может должным образом моделировать тоны, которые гармонически не соотнесены. Дополнительно, полюсный синтезирующий LP-фильтр не может моделировать впадины на спектре между тонами. Соответственно, с использованием специального речевого кодека с низкой скоростью передачи битов с моделью выработки речевого сигнала, например CELP, наблюдается слышимый шум квантования смоделированных сигналов в областях малых энергий спектра (межтоновые области или впадины на спектре). Методика подавления межтонового шума, следовательно, связана с подавлением шума квантования в спектральных областях малых энергий для улучшения декодированного тонального звукового сигнала, более конкретно для улучшения качества декодированного тонального звукового сигнала.

В одном варианте осуществления специальный речевой кодек с низкой скоростью передачи битов основан на модели выработки речевого сигнала CELP, оперирующей или узкополосными, или широкополосными сигналами (частота выборки 8 или 16 кГц). Также может использоваться любая другая частота выборки.

Со ссылкой на фиг.6 вкратце будет описан пример 600 декодера специального речевого кодека с низкой скоростью передачи битов, использующего модель выработки речевого сигнала CELP. В ответ на индекс фиксированной кодовой книги, извлеченный из принятого закодированного потока битов, фиксированная кодовая книга 601 вырабатывает вектор 602 фиксированной кодовой книги, умноженный на коэффициент g передачи, для выработки нового возбуждения 603 фиксированной кодовой книги. Подобным образом, адаптивная кодовая книга 604 реагирует на задержку основного тона, извлекаемую из принятого закодированного потока битов, для выработки вектора 607 адаптивной кодовой книги, в адаптивную кодовую книгу 604 также подают (см. 605) сигнал 610 возбуждения через контур обратной связи, содержащий фильтр 606 основного тона. Вектор 607 адаптивной кодовой книги умножают на коэффициент G передачи для выработки возбуждения 608 адаптивной кодовой книги. Новое возбуждение 603 фиксированной кодовой книги и возбуждение 608 адаптивной кодовой книги суммируются посредством сумматора 609 для формирования сигнала 610 возбуждения, подаваемого в синтезирующий LP-фильтр 611, причем синтезирующий LP-фильтр 611 управляется параметрами LP-фильтра, извлекаемыми из принятого закодированного потока битов. Синтезирующий LP-фильтр 611 вырабатывает синтезированный звуковой сигнал 612, или декодированный тональный звуковой сигнал, частота выборки которого может быть увеличена/уменьшена в модуле 613 перед улучшением его с использованием системы 100 и способа для улучшения декодированного тонального звукового сигнала.

Например, может быть использован кодек на основе структуры AMR-WB ([1] - 3GPP TS 26.190, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions"). Речевой кодек AMR-WB использует внутреннюю частоту выборки 12,8 кГц, и из сигнала может быть повторно произведена выборка или с 8, или с 16 кГц перед выполнением подавления межтонового шума квантования или, в качестве альтернативы, подавление шума или улучшение аудиосигнала может быть выполненено с 12,8 кГц.

Фиг.1 является схематической блок-схемой, изображающей общее представление системы и способа 100 для улучшения декодированного тонального звукового сигнала.

Согласно фиг.1 закодированный поток 101 битов (закодированный звуковой сигнал) принимается и обрабатывается посредством декодера 102 (например, декодера 600 по фиг.6) специального речевого кодека с низкой скоростью передачи битов для выработки декодированного звукового сигнала 103. Как указано в вышеизложенном описании, декодер 102 может быть, например, речевым декодером, использующим модель выработки речевого сигнала CELP, например декодером AMR-WB.

Декодированный звуковой сигнал 103 на выходе декодера 102 звукового сигнала конвертируют (повторно производят выборку) с частотой выборки 8 кГц. Однако следует учитывать, что методика подавления межтонового шума, раскрытая в этом документе, может одинаково применяться к декодированным тональным звуковым сигналам с другими частотами выборки, например, 12,8 кГц или 16 кГц.

Может применяться или не применяться предобработка к декодированному звуковому сигналу 103. Когда применяют предобработку, декодированный звуковой сигнал 103, например, предыскажают посредством препроцессора 104 перед выполнением спектрального анализа в спектральном анализаторе 105.

Для предыскажения декодированного звукового сигнала 103 препроцессор 104 содержит фильтр верхних частот первого порядка (не изображен). Фильтр верхних частот первого порядка искажает верхние частоты декодированного звукового сигнала 103 и может иметь, для этой цели, следующую передаточную функцию:

H_pre-emph (z)=l-0,68z^-1

(1)

где z представляет переменную Z-преобразования.

Предыскажение верхних частот декодированного звукового сигнала 103 обладает свойством выравнивания спектра декодированного звукового сигнала 103, что является полезным для подавления межтонового шума.

После предыскажения верхних частот декодированного звукового сигнала 103 в препроцессоре 104:

- В спектральном анализаторе 105 выполняется спектральный анализ предыскажененного декодированного звукового сигнала 106. Этот спектральный анализ использует Дискретное преобразование Фурье (DFT) и описан более подробно в нижеследующем описании.

- Методику подавления межтонового шума применяют в ответ на спектральные параметры 107 из спектрального анализатора 107 и реализуют в подавителе 108 шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала. Функционирование подавителя 108 шума квантования описано более подробно в нижеследующем описании.

- Обратный анализатор и оператор 110 сложения с перекрытием (a) применяет обратное DFT (Дискретное преобразование Фурье) к уменьшенным спектральным параметрам 109 межтонового шума для конвертирования этих параметров 109 обратно во временную область, и (b) использует операцию сложения с перекрытием для восстановления улучшенного декодированного тонального звукового сигнала 111. Операция обратного анализатора и оператора 110 сложения с перекрытием описана более подробно в нижеследующем описании.

- Постпроцессор 112 выполняет постобработку восстановленного улучшенного декодированного тонального звукового сигнала 111 из обратного анализатора и оператора 110 сложения с перекрытием. Эта постобработка является обратной к этапу предобработки (препроцессор 104) и, следовательно, может состоять из устранения искажения верхних частот улучшенного декодированного тонального звукового сигнала. Такое устранение искажения описано более подробно в нижеследующем описании.

- Наконец, может быть предоставлена система 114 воспроизведения звука для конвертирования постобработанного улучшенного декодированного тонального звукового сигнала 113 из постпроцессора 112 в слышимый звук.

Например, специальный речевой кодек, в котором реализована методика подавления межтонового шума, оперирует кадрами 20 мс, содержащими 160 выборок с частотой выборки 8 кГц. Также согласно этому примеру декодер 102 звукового сигнала использует опережающий просмотр 10 мс из будущего кадра для оптимальных характеристик маскирования стирания кадра. Этот опережающий просмотр также используется в методике подавления межтонового шума для лучшей разрешающей способности по частоте. Методика подавления межтонового шума, реализованная в подавителе 108 шума квантования, придерживается такой же структуры кадрирования, как в декодере 102. Однако может быть введено некоторое смещение между структурой кадрирования декодера и структурой кадрирования подавления межтонового шума для максимизации использования опережающего просмотра. В нижеследующем описании индексы, приписываемые выборкам, отражают структуру кадрирования подавления межтонового шума.

Спектральный анализ

Согласно фиг.3 в спектральном анализаторе 105 используется ДПФ (Дискретное преобразование Фурье) для выполнения спектрального анализа и оценки энергии спектра предыскаженного декодированного тонального звукового сигнала 106. В спектральном анализаторе 105 спектральный анализ выполняется в каждом кадре с использованием окон анализа 30 мс с перекрытием 33%. Более конкретно, спектральный анализ в анализаторе 105 (фиг.3) проводится один раз для каждого кадра с использованием Быстрого преобразования Фурье (FFT) с 256 точками с обработкой методом окна с перекрытием 33,3 процента, как изображено на фиг.2. Окна анализа размещены так, чтобы использовать весь опережающий просмотр. Начало первого окна анализа смещают на 80 выборок от начала текущего кадра декодера 102 звукового сигнала.

Для взвешивания предыскаженного декодированного тонального звукового сигнала 106 для частотного анализа используют окна анализа. Окна анализа являются плоскими в середине с функцией синуса на краях (Фиг. 2), что хорошо подходит для операций сложения с перекрытием. Более конкретно, окно анализа может быть описано следующим образом:

где L_Window=240 выборок - размер окна анализа. Так как используется БПФ с 256 точками (L_FFT=256), то сигнал, обрабатываемый методом окна, заполняют 16 нулевыми выборками.

В случае широкополосного сигнала может использоваться альтернативное окно анализа при наличии только маленького опережающего просмотра. Это окно анализа может иметь следующую форму:

где система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 =360 - размер широкополосного окна анализа. В этом случае используется БПФ с 512 точками. Следовательно, сигнал, обрабатываемый методом окна, заполняют 152 нулевыми выборками. Потенциально может использоваться другое основание БПФ для максимально возможного уменьшения заполнения нулями и уменьшения сложности.

Пусть s'(n) обозначают декодированный тональный звуковой сигнал с индексом 0, соответствующий первой выборке в кадре подавления межтонового шума. (Как указано выше в данном документе, в этом варианте осуществления, это соответствует 80 выборкам, следующим за началом кадра декодера звукового сигнала.) Декодированный тональный звуковой сигнал, обрабатываемый методом окна, для спектрального анализа может быть получен с использованием следующего отношения:

(2)

где s'(0) - первая выборка в текущем кадре подавления межтонового шума.

БПФ выполняют на декодированном тональном звуковом сигнале, обрабатываемом методом окна, для получения одного набора спектральных параметров для каждого кадра:

(3)

где N=L_FFT .

Выходной сигнал БПФ дает действительную и мнимую части спектра, обозначаемые X_R(k), k=0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 , L_FFT/2, и X_I(k), k=1, , (L_FFT/2-1). Отметим, что X_R(0) соответствует спектру при 0 Гц (DC), и X_R(L_FFT /2) соответствует спектру при F_s/2 Гц, где F_S соответствует частоте выборки. Спектр в этих двух (2) точках имеет только действительное значение и обычно не учитывается в последующем анализе.

После анализа БПФ получающийся в результате спектр разделяют на критические полосы частот с использованием интервалов, имеющих следующие верхние границы (17 критических полос в диапазоне частот 0-4000 Гц и 21 критическая полоса частот в диапазоне частот 0-8000 Гц) (См. [2]: J. D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol.6, pp.314-323, Feb. 1988).

В случае узкополосного кодирования критические полосы частот = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 3950,0} Гц.

В случае широкополосного кодирования критические полосы частот = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6700,0, 8000,0} Гц.

В результате 512-точечного или 256-точечного БПФ получают разрешающую способность по частоте 31,25 Гц (4000/128=8000/256). После отбрасывания компонента DC спектра количество отсчетов частоты для каждой критической полосы частот в случае узкополосного кодирования равно M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 12}, соответственно, когда разрешающая способность аппроксимируется 32 Гц. В случае широкополосного кодирования M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 22, 28, 44, 41} Гц.

Среднюю спектральную энергию для каждой критической полосы частот вычисляют следующим образом:

(4)

где X_R (k) и X_I(k) являются, соответственно, действительной и мнимой частями k-го отсчета частоты, и j_i - индекс первого отсчета в i-й критической полосе, задаваемый j_i ={1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116}, в случае узкополосного кодирования, и j_i = {1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116, 138, 166, 210}, в случае широкополосного кодирования.

Спектральный анализатор 105 по фиг.3 также вычисляет энергию спектра для каждого отсчета частоты, E_BIN(k), для первых 17 критических полос (115 отсчетов, за исключением компонента DC) с использованием следующего отношения:

(5)

Наконец, спектральный анализатор 105 вычисляет общую спектральную энергию кадра как среднее значение спектральных энергий первых 17 критических полос частот, рассчитанных спектральным анализатором 105, в кадре с использованием следующего отношения:

(6)

Спектральные параметры 107 из спектрального анализатора 105 по фиг.3, более конкретно вышеупомянутое рассчитанное среднее значение спектральной энергии для каждой критической полосы, спектральная энергия для каждого отсчета частоты и общая спектральная энергия используются в подавителе 108 для подавления шума квантования и выполнения коррекции коэффициента передачи.

Следует отметить что, для широкополосного декодированного тонального звукового сигнала, из которого произведена выборка с 16000 выборок/с, может использоваться до 21 критической полосы частот, но вычисление общей энергии кадра, E^t система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _fr, в момент времени t будет, по-прежнему, выполняться на первых 17 критических полосах.

Классификатор типа сигнала:

Методика подавления межтонового шума, осуществляемая системой и способом 100, улучшает декодированный тональный звуковой сигнал, например музыкальный сигнал, закодированный посредством специального речевого кодека. Обычно нетональные звуки, например речевой сигнал, хорошо кодируются специальным речевым кодеком, и им не требуется этот тип основанного на частоте улучшения.

Система и способ 100 для улучшения декодированного тонального звукового сигнала дополнительно содержат, как изображено на фиг.3, классификатор 301 типа сигнала, предназначенный для дополнительной максимизации эффективности подавителя 108 шума квантования посредством идентификации того, какой звук хорошо подходит для подавления межтонового шума, подобный музыкальному, и какой звук не подходит, подобный речевому.

Классификатор 301 типа сигнала содержит признак не только деления декодированного звукового сигнала на категории звукового сигнала, но также и выдает команду в подавитель 108 шума квантования для подавления до минимума любого возможного ухудшения речевого сигнала.

Схематическая блок-схема классификатора 301 типа сигнала изображена на фиг.5. В представленном варианте осуществления классификатор 301 типа сигнала оставлен настолько простым, насколько это возможно. Наиболее важными входными данными для классификатора 301 типа сигнала является общая спектральная энергия E_t кадра, выраженная в виде Уравнения (6).

Во-первых, классификатор типа сигнала 301 содержит искатель 501, который определяет среднее из прошлых сорока (40) вариаций общей спектральной энергии (E_t) кадра, рассчитываемых с использованием следующего отношения:

(7)

где система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 ^t _E=E^t _fr-E^(t-1) _fr

Далее, искатель 501 определяет статистическое отклонение истории вариации энергии система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _E по последним пятнадцати (15) кадрам с использованием следующего отношения:

(8)

Классификатор 301 типа сигнала содержит память 502, обновляемую средним значением и отклонением вариации общей спектральной энергии E_t кадра, рассчитываемыми в Уравнениях (7) и (8).

Получающееся в результате отклонение система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _E сравнивают с четырьмя (4) плавающими порогами в компараторах 503-506 для определения эффективности подавителя 108 шума квантования на текущем декодированном звуковом сигнале. В примере по фиг.5 выходной сигнал 302 (фиг. 3) классификатора 301 типа сигнала разбивают на пять (5) категорий звукового сигнала, называемых категориями с 0 по 4 звукового сигнала, причем каждая категория звукового сигнала имеет свою собственную настройку подавления межтонового шума.

Пять (5) категорий 0-4 звукового сигнала могут быть определены, как указано в следующей таблице:

Категория	Улучшенная полоса (узкополосный сигнал)	Улучшенная полоса (широкополосный сигнал)	Допустимое подавление
	Гц	Гц	дБ
0	NA	NA	0
1	[2000, 4000]	[2000, 8000]	6
2	[1270, 4000]	[1270, 8000]	9
3	[700, 4000]	[700, 8000]	12
4	[400, 4000]	[400, 8000]	12

Категория 0 звукового сигнала является категорией нетонального звукового сигнала, подобного речевому сигналу, которую не модифицируют посредством методики подавления межтонового шума. Эта категория декодированного звукового сигнала имеет большое статистическое отклонение истории вариации спектральной энергии. Когда компараторами 503-506 не детектированы категории 1-4, контроллер 511 выдает команду в подавитель 108 шума квантования не подавлять межтоновый шум квантования (подавление = 0 дБ).

Дерево между категориями звукового сигнала включает в себя звуковые сигналы с разными типами статистического отклонения истории вариации спектральной энергии.

Категория 1 звукового сигнала (самая большая вариация после декодированного звукового сигнала "типа речевого сигнала") детектируется компаратором 506, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 1. Контроллер 510 реагирует на это детектирование компаратором 506 и выдает команду, когда последняя детектированная категория звукового сигнала была > 0, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 2000 до F_s /2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 6 дБ.

Категория 2 звукового сигнала детектируется компаратором 505, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 2. Контроллер 509 реагирует на это детектирование компаратором 505 и выдает команду, когда последняя детектированная категория звукового сигнала была система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 1, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 1270 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 9 дБ.

Категория 3 звукового сигнала детектируется компаратором 504, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 3. Контроллер 508 реагирует на это детектирование компаратором 504 и выдает команду, когда последняя детектированная категория звукового сигнала была система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 2, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 700 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 12 дБ.

Категория 4 звукового сигнала детектируется компаратором 503, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 4. Контроллер 507 реагирует на это детектирование компаратором 503 и выдает команду, когда последняя детектированная категория типа сигнала была система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 3, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 400 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 12 дБ.

В варианте осуществления по фиг.5 классификатор 301 типа сигнала использует плавающие пороги 1-4 для разбиения декодированного звукового сигнала на разные категории 0-4. Эти плавающие пороги 1-4, в частности, полезны для предотвращения неправильной классификации типа сигнала. Как правило, декодированный тональный звуковой сигнал, подобный музыкальному, приобретает гораздо меньшее статистическое отклонение вариации своей спектральной энергии, чем нетональный звуковой сигнал, подобный речевому. Но музыкальный сигнал может содержать большее статистическое отклонение, а речевой сигнал может содержать меньшее статистическое отклонение. Маловероятно, что содержимое музыки или речи изменяется с одного на другое на покадровой основе. Плавающие пороги действуют подобно системе звукоусиления для предотвращения любой неправильной классификации, которая может в результате привести к субоптимальным характеристикам подавителя 108 шума квантования.

Счетчики последовательности кадров категории 0 звукового сигнала и последовательности кадров категории 3 или 4 звукового сигнала используются для соответствующего уменьшения или увеличения порогов.

Например, если счетчик 512 насчитывает последовательность больше чем 30 кадров категории 3 или 4 звукового сигнала, то плавающие пороги 1-4 увеличиваются пороговым контроллером 514 с целью обеспечения того, чтобы больше кадров рассматривалось как категории 4 звукового сигнала. Каждый раз, когда значение счетчика 512 прирастает, счетчик 513 сбрасывается в ноль.

Также справедливо обратное для категории 0 звукового сигнала. Например, если счетчик 513 насчитывает последовательность больше чем 30 кадров категории 0 звукового сигнала, то пороговый контроллер 514 уменьшает плавающие пороги 1-4 с целью обеспечения того, чтобы больше кадров рассматривалось как категории 0 звукового сигнала. Плавающие пороги 1-4 ограничены абсолютными максимальными и минимальными значениями для обеспечения того, чтобы классификатор 301 типа сигнала не был взаимно связан с фиксированной категорией.

Увеличение и уменьшение порогов 1-4 может быть проиллюстрировано следующими отношениями:

В случае стирания кадра все пороги 1-4 сбрасывают до их минимальных значений, и выходной сигнал классификатора 301 типа сигнала рассматривается как нетональный (категория 0 звукового сигнала) для трех (3) кадров, включающих в себя потерянный кадр.

Если информация из Детектора голосовой активности (VAD) (не изображен) доступна и не указывает на голосовую активность (наличие паузы), то классификатор 301 типа сигнала вынужден установить категорию 0 звукового сигнала.

Согласно альтернативному варианту классификатора 301 типа сигнала полоса частот допустимого улучшения и/или уровня максимального подавления межтонового шума может быть полностью динамической (без жесткого этапа).

В случае маленького опережающего просмотра может быть необходимым ввести сглаживание минимального подавления коэффициента передачи в первых критических полосах для дополнительного подавления любого потенциального искажения, введенного с помощью подавления межтонового шума. Это сглаживание может быть выполнено с использованием следующего отношения:

где RedGain_i - максимальное подавление коэффициента передачи для каждой полосы, FEhBand - первая полоса, в которой допускается подавление межтонового шума (изменяются, как правило, между 400 Гц и 2 кГц или критические полосы 3 и 12 частот). Allow_red - уровень подавления шума, допустимого для каждой категории звукового сигнала, представленный в предыдущей таблице, и max_band - максимальная полоса для подавления межтонового шума (17 для Узкополосного канала (NB) и 20 для Широкополосного канала (WB)).

Подавление межтонового шума:

Применяют подавление межтонового шума (см. подавитель 108 шума квантования (фиг.3)), и восстанавливают улучшенный декодированный звуковой сигнал с использованием операции сложения с перекрытием (см. оператор 303 сложения с перекрытием (фиг.3)). Выполняют подавление межтонового шума квантования посредством масштабирования спектра в каждой критической полосе частот с масштабирующим коэффициентом передачи, ограниченным между g_min и 1, и выведенным из отношения сигнал/шум (SNR) в этой критической полосе частот. Особенность методики подавления межтонового шума заключается в том, что для частот ниже, чем определенная частота, например, относящихся к голосовому сигналу, обработку выполняют на основе отсчета частоты, а не на основе критической полосы частот. Соответственно, масштабирующий коэффициент передачи применяют к каждому отсчету частоты, выведенному из SNR в этом отсчете (SNR вычисляют с использованием энергии отсчета, разделенной на энергию шума критической полосы, включающей в себя этот отсчет). Этот признак имеет эффект сохранения энергии в частотах, близких к гармоникам или тонам, с предотвращением искажения при сильном подавлении шума квантования между гармониками. В случае узкополосных сигналов анализ для каждого отсчета может использоваться для всего спектра. Анализ для каждого отсчета может в качестве альтернативы использоваться во всех критических полосах частот, за исключением последней.

Согласно фиг.3 подавление межтонового шума квантования выполняется в подавителе 108 шума квантования. Согласно первой возможной реализации обработка для каждого отсчета может выполняться по всем 115 отсчетам частоты в узкополосном кодировании (250 отсчетам частоты в широкополосном кодировании) в аттенюаторе 304 шума.

В альтернативной реализации аттенюатор 304 шума выполняет обработку для каждого отсчета для применения масштабирующего коэффициента передачи к каждому отсчету частоты в первых K голосовых полосах, и после этого аттенюатор 305 шума выполняет обработку для каждой полосы для масштабирования спектра в каждой из оставшихся критических полос частот посредством масштабирующего коэффициента передачи. Если K=O, то аттенюатор 305 шума выполняет обработку для каждой полосы во всех критических полосах частот.

Минимальный масштабирующий коэффициент g_min передачи выводят из максимально допустимого подавления межтонового шума в дБ, NR_max. Как описано в вышеизложенном описании (см. таблицу выше), классификатор 301 типа сигнала выполняет максимально допустимое подавление шума NR_max, изменяющееся между 6 и 12 дБ. Соответственно, минимальный масштабирующий коэффициент передачи задают отношением:

(9)

В случае узкополосного тонального кадра масштабирующий коэффициент передачи может вычисляться в отношении SNR для каждого отсчета частоты, после этого выполняют подавление шума для каждого отсчета. Обработку для каждого отсчета применяют только к первым 17 критическим полосам, соответствующим максимальной частоте 3700 Гц. Максимальное количество отсчетов частоты, в которых может использоваться обработка для каждого отсчета, равно 115 (количество отсчетов в первых 17 полосах с 4 кГц).

В случае широкополосного тонального кадра обработку для каждого отсчета применяют ко всем 21 критическим полосам частот, соответствующим максимальной частоте 8000 Гц. Максимальное количество отсчетов частоты, для которых может использоваться обработка для каждого отсчета, равно 250 (количество отсчетов в первых 21 полосах с 8 кГц).

В методике подавления межтонового шума подавление шума начинается в четвертой критической полосе частот (подавление не выполняют перед 400 Гц). Для уменьшения какого-либо негативного воздействия методики подавления межтонового шума квантования классификатор 301 типа сигнала может продвинуть начальную критическую полосу частот до 12-й. Это означает, что первая критическая полоса частот, на которой выполняют подавление межтонового шума, находится приблизительно между 400 Гц и 2 кГц и может изменяться на покадровой основе.

Масштабирующий коэффициент передачи для определенной критической полосы частот, или для определенного отсчета частоты, может вычисляться как функция SNR в этой полосе частот или отсчете с использованием следующего отношения:

Значения k_s и C_s определяют так, что g_s=g_min для SNR=1 дБ, и g_s=1 для SNR=45 дБ. Соответственно, для SNR в 1 дБ и ниже масштабирующий коэффициент передачи ограничен g_s, и для SNR в 45 дБ и выше подавление межтонового шума не выполняют в данной критической полосе частот (g_s =1). Соответственно, с учетом этих двух конечных точек, значения k_s и C_s в Уравнении (10) могут быть рассчитаны с использованием следующих отношений:

k_s=(1-g_min система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

²)/44 и c_s=(45g_min система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

²-l)/44

(11)

Переменной SNR Уравнения (10) является или SNR для каждой критической полосы частот, SNR_CB(i), или SNR для каждого отсчета частоты, SNR_BIN(k), в зависимости от типа обработки для каждой полосы или для каждого отсчета.

SNR для каждой критической полосы частот вычисляют следующим образом:

(12)

где и обозначают энергию для каждой критической полосы частот для спектрального анализа прошлого и текущего кадра, соответственно (как вычисляется в Уравнении (4)), и N_CB(i) обозначает оценку энергии шума для каждой критической полосы частот.

SNR для каждого отсчета частоты в определенной критической полосе i частот вычисляют с использованием следующего отношения:

(13)

где и обозначают энергию для каждого отсчета частоты для спектрального анализа прошлого⁽¹⁾ и текущего⁽²⁾ кадра, соответственно (как вычисляется в Уравнении (5)), N_CB(i) обозначает оценку энергии шума для каждой критической полосы частот, j_i - индекс первого отсчета частоты в i-й критической полосе частот, и M_CB(i) - количество отсчетов частоты в критической полосе i частот, как определено выше в этом документе.

Согласно другой, альтернативной реализации, масштабирующий коэффициент передачи может вычисляться в отношении SNR для каждой критической полосы частот или для каждого отсчета частоты для первых голосовых полос. Если K_VOIC>0, то обработка для каждого отсчета может выполняться в первых K_V0IC полосах. Обработка для каждой полосы может после этого использоваться для остальных полос. В случае, когда K_VOIC=0, обработка для каждой полосы может использоваться по всему спектру.

В случае обработки для каждой полосы частот для критической полосы с индексом i, после определения масштабирующего коэффициента передачи с использованием Уравнения (10) и SNR, определенного в Уравнении (12) или (13), выполняют фактическое масштабирование с использованием сглаженного масштабирующего коэффициента передачи, обновляемого в каждом спектральном анализе посредством следующего отношения:

g_CB,LP(i)= система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

_gsg_CB,Lp(i)+(1- система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

_gs)g_s

(14)

Согласно одному признаку коэффициент система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _gs сглаживания используется для сглаживания масштабирующего коэффициента g_s передачи и может быть сделан адаптивным и обратно пропорционально связанным с самим масштабирующим коэффициентом передачи g_s. Например, коэффициент сглаживания может быть задан система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _gs=1-g_s. Следовательно, сглаживание является более сильным для меньших коэффициентов g_s передачи. Этот подход предотвращает искажение в сегментах с высоким SNR, которым предшествуют кадры с низким SNR, поскольку это имеет место для голосовых атак. В предложенном подходе процедура сглаживания может быстро адаптировать и использовать меньшие масштабирующие коэффициенты передачи после наступления, например, голосовой атаки.

Масштабирование в критической полосе частот выполняют следующим образом:

X'_R (k+j_i)=g_CB,LP(i)X_R(k+j_i ), и

X'_I(k+j_i)=g_CB,LP (i)X_I(k+j_i), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

,M_CB(i)-1

(15)

где j_i - индекс первого отсчета частоты в критической полосе i частот, и M_CB(i) - количество отсчетов частоты в этой критической полосе частот.

В случае обработки для каждого отсчета в критической полосе частот с индексом i, после определения масштабирующего коэффициента передачи с использованием Уравнения (10) и SNR, определенного в Уравнении (12) или (13), выполняют фактическое масштабирование с использованием сглаженного масштабирующего коэффициента передачи, обновляемого в каждом спектральном анализе, следующим образом:

g_BIN,LP (k)= система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

_gsg_BIN,LP(k)+(1- система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

_gs)g_s

(16)

где коэффициент система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _gs=1-g_s сглаживания аналогичен Уравнению (14).

Временное сглаживание масштабирующих коэффициентов передачи предотвращает слышимые колебания энергии, в то время как управление сглаживанием с использованием система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _gs предотвращает искажение в сегментах речи с высоким SNR, которым предшествуют кадры с низким SNR, поскольку это имеет место для голосовых атак, например.

Масштабирование в критической полосе i частот после этого выполняют следующим образом:

X'_R (k+j_i)=g_BIN,LP(k+j_i)X_R (k+j_i), и

X'_I(k+j_i )=g_BIN,LP(k+j_i)X_I(k+j_i ), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

,M_CB(i)-1

(17)

Сглаженные масштабирующие коэффициенты g_BIN,LP(k) и g_CB,LP(i) передачи вначале устанавливают в 1,0. Каждый раз, когда обрабатывают нетональный звуковой кадр (music_flag=0), значение сглаженных масштабирующих коэффициентов передачи сбрасывают в 1,0 для уменьшения возможного подавления этих сглаженных масштабирующих коэффициентов передачи в следующем кадре.

В каждом спектральном анализе, выполняемом спектральным анализатором 105, сглаженные масштабирующие коэффициенты g_CB,LP(i) передачи обновляют для всех критических полос частот (даже для голосовых критических полос частот, обрабатываемых посредством обработки для каждого отсчета, - в этом случае g_CB,LP(i) обновляют посредством среднего значения g_BIN,LP(k), принадлежащего критической полосе i частот). Аналогично, сглаженные масштабирующие коэффициенты g_BIN,LP(k) передачи обновляют для всех отсчетов частоты в первых 17 критических полосах частот, то есть до отсчета 115 частоты в случае узкополосного кодирования (в первых 21 критических полосах частот, то есть до отсчета 250 частоты в случае широкополосного кодирования). Для критических полос частот, обрабатываемых посредством обработки для каждой полосы, масштабирующие коэффициенты передачи обновляют посредством установки их равными g_CB,LP(i) в первых 17 (узкополосное кодирование) или 21 критических полосах частот (широкополосное кодирование).

В случае декодированного тонального звукового сигнала малой энергии подавление межтонового шума не выполняют. Звуковой сигнал малой энергии детектируют посредством поиска максимальной энергии шума во всех критических полосах частот, max(N_CB(i)), i=0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 ,17 (17 в случае узкополосного кодирования и 21 в случае широкополосного кодирования), и если это значение меньше или равно определенному значению, например 15 дБ, то подавление межтонового шума не выполняют.

В случае обработки узкополосных сигналов подавление межтонового шума выполняют на первых 17 критических полосах частот (до 3680 Гц). Для оставшихся 11 отсчетов частоты между 3680 Гц и 4000 Гц спектр масштабируют с использованием последнего масштабирующего коэффициента g_s передачи отсчета частоты, соответствующего 3680 Гц.

Коррекция спектрального коэффициента передачи

В теореме Парсеваля показано, что энергия во временной области равна энергии в частотной области. Подавление энергии межтонового шума в результате приводит к общему подавлению энергии в частотной и временной областях. Дополнительный признак заключается в том, что подавитель 108 шума квантования содержит корректор 306 коэффициента передачи для каждой полосы для повторного масштабирования энергии для каждой критической полосы частот таким образом, что энергия в каждой критической полосе частот в конце повторного масштабирования является близкой к энергии перед подавлением межтонового шума.

Для достижения такого повторного масштабирования не требуется повторно масштабировать все отсчеты частоты, а только требуется повторно масштабировать отсчеты, обладающие наибольшей энергией. Корректор 306 коэффициента передачи для каждой полосы содержит анализатор 401 (фиг.4), который идентифицирует отсчеты, обладающие наибольшей энергией, до подавления межтонового шума как отсчеты, масштабированные масштабирующим коэффициентом передачи между [0,8, 1,0] в фазе подавления межтонового шума. Согласно альтернативному варианту анализатор 401 может также определять энергию для каждого отсчета до подавления межтонового шума, с использованием, например, Уравнения (5) для идентификации отсчетов, обладающих наибольшей энергией.

Энергия, удаленная из межтонового шума, будет перемещена в события, обладающие наибольшей энергией (соответствующие отсчетам, обладающим наибольшей энергией) критической полосы частот. Таким образом, окончательная музыкальная выборка будет звучать более четко, чем при выполнении только простого подавления межтонового шума, потому что динамика между событиями, обладающими большой энергией, и минимальным уровнем шума будет дополнительно увеличиваться.

Спектральную энергию критической полосы частот после подавления межтонового шума вычисляют таким же образом, как спектральную энергию перед подавлением межтонового шума:

(18)

В этом отношении корректор 306 коэффициента передачи для каждой полосы содержит анализатор 402 для определения спектральной энергии для каждой полосы до подавления межтонового шума с использованием Уравнения (18), и анализатор 403 для определения спектральной энергия для каждой полосы после подавления межтонового шума с использованием Уравнения (18).

Корректор 306 коэффициента передачи для каждой полосы дополнительно содержит калькулятор 404 для определения корректирующего коэффициента передачи как отношения спектральной энергии критической полосы частот перед подавлением межтонового шума и спектральной энергии этой критической полосы частот после того, как подавление межтонового шума применено.

(19)

где E_CB является критической спектральной энергией полосы перед подавлением межтонового шума, и E_CB' является спектральной энергией критической полосы частот после подавления межтонового шума. Общее количество критических полос частот покрывает весь спектр от 17 полос в Узкополосном кодировании до 21 полосы в Широкополосном кодировании.

Повторное масштабирование по критической полосе i частот может быть выполнено следующим образом:

IF (g_BIN,LP (k+j_i)>0,8 & i>4)

X''_R(k+j_i)=G_corr(k+j_i)X'_R(k+j_i), и

X''_I(k+j_i)=G_corr(k+j_i)X'_I(k+j_i), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

,M_CB(i)-1,

ELSE

X''_R(k+j_i)=X'_R(k+j_i), и

X''_I(k+j_i)=X'_I(k+j_i), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385

,M_CB(i)-1

(20)

где j_i - индекс первого отсчета частоты в критической полосе i частот, и M_CB(i) - количество отсчетов частоты в этой критической полосе частот. Коррекция коэффициента передачи не применяется ниже 600 Гц, потому что предполагается, что спектральная энергия на очень низкой частоте точно закодирована специальным речевым кодеком с низкой скоростью передачи битов, и любое увеличение межгармонического тона будет слышимым.

Повышение спектрального коэффициента передачи

Возможно дополнительное увеличение четкости музыкальной выборки посредством дополнительного увеличения коэффициента G_corr передачи в критических полосах частот, в которых происходит мало событий, обладающих большой энергией. Калькулятор 405 корректора 306 коэффициента передачи для каждой полосы определяет соотношение событий, обладающих большой энергией (отношение количества отсчетов, обладающих большой энергией, к общему количеству отсчетов частоты), для каждой критической полосы частот следующим образом:

NumBin_total = Общее количество отсчетов в критической полосе.

Калькулятор 405 после этого вычисляет дополнительный поправочный коэффициент к корректирующему коэффициенту передачи с использованием следующей формулы:

IF(NumBin_max>0)

C_F=-0,2778-RE система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB+1,2778

В корректоре 406 коэффициента передачи для каждой полосы посредством этого нового поправочного коэффициента C_F корректирующий коэффициент G_corr передачи умножают на значение, находящееся между [1,0, 1,2778]. С учетом этого поправочного коэффициента C_F повторное масштабирование по критической полосе i частот обращается в:

IF (g_BIN,LP(k+j_i)>0,8 & i>4)

X''_R(k+j_i )=G_corrC_F(k+j_i)X'_R (k+j_i), и

X''_I(k+j_i)=G_corrC_F(k+j_i)X'_I(k+j_i), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 ,M_CB(i)-1

ELSE

X''_R(k+j_i)=X'_R(k+j_i), и

X''_I(k+j_i )=X'_I(k+j_i), k = 0, система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 ,M_CB(i)-1

В конкретном случае Широкополосного кодирования повторное масштабирование выполняют только в отсчетах частоты, предварительно масштабированных с масштабирующим коэффициентом передачи между [0,96, 1,0] в фазе подавления межтонового шума. Обычно чем выше скорость передачи битов, тем ближе энергия спектра к требуемому уровню энергии. По этой причине вторая часть коррекции коэффициента передачи, поправочный коэффициент C_F коэффициента передачи, может не всегда использоваться. Наконец, при очень высокой скорости передачи битов может быть полезным выполнение повторного масштабирования коэффициента передачи только в отсчетах частоты, которые не были предварительно модифицированы (с масштабирующим коэффициентом передачи 1,0).

Восстановление улучшенного звукового сигнала с пониженным уровнем шума

После определения масштабированных спектральных компонентов 308, X'_R(k) или X_R"(k) и X'_I(k) или X_I"(k), калькулятор 307 обратного анализатора и оператора 110 сложения с перекрытием вычисляет обратное БПФ. рассчитанное обратное БПФ применяется к масштабированным спектральным компонентам 308 для получения улучшенного декодированного звукового сигнала, обрабатываемого методом окна, во временной области, задаваемого следующим отношением:

(21)

Сигнал после этого восстанавливают в операторе 303 с использованием операции сложения с перекрытием для перекрывающихся частей анализа. Так как синусное окно используется на исходном декодированном тональном звуковом сигнале 103 до спектрального анализа в спектральном анализаторе 105, то идентичная обработка методом окна применяется к улучшенному декодированному тональному звуковому сигналу 309, обрабатываемому методом окна, на выходе калькулятора обратного БПФ до операции сложения с перекрытием. Соответственно, улучшенный декодированный тональный звуковой сигнал, дважды обрабатываемый методом окна, задается отношением:

(22)

Для первой третьей части Узкополосного окна анализа операцию сложения с перекрытием для конструирования улучшенного звукового сигнала выполняют с использованием отношения:

(23)

и для первой девятой части Широкополосного окна анализа операцию сложения с перекрытием для конструирования улучшенного декодированного тонального звукового сигнала выполняют следующим образом:

где x⁽⁰⁾ система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _ww,d(n) - улучшенный декодированный тональный звуковой сигнал, дважды обрабатываемый методом окна, из анализа предыдущего кадра.

С использованием операции сложения с перекрытием, так как существует сдвиг 80 выборок (40 - в случае Широкополосного кодирования) между кадром декодера звукового сигнала и кадром подавления межтонового шума, улучшенный декодированный тональный звуковой сигнал может быть восстановлен до 80 выборок из опережающего просмотра наряду с текущим кадром подавления межтонового шума.

После операции сложения с перекрытием для восстановления улучшенного декодированного тонального звукового сигнала выполняют устранение искажений в постпроцессоре 112 на улучшенном декодированном звуковом сигнале с использованием обратного к вышеописанному фильтру предыскажений. Постпроцессор 112, следовательно, содержит фильтр устранения искажений, который, в этом варианте осуществления, задается отношением:

H_de-emph (z)=1/(1-0,68z^-1)

(24)

Обновление энергии межтонового шума

Оценки энергии межтонового шума для каждой критической полосы частот для подавления межтонового шума могут быть рассчитаны для каждого кадра в оценивателе энергии межтонового шума (не изображен) с использованием, например, следующей формулы:

(25)

где N⁰ система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB и E⁰ _CB представляют текущие энергию шума и спектральную энергию для заданной критической полосы (i) частот, и N¹ система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB и E¹ _CB представляют энергию шума и спектральную энергию для прошлого кадра идентичной критической полосы частот.

Этот способ расчета оценок энергии межтонового шума для каждой критической полосы частот является простым и может вводить некоторые искажения в улучшенный декодированный тональный звуковой сигнал. Однако, при Узкополосном кодировании с низкой скоростью передачи битов, эти искажения в значительной степени компенсируются повышением четкости синтезированных звуковых сигналов.

В широкополосном кодировании, когда присутствует межтоновый шум, но менее раздражающий, способ обновления энергии межтонового шума должен быть более сложным для предотвращения введения раздражающего искажения. Может использоваться другая методика с большей или меньшей вычислительной сложностью.

Обновление энергии межтонового шума с использованием взвешенной средней энергии для каждой полосы:

В соответствии с этой методикой вторые максимальное и минимальное значения энергии каждой критической полосы частот используют для вычисления порога энергии для каждой критической полосы частот следующим образом:

где max₂ представляет отсчет частоты, имеющий второе максимальное значение энергии, и min - отсчет частоты, имеющий минимальное значение энергии в критической полосе частот, представляющей интерес.

Порог энергии (thr_ener_CB) используют для вычисления первой оценки уровня межтонового шума для каждой критической полосы (tmp_ener_CB), которая соответствует среднему энергий (E_BIN) всех отсчетов частоты ниже предшествующего порога энергии внутри критической полосы частот с использованием следующего отношения:

mcnt=0

tmp_ener_CB(i)=0

for (k=0:M_CB (i))

if (E_BIN(k)<thr_ener_CB )

tmp_ener_CB(i)=tmp_ener_CB (i)+E_BIN(k)

mcnt=mcnt+1

endif

endfor

где mcnt - количество отсчетов частоты, энергии (E_BIN) которых включены в суммирование и mcnt система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 M_CB(i). Кроме того, количество mcnt отсчетов частоты, энергия (E_BIN) которых ниже порога энергии, сравнивают с количеством отсчетов частоты (M_CB) внутри критической полосы частот для оценки соотношения отсчетов частоты ниже порога энергии. Это соотношение accepted_ratio_CB используют для взвешивания первой, предварительно найденной оценки (tmp_ener_CB) уровня межтонового шума.

Весовой коэффициент система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB оценки уровня межтонового шума отличается между используемой скоростью передачи битов и accepted_ratio_CB. Высокое accepted_ratio_CB для критической полосы частот означает, что будет трудно отличить энергию шума от энергии сигнала. В этом случае предпочтительно не подавлять слишком намного уровень шума этой критической полосы частот, чтобы не подвергать риску какого-либо чередования энергии сигнала. Но низкое accepted_ratio_CB указывает на большую разность между уровнями энергии сигнала и шума, тогда оцениваемый уровень шума может быть выше в этой критической полосе частот без добавления искажения. Множитель система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB модифицируют следующим образом:

IF ((accepted_ratio(i)<0,6|accepted_ratio(i-1)<0,5)&i>9)

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB(i)=1

ELSE IF (accepted_ratio(i)<0,75&i>15)

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB(i)=2

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB(i)=30

ELSE IF (bitrate>16000)

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB(i)=20

ELSE

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB(i)=16

Наконец, оценка межтонового шума для каждой критической полосы частот может сглаживаться по-другому, если межтоновый шум увеличивается или уменьшается.

Уменьшение шума:

Увеличение шума: i=0,...,20

Где

система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 =0,1

где N⁰ система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB представляет текущую энергию шума для заданной критической полосы (i) частот, и N¹ система и способ улучшения декодированного тонального звукового сигнала, патент № 2470385 _CB представляет энергию шума прошлого кадра идентичной критической полосы частот.

Несмотря на то что настоящее изобретение описано в вышеизложенном описании посредством его иллюстративных вариантов осуществления, которые не являются ограничивающими, возможны многие другие модификации и разновидности в пределах объема прилагаемой формулы изобретения, не выходящие за пределы существа, природы и объема настоящего изобретения.

Литература

[1] 3GPP TS 26.190, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions".

[2] J.D.Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J.Select. Areas Commun., vol.6, pp.314-323, Feb. 1988.

Класс G10L21/02 усиление речи, например подавление шума, нейтрализация эхо-сигнала

устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы - патент 2527735 (10.09.2014)
низведение параметров последовательности битов sbr - патент 2526745 (27.08.2014)

аудио кодер и декодер, увеличивающий полосу частот - патент 2523035 (20.07.2014)
способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала - патент 2520420 (27.06.2014)
устройство подавления акустического эха и фронтальное устройство конференцсвязи - патент 2520359 (20.06.2014)
усовершенствованное гармоническое преобразование на основе блока поддиапазонов - патент 2518682 (10.06.2014)
устройство и способ генерирования сигнала с расширенной полосой пропускания - патент 2512090 (10.04.2014)
устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик - патент 2507608 (20.02.2014)
устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала - патент 2501097 (10.12.2013)
устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи - патент 2498422 (10.11.2013)

Класс G10L19/14 детали, не отнесенные к группам 19/06

кодирование сигнала с использованием кодирования с регуляризацией основных тонов и без регуляризации основных тонов - патент 2470384 (20.12.2012)
способ и устройство для формирования уровня улучшения в системе кодирования звука - патент 2469422 (10.12.2012)
защита от ограничения сигнала с использованием заранее существующих метаданных коэффициента усиления аудиосигнала - патент 2468451 (27.11.2012)
аудиодекодер - патент 2466469 (10.11.2012)
способ и устройство для кодирования и декодирования - патент 2461898 (20.09.2012)
кодирующее устройство, декодирующее устройство и способ - патент 2459283 (20.08.2012)
способ и устройство многоступенчатого квантования - патент 2453932 (20.06.2012)
эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld - патент 2442232 (10.02.2012)
аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал - патент 2439721 (10.01.2012)
способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках - патент 2437172 (20.12.2011)