способ компрессии аудиоданных

Классы МПК:	G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами
Патентообладатель(и):	Стефанов Михаил Александрович (RU)
Приоритеты:	подача заявки: 2008-04-30 публикация патента: 20.06.2011

Изобретение относится к технике цифровой обработки сигналов и может быть использовано в системах сжатия звуковых сигналов. Техническим результатом предлагаемого способа является увеличение коэффициента сжатия при сохранении высокого качества субъективного восприятия звука за счет кодирования величины и положения на оси частот первого из немаскируемых коэффициентов вещественного дискретного ортогонального преобразования и расстояний между смежными немаскируемыми коэффициентами. Таким образом, из выходного цифрового потока исключается информации о маскируемых коэффициентах преобразования. 6 ил.

способ компрессии аудиоданных, патент № 2421829

Формула изобретения

Способ компрессии аудиоданных, заключающийся в формировании временных выборок длиной N, определении для каждой временной выборки N коэффициентов вещественного частотного дискретного ортогонального преобразования (ВЧДОП), определении коэффициентов ВЧДОП,

немаскируемых абсолютным порогом слышимости и взаимно немаскируемых, при этом если каждый модуль коэффициента ВЧДОП отличен от нуля на частоте f_к, в соответствии с аналитическим описанием абсолютного порога слышимости A (f) вычисляют соответствующее значение абсолютного порога слышимости A(f_k), полученное значение которого сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше», положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют, в результате определяют вектор способ компрессии аудиоданных, патент № 2421829 коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, а для вектора коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, определяют первый не нулевой коэффициент Y_к как последний определенный локально маскирующий, а каждый следующий не нулевой коэффициент ВЧДОП сравнивают по величине с уровнем кривой маскировки (КМ) последнего определенного локально маскирующего коэффициента ВЧДОП и, если уровень КМ больше текущего коэффициента ВЧДОП, то его обнуляют, в противном случае определяют величину, на которую он превышает величину КМ, если она больше рассчитанного коэффициента маскировки a_m , то вычисляют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, и вычисляют частотное расстояние до точки пересечения КМ текущего и последнего определенного локально маскирующего коэффициентов ВЧДОП, после чего текущему коэффициенту ВЧДОП придают статус локально маскирующего, если же обрабатываемый коэффициент ВЧДОП превышает КМ локально маскирующего на величину, меньшую a_m, то определяют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, а текущий коэффициент ВЧДОП немаскирующим, и формируют номера коэффициентов ВЧДОП, затем кодируют величину постоянной составляющей, отличающийся тем, что кодируют величину и номер первого локально маскирующего компонента ВЧДОП, разницу между номерами смежных немаскируемых коэффициентов ВЧДОП, разницу между номерами соседних немаскирующих и локально маскирующих коэффициентов ВЧДОП и разницу между частотами локально маскирующих коэффициентов ВЧДОП и пересечения их КМ с КМ соседнего локально маскирующего.

Описание изобретения к патенту

Данное изобретение относится к технике цифровой обработки сигналов и может быть использовано в системах сжатия звуковых сигналов.

Известен [1-3] способ сжатия цифровых аудиоданных, в котором рабочую полосу звуковых сигналов (ЗС) разделяют на субполосы. В каждой из субполос с учетом абсолютного порога слышимости и эффекта взаимной маскировки [4] (подавление тонов меньшей интенсивности тоном большей интенсивности) слухового анализатора человека определяют допустимое число уровней квантования для кодирования временных отсчетов (MPEG layer 1, 2) или коэффициентов дискретного ортогонального преобразования (ATSC Dolby AC-3, MPEG layer 3).

Наиболее близким по технической сущности является способ [1-3] (MPEG layer 3), в котором для каждой выборки из N временных отсчетов ЗС с помощью вещественного частотного дискретного ортогонального преобразования (ВЧДОП) получают N коэффициентов преобразования. С учетом абсолютного порога слышимости и эффекта взаимной маскировки слухового анализатора из этих коэффициентов выделяют немаскируемые, на основании интенсивности которых определяют число бит для кодирования всех коэффициентов ВЧДОП.

Однако известный способ предполагает передачу информации обо всех коэффициентах ВЧДОП данной выборки, в том числе и маскируемых. То есть эффект маскировки слухового анализатора используется не достаточно эффективно, что приводит к повышению скорости цифрового потока на выходе системы сжатия. Кроме того, для кодирования коэффициентов ВЧДОП в зависимости от их величины отводится различное число двоичных бит, вследствие чего, как показывают последние исследования [5], снижается качество субъективного восприятия сжатого звука.

Техническим результатом предлагаемого способа является увеличение коэффициента сжатия при сохранении высокого качества субъективного восприятия звука за счет исключения из выходного цифрового потока информации о маскируемых коэффициентах ВЧДОП и использовании малого (при кодировании коэффициентов ВЧДОП в MPEG layer 3 используется от 2 до 16 бит) числа бит для кодирования частотных расстояний (от 1 до 7 бит).

Сущность способа компрессии аудиоданных заключается в следующем.

1. На последовательности временных отсчетов исходного сигнала формируют выборки длиной N.

2. Для каждой временной выборки определяют N коэффициентов ВЧДОП.

3. Из N коэффициентов ВЧДОП определяют коэффициенты, не маскируемые абсолютным порогом слышимости. При этом если каждый модуль коэффициента ВЧДОП отличен от нуля на частоте f_k, в соответствии с аналитическим описанием абсолютного порога слышимости A(f) вычисляют соответствующее значение абсолютного порога слышимости A(f_k), полученное значение которого сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше», положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют, в результате определяют вектор коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости.

4. Для вектора коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, определяют первый ненулевой коэффициент Y_k, как последний определенный локально маскирующий, а каждый следующий ненулевой коэффициент ВЧДОП сравнивают по величине с уровнем кривой маскировки (КМ) последнего определенного локально маскирующего коэффициента ВЧДОП, и если уровень КМ больше текущего коэффициента ВЧДОП, то его обнуляют, в противном случае определяют величину, на которую он превышает величину КМ, если она больше рассчитанного коэффициента маскировки a_m, то вычисляют разницу между номерами текущего и последнего определенного немаскируемого коэффициента и вычисляют частотное расстояние до точки пересечения КМ текущего и последнего определенного локально маскирующего коэффициентов ВЧДОП, после чего текущему коэффициенту ВЧДОП придают статус локально маскирующего, если же обрабатываемый коэффициент ВЧДОП превышает КМ локально маскирующего на величину, меньшую a_m, то определяют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, а текущий коэффициент ВЧДОП немаскирующим и формируют номера коэффициентов ВЧДОП.

5. Кодируют величину постоянной составляющей.

6. Кодируют величину и номер первого локально маскирующего коэффициента ВЧДОП.

7. Кодируют разницу между номерами смежных немаскируемых коэффициентов.

8. Кодируют разницы между номерами соседних немаскирующих и локально маскирующих коэффициентов ВЧДОП.

9. Кодируют разницы между частотами локально маскирующих коэффициентов ВЧДОП и точкой пересечения их КМ с КМ соседнего локально маскирующего.

На фигуре 1 приведены известные [4] экспериментальные кривые абсолютного порога слышимости.

На фигуре 2 показан пример алгоритма исключения коэффициентов ВЧДОП, маскируемых абсолютным порогом слышимости.

На фигуре 3 показан пример алгоритма исключения взаимно маскируемых коэффициентов ВЧДОП.

На фигуре 4 приведено схематичное изображение спектра выборки ЗС.

На фигуре 5 показаны кодируемые параметры выборки коэффициентов ВЧДОП.

На фигуре 6 показан пример восстановления коэффициентов ВЧДОП выборки звукового сигнала.

Способ осуществляется следующим образом.

На последовательности временных отсчетов ЗС формируют выборки длиной N. Над каждой временной выборкой производят ВЧДОП. Указанные операции можно выполнить, как предложено в [1 - З].

Далее в блоке из N коэффициентов ВЧДОП определяют и обнуляют коэффициенты, маскируемые абсолютным порогом слышимости (фигура 1). Структурная схема алгоритма реализации этой операции на примере моноканала приведена на фигуре 2. Входом алгоритма (блок 1) является вектор способ компрессии аудиоданных, патент № 2421829 коэффициентов ВЧДОП и частотное расстояние f между коэффициентами ВЧДОП. Процесс обработки выборки коэффициентов ВЧДОП носит циклический характер (блок 2). Тело цикла начинается с вычисления частоты f_k k-го коэффициента (блок 3). Если модуль этого коэффициента отличен от нуля (блок 4) на частоте f_k, в соответствии с аналитическим описанием [6] абсолютного порога слышимости A(f), вычисляют (блок 5) соответствующее значение абсолютного порога слышимости A(f_k). Полученное значение сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше» (блок 6). Положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют (блок 8). В результате выходом алгоритма является вектор способ компрессии аудиоданных, патент № 2421829 коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости.

После этого определяют взаимно немаскируемые коэффициенты ВЧДОП и производят кодирование их местоположения на оси частот. Для этого определим два типа таких коэффициентов.

1. Локально маскирующие, кривые маскировки (КМ) [4] которых не прерываются КМ соседних коэффициентов ВЧДОП. Таким образом, локально маскирующий коэффициент ВЧДОП определяет текущий участок порога слышимости на данной спектральной выборке.

2. Немаскирующие коэффициенты ВЧДОП, которые не маскируются локально маскирующими коэффициентами ВЧДОП и не прерывают их КМ. То есть, уровень этих коэффициентов превышает уровень КМ соответствующего локально маскирующего коэффициента ВЧДОП не более чем на величину коэффициента маскировки a_m , аналитическое описание которого приведено в работе [6].

Взаимно немаскируемые коэффициенты ВЧДОП определяются следующим образом (фигура 3). Входом алгоритма (блок 1) является вектор способ компрессии аудиоданных, патент № 2421829 немаскируемых абсолютным порогом слышимости коэффициентов ВЧДОП и частотное расстояние f между коэффициентами ВЧДОП. Первый коэффициент определяем как локально маскирующий (блок 2). Процесс обработки носит циклический характер (блок 3). Тело цикла начинается с вычисления частоты f_k k-го коэффициента (блок 4). Далее на этой частоте вычисляется уровень кривой маскировки КМ_i(k) локально маскирующей компоненты (блок 5). Соответствующие аналитические выражения приведены в [6]. Если величина k-го коэффициента ВЧДОП не превышает уровень КM_i(k) (блок 6), значит, этот коэффициент маскируется, и его обнуляют (блок 7). В противном случае (блок 8) определяется, является ли текущий коэффициент немаскируемым (блок 9) или локально маскирующим (блок 10). В результате выходом алгоритма является вектор способ компрессии аудиоданных, патент № 2421829 коэффициентов ВЧДОП той же размерности, что и , в котором нулевые элементы соответствуют маскируемым, а не нулевые - немаскируемым и локально маскирующим коэффициентам ВЧДОП.

Определив множество немаскируемых коэффициентов ВЧДОП (фигура 4) и зная аналитическое описание кривых маскировки, достаточно передать информацию о величине нулевого коэффициента ВЧДОП (постоянная составляющая), величине и номере первого немаскируемого коэффициента, о номерах остальных немаскируемых коэффициентов и точках пересечения КМ смежных локально маскирующих коэффициентов ВЧДОП (Фигура 5).

При этом величина и номер первого немаскируемого коэффициента есть не что иное, как первый элемент вектора способ компрессии аудиоданных, патент № 2421829 коэффициентов ВЧДОП, не равный нулю.

Действительно, по известному номеру i-го локально маскирующего коэффициента ВЧДОП с помощью аналитического описания [6] кривых маскировки на приеме не трудно вычислить уровень правой ветви КМ_i в точке пересечения с левой ветвью

КM_i+1 следующего локально маскирующего коэффициента ВЧДОП. Поскольку в точке пересечения уровни правой ветви КM_i и левой ветви КM_i+1 равны, по известному номеру (i+1)-го локально маскирующего коэффициента ВЧДОП с помощью аналитического описания КМ однозначно восстанавливается его величина.

Уровень любого немаскирующего коэффициента ВЧДОП можно определить суммой соответствующего уровня КМ (порога слышимости) и половины коэффициента маскировки a_m (фигура 5). При этом искажения округления не превысят 3 дБ, что меньше их допустимого значения.

Последовательность данных для передачи по каналам связи может быть следующей. Первым элементом вектора является нулевой коэффициент ВЧДОП (постоянная составляющая). Вторым элементом - величина первого локально маскирующего коэффициента ВЧДОП, а третьим - его номер. Следующие элементы представляют собой разницу номеров соседних коэффициентов ВЧДОП, а также информацию о точках пересечения КМ смежных локально маскирующих коэффициентов ВЧДОП.:

L₀, L₁, способ компрессии аудиоданных, патент № 2421829 ₀, _1,1, _1,2, , _1,M, ₁, ₁, _2,1, , _2,М, ₂, ₂, , _N1,1, , _N1,M

где:

L₀ - величина постоянной составляющей;

L₁ - величина первого локально маскирующего коэффициента ВЧДОП;

способ компрессии аудиоданных, патент № 2421829 ₀ - номер первого локально маскирующего коэффициентов ВЧДОП;

способ компрессии аудиоданных, патент № 2421829 _i,m - разница между номерами m-го немаскирующего и последнего немаскируемого коэффициента ВЧДОП (m=2 М);

способ компрессии аудиоданных, патент № 2421829 _i - разница между номерами последнего немаскирующего (находящегося между i-м и i+1-м локально маскирующими коэффициентами) и i+1-м локально маскирующего коэффициентами ВЧДОП;

способ компрессии аудиоданных, патент № 2421829 _i - частотное расстояние между точкой пересечения КМ смежных (i-й и i+1-й) локально маскирующих и последнего (i+1-го) локально маскирующего коэффициента ВЧДОП;

N1 - число локально маскирующих коэффициентов ВЧДОП выборки звукового сигнала;

М - максимально возможное число немаскирующих коэффициентов ВЧДОП, находящихся между двумя смежными локально маскирующими коэффициентами ВЧДОП.

Частоту того или иного коэффициента ВЧДОП можно вычислить следующим образом:

f_i=K· способ компрессии аудиоданных, патент № 2421829 f,

где:

K - номер коэффициента ВЧДОП;

F_s - верхняя граница рабочей полосы частот звукового сигнала.

Кодирование первых трех элементов вектора выполняют с максимальной, а остальных - с заданной (в зависимости от необходимого качества сжатого звука) точностью.

Список используемой литературы

1. International Standard ISO/EEC 11172-3. Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s. Part 3: Audio, 1993.

2. International Standard ISO/IEC 13818-3. Information technology - Generic coding of moving pictures and associated audio information. Part 3: Audio, 1998.

3. International Standard ISO/IEC 14496-3. Information technology - Coding of audio-visual objects. Part 3: Audio, 2005.

4. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. / Пер. с немец. Под ред. Б.Г.Белкина. М.: Связь, 1971. С.255.

5. Стефанова, И.А. Оценка допустимой степени округления спектральных компонент звуковых сигналов / И.А. Стефанова. // 6 Междунар. науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб. докладов. - Уфа, 2005. - С.36-38.

6. Стефанова, И.А. Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных: дис. способ компрессии аудиоданных, патент № 2421829 канд. тех. наук: 05.12.13: защищена 07.12.07 / И.А.Стефанова; ПГАТИ. - Самара, 2007. - 144 с.

7. Электроакустика и звуковое вещание. Учебное пособие для вузов / И.А.Алдошина, Э.И.Вологдин, А.П.Ефимов и др. / Под ред. Ю.А.Ковалгина. М.: Горячая линия - Телеком, Радио и связь, 2007.

8. Цифровая обработка сигналов в трактах звукового вещания. Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007.

Класс G10L19/02 с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

устройство для формирования выходного пространственного многоканального аудио сигнала - патент 2523215 (20.07.2014)
устройство и способ обработки аудио сигнала - патент 2523173 (20.07.2014)

способ и устройство для обработки звукового сигнала - патент 2517315 (27.05.2014)
аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала - патент 2515704 (20.05.2014)
устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра - патент 2510536 (27.03.2014)
декодер звукового сигнала, поставщик данных контура временной деформации, способ и компьютерная программа - патент 2509381 (10.03.2014)
кодер, декодер, способ кодирования и способ декодирования - патент 2500043 (27.11.2013)
усовершенствованное гармоническое преобразование - патент 2493618 (20.09.2013)
устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен - патент 2492530 (10.09.2013)
основанное на преобразовании кодирование/декодирование с адаптивными окнами - патент 2488898 (27.07.2013)