устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа

Классы МПК:	G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи
Автор(ы):	МУЛЬТРУС Маркус (DE), РЕТТЕЛЬБАХ Николаус (DE), ГРИЛЛ Бернхард (DE), ФУХС Гильом (FR), ГЕЙРСБЕРГЕР Стефан (DE), ПОПП Харальд (DE), ХЕРРЕ Юрген (DE), ВАБНИК Стефан (DE), ШУЛЛЕР Геральд (DE), ХИРШФЕЛД Йенс (DE)
Патентообладатель(и):	Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)
Приоритеты:	подача заявки: 2009-06-25 публикация патента: 10.06.2014

Изобретение относится к средствам кодирования и декодирования аудио потока на основе преобразования входного звукового сигнала. Технический результат заключается в уменьшении объема закодированных данных. Получают аудио поток, содержащий информацию, описывающую диапазон частот аудио контента, и информацию, описывающую ошибку многополосной дискретизации. Определяют ошибку многополосной дискретизации для множества диапазонов частот входного звукового сигнала, в котором имеется информация об усилении для отдельных диапазонов. Рассчитывают среднюю ошибку дискретизации для множества частотных диапазонов входного аудио сигнала. Исключаются диапазоны частот, спектральные компоненты которых полностью квантованы к нулю. Вводят шум в спектральные компоненты для множества диапазонов частот, причем информация об усилении в отдельных диапазонах частот связана с общим значением интенсивности многополосного шума. 7 н.з. и 11 з.п. ф-лы, 23 ил.

устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа, патент № 2519069

Формула изобретения

1. Кодировщик (100; 228) формирования аудио потока (126; 212) на основе преобразования представления области (112, 114, 228а) входного звукового сигнала, содержащий вычислитель ошибки дискретизации (110; 330), настроенный на определение ошибки многополосной дискретизации (116; 332) для множества частотных диапазонов входного звукового сигнала, в которых доступна информация об усилении в отдельных диапазонах (228а); и поставщик аудио потока (120; 230), настроенный для работы с аудио потоком (126; 212) так, что аудио поток содержит информацию, описывающую аудио контент диапазонов частот, и информацию, описывающую ошибку многополосной дискретизации.

2. Кодировщик (100; 228) по п.1, в котором вычислитель ошибки дискретизации (110; 330) настроен на расчет средней ошибки дискретизации для множества частотных диапазонов входного аудио сигнала, [кодировщик] которому доступна информация об усилении в отдельных диапазонах, так что информация об ошибке дискретизации охватывает множество частотных диапазонов, для которых доступна информация об усилении в отдельных диапазонах.

3. Кодировщик (100; 228) по п.1, в котором кодировщик включает блок дискретизации (310), настроенный на дискретизацию спектральных компонент в различных частотных диапазонах преобразования представления области (228а) с использованием различных точностей дискретизации в зависимости от психоакустической адекватности (228с) в различных частотных диапазонах, для получения дискретизированных спектральных компонент, причем различные точности дискретизации отражаются с помощью информации об усилении в диапазоне; и причем поставщик аудио потока (212) настроен на обеспечение такого аудио потока, что аудио поток содержит информацию об усилении в диапазоне и, кроме того, звуковой поток включает информацию, описывающую ошибку многополосной дискретизации.

4. Кодировщик (100; 228) по п.3, в котором блок дискретизации (310) настроен на выполнение масштабирования спектральных компонент в зависимости от информации об усилении в диапазоне и для выполнения дискретизации целочисленных значений масштабированных спектральных компонент; причем вычислитель ошибки дискретизации (330) настроен на определение ошибки многополосной дискретизации (332) в дискретной области так, что при масштабировании спектральных компонент, которое выполняется до дискретизации целочисленных значений, учитывается ошибка многополосной дискретизации.

5. Кодировщик (100; 228) по п.1, в котором кодировщик настроен на установку информации об усилении в диапазоне для частотного диапазона, который полностью квантован к нулю, в виде значения, представляющего соотношение между энергией диапазона частот, полностью квантованного к нулю, и энергией ошибки многополосной дискретизации.

6. Кодировщик (100; 228) по п.1, где вычислитель ошибки дискретизации (330) настроен на определение ошибки многополосной дискретизации (332) для множества диапазонов частот, каждый из которых содержит, по крайней мере, одну спектральную компоненту, квантованную в ненулевое значение, при этом исключаются диапазоны частот, спектральные компоненты которых полностью квантованы к нулю.

7. Декодировщик (500; 600) для обеспечения декодированного представления (512, 514, 630В) аудио сигнала на основе закодированного аудио потока (510; 610), представляющего спектральные компоненты диапазонов частот аудио сигнала, содержащий заполнитель шумом (520; 770), настроенный на введение шума в спектральные компоненты множества диапазонов частот, для которых информация об усилении в отдельных диапазонах частот связана со значением интенсивности общего многополосного шума (526).

8. Декодировщик (500; 600) по п.7, где декодировщик включает модуль повторного масштабирования (780), который настроен на получение представления информации об усилении в отдельных диапазонах частот и немасштабированных деквантованных спектральных значений (774) и получение на его основе масштабированных деквантованных спектральных значений (782).

9. Декодировщик (500; 600) по п.7, где заполнитель шумом (520; 770) настроен на выборочное определение на основе анализа спектрального элемента дискретизации, следует ли вводить шум в отдельные спектральные элементы дискретизации диапазонов частот в зависимости от того, квантованы к нулю или нет соответствующие отдельные спектральные элементы дискретизации.

10. Декодировщик (500; 600) по п.7, в котором заполнитель шумом (520; 770) настроен на прием множества значений спектральных элементов дискретизации (522), представляющих различные перекрывающиеся или неперекрывающиеся частотные сегменты в первом диапазоне частот для представления аудио сигнала в частотной области, и получение множества значений спектральных элементов дискретизации (524), представляющих различные перекрывающиеся или неперекрывающиеся частотные сегменты во втором диапазоне частот из представления аудио сигнала в частотной области; и для замены одного или нескольких значений спектральных элементов дискретизации в первом диапазоне частот из множества диапазонов частот на значение шума первого спектрального элемента дискретизации, величина которого определяется значением интенсивности многополосного шума (526), и для замены одного или нескольких значений спектральных элементов дискретизации во втором диапазоне частот из множества диапазонов частот на значение шума второго спектрального элемента дискретизации, имеющего такую же величину, как значение шума первого спектрального элемента дискретизации; причем декодировщик включает модуль масштабирования (780), настроенный на масштабирование значений спектральных элементов дискретизации первого диапазона частот из множества диапазонов частот со значением усиления первого диапазона частот для получения масштабированных значений спектральных элементов дискретизации первого диапазона частот, а также масштабирование значений спектральных элементов дискретизации второго диапазона частот из множества диапазонов частот со значением усиления второго диапазона частот для получения масштабированных значений спектральных элементов дискретизации второго диапазона частот так, что значения спектральных элементов дискретизации, замененные на первое и второе значения шума спектральных элементов дискретизации, масштабируются с разными значениями усиления в диапазонах частот и такими, что значения спектральных элементов дискретизации, замененные на первое значение шума спектральных элементов дискретизации, и незамененные значения спектральных элементов дискретизации из первого диапазона частот, представляющие аудио контент из первого диапазона частот, масштабируются с значением усиления в первом диапазоне частот и с разными значениями усиления в диапазонах частот, такими что значения спектральных элементов дискретизации, замененные на второе значение шума спектральных элементов дискретизации, и незамененные значения спектральных элементов дискретизации из второго диапазона частот, представляющие аудио контент из второго диапазона частот, масштабируются с значением усиления во втором диапазоне частот.

11. Декодировщик (500; 600) по п.7, в котором заполнитель шумом (520; 770) настроен на выборочное изменение значения усиления в заданном диапазоне частот с использованием значения смещения шума, если данный диапазон частот квантован к нулю.

12. Декодировщик (500; 600) по п.7, где заполнитель шумом (520; 770) настроен на замену значений спектральных элементов дискретизации, квантованных к нулю, на значения шума спектральных элементов дискретизации в зависимости от значения интенсивности многополосного шума (526), для получения замененных значений спектральных элементов дискретизации только для диапазонов частот, имеющих наименьший индекс спектрального элемента дискретизации больше предварительно определенного индекса спектрального элемента дискретизации, оставляя без изменений значения спектральных элементов дискретизации в диапазонах частот, имеющих наименьший индекс спектрального элемента дискретизации меньше предварительно определенного индекса спектрального элемента дискретизации; причем заполнитель шумом, для диапазона частот с наименьшим индексом спектрального элемента дискретизации больше предварительно определенного индекса спектрального элемента дискретизации, настроен на выборочное изменение значения усиления в данном диапазоне частот в зависимости от значения смещения шума, если данный диапазон частот полностью квантован к нулю; и причем декодировщик также содержит модуль масштабирования (770), настроенный на применение выборочно измененных или неизмененных значений усиления в диапазоне для выборочной замены или отказа от замены значений спектральных элементов дискретизации и получения масштабированной информации спектра, которая представляет аудио сигнал.

13. Декодировщик (500; 600) по п.7, причем декодировщик настроен на получение аудио потока (610), включающего дискретизированное закодированное энтропией представление (630аа) значений спектральных элементов дискретизации для множества диапазонов частот, причем множество значений спектральных элементов дискретизации связано с первым и вторым диапазонами частот из множества диапазонов частот, а также декодировщик настроен на получение аудио потока (610), включающего закодированное представление (630ab) значений усиления в диапазоне, в котором значение усиления в первом диапазоне связано с первым диапазоном частот, а значение усиления во втором диапазоне связано с вторым диапазоном частот, и декодировщик настроен на получение аудио потока (610), включающего закодированное представление (630ас) значения интенсивности многополосного шума; причем декодировщик включает декодировщик спектра (750), настроенный на получение дискретизированного закодированного представления (752) значений спектральных элементов дискретизации на основе дискретизированного закодированного энтропией представления значений спектральных элементов дискретизации; причем декодировщик включает модуль деквантования (760), настроенный на деквантование дискретизированного декодированного представления (752) значений спектральных элементов дискретизации, для деквантования декодированного представления (762) значений спектральных элементов дискретизации; причем декодировщик включает декодировщик коэффициента масштаба (740), настроенный на декодирование закодированного представления (630ab) значений спектральных элементов дискретизации, для получения декодированного представления (742) значений спектральных элементов дискретизации; и причем заполнитель шумом (770) настроен на выборочную замену значений спектральных элементов дискретизации, деквантованных к нулю в нескольких диапазонах частот с заменой значений спектральных элементов дискретизации на одинаковые величины, для получения замененных значений спектральных элементов дискретизации в нескольких диапазонах частот; и причем декодировщик включает модуль масштабирования (780),. настроенный на масштабирование множества всех значений спектральных элементов дискретизации в первом диапазоне частот, некоторые из которых являются исходными деквантованными декодированными значениями спектральных элементов дискретизации, полученными из модуля деквантования, и некоторые из этих значений спектральных элементов дискретизации являются замененными значениями спектральных элементов дискретизации с декодированным представлением коэффициента масштаба, связанного с первым диапазоном частот, чтобы получить множество значений масштабированных спектральных элементов дискретизации из первого диапазона частот и множество всех значений масштабированных спектральных элементов дискретизации из второго диапазона частот, причем некоторые значения из второго диапазона частот являются исходными деквантованными декодированными значениями спектральных элементов дискретизации, полученными модулем деквантования,. и некоторые значения спектральных элементов дискретизации являются значениями замены спектральных элементов дискретизации с декодированным представлением коэффициентов масштаба, связанным со вторым диапазоном частот, для получения множества значений масштабированных спектральных элементов дискретизации из второго диапазона частот.

14. Способ для получения аудио потока (126; 212) на основе преобразования представления области (112. 114; 228а) входного аудио сигнала, включающий определение ошибки многополосной дискретизации для множества диапазонов частот, в котором доступна информация об усилении в отдельных диапазонах, и представление аудио потока в таком виде, что оно содержит информацию, описывающую аудио контент диапазонов частот, и информацию, описывающую ошибку многополосной дискретизации.

15. Способ для обеспечения декодированного представления (512; 514: 630В) аудио сигнала на основе закодированного аудио потока (510; 610), включающий введение шума в спектральные компоненты множества диапазонов частот, в котором информация об усилении в отдельных диапазонах частот связана с общим значением интенсивности многополосного шума.

16. Машиночитаемый носитель информации с записанной на нем компьютерной программой для выполнения способа по п.14 при запуске ее на компьютере.

17. Машиночитаемый носитель информации с записанной на нем компьютерной программой для выполнения способа по п.15 при запуске ее на компьютере.

18. Аудио поток (510; 610), представляющий звуковой сигнал, содержащий спектральную информацию, описывающую интенсивность спектральных компонент звукового сигнала, в котором спектральная информация дискретизирована с различными точностями дискретизации в различных диапазонах частот, а также информацию об уровне шума, описывающую ошибку многополосной дискретизации для множества диапазонов частот, с учетом различной точности дискретизации.

Описание изобретения к патенту

Воплощения изобретения связаны с соответствующим устройством кодирования для обеспечения аудио потока на основе преобразования представления области входного звукового сигнала. Другие варианты воплощения изобретения связаны с устройством декодирования для обеспечения представления декодированного аудио сигнала на основе закодированного аудио потока. Следующие варианты воплощения изобретения предоставляют методы для кодирования и декодирования аудио сигнала. Варианты изобретения позволяют обеспечить формирование аудио потока. Варианты изобретения обеспечиваются компьютерными программами для кодирования и декодирования аудио сигнала. Вообще говоря, варианты изобретения, связанные с заполнением шумом.

Концепции аудио кодирования часто относятся к кодированию звукового сигнала в частотной области. Например, в так называемой концепции "Улучшенного Аудио Кодирования" (ААС) кодируется содержимое различных спектральных элементов дискретизации (или частотных элементов дискретизации) с использованием психоакустической модели. Для этого кодируется информация об интенсивности для разных спектральных элементов дискретизации. Однако разрешение, используемое для кодирования интенсивности в различных спектральных элементах дискретизации? адаптировано в соответствии с психоакустической адекватностью различных спектральных элементов дискретизации. Таким образом, некоторые спектральные элементы дискретизации, которые имеют низкую психоакустическую адекватность, кодируются с очень низким разрешением интенсивности, так что некоторые спектральные элементы дискретизации, имеющие низкую психоакустическую адекватность, или даже преобладающее их количество квантуются к нулю. Квантование интенсивности спектральных элементов дискретизации к нулю создает преимущество в том, что квантованные нулевые значения могут быть закодированы очень экономно и позволяют использовать минимальную возможную скорость. Тем не менее, спектральные элементы дискретизации, квантованные к нулю, иногда приводят к звуковым артефактам, даже если психоакустическая модель показывает, что спектральные элементы дискретизации имеют низкую психоакустическую адекватность.

Таким образом, желательно использовать спектральные элементы дискретизации, квантованные к нулю, в аудио устройствах и кодирования, и декодирования.

Известны различные подходы, использующие спектральные элементы дискретизации, закодированные к нулю, в системах аудио кодирования области преобразования, а также кодирования речи. Например, в MPEG-4 "ААС" (Улучшенное Аудио Кодирование) используется концепция восприятия замещения шумом (PNS). Восприятие замещения шумом полностью заполняет коэффициент масштаба диапазона только шумом. Подробную информацию о MPEG-4 ААС можно, например, найти в международном стандарте ISO / IEC 14496-3 (Information Technology - Coding of Audio-Visual Objects - Part 3: Audio). Кроме того, кодировщик речи AMR-WB+ заменяет вектор дискретизации векторами (VQ векторами), квантованными к нулю [при квантовании (дискретизации) после деления на некоторый коэффициент результат деления становится равным нулю] со случайным вектором шума, где каждое комплексное спектральное значение имеет постоянную амплитуду и случайную фазу. Амплитуды контролируются одним значением шума, переданным с потоком битов. Подробную информацию о речевом кодировщике AMR-WB+ можно найти, например, в технической спецификации, озаглавленной "Third Generation Partnership Project; Technical Specification Group Services and System Aspects; Audio Codec Processing Functions; Extended Adaptive Multi-Rate-Wide Band (AMR-WB+) Codec; Transcoding Functions (Release Six)", которая также известна как "3GPP TS 26,290 V6.3.0 (2005-06) - Технические характеристики".

Кроме того, в ЕР 1395980 В1 описана концепция кодирования звука. Там же описаны средства, которые выбирают информацию о диапазонах частот исходного звукового сигнала, которые слышны, но которые менее актуальны для восприятия и не должны кодироваться, но могут быть заменены параметрами заполнения шума. Те диапазоны частот сигнала, у которых содержание более актуально для восприятия, в отличие от предыдущих кодируются полностью. Закодированные биты сохраняются таким образом, что в частотном спектре принимаемого сигнала не остается пустот. Параметр заполнения шумом является мерой значения RMS сигнала в пределах исследуемого диапазона и используется на приемном участке алгоритмом декодирования для указания, какое количество шума необходимо вводить в исследуемый диапазон частот.

Другие подходы предусматривают неуправляемое введение шума в устройство декодирования, принимая во внимание тональность передаваемого спектра. Однако общепринятые концепции обычно имеют проблемы в том, что они либо обладают плохим разрешением в дискретизации заполнения шумом, которое обычно ухудшает слуховое восприятие, либо требуют сравнительно большого количества дополнительной информации о заполнении шумом, для которой необходима повышенная скорость передачи данных.

В связи с изложенным выше существует необходимость совершенствования концепции шумового заполнения, которая предусматривает улучшение компромисса между достижимым слуховым восприятием и требуемой скоростью передачи данных.

Сущность изобретения.

Воплощение изобретения создает кодировщик для обеспечения аудио потока на основе преобразования представления области входного звукового сигнала. Кодировщик включает в себя вычислитель ошибки дискретизации, настроенный на определение ошибки многополосной дискретизации множества диапазонов частот (например, множество коэффициентов масштаба диапазонов) на входе звукового сигнала, по которому доступна информация об усилении отдельных диапазонов (например, отдельных коэффициентов масштаба). Кодировщик также включает в себя поставщик аудио потока, настроенный на получение такого аудио потока, который содержит информацию, описывающую аудио контент [содержимое] диапазона частот, и информацию об ошибке многополосной дискретизации.

Описанный выше кодировщик основан на предложении, что использование информации об ошибке многополосной дискретизации влечет за собой возможность получения хорошего впечатления при прослушивании с использованием сравнительно небольшого количества дополнительной информации. В частности, с использованием информации об ошибке многополосной дискретизации, которая охватывает множество диапазонов частот, для которых доступна информация об усилении в отдельных диапазонах, позволяет масштабировать значение шума при декодировании, которые основаны на ошибке многополосной дискретизации, в зависимости от информации об усилении в диапазоне. Соответственно, так как информация об усилении в диапазоне, как правило, связана с психоакустической адекватностью в диапазонах частот или с точностью дискретизации применительно к диапазонам частот, то информация об ошибке многополосной дискретизации была определена в качестве дополнительной информации, которая позволяет синтезировать заполнение шумом с обеспечением хорошего впечатления при прослушивании с сохранением низкого отношения скорость-стоимость в дополнительной информации.

В предпочтительном варианте кодировщик содержит устройство дискретизации, настроенное на дискретизацию спектральных компонент (например, спектральных коэффициентов) различных частотных диапазонов в преобразовании представления области с использованием различных точностей дискретизации в зависимости от психоакустической адекватности в различных диапазонах частот для получения дискретных спектральных компонент, причем различные точности дискретизации отражают информацию об усилении в диапазоне. Кроме того, поставщик аудио потока настроен на работу с таким аудио потоком, который содержит информацию, описывающую информацию об усилении в диапазоне (например, в виде масштабных коэффициентов) и об ошибке многополосной дискретизации.

В предпочтительном варианте вычислитель ошибки дискретизации настроен на определение ошибки многополосной дискретизации во множестве диапазонов частот, содержащих, по меньшей мере, один частотный компонент (например, частотный элемент дискретизации), квантованный в ненулевое значение, с исключением диапазона частот полностью квантованного к нулю. Было установлено, что информация ошибки многополосной дискретизации является особенно значимой, если диапазоны частот, полностью квантованные к нулю, исключаются из расчета. В диапазонах частот, полностью квантованных к нулю, дискретизация, как правило, очень грубая, так что информация об ошибке дискретизации, полученная для таких диапазонов частот, как правило, не особенно значима. Более важный случай, когда ошибка дискретизации дает более значимую информацию для диапазонов частот, которые не полностью квантованы к нулю и более подходят для психоакустического восприятия, [и информация] позволяет в декодере адаптировать шум заполнения к человеческого слуху. Воплощение в соответствии с изобретением создает декодировщик для обеспечения декодирования представления аудио сигнала на основе закодированного потока, представляющего спектральные компоненты диапазона частот звукового сигнала. Декодировщик включает заполнитель шумом, настроенный для внесения шума в спектральные компоненты (например, значения спектральных линий или, в более общем смысле, значения спектрального элемента дискретизации) в нескольких диапазонах частот, для которых получение информации (например, коэффициентов масштаба) в отдельных диапазонах частот связано с основным значением интенсивности общего многополосного шума.

Декодировщик основан на представлении о том, что значение интенсивности одного многополосного шума может быть применено для заполнения шумом с хорошими результатами, если информация, полученная для отдельных диапазонов частот, связана с разными диапазонами частот. Соответственно, индивидуальное масштабирование шума, вводимое в различные частотные диапазоны, возможно на основе полученной информации для диапазона частот, такой, что, например, значение интенсивности одного общего многополосного шума, взятого в сочетании с информацией об усилении в отдельном диапазоне частот, обеспечивает получение достаточной информации для введения шума, адаптированного к психоакустике человека. Таким образом, концепция, описанная здесь, позволяет применять шум заполнения в квантованной (но не нормированной) области.

Шум, добавленный в декодировщик, может быть расширен с учетом психоакустической адекватности диапазона без необходимости получения дополнительной информации (без дополнительной информации, которая, так или иначе, необходима для расширения аудио контента без включения шума в диапазоне частот в соответствии с психоакустической адекватностью диапазона частот).

В предпочтительном варианте заполнитель шумом настроен на решение, выбранное на основе спектрального элемента дискретизации, следует ли вводить шум в отдельные спектральные элементы дискретизации диапазонов частот в зависимости от того? квантованы к нулю или нет соответствующие отдельные спектральные элементы дискретизации. Соответственно, можно получить очень тонкую детализацию шума заполнения при сохранении очень малого количества необходимой дополнительной информации. Действительно, не требуется передавать любую дополнительную информацию о специфическом шуме заполнения, в то время когда есть отличная детализация по отношению к шуму заполнения. Например, как правило, требуется передать коэффициент усиления в диапазоне (например, масштабный коэффициент) для диапазона частот, даже если только одна спектральная линия (или один спектральный элемент дискретизации) указанного диапазона частот квантуется в ненулевое значение интенсивности. Таким образом, можно сказать, что информация о коэффициенте масштаба может быть использована для заполнения шумом без каких-либо дополнительных затрат (с точки зрения битрейта), если хотя бы одна спектральная линия (или спектральный элемент дискретизации) в полосе частот квантуется с ненулевой интенсивностью. Однако в соответствии с настоящим изобретением это не является необходимым для передачи информации о специфическом шуме в частотном диапазоне с целью получения соответствующего шума заполнения в таком диапазоне частот, в котором существует хотя бы одно ненулевое значение интенсивности спектрального элемента дискретизации. Таким образом, было обнаружено, что хорошие по психоакустике результаты могут быть получены с помощью значения интенсивности многополосного шума в сочетании с получением информации о специфическом шуме в частотном диапазоне (например, масштабным коэффициентом). Таким образом, нет необходимости тратить биты на информацию заполнения специфического шума в частотном диапазоне. То есть передачи одного значения интенсивности многополосного шума достаточно, потому что эта информация заполнения многополосным шумом во всех случаях может быть объединена с информацией об усилении в диапазоне частот для получения информации заполнения специфическим шумом в частотном диапазоне, хорошо приспособленным к человеческому слуху.

В другом предпочтительном варианте заполнитель шумом настроен на прием множества значений спектральных элементов дискретизации, представляющих различные перекрывающиеся или неперекрывающиеся частотные области из первого диапазона частот в частотной области представления аудио сигнала, а также [заполнитель шумом настроен] на получение множества значений спектральных элементов дискретизации, представляющих различные перекрывающиеся или неперекрывающиеся частотные области из первого диапазона частот в частотной области представления аудио сигнала. Кроме того, заполнитель шумом настроен на замену одного или нескольких значений спектральных элементов дискретизации в первом диапазоне частот из множества диапазонов частот на первое значение шума спектрального элемента дискретизации, причем величина значения шума первого спектрального элемента дискретизации определяется значением интенсивности многополосного шума. Кроме того, заполнитель шумом настроен на замену одного или нескольких значений спектральных элементов дискретизации из второго диапазона частот на второе значение шума спектрального элемента дискретизации, имеющего ту же величину, что и первое значение шума спектрального элемента дискретизации. Декодер также включает в себя блок масштабирования, настроенный на масштабирование значения спектрального элемента дискретизации из первого диапазона частот со значением усиления в первом диапазоне частот, для получения значений масштабирования спектральных элементов дискретизации из первого диапазона частот, и [модуль масштабирования, настроенный на] масштабирование значений спектральных элементов дискретизации из второго диапазона частот со значением усиления во втором диапазоне частот для получения масштабирования значений спектральных элементов дискретизации из второго диапазона частот, так что значения спектрального элемента дискретизации, замененные с использованием шумовых значений первого и второго спектральных элементов дискретизации, масштабируются с различными значениями усиления в диапазоне частот таким образом, что значение спектрального элемента дискретизации, замененное с использованием шумовых значений первого спектрального элемента дискретизации, незамещенные значения спектральных элементов дискретизации в первом диапазоне частот, представляющие аудио контент первого диапазона частот, масштабируются с значением усиления первого диапазона частот таким образом, что значение спектрального элемента дискретизации, замененное значением шума второго спектрального элемента дискретизации, незамещенные значения спектрального элемента дискретизации из второго диапазона частот, представляющие аудио контент второго диапазона частот, масштабируются со значением усиления во втором диапазоне частот.

В воплощении в соответствии с изобретением заполнитель шумом необязательно настроен на выборочное изменение значения усиления в частотном диапазоне с использованием значения смещения шума, если данный диапазон частот квантован к нулю. Соответственно, смещение шума позволяет минимизировать число битов дополнительной информации. Что касается этой минимизации, следует отметить, что кодирование масштабных коэффициентов (ССП) в ААС аудио кодировщике осуществляется с использованием кодирования Huffmann разности последовательных масштабных коэффициентов (ССП). Небольшие значения разности позволяют получить кратчайшие коды (в то время как большие различия дают более длинные коды). Смещение шума минимизирует "среднюю разность" в переходе от обычных масштабных коэффициентов (коэффициенты масштаба диапазона не квантуются к нулю) к коэффициентам масштаба шума и обратно, и таким образом оптимизируется требуемое число разрядов в дополнительной информации. Это связано с тем, что обычно "коэффициенты масштаба шума "больше, чем обычные коэффициенты масштаба, если включенных линий не >=1 и они соответствуют средней ошибке квантования е (причем обычно 0<е<0.5).

В предпочтительном варианте заполнитель шумом настроен на замену значения спектральных элементов дискретизации, квантованных к нулю, на значения шума спектрального элемента дискретизации, у которых величины значений шума спектральных элементов дискретизации зависит от значения интенсивности многополосного шума, чтобы получить замененные значения спектральных элементов дискретизации, только для диапазонов частот, имеющих наименьший коэффициент спектрального элемента дискретизации из ранее определенных индексов спектрального элемента дискретизации, оставляя значения спектральных элементов дискретизации диапазонов частот, если наименьший коэффициент спектрального элемента дискретизации меньше предварительно определенного неизменного индекса спектрального элемента дискретизации. Предпочтительно, чтобы заполнитель шумом был настроен на выборочное изменение для диапазонов частот, имеющих наименьший коэффициент спектрального элемента дискретизации выше предварительно определенного индекса спектрального элемента дискретизации, [заполнитель шумом настроен на] значение усиления диапазона (например, значение коэффициента масштаба) для заданного диапазона частот в зависимости от значения смещения шума, если заданный диапазон частот полностью квантован к нулю. Предпочтительно, чтобы заполнение шумом выполнялось только при превышении заданного индекса спектрального элемента дискретизации. Кроме того, предпочтительно, чтобы смещение шума применялось только к квантованным к нулю диапазонам и не применялось для значений ниже заданного индекса спектрального элемента дискретизации. Кроме того, предпочтительно, чтобы декодировщик содержал масштабирование, настроенное на применение выборочного изменения или сохранения значений усиления диапазона для выборочной замены или запрета замены значений спектральных элементов дискретизации и получения масштабированной спектральной информации, которая представляет аудио сигнал. С использованием такого подхода декодировщик позволяет получить очень сбалансированное впечатление при прослушивании, которое не сильно ухудшается от заполнения шумом. Заполнение шумом применяется только к верхним диапазонам частот (с наименьшими коэффициентами спектральных элементов дискретизации из предварительно заданного индекса спектрального элемента дискретизации), так как шум заполнения в нижних диапазонах частот может привести к нежелательному ухудшению впечатления при прослушивании. С другой стороны, желательно выполнять заполнение шумом в верхних диапазонах частот. Следует отметить, что в некоторых случаях диапазоны с меньшим масштабом коэффициента (SFB) квантуются лучше (по сравнению с диапазонами с большим коэффициентом масштаба).

Другой вариант изобретения представляет метод для получения аудио потока на основе преобразования представления области входного звукового сигнала. Следующий вариант изобретения создает метод для обеспечения представления декодированного аудио сигнала на основе закодированного аудио потока.

Еще один вариант изобретения создает компьютерную программу для выполнения одного или нескольких из указанных выше методов.

Еще один вариант изобретения создает аудио поток, представляющий аудио сигнал. Аудио поток содержит спектральную информацию, описывающую интенсивности спектральных компонент звукового сигнала, причем спектральная информация дискретизируется с различными точностями дискретизации в различных частотных диапазонах. Аудио поток также включает в себя информацию об уровне шума, описывающую ошибку многополосной дискретизации для множества диапазонов частот, с учетом различных точностей дискретизации. Как было указано выше, такой аудио поток позволяет эффективно декодировать аудио контент, в котором достигается хороший компромисс между достижимым впечатлением при прослушивании и требуемой скоростью передачи. Краткое описание фигур чертежей.

Фиг.1 показывает блок-схему кодировщика в соответствии с вариантом изобретения;

Фиг.2 показывает блок-схему кодировщика для другого варианта изобретения;

Фиг.3A и 3B показывают блок-схему расширенного Улучшенного Аудио Кодирования (ААС) в соответствии с вариантом изобретения;

Фиг.4A и 4B показывает псевдокод программы, представляющей алгоритмы для выполнения кодирования звукового сигнала;

Фиг.5 показывает блок-схему декодировщика в соответствии с вариантом изобретения;

Фиг.6 показывает блок-схему декодировщика согласно другому варианту изобретения;

Фиг.7A показывает блок-схему расширенного ААС и 7B (Улучшенного Аудио Кодирования) декодировщика в соответствии с вариантом изобретения;

Фиг.8A показывает математические представления деквантования, которое может быть выполнено в расширенном декодировщике ААС Фиг.7;

Фиг.8B показывает псевдокод программы, описывающей алгоритм деквантования, который может выполнить расширенное декодирование ААС Фиг.7;

Фиг.8С показывает представление блок-схемы деквантования;

Фиг.9 показывает блок-схему заполнителя шумом и модуля масштабирования, которые могут быть использованы в расширенном декодировании ААС Фиг.7;

Фиг.10A показывает псевдокод программы, представляющей алгоритм, который может быть выполнен заполнителем шумом, показанном на Фиг.7 или заполнителя шумом, показанного на Фиг.9;

Фиг.10B показывает наименование элементов псевдокода программы на Фиг.10A;

Фиг.11 показывает блок-схему метода, который может быть реализован в заполнителе шумом Фиг.7 или в заполнителе шумом Фиг.9;

Фиг.12 показывает графическую иллюстрацию метода Фиг.11;

Фиг.13F и 13B показывают псевдокоды программы, представляющие алгоритмы, которые могут быть выполнены заполнителем шумом Фиг.7 или заполнителем шумом Фиг.9;

Фиг.14A по 14D показывают представления элементов битового потока для аудио потока в соответствии с вариантом изобретения; и

Фиг.15 показывает графическое представление битового потока в соответствии с другим вариантом осуществления изобретения.

Подробное описание изобретения

1. Устройство кодирования (кодировщик)

1.1. Кодировщик в соответствии с Фиг.1

Фиг.1 показывает блок-схему кодировщика для получения аудио потока на основе преобразования представления области входного звукового сигнала в соответствии с вариантом изобретения.

Кодировщик 100 на Фиг.1 включает в себя вычислитель ошибки дискретизации 110 и поставщика аудио потока 120. Вычислитель ошибки дискретизации 110 настроен на получение информации 112 для первого диапазона частот, для которого имеется информация об усилении в первом диапазоне частот и информации 114 для второго диапазона частот, для которого имеется информация об усилении во втором диапазоне частот. Вычислитель ошибки дискретизации настроен для определения ошибки многополосной дискретизации для множества частотных диапазонов входного звукового сигнала, в котором доступна информация об усилении в отдельном диапазоне. Например, вычислитель ошибки дискретизации 110 настроен для определения ошибки многополосной дискретизации в первом диапазоне частот, а второй диапазон частот использует информацию 112, 114. Соответственно, вычислитель ошибки дискретизации 110 настроен на предоставление информации 116, описывающей ошибку многополосной дискретизации для поставщика аудио потока 120. Поставщик аудио потока 120 настроен также на получение информации 122, описывающей первый диапазон частот и информации 124, описывающей второй диапазон частот. Кроме того, поставщик аудио потока 120 настроен на получение аудио потока 126, так что звуковой поток 126 включает в себя представление информации 116, а также представление аудио контента первого и второго диапазонов частот.

Таким образом, кодировщик 100 формирует аудио поток 126, включающий информацию контента, которая используется для эффективного декодирования аудио контента с использованием заполнения шумом диапазона частот. В частности, аудио поток 126, представляемый кодировщиком, позволяет получить хороший компромисс между скоростью передачи и «гибкостью декодирования шума заполнения».

1.2. Кодировщик в соответствии с Фиг.2

1.2.1 Обзор Кодировщика

Далее будет описано улучшенное аудио кодирование в соответствии с вариантом изобретения, который основан на аудио кодировании и описан в международном стандарте ISO / IEC 14496-3:2005 (Е), Information Technology - Coding of Audio-Visual Objects - Part 3: Audio, Sub-part 4: General Audio Coding (GA) - AAC, Twin VQ, BSAC. Аудио кодировщик 200 в соответствии с Фиг.2, в частности, основан на аудио кодировании, описанном в ISO/IEC 14496-3: 2005(E), Part 3: Audio, Sub-part 4, Section 4.1.However, the audio encoder 200 does not need to implement the exact functionality of the audio encoder of ISO/IEC 14494-3: 2005(E).

Однако аудио кодек и 200 не нуждается в необходимости осуществления точной функциональности аудио кодировщика по стандарту ISO/IEC 14494-3:2005(E). Аудио кодек 200 может, например, быть настроен на прием сигнала во времени 210 и представления на его основе закодированного аудио потока 212. Путь обработки сигналов может включать дополнительно модуль низкочастотных выборок 220, дополнительный контроль усиления ААС 222, блок переключения набора фильтров 224, дополнительную обработку сигнала 226, расширенный ААС кодировщик 228 и форматирование потока битов полезного сигнала 230. Однако кодировщик 200 обычно включает в себя психоакустическую модель 240.

В самом простом случае кодировщик 200 включает в себя только блок переключения / набор фильтров 224, расширенный кодировщик ААС 228, форматирование потока битов полезного сигнала 230 и психоакустическую модели 240, в то время как другие компоненты (в частности, компоненты 220, 222, 226) должны рассматриваться лишь как дополнительные.

В простом случае блок переключения / набор фильтров 224 получает входной сигнал времени 210 (дополнительно производятся выборки модулем низкочастотных выборок 220, и дополнительно масштабируется усиление с помощью контроллера усиления ААС 222) и на этой основе обеспечивает представление в частотной области 224а. Представление в частотной области 224а может, например, содержать информацию, описывающую интенсивности (например, амплитуду и энергию) спектральных элементов дискретизации входного сигнала времени 210. Например, блок переключения / набор фильтров 224, могут быть настроены на выполнение улучшенного дискретного косинусного преобразования (МСКТ) для получения значений в частотной области из входного сигнала временной области 210. Представление в частотной области может быть логически разделено на различные частотные диапазоны, которые также обозначены как "диапазоны коэффициентов масштаба". Например, предполагается, что блок переключения / набор фильтров 224 обеспечивает спектральные значения (также именуемые значениями частотных элементов дискретизации) для большого числа различных частотных элементов дискретизации. Количество частотных элементов дискретизации определяется, среди прочего, длиной окна на входе в набор фильтров 224, а также зависит от скорости выборок (и битов). Тем не менее, диапазоны частот или диапазоны коэффициентов масштаба определяют подмножества спектральных значений при помощи блока переключения / набора фильтров. Подробная информация в отношении определения диапазонов коэффициентов масштаба известна специалистам, а также описана в ISO/IEC 14496-3:2005(E), Part 3, Sub-part 4.

Расширенный кодировщик ААС 228 получает спектральные значения 224а с помощью блока переключения / набора фильтров 224 на основе входного сигнала во временной области 210 (или его предварительно обработанной версии) в качестве входной информации 228а. Как видно из Фиг.2, входная информация 228а расширенного кодировщика ААС 228 может быть получена из спектральных значений 224а с помощью одного или нескольких этапов дополнительной спектральной обработки 226. Для более подробной информации об этапах дополнительной предварительной спектральной обработки 226 можно обратиться к ISO/IEC 14496-3:2005(E) и затем к Стандартам, на которые он ссылается.

Расширенный кодировщик ААС 228 настроен на прием входной информации 228а в виде спектральных значений для множества спектральных элементов дискретизации и представления на его основе дискретизированного и закодированного с исключением шума представления спектра 228b. Для этого расширенный кодировщик ААС 228 может, например, использовать информацию, полученную из входного звукового сигнала 210 (или его предварительно обработанной версии) с помощью психоакустической модели 240. Вообще говоря, расширенный кодировщик ААС 228 может использовать информацию, представленную психоакустической моделью 240, чтобы решить, с какой точностью должно применяться кодирование различных диапазонов частот (или диапазон коэффициентов масштаба) входной спектральной информации 228а. Таким образом, расширенный кодировщик ААС 228 в целом может адаптировать ее точность дискретизации для различных диапазонов частот с конкретными характеристиками входного сигнала во временной области 210, а также имеющимся числом битов. Таким образом, расширенный кодировщик ААС может настроить точность дискретизации, например, таким образом, что информация, представляющая дискретизированный и закодированный с исключением шума спектр, включает в себя соответствующую скорость передачи данных (или среднюю скорость передачи данных).

Форматирование потока битов полезного сигнала 230 настроено на включение информации 228b, представляющей дискретизированный и закодированный с исключением шума спектр, в закодированный аудио поток 212 в соответствии с предварительно определенным синтаксисом.

Для более подробной информации о работе компонент кодировщика, описанных здесь, предлагается ссылка на ISO / IEC 14496-3: 2005 (Е) (включая приложение 4.В), а также ISO / IEC 13818-7:2003. Кроме того, предлагается ссылка на ISO / IEC 13818-7:2005, подпункты от СТ до С9.

Кроме того, конкретная ссылка в отношении терминологии сделана в ISO / IEC 14496-3:2005 (Е), Part 3: Audio, Sub-part 1: Main.

Кроме того, дается конкретная ссылка на ISO / IEC 14496-3:2005 (Е), Part 3: Audio, Subpart 4: General Audio Coding (GA) - AAC, Twin VQ, BSAC.

1.2.2. Детальное описание кодировщика

Далее представлено детальное описание кодировщика со ссылкой на Фиг.3A, 3B, 4A и 4B. На Фиг.3A и 3B показана блок-схема расширенного кодировщика ААС в соответствии с вариантом изобретения. Расширенный декодировщик ААС предназначен для 228 и может использоваться вместо расширенного кодировщика ААС 228 на Фиг.2. Расширенный кодировщик ААС 228 настроен на получение из входной информации 228а вектора амплитуд спектральных линий, в котором вектор спектральных линий иногда обозначается mdctline (0.. 1023). Расширенный кодировщик ААС 228 также получает информацию о пороге чувствительности кодирования 228 с, которая задает максимально допустимую ошибку для уровня MDCT. Информация о пороге чувствительности кодирования 228 с обычно предоставляется индивидуально для различного диапазона коэффициентов масштаба и создается с помощью психоакустической модели 240. Кодировщик информации о пороге чувствительности 228 иногда обозначается Xmin (sb), в котором параметр sb показывает зависимость диапазона коэффициентов масштаба. Расширенный кодировщик ААС 228 также получает информацию о количестве разрядов 228d, которая описывает количество доступных битов для кодирования спектра, представленного вектором 228а величин спектральных значений. Например, информация о количестве разрядов 228d может включать значащую информацию бита (обозначается mean_bits) и дополнительную информацию бита (обозначается more_bits). Расширенный кодировщик ААС 228 также настроен на получение информации о диапазоне коэффициентов масштаба 228е, которая описывает, например, количество и ширину диапазонов коэффициентов масштаба. Расширенный кодировщик ААС включает спектральное значение блока дискретизации 310, который настроен для получения вектора 312 дискретных значений спектральных линий, который также обозначается x_quant (0 устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа, патент № 2519069 1023). Спектральное значение блока дискретизации 310 включает в себя масштабирование и настроено на получение информации о коэффициенте масштаба 314, которая может представлять собой один масштабный коэффициент для каждого диапазона коэффициентов масштаба, а также общую информацию о коэффициенте масштаба. Кроме того, спектральное значение блока дискретизации 310 может быть настроено для предоставления информации об использовании бита 316, которая может описать количество битов, используемых для дискретизации вектора 228а величин спектральных значений. Действительно, спектральное значение блока дискретизации 310 настроено на дискретизацию различных спектральных значений вектора 228а с различной точностью в зависимости от психоакустической адекватности различных спектральных значений. Для этого спектральное значение блока дискретизации 310 масштабируется спектральными значениями вектора 228а с использованием различных коэффициентов масштаба, зависящих от диапазона, и в результате дискретизируются масштабные спектральные значения. Как правило, спектральные значения, связанные с психоакустически важным диапазоном коэффициентов масштаба, будут масштабироваться с большими масштабными коэффициентами, такими что масштабированные спектральные значения в психоакустически важных диапазонах коэффициентов масштаба перекрывают большой диапазон значений. С другой стороны, спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба масштабируются с меньшими коэффициентами масштаба, так что масштабированные спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба перекрывают меньший диапазон значений. Масштабированные спектральные значения затем дискретизируются, например, до целых значений. При таком масштабировании многие из масштабированных спектральных значений в психоакустически менее важных диапазонах коэффициентов масштаба квантуются к нулю, потому что спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба масштабируются с малыми коэффициентами масштаба.

В итоге можно сказать, что спектральные значения, психоакустически более соответствующие диапазонам коэффициентов масштаба, дискретизируются с высокой точностью (поскольку утверждается, что масштабированные спектральные линии, более соответствующие диапазонам коэффициентов масштаба, перекрывают больший диапазон значений и, следовательно, число шагов дискретизации), а спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба дискретизируются с более низкой точностью дискретизации (так как масштабированные спектральные значения в менее важных диапазонах коэффициентов масштаба перекрывают меньший диапазон значений и, следовательно, дискретизируются с меньшими различиями в шагах дискретизации).

Спектральное значение блока дискретизации 310, как правило, настроено для определения надлежащих коэффициентов масштаба с использованием порогового значения кодировщика 228 с и информации о количестве битов 228d. Как правило, спектральное значение блока дискретизации 310 также настроено для автономного определения соответствующих коэффициентов масштаба. Подробная информация о возможной реализации спектрального значения блока дискретизации 310 описана в ISO/IEC 14496-3: 2001, Chapter 4.В.10. Кроме того, реализация спектрального значения блока дискретизации хорошо известна специалистам в области кодирования MPEG4.

Расширенный кодировщик ААС 228 также включает в себя вычислитель ошибки многополосной дискретизации 330, который настроен на прием, например, вектора 228а величин спектральных значений, вектора 312 дискретизированных значений спектральных линий и информации коэффициентов масштаба 314. Вычислитель ошибки многополосной дискретизации 330, например, настроен на определение отклонения между недискретизированной масштабированной версией спектральных значений вектора 228а (например, масштабированной с использованием операции нелинейного масштабирования и коэффициента масштаба) и масштабированной-дискретизированной версией (например, масштабированной с использованием операции нелинейного масштабирования и коэффициента масштаба, и дискретизированной с использованием операции "целого" округления) спектральных значений. Кроме того, вычислитель ошибки многополосной дискретизации 330 может быть сконфигурирован для расчета средней ошибки дискретизации для множества диапазонов коэффициентов масштаба.

Предпочтительно, чтобы вычислитель ошибки многополосной дискретизации 330 вычислял ошибку многополосный дискретизации в дискретной области (точнее, в психоакустически масштабируемой области), такой что погрешность дискретизации в психоакустически адекватных диапазонах коэффициентов масштаба более важна по сравнению с ошибкой дискретизации в психоакустически менее адекватных диапазонах коэффициентов масштаба. Подробная информация о работе вычислителя ошибки многополосной дискретизации впоследствии будет описана с ссылкой на Фиг.4A и 4B.

Расширенный кодировщик ААС 328 также содержит адаптер коэффициента масштаба 340, который настроен на получение вектора 312 дискретных значений, информации о коэффициенте масштаба 314, а также информации о многополосной ошибке дискретизации 332, предоставляемой вычислителем ошибки многополосной дискретизации 330. Адаптер коэффициента масштаба 340 настроен на выявление диапазонов коэффициентов масштаба, которые "квантованы к нулю", то есть диапазоны коэффициентов масштаба, для которых все спектральные значения (или спектральных линии) квантуются к нулю. Для таких диапазонов коэффициентов масштаба, которые полностью квантованы к нулю, адаптер коэффициента масштаба 340 подбирает соответствующий коэффициент масштаба. Например, адаптер коэффициента масштаба 340 может установить коэффициент масштаба в диапазоне коэффициента масштаба полностью квантованным к нулю до таких величин, которые представляют собой соотношение между остаточной энергией (до дискретизации) из соответствующего диапазона коэффициента масштаба и энергией многополосной ошибки дискретизации 332. Соответственно, адаптер коэффициента масштаба 340 обеспечивает адаптированные коэффициенты масштаба 342. Следует отметить, что оба масштабных коэффициента, предоставляемые блоком дискретизации спектрального значения 310, и адаптированный коэффициент масштаба, предоставляемые адаптером коэффициента масштаба, обозначаются "scale factor (sb)", "scf[band]", "sf[g][sfb]", "scf[g][sfb]" в литературе, а также в рамках этого описания. Подробная информация о работе адаптера коэффициента масштаба 340 будет впоследствии описана со ссылкой на Фиг.4A и 4B.

Расширенный кодировщик ААС 228 также включает в себя кодирование с исключением шума 350, которое, например, рассматривается в ISO/IEC 14496-3: 2001, Chapter 4.В.11. Короче говоря, кодирование с исключением шума 350 получает вектор дискретных значений спектральных линий (также именуемый "дискретным значением спектра") 312, целочисленное представление 342 коэффициентов масштаба (либо с использованием блока дискретизации спектральных значений 310, либо с помощью адаптера коэффициента масштаба 340), а также параметр заполнения шумом 332 (например, в виде информации об уровне шума), предоставляемые вычислителем ошибки многополосной дискретизации 330.

Кодирование с исключением шума 350 включает в себя спектральный коэффициент кодирования 350А для кодирования дискретных значений 312 спектральных линий и получения дискретных и закодированных значений 352 спектральных линий. Подробная информация о кодировании спектральных коэффициентов представлена, например, в разделах 4.В.11.2, 4.В.11.3, 4.В.11.4 и 4.В.11.6 из ISO / IEC 14496-3: 2001. Кодирование с исключением шума 350 также включает кодирование коэффициентов масштаба 350 В для кодирования целочисленного представления 342 коэффициентов масштаба и получения закодированной информации о коэффициентах масштаба 354. Кодирование с исключением шума 350 также включает параметры кодирования заполнения шума 350С для кодирования одного или нескольких параметров заполнения шума 332 и получения одного или нескольких закодированных параметров заполнения шума 356. Следовательно, расширенный кодировщик ААС предоставляет информацию, описывающую дискретизированный и закодированный с исключением шума спектр, причем эта информация включает в себя дискретизированные и закодированные значения спектральных линий, закодированную информацию о коэффициентах масштаба и параметрах заполнения шумом.

Далее будут описаны со ссылкой на Фиг.4A и 4B принципы действия вычислителя ошибки многополосной дискретизации 330 и адаптера коэффициента масштаба 340, которые являются ключевыми компонентами изобретенного расширенного кодировщика ААС 228. Для этого Фиг.4A показывает листинг алгоритма программы, выполняемой вычислителем ошибки многополосной дискретизации 330 и адаптером коэффициента масштаба 340.

Первая часть алгоритма, представленная в строках с 1 по 12 псевдокода на Фиг.4A, включает в себя расчет средней ошибки дискретизации, который выполняется вычислителем ошибки многополосной дискретизации 330. Расчет средней ошибки дискретизации осуществляется, например, по всем диапазонам коэффициента масштаба за исключением тех, которые квантованы к нулю. Если диапазон коэффициента масштаба является полностью квантованным к нулю (т.е. всех спектральные линии в диапазоне коэффициента масштаба квантованы к нулю), данный диапазон коэффициента масштаба исключается из расчета средней ошибки дискретизации. Если, однако, диапазон коэффициента масштаба не полностью квантован к нулю (т.е. содержит по меньшей мере одну спектральную линию, которая не квантуется к нулю), все спектральные линии указанного диапазона коэффициента масштаба учитываются при расчете средней ошибки дискретизации. Средняя ошибка дискретизации рассчитывается в дискретизированной области (или, точнее, в масштабированной области). Расчет вклада в среднюю ошибку можно увидеть в строке 7 псевдокода на Фиг.4A. В частности, строка 7 показывает вклад одной спектральной линии в среднюю ошибку, причем усреднение проводится по всем спектральным линиям (где nLines указывает общее количество учитываемых линий).

Как можно видеть в строке 7 псевдокода, вклад спектральной линии в среднюю ошибку является абсолютным значением ("fabs" - оператор) разности между недискретизированным масштабированным значением амплитуды спектральной линии и дискретизированным масштабированным значением амплитуды спектральной линии. В недискретизированном масштабированном значении амплитуды спектральной линии значение амплитуды "line" (которое может быть равно mdct_line) нелинейно масштабируется с использованием степенной функции (pow(lme, 0.75)=line^0,75) и использованием масштабного коэффициента (например, масштабный коэффициент 314, предоставляемый спектральным значением блока дискретизации 310). В расчете дискретизированного, масштабированного значения амплитуды спектральной линии, значение амплитуды спектральной линии "line" может быть нелинейно масштабированным с использованием вышеупомянутых степенных функций и линейно масштабированным с использованием вышеупомянутого масштабного коэффициента. Результат этого нелинейного и линейного масштабирования может быть дискретизирован с использованием целого оператора "(INT)". С использованием расчета, указанного в строке 7 псевдокода, можно получить различное влияние дискретизации на психоакустически более важные и менее важные диапазоны частот.

После расчета (в среднем) ошибки многополосной дискретизации (avgError) необязательно, чтобы средняя ошибка дискретизации была квантована, как показано в строках 13 и 14 псевдокода. Следует отметить, что квантование ошибки многополосной дискретизации, как показано здесь, специально приспосабливается к ожидаемому диапазону значений и статистическим характеристикам ошибки дискретизации, так что ошибка дискретизации может быть представлена эффективным по количеству бит способом. Однако могут быть применены другие способы дискретизации ошибки многополосной дискретизации.

Третья часть алгоритма, которая представлена строками с 15 по 25, может быть выполнена адаптером коэффициента масштаба 340. Третья часть алгоритма служит для установки точных определенных значений коэффициентов масштаба в диапазонах коэффициента масштаба, полностью квантованных к нулю, что позволяет с помощью простого заполнения шумом получить хорошее впечатление при прослушивании. Третья часть алгоритма необязательно включает деквантование уровня шума (например, представленную ошибкой многополосной дискретизации 332). Третья часть включает в себя также алгоритм расчета замены коэффициента масштаба для диапазонов коэффициента масштаба, квантованных к нулю (в то время как коэффициенты масштаба в диапазонах коэффициента масштаба не квантованных к нулю не будут влиять). Например, замена значения коэффициента масштаба для определенного диапазона коэффициента масштаба ("band") рассчитывается с использованием уравнения, показанного в строке 20 алгоритма на Фиг.4A. В этом уравнении "(INT)" представляет целочисленный оператор "2.f", представляющий число "2" в форме с плавающей точкой, "log"обозначает оператор логарифма, "energy" определяет величину рассматриваемого диапазона коэффициента масштаба (до дискретизации), "(Float)" обозначает оператор с плавающей точкой ", sfbWidth" обозначает ширину определенного диапазона коэффициента масштаба в терминах спектральных линий (или спектральных элементов дискретизации), и "noiseVal" обозначает значение шума, описывающее ошибку многополосной дискретизации. Следовательно, замененный коэффициент масштаба описывает отношение между средней величиной частотного элемента дискретизации(energy / sfbWidth) определенных рассматриваемых диапазонов коэффициента масштаба диапазона и величиной (noiseVal2) ошибки многополосной дискретизации.

1.2.3. Заключительная часть описания кодировщика

Воплощения в соответствии с изобретением позволяют создать кодировщик с новым способом расчета уровня шума. Уровень шума рассчитывается в дискретной области на основе средней ошибки дискретизации. Расчет ошибки дискретизации в дискретной области влечет за собой значительные преимущества, например, потому что оценивается психоакустическая адекватность различных частотных диапазонов (диапазон коэффициента масштаба). Ошибка дискретизации линии (т.е. спектральной линии, или спектрального элемента дискретизации) в дискретной области обычно находится в диапазоне [-0,5, 0,5] (1 уровень дискретизации) со средней абсолютной погрешностью 0,25 (для нормального распределенного входных значений, которые обычно больше, чем 1). Как будет показано далее, с использованием кодировщика, который предоставляет информацию об ошибке многополосной дискретизации, в кодировщике могут быть реализованы преимущества заполнения шумом дискретной области. Расчет уровня шума и подстановка шума замещения в кодировщике может включать следующие этапы:

* Обнаружение и выделение спектральных диапазонов, которые могут эквивалентно восприниматься при воспроизведении в декодировщике с помощью замещения шумом. Например, тональность или мера спектральной плотности могут быть использованы для этой цели;

* Расчет и дискретизация средней ошибки дискретизации (которая может быть рассчитана во всех диапазонах коэффициента масштаба, не квантованных к нулю), и

* Вычисление коэффициента масштаба (scf) для диапазона, квантованного к нулю таким образом, что введенный (декодером) шум соответствует исходной амплитуде. Соответствующая дискретизация уровня шума позволяет получить количество битов, необходимых для передачи информации, описывающую ошибку многополосной дискретизации. Например, уровень шума может быть дискретизирован на 8 уровней дискретизации в логарифмической области с учетом человеческого восприятия громкости. Например, может быть использован алгоритм, показанный на Фиг.4, 6, в котором "(INT)" обозначает целочисленный оператор, в котором "LD" обозначает операцию логарифма с основанием 2, a "meanLineError" обозначает ошибку дискретизации на частоте линии. "min( устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа, патент № 2519069 )"обозначает минимальное значение оператора, а "max( устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа, патент № 2519069 )" обозначает максимальное значение оператора.

2. Декодировщик

2.1. Декодировщик в соответствии с Фиг.5

Фиг.5 показывает блок-схему декодировщика в соответствии с вариантом изобретения. Декодировщик 500 настроен на прием закодированной аудио информации, например, в виде закодированного аудио потока 510, и получение на его основе декодированного представления звукового сигнала, например, на основе спектральных компонент 522 первого диапазона частот и спектральных компонент 524 второго диапазона частот 500 включает в себя заполнитель шумом 520, который настроен на получение представления 522 спектральных компонент первого диапазона частот, с которыми связано получение информации первого диапазона частот, и представление 524 спектральных компонент второго диапазона частот, с которыми связано получение информации второго диапазона частот. Кроме того, заполнитель шумом 520 настроен на получение представления 526 значения интенсивности многополосного шума. Кроме того, заполнитель шумом настроен на введение шума в спектральные компоненты (например, в значения спектральных линий или значения спектральных элементов дискретизации) для нескольких диапазонов частот, в которых получение информации для отдельных диапазонов частот (например, в виде масштабных коэффициентов) производится на основе значения общей интенсивности многополосного шума 526. Например, заполнитель шумом 520 может быть настроен на введение шума в спектральные компоненты 522 первого диапазона частот для получения содержащих шум спектральных компонент 512 первого диапазона частот, а также введения шума в спектральные компоненты 524 второго диапазона частот для получения содержащих шум спектральных компонент 514 второго диапазона частот 514.

С применением заполнения шумом, описанного одним значением интенсивности многополосного шума 526, к спектральным компонентам в различных диапазонах частот, которые используются для получения информации в различных диапазонах частот, шум может быть введен в различные частотные диапазоны с очень точной настройкой, принимая во внимание различную психоакустическую адекватность различных диапазонов частот, которая выражается в информации усиления в диапазоне частот. Таким образом, декодировщик 500 способен выполнять временную подстройку заполнения шумом с использованием очень малой (экономичной по количеству битов) дополнительной информации о заполнении шумом.

2.2. Декодировщик в соответствии с Фиг.6

2.2.1. Обзор декодировщика

На Фиг.6 показана блок-схема декодировщика 600 в соответствии с вариантом изобретения. Декодировщик 600 похож на декодировщик, описанный в ссылке на международный стандарт ISO / IEC 14496,3: 2005 (Е). Декодировщик 600 настроен на прием закодированного аудио потока 610 и обеспечения на его основе вывода сигналов во времени 612. Закодированный аудио поток может включать всю или некоторую часть информации, изложенной в ISO / IEC 14496,3:2005 (Е), и дополнительно содержит информацию, описывающую значение интенсивности многополосного шума. Декодировщик 600 дополнительно содержит модуль деформатирования потока полезного сигнала [асинхронный режим передачи данных] 620, который настроен на извлечение из закодированного аудио потока 610 множества закодированных аудио параметров, некоторые из которых будут подробно описаны далее. Декодировщик 600 дополнительно содержит расширенный "Advanced Audio Coding (ААС) декодировщик 630, функциональность которого будет подробно описана со ссылкой на Фиг.7A, 7B, 8A 8B, 9, 10A, 10B, 11, 12, 13A и 13B. Расширенный декодировщик ААС 630 настроен на прием входной информации 630а, в которую входит, например, дискретизированная и закодированная информация спектральной линии, закодированная информация о коэффициенте масштаба и закодированная информация о параметрах заполнения шумом. Например, входная информация 630а расширенного кодировщика ААС 630 может быть идентична выходной информации 228b, предоставляемой расширенным кодировщиком ААС 220а, описанным со ссылкой на Фиг.2.

Расширенный декодировщик ААС 630 может быть настроен с использованием входной информации 630а, на формирование представления 630В масштабированного и деквантованного спектра, например, в виде масштабных деквантованных значений спектральных линий для множества частотных элементов дискретизации (например, на 1024 частотных элементов дискретизации). При желании декодировщик 600 может содержать дополнительные декодировщики спектра, такие как, например, декодировщик спектра TwinVQ и/или декодировщик спектра BSAC, которые в некоторых случаях могут быть использованы в качестве альтернативы расширенного ААС декодировщика спектра 630.

Декодировщик 600 может дополнительно содержать обработку спектра 640, которая настроена на процесс вывода информации 630В расширенного декодировщика ААС 630 для получения входной информации 640А блока переключения/ набора фильтров 640. Дополнительная спектральная обработка 630 может включать один, несколько или даже все функциональные возможности М/ S, PNS, прогнозирование, интенсивность, долгосрочный прогноз, зависимую коммутацию связи, TNS, функциональные возможности которой описаны подробно в ISO / IEC 14493,3: 2005 (Е) и ссылаемых в ней документах. Если, однако, спектральная обработка 630 опущена, выходная информация 630В расширенного декодировщика ААС 630 может служить непосредственно в качестве исходной информации 640А из блока переключения/ набора фильтров 640. Таким образом, расширенный декодировщик ААС 630 может предусмотреть в качестве выходной информации 630В масштабированные и деквантованные спектры. Блок переключения/ набор фильтров 640 использует в качестве входной информации 640А (необязательно предварительно обработанный) деквантованный спектр и обеспечивает на его основе выходную информацию 640В в виде одного или нескольких восстановленных аудио сигналов во временной области. Блок переключения/ набор фильтров могут, например, быть настроены на применение обратного отображения частоты, которое проводится в кодировщике (например, в блоке переключения/ наборе фильтров 224). Например, улучшенное деквантование косинусного преобразования (IMDCT) может быть использовано в наборе фильтров. Например, IMDCT может быть настроено на поддержку любого из набора 120, 128, 480, 512, 960 или 1024, или четыре наборов из 32 или 256 спектральных коэффициентов.

Для получения дополнительной информации можно использовать ссылку, например, на международный стандарт ISO / IEC 14496-3: 2005 (Е). Декодировщик 600 может дополнительно содержать управление усилением ААС 650, декодировщик SBR 652 и автоматически переключаемый ответвитель 654 для получения выходного сигнала во времени 612 из выходного сигнала 640В при помощи блока переключения/ набора фильтров 640. Однако выходной сигнал 640В из блока переключения/ набора фильтров 640 может также служить в качестве выходного сигнала во времени 612 при отсутствии функциональности 650,652, 654.

2.2.2. Подробное описание расширенного декодировщика ААС

Далее будет представлена подробная информация о расширенном декодировщике ААС с ссылкой на Фиг.7A и 7B. На Фиг.7A и 7B показана блок-схема декодировщика ААС 630 из Фиг.6 в сочетании с модулем деформатирования потока полезного сигнала 620 из Фиг.6. Модуль деформатирования потока полезного сигнала 620 получает декодированный аудио поток 610, который может, например, содержать закодированный поток аудио данных, составляющих синтаксис элемента, озаглавленный "ac_raw_data_block", который является аудио кодировщиком блока исходных данных. Тем не менее, модуль деформатирования потока полезного сигнала 620 настроен на предоставление расширенному декодировщику ААС 630 дискретного и закодированного с исключением шума спектра или представления, которое включает в себя дискретизированную и арифметически закодированную информацию спектральной линии 630аа (например, обозначенных как ac_spectral_data), информацию коэффициента масштаба 630ab (например, обозначенную как scale_factor_data) и параметры заполнения шумом 630ас. Информация о параметрах заполнения шумом 630ас включает, например, значение смещения шума (обозначено noise_offset) и значение уровня шума (обозначено noise_level).

Что касается расширенного декодировщика ААС, следует отметить, что расширенный декодировщик ААС 630 очень похож на декодировщик ААС международного стандарта ISO / IEC 14496-3: 2005 (Е), что можно сослаться на подробное описание в указанном стандарте. Расширенный декодировщик ААС 630 включает в себя декодировщик коэффициента масштаба 740 (также называемый инструментом декодирования коэффициента масштаба с исключением шума), который настроен на получение информации о коэффициенте масштаба 630ab и обеспечении на этой основе, представления целочисленного декодирования 742 коэффициентов масштаба (которые также обозначаются как sf[g] [sfb] или scf[g] [sfb]). Что касается декодировщика коэффициента масштаба 740, можно сделать ссылку на ISO/IEC 14496-3:2005, Chapters 4.6.2 and 4.6.3. Следует отметить, что представление целочисленного декодирования 742 коэффициентов масштаба отражает точность дискретизации, с которой различные диапазоны частот (также называемые диапазоном коэффициента масштаба) аудио сигнала дискретизируются. Коэффициенты большего масштаба показывают, что соответствующие диапазоны коэффициентов масштаба были дискретизированы с высокой точностью, а коэффициенты меньшего масштаба показывают, что соответствующие диапазоны коэффициентов масштаба были дискретизированы с низкой точностью.

Расширенный декодировщик ААС 630 также включает в себя спектральный декодировщик 750, который настроен на получение дискретизированной закодированной энтропии (например, закодированной арифметически или по Хаффману) информации спектральной линии 630аа и представления на этой основе дискретизированных значений 752 от одного или более спектров (например, обозначенных как x_ac_quant или x_quant). Что касается спектрального декодировщика, можно сделать ссылку, например, на раздел 4.6.3 из вышеупомянутого стандарта. Однако альтернативные реализации спектрального декодировщика, естественно, могут применяться. Например, декодировщик Хаффмана из ISO / IEC 14496-3: 2005, может быть заменен арифметическим декодировщиком, если информация спектральной линии 630аа арифметически закодирована. Расширенный декодировщик ААС 630 дополнительно содержит модуль деквантования 760, который может быть модулем неоднородного деквантования. Например, модуль деквантования 760 может обеспечить немасштабированные деквантованные спектральные значения 762 (например, обозначенные x_ac_invquant, или x_invquant). Например, модуль деквантования 760 может включать в себя функциональность, описанную в ISO/IEC 14496-3: 2005, Chapter 4.6.2. Кроме того, модуль деквантования 760 может включать в себя функциональность, описанную со ссылкой на Фиг.8А - 8С.

Расширенный декодировщик ААС 630 также включает в себя заполнитель шумом 770 (также называемый инструментом заполнения шумом), который получает представление целочисленного декодирования 742 коэффициентов масштаба от декодировщика коэффициента масштаба 740, немасштабированные деквантованные спектральные значения 762 от модуля деквантования 760 и информацию о параметрах заполнения шумом 630ас из модуля деформатирования потока полезного сигнала 620. Заполнитель шумом настроен на обеспечение, на этой основе, модифицированного (как правило, целочисленного) представления 772 коэффициентов масштаба, которое также обозначается здесь sf[g] [sfb] или scf[g] [sfb]. Заполнитель шумом 770 также настроен на работу на основе этой входной информации с немасштабированными деквантованными спектральными значениями 774, также обозначенными x_ac_invquant или x_invquant. Подробная информация о функциональности заполнителя шумом будет далее описано со ссылкой на Фиг.9, 10А, 10В, 11, 12, 13A и 13B. Расширенный декодировщик ААС 630 также включает в себя модуль повторного масштабирования 780, который настроен на получение модифицированного целочисленного представления коэффициентов масштаба 772 и немасштабированных деквантованных спектральных значений 774, и получение на этой основе масштабированных деквантованных спектральных значений 782, которые также могут быть обозначены как x_rescal и которые могут использоваться в качестве выходной информации 630В расширенного декодировщика ААС 630. Модуль повторного масштабирования 780 может, например, иметь функциональность, описанную в ISO/IEC 14496-3: 2005, Chapter 4.6.2.3.3.

2.2.3. Модуль деквантования

Далее будет описана функциональность модуля деквантования 760, с ссылкой на Фиг.8А, 8B и 8C. Фиг.8A показывает представление уравнения для получения немасштабированных деквантованных спектральных значений 762 о из дискретизированных спектральных значений 752. В альтернативных уравнениях на Фиг.8A, "sign(.)" обозначает знак оператора, и ". " обозначает абсолютное значение оператора. Фиг.8B показывает псевдокод программы, представляющей функциональность модуля деквантования 760. Как видно, деквантование в соответствии с правилом математического отображения, показанном на Фиг.8A, производится для всех групп окон (обозначенных текущей переменной g), для всех диапазонов коэффициентов масштаба (обозначенных текущей переменной sfb), для всех окон (обозначенных текущим индексом win) и всех спектральных линий (или спектральных элементов дискретизации) (обозначенных текущей переменной bin). Фиг.8С показывает представление блок-схемы алгоритма на Фиг.8B. Для диапазона коэффициентов масштаба меньше предварительно определенного максимума диапазона коэффициентов масштаба (обозначенного max_sfb) немасштабированные деквантованные спектральные значения получаются в зависимости от немасштабированных дискретизированных спектральных значений. Применяется правило нелинейного деквантования.

2.2.4 Заполнитель шумом

2.2.4.1. Заполнитель шумом в соответствии с Фиг. от 9 до 12

Фиг.9 показывает блок-схему заполнителя шумом 900 в соответствии с вариантом изобретения. Заполнитель шумом 900 может, например, занять место заполнителя шумом 770, описанного со ссылкой на Фиг.7A и 7B. Заполнитель шумом 900 получает представление целочисленного декодирования 742 из коэффициентов масштаба, которые могут рассматриваться в качестве значения усиления в диапазоне частот. Заполнитель шумом 900 также получает немасштабированные деквантованные спектральные значения 762. Кроме того, заполнитель шумом 900 получает параметры заполнения шумом 630ас, например, включающие параметры заполнения шумом noise_value и noise_offset. Заполнитель шумом 900 также предусматривает изменение целого представления 772 коэффициентов масштаба и немасштабированных деквантованных спектральных значений 774. Заполнитель шумом 900 включает в себя детектор спектральной линии, квантованной к нулю, 910, который настроен на определение спектральной линии (или спектрального элемента дискретизации), квантованной к нулю (и, возможно, выполняет действия по последующему заполнению шумом). Для этого детектор спектральной линии, квантованной к нулю, 910 непосредственно получает немасштабированные деквантованные спектральные значения 762 в качестве исходной информации. Затем заполнитель шумом 900 включает избирательный заменитель спектральной линии 920, который настроен на выборочную замену спектральных значений во входной информации 762 значениями замены спектральной линии 922 в зависимости от решения детектора спектральной линии, квантованной к нулю, 910. Таким образом, если детектор спектральной линии, квантованной к нулю, 910 указывает, что некоторые спектральные линии входной информации 762 должны быть заменены восстановительной стоимости, то избирательный заменитель спектральной линии 920 замещает некоторые спектральные линии на значение замены спектральной линии 922 для получения выходной информации 774. В противном случае, избирательный заменитель спектральной линии 920 передает значение некоторой спектральной линий без изменений для получения выходной информации 774. Заполнитель шумом 900 также включает в себя селективный модификатор коэффициентов масштаба 930, который настроен на выборочное изменение масштаба во входной информации 742. Например, селективный модификатор коэффициентов масштаба 930 настроен на увеличение масштаба коэффициентов в диапазонах частот коэффициентов масштаба, которые были квантованы к нулю, на предварительно определенную величину, которая обозначена как "noiseoffset". Таким образом, в выходной информации 772 диапазоны частот коэффициентов масштаба, которые были квантованы к нулю, увеличились по сравнению с соответствующими значениями коэффициентов масштаба в пределах входной информации 742. В противоположном случае соответствующие значения коэффициентов масштаба в диапазонах частот коэффициентов масштаба, которые не были квантованы к нулю, одинаковы и во входной информации 742 и в выходной информации 772.

Для определения того, являются ли диапазоны коэффициентов масштаба квантованными к нулю, заполнитель шумом 900 также включает в себя детектор спектральной линии, квантованной к нулю, 940, который управляет селективным модификатором коэффициентов масштаба 930, и формирует сигнал "разрешения модификации коэффициентов масштаба" или флаг 942 на основе входной информации 762. Например, детектор спектральной линии, квантованной к нулю, 940 может дать сигнал или флаг, указывающий на необходимость увеличения коэффициентов масштаба в селективном модификаторе коэффициентов масштаба 930, если все частотные элементы дискретизации (также называемые спектральными элементами дискретизации) из диапазонов коэффициентов масштаба квантуются к нулю. Следует отметить, что селективный модификатор коэффициентов масштаба также может принимать форму селективного заменителя коэффициентов масштаба, который настроен на установку предварительно определенных значений для коэффициентов масштаба в диапазонах коэффициентов масштаба, квантованных полностью к нулю, вне зависимости от входной информации 742.

Далее будет описан модуль повторного масштабирования 950, который может выполнять функцию повторного масштабирования 780. Модуль повторного масштабирования 950 настроен на прием модифицированного целочисленного представления 772 коэффициентов масштаба, предоставляемых заполнителем шумом, а также на прием немасштабированных деквантованных спектральных значений 774, предоставляемых заполнителем шумом. Модуль повторного масштабирования 950 включает в себя вычислитель усиления коэффициента масштаба 960, который настроен на получение одного целочисленного представления коэффициента масштаба в диапазоне коэффициента масштаба и получение одного значения усиления в диапазоне коэффициента масштаба. Например, вычислитель усиления коэффициента масштаба 960 может быть сконфигурирован для расчета значения усиления 962 для i-го диапазона частот на основе модифицированного целочисленного представления 772 коэффициента масштаба для i-го диапазона коэффициента масштаба. Таким образом, вычислитель усиления коэффициента масштаба 960 предусматривает индивидуальные значения усиления для разных диапазонов коэффициентов масштаба. Модуль повторного масштабирования 950 также включает в себя умножитель 970, который настроен на прием значения усиления 962 и немасштабированных деквантованных спектральных значений 774. Следует отметить, что каждый из немасштабированных деквантованных спектральных значений 774 связан с частотным диапазоном коэффициентов масштаба (sfb). Соответственно, умножитель 970 настроен на масштабирование каждого из немасштабированных деквантованных спектральных значений 774 с соответствующим значением усиления, связанным с тем же диапазоном коэффициентов масштаба. Другими словами, все немасштабированные деквантованные спектральные значения 774, связанные с данным диапазоном коэффициентов масштаба, масштабируются со значениями коэффициентов усиления, связанными с различными диапазонами коэффициентов масштаба.

Таким образом, немасштабированные деквантованные спектральные значения масштабируются с различными значениями усиления в зависимости от диапазонов коэффициентов масштаба, с которыми они связаны. Представление псевдопрограммного кода

Далее будет описана функциональность заполнителя шумом 900 с ссылкой на Фиг.10А и 10В, которые показывают представление псевдокода программы (Фиг.10А) и обозначения соответствующих переменных (Фиг.10В). Комментарии начинаются с алгоритма заполнения шумом, представленного псевдокодом программы на Фиг.10 - первая часть (строки с 1 по 8) для получения значения шума (noiseVal) с представлением уровня шума (noise_level). Кроме того, из этих данных может быть получено смещение шума (noise_offset). Получение значения шума из уровня шума происходит путем нелинейного масштабирования, причем значение шума вычисляется по формуле noiseVal=2^{((noise_lovel-14)/3)} Кроме того, диапазон смещения для значения смещения шума выбирается таким образом, что диапазон смещения для значения смещения шума может принимать положительные и отрицательные значения.

Вторая часть алгоритма (строки с 9 до 29) отвечает за избирательное замещение немасштабированных деквантованных спектральных значений со значениями замены спектральных линий и для избирательной модификации коэффициентов масштаба. Как видно из псевдокода программы, алгоритм может быть выполнен для всех доступных групп окон (для цикла от строки 9 до 29). Кроме того, все диапазоны коэффициентов масштаба между нулем и максимальным в диапазоне коэффициентом масштаба (max_sfb) могут быть обработаны, причем обработка может быть различной для разных диапазонов коэффициентов масштаба (для цикла между строками 10 и 28). Одним из важных аспектов является предположение, что обычно диапазоны коэффициентов масштаба квантуются к нулю, если будет установлено, что диапазон коэффициентов масштаба не квантован к нулю (ссылка к строке 11). Однако проверка, является или не является диапазон коэффициентов масштаба квантованным к нулю, запускается только для диапазонов коэффициентов масштаба с началом для частотной линии (swb_offset [sfb]), которая окажется выше предварительно заданного индекса спектрального коэффициента (noiseFillingStartOffset). Условная часть программы между строками 13 и 24 выполняется, только если индекс наименьших спектральных коэффициентов из диапазона коэффициентов масштаба sfb больше, чем начальное смещение заполнения шумом. Напротив, для любого диапазона коэффициентов масштаба, для которого индекс наименьшего спектрального коэффициента (swb_offset [SFB]) меньше или равен предварительно заданному значению (noiseFillingStartOffset), предполагается, что диапазоны не квантованы к нулю, независимо от фактических значений спектральных линий (см. линии 24A, 24B, и 24C).

Однако, если индекс наименьших спектральных коэффициентов определенного диапазона коэффициентов масштаба больше, чем предварительно заданное значение (noiseFillingStartOffset), то определенные диапазоны коэффициентов масштаба считаются квантованными к нулю только тогда, когда все спектральные линии определенного диапазона коэффициентов масштаба квантованы к нулю (флаг "bandquantizedtozero" сбрасывается в цикле между строками 15 и 22, если один спектральный элемент дискретизации диапазона коэффициентов масштаба не квантован к нулю. Следовательно, коэффициент масштаба данного диапазона коэффициентов масштаба изменяется с помощью смещения шума, если флаг "bandquantizedtozero", который изначально установлен по умолчанию (строка 11), не удаляется во время выполнения программного кода между строками 12 и 24. Как упоминалось выше, сброс флага может произойти только для диапазонов коэффициентов масштаба, для которых индекс наименьшего спектрального коэффициента выше предварительно заданного значения (noiseFillingStartOffset). Кроме того, алгоритм Фиг.10А включает замену значений спектральных линий на значение замены спектральных линий, если спектральные линии квантованы к нулю (условие строки 16 и операции замены линии 17). Однако указанная замена выполняется только для диапазонов коэффициентов масштаба, для которых индекс наименьшего спектрального коэффициента выше предварительно заданного значения (noiseFillingStartOffset). Для нижних диапазонов спектральных частот замена значений спектральных линий, квантованных к нулю, опускается.

Следует также отметить, что замена значений может быть вычислена простым способом, в соответствии с которым случайный или псевдослучайный знак добавляется к значению шума (noiseVal), вычисленного в первой части алгоритма (ссылка на строку 17). Следует отметить, что на Фиг.10В показаны обозначения соответствующих символов, используемых в псевдокоде программы на Фиг.10А для лучшего понимания псевдо кода программы. Важные аспекты функциональности заполнителя шумом приведены на Фиг.11. Как видно, функциональность заполнителя шумом может включать вычисление 1110 значения шума на основе уровня шума. Функциональность заполнителя шумом также включает в себя замену 1120 значений спектральных линий для спектральных линий, квантованных к нулю, на значения замены спектральных линий в зависимости от значения шума для получения замененных значений спектральных линий. Однако замена 1120 выполняется только для диапазонов коэффициентов масштаба, для которых наименьший спектральный коэффициент выше предварительно заданного индекса спектрального коэффициента.

Функциональность заполнителя шумом также включает в себя изменения 1130 диапазона коэффициентов масштаба в зависимости от значения смещения шума тогда и только тогда, когда диапазон коэффициентов масштаба является квантованным к нулю. Однако изменения 1130 выполняются в такой форме только для диапазонов коэффициентов масштаба, имеющих наименьший спектральный коэффициент больший, чем предварительно заданный индекс спектрального коэффициента.

Заполнитель шумом также включает в себя функциональность с сохранением 1140 диапазонов коэффициентов масштаба без изменений независимо от того, является ли диапазон коэффициентов масштаба квантованным к нулю для диапазонов коэффициентов масштаба, имеющих наименьший спектральный коэффициент меньший, чем предварительно заданный индекс спектрального коэффициента. Кроме того, повторное масштабирование включает в себя функциональность 1150 сохранения неизмененными или изменения (какими бы ни были имеющиеся) диапазоны коэффициентов масштаба при исключении замены или замене (какими бы ни были имеющиеся) спектральных значений линий для получения масштабированных и деквантованных спектров.

Фиг.12 показывает схематическое представление концепции, описанной со ссылкой на Фиг.10А, 10В и 11. В частности, различных функциональные возможности представлены в зависимости от начального элемента дискретизации диапазона коэффициентов масштаба.

2.2.4.2 Заполнитель шумом в соответствии с Фиг.13А и 13B

Фиг.13А и 13B показывает псевдокод программы, показывающей алгоритмы, которые могут быть выполнены в альтернативной реализации заполнителя шумом 770. Фиг.13А описывает алгоритм для получения значения шума (для использования в заполнителе шумом) с информацией об уровне шума, который может быть представлен информацией о параметрах заполнителя шумом 630ас.

Так как средняя ошибка дискретизации большую часть времени приблизительно равна 0.25, noiseVal в диапазоне [0, 0.5] достаточно велик и может быть оптимизирован. Фиг.13В представляет алгоритм, который может быть реализован заполнителем шумом 770. Алгоритм Фиг.13В включает в себя первую часть определения значения шума (обозначается "noiseValue" или "noiseVal" - строки с 1 по 4). Вторая часть включает в себя алгоритм избирательной модификации коэффициентов масштаба (строки с 7 до 9) и избирательной замены значений спектральных линий на значения замены спектральных линий (строки с 10 по 14).

Однако в соответствии с алгоритмом Фиг.13В коэффициент масштаба (scf) модифицируется с использованием смещения шума (noise_offset) всякий раз, когда диапазон квантован к нулю (см. строка 7). В этом варианте нет различия между нижним диапазоном частот и верхним диапазоном частот.

Кроме того, шум вводится в спектральные линии, квантованные к нулю, только для верхнего диапазона частот (если линия находится выше предварительно заданного порога "noiseFillingStartOffset").

2.2.5. Заключение по декодировщику

Таким образом, варианты декодировщика в соответствии с настоящим изобретением могут включать одну или несколько из следующих функций:

* Начиная со "стартовой линии заполнения шумом", которая может иметь фиксированное смещение, или для линии, соответствующей начальной частоте, производится замена каждого 0 на значение замещения:

* Значение замены показывает значение шума (со случайный знаком) в дискретной области, а затем масштаб этого "значения замены" с коэффициентом масштаба "scf") передается на фактический диапазон коэффициента масштаба, и

* "случайная" замена значений также может быть получена, например, из распределения шума или множества переменных значений, зависящих от уровня шума сигнала.

3. Аудио поток

3.1. Audio Stream в соответствии с Фиг.14А и 14B

Далее будет описан аудио поток в соответствии с вариантом изобретения. Будет описано так называемое " usac [Unified Speech and Audio Coding (единое речевое и аудио кодирование)] потока битов полезного сигнала", которое несет информацию полезного сигнала для представления одного или нескольких каналов (полезный сигнал "single_channel_element ()) и/или одной или нескольких пар каналов (channel_pair_element ()), как видно из Фиг.14А. Один информационный канал (single_channel_element ()) включает в себя, среди прочего, дополнительную информацию в виде потока канала в частотной области (fd_channel_stream), как видно из Фиг.14В.

Информация пары каналов (channel_pair_element) включает в себя, кроме дополнительных элементов, множество, например, потоков двух частотных каналов (fd_channel_stream), как видно из Фиг.14С. Данные контента потока канала в частотной области могут, например, зависеть от того, используется или нет заполнение шумом (которое может быть получено из части данных сигнала, не показанной здесь). Далее будем считать, что используется заполнение шумом. В этом случае поток канала частотной области содержит, например, элементы данных, показанные на Фиг.14D. Например, глобальная информация об усилении (globalgain) может присутствовать, как это определено в ISO / IEC 14496-3: 2005. Кроме того, поток канала частотной области может содержать информацию о смещении шума (noise_offset) и информацию об уровне шума (noise_level), как описано здесь. Информация о смещении шума может, например, кодироваться с использованием 3 битов, а информация об уровне шума может быть, закодирована с использованием 5 битов.

Кроме того, поток канала частотной области может содержать закодированную информацию о коэффициенте масштаба (scale_factor_data ()) и арифметически закодированные спектральные данные (AC_spectral_data ()), как описано здесь как определено в ISO / IEC 14496-3.

Кроме того, поток канала частотной области также включает в себя данные о способе изменения шумов дискретизации с течением времени (tns_data) ()), как это определено в ISO / IEC 14496-3. Естественно, поток канала в частотной области может содержать другую информацию, если это необходимо.

3.2. Audio Stream в соответствии с Фиг.15

Фиг.15 показывает схематическое представление синтаксиса потока канала, представляющее отдельный канал (individual_channel_stream ()).

Поток индивидуального канала может содержать информацию о глобальном усилении (global_gain), закодированную с использованием, например, 8 бит, информацию смещения шума (noise_offset),закодируемую с помощью, например, 5 бит, и информацию об уровне шума (noiselevel), закодированную с использованием, например, 3 бит.

Поток индивидуального канала дополнительно содержит раздел данных (section_data ()), данные о коэффициенте масштаба (scale_factor_data ()) и спектральные данные (spectral_data ()).

Кроме того, поток индивидуального канала может содержать дополнительную информацию, как видно из Фиг.15.

3.3. Заключение по аудио потоку

Подводя итог вышесказанному, в некоторых вариантах в соответствии с изобретением используются следующие элементы синтаксиса для потока:

* Соотношение, показывающее смещение коэффициента масштаба шума для оптимизации количества бит, необходимого для передачи коэффициентов масштаба;

* значение, показывающее уровень шума; и/или

* дополнительное значение для выбора между различными формами для замещения шума (равномерное распределенный шум вместо постоянных значений или нескольких дискретных уровней вместо одного).

4. Заключение

При кодировании с низким битрейтом заполнение шумом может быть использовано для двух целей:

* Грубая дискретизация спектральных значений при кодировании звука с низким битрейтом может привести к очень редким спектров после деквантования, так как многие спектральные линии могут быть квантованы к нулю. Разрежение насыщенных спектров приведет к резкому звучанию декодированного сигнала или нестабильностям («птичкам»). Заменой обнуленных линий на "малые" значения в декодировщике можно замаскировать или уменьшить эти самые очевидные артефакты без добавления новых проявляющихся артефактов шума.

* Если существуют шумоподобные участки сигнала в исходном спектре, эквивалентное представление восприятия этих шумовых участков сигнала может быть воспроизведено в декодировщике на основе небольшой параметрической информации наподобие энергии шумовых участков сигнала. Параметрическая информация может быть передана с меньшим количеством бит по сравнению с количеством бит, необходимых для передачи закодированных сигналов.

Новая предложенная схема кодирования заполнения шумом, описанная здесь, эффективно сочетает вышеупомянутые цели в одном приложении.

Для сравнения в аудио MPEG-4 восприятие замещения шума (PNS) используется для передачи только параметризованной информации шумоподобных участков сигнала и воспроизведения этих участков сигнала с эквивалентным восприятием в декодировщике. В качестве еще одного сравнения в AMR-WB+ векторное квантование векторов (VQ-векторов), квантованных к нулю, заменяется на случайный вектор шума, где каждое комплексное спектральное значение имеет постоянную амплитуду со случайными фазами. Амплитуды контролируется одним значением шума, переданным с потоком битов. Однако сравнение концепций показывает существенные недостатки. PNS может быть использовано только для заполнения шумом полных диапазонов коэффициентов масштаба, в то время как AMR-WB+только пытается замаскировать артефакты в декодированном сигнале, в результате чего большая часть сигнала становится квантованной к нулю. В отличие от AMR-WB+ предлагаемая схема кодирования с заполнением шумом эффективно сочетает в себе два аспекта заполнения шумом в одном приложении. В соответствии с аспектом настоящее изобретение включает новую форму расчета уровня шума. Уровень шума рассчитывается в дискретной области на основе средней ошибки дискретизации. Ошибки дискретизации в дискретной области отличаются от других форм ошибок дискретизации. Ошибка дискретизации линии в дискретной области находится в диапазоне [-0,5, 0,5] (1 уровень дискретизации) со средней абсолютной погрешностью 0.25 (для нормального распределенных входных значений, которые обычно больше чем 1).

Далее будут обобщены некоторые преимущества заполнения шумом в дискретной области. Преимуществом при добавлении шума в дискретную область является то, что шум, добавленный в декодировщик, масштабируется не только с использованием средней энергии в данном диапазоне, но и с использованием психоакустической адекватности диапазона. Как правило, наиболее важные для восприятия (тональные) диапазоны будут дискретизироваться наиболее точно, то есть в этих диапазонах будет использоваться несколько уровней дискретизации (дискретные значения больше 1). Следовательно, добавление шума с уровнем средней ошибки дискретизации в этих диапазонах будет иметь очень ограниченное влияние на восприятие этого диапазона.

Диапазоны, которые не соответствуют восприятию или больше похожи на шум, могут дискретизироваться с меньшим числом уровней дискретизации. Хотя гораздо больше спектральных линий в диапазоне будут квантованы к нулю, результирующая средняя ошибка дискретизации будет такой же, как и для более точно дискретизированного диапазона (при условии нормальной распределенной ошибки дискретизации в обоих диапазонах), а относительная погрешность в диапазоне может быть гораздо выше. В этих грубо дискретизированных диапазонах заполнение шумом поможет улучшить восприятие искажений, полученных в результате провалов спектра, связанных с грубой дискретизацией. Рассмотрение заполнения шума в дискретной области может быть достигнуто с помощью описанного выше кодировщика, а также описанного выше декодера.

5. Варианты исполнения изобретения.

В зависимости от определенных требований реализации воплощения изобретения могут быть реализованы в аппаратной части или в программном обеспечении. Реализация может быть выполнена с использованием цифрового носителя, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, с читаемыми электронным способом управляющими сигналами, хранящимися на них, которые совместимы (или способны к совмещению) с программной системой компьютера, таким образом, чтобы выполнялся соответствующий метод.

Некоторые варианты в соответствии с изобретением имеют носитель данных с читаемыми электронным способом управляющими сигналами, которые совместимы с программной системой компьютера, так что может выполняться один из методов, описанных здесь. Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, программный код обеспечивает выполнение одного из методов, когда компьютерный программный продукт работает на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты содержат компьютерную программу для выполнения одного из методов, описанных здесь, которые хранятся на машиночитаемом носителе.

Иными словами, воплощение метода изобретения является компьютерной программой, имеющей программный код для выполнения одного из методов, описанных здесь при запуске на компьютере компьютерной программы.

Таким образом, следующие варианты воплощения методов изобретения могут являться носителем информации (или цифровым носителем, или машиночитаемой средой), содержащим записанную на нем компьютерную программу для выполнения одного из методов, описанных здесь. Следующие варианты воплощения методов изобретения являются потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из методов, описанных здесь. Поток данных или последовательность сигналов могут быть, например, настроены на передачу через средства передачи данных, например, через Интернет. Еще один вариант включает в себя средства обработки, например компьютер или программируемое логическое устройство, настроенное или адаптированное для выполнения одного из методов, описанных здесь. Еще один вариант включает в себя компьютер с установленной на нем компьютерной программой для выполнения одного из методов, описанных здесь.

Класс G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

декодер звукового сигнала, кодер звукового сигнала, представление кодированного многоканального звукового сигнала, способы и програмное обеспечение - патент 2527760 (10.09.2014)
низведение параметров последовательности битов sbr - патент 2526745 (27.08.2014)

система стереотелевидения - патент 2525757 (20.08.2014)
стереофоническое кодирование на основе mdct с комплексным предсказанием - патент 2525431 (10.08.2014)
моделируемое снижение соотношения сигнал-шум в декодированном цифровом звуковом сигнале в зависимости от коэффициента однобитовых ошибок в беспроводном канале связи - патент 2524564 (27.07.2014)
передатчик - патент 2523934 (27.07.2014)
устройство для формирования выходного пространственного многоканального аудио сигнала - патент 2523215 (20.07.2014)
устройство и способ обработки аудио сигнала - патент 2523173 (20.07.2014)
способ и система иерархического кодирования и декодирования звуковой частоты, способ иерархического кодирования и декодирования частоты для переходного сигнала - патент 2522020 (10.07.2014)
переключаемая аудио кодирующая/декодирующая схема с мультиразрешением - патент 2520402 (27.06.2014)