способ встраивания цифровой информации в аудиосигнал

Классы МПК:	G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи
Автор(ы):	Жидков Сергей Викторович (RU), ХОНГ Хыюн Су (KR), ПАРК Кыонг Ха (KR)
Патентообладатель(и):	ООО "ЦИФРАСОФТ" (RU), Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." (KR)
Приоритеты:	подача заявки: 2011-12-07 публикация патента: 27.01.2014

Изобретение относится к технологиям обработки цифровых сигналов, в частности к способам внедрения цифровой информации в аудиосигнал для целей телекоммуникаций. Способ встраивания цифровой информации в аудиосигнал, включающий выполнение следующих операций: разделяют цифровую информацию на высокоприоритетный и низкоприоритетный потоки, причем высокоприоритетные данные встраивают посредством частотно-селективной эхо-модуляции, а низкоприоритетные данные встраивают посредством шумоподобных сигналов или с использованием цифровой модуляции с многими несущими; разделяют исходный аудиосигнал на первую частотную часть и вторую частотную часть, причем первую частотную часть исходного аудиосигнала модулируют посредством частотно-селективной эхо-модуляции с различными величинами задержки и амплитуды эхо-сигнала, а вторую частотную часть исходного аудиосигнала подают на блок психоакустического анализа на основе психоакустической модели, учитывающей эффект частотного и/или временного маскирования, при этом с помощью блока психоакустического анализа формируют на каждом интервале анализа спектральную маску, отражающую порог слышимости искажений, и данную спектральную маску применяют к сигналу со многими несущими или к шумоподобному сигналу с последующим добавлением полученного сигнала в блоке психоакустического анализа ко второй частотной части исходного аудиосигнала; комбинируют две модулированные частотные части акустического сигнала. 4 з.п. ф-лы, 7 ил.

способ встраивания цифровой информации в аудиосигнал, патент № 2505868

Формула изобретения

1. Способ встраивания цифровой информации в аудиосигнал, включающий выполнение следующих операций:

разделяют цифровую информацию на высокоприоритетный и низкоприоритетный потоки, причем высокоприоритетные данные встраивают посредством частотно-селективной эхо-модуляции, а низкоприоритетные данные встраивают посредством шумоподобных сигналов или с использованием цифровой модуляции со многими несущими;

разделяют исходный аудиосигнал на первую частотную часть и вторую частотную часть, причем первую частотную часть исходного аудиосигнала модулируют посредством частотно-селективной эхо-модуляции с различными величинами задержки и амплитуды эхо-сигнала, а вторую частотную часть исходного аудиосигнала подают на блок психоакустического анализа на основе психоакустической модели, учитывающей эффект частотного и/или временного маскирования, при этом с помощью блока психоакустического анализа формируют на каждом интервале анализа спектральную маску, отражающую порог слышимости искажений, и данную спектральную маску применяют к сигналу со многими несущими или к шумоподобному сигналу с последующим добавлением полученного сигнала в блоке психоакустического анализа ко второй частотной части исходного аудиосигнала;

комбинируют две модулированные частотные части акустического сигнала.

2. Способ по п.1, отличающийся тем, что шумоподобный коммуникационный сигнал является сигналом со многими несущими.

3. Способ по п. 1, отличающийся тем, что эхо-сигналы, добавляемые в первую частотную часть аудиосигнала, имеют ограниченный частотный спектр.

4. Способ по п. 1, отличающийся тем, что эхо-сигналы, добавляемые в первую частотную часть аудиосигнала, имеют низкочастотный спектр.

5. Способ по п.1, отличающийся тем, что эхо-сигналы, добавляемые в первую частотную часть аудиосигнала, имеют высокочастотный спектр.

Описание изобретения к патенту

Изобретение относится к технологиям обработки цифровых сигналов, в частности к способам внедрения цифровой информации в аудиосигнал для целей телекоммуникаций.

Использование акустических волн для передачи информации известно с доисторических времен. Однако и сейчас в сфере телекоммуникаций имеются ниши, в которых применение акустики предпочтительнее любых других средств. В частности, это касается скрытой от наблюдателя передачи информации на небольшие расстояния без использования радио- или оптической связи. Примером может служить использование акустической связи для обмена цифровой информацией между мобильными устройствами. При этом важным преимуществом использования такого вида связи является то, что аппаратной модернизации традиционных устройств связи, как правило, не требуется, достаточно лишь дополнительного программного обеспечения.

Из уровня техники известны различные подходы к решению проблем акустической связи. Один из способов вставки малозаметных сигналов, несущих цифровую информацию, в аудиозаписи основывается на добавлении к аудиосигналу шумоподобного сигнала (spread spectrum signal) с уровнем ниже порога слышимости (см. I.J.Сох, J.Kilian, Т.Leighton and T.Shamoon, "A secure, robust watermark for multimedia", Lecture Notes in Computer Science, Volume 1174/1996, pp.185-206 (1996)) [1].

Другим решением данной проблемы может являться «эхо-модуляция». В этом варианте, к аудиосигналу добавляются небольшие по уровню эхо-сигналы, задержка и уровень которых модулируется в зависимости от цифровой информации (см. Gruhl. D., Lu, A, and Bender, W., "Echo Hiding," Proceedings of the First International Workshop on Information Hiding, Cambridge, UK, May 30-June 1, 1996, pp.293-315) [2].

В заявке США № 20110144979 «DEVICE AND METHOD FOR ACOUSTIC COMMUNICATION» [3] предложен способ вставки цифровой информации в аудиосигналы на базе цифровой модуляции со многими несущими с использованием психоакустических особенностей слуховой системы человека.

Способы, основанные на широкополосных сигналах с амплитудой ниже уровня шумов (далее упоминаются как «шумоподобные сигналы») или на базе цифровой модуляции со многими несущими с использованием психоакустического маскирования, как правило, достигают более высоких скоростей передачи информации, чем способы, основанные на эхо-модуляции. В некоторых реализациях такие способы позволяют незаметно вставлять в аудиосигнал цифровой поток информации со скоростью передачи до нескольких килобит в секунду. Тем не менее, из-за психоакустических особенностей человеческого слуха эти способы имеют тенденцию к использованию высоких частот звукового диапазона, так как именно на этих частотах заметно проявляется эффект частотно-временного маскирования. В то же время, при распространении звука в воздухе высокие частоты имеют тенденцию к быстрому затуханию с увеличением расстояния от источника звука до приемника (микрофона) и, кроме того, не могут огибать физические препятствия, встречающиеся на пути распространения звука. Как результат, такие системы наиболее приспособлены только для таких приложений, где предполагается передача информации в звуке на сравнительно небольших расстояниях (например, десятки сантиметров) и имеется прямая видимость между источником звука и микрофоном.

С другой стороны, эхо-модуляция менее чувствительна к наличию препятствий на пути между источником звука и микрофоном и подходит для передачи информации в звуке на сравнительно больших расстояниях (например, несколько метров). Однако этот вид передачи также обладает недостатками, прежде всего, низкой скоростью передачи данных (как правило, несколько бит или десятков бит в секунду) и чувствительностью к шумам и нелинейным искажениям, например, вследствие перегрузки микрофона на коротких расстояниях.

Задача, на решение которой направлено заявляемое изобретение, состоит в том, чтобы минимизировать недостатки, присущие двум вышеупомянутым способам, а именно добиться более высоких скоростей передачи данных в звуковом сигнале и увеличить расстояние уверенного приема передаваемых данных.

Технический результат достигается за счет разработки усовершенствованного способа внедрения цифровой информации в аудиосигнал. При этом заявляемый способ оптимальным образом комбинирует достоинства двух вышеназванных подходов и предусматривает выполнение следующих операций:

- разделяют цифровую информацию на высокоприоритетный и низкоприоритетный потоки;

- разделяют исходный аудиосигнал на первую частотную часть и вторую частотную часть;

- добавляют, по меньшей мере, один эхо-сигнал, амплитуда или задержка которого зависит от высокоприоритетного потока цифровой информации, в первую часть исходного аудиосигнала;

- модулируют низкоприоритетным потоком цифровой информации шумоподобный коммуникационный сигнал, спектр которого сформирован на основе психоакустического анализа второй части исходного аудиосигнала, и добавляют шумоподобный коммуникационный сигнал ко второй части исходного аудиосигнала;

- комбинируют две модулированные части акустического сигнала.

Заявляемое техническое решение позволяет оптимально использовать емкость открытого акустического канала передачи информации. В частности, если расстояние между источником звука и микрофоном приемного устройства сравнительно невелико, то предлагаемое решение будет демонстрировать высокие скорости передачи данных в звуковом сигнале. Когда расстояние между источником звука и микрофоном увеличивается, скорость передачи будет плавно уменьшаться. Если расстояние между источником звука и микрофоном увеличивается значительно или имеются препятствия на пути распространения звука, предлагаемый способ, тем не менее, позволяет передавать цифровые данные в звуке, хотя и с более низкой скоростью передачи.

Далее существо заявляемого изобретения поясняется с привлечением графических материалов.

Фиг.1 - последовательная вставка цифровых данных в аудио.

Фиг 2 - иллюстрация принципа обычной эхо-модуляции (вид 2.1)

и предлагаемой частотно-селективной эхо-модуляции (вид 2.2).

Фиг 3 - примеры трех частотно-селективных эхо-фильтров с различной задержкой эхо-сигнала в соответствии с настоящим изобретением (импульсные характеристики).

Фиг.4 - амплитудная и фазовая частотные характеристики частотно-селективного эхо-сигнала (пример).

Фиг.5 - энергетический спектр предлагаемого эхо-модулированного сигнала (основной сигнал+эхо-сигнал, два варианта задержки эхо-сигнала).

Фиг.6 - предпочтительный вариант реализации схемы вставки цифровой информации в аудиосигнал в соответствии с предлагаемым изобретением.

Фиг.7 - пример схемы выделения цифровой информации из аудиосигнала, закодированного в соответствии с предлагаемым изобретением.

Очевидно, что самый простой подход к комбинированию двух типов модуляции заключается в последовательном кодировании аудиосигнала двумя вышеуказанными способами (см. Фиг.1). Однако такой подход имеет два серьезных недостатка:

- так как обе схемы модифицируют один и тот же сигнал, модуляция, добавленная на втором этапе, негативно повлияет на сигнал, добавленный на первом этапе, и приведет к ухудшению характеристик при декодировании (или вообще приведет к невозможности декодирования данных, добавленных на первом этапе);

- кроме того, последовательная модуляция будет заметно ухудшать качество исходного аудиосигнала, так как при этом вносимые искажения будут накапливаться или даже усиливаться.

Заявляемый способ позволяет избежать этих негативных последствий.

Во-первых, стоит отметить, что способ передачи с использованием шумоподобных широкополосных сигналов или на базе цифровой модуляции со многими несущими является предпочтительным, поскольку он обеспечивает высокую скорость передачи и, при правильном алгоритме формирования сигнала, дает менее заметные на слух искажения. Поэтому эхо-модуляция должна применяться только в тех ситуациях, когда нельзя полагаться на способ передачи с использованием шумоподобных сигналов или на базе цифровой модуляции со многими несущими. К сожалению, далеко не всегда имеется достоверная информация о том, позволяют ли условия распространения акустического сигнала применять модуляцию с многими несущими или с шумоподобными сигналами. Кроме того, в большинстве практических приложений рассматриваемых способов передача информации ведется в одном направлении, т.е. без обратного канала. При этом, если эффективность передачи на основе модуляции со многими несущими или модуляции с шумоподобными сигналами снижается, это, как правило, означает, что расстояние между источником звукового сигнала и микрофоном достаточно большое.

Основная идея заявляемого способа состоит в том, чтобы оптимизировать эхо-модуляцию для таких сценариев, когда эхо-модуляция, скорее всего, является единственно возможным способом передачи данных по акустическому каналу. Для этого предлагается концепция частотно-селективной эхо-модуляции. Эта концепция схематически проиллюстрирована на Фиг.2. Здесь основной момент заключается в том, что задержанный сигнал (эхо) не только уменьшается по амплитуде, как в обычных схемах, но также и подвергается линейному преобразованию с целью удаления определенных спектральных составляющих. Одно из очевидных достоинств такого преобразования - это удаление верхних частот, хотя, в качестве альтернативы, может быть использована и полосовая фильтрация. Как и в известных способах, внедрение данных может осуществляться за счет амплитудной модуляции или задержки таких эхо-сигналов.

Один из примеров практической реализации частотно-селективной эхо-модуляции, в соответствии с заявляемым изобретением, проиллюстрирован на Фиг.3 (во временной области), а соответствующий частотный отклик такого эхо-сигнала показан на Фиг.4. Как видно из Фиг.4, энергия эхо-сигнала сосредоточена преимущественно в частотной полосе ниже 3 кГц.

Суммарный спектр аудиосигнала, промодулированного предлагаемой частотно-селективной эхо-модуляцией (основной сигнал+эхо), показан на Фиг.5. Как можно видеть, модулированный сигнал имеет неравномерную частотную характеристику в области низких частот, в то время как в области более высоких частот спектральная характеристика плоская. Это дает два преимущества:

- аудиоискажения возникают только в определенной частотной области, что делает их менее заметными для человеческого слуха;

- участки спектра, не занятые эхо-сигналом, могут быть использованы для вставки сигнала со многими несущими или шумоподобного сигнала.

В то же время, при большом расстоянии между источником звука и микрофоном предлагаемая частотно-селективная эхо-модуляция может демонстрировать примерно такую же скорость и помехозащищенность передачи, как и обычная эхо-модуляция. Это возможно, так как в такой ситуации высокие звуковые частоты существенно затухают и не несут полезной информации.

Заявляемое изобретение работает следующим образом. На Фиг.6 показана типичная реализация кодера для вставки цифровой информации в аудиосигнал в соответствии с предлагаемым изобретением. Сначала информация, предназначенная для передачи, разбивается на две части:

- высокоприоритетные данные, включающие только основную информацию;

- низкоприоритетные данные, включающие как основную, так и дополнительную, менее существенную, информацию.

Высокоприоритетные данные встраиваются посредством предложенной частотно-селективной эхо-модуляции, а низкоприоритетные данные встраиваются посредством шумоподобных сигналов или с использованием цифровой модуляции со многими несущими. Для достижения этого исходный аудиосигнал разделяется на две комплиментарные части посредством полосового, низкочастотного или высокочастотного фильтра 607, линии 609 задержки и вычитателя. При этом под термином «комплиментарные» части имеется в виду, что их суммирование дает исходный аудиосигнал. Длина линии задержки соответствует групповому времени задержки фильтра. Затем первая часть модулируется посредством предложенной схемы частотно-селективной эхо-модуляции. Такая модуляция может быть реализована с помощью набора фильтров 605-608 с импульсными характеристиками, подобными той, которая изображена на Фиг.3, но с различными величинами задержки и амплитуды эхо-сигнала.

Задержка и амплитуда эхо-сигнала в данном случае отражает определенную комбинацию закодированных бит. Для реализации динамической модуляции в каждый конкретный момент (в зависимости от текущей комбинации закодированных бит) сигнал на выходе одного из фильтров выбирается с помощью мультиплексора. Предпочтительно, чтобы переход от одной комбинации бит к другой производился плавно для минимизации заметных на слух искажений аудиосигнала. Это может быть реализовано путем введения небольшого переходного интервала, на протяжении которого сигнал с выхода фильтра, соответствующего текущей комбинации бит, плавно уменьшается, в то время как сигнал с выхода фильтра, соответствующего следующей комбинации бит, плавно увеличивается в соответствии с некоторой гладкой функцией w(k).

Данные с использованием цифровой модуляции со многими несущими и психоакустического маскирования встраиваются во вторую часть исходного аудиосигнала, предпочтительно содержащую более высокочастотные составляющие. Для реализации этого вторая часть исходного аудиосигнала подается на блок 613 психоакустического анализа на основе психоакустической модели, учитывающей эффект частотного и/или временного маскирования. Блок 613 психоакустического анализа формирует на каждом интервале анализа спектральную маску, отражающую порог слышимости искажений, и данная спектральная маска применяется к сигналу со многими несущими или к шумоподобному сигналу. Затем полученный сигнал добавляется в блоке 612 ко второй части исходного аудиосигнала. Как вариант, могут также использоваться более сложные варианты маскирования, описанные, например, в [3].

Как и в большинстве традиционных подходов, для повышения помехоустойчивости передачи данных высокоприоритетный и низкоприоритетный потоки могут быть закодированы с помощью той или иной схемы помехоустойчивого кодирования (например, сверточного кода, турбо-кода и т.д.), также могут быть использованы блочный или сверточные перемежители для устранения эффекта импульсных помех (см. блоки 601-603 и 614-615 соответственно).

Заявляемый способ встраивания цифровой информации в звуковой сигнал может быть реализован в виде специализированного аппаратного модуля на базе полупроводниковых элементов или может быть реализован в виде программного обеспечения для мобильных или портативных устройств, персональных компьютеров или серверов.

Схема для декодирования сигнала, встроенного предлагаемым способом, может быть также реализована в виде аппаратного модуля или встроенного программного обеспечения для мобильных или портативных устройств. Различные алгоритмы могут быть использованы для декодирования данных, встроенных в аудиосигнал в соответствии с заявляемым способом. В целом, устройство декодирования будет включать в себя общий микрофон для захвата акустического сигнала и два связанных модуля обработки сигнала для декодирования высокоприоритетных и низкоприоритетных данных. На практике предпочтительно, чтобы переходы между символами в части, промодулированной частотно-селективной эхо-модуляцией, были синхронизированы с переходами между фреймами в схеме цифровой модуляции со многими несущими. Как правило, высокоприоритетный поток может быть декодирован в более сложной помеховой обстановке и может, в этом случае, обеспечить дополнительную информацию для синхронизации декодера низкоприоритетного потока и априорную информацию для некоторых бит потока (см. декодер 701 эхо-модулированного сигнала и декодер 702 шумоподобного сигнала на Фиг.7).

Заявляемое техническое решение может быть использовано, помимо прочего, в геолокационных приложениях, где информация о местоположении может быть встроена в аудиосигнал. В этом случае, высокоприоритетные данные могут включать в себя только долготу и широту места, а низкоприоритетные данные могут содержать дополнительную информацию, такую как название места, подсказки, ссылки на Интернет ресурсы и другое.

Класс G10L19/00 Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

декодер звукового сигнала, кодер звукового сигнала, представление кодированного многоканального звукового сигнала, способы и програмное обеспечение - патент 2527760 (10.09.2014)
низведение параметров последовательности битов sbr - патент 2526745 (27.08.2014)

система стереотелевидения - патент 2525757 (20.08.2014)
стереофоническое кодирование на основе mdct с комплексным предсказанием - патент 2525431 (10.08.2014)
моделируемое снижение соотношения сигнал-шум в декодированном цифровом звуковом сигнале в зависимости от коэффициента однобитовых ошибок в беспроводном канале связи - патент 2524564 (27.07.2014)
передатчик - патент 2523934 (27.07.2014)
устройство для формирования выходного пространственного многоканального аудио сигнала - патент 2523215 (20.07.2014)
устройство и способ обработки аудио сигнала - патент 2523173 (20.07.2014)
способ и система иерархического кодирования и декодирования звуковой частоты, способ иерархического кодирования и декодирования частоты для переходного сигнала - патент 2522020 (10.07.2014)
переключаемая аудио кодирующая/декодирующая схема с мультиразрешением - патент 2520402 (27.06.2014)