устройство и способы для детектирования эмоций

Классы МПК:	G10L15/00 Распознавание речи
Патентообладатель(и):	ЛИБЕРМАН Амир (IL)
Приоритеты:	подача заявки: 1998-12-16 публикация патента: 20.02.2007

Изобретение относится к устройству и способам для непрерывного контроля эмоциональных состояний. Технический результат - обеспечение мониторинга эмоциональных состояний. Изобретение определяет эмоциональное состояние индивидуума и содержит анализатор речи, выполненный с возможностью вводить образец речи, выданный индивидуумом, и извлекать из него информацию об интонации, и устройство сообщения эмоционального состояния, выполненное с возможностью генерировать выходную индикацию об эмоциональном состоянии индивидуума на основании информации об интонации. 5 н. и 29 з.п. ф-лы, 13 ил.

устройство и способы для детектирования эмоций, патент № 2294023

Формула изобретения

1. Устройство для определения эмоционального состояния индивидуума, содержащее

анализатор речи, выполненный с возможностью принимать от устройства ввода сигнал, представляющий первый образец речи, сгенерированный индивидуумом, для извлечения из него значений параметров сигнала, причем упомянутые параметры сигнала включают в себя, по меньшей мере, одно из: параметры сигнала, относящиеся к шипам сигнала речи, и параметры сигнала, относящиеся к плоским участкам сигнала речи,

упомянутый анализатор речи дополнительно выполнен с возможностью принимать от устройства ввода сигнал, представляющий другой образец речи, сгенерированный индивидуумом, для получения из него проверяемых значений параметров сигнала и

устройство сообщения эмоционального состояния, выполненное с возможностью генерировать выходную индикацию эмоционального состояния индивидуума, на основании оценки упомянутых проверяемых значений в отношении значений, полученных из первого сигнала речи.

2. Устройство по п.1, отличающееся тем, что упомянутым устройством ввода речи является телефон.

3. Устройство по п.1, отличающееся тем, что упомянутые проверяемые значения указывают эмоциональное состояние индивидуума, при этом упомянутым эмоциональным состоянием является лживость.

4. Устройство по одному из пп.1-3, отличающееся тем, что упомянутые параметры сигнала включают в себя многомерную информацию об интонации, которая относится к эмоциональному состоянию индивидуума.

5. Устройство по п.4, отличающееся тем, что упомянутая многомерная информация об интонации включает в себя, по меньшей мере, 3-мерную информацию.

6. Устройство по п.5, отличающееся тем, что упомянутая многомерная информация об интонации включает в себя, по меньшей мере, 4-мерную информацию.

7. Устройство по п.1, отличающееся тем, что упомянутые параметры сигнала, относящиеся к шипам сигнала речи, включают в себя ряд шипов сигнала речи в течение заранее определенного периода времени.

8. Устройство по п.1, отличающееся тем, что упомянутые параметры сигнала, относящиеся к шипам сигнала речи, включают в себя распределение шипов сигнала речи во времени.

9. Устройство по п.8, отличающееся тем, что проверяемые значения упомянутых параметров сигнала, относящиеся к шипам сигнала речи, указывают уровень возбуждения.

10. Устройство по п.1, отличающееся тем, что упомянутые параметры сигнала, относящиеся к плоским участкам сигнала речи, включают в себя ряд плоских участков сигнала речи в течение заранее определенного периода времени.

11. Устройство по п.10, отличающееся тем, что упомянутые параметры сигнала, относящиеся к плоским участкам сигнала речи, указывают чувство психологического диссонанса.

12. Устройство по п.1, отличающееся тем, что

параметры сигнала включают в себя упомянутые параметры сигнала, относящиеся к шипам сигнала речи, и упомянутые параметры сигнала, относящиеся к плоским участкам сигнала речи,

параметры сигнала, относящиеся к шипам сигнала речи, включают в себя ряд шипов сигнала речи в течение предопределенного периода времени,

параметры сигнала, относящиеся к плоским участкам сигнала речи, включают в себя ряд плоских участков сигнала речи в течение предопределенного периода времени

и проверяемые значения параметров сигнала указывают степень правдивости.

13. Устройство по п.1, отличающееся тем, что упомянутые параметры сигнала, относящиеся к плоским участкам сигнала речи, включают в себя параметры сигнала, относящиеся к длительности плоских участков сигнала речи.

14. Устройство по п.13, отличающееся тем, что упомянутые параметры сигнала, относящиеся к длительности плоских участков сигнала речи, включают в себя среднюю длительность плоских участков сигнала речи в течение заранее определенного периода времени.

15. Устройство по п.14, отличающееся тем, что упомянутые параметры сигнала, относящиеся к длительности плоских участков сигнала речи, включают в себя стандартное отклонение длительности плоских участков сигнала речи в течение заранее определенного периода времени.

16. Устройство по п.15, отличающееся тем, что проверяемые значения упомянутых параметров сигнала, относящихся к плоским участкам сигнала речи, указывают уровень стресса.

17. Устройство по любому одному из пп.1-6, 10-16, отличающееся тем, что упомянутый сигнал включает в себя главную волну речи, имеющую период, и при этом упомянутый анализатор речи выполнен с возможностью анализировать упомянутый сигнал, чтобы определять частоту появления плоских участков сигнала речи, причем каждый плоский участок сигнала речи указывает, что локальная низкочастотная волна наложена на главную волну речи, и при этом

устройство сообщения эмоционального состояния выполнено с возможностью обеспечивать выходную индикацию, соответствующую частоте появления упомянутых плоских участков сигнала речи.

18. Система детектирования лжи, содержащая

анализатор речи, выполненный с возможностью принимать от устройства ввода первый сигнал, представляющий первый образец речи, сгенерированный индивидуумом, и численно определять первое множество характеристик упомянутого первого сигнала, причем упомянутое первое множество характеристик включает в себя информацию, относящуюся к шипам сигнала речи, и информацию, относящуюся к плоским участкам сигнала речи, и

упомянутый анализатор речи дополнительно выполнен с возможностью принимать от устройства ввода второй сигнал, представляющий другой образец речи, сгенерированный индивидуумом, и получать из него второе множество характеристик, причем второе множество характеристик включает в себя информацию, относящуюся к шипам сигнала речи, и информацию, относящуюся к плоским участкам сигнала речи, и

устройство выдачи оценки правдоподобности, выполненное с возможностью генерировать выходную индикацию о правдивости индивидуума, включающую в себя индикацию детектирования лжи, на основании упомянутых первого и второго множеств характеристик.

19. Способ детектирования лжи, согласно которому принимают первый сигнал, представляющий образец речи, сгенерированный индивидуумом, и численно определяют первое множество характеристик упомянутого сигнала, причем первое множество характеристик включает в себя информацию, относящуюся к шипам сигнала речи, и информацию, относящуюся к плоским участкам сигнала речи, и

принимают от устройства ввода второй сигнал, представляющий другой образец речи, сгенерированный индивидуумом, и получают из него второе множество характеристик, причем второе множество характеристик включает в себя информацию, относящуюся к шипам сигнала речи, и информацию, относящуюся к плоским участкам сигнала речи, и генерируют выходную индикацию о правдивости индивидуума, включающую в себя индикацию о детектировании лжи, на основании упомянутых первого и второго множеств характеристик.

20. Способ определения эмоционального состояния, при этом способ содержит этапы:

(i) устанавливают диапазон характеристик, характеризующих множество относящихся к эмоциям параметров, указывающих эмоциональное состояние индивидуума, находящегося в спокойном состоянии, посредством

(а) наблюдения за индивидуумом по множеству относящихся к эмоциональному состоянию параметров в течение первого периода времени, во время которого индивидуум находится в нейтральном эмоциональном состоянии,

(b) определения диапазона характеристик как функции диапазона относящихся к эмоциональному состоянию параметров во время упомянутого первого периода и

(ii) наблюдают за индивидуумом по упомянутым относящимся к эмоциональному состоянию параметрам в течение второго периода времени, во время которого целесообразно определить эмоциональное состояние индивидуума, чтобы таким образом получить измеренные значения упомянутого множества относящихся к эмоциональному состоянию параметров, и регулируют упомянутые измеренные значения, чтобы принять во внимание упомянутый диапазон, посредством чего упомянутые измеренные значения указывают эмоциональное состояние индивидуума.

21. Способ определения эмоционального состояния индивидуума, согласно которому

принимают первый сигнал, представляющий первый образец речи, сгенерированный индивидуумом, и получают из него в результате анализа значения параметров сигнала, причем упомянутые параметры сигнала включают в себя, по меньшей мере, одно из: информацию, относящуюся к шипам сигнала речи, и информацию, относящуюся к плоским участкам сигнала речи,

принимают проверяемый сигнал, представляющий другой образец речи, сгенерированный индивидуумом, и получают из него проверяемые значения параметров сигнала, и

генерируют выходную индикацию эмоционального состояния индивидуума на основании оценки упомянутых проверяемых значений относительно значений, полученных из первого образца речи.

22. Способ по п.21, отличающийся тем, что проверяемый сигнал передается по телефону.

23. Способ по п.21, отличающийся тем, что генерация выходной индикации включает в себя генерацию сообщения о детектировании лжи на основании проверяемых значений.

24. Способ по любому одному из пп.21-23, отличающийся тем, что получение проверяемых значений включает в себя получение многомерной информации об интонации, которая относится к эмоциональному состоянию индивидуума.

25. Способ по п.21, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к шипам сигнала речи, включает в себя подсчет количества шипов сигнала в течение заранее определенного периода времени.

26. Способ по п.21, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к шипам сигнала речи, включает в себя вычисление распределения шипов сигнала речи во времени.

27. Способ по п.26, отличающийся тем, что генерирование выходной индикации включает в себя генерирование индикации об уровне возбуждения на основе проверяемых значений.

28. Способ по п.21, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к плоским участкам сигнала речи, включает в себя подсчет количества плоских участков сигнала речи в течение заранее определенного периода времени.

29. Способ по п.28, отличающийся тем, что генерирование выходной индикации включает в себя генерирование индикации о чувстве психологического диссонанса на основе проверяемых значений.

30. Способ по п.21, отличающийся тем, что

получение проверяемых значений параметров сигнала включает в себя получение проверяемых значений параметров сигнала, относящихся к шипам сигнала речи, и получение проверяемых значений параметров сигнала, относящихся к плоским участкам сигнала речи,

получение проверяемых значений параметров сигнала, относящихся к шипам сигнала речи, включает в себя подсчет шипов сигнала речи в течение заранее определенного периода времени,

причем получение проверяемых значений параметров сигнала, относящихся к плоским участкам сигнала речи, включает в себя подсчет плоских участков сигнала речи в течение заранее определенного периода времени, и при этом

генерирование выходной индикации включает в себя генерирование индикации о правдивости.

31. Способ по п.21, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к плоским участкам сигнала речи, включает в себя получение проверяемых значений параметров сигнала, относящихся к длительности плоских участков сигнала речи.

32. Способ по п.31, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к длительности плоских участков сигнала речи, включает в себя вычисление средней длительности плоских участков сигнала речи в течение заранее определенного периода времени.

33. Способ по п.31, отличающийся тем, что получение проверяемых значений параметров сигнала, относящихся к длительности плоских участков сигнала речи, включает в себя вычисление стандартного отклонения длительности плоских участков сигнала речи в течение заранее определенного периода времени.

34. Способ по п.33, отличающийся тем, что генерация выходной индикации включает в себя генерацию индикации об уровне стресса, на основе проверяемых значений.

Описание изобретения к патенту

Область техники, к которой относится изобретение

Настоящее изобретение относится к устройству и способам для непрерывного контроля эмоциональных состояний.

Уровень техники

Опубликованная международная РСТ заявка на патент WO 97/01984 (PCT/IL 96/00027) описывает способ для осуществления регулирования с помощью биологической обратной связи, по меньшей мере, характеристики одной физиологической переменной эмоционального состояния субъекта, включающий шаги контроля (мониторинга), по меньшей мере, характеристики одного параметра речи эмоционального состояния субъекта, так чтобы создать сигнал индикации, и использования этого сигнала индикации для обеспечения субъекта индикацией, по меньшей мере, одной физиологической переменной. Система позволяет осуществлять этот способ в автономном режиме или через телефонную линию, в случае чего сигнал индикации может быть извлечен в местоположении, удаленном от субъекта. Информация, относящаяся к эмоциональному состоянию субъекта, может быть передана голосом к удаленной стороне или текстом через сеть Интернет, и затем обработана так, как это требуется.

Опубликованная Европейская патентная заявка №94850185.3 (номер публикации 306664537 А2) описывает способ и устройство для определения стрессов в речевой последовательности. Из последовательности, распознанной в произнесенной речи, создается модель речи. Путем сравнения произнесенной последовательности с моделированной речью получается разница между ними.

Патент США 1.384.721 описывает способ и устройство для анализа физиологической реакции.

Патент США 3.855.416 на имя Фуллера (Fuller) описывает способ и устройство для анализа фонаций, приводящего к правильным решениям «истина/ложь» путем оценки взвешенных вибрационных составляющих речевой энергии.

Патент США 3.855.417 на имя Фуллера описывает способ и устройство для анализа фонаций, приводящего к правильным решениям «истина/ложь» путем сравнения области спектральной энергии.

Патент США 3.855.418 на имя Фуллера описывает способ и устройство для анализа фонаций, приводящего к правильным решениям «истина/ложь» путем оценки вибрационных компонентов.

Все публикации, упомянутые в настоящем описании, приведены в качестве ссылок.

Сущность изобретения

Настоящее изобретение стремится обеспечить усовершенствованные устройство и способы для мониторинга эмоциональных состояний.

Таким образом, разработано, в соответствии с предпочтительным воплощением настоящего изобретения, устройство для определения эмоционального состояния индивидуума, причем это устройство содержит анализатор речи, выполненный с возможностью вводить образец речи, выданный индивидуумом, и извлекать из него информацию об интонации, и устройство сообщения эмоционального состояния, выполненное с возможностью генерировать выходную индикацию об эмоциональном состоянии индивидуума на основании информации интонации.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, образец речи подается по телефону к анализатору речи.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, сообщение об эмоциональном состоянии индивидуума включает сообщение о детектировании лжи на основании эмоционального состояния индивидуума.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация интонации включает многомерную информацию интонации.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, многомерная информация интонации включает, по меньшей мере, 3-мерную информацию.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, многомерная информация интонации включает, по меньшей мере, 4-мерную информацию.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация интонации включает информацию, относящуюся к шипам.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к шипам, включает количество шипов в предопределенный период времени.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к шипам, включает распределение шипов по времени.

Дополнительно, в соответствии с предпочтительным воплощением настоящего изобретения, информация интонации включает информацию, относящуюся к плоским участкам (плато).

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к плоским участкам, включает количество плоских участков в предопределенный период времени.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к плоским участкам, включает информацию, относящуюся к длительности плоских участков.

Дополнительно, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к длительности плоских участков, включает среднюю длительность плоских участков в течение предопределенного периода времени.

Кроме того, в соответствии с предпочтительным воплощением настоящего изобретения, информация, относящаяся к длительности плоских участков, включает стандартное отклонение длительности плоских участков в течение предопределенного периода времени.

Разработана также, в соответствии с другим предпочтительным воплощением настоящего изобретения, система детектирования лжи, включающая многомерный анализатор речи, выполненный с возможностью вводить образец речи, выданный индивидуумом, и численно определить множество характеристик образца речи, и устройство оценки правдоподобия, выполненное с возможностью генерировать выходную индикацию степени правдивости индивидуума, включая детектирование лжи, на основании множества численно определенных характеристик.

Дополнительно разработан также, в соответствии с другим предпочтительным воплощением настоящего изобретения, способ детектирования, включающий ввод образца речи, выданного индивидуумом, и численное определение множества характеристик образца речи, и генерацию выходной индикации степени правдивости индивидуума, включая детектирование лжи, на основании множества численно определенных характеристик.

Далее, в соответствии с предпочтительным воплощением настоящего изобретения, образец речи включает главную частоту речи, имеющую период, и в котором анализатор речи выполнен с возможностью анализировать образец речи, чтобы определить частоту появления плоских участков, причем каждый плоский участок указывает, что локальная относительно низкочастотная волна накладывается на главную частоту речи, а устройство сообщения об эмоциях выполнено с возможностью генерировать соответствующую выходную индикацию на основании частоты появления плоских участков. Например, устройство сообщения эмоций может обеспечить подходящую выходную индикацию, когда обнаружено, что частота появления плоских участков изменилась.

Подобным образом, каждый шип показывает, что локальная относительно высокочастотная волна наложилась на главную частоту речи. Частное преимущество анализа плоских участков и шипов, как показано и описано здесь, состоит в том, что могут быть проанализированы по существу все частоты волны речи.

Разработан также, в соответствии с другим предпочтительным воплощением настоящего изобретения, способ определения эмоционального состояния, включающий установление диапазона многомерных характеристик, характеризующих диапазон эмоций индивидуума в состоянии покоя, путем мониторинга индивидуума по множеству связанных с эмоциями параметров в первом периоде времени, в течение которого индивидуум находится в эмоционально нейтральном состоянии, и определение диапазона многомерных характеристик в функции диапазона множества связанных с эмоциями параметров в течение первого периода, и мониторинга индивидуума по множеству относящихся к эмоциям параметров во втором периоде времени, в течение которого целесообразно определить эмоциональное состояние индивидуума, чтобы таким образом получить измеренные значения множества связанных с эмоциями параметров, и регулировать измеренные параметры, чтобы принять во внимание упомянутый диапазон.

Разработан также, в соответствии с другим предпочтительным воплощением настоящего изобретения, способ определения эмоционального состояния индивидуума, включающий прием образца речи, выданного индивидуумом, и извлечение из него информации интонации, и генерацию выходной индикации эмоционального состояния индивидуума на основании информации интонации.

Краткое описание чертежей

Настоящее изобретение станет более понятным из последующего подробного описания, со ссылкой на сопроводительные чертежи, на которых:

Фиг.1А - иллюстративное изображение системы для контроля (мониторинга) в режиме «онлайн» (оперативном) эмоционального состояния говорящего,

Фиг.1В - упрощенная иллюстрация блок-схемы предпочтительного способа для мониторинга в режиме «онлайн» эмоционального состояния говорящего,

Фиг.2 - графическая иллюстрация сегмента речи, включающего несколько шипов,

Фиг.3 - графическая иллюстрация сегмента речи, включающего несколько плоских участков,

Фиг.4 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 4 по фиг.1В,

Фиг.5 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага создания истинного/нейтрального эмоционального профиля по фиг.1В,

Фиг.6 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 90 по фиг.1В на отдельном сегменте,

Фиг.7 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 100 по фиг.1В,

Фиг.8 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 105 по фиг.1В,

Фиг.9 - иллюстративное изображение отображения экрана, показывающее форму, в режиме проектирования, непосредственно перед началом применения Приложения А,

Фиг.10 - иллюстративное изображение отображения экрана, показывающее форму, в режиме выполнения системы Приложения А, во время калибровки конкретного субъекта,

Фиг.11 - иллюстративное изображение отображения экрана, показывающее форму, в режиме выполнения системы Приложения А, во время проверки субъекта, и

Фиг.12 - упрощенная иллюстрация блок-схемы предпочтительной системы для выполнения способа по фиг.1В.

К описанию добавлено следующее приложение, которое способствует пониманию и оценке одного предпочтительного варианта воплощения изобретения, показанного и описанного здесь.

Приложение А - компьютерная распечатка предпочтительного исполнения программного обеспечения предпочтительного воплощения изобретения, показанного и описанного здесь.

Подробное описание предпочтительных воплощений изобретения

Часть описания этого патентного документа содержит материал, который является объектом защиты авторским правом. Владелец авторского права не имеет возражений против факсимильного воспроизведения кем-либо патентного документа или патентного описания, как это делается в патентном архиве или записях Службы Патентов и Товарных знаков, но в других отношениях резервирует за собой все авторские права.

Фиг.1А - иллюстративное изображение системы для мониторинга в режиме «онлайн» (оперативном) эмоционального состояния говорящего. Как показано, в иллюстрируемом воплощении ввод речи, поступающей по телефонной линии, принимается системой. Система анализирует ввод речи, чтобы получить индикацию эмоционального состояния говорящего, причем эта индикация предпочтительно подается пользователю в реальном масштабе времени, например, как это показано, на экране дисплея.

Фиг.1В - упрощенная иллюстрация блок-схемы предпочтительного способа для мониторинга в режиме «онлайн» эмоционального состояния говорящего. Способ по фиг.1В предпочтительно включает следующие шаги:

Шаг инициализации 10: Определяет константы, такие как пороговые значения различных параметров, определяющие диапазоны, которые считаются показательными для различных эмоций, как будет подробно описано ниже.

Шаг 20: Запись речи, периодически или по требованию. Например, сегменты речи в 0,5 секунд могут записываться постоянно, т.е. каждые 0,5 секунд. Альтернативно, могут рассматриваться сегменты любой другой подходящей длительности, которые могут или не могут перекрываться. Например, соседние сегменты могут перекрываться почти полностью, кроме одного или нескольких образцов.

Преобразовать в цифровой вид запись речи.

Дополнительно или альтернативно могут быть выбраны перекрывающиеся сегменты записи.

Шаг 30: Анализировать сегмент речи, чтобы отметить критическую часть сегмента речи, т.е. часть сегмента речи, которая, как считается, действительно содержит речевую информацию в противоположность фоновому шуму. Подходящим критерием для детектирования речевой информации является амплитуда, например, первый случай амплитуды, который превосходит порог, считается началом речевой информации, а концом речевой информации считается точка, после которой в течение предопределенного периода не обнаруживается звука, превосходящего порог.

Предпочтительно, выборки в критической части нормализованы, например, путем усиления выборок, чтобы получить преимущество полного диапазона амплитуды, который может быть помещен в память, например, + /- 127 единиц амплитуды, если используется 8-битовая память.

Шаг 40: Подсчитать количество шипов и плоских участков в критической части. Вычислить длительность каждого идентифицированного плоского участка и вычислить среднюю длительность плоского участка для критической части и стандартное отклонение для длительности плоского участка.

«Шип» - участок зазубренной формы. Например, термин «шип» может быть определен как:

а) последовательность из 3 соседних выборок, в которой первая и третья выборки обе выше, чем средняя выборка, или

b) последовательность из 3 соседних выборок, в которой первая и третья выборки обе ниже, чем средняя выборка.

Предпочтительно, шип объявляют даже в случае, если первая и третья выборки лишь незначительно отличаются от средней выборки, т.е. предпочтительно нет минимального порогового значения для разности между выборками. Однако предпочтительно имеется минимальное пороговое значение для базовой линии шипа, т.е. шипы, имеющие место на очень малой амплитуде, игнорируются, потому что они считаются относящимися скорее к фоновому шуму, чем к речи.

Фиг.2 - графическая иллюстрация сегмента речи 32, включающего несколько шипов 34.

«Плоский участок» («плато») - локальная плоскость в речевой волне. Например, плоский участок может быть определен как плоская последовательность, длительность которой больше, чем предопределенный минимальный порог, и меньше, чем предопределенный максимальный порог. Максимальный порог требуется, чтобы отличить локальную плоскость от периода молчания. Последовательность может рассматриваться как плоская, если разница в амплитуде между последовательными выборками меньше, чем предопределенный порог, такой как 5 единиц амплитуды, если используется 8-битовая память.

Фиг.3 - графическая иллюстрация сегмента речи 36, включающего несколько плоских участков 38. В Приложении А плоские участки называются «переходами» («скачками»).

Система настоящего изобретения обычно работает в одном из двух режимов.

а) Калибровки - создания профиля истинного/нейтрального состояния субъекта путем мониторинга субъекта, в то время как субъект не лжет и/или находится в нейтральном эмоциональном состоянии.

b) Проверки - сравнения речи субъекта с профилем истинного/нейтрального эмоционального состояния субъекта, установленным во время калибровки, чтобы установить эмоциональное состояние, и/или то, правдив ли субъект или нет.

Если система должна использоваться в режиме калибровки, способ переходит от шага 50 к шагу 60. Если система должна использоваться в режиме проверки, способ переходит от шага 50 к шагу 80.

Шаг 60: Если шаг 60 достигнут, это показывает, что текущий сегмент обрабатывается для целей калибровки. Поэтому информация о шипах и плоских участках, извлеченная в шаге 40, записывается в таблицу.

Процессы шагов 20-50 называются здесь «процессами ввода записи речи». Если имеются еще записи речи, которые должны быть введены для целей калибровки, способ возвращается к шагу 20. Если ввод всех записей речи для целей калибровки был закончен (шаг 70), способ переходит к шагу 80.

Шаг 80: Создать профиль истинного/нейтрального эмоционального состояния для субъекта, который проверяется в настоящее время. Это завершает работу в режиме калибровки. Затем система входит в режим проверки, в котором записи речи субъекта сравнивают с его истинным/нейтральным эмоциональным профилем, чтобы определить случаи фальши или возбужденного эмоционального состояния. Профиль субъекта обычно отражает основные тенденции информации шипов/плоских участков, и обычно регулируется, чтобы учесть искажения в ситуации калибровки. Например, из-за естественного стресса в начале процесса калибровки, начальные записи речи могут быть менее надежными, чем последующие записи речи.

Предпочтительно, чтобы получить надежную индикацию основных тенденций, экстремальные вводы в таблице калибровки могут быть отброшены.

Шаги с 90 и далее относятся к режиму проверки.

Шаг 90: Сравнить информацию шип/плоский участок текущего сегмента с истинным/нейтральным эмоциональным профилем, вычисленным в шаге 80.

Шаг 100: Сравнить с порогом результаты процесса сравнения шага 90, чтобы определить категорию текущего сегмента как показательного относительно различных эмоций и/или фальши.

Шаг 105: Необязательный, компенсировать излишек. Термин «излишек» относится к остаточному эмоциональному состоянию, переходящему от «действительного» эмоционального состояния, созданного первым воспринятым состоянием, в котором остаточное эмоциональное состояние задерживается после того, как первое воспринятое состояние уже прекратилось. Пример подходящего исполнения для шага 105 описан здесь в блок-схеме фиг.8.

Шаг 110: Отобразить сообщение, показывающее категорию, определенную в шаге 100.

Шаг 120: Если имеются дополнительные сегменты речи, которые должны быть проанализированы, возвратиться к шагу 20. В противном случае выйти. Любое подходящее количество m сегментов может быть использовано для калибровки, такое как 5 сегментов.

Фиг.4 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 40 фиг.1В. Как описано выше, в шаге 40 генерируется информация о шипах/плоских участках для критической части текущего сегмента записи речи.

Текущая длительность плоского участка названа «JJ».

«Jjmap» (JJ) есть количество плоских участков, длительность которых точно равна JJ.

«Plat» есть счетчик, подсчитывающий количество плоских участков независимо от длительности.

«Thorn» есть счетчик, подсчитывающий количество шипов.

n есть количество выборок в критической части, находящейся в проверке.

В шаге 150 счетчики шипов и плоских участков сбрасываются.

В шаге 160 начинается цикл на все выборки критических частей. Цикл начинается на первой критической выборке и заканчивается на последней критической выборке минус 2.

В шаге 164 записывают амплитуды выборок в цикле.

В шагах 170 и 180 детектируются шипы, а в шагах 190, 195, 200 и 210 детектируются плоские участки.

В шаге 200, если длительность плоского участка-кандидата находится между приемлемыми границами, например, между 3 и 20, увеличивается на 1 номер плоского участка с длительностью JJ, и увеличивается на 1 Plat общее количество плоских участков. В противном случае, т.е., если длительность плоского участка-кандидата меньше 3 или больше 20, плоский участок-кандидат не считается плоским участком.

Считается ли или нет плоский участок-кандидат «действительным» плоским участком, длительность плоского участка, JJ, обнуляется (шаг 210).

Шаг 220 - конец цикла, т.е. точка, в которой все выборки в последовательности были проверены.

В шаге 230 вычисляют среднее (AVJ) и стандартное (JQ) отклонение переменной длительности плоского участка, JJmap.

В шаге 240 вычисляют SPT и SPJ. SPT есть среднее количество шипов на выборку, предпочтительно подходящим образом нормализованных. SPJ есть среднее количество плоских участков на выборку, предпочтительно подходящим образом нормализованных.

Согласно иллюстрируемому воплощению, детектирование эмоционального состояния является много-размерным, т.е. эмоциональное состояние извлекается из речевой информации через множество предпочтительно независимых промежуточных переменных.

Фиг.5 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага создания профиля истинного/нейтрального эмоционального состояния с фиг.1В.

На фиг.5 SPT(i) - значение SPT для сегмента i.

MinSPT - минимальное значение SPT, измеренное в любом из m сегментов.

MaxSPT - максимальное значение SPT, измеренное в любом из m сегментов.

MinSPJ - минимальное значение SPJ, измеренное в любом из m сегментов.

MaxSPJ - максимальное значение SPJ, измеренное в любом из m сегментов.

MinJQ - минимальное значение JQ, измеренное в любом из m сегментов.

MaxJQ - максимальное значение JQ, измеренное в любом из m сегментов.

ResSPT - размер диапазона значений SPT, встречающихся во время калибровки. В более общем смысле, ResSPT может содержать любую подходящую индикацию степени изменения в количестве шипов, которое может ожидаться, когда субъект находится в истинном/нейтральном эмоциональном состоянии. Поэтому, если количество шипов в сегменте речи ненормативное, по отношению к ResSPT, тогда можно говорить, что субъект находится не в нейтральном эмоциональном состоянии, так что эмоциональное состояние отличается возбуждением или даже раздражением. ResSPT, поэтому, обычно является входом в процесс оценки значений SPT, генерируемых во время неизвестных эмоциональных обстоятельств.

ResSPJ - размер диапазона значений SPJ, встречающихся во время калибровки. В более общем смысле, ResSPJ может содержать любую подходящую индикацию степени изменения в количестве плоских участков, которое может ожидаться, когда субъект находится в истинном/нейтральном эмоциональном состоянии. Поэтому, если количество плоских участков в сегменте речи ненормативное, по отношению к ResSPJ, тогда можно говорить, что субъект находится не в нейтральном эмоциональном состоянии, так что эмоциональное состояние отличается ощущением внутреннего противоречия или осознанного разлада. ResSPJ, поэтому, обычно является входом в процесс оценки значений SPJ, генерируемых во время неизвестных эмоциональных обстоятельств.

ResJQ - размер диапазона значений JQ, встречающихся во время калибровки, который служит как базовая линия для оценки значений JQ, генерируемых во время неизвестных эмоциональных обстоятельств.

Понятно, что базовая линия не обязательно должна быть 4-размерной базовой линией, как показано на фиг.5, но может быть альтернативно даже одноразмерной или может иметь гораздо больше, чем 4 измерения.

Фиг.6 - упрощенная иллюстрация блок-схемы предпочтительного способа для выполнения шага 90 с фиг.1В на отдельном сегменте. Как описано выше, в шаге 90, информация о шипах/плоских участках текущего сегмента сравнивается с истинной/нейтральной эмоциональной базовой линией, вычисленной в шаге 80.

Шаг 400 - шаг инициализации.

На шаге 410 вычисляют отклонение текущей критической части от предварительно вычисленного профиля истинного/нейтрального эмоционального состояния. В иллюстрируемом воплощении отклонение содержит четырехмерную величину, включающую первый компонент, относящийся к количеству шипов, второй компонент, относящийся к количеству плоских участков, третий компонент, относящийся к стандартному отклонению в длительности плоского участка, и четвертый компонент, относящийся к средней длительности плоского участка.

Однако понятно, что в разных применениях могут быть использованы разные компоненты. Например, в некоторых применениях может быть полезным распределение шипов (равномерное, беспорядочное и т.п.) по интервалу времени для извлечения информации, касающейся эмоционального состояния субъекта.

«Контрольная-Точка Т» - пороговое значение, характеризующее приемлемый диапазон отношений между средним количеством шипов в истинных/нейтральных эмоциональных обстоятельствах и конкретным количеством шипов в текущей критической порции.

«Контрольная-точка J» - пороговое значение, характеризующее приемлемый диапазон отношений между средним количеством плоских участков в истинных/нейтральных эмоциональных обстоятельствах и конкретным количеством плоских участков в текущей критической порции.

«Контрольная-Точка Q» - пороговое значение, характеризующее приемлемый диапазон отношений между средним стандартным отклонением количества плоских участков в истинных/нейтральных эмоциональных обстоятельствах и конкретным стандартным отклонением в количестве плоских участков в текущей критической порции.

«Контрольная-точка А» - пороговое значение, характеризующее приемлемый диапазон отношений между средней длительностью плоских участков в истинных/нейтральных эмоциональных обстоятельствах и конкретной средней длительностью плоских участков в текущей критической порции.

Шаги 420-470 корректируют профиль субъекта, чтобы учесть новую информацию, поступившую от текущего сегмента. В иллюстрируемом воплощении корректируются только значения ResSPT и ResSPJ, и только в случае, если отклонение текущей критической порции от ранее вычисленного профиля истинного/нейтрального эмоционального состояния субъекта либо очень велико (например, превосходит предопределенные максимальные значения), либо очень мало (например, попадает ниже определенных, обычно отрицательных предопределенных минимальных значений). Если отклонение текущей критической порции от истинного/нейтрального профиля ни очень велико, ни очень мало (например, попадает между максимальными и минимальными значениями), профиль субъекта на этом этапе обычно остается неизменным.

На шагах 460 и 470, если zzSPT и zzSPJ, соответственно, очень близки к нулю, чувствительность системы увеличивается путем уменьшения ResSPT и ResSPJ соответственно.

Шаг 480 генерирует подходящие, обычно специфические для применения комбинации компонентов отклонения, вычисленных на шаге 410. Эти комбинации используются как основание для подходящих критериев классификации эмоционального состояния, таких как критерии классификации эмоционального состояния, определенные на фиг.7. Критерии классификации эмоционального состояния по фиг.7 определяют, можно ли или нет классифицировать субъекта как не имеющего чувства меры, как неправдивого, как уклончивого, как несобранного или неуверенного, как возбуждаемого или как саркастического. Однако понятно, что в разных ситуациях могут быть использованы разные классификации эмоционального состояния.

В иллюстрируемом воплощении информация SPT главным образом используется для определения уровня возбуждения. Более конкретно, zzSPT используется, чтобы определить значение crEXCITE (ВОЗБУЖДЕНИЕ), которое может также зависеть от дополнительного параметра, такого как crSTRESS (СТРЕСС). Например, значение crEXCITE между 70 и 120 может считаться нормальным, в то время как значения между 120 и 160 могут рассматриваться как указывающие на возбуждение объекта, а значения, превосходящие 160, могут рассматриваться как указывающие на высокий уровень возбуждения.

В иллюстрируемом воплощении информация SPJ главным образом используется для определения ощущений психологического диссонанса. Например, значения zzSPJ между 0,6 и 1,2 могут рассматриваться как нормальные, в то время как значения между 1,2 и 1,7 могут считаться как указывающие на смущение или неуверенность. Значения, превышающие 1/7, могут считаться как указывающие на осознание притворства в голосе субъекта и/или попытку субъекта управлять своим голосом.

В иллюстрируемом воплощении значения zzJQ и crSTRESS главным образом используются, чтобы определить уровень стресса. Например, значения crSTRESS между 70 и 120 могут считаться нормальными, в то время как значения выше 120 могут рассматриваться как указывающие на высокий уровень стресса.

В иллюстрируемом воплощении информация AVJ используется, чтобы определить количество мысли, вложенной в слова или предложения. Например, если crTHINK (МЫСЛЬ) превосходит значение 100, тогда количество мыслей, вложенное в последнее произнесенное предложение больше, чем количество мыслей, вложенное в фазе калибровки. Это означает, что человек больше думает о том, что он говорит, чем он делал это в фазе калибровки. Если значение меньше, чем 100, человек думает о том, что он говорит, меньше, чем он делал это в фазе калибровки.

В иллюстрируемом воплощении параметр crLIE (ЛОЖЬ) используется для определения правдивости. Значение crLIE до 50 может рассматриваться как указывающее на неправдивость, значения между 50 и 60 могут рассматриваться как указывающие на сарказм или юмор, значения между 60 и 130 могут считаться как указывающие на правдивость, значения между 130 и 170 могут считаться как указывающие на неточность или преувеличение, и значения, превосходящие 170, могут считаться указывающими на неправдивость.

Ссылаясь снова на фиг.6, вышеупомянутые параметры могут принимать следующие значения:

BreakpointT (Контрольная точка) = BreakpointJ = BreakpointQ = BreakpointA = 1,1

CeilingT (Максимальное значение Т) = CeilingJ = 1,1

FloorJ (Минимальное значение) = FloorT = -0,6.

IncrementT (приращениеТ) = IncrementJ = DecrementT (отрицательное приращение) = DecrementJ = 0,1

MinimalT (минимальное) = MinimalJ = 0,1

Понятно, что все численные значения являются просто примерами и обычно зависят от применения.

Фиг.7 иллюстрирует способ для преобразования различных параметров в сообщения, которые могут быть отображены, как показано, например, на фиг.1.

Фиг.8 представляет способ для точной регулировки истинного/нейтрального эмоционального состояния.

Приложение А есть компьютерная распечатка программного обеспечения предпочтительного воплощения изобретения, показанного и описанного здесь, которое слегка отличается от воплощения, показанного и описанного здесь со ссылкой на чертежи.

Подходящий способ для создания программного обеспечения следующий:

а) на персональном компьютере (ПК), оборудованном микрофоном, звуковой картой и снабженном программным обеспечением Visual Basic (Визуальный Бейсик) Версия 5.0 генерировать новую задачу;

Установка записи на звуковой карте может работать со следующими параметрами: 11 кГц, 8 бит, монофоническая, ИКМ (импульсно-кодовая модуляция).

b) поместить объект таймера на форму по умолчанию, которая представлена в новой задаче. Объект таймера называется «Timer 1»;

с) поместить объект управления мультимедиа MCI (интерфейс управления объектами мультимедиа) на форму. Этот объект называется «mmcontrol1»;

d) поместить объекты 5 меток на форму. Эти метки называются label1 (метка1), label2, label3, label4 и label6;

е) создать массивы 4 уровней на форме. Переименовать массивы следующим образом: SPT (0...4), SPJ (0...4), JQ (0...4), AVJ (0...4);

f) поместить командную кнопку на форму и изменить ее фиксирующее свойство на конец. Командная кнопка называется «command1» (команда1);

g) генерировать коды программы для формы путем набора на клавишах со страниц Приложения А, которые озаглавлены «form1» («форма1»);

h) добавить модуль к задаче. Генерировать коды программы для модуля путем набора на клавиатуре со страниц Приложения А, которые озаглавлены «Feelings_detector» («Детектор-ощущений»);

i) присоединить микрофон к ПК;

j) нажать (F5) или «пуск», чтобы запустить прикладную программу.

Фиг.9 есть иллюстративное изображение отображения экрана, показывающее форму, в режиме проектирования, непосредственно перед пуском прикладной программы.

Фиг.10 - иллюстративное изображение отображения экрана, показывающее форму, в режиме выполнения, во время калибровки конкретного субъекта.

Фиг.11 - иллюстрированное изображение отображения экрана, показывающее форму, в режиме выполнения, во время проверки субъекта.

Значения переменной CoR_msgX в Приложении А следующие:

1 - правдивость, 2 - сарказм, 3 - возбуждение, 4 - смущение/неуверенность, 5 - сильное возбуждение, 6 - манипуляция голосом, 7 - ложь/ложное утверждение, 8 - преувеличение/неточность.

Переменные, несущие данные текущей критической порции, имеют имена, которые начинаются следующими символами: cor_.

Коэффициенты базовой линии имеют имена, которые начинаются следующими символами: cal_.

Коэффициенты контрольных точек имеют имена, которые начинаются следующими символами: bp_.

ResSPT и resSPJ называются ResT и ResJ, соответственно.

Фиг.12 - упрощенная иллюстрация функциональной блок-схемы системы для определения эмоциональных состояний, которая спроектирована и работает в соответствии с предпочтительным воплощением настоящего изобретения, чтобы реализовать способ согласно фиг.1В. Система по фиг.12 включает устройство ввода речи, такое как устройство записи на магнитную ленту 700, микрофон 710 или телефон 720, который генерирует речь, которая вводится рабочей станцией для детектирования эмоционального состояния 735 через А/Ц (алфавитно-цифровой) преобразователь 740. Устройство записи речевого окна 750 обычно разделяет входные сигналы, представляющие речь, на речевые окна, или сегменты, которые анализируются анализатором речевых окон 760. Анализатор речевых окон сравнивает речевые окна, или сегменты с данными калибровки, записанными в блоке 770. Данные калибровки обычно извлекаются индивидуально для каждого отдельного субъекта, как подробно описано выше. Имеется блок дисплея или принтер 780 для отображения или распечатки отчета об эмоциональном состоянии, предпочтительно в режиме «онлайн», для пользователя системы.

Понятно, что компоненты программного обеспечения настоящего изобретения могут, при желании, быть выполнены в форме ПЗУ (постоянное запоминающее устройство). Компоненты программного обеспечения могут, в общем, быть реализованы аппаратно, при желании, используя обычную технологию.

Конкретное воплощение, описанное в Приложении, предназначено только чтобы обеспечить в высшей степени подробное описание настоящего изобретения, и оно не ограничивает объем изобретения.

Различные признаки изобретения, которые для ясности описаны в контексте отдельных воплощений, могут быть также представлены в комбинации в одном воплощении. Наоборот, различные признаки изобретения, которые для краткости описаны в контексте одного воплощения, могут также быть представлены отдельно или в некоторой подходящей частичной комбинации.

Опытным специалистам будет понятно, что настоящее изобретение не ограничено тем, что было конкретно показано и описано здесь выше. Объем настоящего изобретения определяется пунктами формулы изобретения.

Класс G10L15/00 Распознавание речи

основанные на языке разметки выбор и использование распознавателей для обработки произнесения - патент 2525440 (10.08.2014)
электронно-вычислительное устройство - патент 2523220 (20.07.2014)

способ обнаружения эмоций по голосу - патент 2510955 (10.04.2014)
способ и система для предоставления речевого интерфейса - патент 2494476 (27.09.2013)
устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования - патент 2493652 (20.09.2013)
архитектура распознавания для генерации азиатских иероглифов - патент 2477518 (10.03.2013)
способ электронного анализа диалога и система для осуществления этого способа - патент 2472219 (10.01.2013)
система и способ распознавания речи - патент 2466468 (10.11.2012)
устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала - патент 2459281 (20.08.2012)
способ обработки речевого сигнала в частотной области - патент 2454735 (27.06.2012)