Электроакустические устройства
Конспект лекций
Copyright © Эдуард Семенов, 2001

ЛЕКЦИЯ 6 (4 ЧАСА). СОБСТВЕННО ВОСПРИЯТИЕ

Восприятие в целом можно разделить на 2 составляющих:

1) восприятие содержания звука;

2) восприятие пространственных характеристик источника звука.

Будем рассматривать их по порядку.

6.1. Восприятие содержания

Под восприятием содержания будем понимать восприятие эмоций и информации, закодированных во временной форме сигнала вне зависимости от ее пространственных характеристик. Собственно, эмоции - это тоже информация, но особого рода.

В этой связи перед нервной системой стоит 2 задачи:

1) селекция нужного источника;

2) собственно извлечение информации из формы сигнала.

Условие, при котором сигналы источников можно разделить: два сигнала можно разделить, если один из них нельзя представить как второй, измененный по амплитуде и сдвинутый во времени (причем это касается не отдельных периодов времени, а всего сигнала). В противном случае мы слышим либо эхо, либо один кажущийся источник звука (КИЗ), расположенный между излучателями.

Если указанное условие выполняется (а оно выполняется даже для исполнителей, поющих в унисон), то разделить сигналы Вы можете только в том случае, если в Вашей слуховой памяти есть образцы разделяемых сигналов по отдельности. Эти образцы не обязательно должны быть точными (например, голос конкретного человека), достаточно, чтобы эти образцы описывали то, что присуще сигналам по отдельности, но не присуще их суперпозиции. Образцы слуховых образов, хранящихся в слуховой памяти можно разделить на врожденные и приобретенные.

Наиболее правдоподобная гипотеза того, как конкретно осуществляется разделение источников, состоит в том, что выполняется корреляционное (или какое-либо другое) сравнение поступающей смеси сигналов с имеющимися образцами. Если обнаружен аддитивно существующий в смеси интересующий нас компонент, то формируется соответствующий образ.

Теперь относительно собственно восприятия содержания.

В восприятии музыкального произведения можно выделить три уровня восприятия:

1) восприятие звука (восприятие основных характеристик отдельных фрагментов звуковой волны);

2) восприятие эмоций, заложенных в отдельные музыкальные фразы;

3) восприятие музыкального произведения в целом.

Они не лучше и не хуже друг друга, это звенья одной цепи. Далее рассмотрим только первый, т.к. вторые - вопрос музыкальной культуры и между ними и традиционными научными методами - зияющая пропасть. Основные слышимые характеристики звука - громкость, высота, тембр. Рассмотрим первые две, т.к. относительно третьей пока можно высказать только самые общие соображения.

6.1.1. Восприятие громкости

Человек оценивает не то, на сколько изменилась мощность источника, а во сколько раз она изменилась. Это позволяет иметь больший динамический диапазон и более стабильную относительную погрешность.

Уровни

В связи с логарифмической зависимостью слухового ощущения от возбуждающего стимула характеристики звуковых сигналов также выражают в логарифмической шкале. Но логарифм можно брать только относительно безразмерных положительных величин. Поэтому логарифмируют не сам параметр p, а его отношение к некоторому опорному p0 (нулевому в логарифмической шкале):

.

Значение логарифма вещь, конечно, безразмерная, но к ней для удобства принято добавлять наименование: Бел (в честь Александра Белла). Бел - крупная единица, соответствует изменению параметра в 10 раз. Поэтому повсеместно применяется одна десятая Бела - децибел [дБ]. Это соответствует изменению параметра ~1,26 раз и примерно соответствует порогу чувствительности слуха к изменению громкости.

Значения параметров, выраженные в логарифмической шкале (конкретно, в дБ) называются уровнями.

По причине невозможности логарифмирования неположительных величин невозможно вычислять уровень мгновенного значения знакопеременной величины (звукового давления и т.д.). Когда говорят об уровнях, речь идет только об огибающей или мгновенной амплитуде. Это одновременно является и положительным и отрицательным моментом. Плюс состоит в том, что слух фиксирует огибающую как одну из характеристик звука, как текущую громкость. Минус в том, что нет ни однозначного математического описания того, что такое огибающая, ни точного представления о том, как именно определяется текущая громкость слуховым аппаратом. В связи с этим, наряду с указанием значения уровня, указывают и способ определения огибающей (пиковые уровни, квазипиковые уровни, средние уровни).

Для того, чтобы значение уровня не зависело от того, какая из характеристик (линейных или энергетических) является параметром, уровень вычисляют различным образом для линейных и энергетических характеристик:

для энергетических параметров (мощность, энергия, интенсивность, плотность энергии): ;

для линейных параметров (давление, колебательная скорость, напряжение, ток): .

Классификация уровней

По физической природе параметра:

1) акустические;

2) электрические.

По существу опорного уровня:

1) абсолютные (опорный уровень физически обусловлен);

2) относительные.

Физически обусловленные нули акустических уровней:

pзв0=2*10-5 Па, I0=10-12Вт/м2, e=3*10-15 Дж/м3. Соотношения эти неточно укладываются в формулы взаимосвязи интенсивности, давления, и плотности мощности (см. Лекцию 3), но тем не менее ограничиваются одной значащей цифрой, поскольку характеризуют они самый тихий звук, который еще может быть воспринят человеком, а эта величина не слишком стабильная и от индивида к индивиду, и в зависимости от характера звука. При нормальных атмосферных условиях акустические уровни по давлению, интенсивности и плотности энергии равны: Np»NI»Ne, поэтому обычно не указывают, по какому физическому параметру вычисляется акустический уровень.

Условный нуль абсолютных электрических уровней: 1 мВт@600 Ом. При этом p0=1 мВт, u0=0,775 В, I0=1,29 мА. Уровни мощности, напряжения и тока в одной и той же точке могут различаться в зависимости от сопротивления нагрузки. Поэтому к названию децибела добавляется наименование физической величины, по которой измеряется уровень: дБн, дБт, дБм. дБ/Вт, дБ/мкВ означает уровень относительно Ватта и микровольта соответственно.

Статика восприятия громкости

По отношению к громкости есть два параметра:

1. Уровень громкости - это уровень тона частотой 1 кГц, субъективно равного по громкости оцениваемому сигналу. Единица измерения - фон. Недостаток этой единицы - опора на синусоидальный сигнал - сигнал, который в естественных условиях не встречается и воспринимается с заметными погрешностями. Уровень громкости - это не громкость, это уровень сигнала с нивелированием частотной зависимости чувствительности слуха. Изменение уровня громкости, например с 40 до 80 фон не означает, что субъективная громкость изменяется вдвое.

2. Собственно субъективная громкость измеряется в сонах. 1 сон - громкость тона 1 кГц при уровне 40 дБ. Двукратное увеличение субъективного ощущения громкости происходит при увеличении уровня сигнала до 50 дБ.

G(сон)=2(L(фон)-40)/10 40<L<120.

Графически зависимость субъективной громкости от уровня громкости представлена на рис. 6.1.


Рис. 6.1. Связь между уровнем громкости и громкостью

Для f=1000 Гц, когда уровень громкости в фонах численно равен уровню в дБ:

Эта зависимость носит название закона Стивенса (степенная зависимость громкости от характеристик поля): громкость в средней части звукового диапазона частот пропорциональна линейным характеристикам звукового сигнала в степени 0,6 или энергетическим характеристикам в степени 0,3.

Динамика восприятия громкости

Динамику восприятия громкости можно разделить на 2 составляющих:

1) по времени;

2) по амплитуде.

Динамика восприятия громкости по амплитуде

Основное понятие в этом отношении - дифференциальный порог по уровню громкости. Зависит от того, предъявляется ли сигнал для сравнения. Для L>40 дБ составляет 0,5...1 дБ (что и объясняет распространение дБ в качестве единицы уровня).

Динамика восприятия громкости по времени

Интервал времени, в течение которого вычисляется большая часть характеристик сигнала, составляет от 80 до 140 мс (в зависимости от экземпляра субъекта) и называется временным окном слухового анализатора. Средняя величина составляет около 100 мс.

После восприятия атаки сигнала чувствительность слуха притупляется на 30...40 мс. Этот феномен называется законом первой волны и служит для подавления реверберации. Полезно отметить, что снижается чувствительность обоих ушей, даже если сигнал подается на одно. Сигнал, приходящий после 30...40 мс, уже воспринимается как эхо.

6.1.2. Восприятие высоты

Статика

Числовое значение частоты в Гц, как и расположение высоты в музыкальном звукоряду, отражают не субъективное ощущение высоты, а параметры стимула, который это ощущение вызывает. Субъективное ощущение высоты тона H измеряется в мелах (здесь можно усмотреть аналогию с уровнем громкости в фонах и громкостью в сонах). Зависимость субъективного ощущения высоты от частоты сигнала представлена на риc. 6.2. Видно, что на высоких частотах ощущаемая высота растет медленнее, чем частота сигнала. Это объясняется насыщением импульсной активности нейронов и сменой алгоритма определения высоты. Для того чтобы определиться с единицей изменения высоты, устанавливают численное соответствие между высотой и частотой в некоторой точке. В качестве такой точки выбирается либо "до" малой октавы (131 Гц), либо 1000 Гц. Первый вариант более удобен, поскольку обеспечивает численное соответствие высоты и частоты в наиболее употребительном диапазоне.


Рис. 6.2. Зависимость субъективного ощущения высоты от частоты сигнала

Динамика

Высота тона в диапазоне 100-1000 Гц определяется приблизительно за 5 периодов сигнала вне зависимости от его частоты и за 5 мс при более высоких частотах.

Алгоритм определения высоты, как и многие другие алгоритмы обработки информации в нервной системе, плохо работает на стационарном сигнале. В слуховой коре больших полушарий мозга имеются группы клеток, которые никак не реагируют на чистые тоны, зато реагируют на изменение параметров сигнала, причем одни нейроны реагируют только на повышение частоты, другие - только на понижение, третьи на любое изменение. Эти частотные детекторы реагируют на частотную модуляцию с частотой до 7...12 Гц и наибольшую чувствительность имеют, когда во временное окно слухового анализатора укладывается половина периода частоты модуляции, что соответствует частоте модуляции 3,5-6 Гц. Этим свойством слухового аппарата объясняется большое эстетическое значение вибрато. А для электроакустики это означает недопустимость эффекта Доплера (возникает, когда излучение некоторого тона сопровождается перемещением подвижной системы излучателя другими компонентами сигнала), детонации (знакопеременные отличия скорости воспроизведения сигнала от скорости записи) и джиттера (знакопеременное несоответствие момента выдачи очередного отсчета в цифровых системах номинальному значению).

Кривые равной громкости

Кривые равной громкости (рис. 6.3) отображают зависимость уровня громкости от частоты. Измеряются они установкой такого уровня сигнала заданной частоты, чтобы он был равногромким сигналу частотой 1 кГц. Это своего рода АЧХ слуха, причем изменяющаяся с уровнем громкости.


Рис. 6.3. Стандартные кривые равной громкости: 1 - порог слышимости; 2 - порог болевого ощущения

Воспринимаемый диапазон частот составляет в лучшем случае 16 Гц - 20 кГц. Данный диапазон частот называется звуковым. Более низкие частоты называются инфразвуковыми и слухом не воспринимаются, но могут ощущаться в виде кинестетических ощущений. Наиболее значимы при таком восприятии частоты, совпадающие с резонансными частотами различных органов тела: желудка, мембраны, легких и т.д. Они составляют единицы Гц. Кроме того, излучение чистого инфранизкого тона без заметных на слух гармоник (которые уже попадают в звуковой диапазон) чрезвычайно сложная задача, поэтому наличие инфранизких частот может фиксироваться косвенно по наличию заметных гармоник.

Нужно отметить, что никакая частота или узкий диапазон частот не воспринимаются отдельно хотя бы потому, что для широкополосного сигнала энергия, переносимая на отдельной частоте, очень мала. Кроме того, чувствительность слуха по отношению к одним компонентам сигнала может меняться под воздействием других, поэтому непосредственная неслышимость некоторого диапазона частот не повод утверждать, что этот диапазон частот не вносит вклада в общее ощущение от звука.

Неравномерность чувствительности слуха вызвана следующими обстоятельствами:

1) плавный спад в области НЧ: волосковые клетки, как и многие другие, реагируют не на наличие, а на изменение стимула;

2) выброс чувствительности в окрестности 3-4 кГц: резонанс слухового прохода;

3) спад в области ВЧ, достаточно быстрый, в ультразвуковой области ~60 дБ/окт, связан с фильтрующими свойствами среднего уха и с тем, что экстремум колебаний кортиева органа оказывается вблизи точки крепления основной мембраны. С возрастом верхняя граница диапазона слышимых частот снижается.

6.2. Восприятие пространственных характеристик

Локализация источника звука - процесс определения его пространственных координат.

Кажущийся источник звука (КИЗ) - субъективный звуковой образ источника звука, располагаемый определенным образом в пространстве. Положение и количество КИЗ не всегда адекватно расположению и количеству реальных источников звука. Более того, задача электроакустики в плане передачи пространственных характеристик - именно формирование иллюзий, неадекватных КИЗ, поскольку положение акустических систем фиксировано, а пространственные характеристики первичных источников меняются.

Процесс локализации можно разделить на две части:

1) угловая локализация;

2) локализация по дальности.

Будем рассматривать их по порядку.

6.2.1. Угловая локализация

По современным представлениям человек использует четыре дублирующих и дополняющих друг друга механизма угловой локализации. Результатом их совместного применения является точность, которая на фоне размера апертуры и количества антенн (2 шт., разнесенные на ~ 20 см) является просто невероятной.

1. По азимуту (b).

1.1. b=00.

1.1.1. Широкополосный сигнал: ±1%.

1.1.2. Непрерывный тон, положение головы фиксировано: ±5%.

1.2. b=±400, непрерывный тон, положение головы фиксировано: ±15%.

1.3. b=±900, широкополосный сигнал: ±5%.

2. По углу места для сложных сигналов: ±2%.

3. По дальности.

3.1. Звуки метронома, речь на расстоянии 3-5 м: ±2%.

3.2. Часовой механизм на расстоянии 1 м: 55%; 8 м: 22%.

3.3. щелчки, звонки, тональные импульсы на расстоянии 0.5-1.5 м: 13-15%.

Заметные ошибки локализации в обыденной обстановке явление весьма редкое.

Механизмы угловой локализации следующие:

1) анализ кода, заложенного в моноуральный (воспринимаемый одним ухом, точнее каждым ухом в отдельности) сигнал углозависимой АЧХ ушной раковины;

2) анализ бинауральных различий ушных сигналов;

3) анализ изменений ушных сигналов, возникающих при перемещении головы;

4) использование информации, поставляемой другими сенсорными системами.

Будем рассматривать их по порядку.

Использование углозависимой АЧХ ушной раковины

Положение пеленговых полос (специфических для данного направления участков подъема или провала АЧХ) приведено в таблице.

Направление прихода звука по углу места (e)

F, кГц

Спереди (e=-150...450)

0,25...0,6; 3...7

Сзади (e=+1350...1650)

0,7...1,8; 9...14

Сверху (e=-450...1350)

7...9

Данный механизм нормально работает, если спектр звука перекрывает несколько пеленговых полос. При этом большое значение имеет предварительное знакомство слушателя со спектром локализуемого источника.

Это единственный способ локализации по углу места при неподвижной голове и отсутствии информации о положении источника со стороны других сенсорных систем. Он является причиной возникающей иногда иллюзии вертикального разделения КИЗ при расположении громкоговорителей в одной плоскости.

Ниже 250 Гц размеры ушей и головы не позволяют иметь существенную зависимость АЧХ от угла и этот механизм не в состоянии определить направление на источник. Важно, однако, отметить, что источников, спектр которых был бы полностью сосредоточен в диапазоне до 250 Гц, практически не бывает (даже при специальном стремлении к этому, как в случае с так называемыми сабвуферами), поэтому большинство источников звука по углу места локализуются.

Анализ бинауральных различий ушных сигналов

Это основной механизм локализации по азимуту. Обеспечивает локализацию в пределах b=±900.

В бинауральных различиях ушных сигналов можно выделить две составляющих:

1) амплитудные различия, возникающие вследствие экранирующего действия головы;

2) фазо-временные различия, возникающие за счет разной длины пути волны до ушей.

Анализируются обе составляющих, что обеспечивает дублирование и взаимодополнение результатов. Важно, чтобы результаты амплитудных и фазовых оценок не конфликтовали друг с другом. Подсознательный конфликт разных механизмов оценки параметров звука (не только пространственных) может вызывать непонятный дискомфорт при прослушивании. В ряде случаев такую ситуацию могут создавать электроакустические системы, например, при прослушивании на стереотелефоны фонограммы с "интенсивностной" стереофонией в отсутствие "временной".

Основная проблема измерения фазовой составляющей бинауральных различий - неоднозначность определения направления, т.к. на частотах выше ~800 Гц разность фаз может составлять несколько периодов. Решается эта проблема тем, что на каждую волосковую клетку действует узкополосный сигнал и неоднозначность фазового сдвига можно устранить, анализируя фазовый сдвиг огибающих. Это эквивалентно измерению не фазового сдвига, а скорости изменения фазового сдвига с частотой (а это есть групповое время запаздывания). Такой способ корректно работает в диапазоне ширин критической полосы слуха до 800 Гц, т.е. до 3-4 кГц. В области более высоких частот работа данного механизма локализации может быть нарушена при доминировании в огибающей периодического сигнала с частотой более 800 Гц, т.е. и сдвиг огибающих может превышать один период. Однако это маловероятно, диапазону частот свыше 4 кГц присущи в основном атональные звуки с небыстрой огибающей. К тому же работает дублирующий механизм анализа амплитудных различий.

Наибольшее значение при оценке сдвига огибающих имеет нарастающий фронт волны. Кроме того, лучше, если сигнал имеет при этом длящееся продолжение, это удерживает на нем внимание и способствует наиболее точному определению как тембральных, так и пространственных характеристик. Таково большинство музыкальных звуков.

Ниже 250 Гц различия ушных сигналов несущественны и этот механизм также не работает.

Пространственная дифференциация нескольких источников звука обеспечивается большим количеством каналов обработки.

Синтез апертуры при сканирующих движениях головы

Из изменений ушных сигналов при перемещении головы можно извлечь информацию о пространственных координатах источника. Например, если при повороте головы не происходит изменений ушных сигналов, то источник имеет угол места 900. Этот механизм является одной из причин эффекта локализации звука внутри головы при прослушивании передач через головные телефоны и подъема центра стереопанорамы при чрезмерной ее ширине, поскольку в обоих случаях при повороте головы ушные сигналы изменяются меньше, чем должны были бы при данном угловом положении КИЗ.

Поворот головы в горизонтальной плоскости может служить основой для решения вопроса спереди / сзади, а качание влево-вправо - для решения вопроса сверху-снизу. Эту же задачу выполняет слежение за спектром в пеленговых зонах. Некоторые эксперименты показывают, что если между этими двумя механизмами возникает конфликт, то приоритет имеет оценка, полученная при сканирующих движениях головы.

Для нормальной работы этого механизма необходима информация о направлении и скорости перемещения головы. Такая информация поставляется тремя сенсорными системами:

1) зрительной системой;

2) вестибулярным аппаратом (датчики вестибулярной системы - полукружные каналы, совмещены с улиткой);

3) тензомоторными датчиками шейных мышц.

6.2.2. Локализация по дальности

Механизм локализации по дальности наименее изученный и наименее точный. Точность определения дальности составляет в лучшем случае 13% (щелчки, звонки, тональные импульсы на расстоянии 0,5-1,5 м). Но и это для пассивного пеленгатора с базой около 20 см - поразительный результат. Вероятно, основной причиной локализации звука внутри головы при прослушивании на стереотелефоны является корректная локализация действительного источника звука по дальности.

Более-менее определенно можно указать лишь параметры, на которые в принципе можно ориентироваться при локализации по дальности.

1. Громкость звука. В совокупности со сведениями о мощности источника и условиях распространения это позволяет определить дальность.

2. Спектральный состав. При удалении источника звука высокие частоты затухают быстрее. Если известен спектральный состав сигнала источника, то можно определить дальность.

3. Кривизна волнового фронта.

4. Акустическое отношение (связано с дальностью).

5. Изменение ушных сигналов при перемещениях.

6. Использование информации от других сенсорных систем.

Полезно отметить следующие экспериментально установленные феномены локализации по дальности.

1. При увеличении громкости звука и неизменном положении источника КИЗ приближается к слушателю.

2. При удалении источника звука на расстояние более 3 м КИЗ начинает отставать от источника. Таким образом, при бесконечном удалении источника слуховой образ не может удаляться бесконечно далеко. Граница, за которую не может удалиться кажущийся источник звука, называется акустическим горизонтом.

Большое значение имеет ознакомление с источником, т.к. для корректной локализации по дальности нужны сведения о мощности и спектральном составе сигнала источника.

Хостинг от uCoz