Электроакустические устройства
Конспект лекций
Copyright © Эдуард Семенов, 2001

ЛЕКЦИЯ 5 (4 ЧАСА). ВОСПРИЯТИЕ: ОБЩИЕ ЗАМЕЧАНИЯ, ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА СИГНАЛА

5.1. Общие замечания о слуховом восприятии

Вопрос описания, моделирования слуха и восприятия является краеугольным, поскольку определяет критерии качества звукозаписи/воспроизведения и, таким образом, облик электроакустической аппаратуры в целом.

Восприятием называется отражение объектов и явлений в виде образов или символов. Речь пойдет о восприятии звуковых явлений.

С точки зрения системотехники слуховой образ есть неязыковая модель звукового поля. Для нее характерны все свойства, присущие моделям вообще. Важнейшие из них:

1. Целостность. Множество вызвавших образ характеристик поля воспринимается как новая самостоятельная единица - собственно образ.

2. Обособленность от фона. Обратная сторона целостности.

3. Различимость частей. Возможность различить отдельные составляющие образа, называемые признаками образа.

4. Неразделимость на части. Это свойство проявляется двояко:

1) отдельно взятый признак воспринимается не так, как он воспринимался в составе образа;

2) образ, из которого изъят признак, не обладает свойствами целого образа.

5. Эмерджентность. Свойства образа не являются суммой свойств признаков образа.

Перечисленные свойства образов человеку не просто полезны, а необходимы, но иногда проявляется и их оборотная сторона. С точки зрения все той же системотехники образ является агрегатом-оператором, который задает внешнюю целостность входящих в образ признаков. Общими свойствами всех агрегатов являются:

1) потеря части информации о входящих в образ признаках;

2) возможность неадекватного агрегирования.

Практически с этими свойствами сталкивается всякий, кто пытается проанализировать слуховой образ (анализ, точнее декомпозиция, есть операция, обратная агрегированию). В связи с неразделимостью образа на части и в связи с тем, что анализируемый экземпляр образа является единственным, аналитик собственными руками необратимо разрушает то, что он анализирует.

Типичные составляющие (элементы) образов называются ощущениями. Ощущения, относительно которых не все ясно, называются сложными (например, тембр). Ощущения, которые не обнаруживают составной структуры или она очевидна, называются простыми (примеры: высота тона, громкость). Ощущения могут быть зафиксированы в измерительных шкалах. Сложные ощущения можно зафиксировать в самой слабой шкале - шкале наименований. Эта шкала не допускает упорядочивания. Простые ощущения измеримы в более сильных шкалах:

1) порядковых - допускают упорядочивание без указания расстояний между измерениями;

2) интервальных - допускают численную характеристику расстояний между измерениями;

3) шкалах отношений - есть физически обусловленный нуль шкалы;

4) абсолютных - и ноль и единица измерения физически обусловлены.

Исследование соотношений между результатами чувственных экспериментов и физическими параметрами раздражителей составляет предмет психофизики. Раздел психофизики, посвященный звуковым образам, называется психоакустикой.

В механизме слухового восприятия можно выделить две составляющие:

1) акустоэлектрическое преобразование звукового сигнала;

2) обработка нервной системой.

Будем рассматривать их по порядку.

5.2. Акустоэлектрическое преобразование сигнала

Акустоэлектрическое преобразование звукового сигнла осуществляется по следующим этапам.

1. Трансформация звукового давления.

2. Преобразование перемещения барабанной перепонки в сжатие жидкости внутреннего уха.

3. Механоэлектрическое преобразование звукового сигнала с функциональным Фурье-подобным преобразованием.

Рассмотрим их.

5.2.1. Трансформация звукового давления

Выполняется наружным ухом (рис. 5.1), конкретно - ушной раковиной (аурикулой) 1. Кроме того, на этом этапе осуществляется акустическая пространственная обработка сигнала. В зависимости от направления прихода волны в спектре сигнала формируются характерные зоны подъема и спада АЧХ, получившие название пеленговых зон (подробнее см. Лекцию 6).


Рис. 5.1. Устройство органа слуха

5.2.2. Преобразование перемещения барабанной перепонки в сжатие жидкости внутреннего уха

Выполняется это преобразование в среднем ухе. При этом происходит также дальнейшая трансформация звукового давления.

Барабанная перепонка вогнута внутрь и натянута. Ее перемещение воздействует на систему рычагов, состоящих из трех слуховых косточек: молоточка 4, наковальни 5 и стремени 6, шарнирно соединенных между собой суставами и оснащенными мышечным аппаратом из двух мышц 7. Рукоятка молоточка прикреплена к барабанной перепонке, основание стремени закрывает собой овальное окно, за которым находится внутреннее ухо. Стремя в овальном окне может совершать возвратно-поступательные движения. Коэффициент трансформации давления от барабанной перепонки к овальному окну ~ 1:100. С целью защиты барабанной перепонки от повреждения, полость внутреннего уха соединена евстахиевой трубой с носоглоткой. Это обеспечивает выравнивание статического давления по обе стороны ее.

5.2.3. Механоэлектрическое преобразование сигнала с функциональным Фурье-подобным преобразованием

Необходимость предварительного функционального преобразования связана с тем, что скорость обработки сигнала центральной нервной системой значительно ниже скорости изменения звукового сигнала (частота a-ритма головного мозга около 7 Гц). Осуществляется механоэлектрическое преобразование во внутреннем ухе, точнее в улитке. Расположена улитка в височной кости. Там же расположены элементы вестибулярного аппарата - органа определения пространственного положения. Совмещение уха и вестибулярного аппарата способствует более точному отслеживанию перемещений ушей с целью выделения пространственных характеристик источника звука из изменений ушных сигналов при перемещении головы. На рисунке улитка показана спрямленной, фактически же она свернута в спираль наподобие настоящей улитки. Длина канала улитки составляет ~35 мм.

Пространство улитки разделено двумя мембранами (основной мембраной 10 и мембраной Рейснера 11) на три заполненных жидкостями спиральных канала:

1) лестницу преддверия 12 (заполнена перилимфой);

2) серединную лестницу (заполнена эндолимфой);

3) лестницу барабана 13 (заполнена перилимфой).

Овальное окно является входом в лестницу преддверия. Лестница барабана также соединена со средним ухом упругой мембраной. Перилимфатические полости соединены между собой через отверстие в вершине улитки - геликотрему. Эндолимфа и перилимфа имеют разные вязкость и плотность. Основная мембрана представляет собой аморфную ненатянутую перепонку, закрепленную по краям. Длина ее около 32 мм, ширина у овального окна около 0,1 мм и вблизи геликотремы 0,5 мм. Со стороны эндолимфы на основной мембране расположен кортиев орган 16, покрытый покровной мембраной 17. Кортиев орган содержит множество волосковых клеток, чувствительных к давлению и деформациям основной мембраны. С волосковыми клетками контактируют окончания нервных волокон. В кортиевом органе производится преобразование давления в электрические импульсы. Кроме того, некоторые волосковые клетки (называемые "наружными") получают команды от мозга: при больших уровнях сигнала они удлиняются и снижают амплитуду колебаний основной мембраны, а при очень малых уровнях сигнала дополнительно раскачивают мембрану.

Теперь мы подошли к вопросу о динамических процессах в улитке. Этот вопрос на сегодня не является вполне ясным, ряд нижеперечисленных утверждений, возможно, будут со временем дополнены или пересмотрены. Итак:

1. В жидкостях внутреннего уха волновые процессы отсутствуют, т.к. во всем слышимом диапазоне длина волны в них больше длины мембраны, поэтому к мембране по всей ее длине приложено одно и то же давление.

2. Т.к. мембрана закреплена по краям, избыточное давление вызывает прогиб мембраны. Мембрана колеблется в режиме бегущей волны. Стоячие волны не возникают потому, что отражение от вершины улитки практически отсутствует. Это утверждение выдвинуто Георгом Бекеши.

3. Направление распространения волны зависит не от точки возбуждения (давление со стороны жидкости на все точки мембраны одинаковое), а от распределения жесткости мембраны. Волна распространяется от более жесткого конца (овального окна) к менее жесткому (геликотреме).

4. Зависимость прогиба основной мембраны y от удаления от овального окна x и частоты может быть описана следующей функцией (рис. 5.2):

.

yмах - функция с одним максимумом по x. Расположение максимума на оси x однозначно связано с частотой, что позволяет приписать основной мембране шкалу частот.


Рис. 5.2. Семейство зависимостей амплитуды колебания основной мембраны от удаления от стремени для разных частот сигнала

В то же время надо понимать, что волны всех частот пробегают по всем участкам мембраны и, если некоторый участок и вибрирует сильнее, то это не единственный и, возможно, даже не главный фактор частотной селективности кортиева органа. Вероятно, большую роль в обострении (и вообще в формировании) частотной избирательности кортиева органа играют процессы "торможения" чувствительности рецепторов, прилегающих к участку наибольшего возбуждения. Это свойственно и другим сенсорным системам человека. Вероятно для того, чтобы не исключать этот эффект, нобелевский лауреат Георг Бекеши, получивший примию за исследование процессов в улитке, в качестве модели кортиева органа использовал собственную руку и писал о работе своей модели: "Хотя бегущая волна распространялась по всей длине мембраны почти с одинаковой амплитудой, мне казалось, что вибрирует лишь участок мембраны длиной 2...3 сантиметра" (общая длина модели составляла 30 см). Поэтому правильней фильтрующие функции рис. 1 рассматривать как результат интегрального действия механических свойств улитки и торможения чувствительности рецепторов вокруг экстремума.

Ширина экстремума функций рис. 5.2 определяет ширину зоны возбуждения кортиева органа по частоте и называется критической полосой слуха. Косвенно критическая полоса слуха оценивается по исследованию маскировки чистого тона полосой шума с той же средней частотой. До определенного предела безразлично, увеличиваем ли мы спектральную плотность мощности шума или расширяем его полосу. Этот предел и соответствует ширине зоны возбуждения.


Рис. 5.3. Зависимость ширины частотной группы слуха от частоты сигнала

Скорость изменения узкополосного сигнала пропорциональна его полосе частот, поэтому данное функциональное преобразование позволяет снизить требования к скорости обработки давления на отдельных участках кортиева органа до физиологически реальных пределов.

Важно отметить, что для спектральных составляющих, входящих в одну частотную группу, на слуховое восприятие влияют фазовые соотношения между ними. Т.е. наклон фазовой характеристики не должен превышать некоторой величины, за которой компоненты в одной частотной группе существенно расфазируются. Определить этот наклон (а это по существу групповое время запаздывания (ГВЗ)) можно как величину, обратную ширине частотной группы:


Рис. 5.4. Оценка порога чувствительности слуха к фазовременным искажениям исходя из ширины частотной группы слуха

Этот же эффект можно рассматривать и с другой стороны: как игнорирование слухом частотной неравномерности (дисперсии) группового времени запаздывания величиной несколько миллисекунд. Это должно рассматривать не как досадный недостаток разрешающей способности, а как полезный эффект, который игнорирует типичные и не несущие полезной информации искажения сигнала при его излучении и распространении. Это свойство, однажды возникнув в процессе эволюции, влечет за собой самые глобальные последствия:

1) основными слышимыми свойствами сигнала становятся его спектральные признаки: высота и тембр;

2) практическую значимость приобретают сигналы хоть и широкополосные, но с относительно медленно меняющимися свойствами: периодические сложной формы (тональные) и шумоподобные (нетональные);

3) точная форма сигнала не является существенной (как, например, для видеосигнала), поэтому прямое сравнение форм звуковых сигналов, например, по методу наименьших квадратов, совершенно бессмысленно (равно как и наблюдение их на экране осциллографа) - энергия разности двух идентичных на слух сигналов может быть сопоставима с энергией самих сигналов;

4) аналогичное игнорирование фазовых соотношений между различными частотными группами при хранении сигнала позволяет строить эффективные алгоритмы компрессии звукового сигнала, например, mpeg, vqf.

Итак, небольшие искажения ГВЗ и формы сигнала являются допустимыми, однако уложиться под кривую, приведенную на рисунке довольно сложно; часто на это вообще не обращают внимания.

Нельзя не отметить, что функциональное преобразование сигнала в кортиевом органе только лишь подобно преобразованию Фурье. Иначе и быть не может, поскольку "чистое" преобразование Фурье некаузально и вообще физически нереализуемо. Внимания этому моменту уделяется недостаточно, в частности, непосредственно приписывать кортиеву органу шкалу частот, строго говоря, некорректно. За неимением лучшей модели, этим подходом можно пользоваться, но помнить при этом о его упрощенности.

Колебания основной мембраны нелинейны. При уровнях сигнала свыше 90 дБ это становится существенным. Новобразования, появившиеся в результате нелинейности колебаний мембраны сложно отличить от физически поступающих в ухо звуков и сделать это можно только для простейших сигналов, таких как набор нескольких синусоид с заранее известными параметрами.

5.3. Обработка сигнала нервной системой

В процессе обработки участвуют две важнейших составляющих.

1. Память. В памяти хранятся врожденные и накопленные жизненным опытом образы и реакции. Важнейшим свойством памяти является хранение характерных, типичных черт образа и нивелирование случайных, не имеющих отношения к делу характеристик. Иными словами в памяти хранятся обобщенные образы "скрипка вообще", "певческий голос вообще" и т.д. На этом свойстве основывается все современное здание Hi-Fi (high fidelity - высокая верность (англ.)) и Hi-End (high end - наивысшая точка (англ.)), т.к. практически значимой для слушателя является верность именно внутренним, хранящимся в памяти, образам звуков.

2. Внимание - осознаваемое субъектом ограничение поля восприятия, фокусирование восприятия на определенной его части. Например, благодаря вниманию человек способен выделить голос собеседника из шума толпы или звучание отдельного инструмента в оркестре.

Сканирование поля восприятия - перевод внимания с одних аспектов поступающего потока информации на другие. Это очень важный процесс, поскольку исследования показывают, что одновременно может восприниматься один (или очень небольшое количество) образов.

Установка на доминанту - априорная (доопытная) готовность субъекта к селективному восприятию отдельных аспектов явления, включая предполагаемый результат восприятия. Обычно установки формируются как обобщение предыдущего опыта восприятия похожих явлений или как отображение текущих целей воспринимающего субъекта. В других случаях формирование установок происходит под действием авторитетного мнения или мнения большинства. Это тоже учет опыта, только чужого, если нас удастся убедить, что это опыт. Это полезно, но только в том случае, если при конфликте установки с чувственным опытом приоритет остается за реальными ощущениями. Не особенно преувеличивая, можно сказать, что тренировка слуха музыкантом или аудиофилом представляет собой выверенную систему установок на доминанту.

Прямое сравнение образа и объекта невозможно, т.к. объект описывается в терминах физики, а образ в терминах ощущений. Но можно говорить об адекватности образа, если выводы, сделанные наблюдателем, подтверждаются опытом. Неадекватный образ называется иллюзией.

Константностью восприятия называется поддержание адекватности образов в условиях, когда физические воздействия на органы чувств (стимулы) подталкивают к обратному. Примером служит поддержание постоянной оценки мощности источника звука при его перемещениях.

Порог - значение стимула, при котором он начинает восприниматься. Большинство порогов зависят от действия других стимулов. Возможные варианты совместного действия стимулов следующие.

1. Индифферентное - стимулы не влияют на пороги друг друга.

2. Синергичное - один или оба порога понижаются (демаскировка). Взаимно демаскируются, как правило, компоненты корреляционно связанные друг с другом. Например, после того как Вы включили радиоприемник, можете заметить, что у соседей включена та же программа, хотя до этого Вы ничего не слышали. Механизм демаскировки в данном случае состоит в концентрации внимания на демаскирующем сигнале и, соответственно, похожих на него. Взаимная демаскировка проявляется, вероятно, и по отношению отдельным элементам сигнала, однако, содержательное исследование этого эффекта крайне затруднено неразделимостью образа на части, проявляющейся в этом случае особенно остро.

3. Антагонистическое - один или оба порога повышаются (маскировка). В этом случае один из стимулов называется маскером.

Стимулы не обязательно должны иметь одинаковую природу. Из других сенсорных систем по отношению к слуху особенно заметна (де)маскировка со стороны зрительной системы. Например, в телевизионных системах искажения звука в целом менее заметны. Это пример маскировки. Визуальный захват источника звука повышает точность локализации (демаскировка). И наоборот, отсутствие зрительной информации приводит к искажениям в получаемых эмоциях, даже если звуковой сигнал передан совершенно точно. Поэтому математически точная передача даже трехмерного звукового поля не является безусловным идеалом. Возможно, более похожее на живой концерт ощущение человек испытает от в чем-то гипертрофированного (т.е. формально искаженного) звучания.

5.3.1. Кодирование сигналов в нервной системе

Волосковые клетки и нейроны работают в бинарном режиме. С волосковой клеткой контактирует "входной" отросток нейрона - дендрит, оканчивающийся синапсом. Между синапсами и источниками сигнала (в данном случае волосковыми клетками) имеется небольшой промежуток, называемый синаптической щелью. При акустическом воздействии волосковые клетки выделяют в синаптическую щель вещество, называемое медиатором. Плазма нейрона имеет электролитические свойства - ее молекулы разделены на положительно и отрицательно заряженные ионы. Медиатор изменяет разность потенциалов, приложенную к клеточной мембране, и через нее возникает обмен ионами между плазмой нейрона и межклеточной жидкостью. Этот процесс занимает 1-2 мс. Электрохимический процесс распространяется вдоль нейрона и дойдя до выходного отростка - аксона, завершается выделением медиатора в следующую синаптическую щель. Скорость распространения сигнала по аксону 0,1-10 м/с.

Надо отметить, что модели механизмов кодирования сигнала и обработки в центральной нервной системе носят характер достаточно обоснованных, но, все-таки, гипотез: точно известны лишь входной звуковой сигнал, результат обработки и некоторые сведения о видах активности групп нейронов и взаимосвязях отделов нервной системы. "Срисовать" алгоритм работы мозга крайне сложно в силу большого количества, однотипности элементов нейронной сети и затруднительности неразрушающего исследования.

По современным представлениям слух использует два разных алгоритма кодирования сигнала.

1. На частотах до 3-4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300-400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1-2 мс. Поэтому на средних частотах близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300-400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3-4 кГц.

2. На частотах выше 4 кГц возможности организации последовательной работы нейронов исчерпываются, и кодируется не сам сигнал, а его огибающая. Сигнал нейрона уже не несет информации о частоте, частотная информация извлекается из точки его подключения к коритеву органу. Иными словами, для определения высоты тона используется положение максимума амплитуды бегущей волны на основной мембране.

В пользу изменения алгоритма определения частоты свидетельствует и тот факт, что музыкальный звукоряд простирается только до 4 кГц. Замена кодирования мгновенных значений сигнала на частотах выше 4 кГц кодированием огибающей имеет весьма важные последствия.

1. Разрешающая способность по частоте в диапазоне высоких частот заметно падает.

2. Наиболее важным становится наличие высокочастотного сигнала с определенной огибающей и не столь важно, какая у него частота заполнения (в пределах трети октавы).

3. Если огибающая высокочастотного сигнала является периодическим сигналом звуковой частоты, то ее частота и воспринимается в качестве высоты тона. В спектральной области это означает, что в качестве высоты тона воспринимается не какая-либо физически существующая частота, а период сложного сигнала.

3. Разделимость сигналов нескольких источников заметно падает, если они не содержат спектральных составляющих ниже 4 кГц. Если же низкочастотные составляющие присутствуют, то разделение, вероятно, производится "присоединением" высокочастотного призвука к низкочастотному сигналу со сходным поведением во времени.

Итого: до 4 кГц царство тонального звука (деревянные духовые, фортепиано), а выше - царство нетонального (атаки, щипки струн и т.д.). Использование этого факта при конструировании АС может быть очень продуктивным: СЧ/ВЧ раздел на частоте 4 кГц с хорошим акустомеханическим спадом АЧХ среднечастотного громкоговорителя позволяет получить мягкий тональный звук и не отягощенный интермодуляцией нетональный.

Следующая лекция
Хостинг от uCoz