Почему одни звуки дарят нам удовольствие, а другие заставляют содрогнуться? Как музыка способна вызывать эмоции, а шум – утомлять? И каким образом форматы вроде MP3 «обманывают» наш слух, уменьшая размер аудиофайла почти без потерь качества? Ответы на эти вопросы дает психоакустика – наука о том, как человек субъективно воспринимает звук. В этой статье мы поговорим о влиянии звука на наше сознание и чувства, разберем, почему некоторые тембры кажутся нам теплыми и приятными, а другие – резкими, узнаем, как наш слух приспосабливается к окружению. А еще – раскроем секрет, за счет чего аудиокодеки с потерями вроде MP3, AAC или Ogg Vorbis умудряются удалять “незаметную” информацию и при этом сохранять для нас естественное звучание.

Что такое психоакустика?

Психоакустика – это область науки на стыке акустики, физиологии и психологии, которая изучает субъективные особенности восприятия звука человеком. Проще говоря, акустика как раздел физики оперирует объективными характеристиками звуковых волн (частота, амплитуда, спектр и т.д.), а психоакустика пытается понять, как эти физические стимулы преобразуются нашим слухом в ощущения: громкость, высоту тона, тембр, локализацию звука и эмоциональное окрашивание.

Слуховая система человека – удивительно сложный “прибор”. Наше ухо способно уловить колебания воздуха в очень широком диапазоне частот – примерно от 20 Гц до 20 000 Гц – и в колоссальном диапазоне по интенсивности: от едва ощутимых звуков (порог слышимости около 0 дБ SPL, то есть давление ~20 микропаскалей) до болевого порога порядка 120 дБ SPL (миллионы раз сильнее по давлению!). Тем не менее, то, что звук физически существует, еще не гарантирует, что мы его услышим или распознаем правильно. Психоакустика как раз выявляет ограничения и особенности нашего слуха: какие сигналы мы слышим хорошо, какие с трудом, а какие и вовсе ускользают от восприятия.

Например, известно, что человеческое ухо наиболее чувствительно к звукам в диапазоне примерно 2–5 кГц. Эволюционно это оправдано: именно в этом промежутке лежат важные для выживания звуки – многие компоненты речи (особенно согласные звуки), плач ребенка, крики тревоги. Поэтому даже относительно тихий шум на частоте 3 кГц может показаться нам навязчивым или неприятным, а вот очень низкий гул на 50 Гц той же громкости мы можем почти не заметить. Наша чувствительность нелинейна: на крайних границах диапазона слуха (басовые и ультравысокие частоты) слух “тугой”, а в середине – самый острый.

Кроме того, мы слышим звук неравномерно по частотам. Скажем, сигнал на 100 Гц и сигнал на 1000 Гц с одинаковым звуковым давлением воспринимутся нами как разной громкости. Для количественной оценки таких эффектов ученые строят кривые равной громкости (известные как кривые Флетчера–Мансона): на них показано, какой уровень звукового давления нужен на каждой частоте, чтобы звук субъективно казался человеку одинаково громким. Эти графики наглядно демонстрируют, что наше ухо гораздо более чувствительно в середине спектра, чем на краях. Поэтому, например, тихий высокочастотный писк мы вообще можем не услышать, хотя по измерениям он присутствует.

Звук и эмоции: почему шум тревожит, а музыка успокаивает

Звуки способны влиять на наше эмоциональное состояние напрямую, минуя сознательный анализ. Резкий внезапный шум (взрыв, крик, автомобильный клаксон) запускает у человека рефлекс вздрагивания – мгновенную реакцию организма, при которой учащается сердцебиение, выделяется адреналин, мы готовимся к обороне или бегству. Это древний эволюционный механизм: неожиданные громкие звуки могут сигнализировать об опасности. Даже если мы понимаем умом, что хлопок был, скажем, на праздничной вечеринке, тело все равно реагирует выбросом стрессовых гормонов.

Наоборот, мягкие и стабильные звуковые фоны часто вызывают ощущение комфорта. Шум дождя за окном, шелест листвы или спокойная музыка могут снизить уровень тревоги и стресс. Низкочастотные гулы и гудение в умеренной громкости зачастую действуют успокаивающе, потому что напоминают звуки природы (например, раскаты дальнего грома) или резонанс собственного тела. Недаром колыбельные песни и убаюкивающие мелодии обычно тихие, с преобладанием низких и средних частот, без резких всплесков – это погружает слушателя в ощущение безопасности и расслабленности.

Музыка вообще обладает уникальной способностью вызывать целую палитру эмоций. Веселая, мажорная мелодия поднимает настроение и заряжает энергией, а минорная, меланхоличная композиция может тронуть до слез. Хотя восприятие музыки – сложный психологический процесс, в основе его тоже лежат психоакустические особенности: наше ухо реагирует на сочетания звуков (аккорды, гармонии) как на приятные или напряженные (консонансы vs диссонансы) во многом из-за соотношений частот. Гармоничные сочетания (как октава или квинта) вызывают ощущение устойчивости, потому что их колебания совпадают по периодам регулярно, а вот «косые» комбинации частот создают биения и нерегулярности в колебаниях внутри уха, что может ощущаться как музыкальное напряжение или «острый» звук. Композиторы умело пользуются этим, чередуя моменты созвучия и диссонанса для эмоционального эффекта.

Важно и звуковое окружение. Мы привыкаем ассоциировать определенные звуки с событиями или настроением. Например, отдаленный звук сирены может насторожить, вызвав легкую тревогу, даже если вы точно знаете, что угрозы нет – просто мозг связывает тембр сирены с сигналом опасности. А вот шум прибоя или пение птиц почти универсально воспринимаются как приятный фон, поскольку в естественной среде они никогда не ассоциировались у наших предков с чем-то негативным. Таким образом, звуки влияют на психику как непосредственно через физиологию (раздражая или радуя слух), так и опосредованно через память и ассоциации.

«Теплый» и «резкий» тембр: откуда берутся оттенки звука

Мы часто описываем характер звука словами вроде “теплый”, “мягкий”, “резкий”, “глухой”, “яркий”. За этими метафорами стоят реальные спектрально-временные особенности сигнала и то, как их воспринимает наш слух. Тембр – это окраска звука, определяемая набором обертонов (дополнительных частот помимо основной). Он позволяет отличить, скажем, скрипку от гитары, даже если они играют одну ноту.

Теплым обычно называют тембр, богатый низкими и средними частотами, без избыточного усиления высоких. Такой звук кажется нам полным, округлым, нераздражающим. Например, виолончель или саксофон при спокойной игре обладают теплым, бархатистым тембром – их высокочастотные обертоны не доминируют, и основная энергия сосредоточена в регистре, где ухо чувствует себя комфортно. Нередко “теплота” звука связана и с легкой естественной компрессией или насыщением: аналоговые устройства (ламповые усилители, магнитофонная лента) добавляют тонкие гармонические искажения на низких частотах, сглаживая резкие пики – отсюда легендарное “теплое ламповое звучание”, ценимое аудиофилами.

Резкий или яркий тембр, наоборот, характеризуется выпуклыми высокими частотами, сильными верхними обертонами. Такой звук может восприниматься как колючий, пронзительный. Причина во многом в упомянутой чувствительности уха: избыток энергии в диапазоне 2–5 кГц быстро перегружает наш слуховой аппарат. Пример резкого тембра – звук трубы или скрипки, играющих на forte высокие ноты: в спектре много высокочастотных составляющих, и хотя объективно их громкость может быть не экстремальной, субъективно звучание кажется очень громким и режущим слух. Цифровые искажения (например, «песок» при перегрузе оцифрованного сигнала) тоже часто лежат в верхнем диапазоне, оттого цифрово искаженный звук так неприятен на слух.

Интересно, что восприятие тембра связано не только со спектром, но и со временными характеристиками звука. Например, звук с плавной «атакой» (постепенным нарастанием) обычно кажется мягче, чем звук с резким фронтом. Шумовой компонент тоже влияет: добавление белого шума в сигнал может придать ему шуршащий, “шероховатый” оттенок (как свистящие согласные в речи делают тембр голоса ярче). Наш слух очень тонко анализирует структуру колебаний: если в звуке присутствуют модуляции или биения на частотах порядка десятков герц, это вызывает ощущение шероховатости или дрожания тембра (что может быть как художественным эффектом, так и недостатком, если нежелательно).

Таким образом, “приятность” или “естественность” звучания определяется согласованностью спектра сигнала с возможностями нашего слуха. Звуки, распределенные по спектру равномерно и не акцентирующие болезненно чувствительные частоты, кажутся нам более натуральными. Именно поэтому качественная аудиосистема старается воспроизвести баланс частот, близкий к оригиналу: чтобы ни одна область не выпирала. А если в тракте возникают дисбалансы (например, слишком много высоких или бубнящие басы), мы сразу отмечаем: звук “неестественный”, хотя уловить конкретную причину может только тренированное ухо.

Адаптация слуха к акустической среде

Наш слух – система не статичная, а адаптивная. Мы постоянно подстраиваем чувствительность под окружающий звуковой фон. Это проявляется в нескольких аспектах:

  • Привыкание к фону: Когда мы заходим в шумное помещение, сперва гул кажется оглушающим. Но спустя некоторое время мы “привыкаем” к нему – мозг начинает отфильтровывать постоянный шум и выделять из него важные сигналы (например, речь собеседника). Это явление называется аудиторная адаптация или привыкание. Сначала слуховая система может даже снизить свою чувствительность из-за сильного фона, а когда мы покидаем шумное место, какое-то время ощущается легкая “глухота” – затем нормальная чувствительность восстанавливается.
  • Акустический рефлекс: При очень громких звуках (более ~80 дБ) в ухе срабатывает защитный механизм – мышцы среднего уха (мышца стремени) напрягаются, уменьшая передачу вибрации к улитке. Это снижает воспринимаемую громкость и защищает нежные рецепторы. Если громкий звук длится долго, ухо удерживает этот рефлекс, и некоторое время после прекращения шума мы слышим хуже (эффект временного снижения слуховой чувствительности). Спустя несколько часов чувствительность возвращается. Однако при экстремально сильном звуке или очень длительном воздействии (например, годы работы в шуме) может происходить необратимое снижение слуха.
  • Переключение внимания: Наш мозг умеет фокусироваться на определенном звуке среди многих. Это хорошо известный “эффект вечеринки”: когда вокруг гул голосов, мы способны сосредоточиться на речи собеседника, практически игнорируя остальных. Хотя это скорее когнитивная функция, она тесно связана с психоакустикой – мозг активно использует различия в тембре, пространственном положении звуков и даже прогнозирует по контексту, чтобы вычленить нужный сигнал. В некотором смысле мы можем настроить уши, например, перестав замечать тикание часов или шум уличного трафика, пока они не изменятся.

Эти адаптивные способности слуха помогают нам выживать и комфортно существовать в самых разных звуковых условиях. Но они же подразумевают, что наше восприятие звука не абсолютно: оно зависит от контекста. Зайдя из тихой комнаты в оживленный город, вы первое время перегружены шумом, а вернувшись обратно – тишина может даже звонко “нажимать” на уши, пока слух не адаптируется обратно.

Порог слышимости и различимости: что мы можем (не) услышать

Одно из ключевых понятий психоакустики – пороговые явления. Есть абсолютный порог слышимости – минимальный уровень звука, который среднестатистический человек может услышать в идеальных условиях. Как уже упоминалось, для частоты около 1 кГц он условно принят за 0 дБ (самая тихая слышимая смесь). Но на других частотах порог выше: например, на 30 Гц человеческое ухо начнет что-то слышать только при уровне порядка 40–60 дБ – низкие басы плохо различимы на малой громкости. На высоких 15–18 кГц порог тоже сильно повышается, да еще и с возрастом слух там заметно тускнеет. Поэтому очень тихие звуки или определенные частотные компоненты могут быть просто невидимы для слуха, особенно если они лежат на краях диапазона.

Другой важный предел – порог различимости, или дифференциальный порог. Это минимальная разница между двумя звуковыми сигналами, которую мы способны уловить. Если два тона почти одинаковой частоты, скажем 1000 Гц и 1005 Гц, мы скорее всего не заметим разницы в высоте – она меньше порога различения по частоте (для средних тонов он составляет порядка 0.5–1%). Аналогично, изменение громкости на 1 дБ едва заметно, а менее чем на 1 дБ и вовсе не ощущается большинством людей. Наш слух имеет конечную “чувствительность к изменениям”: шаг меньше определенной величины сливается, не воспринимается как изменение.

Применительно к музыке порог различимости означает, что, например, разлад струн инструмента может не слышаться, пока отклонение высоты тона не превысит несколько центов (сотых долей полутона). Или что изменение уровня звука в миксе на доли децибела не изменит субъективного баланса. Конечно, у тренированного уха (например, у звукорежиссера или музыканта с абсолютным слухом) некоторые пороги ниже, но физические ограничения все равно существуют: ни один человек не различит, скажем, разницу в 0.1 Гц или 0.1 дБ на слух.

Интересно отметить, что пороги могут зависеть от контекста. Если тон идет на фоне тишины, различить его проще, а вот на фоне шума – сложнее (об этом дальше в разделе о маскировании). Также слух лучше уловит различие, если сигналы подаются последовательно с небольшим интервалом, чем если они звучат одновременно или разнесены во времени сильно.

Эффект маскирования: когда один звук прячет другой

Практически каждый сталкивался с ситуацией: один звук заглушает другой. Вы пытаетесь говорить, но рядом ревет техника или музыка, и слов не разобрать – речь маскируется шумом. Маскирование – это психоакустический эффект, при котором присутствие одного (более громкого) звука делает другой звук неслышным, хотя без первого он бы воспринимался.

Маскирование бывает частотным (спектральным) и временным. В первом случае два сигнала звучат одновременно, и один из них по сути “перекрывает” другого по слуховому восприятию. Самый сильный эффект наблюдается, когда частоты близки: например, шум в диапазоне 1000 Гц эффективно скроет тихие сигналы в районе 900–1100 Гц. Если частота маскирующего шума значительно выше или ниже маскируемого сигнала, то влияние слабее – ухо разбивает спектр на своего рода фильтры (их называют критическими полосами), и сильный звук главным образом подавляет сигналы внутри той же полосы. Интересно, что низкие частоты могут маскировать более высокие куда сильнее, чем наоборот. Громкий бас-гитарный тон легко скроет тихий верхний обертон, а вот свисток на фоне тихого баса скорее всего будет слышен, потому что высокая нота не “покрывает” работу уха в низкочастотной области.

При частотном маскировании говорят о пороге маскирования – минимальном уровне тестового звука на конкретной частоте, который можно услышать в присутствии маскирующего шума. Этот порог поднимается рядом с шумом: вплотную к частоте шумового маскира он максимален, а по мере удаления по спектру постепенно снижается до обычного порога слышимости. Пример частотного маскирования: громкий сигнал («маскирующий» тон, обозначен вертикальной полосой) поднимает порог слышимости (кривая с горбом) вокруг своей частоты, скрывая тихий звук («masked sound») под этой приподнятой кривой порога. Например, если включить громкий тон на 1 кГц, то все тихие звуки от 800 до 1200 Гц (условно) окажутся под порогом – ухо их не вычленит из общего сигнала. Другими словами, мощный тон создаёт в спектре своего рода «теневую зону», в которой более тихие звуки оказываются скрыты от слуха.

Временное маскирование – похожий эффект, но в разрезе времени. Громкий звук не только перекрывает тихий, пока звучит, но может подавлять восприятие последующих звуков даже после своего окончания. После сильного звука слуховая система еще какое-то время остается менее чувствительной – как бы “оглушенной”. В результате тихий сигнал, следующий сразу за громким (через несколько миллисекунд или десятков мс), не будет услышан. Такое послеэффектное маскирование (forward masking) может длиться до 50–100 мс (в экстремальных случаях), но обычно гораздо короче – десятки миллисекунд. Аналогично, есть и обратный эффект: если тихий звук прозвучал непосредственно перед громким, мы тоже его можем не распознать – наступающий громкий сигнал «перекрывает» впечатление от предшествующего слабого. Этот эффект называют предмаскирование (backward masking), и длится он совсем мало – буквально 5–20 миллисекунд до начала мощного звука. Получается, что громкий звук способен скрыть тихие события, произошедшие мгновение до него и вскоре после него, как вспышка ослепляет на долю секунды.

Механизм маскирования связан с инерционностью нашего слуха: колебания базилярной мембраны и возбуждение нервных сигналов не прекращаются мгновенно, плюс мозгу требуется время, чтобы “обработать” звук. Поэтому, если сигналы следуют очень близко, они сливаются или более слабый тон тонет в послесвечении более сильного.

Временное разрешение слуха

Человеческий слух воспринимает звук с определенной временной точностью. Мы не способны различать события, происходящие слишком быстро одно за другим – они объединяются в одно ощущение. Например, если два щелчка прозвучат с интервалом в 2–3 миллисекунды, мы услышим не два отдельных звука, а один слитный звук (с оттенком тембра, зависящим от разницы фаз щелчков). Для сознательного разделения событий обычно нужен интервал хотя бы порядка 10–20 мс. Именно поэтому, скажем, в аудиосистемах частота дискретизации 44,1 кГц (шаг ~0,023 мс) считается более чем достаточной по времени: она намного превосходит порог нашего временного разрешения.

С другой стороны, временная чувствительность слуха проявляется очень остро в задачах локализации и восприятия пространства. Разница во времени прихода звука к левому и правому уху всего около 0,00003 секунды (30 микросекунд) уже смещает восприятие источника на заметный угол! Мозг невероятно точно улавливает межушные задержки, чтобы определять направление на источник. Но это скорее про пространственное слышание.

Если говорить о неспространственных аспектах, временное разрешение влияет на то, как мы слышим атаку звука (то есть начальные резкие транзиенты). Например, короткий перкуссионный удар длительностью 5–10 мс все равно будет воспринят, но его громкость и тембр могут показаться другими, чем у более длительного удара. Ухо как бы усредняет звук за небольшое окно времени – порядка десятков миллисекунд. Поэтому очень кратковременные сигналы слышатся тише, чем равной амплитуды, но более длительные: энергия не успевает накопиться для возбуждения нервов. Звуки короче 1–2 мс могут едва различаться, если они одиночные.

Временное разрешение слуха связано и с маскированием: как уже сказано, пробелы меньше 5–10 мс между звуками могут “замазываться” и не восприниматься как тишина. Это важно учитывать при, например, аудиообработке: реверберация короче примерно 50 мс сольется с исходным звуком и будет неотличима как отдельное эхо (эффект прецедента), вместо этого создавая ощущение окраски тембра или пространственности. А вот задержка порядка 100 мс уже воспринимается как отдельное эхо.

Как аудиокодеки обманывают наш слух

Мы рассмотрели ряд особенностей слухового восприятия – избирательность по частоте и громкости, пороги слышимости, маскирование спектральное и временное, ограниченную точность различения сигналов. Все эти свойства человека активно используются при разработке аудиокодеков с потерями (perceptual audio codecs) – таких как MP3, AAC, Ogg Vorbis и др. Цель этих кодеков – значительно уменьшить объем аудиоданных, выбрасывая информацию, которая на слух оказалась бы несущественной или незаметной.

Как это делается на практике? Кодек имитирует “психоакустическую модель” – своего рода виртуальное ухо – внутри алгоритма сжатия. Например, MP3-разработчики Карлхайнц Бранденбург и его коллеги заложили в стандарт следующие трюки:

  • Ограничение диапазона: Человеческий слух все равно не слышит ультразвук выше ~18–20 кГц, поэтому MP3 обычно отрезает спектр выше определенной частоты (в зависимости от битрейта это может быть 16 кГц, 18 кГц и т.д.). Эти высокие компоненты составляют много данных, но мало влияют на восприятие – их удаление часто вообще не заметно для слушателя (особенно взрослого, у кого слуховой верхний порог уже снизился).
  • Квантование по слышимости: Звук разбивается на короткие фрагменты и по частотным полосам (с помощью трансформаций вроде MDCT). Для каждого участка вычисляется приближенный порог маскирования: уровень шума, который будет скрыт присутствующим сигналом. Если в данной полосе присутствует громкий сигнал, то более тихие компоненты рядом могут быть закодированы с меньшей точностью или вовсе удалены, поскольку их все равно покроет громкий звук. Кодек выбирает число бит на представление каждого спектрального коэффициента так, чтобы шум от квантования лежал ниже порога слышимости для этой частоты. Проще говоря, он старается делать ошибки там, где ухо их не услышит.
  • Учет маскирования во времени: Хороший кодек учитывает, что сразу после всплеска звука можно позволить себе больше шума (в течение нескольких миллисекунд), так как ухо оглушено – эта идея используется, чтобы сгладить так называемые пре-эхо артефакты. Пре-эхо – это проблема, когда сильный звуковой транзиент кодируется недостаточно локально во времени и порции его энергии “растекаются” в алгоритме в соседние рамки, становясь слышимыми до ударного звука как небольшой шорох. Чтобы этого избежать, кодеки (MP3, Vorbis и особенно AAC) переключаются на более короткие временные блоки в моменты резких атак, уменьшая длительность квантовочного шума до пределов, маскируемых временным разрешением слуха.
  • Сжатие стерео: Психоакустика подсказывает, что на низких частотах мы не слишком хорошо локализуем звук (разницы между каналами трудно уловить), а некоторые сложные стерео-эффекты не заметны на слабых сигналах. Поэтому, например, MP3 вводит режим joint stereo – объединяет стереоканалы в совокупные и разностные сигналы. Там, где два канала почти одинаковы, хранится по сути моно-сумма (сэкономив половину данных) плюс небольшая корректировка. Нашему слуху этого хватает для ощущения стерео, а ненужное дублирование информации устраняется.

Благодаря таким уловкам современные аудиокодеки способны ужать музыку в десятки раз по сравнению с исходным PCM (форматом CD или WAV) при остающемся весьма высоком качестве. Например, файл WAV с CD (16 бит, 44.1 кГц стерео) занимает около 10 МБ на минуту звука, а MP3 при 128 кбит/с – всего ~1 МБ на минуту, то есть в 10 раз меньше. При этом большинству слушателей разница едва уловима, а зачастую и тренированному уху сложно без подсказки отличить хорошо сжатый MP3 от оригинала. Все потому, что кодек удаляет только то, что “лишнее” для слуха, и старается не трогать то, что определяет восприятие.

Конечно, любое сжатие с потерями – компромисс. Если битрейт слишком низкий или музыка неподатливая (например, много резких транзиентов или богатый спектр, как в оркестре или металлическом шипении), то кодек может не уложиться в ограничения психоакустики. Тогда в звук просочатся артефакты: металлические призвуки, пропадание тихих деталей, размазывание атаки – все то, что мы связываем с “плохим MP3 качеством”. Аудиофилы с тонким слухом предпочитают форматы без потерь (FLAC, WAV) именно потому, что даже самые продвинутые психоакустические модели иногда убирают то, что лично для их ушей составляло нюанс, важный для восприятия. Тем не менее, для массового прослушивания эффективность перцептивных кодеков неоценима – без них эпоха цифровой музыки в интернете была бы просто невозможна.

Вместо заключения

Психоакустика напоминает нам, что звук – это не только колебания воздуха, но и переживание в нашем мозге. Наш слух – удивительный фильтр, который сжимает тонны информации, оставляя лишь самое значимое. Он имеет свои слепые зоны и обманы, но именно благодаря им мы можем наслаждаться музыкой в сжатом формате, не замечая подвоха, или спать спокойно, не реагируя на каждое шуршание за окном.

Понимание психоакустики важно не только инженерам, создающим аудиотехнологии, но и всем любителям звука. Зная, как ухо “слышит” на самом деле, мы начинаем осознаннее подходить к тому, что и как мы слушаем. Например, начинаем ценить сбалансированное звучание без перегруза на неприятных частотах, понимаем, почему качественные наушники стараются учитывать кривые равной громкости, и осознаем, что иногда тишина не менее важна, чем звук, чтобы уши продолжали радовать нас верностью восприятия.

В следующий раз, когда вы почувствуете мурашки от любимой мелодии или удивитесь, как небольшой MP3-файл вмещает целый концерт, вспомните о психоакустике. Эта наука скрывается за каждым нашим слуховым ощущением – от простого “нравится звук” до сложных технологий кодирования аудио – делая мир звучания таким богатым и захватывающим.