О восприятии музыкального сигнала

1. О музыкальном сигнале

Людей, создающих высококачественную звуковую аппаратуру, часто называют конструкторами и разработчиками, а процесс ее создания — конструированием и разработкой. У меня эта терминология всегда вызывала недоумение. Что, подбор проводов на слух — это конструирование? А решение делать усилитель без обратной связи (опять же, с ориентировкой на собственные слуховые впечатления, а то и того хуже — на общественное мнение) — это разработка? Вот я сам человек сугубо технический, инженер-теплотехник, всю свою жизнь считал, что конструирование и разработка -это что-то совсем иное. И все теплотехники так считают. А также механики. И электрики. И еще многие и многие другие, практически все, включая радиоинженеров, не связанных с «качеством звучания». Везде и всегда конструированием и разработкой считается достижение некоторых абсолютно объективных физических характеристик конструкции, которые к тому же можно измерить. Но если мы посмотрим на аудио, то увидим, что в нем дела обстоят совсем по-другому. Создателей звуковой аппаратуры по подходу к своему делу можно условно разделить на три части. Первая часть, состоящая исключительно из технически грамотных специалистов, действительно ориентируется на объективные характеристики. Они производят аппаратуру, исходя из стандартного набора общепринятых параметров, и не особенно озабочены проблемой качества звучания (в ее новом понимании). Вторая часть, наоборот, не обращает на объективные показатели вообще никакого внимания, ориентируясь только на слух, который в этом деле оказался важнее каких-либо специальных знаний. Ну и, наконец, занимающиеся качеством звучания технически грамотные специалисты. В этом случае берется какой-либо новый параметр, объявляется, что этот параметр влияет на качество звучания, и на этом основании производится разработка и конструирование изделия с целью доведения этого параметра до определенной величины. Примеры таких параметров: частотный диапазон (до МГЦ), переходная характеристика, скорость сигнала в проводнике (до 0,96с) и т.д., и т.п. Основание для таких действий одно: раз в звуке при этом что-то меняется, значит, будем этот параметр улучшать. Однако изменения не всегда означает улучшение. К тому же, как оказалось, на звук влияет почти в буквальном смысле все. Общее количество возможных параметров, влияющих на звучание, получается огромным, и при этом остается открытым вопрос, до каких же значений надо каждый из этих параметров улучшать. Часто разработчики рассматривают не параметры сигнала, а непосредственно физические факторы, влияющие на сигнал, причем это делается без какого-либо рассмотрения того, на какие параметры сигнала влияют эти факторы. Бывает так, что у разных разработчиков мнения по одним и тем же физическим факторам бывает прямо противоположным, например, по массе изделия. И что вообще удивительно, иной раз физическим фактором объявляется изделие какой-нибудь фирмы. Видимо, эти изделия принимаются за явления природы…

Эта бурная деятельность создает видимость того, что процесс идет, что такими способами можно решить задачу создания системы с заданным качеством звучания. Однако это только так кажется. Конечно, из набора деталей можно общими силами собрать телевизор, не имея схемы и не зная принципы его работы. Но сколько на это понадобится времени? Этим можно заниматься и 1000 лет. В аудио ситуация очень похожая, так как неизвестно, что такое качество звучания и как его объективно измерить. Но измерять необходимо, причем по причинам настолько очевидным, что даже не буду об этом говорить. Без измерений, без объективной основы нельзя рассчитывать на положительный результат, а производителей хорошего звука нельзя пока называть ни конструкторами, ни разработчиками. Скорее — мастерами. Разработку и конструирование придется отложить до того времени, когда будут установлены объективные измеряемые параметры, определяющие качество звучания. Без них знания и способности инженеров расходуются вхолостую, и поэтому вопрос об этих параметрах и их измерениях на сегодняшний день по-прежнему является самым актуальным.

Так что же все-таки измерять? И возможно ли это? Что именно измерять, сейчас, конечно, сказать не могу, но вот то, что это возможно, — уверен, и попробую это показать.

На протяжении десятилетий считалось, что на качество звучания звуковоспроизводящей аппаратуры главным образом влияют нелинейные искажения сигнала, возникающие в этой аппаратуре. Эти искажения принято выражать через коэффициент гармоник, то есть через величину новых гармоничных составляющих, появляющихся в исходном сигнале. В самом деле, любой сигнал с помощью преобразования Фурье можно представить, как сумму элементарных гармонических колебаний. В том числе — и сигнал ошибки, разницу между сигналом на выходе и входе устройства. Легче всего преобразование Фурье понимается графически: любую фигуру можно заполнить синусами разных размеров. Но ведь не только из синусов можно составить эту фигуру. Ее можно составить также из квадратов, треугольников, окружностей, в конце концов. Почему же именно синусы? Наверное, потому, что, во-первых, это наиболее удобно в электрических цепях, а во-вторых, потому, что большинство звуковых колебаний имеет структуру, близкую к гармонической. Никаких других преимуществ способ выражения сигнала через гармонические составляющие не имеет. Этот способ ничем не лучше выражения сигнала через, например, квадраты. Конечно, если выражать через квадраты близкий к синусу сигнал, то квадратов потребуется очень много. Но если выражать через синусы прямоугольник, то также понадобится очень много синусов. Так что синус ничуть не лучше любой другой формы.

Ну, а чем он хуже, может возникнуть вопрос? Ничем. Так почему же тогда коэффициент гармоник никак не определяет качество звучания? Вот здесь уже появляется что-то интересное. Я задаю встречный вопрос: а кто доказал, что слуховая система человека настроена именно на гармонические колебания? Представление о слуховой системе человека как об анализаторе спектра с легкой руки Г.Ома существует уже более 100 лет, но есть ли хотя бы какое-нибудь одно основание так считать? Разве то обстоятельство, что ухо различает чистый синус, является основанием? Ухо различает много чего и кроме синуса, каким звуковой сигнал ни будь, ухо его обязательно различит. Однако если посмотреть функциональные модели слухового восприятия из курса психофизики, то мы увидим устройства, работающие именно с гармоническими колебаниями! На входе — аналоговые полосовые фильтры, а дальше — по обстоятельствам.

Насколько мне известно, никакого подобия механических аналоговых фильтров до настоящего времени в ухе не обнаружено (фильтры с добротностью, близкой к единице, в расчет, естественно, не принимаем). Вероятнее всего, такое представление о работе слухового аппарата сложились исключительно из-за того, что гармонические колебания — это то, что хорошо изучено наукой, в частности электроникой и акустикой. Кроме того, такое представление о работе слухового механизма до недавнего времени не являлось тормозом развития звуковоспроизведения, а более точные представления о его работе были не востребованы, а может быть, просто не получились. По этой причине нам досталось в наследство представление об ухе, как об анализаторе спектра, что действительности, скорее всего, не соответствует. Это доказывает хотя бы факт отсутствия корреляции между величиной привнесенных в сигнал дополнительных гармонических составляющих и качеством звучания, а также другие явления, на сегодняшний день являющиеся аномальными. Если исходный сигнал изменился, то мы это можем измерить и результат представить в виде гармоник. Но можно ли сказать, что качество звучания при этом ухудшилось? Нет, нельзя. Оно может улучшиться, ухудшиться либо вообще не измениться. Прямой зависимости не наблюдается. С другой стороны, показатели звучания меняются в результате действий, влияние которых на сигнал инструментально измерить не удается. Что это значит? По крайней мере, то, что наряду с нелинейными искажениями не меньшее влияние имеют и другие виды искажений сигнала, оказывающие на звучание не меньшее воздействие. (Нельзя исключить и того, что они одни в основном и определяют качество звучания.) Значит, надо обязательно выявить, что это за искажения, и какими физическими факторами они вызываются. Однако сделать это в рамках одной только электроакустики не представляется возможным. В самом деле, искажения сигнала могут быть представлены по-разному, и общее число этих представлений может оказаться громадным. Всех не выявишь. Но всех и не надо, если мы достоверно знаем, на какие именно искажения ухо реагирует наиболее сильно. Поэтому выход здесь один: отталкиваться от свойств механизма слухового восприятия, а если данных о работе этого механизма недостаточно, то надо постараться прежде всего эти данные получить. В число невыясненных пока свойств входит и то, отличается ли восприятие музыкального сигнала от восприятия, скажем так, обычного сигнала, а так же то, определяется ли какими-либо параметрами звукового сигнала его красота и музыкальность.

Итак, нелинейные искажения сигнала на качество звучания прямого влияния не оказывают. Когда это было осмыслено, были предприняты попытки связать качество звучания с другими параметрами сигнала. И опять ничего не получилось.

По моему мнению, иначе и быть не могло. Ведь все эти действия производились опять же в предположении, что ухо работает с гармоническими составляющими сигнала. Об этом говорят сами объекты изучения: фаза, групповое время задержки, да и все остальное — это все из теории волн. Поправка на работу слухового аппарата не сделана — и результатов нет. И только после этого стало ясно, что без уточнения механизма работы слухового аппарата не обойтись. Указания на то, что неизвестно, с какими составляющими звука ухо работает, как с элементарными, можно найти и на сайте Audioworld.ru ( [1], последний абзац).

В последнее время часто приходится встречаться с таким мнением, что ухо воспринимает сигнал не стационарно, а в его временном развитии, и что наряду с волновыми характеристиками звука анализируется и его временная структура. Однако, что именно подразумевается под временной структурой, не совсем понятно. Как правило, когда где-нибудь говорится о временной структуре, то под этим подразумевается одно из выражений тех же самых волновых характеристик. В этом случае данный термин и незачем употреблять, ничего нового это не принесет. Смысл имеет рассмотрение временной структуры в более общем виде, то есть как последовательность во времени некоторых событий, из которых временная структура и состоит. В звуковом сигнале такими событиями могут быть точки перегиба амплитудно-временной сигналограммы и моменты перехода через ноль. Не исключено, что ухо реагирует на какие-то другие события, но пока это можно только предполагать. Естественно, временная структура может состоять только из одних и тех же событий и обязательно имеет начало отсчета. Пример временной структуры -расписание электропоездов. Начало отсчета в ней — 0 час. 00 мин. И еще: теоретически временная структура может быть бесконечной, как, например, летоисчисление от рождества Христова, но на практике каждая такая структура имеет свое окончание. Для расписания электричек это 24 час. 00 мин. Таким образом, каждая временная структура существует в определенном интервале времени. Начиная рассматривать временные структуры в общем виде, мы должны понимать, что их главное отличие от временных выражений волновых характеристик заключается в том, что искажения временной структуры одной и той же величины имеют одинаковое значение на любом расстоянии от начала отсчета. Мы получаем одинаковое впечатление от того, что электричка опоздала на полчаса, будь это в 1 час 00 мин. или в 23 часа 15 мин. При временном выражении волновых характеристик, наоборот, заметность одинаковых временных искажений с удалением от начала отсчета уменьшается, т.е. зависит от длины волны.

Говоря о временной структуре звукового сигнала, мы неизбежно сталкиваемся с тем, что необходимо определить отрезок сигнала, в пределах которого эта структура существует. В рамках новых представлений чаще всего под такими отрезками подразумеваются фронты сигнала. Считается наиболее вероятным, что слуховая система реагирует именно на фронты, однозначно определяя их спектрально-временную характеристику. Эта характеристика сравнивается с банком данных слуховой памяти, состоящей из аналогичных характеристик ранее услышанных звуков, и таким образом, происходит распознавание этих самых звуков. Одним из основных аргументов в защиту этой теории является известный опыт с вырезанием фронтов сигнала у музыкальной фонограммы, когда музыканты переставали узнавать свои инструменты.

На мой взгляд, эта теория очень перспективна. По ней ухо распознает звуковой объект не только по его спектру, но и по временной структуре определенных событий в звуковом сигнале. Все вместе это составляет некий звуковой код, который в виде последовательности нервных импульсов поступает в мозг. В этой же форме в мозге происходит сравнение этого кода с ранее услышанным звуком или запись в память нового кода. Конечно, форма образования, передачи и хранения этого кода требует уточнения, но даже в таком, начальном виде новая теория заставляет кардинально пересматривать существующие представления о требованиях к звуковой аппаратуре. Как это получается, мы сейчас увидим.

Итак, предполагаем, что звуковой сигнал воспринимается системой «ухо-мозг» в виде некоего кода, одной из координат которого является время. Значит, мы имеем дело с временной структурой, которая существует только в пределах определенного временного отрезка. Что это за отрезок? Говоря о фронтах реального музыкального сигнала, мы имеем разную длительность этих фронтов, от 2 до 200 мс (практически все музыкальные инструменты, кроме органа, имеют фронты нарастания сигнала меньше 50 мс). Но размер временного отрезка звукового кода при этом не обязательно равен длительности фронта. Он может быть одним и тем же для фронта любой продолжительности, а если длительность фронта меньше длительности кода, то в оставшееся место записывается также и все то, что идет вслед за фронтом. То же самое будет, если открыть чистый лист тетради и исписать его только наполовину, а вторую половину оставить, например, пустой. Все равно мы потратим целый лист.

Я предполагаю, что как раз так и происходит. Эффект Хааса, по всей вероятности, отображает именно такую ситуацию. Он и определяет размер «страницы»: 30-50 мс. С учетом того, что задержанный сигнал воспринимается как отдельный объект в виде эха при величине задержки от 50мс, будем далее считать в первом приближении размер звукового кода равным 50мс.

Все вышесказанное кажется достаточно очевидным. Трудности возникают тогда, когда задается вопрос: ну и где же здесь качество звучания? Если этот вопрос задать приверженцу новой теории, то он ответит примерно так.

Когда человек слышит какой-либо звук, то слуховая система сравнивает спектрально-временную структуру этого звука с неким шаблоном, находящимся в слуховой памяти. После того, как произошло распознавание, начинает играть роль то, насколько близко сопоставились сам звук и слуховой образ из памяти. Чем больше степень корреляции, тем звук кажется красивее, благороднее, одним словом — музыкальнее.

Примем этот ответ и зададим новый вопрос: а откуда берется первый шаблон? А из жизненного опыта, ответит нам собеседник. Человек когда-то услышал звук, и его запомнил, отсюда и шаблон.

И вот тут мы усомнимся. Разве наш жизненный опыт не говорит об обратном? Кто из нас в ранней молодости не играл на шиховской гитаре за 16 руб. с перекошенным грифом? Если сегодня мы сравним звучание этой гитары со звучанием хорошей концертной гитары, например, того же Мартина, то неужели шиховская нам понравится больше? Нет, нам больше понравиться Мартин, и это будет независимо от того, какую из этих двух гитар мы услышали раньше. Такую же историю мы увидим и с любым другим музыкальным инструментом. Помню, когда мы в институте начинали играть в ВИА, у нас была ударная установка отечественного производства из Энгельса. Звучание железа было настолько отвратительным, что озадачивало даже нас, тогда еще неопытных. А потом принесли Paiste… Тут слов нет, одни эмоции. Еще помню, как в брежневские времена музыкальные магазины были завалены скрипками, по-моему, за 9 и за 12 рублей. Их покупали родители для своих детей, когда устраивали их в музыкальную школу. Вы когда-нибудь слышали, как эти скрипки звучат? Говорить о сравнении звучания этих скрипок со скрипками великих мастеров даже язык не поворачивается. Однако если допустить приоритет жизненного опыта, то будущий скрипач всю жизнь так и играл бы на своей первой скрипке, предпочитая ее скрипке Страдивари.

Какой музыкальный инструмент мы не возьмем, везде мы наблюдаем одно и то же: среди группы инструментов одного вида мы безошибочно и однозначно определяем великолепно звучащие, сносно звучащие и никак не звучащие, причем наши предпочтения от жизненного опыта никак не зависят. Таким образом, мы видим, что красота звучания никак не сопоставляется со слуховой памятью, то есть не имеет никакого отношения к распознаванию!

Ладно, скажет наш собеседник, тогда предлагается другая версия происхождения первого шаблона. Он заложен генетически. У человека в мозге при рождении уже заложен некий набор звуковых кодов, и звучание кажется красивым тогда, когда звуковые коды реальных источников к ним приближаются, чем больше степень приближения, тем красивее кажется звук. Память предков, так сказать…

Ну что же, мы и этот ответ примем. Однако и здесь сразу возникают сомнения. Во-первых, такой ответ очень смахивает на отмазку, ведь доказать именно генетическую предрасположенность к какому-то звуку не представляется возможным. Во-вторых, откуда эта предрасположенность вообще могла появиться? Вот, например, мой отец родом из деревни Рязанской области, а мать из деревни Ивановской. Мои предки, кроме балалайки и гармони, вряд ли что слышали. Тогда почему же я очень хорошо ощущаю красоту звучания гитары и рояля? Ну и в третьих, существует огромная разница в структуре звука разных музыкальных инструментов, и в пределах структуры каждого из них мы находим и хороший звук, и средний, и совсем плохой. Разных музыкальных инструментов очень много, и предположение о том, что также много генетически заложено совершенно разных кодов, выглядит очень и очень сомнительным.

Ничего не получается, уважаемый, скажем мы нашему собеседнику и сделаем единственно возможный вывод: критерий красоты и музыкальности — это абсолютный критерий! Звук воспринимается как красивый в том случае, если он содержит определенные системные закономерности своей структуры, причем эти закономерности едины для самых разных звуков. Если звук нам кажется красивым, то это значит, что данные закономерности соблюдены. Если же звучание не привлекает, то данные закономерности утрачены. Осталось определить, какие это закономерности, и чем они выражены. Очевидно только то, что данные закономерности не связаны со звуковым кодом, так как они не имеют связи с распознаванием звука (кстати говоря, в вышеупомянутом опыте с вырезанием фронтов сигнала речь о качестве звучания и не шла, только о распознавании). Попытку связать качество звучания степенью приближения звукового кода к некоему шаблону нам придется отвергнуть, если только… Если только не предположить, что этот первый шаблон находится в самом звуковом сигнале!

На этом месте предлагаю сделать небольшую паузу и подытожить наши рассуждения. Итог будет таким.
1) Отказ от представления о слуховой системе как анализаторе спектра приводит к необходимости залезать во временную область.
2) Временная структура существует в пределах определенного отрезка времени.
3) Все многообразие звуков на уровне распознавания может быть отображено в звуковом коде размером 50 мс.
4) Критерий красоты (музыкальности) может быть применен к любому звуку.
5) Критерий красоты и музыкальности не связан с распознаванием, следовательно:
6) Критерий музыкальности — абсолютный критерий.

При желании аргументы в пользу последнего можно найти и без вышеизложенных рассуждений, если попытаться ответить на следующие вопросы:
1) Почему мы не слышим разницы в звучании разных фрагментов одной и той же фонограммы, ведь они спектрально различаются намного больше, чем исходный и искаженный сигналы. Сравнивать качество звучания фрагментов никому ни приходит в голову как раз по той причине, что оно одинаково.
2) Как мы вообще определяем, что сигнал искажен. Хорошо исследователю, у него есть оба сигнала, он вычтет из конечного исходный и определит, что искажения есть. Если отличия будут большими, он будет огорчен, а если малыми, то он будет радоваться, чем меньше разницы в сигналах, тем больше радости. Но в головах у нас нет таких исследователей, мы слышим всего один сигнал, и, тем не менее, определяем, что звучание хорошее или плохое.

Давайте теперь оглянемся назад и посмотрим, может ли традиционный подход к конструированию звуковой аппаратуры обеспечить качество ее звучания. Допустим, нелинейные искажения изменили исходный сигнал. Изменило ли это временную структуру? Нет, не изменило. Теперь допустим фазовые искажения. Они то уж точно изменили временную структуру на этом участке. То же произойдет и при искажениях на переходных процессах фронтов сигнала. При этом звуковой код в интервале распознавания наверняка изменится. Однако из этого не обязательно следует, что качество звучания стало хуже! Ведь мы уже видели, что красота звучания не связана с содержанием звукового кода. Мы можем исказить сигнал на отрезке 50 мс сколь угодно сильно, настолько сильно, что даже выйти за рамки распознавания. Ну и что? Получив новый музыкальный инструмент, мы опять столкнемся с тем, что диапазон качества его звучания может быть от непривлекательного до великолепного. Но если мы внимательно приглядимся к традиционным параметрам, то увидим, что они характеризуют сигнал именно в пределах 50 мс. Характеризуя свойства сигнала в границах распознавания, как они могут говорить о сохранении или потере изначальной красоты звучания, которая с распознаванием не связана? Они никак и не характеризуют. По этой причине бороться за эти параметры вряд ли имеет смысл, так как уменьшение искажений звукового кода совершенно не гарантирует сохранения красоты и музыкальности. Что интересно, переходные процессы в звуковоспроизводящей системе, приводящие к максимальному искажению именно фронтов сигнала, также на качество звучания прямого влияния не оказывают. С другой стороны, не зная, какие именно параметры сигнала влияют на качество звучания, при конструировании звуковой аппаратуры можно с большой степенью вероятности это качество потерять. Как правило, так и происходит.

Чтобы окончательно оставить надежды на традиционные параметры, нам остается рассмотреть часто встречающееся мнение о том, что максимальное уменьшение всех видов искажений сигнала ниже пороговых величин автоматически решит задачу сохранения исходной музыкальности. Логика здесь такова: если мы имеем исходные акустические условия, в которых музыка звучит безупречно, то, воссоздав первичную звуковую волну с большой точностью, мы получим то же качество. Да, это действительно так, спорить с этим невозможно. Вопрос только в том, с какой именно точностью надо ее воспроизводить.

Необходимую степень точности мы можем определить по звуковым эффектам, связанным с точками живого звука [2], [3]. Это 0,000 000 001, а еще лучше 0,000 000 000 1. Возможно ли это? Ведь речь идет об изменениях в звуковой волне. Если мы будем воссоздавать эту волну в другом помещении, то это невозможно даже теоретически, так как собственная реверберация вторичного помещения внесет в звуковую волну изменения намного большие.

А надо ли это делать? Нет, это делать совсем не обязательно. Достаточно создать условия, при которых системные закономерности звукового сигнала, отвечающие за красоту звучания, попали бы в определенные рамки. То, что это возможно, подтверждается практикой: с обычными динамическими АС, дающими на фронтах сигнала десятки процентов искажений, система может звучать просто фантастически, так, что иной раз даже не понимаешь, как такое звучание вообще может быть. При этом в полной мере на звучание влияет тип элементов, направление проводов и другие факторы, действие которых на сигнал инструментально зафиксировать пока не удается. Однако такая ситуация говорит о том, что вышеназванные провода, элементы и др. как раз и влияют на те самые системные закономерности звукового сигнала.

Здесь кто-то может подумать: ну вот, можно получить хороший звук и без всяких измерений, производя действия, называемые гармонизацией, доводкой, настройкой, тонким твикингом и т.д. Вынужден их огорчить: не получится. Чем лучше звук, тем больше физических факторов на него влияет. То звучание, о котором я говорю, слышали немногие. Волею случая мне такая возможность тоже представилась. Могу сказать, что очень хороший звук неожиданно появляется и так же неожиданно исчезает. В этом звуке слышны изменения от всех физических факторов, которые только могут быть, например, от того, как затянут самый захудалый винт в усилителе, или от того, какого размера книга лежит на нижней полке стойки. Слишком много неизвестных, чтобы имелось стабильное решение. И что интересно, при таком звуке видны и дальнейшие резервы его улучшения, которые реализовать, увы, не удается. При таких попытках чаще всего теряется и то, что имеется. По моему мнению, способ достижения качества звучания путем гармонизации имеет предел по результатам, хотя не имеет предела по цене. Поэтому предлагаю продолжить наши рассуждения о шаблонах.

Итак, мы не увидели в пределах звукового кода никаких зацепок за качество звучания. Значит, надо выходить за пределы этого кода, то есть, рассматривать интервалы времени больше 50 мс. Как только мы это сделаем, то сразу увидим решение настолько очевидное, что рассмотрение других вариантов нам покажется нецелесообразным, разве только если наша гипотеза не подтвердится. Гипотеза такая. После того, как слуховая система выделит из сигнала звуковой код, она начинает определять его заново. А потом еще и еще. Звуковой код каждой «страницы» сравнивается с банком данных. Этим обеспечивается распознавание слухового образа. На этом же уровне распознавания происходит фиксация образа как одного и того же непрерывно звучащего. Будем считать эту часть механизма восприятия условно первой. Главная черта этой части — непосредственная связь с общей памятью. Кроме распознавания слухового образа здесь происходит анализ и запоминание мелодической структуры музыки и тембры источников звука — в той мере, в которой тембры могут запоминаться. Благодаря работе этой части системы мы можем прокрутить в голове любую мелодию, сделать любую транспозицию, приписать эту мелодию к любому инструменту. Однако мы никогда не сможем при помощи памяти вновь ощутить красоту тембра хорошего инструмента и не сможем внутри головы воспроизвести динамический рисунок музыки. Эти вещи в памяти не сохраняются, домысливаться воображением не могут, а могут ощущаться лишь при непосредственном слуховом восприятии. (Кто не верит, пусть попробует сделать внутри головы потише или погромче.) Ту часть механизма слухового восприятия, которая формирует ощущения динамического рисунка и красоты звучания, мы отнесем ко второй части. Как мы видим, две разные части общего механизма выполняют две разные функции, между собой вроде бы даже и не пересекающиеся. Функциональные модели работы этих частей наверняка тоже разные. Для первой части основой работы является постоянное сопоставление воспринимаемого звука с «банком данных» головного мозга. Но сейчас нас больше интересует вторая часть. Что происходит в ней? Во-первых, в ней формируется громкостная огибающая. Во-вторых, она ответственна за ощущение красоты звучания. Так вот, по нашей новой гипотезе все это происходит на стадии предварительной обработки. Воспринимаемые «страницы» сравниваются не только с базой общей памяти, но и между собой. При этом первый звуковой код будет являться шаблоном для следующего. Чем больше сходства во временных структурах следующих друг за другом отрезков сигнала, тем более красивым кажется звук. Степень корреляции временных структур смежных фрагментов сигнала как раз и определяет красоту и музыкальность его звучания.

Кроме предположений о том, что так может быть, мы без труда можем найти достаточно серьезные основания считать, что так оно и есть. В первую очередь об этом говорит громадное значение в восприятии звучания музыки реверберации. Ее параметры должны входить в очень узкие рамки, иначе ее применение результатов не дает. Во вторых, можно показать, что и в исходном звуке, без реверберации, степень сходства смежных временных структур во время развития сигнала может быть очень и очень разная, что приведет к разной красоте звучания реальных источников звука и без участия реверберации. Если же мы будем рассматривать звучание разных источников с разной степенью сходства их последовательных временных структур, да еще в разных акустических условиях, то получим огромное число конечных результатов. Среди них наверняка найдутся и те, где степень сходства весьма высока. По нашей гипотезе это звучание и будет казаться красивым и музыкальным.

Сама собой напрашивается аналогия с телевизионным сигналом. Если же она кажется слишком необычной, можно представить этот процесс и по-другому. А. Гайдаров приводит по этому поводу, например, такую аналогию. Есть книга, где на каждой странице нарисован один и тот же рисунок. Если мы возьмем книгу в одну руку и будем быстро перелистывать страницы, придерживая край одним пальцем, то увидим неподвижный и четкий рисунок, но только в том случае, если на каждой странице он одинаков. Если же где-то этот рисунок не пропечатался, либо уполз в сторону, либо там вообще что-то нарисовано другое, мы четкого рисунка не увидим, более того, мы будем напрягаться и не получим удовольствия даже от хорошей картины. Лично мне такая аналогия нравится, и я не вижу необходимости искать что-то лучшее. Примерно об этом же я говорил в [3], с той только разницей, что, по моему мнению, еще необходимо обеспечить такие условия, чтобы страницы этой книги были одного размера и края этих страниц были точно собраны.

Следующий вопрос, который возникает, такой: а с какой точностью надо совмещать рисунки? Если ухо действительно на это реагирует, то каков здесь порог восприятия?

Как мы предположили, красоту звука определяют некие системные закономерности. Из бесконечного числа возможных закономерностей мы выбрали область сходства временных структур. Назовем эту область полосой музыкальности и попробуем оценить ее размеры. Для этого мы можем использовать правила хранения хорошей гитары. По этим правилам гитару надо хранить в настроенном виде, подвешенной на стене. Со стеной гитара должна соприкасаться в 2-х точках: верхней частью грифа и задней верхней частью корпуса. К помещению, кроме температуры и влажности, есть еще одно требование: в нем обязательно должны находится люди. Люди разговаривают, корпус резонирует и, когда возникает необходимость, гитара снимается со стены, слегка подстраивается, и на ней сразу можно играть. Если же гитара висела несколько дней в глухом помещении, то на ней сразу играть нельзя, она будет звучать плохо. Гитару придется разыгрывать часа 2, только после этого звучание восстанавливается.

Мы можем снять сигналограммы разыгранной и неразыгранной гитары, но каких- либо заметных отличий, скорее всего, не обнаружим. Если же отличия все-таки найдутся, то они наверняка будут ничтожными. Но для уха они оказались весьма важными, как раз и определяющими красоту звука, а это значит, что полоса музыкальности очень узкая. По этой причине попасть в эту полосу достаточно сложно. Попробуйте сделать хорошую скрипку или хотя бы хорошую гитару. Попробуйте попасть камнем в ведро, если оно не в метре от вас, а хотя бы метрах в 100. Но тогда уж не стоит удивляться тому, как легко звучание из этой полосы выпадает. По нашей гипотезе полоса музыкальности — это выраженная в размерности времени величина степени сходства временных структур последовательных отрезков звукового сигнала. Музыкальный сигнал, таким образом, это особый сигнал. Его никак нельзя считать случайным. Наоборот, этот сигнал тем и отличается, что он очень и очень неслучаен. Если мы хотим с помощью измерений контролировать звуковое качество аппаратуры, то применение в качестве тестовых гармонических и импульсных сигналов ничего не даст. Ничего не даст и применение случайного нестационарного сигнала. Подход в этом вопросе должен быть совсем другим. Необходим сигнал, содержащий те самые системные закономерности, а звуковая аппаратура должна обеспечивать такие условия, чтобы эти закономерности не выходили из полосы музыкальности. При этом, как мы уже знаем, содержание звукового кода в пределах 50 мс может быть любым, а значит, и самым элементарным. Это дает все основания утверждать, что несложный тестовый сигнал для оценки музыкальности сформировать можно. Требование к такому сигналу одно: содержание системных закономерностей музыкальности звучания. Минимальный размер периода этого сигнала не может быть меньше 100 мс, и вряд ли будет больше 3 сек. (длительность эхоической памяти). Более конкретно об этом сигнале и о методике измерения можно будет говорить только после того, как будет соответствующим образом измерено ухо.

Ну вот, мы снова пришли к необходимости уточнения механизма работы слухового аппарата. Надо это обязательно сделать и только после этого двигаться дальше. Но кто это должен делать? Этим должны заниматься психофизики. Могут ли они это сделать? Они это сделать могут. А когда они это сделают? Я думаю, что они никогда это не сделают. Дело в том, что проблемой воспроизведения музыкального сигнала никто серьезно не занимается. Можно сказать, что об этой проблеме психофизики почти ничего и не знают. Да и то дело, а откуда они могут об этом узнать? С них никто ничего не спрашивает, вопросов не задает, ответов не требует. У них своя жизнь, свои представления о нужном и ненужном, свои понятия о направлении развития. Не буду говорить про зарубеж, но у нас картина именно такая, говорю о том, что видел сам. При этом не могу ничего плохого сказать о людях, даже совсем наоборот, только самое хорошее. Но вот так сложилось, что никакой связи с аудиожизнью не прослеживается. Был в 1989 году при АН образован межведомственный коллектив «Человек — техника — акустическая среда», но сегодня его следов не обнаруживается. Разве это не странно? Разве это нормально?

На мой взгляд, в том, что сложилась такая ситуация, изрядную долю вины несут сами конструкторы и разработчики. Вопросов они не задают, работают себе и работают, параметры улучшают, с физическими факторами борются… Но и их можно понять. Область звуковоспроизведения — это особая область. Человек со стороны, придя туда, увидит много чего необычного. Например, если кто-то хочет сообщить о чем-то новом или обозначить новую проблему, он обязательно должен сначала предъявить справку от психиатра. С другой стороны, нигде нет так много психиатров, как в аудиотусовке. Здесь физика и психология настолько беспорядочно перемешаны, что ни одно, ни другое работать уже не может. Разве такие условия способствуют развитию? Скорее всего, они способствуют заболачиванию местности. Господа разработчики, а не пора ли, в конце концов…

Но вернемся к полосе музыкальности. Продолжим рассуждения. Если для одного музыкального инструмента полоса музыкальности узкая, то что будет, если одновременно звучат несколько инструментов? Станет ли при этом суммарная полоса шире? Очень и очень сомнительно. Чисто интуитивно, основываясь на общем жизненном опыте, можно поверить только в то, что от этого полоса музыкальности еще более сузится, чем больше инструментов, тем уже она станет. Если мы предполагаем, что критерием музыкальности является степень корреляции последовательных временных структур, то порог восприятия по их разнице мы можем найти опять же по звуковым эффектам, возникающим при установке АС в точках живого звука. Таким образом, размер полосы музыкальности для музыкальной фонограммы составляет около 0,3 мкс [3]. При этом можно предположить, что чем меньше инструментов в фонограмме, тем полоса музыкальности может быть шире. Для одного инструмента она может быть наиболее широкой. И еще: логично предположить, что при допустимости частичной корреляции полоса музыкальности также может быть более широкой.

2. Модель восприятия музыкального сигнала

Говоря о параметрах сигнала, особый интерес представляет рассмотрение случаев, в которых однозначно определенные параметры показывают устойчивый результат. Какие же параметры сигнала, относящиеся к разряду системных, оказывают на качество звучания музыкального сигнала устойчивое влияние? Мне известно три таких случая. Во всех них одной из координат параметров является время.

1. Результаты О. Сучкова-Росси. Он исследовал влияние несоответствия амплитудной динамики гармоник УМЧЗ и амплитудной динамики усиливаемого сигнала, названного им «форматными искажениями». Оказалось, что уменьшение такого несоответствия однозначно и устойчиво приводит к улучшению качества звучания. В условиях работы с музыкальным сигналом уменьшение форматных искажений есть не что иное, как уменьшение нестабильности параметров усилителя во времени. Рассматриваемые параметры относятся к тем, которые вызываются безинерционными физическими факторами [3].

2. Результаты А. Квитки. Он исследовал относительно кратковременные изменения параметров электронных элементов, вызываемые их нагревом. Эти процессы названы им «скиноподобным термодинамическим эффектом». Несмотря на микроскопичность изменений, принятие специальных мер по уменьшению такого вида искажений приводит заметному к улучшению качества звучания также однозначно и устойчиво. (У меня была возможность лично в этом убедиться.) В данном случае имеет место прямое уменьшение инерционных физических факторов, влияющих на сигнал, т. е. опять же увеличение стабильности параметров усилителя во времени.

3. Результаты Е. Алешина. Он обнаружил, что на качество звучания большое влияние оказывает некая инфранизкочастотная функция сигнала, которую он назвал «виртуальной постоянной составляющей». (На мой взгляд, правильнее было бы назвать эту функцию «виртуальным нулем». Линия симметрии сигнала точно совпадает с нулем только на бесконечно большом отрезке времени. На бесконечно малом отрезке эта линия в точности повторит сигнал. В нашем случае временной отрезок суммирования должен определяться теми свойствами слуховой системы, которые пока еще не изучались: что является нулем для уха. Почти наверняка этот отрезок находится в диапазоне от 50 до 200мс, а вышеназванная функция похожа на болтающийся после сигнала «хвост» в районе нуля). Как видно из рассматриваемых интервалов, мы имеем дело не со спектральными параметрами, а с временными. Применительно к звуковоспроизведению оказалось, что усилитель должен сохранять содержащийся в фонограмме виртуальный ноль с очень большой точностью.

Хочу подчеркнуть, что отмеченные нами результаты произвели на некоторых авторов достаточно сильное впечатление. По этой причине к этим результатам, по моему мнению, целесообразно относится серьезно независимо от того, как мы относимся к самим авторам.

На основе изложенных выше данных мы можем построить модель слухового восприятия (по нашим предыдущим раскладкам — второй части механизма), которая будет близка к настоящему механизму настолько, что, надеюсь, позволит перейти от эзотерических способов получения хорошего звучания музыкальных фонограмм к реальному конструированию и разработке. Эта модель не обязательно будет на 100% соответствовать тем процессам, которые происходят в голове на самом деле, но, будучи примененной для определения необходимых параметров звуковой аппаратуры, она даст такой же результат. Модель такова.

Как нам всем известно, человек воспринимает звуки в виде конкретных слуховых объектов (образов). Например, звучание фортепиано воспринимается как единый слуховой объект без какого бы то ни было разделения его на спектральные составляющие. При исполнении музыкального произведения слушатель воспринимает как гармонический рисунок этого произведения, так и соответствующий ему во времени динамический рисунок. Если вместе с фортепиано играет скрипка, то слушатель воспринимает два отдельных слуховых объекта, каждый со своим мелодическим и динамическим рисунками. Кроме этого слушатель получает и третий слуховой объект: музыкальный ансамбль. В реальных акустических условиях обязательно присутствует еще и реверберация зала, которая в большой степени влияет как на звучание каждого инструмента, так и на звучание ансамбля в целом. При желании слушателя фиксировать внимание на звучании реверберации это ему, как правило, без труда удается, поэтому мы можем считать звучание реверберации еще одним отдельным слуховым объектом.

Говоря о динамическом рисунке слухового объекта, мы не можем применить к нему понятие амплитудной огибающей, так как имеем дело с субъективным отражением физических процессов, а не с самими процессами. Здесь необходимо использовать понятие громкостной огибающей. Как было рассмотрено в [4], громкостная огибающая амплитудной не соответствует. Напомню, что время накопления ощущения громкости выше порога маскировки составляет 100мс, а на самом пороге маскировки может быть разным, в пределах от 50 до 200мс, и определяется тем, существуют или нет в полосе накопления звукового сигнала, вызывающего соответствующие слуховые объекты, фрагменты с одинаковой временной структурой. Порог маскировки, таким образом, может быть представлен как некий фильтр, первая ступень накопления, которая пропускает или не пропускает фрагменты звукового сигнала во вторую ступень накопления, работа которой непосредственно формирует громкостную огибающую и от содержания сигнала не зависит. Далее, говоря о времени накопления, мы будем иметь в виду первую ступень — порог маскировки. Ясно, что если фрагмент сигнала не прошел первую ступень, то он не будет участвовать в накоплении и во второй ступени. Зависимость в первом приближении линейная. В рассматриваемом нами случае имеет место взаимная маскировка составляющих звука фортепиано, скрипки и реверберации, а это значит, что громкостная огибающая каждого слухового объекта зависит, среди прочего, и от времени накопления на пороге маскировки по каждому объекту [4]. Чем больше время накопления, тем более слышимым делается каждый инструмент и тем больше громкостная огибающая соответствует амплитудной. В идеальном случае время накопления для каждого источника звука должно быть максимальным. Тогда их взаимная маскировка либо отсутствует, либо в значительной мере уменьшается (доказательств этому достаточно серьезному утверждению я привести не могу, но то обстоятельство, что в звучании разных систем степень взаимной маскировки не соответствует закономерностям классической психоакустики и имеет громадный разброс, неоднократно подтверждалось практикой). Такие условия как раз и обеспечивают отсутствие какой-либо эмоциональной окраски. Невыполнение же этих условий наоборот, предполагает наличие эмоциональной окраски исходной фонограммы, величина и содержание которой может иметь огромный разброс.

Красота звучания, как мы предполагаем, зависит от степени корелляции последовательных временных структур фрагментов звукового сигнала. Временные структуры фрагментов сигнала воспринимаются слуховой системой как одинаковые тогда, когда они совпадают с точностью 0,3мкс и менее. Сопоставляя наши предположения в части красоты звучания с работой механизма накопления, можно сделать единственно возможный вывод: и красота звучания, и громкостная огибающая — это результат работы одного и того же механизма накопления, поэтому в дальнейшем мы не будем их разделять; говоря о накоплении и громкостной огибающей, мы одновременно говорим о красоте звучания, и наоборот. Размер полосы музыкальности одновременно определяет и необходимое условие участия очередного фрагмента в накоплении: сходство его временной структуры с временной структурой предыдущего фрагмента с точностью 0,3 мкс. По крайней мере, для сохранения тембра какого-либо источника звука мы обязательно должны сохранить первоначальное время накопления для каждой составляющей спектра этого источника.

Каждый участвующий в накоплении фрагмент расположен на звуковой «странице» размером 50мс, но не обязательно заполняет ее полностью. Для получения полноценного музыкального звучания размер этих фрагментов должен быть как можно больший, чем ближе к 50мс, тем лучше. Та часть звукового сигнала, которая находится за пределами этих фрагментов, в накоплении не участвует и из области восприятия исчезает.

Добиться такого эффекта очень непросто. Действительно, веками мастера совершенствовали звучание музыкальных инструментов, архитекторы добивались получения необходимых акустических свойств помещений еще дольше и, наконец, музыканты всю жизнь упорно совершенствуют приемы игры. Это делалось и делается без каких-либо теорий, приборов и измерений, исключительно на слух по субъективным критериям красоты звучания. В результате мы имеем то, что сегодня называем акустическим звучанием музыки, и считаем это исходными данными. Наша задача — осуществить запись и последующее воспроизведение звучания этой музыки без потерь.

Задача эта не так проста. Как мы видим, для того, чтобы исходное звучание попало в очень узкую полосу музыкальности, уже проделана огромная работа. Последним, кто участвует в формировании звучания музыки в процессе ее записи, является звукорежиссер. Здесь важно то, что результат своей работы он оценивает также на слух, в соответствии со своими эстетическими представлениями, и при этом в пределах своих способностей старается удержать звучание в полосе музыкальности.

В чем же главная сложность звуковоспроизведения? Почему эталонное акустическое звучание так сложно сохранить? Главное отличие акустических условий в том, что в пределах 200мс акустическая среда может считаться абсолютно стабильной. (По-видимому, это ее качество было использовано природой при создании механизма слухового восприятия. Что-то типа точки опоры. Человек же в процессе развития цивилизации научился это свойство использовать, сначала только для услаждения слуха, а потом и для более серьезных вещей. Имеется в виду не сама музыка, а ее звучание, хотя они и очень тесно взаимосвязаны.) Электронные устройства, предназначенные для звуковоспроизведения, на сегодняшний день необходимым уровнем стабильности своих параметров не обладают.

Задача звуковоспроизведения сегодня формулируется так: получить во вторичном помещении прослушивания такое же звучание, как в первичном помещении записи. Необходимым условием для этого является постоянство свойств канала передачи, в который входят аппаратура записи и тиражирования, носитель записи и аппаратура воспроизведения, включая АС. К тому же надо определенным образом согласовать вторичную акустическую волну от АС со вторичным помещением. Мы можем говорить о том, что задача решена, в том случае, когда у слушателя во вторичном помещении в процессе прослушивания возникают такие же слуховые объекты, как и в первичном помещении, в числе прочих характеристик звучания — с такими же индивидуальными и суммарной громкостными огибающими. (Как уже говорилось в [2], громкостные огибающие — это самый критичный показатель звучания. Сохранив его, мы с большой вероятностью сохраним и другие показатели.) В этом случае мы достигнем того, что музыка будет восприниматься слушателем так же, как в первичном помещении. Такой результат может быть получен только в том случае, когда вторичная звуковая волна содержит в себе такой же набор повторяющихся фрагментов, как и первичная. Фрагменты должны быть такой же длины и быть между собой так же организованы. Максимально допустимое от исходных отличие временных структур участвующих в накоплении фрагментов не должно превышать 0,3мкс. С такой же точностью необходимо совмещать начала фрагментов на временной оси.

Чтобы это обеспечить, звуковоспроизводящая аппаратура должна обладать вполне определенными свойствами. Выразить их можно по-разному. На мой взгляд, наиболее удобно применить такой параметр, как стабильность ФЧХ, выраженную в размерности времени. Для достижения необходимого результата каждое звено тракта должно на отрезке в 200мс иметь нестабильность фазочастотной характеристики не более чем 0,3мкс. Выражать нестабильность ФЧХ в угловых единицах в данном случае нецелесообразно, так как на разных частотах мы получим разные величины, от 2гр на 20000Гц до совсем микроскопических 0,002гр на 20Гц. Сама ФЧХ на степень корреляции временных структур не влияет. Коэффициент гармоник, если он постоянен во времени в полосе частот, на временные структуры прямого влияния не оказывает. Что интересно, переходные процессы, если они строго одинаковы во времени, также на музыкальность звучания оказывать прямого влияния не должны.

При выражении необходимых свойств через нестабильность ФЧХ пока остается открытым вопрос начальных фаз. Он связан с распределением фрагментов на временной оси и пока не совсем ясен. Но есть основания считать, что это распределение напрямую либо косвенно связано с упомянутым выше «виртуальным нулем». Дело в том, что при изучении влияния разных факторов на разборчивость речи было установлено, что пик-клиппирование сигнала мало влияет на ее разборчивость, тогда как центральное клиппирование снижает разборчивость до нулевого значения [5]. По этой причине события в физическом звуковом сигнале, из которых составляется ухом его временная структура, вероятнее всего являются переходами сигнала через ноль, а не пиками, либо чем-нибудь еще. Но в этом случае и началом временной структуры каждого участвующего в накоплении фрагмента будет один из моментов перехода сигналограммы через ноль. Через виртуальный ноль… Что же будет, если виртуальный ноль «уползет» в какой-то момент времени от исходного значения? В этом случае сигнал пересечет этот ноль не в нужный момент, а чуть раньше, либо — чуть позже. Отчет временной структуры очередного фрагмента начнется раньше или позже, и она уже не совпадет со структурой предыдущего фрагмента так, как это было в оригинале. Более того, этот фрагмент может полностью исчезнуть из области восприятия, примерно так же как потеря одного бита приводит к полной потере информации. Во всяком случае, наиболее вероятным будет то, что при этом субъективно ощущаемые изменения в звучании будут наибольшими, так как это эквивалентно такому же смещению каждого из событий звукового сигнала, тех, которые образуют данную временную структуру. В качестве примера: если одна электричка опоздает на полчаса, этого никто и не заметит (кроме пассажиров этой электрички). Если на полчаса опоздает половина электричек, то об этом уже будут говорить и на следующий день. Если же на полчаса отстанут часы у диспетчера (смещение начала отсчета), то опоздают все электрички, и общее впечатление от этого будет сильным настолько, что это событие будет упомянуто в новостях.

Последнее утверждение может показаться слишком смелым, но оно возникло из практических наблюдений. Наблюдения такие. Когда система настроена максимально тщательно, включая установку АС в точки живого звука, то ухудшение звучания системы при выводе АС из этих точек ощущается КАЖДЫМ слушателем. При этом, как правило, неопытному слушателю достаточно трудно описать, в чем это ухудшение заключается. Однако если ему предлагается среди прочих изменений обратить внимание на разность по громкости самого тихого и самого громкого звука на каком-нибудь участке фонограммы, то он уверенно определяет, что при выводе АС из точек живого звука эта разность уменьшается. На разных фонограммах этот эффект проявляется по-разному. Есть фонограммы, в которых этот эффект проявляется весьма сильно. Например, «Чему учат в школе» на CD «Школьный вальс». Там в начале 10 тактов вступления на фортепиано. Так вот, в первоначальном варианте идеально настроенной системы мы слышим, что его самый тихий звук соответствует пиано, а самый громкий — форте. Разница — не менее 20 фон (субъективный дБ). Стоит только переместить АС на расстояние 0,05-0,1 мм, как разница по громкости между теми же звуками оценивается уже всего в 4-6 фон, находящихся в пределах меццо-форте. Чтобы достичь такого же эффекта путем обычной обработки сигнала, его надо скомпрессировать по амплитуде на 15(!) дБ. Или слегка расстроить систему… Другое дело, что получить звучание системы, обеспечивающее эти самые 20 фон, чрезвычайно сложно. Слишком много мешающих факторов. Но об этом я уже говорил. Самое важное здесь то, что в явной форме проявляется одно из свойств слухового механизма: при определенных условиях микроскопические физические изменения в звуковом сигнале приводят к огромным изменениям в восприятии этого сигнала.

Не надо думать, что процессы организации фрагментов сигнала на звуковой оси каким-либо образом влияют на узнаваемость звуковых объектов. В пределах 50 мс, когда механизм накопления еще не работает, вполне достаточно информации для распознавания источника. Первая часть (по нашей терминологии) механизма слухового восприятия успешно работает во всех условиях, несмотря ни на что. Мы можем не только отличить один музыкальный инструмент от другого, но даже тембровые различия разных инструментов одного вида. Только вот особого удовольствия при этом мы не испытаем. Такой звук обычно характеризуется как «формальный», «холодный» и т.д. Тихие звуки не прослушиваются. Прозрачность почти отсутствует. Кстати говоря, такой часто применяемый термин как «прозрачность звучания» не имеет единого толкования. Предлагаю его понимать буквально, т.е. как слышимость одного звука на фоне другого и тихих звуков на фоне более громких. В этом случае мы получаем возможность добавить в способы описания звучания что-то новое. Попробуем это сделать.

3. Почти объективно

Когда мы пытаемся описать звучание системы, то неизбежно натыкаемся на отсутствие полного понимания нашего описания собеседником. Уж сколько на эту тему исписано… Существуют целые системы оценки звучания, более или менее удачные, например, А. Лихницкого или Г. Микаэляна. Почему-то новое приживается с трудом. Имея немалый опыт общения с самыми разными звуковыми системами, могу дополнительно предложить качество их звучания различать по слышимости реверберационных повторов. Этот способ не лучше других, но в ряде случаев он может быть более удобным, т.к. такой способ оценки не требует углубления в субъективные ощущения. Здесь же я решил предложить этот способ еще и затем, что при его рассмотрении хорошо видна работа предполагаемого механизма слухового восприятия.

В большинстве фонограмм слышимость реверберационных повторов проявляется в виде ощущения объема первичного помещения записи, но есть и достаточно много фонограмм, где реверберация первичного помещения может восприниматься как отдельный слуховой объект. Исходное звучание, которое можно охарактеризовать «нулевой» музыкальностью, мы только что описали. По нашей гипотезе музыкальность появится в том случае, когда в звуковой волне ухо будет находить фрагменты сигнала с одинаковой временной структурой. И здесь мы сразу видим, что достигнуть этого можно двумя совершенно разными способами.

Первый способ — получить копии фрагментов во вторичном помещении заново, путем оптимизации его реверберационных свойств. Второй способ — так построить систему, чтобы полностью или частично обеспечить участие в восприятии те копии фрагментов, которые уже находятся в исходной фонограмме. О том, что эти фрагменты слышимы и правильно организованы, можно косвенно судить по слышимости реверберации первичного помещения записи.

При первом способе главной задачей является акустическая обработка помещения прослушивания. В этом вопросе ничего нового добавить не могу, отмечу лишь некоторые моменты. Во-первых, полное соответствие звучания исходному в другом помещении теоретически недостижимо. Во-вторых, чтобы получить правильную динамику, надо иметь возможность во вторичном помещении расположить слушателя на расстояние 15-20м от АС. Если это сделать невозможно, то правильное звучание можно получить только в одной точке прослушивания. В третьих, в помещении реальных размеров приходится отказываться от нижнего регистра. Но есть и преимущества: не обязательно устанавливать АС в точки живого звука, и требования к параметрам системы в этом случае могут быть гораздо более низкими. В данном случае сигналы слабого уровня, содержащиеся в фонограмме и состоящие из копий более громких фрагментов, во вторичной звуковой волне не нужны и могут только помешать. На практике избавление от слышимости сигналов низкого уровня производится шунтированием конденсаторов, подбором проводов и еще многими другими способами. Контроль результата — на слух, в большинстве случаев по критерию «чистоты» звука. Звук при этом в самом деле становится чище, ведь отсутствие накопления исключает образование в звуке так называемой «грязи», которое может произойти в результате «кривого» накопления. Но об этом дальше. Нижний регистр, как уже говорилось, пристегнуть не удается: добавляем низов — «заводится» комната прослушивания и разрушается вторичная реверберационная картина. Тем не менее, даже такое звучание может быть намного предпочтительнее традиционно hi-fi-ного транзисторного, особенно для джазовой музыки, камерной классики и, может быть, вокала. Но ничего другого слушать невозможно: скучно. Возможно, что для больших помещений имеются какие-либо другие закономерности, но мне они не известны, т.к. нет личного опыта.

Больший интерес представляет рассмотрение второго способа. Рассмотрим его более подробно. Как уже говорилось, аппаратура должна обеспечивать сохранение сходства во вторичной звуковой волне когерентных по временной структуре фрагментов с точностью не менее 0,3 мкс и виртуального нуля с вообще невообразимой точностью. (Если мы предположили, что влияющая на звучание инфранизкочастотная функция звука не его амплитудная огибающая, а виртуальный ноль, то именно ему мы должны приписать найденный в [3] порог восприятия по амплитуде: 0,000 000 001 от уровня сигнала.)

Начнем со стандартного hi-fi-я. Здесь не выполняются оба условия. В изначально когерентных фрагментах появляются отличия, которые носят случайный бессистемный характер. Как правило, виртуальный ноль близок к оригиналу за счет, например, обратной связи в усилителе, но он не гладкий и имеет микроизгибы. В результате когерентные фрагменты получаются достаточно большой длины, полноразмерно участвуют в накоплении, но т.к. по длине фрагментов имеет место большое количество «ошибок», то на звучании это как-то должно сказываться. Скорее всего, это и есть та самая «грязь», которая каждому знакома с детства. По крайней мере, она возникает не от гармоник, не от комбинационных частот и не на переходных процессах. Это можно утверждать с уверенностью, ибо если бы это было так, то мы никогда в присутствии вышеназванных искажений не смогли бы получить чистый звук. Однако такие случаи бывают очень и очень часто, а это значит, что не они являются причиной «грязного» звука. За счет того, что фрагменты достаточно длинные и виртуальный ноль близок к оригиналу, нижний регистр присутствует. Хорошо воспринимается только танцевальная музыка и любимые песни, которые могут доставить не меньшее удовольствие и через «бумбокс». Можно слушать рок, но только самые любимые команды. Влияние «аномальных» факторов на звучание практически не прослеживается.

Первое, что можно сделать для улучшения звучания — это добиться непрерывной (без ошибок) когерентности хотя бы для части фрагментов, а виртуальный ноль исказить таким образом, чтобы остальные части фрагментов из области восприятия исчезли. При этом в процессе накопления участвуют укороченные фрагменты, но имеющие непрерывную когерентность. Как раз этим все сейчас и занимаются. Способы: отказ от обратной связи в усилителях, применение ламп, отбор деталей и многое, многое другое. Все это делается исключительно на слух. Как правило, результат достигается. Но этот результат тоже имеет ступени.

Первая ступень — это когда получаются когерентными части фрагментов одного и того же уровня сигнала. В этом случае начинает проявляться локализация кажущихся источников звука по расстоянию от слушателя. Появляется звуковая сцена. Музыка воспринимается намного лучше, особенно те фонограммы, в которых мало инструментов и преобладает интеллектуальное содержание. Нижний регистр отсутствует. Тишины не слышно. Плохо воспринимается рок, старые шлягеры и вообще вся музыка с преобладанием эмоционального содержания. Если попытаться уловить в звучании реверберацию записи, то это не удается: ощущения какого-либо объема не возникает. Зачастую возникает ощущение того, что музыканты играют посреди поля, а слушатель находится рядом с ними. Если применить использованную нами ранее аналогию с перелистыванием страниц, то мы будем в этом случае иметь четкое, но упрощенное изображение небольшой части рисунка. Влияние аномальных факторов хорошо заметно.

Вторая ступень: части фрагментов когерентны для разных уровней сигнала. Достигается более тщательным использованием тех же приемов. В звучании появляется объем, в какой-то степени ощущается помещение записи. Звуковая сцена получает размеры и глубину. Реверберация при желании ощущается как отдельный объект, но только на середине и вверху. Нижний регистр в реверберации полностью отсутствует. Если АС близки к оптимальным местам расположения, то слышна тишина. Иногда говорят, что аппаратура «дышит». В среднем регистре динамика почти правильная. На сегодняшний день такое звучание считается высшим классом. Требования к расположению АС значительно вырастают, т.к. от их расположения напрямую зависит форма виртуального нуля в звуковой волне, но большинство пользователей этому внимания не уделяют. А зря: то, что система вышла на этот уровень, можно так и не узнать. При неправильном расположении АС реверберация записи воспроизводится беспорядочно, обычно заполняет все помещение и только мешает. К тому же появляется излишняя детальность, а шумовой призвук звукоизвлечения преобладает над последующим звучанием инструментов [6] (по Г. Микаэляну). Нижний регистр в общем звучании по-прежнему отсутствует. По той же аналогии с перелистыванием страниц мы получаем на этой ступени изображение той же части рисунка, но уже с полным качеством. Влияние аномальных факторов сильное.

Для достижения третьей ступени, как уже всем нам понятно, необходимо добавить в звучание нижний регистр, т. е. получить рисунок целиком. Для этого нужно, чтобы аппаратура обеспечивала непрерывную когерентность по всей длине фрагментов, а виртуальный ноль обеспечивал их правильную организацию. Требования к виртуальному нулю в этом случае такие: максимальная гладкость и максимальное приближение к исходной форме. Однако выполнить такие условия чрезвычайно трудно. Как только мы подходим к правильному виртуальному нулю, так сразу получаем увеличение воспринимаемой длины фрагментов, а это значит, что необходимо обеспечить их безошибочную когерентность уже на большей длине. Что при этом может получиться? Например, в усилителе логичнее всего обеспечить требуемое приближение виртуального нуля к исходному с помощью обратной связи. Однако при этом можно ухудшить положение с когерентностью фрагментов и вместо улучшения звучания получить обратный результат. Если же мы начнем выпрямлять виртуальный ноль другими способами, то нам надо будет учитывать огромное количество физических факторов, причем, чем ближе мы будем подходить, тем больше обнаружим влияющих на звучание факторов. Опять же, нахождение для АС точек живого звука является при этом необходимым условием, т.к. взаимодействие помещения и АС также является одним из факторов, влияющих на форму виртуального нуля.

Что мы имеем в этом смысле на практике? Получить нижний регистр без потерь достигнутого качества оказывается чрезвычайно сложно. Как только кто-то его пристегнет, в звучании или появляется «каша», или динамика оказывается недопустимо кривой, начисто уничтожая эмоциональную структуру музыки. Исключительно редко мне удавалось слышать системы, в которых без потерь ранее достигнутых результатов присутствовал нижний регистр, но без эха, т.е. в реверберационных повторах нижний регистр по-прежнему не прослушивался. Тем не менее, по отношению к предыдущей ступени улучшение звучания было значительным. Среди прочего, в звуке появляется та насыщенность и телесность звуков, которой никогда не хватает. АС во всех случаях находились в точках живого звука, либо с моей помощью, либо волею случая. Влияние аномальных факторов было исключительно сильным. Единственный раз мне удалось добиться всего комплекса требований, включая нижний регистр реверберационных повторов, в своей системе, но надолго сохранить такое звучание не удалось. Однако мне хватило времени на то, чтобы отметить в общих чертах все присущие этому эффекты, поэтому могу определенно сказать: ощущение живого звука, полностью восстанавливающего исходное акустическое звучание, возможно. Для этого необходимо обеспечить слышимость сигналов малого уровня (на фоне большого) в нижнем регистре. Это последний этап в улучшении звучания, который может быть сделан только после прохождения предыдущих. Переходя к параметрам можно сказать так: живой звук получается при приближении длины участвующих в накоплении фрагментов к 50 мс. Для этого, кроме всего прочего, необходимо добиться сохранения содержащегося в фонограмме виртуального нуля с точностью 0,000 000 001 — 0,000 000 000 1.

Каким же способом можно достичь необходимых параметров аппаратуры? По этому поводу мне сказать нечего: я не радиоинженер и не физик. Будь по-другому, может быть, что-то и удалось бы предложить. Со своей колокольни я вижу два способа.
Первый — это каким-либо образом применять обратную связь, но, уже зная, что необходимо получить в результате. Возможно, необходимые решения уже применялись, но результаты были оценены неправильно из-за того, что АС не были установлены в точки живого звука.
Второй — нормировать либо измерять для каждого элемента его влияние на виртуальный ноль по отдельным частям звукового диапазона частот и при разработке аппаратуры добиваться нулевого суммарного влияния как на виртуальный ноль, так и на степень когерентности по частям звукового диапазона.
Сделать эту работу «на слух» невозможно. Приборов такой точности я в своей жизни не встречал. Тем не менее, уверен, что эта задача для специалистов не является неразрешимой.

С. Поляков

P.S. «Уважаемые коллеги. Вот решил разместить на сайте новую статью, а сам до конца месяца вынужден целиком уйти в работу. Тук уж получилось. Поэтому заранее прошу прощения за то, что, если будут ко мне вопросы, возражения и т.д., то я, скорее всего, не смогу на это отреагировать. В Интернет буду выходить только по мере возможности, так что если будут какие-либо не сиюминутные мысли, лучше пошлите (или продублируйте) по почте [email protected]».

Литература:
1. Дж. К. Р. Ликлайдер. «Основные корреляты звукового стимула». 1951г.
2. С. Поляков. «О точках живого звука». www.AudioWorld.ru
3. C. Поляков. «Может ли быть построено недостающее звено теории слухового восприятия». www.AudioWorld.ru
4. С. Поляков. «Громкость. Новый подход». www.AudioWorld.ru
5. Стенли А. Гельфанд. «Слух», стр.337. Медицина,1984г.
6. Г. Микаэлян. «Воспроизведение. Характеристики воспроизведения». Ж-л «Audiomusic», №1,2 и др.
7. О. Сучков-Росси. «Форматные искажения в УМЗЧ». www. Radionet.com.ru
8. Ю. В. Рожков. «Звуковой тракт ХХI века». Тезисы научно-технического семинара «Российский HIGH-END-97», МТУСИ.
9. А. Квитка. «Термодинамические аспекты звуковоспроизведения». Тезисы научно-технического семинара «Российский HIGH-END-2000», МТУСИ.

All-Audio.pro

Статьи, Схемы, Справочники

О восприятии музыкального сигнала

Добавить комментарий Отменить ответ