new


телефоны, сигнальные устройства и громкоговорители, осветительное оборудование
системы диспетчерской и громкоговорящей связи
системы конференц-связи
системы связи и безопасности для рудничного сектора
системы связи и безопасности на базе стандартов DECT и TETRA
системы промышленного и охранного телевидения
Рудничная радиотелефонная связь стандарта DECT
Промышленное осветительное оборудование
Беспроводные решения на базе технологий VoWiFi и VoIP
загрузить прайс-лист
Методы и стандарты передачи речи по трактам связи, применяемые в современном оборудовании (7 кГц)

  1. Импульсно-кодовая модуляция (PCM - Pulse-Code Modulation)
  2. m-Law и A-Law кодирование
  3. Помехоустойчивость методов ИКМ
  4. Методы эффективного кодирования речи
Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего.

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.

Качество звучания сжатой речи в цифровой телефонии, мягко говоря, "не очень". Некоторые (из тех, конечно, кто имеет такой выбор) до сих пор предпочитают аналоговые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. — и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Впрочем, это болезни роста: понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше.

Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц — не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.

Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) — периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр — нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за 1 ый ОТ (возбуждение фильтра) и 2-ой голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие. А отрезки глухой речи при моделировании заменяют спектрально окрашенным шумом.

Рассмотрим методы цифрового представления речи, к которым относятся: 1. прямое аналого- цифровое преобразование (или импульсно-кодовая модуляция, ИКМ); 2. эффективное кодирование речи, ЭКР (здесь можно выделить кодеры формы, вокодеры и кодеры, реализующие алгоритмы анализа через синтез).





Прямое аналого-цифровое преобразование является низкоэффективным (т. е. имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается).

Еще в 60-х годах был принят алгоритм оцифровки голоса под названием импульсно-кодовой модуляции (Pulse-Code Modulation — PCM, международный стандарт G.711). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением - либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах) . И то и другое — просто таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Попутно заметим, что именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей.

Рис.1 Выбор метода кодирования в ПО ICS системы ГГС и оповещения DVS-21 : 1) m-law , 2) a-law , 3) 7 кГц





Когда звуковая карта получает звуковые данные, она преобразует каждое значение дискретизации в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает вашего уха.

Какая же связь между значением оцифрованного звука и генерируемым звуковой картой напряжением? Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило.

Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии. Для преобразования значения линейной дискретизации m в дискретизацию Ym используется следующее уравнение:



где mp — максимальное входное значение оцифрованного звука, а m — константа, обычно 100 или 255.

A-Law используется в Европе. Оно также используется для преобразования значения линейной дискретизации в дискретизацию YA . А — это константа 87.6:



Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.





Рисунок 2 Помехоустойчивость различных методов цифрового представления: А — бласть нечувствительности к ошибкам; В — слабая чувствительность; С — потеря работоспособности.



На рис. 2, где приведены обобщенные кривые, характеризующие помехоустойчивость различных методов цифрового представления речи, кривая 1 соответствует ИКМ-представлению. Здесь Рош — вероятность ошибки на символ, а SNR — отношение сигнал/шум, рассчитанное через среднеквадратическую ошибку восстановления. ИКМ-кодеки имеют наихудшие показатели помехоустойчивости. На рисунке можно увидеть, что изо всех кривых (характеристик разных способов цифрового представления речи) самый короткий относительно других типов ЦПР участок А (нечувствительность к ошибкам в канале) имеет кривая 1. Кодеки могут потерять работоспособность, даже если вероятность ошибки равна 10-5, что соответствует параметрам канала среднего класса. Системы с ИКМ работают только в области нечувствительности к ошибкам в канале, но даже в этом случае вводятся специальные меры для устранения последствий возникновения одиночных ошибок. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.





После того как аналоговый сигнал преобразован в цифровую форму, к нему можно применять различные способы обработки, которые невозможно использовать при работе с чисто аналоговым сигналом. В частности, оцифрованный сигнал перед передачей можно сжать, уменьшив таким образом пропускную способность, необходимую для передачи одного голосового соединения. Методы сжатия речи разрабатываются для достижения определенных целей — нужных скоростей битового потока, качества сигнала, задержки и сложности. Чтобы гарантировать взаимную совместимость устройств кодирования и декодирования, организации по стандартам, такие как ITU-Т, ISO и ETSI, определяют эти цели в соответствии с предназначением каждого метода. Но при этом выигрывая в одном, пользователь часто проигрывает в другом.

Во-первых, несмотря на то, что алгоритмы сжатия реализуются на аппаратном уровне, с использованием специализированных процессоров обработки цифрового сигнала (Digital Signal Processor — DSP), все-таки эта операция может привести к задержкам в передаче голоса. При разработке высококачественных методов сжатия речи для скоростей цифровых потоков ниже 10 Кбит/с возникают особенные трудности. Для простых алгоритмов задержка невелика — единицы миллисекунд, однако для сложных алгоритмов, обеспечивающих значительное сжатие, продолжительность задержки может составлять около сотни миллисекунд, что вполне ощутимо при разговоре. К счастью, недавние достижения в области обработки цифровых сигналов (digital signal processing — DSP) и сверхбольших интегральных схем (very large scale integration — VLSI) сделали реализацию таких кодирующих устройств возможной и экономически эффективной.

Вторая важная проблема состоит в том, что сжатие речи, как правило, снижает качество звука. Известно, что больших степеней сжатия цифровой информации можно достичь только при использовании алгоритмов, не допускающих полного восстановления сжимаемой информации.

Наконец, в-третьих, чем выше степень сжатия информации, тем сложнее (и соответственно дороже) оборудование требуется для осуществления этой операции. По мере усовершенствования технической базы сжатия речи это ограничение теряет свою жесткость, однако появляются все новые, более сложные алгоритмы, потребляющие большие вычислительные мощности.

Выводы:
  1. Передача речи в полосе частот 0,3-3,4 кГц ухудшает восприятие ряда звуков (например, шипящих), но мало затрагивает разборчивость, как ошибочно утверждают некоторые компании.
  2. ИКМ (PCM) является высококачественным методом кодирования. В коммутационной системе DVS-21 компании ProCom (Германия) применяются кодеки, построенные на базе данного метода, которые работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается). В DVS-21 выбор режима работы кодека (m-law, A-law, 7 кГц) выбирается в программном обеспечении ICS (cм.рис.1)
  3. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования (метод применён в коммутационной системе DVS-21 компании ProCom (Германия), данный коммутатор имеет общую шину PCM 64).




Ссылки на ресурсы
  1. Варламова. Помехоустойчивые кодеки - будущее цифровой телефонии. "Сети и системы связи" №10, 1997, стр. 26-32
  2. Давид Ворсано. Кодирование речи в цифровой телефонии. "Сети и системы связи" №8, 1996 Александр Крейнес. Как налить море в наперсток? Технологии компрессии голоса. "Сети и системы связи" №9-10, 1996, стр. 119-121
  3. Техническое описание цифрового коммутатора DVS-21(ProCom GmbH), 2008г., стр.5-20.





Rambler's Top100