RU2344493C2

RU2344493C2 - Кодирование звука с различными длительностями кадра кодирования

Info

Publication number: RU2344493C2
Application number: RU2006139796/09A
Authority: RU
Inventors: Яри МЯКИНЕН (FI); Яри МЯКИНЕН
Original assignee: Нокиа Корпорейшн
Priority date: 2004-05-17
Filing date: 2004-05-17
Publication date: 2009-01-20
Also published as: RU2006139796A

Abstract

Изобретение относится к способу поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, согласно которому предлагается определять на основе характеристик звукового сигнала по меньшей мере один параметр управления. Затем этот параметр управления используют для ограничения вариантов выбора возможных длительностей кадра в отношении по меньшей мере одного отрезка сигнала. Группа изобретений включает также модуль (10, 11), в котором реализован этот способ, устройство (1) и систему, которые содержат такой модуль (10, 11), а также программный продукт, включающий код программы для выполнения предложенного способа. Технический результат - предоставление возможности простого выбора соответствующей наиболее подходящей длительности кадра кодирования. 5 н. и 29 з.п. ф-лы, 4 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к способу поддержки кодирования звукового сигнала, при котором по меньшей мере один отрезок указанного звукового сигнала необходимо кодировать с помощью модели кодирования, которая позволяет использовать различные длительности кадра кодирования. Изобретение относится также к соответствующему модулю, к соответствующему электронному устройству, к соответствующей системе и к соответствующему программному продукту.

УРОВЕНЬ ТЕХНИКИ

Известно, что кодирование звуковых сигналов дает возможность обеспечения их эффективной передачи и/или хранения.

Звуковой сигнал может быть речевым сигналом или звуковым сигналом другого типа, например музыкой, и для разных типов звуковых сигналов могут подходить разные модели кодирования.

Широко распространенной техникой кодирования речевых сигналов является кодирование по алгоритму линейного предсказания с возбуждением алгебраическим кодом (ACELP - Algebraic Code-Exited Linear Prediction). ACELP моделирует систему речеобразования человека и хорошо подходит для кодирования периодичности речевого сигнала. В результате можно достичь высокого качества речи при очень низких скоростях передачи. Например, Адаптивный Широкополосный Многоскоростной кодек (Adaptive Multi-Rate Wideband - AMR-WB) - это речевой кодек, который основан на технологии ACELP. Кодек AMR-WB был описан, например, в технической документации 3GPP TS 26.190: "Speech Codec speech processing functions; AMR Wideband speech codec; Transcoding functions" (Функции обработки речи речевого кодека; широкополосный речевой кодек AMR; функции транскодирования), V5.1.0 (2001-12). Однако для других типов звуковых сигналов, таких как музыка, речевые кодеки, которые основаны на системе речеобразования человека, обычно работают довольно плохо.

Широко используемым способом кодирования звуковых сигналов, отличных от речевых, является кодирование с преобразованием (ТСХ - transform coding). Преимущества кодирования с преобразованием для звукового сигнала основаны на эффекте маскирования при восприятии и кодировании в частотной области. Качество получающегося звукового сигнала можно дополнительно улучшить, выбирая для кодирования с преобразованием подходящую длину кадра кодирования. Но вместе с тем, что способы кодирования с преобразованием приводят к высокому качеству звуковых сигналов, отличных от речевых, они имеют плохие показатели для периодических речевых сигналов. Поэтому качество речи, подвергнутой кодированию с преобразованием, обычно довольно низкое, особенно с большими длинами кадра ТСХ.

Расширенный кодек AMR-WB (AMR-WB+) кодирует стереофонический звуковой сигнал в виде высокоскоростного монофонического сигнала и предоставляет некоторую дополнительную информацию относительно стереорасширения. Кодек AMR-WB+ использует для кодирования основного монофонического сигнала в полосе частот от 0 до 6400 Гц обе модели кодирования, ACELP и ТСХ. Для модели ТСХ используется длительность кадра кодирования 20, 40 или 80 мс.

Так, как модель ACELP может снизить качество звука, а кодирование с преобразованием обычно плохо работает для речи, особенно когда используются длинные кадры, надо выбрать соответственно лучшую модель кодирования. Выбор той модели кодирования, которую фактически нужно применять, можно выполнить разнообразными путями.

В системах, требующих применение алгоритмов невысокой сложности, таких как мобильные мультимедийные службы (MMS - mobile multimedia services), для выбора оптимальной модели кодирования обычно применяются алгоритмы классификации музыка/речь. Эти алгоритмы классифицируют целый исходный сигнал либо как музыку, либо как речь на основе исследования энергии и частоты звукового сигнала.

Если звуковой сигнал состоит только из речи или только из музыки, то использование одной и той же модели кодирования, которая основана на такой классификации музыка/речь для целого сигнала, будет удовлетворительным. Однако во многих других случаях звуковой сигнал, который нужно кодировать, является звуковым сигналом смешанного типа. Например, речь может присутствовать в звуковом сигнале вместе с музыкой в одно и то же время и/или чередоваться с ней.

В этих случаях разделение целых исходных сигналов на музыкальную или речевую категорию является слишком ограниченным. В таком случае только переключение между моделями кодирования во время кодирования звукового сигнала может максимизировать общее качество звука. То есть модель ACELP также частично используется для кодирования исходного сигнала, классифицированного как звуковой сигнал, отличный от речевого, а модель ТСХ также частично используется для исходного сигнала, классифицированного как речевой сигнал.

Расширенный кодек AMR-WB (AMR-WB+) также предназначен и для кодирования таких смешанных типов звуковых сигналов с помощью разнородных моделей кодирования, которые используют принцип разбиения на кадры.

Выбор моделей кодирования в AMR-WB+ можно выполнять несколькими путями.

При наиболее сложном подходе сигнал сначала кодируется с помощью всех возможных сочетаний моделей ACELP и ТСХ. Далее для каждого сочетания сигнал снова синтезируется. Затем на основе качества синтезированных речевых сигналов выбирается лучшее возбуждение. Качество синтезированного речевого сигнала, получающегося для конкретного сочетания, можно измерить, например, определив его отношение сигнал/шум (SNR). Этот метод анализа через синтез обеспечивает хорошие результаты. Однако в некоторых приложениях из-за своей очень высокой сложности он не реализуем на практике. В значительной степени сложность вызвана кодированием ACELP, которое является наиболее сложной частью кодера.

Например, в системах, подобных MMS, метод анализа через синтез с полным замкнутым циклом выполнить слишком сложно. Поэтому в кодере MMS для определения того, какую модель кодирования - ACELP или ТСХ выбрать для кодирования отдельного кадра, применяется способ с незамкнутым циклом, обладающий низкой сложностью

Кодек AMR-WB+ для выбора соответствующей модели кодирования для каждого кадра предлагает два различных метода небольшой сложности с незамкнутым циклом. Оба метода с незамкнутым циклом для выбора соответствующей модели кодирования оценивают характеристики исходного сигнала и параметры кодирования.

В первом методе с незамкнутым циклом звуковой сигнал в пределах каждого кадра сначала делится на несколько полос частот и исследуется отношение между энергией в нижних и в верхних полосах частот, а также изменение уровня энергии в этих полосах. Затем на основе обоих выполненных измерений или на основе разных сочетаний этих измерений с использованием различных окон анализа и значений порога решения звуковое содержимое в каждом кадре звукового сигнала классифицируется как музыкоподобное или речеподобное.

Во втором методе с незамкнутым циклом, который также называется уточнением классификации модели, выбор модели кодирования основан на оценке периодичности и характеристик стационарности звукового содержимого в соответствующем кадре звукового сигнала. Характеристики периодичности и стационарности более точно оцениваются на основе определения корреляции, параметров долговременного предсказания (LTP - Long Term Prediction) и измерения спектрального расстояния.

Если свойства сигнала исследуются с помощью метода с незамкнутым циклом для выбора либо ACELP, либо ТСХ, а для кодирования выбирается ТСХ, то все еще необходимо выбрать одно из значений длительности кадра ТСХ 20, 40 или 80 мс, которое надо использовать. Однако оптимальную длительность кадра для ТСХ очень сложно выбрать на основе характеристик сигнала в рамках метода с незамкнутым циклом.

Таким образом, длительности кадра ТСХ возможно выбирать только в рамках упомянутого выше анализа через синтез. Однако для систем, требующих применения алгоритмов невысокой сложности, метод анализа через синтез слишком сложен, даже если он используется только для выбора длительностей кадра ТСХ.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Целью изобретения является предоставление возможности эффективного и простого выбора длительности кадра кодирования, которую нужно использовать для кодирования отрезка звукового сигнала.

Предложен способ поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок указанного звукового сигнала необходимо кодировать с помощью модели кодирования, которая позволяет использовать различные длительности кадра кодирования. Предложенный способ включает определение по меньшей мере одного параметра управления на основе, по меньшей мере частично, характеристик указанного звукового сигнала. Кроме того, предложенный способ включает ограничение вариантов выбора возможных длительностей кадра кодирования по меньшей мере для одного отрезка посредством указанного по меньшей мере одного параметра управления.

Кроме того, предложен модуль поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок указанного звукового сигнала необходимо кодировать с помощью модели кодирования, которая позволяет использовать различные длительности кадра кодирования. Модуль содержит блок выбора параметра, способный определять по меньшей мере один параметр управления на основе, по меньшей мере частично, характеристик звукового сигнала. Кроме того, модуль содержит блок выбора длительности кадра, который выполнен с возможностью ограничивать варианты выбора возможных длительностей кадра кодирования по меньшей мере для одного отрезка звукового сигнала посредством по меньшей мере одного параметра управления, предоставленного блоком первой оценки. Этот модуль может быть, например, кодером или частью кодера.

Кроме того, предложено электронное устройство, которое содержит такой модуль.

Кроме того, предложена система для кодирования звука, которая содержит такой модуль и дополнительно декодер для декодирования звуковых сигналов, которые были кодированы с переменными длительностями кадра кодирования.

Наконец, предложен программный продукт, в котором хранится код программы поддержки кодирования звукового сигнала. По меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, которая позволяет использовать различные длительности кадра кодирования. В процессе выполнения в обрабатывающей части кодера код программы выполняет этапы предложенного способа.

Изобретение исходит из того, что хотя окончательное определение длительности кадра кодирования для конкретного отрезка звукового сигнала часто не может быть выполнено на основе характеристик сигнала, тем не менее такие характеристики сигнала позволяют предварительно выбрать подходящие длительности кадра кодирования. Поэтому предложено определять по меньшей мере один параметр управления на основе характеристик сигнала для соответствующего отрезка звукового сигнала и использовать этот по меньшей мере один параметр для ограничения доступных вариантов выбора длительности кадра кодирования.

Преимущество изобретения состоит в том, что оно снижает количество вариантов выбора длительности кадра кодирования с помощью подхода, имеющего низкую сложность. С другой стороны, уменьшение вариантов выбора длительности кадра кодирования снижает сложность окончательного выбора длительности кадра кодирования, которую предстоит использовать.

В одном варианте осуществления изобретения окончательный выбор длительности кадра кодирования выполняется с помощью анализа через синтез. То есть в том случае, если после предложенного ограничения остается более чем один вариант выбора возможных длительностей кадра кодирования, то каждая из остающихся длительностей кадра кодирования с преобразованием используется для кодирования по меньшей мере одного отрезка. Затем получающиеся кодированные сигналы вновь декодируются с помощью соответствующей использованной длительности кадра кодирования с преобразованием. Теперь можно выбрать длительность кадра кодирования, которая приводит к лучшему декодированному звуковому сигналу по меньшей мере на одном отрезке.

Благодаря предшествующему ограничению можно значительно снизить количество требуемых циклов анализа через синтез по сравнению с упомянутым выше способом полного замкнутого цикла. В результате общая сложность кодера, в котором осуществляется изобретение, также понижается.

Наилучший декодированный звуковой сигнал можно определить различными способами. Например, его можно определить с помощью сравнения отношений сигнал/шум, получающихся с использованием каждой из оставшихся длительностей кадра кодирования. Отношения сигнал/шум можно легко определить и они обеспечивают надежное указание на качество сигнала.

В том случае, если для кодирования звукового сигнала можно применять несколько моделей кодирования, например модель ТСХ и модель ACELP, то также необходимо определить, какую модель кодирования для какого отрезка звукового сигнала нужно применять. Этого можно достичь способом с низкой сложностью на основе характеристик звукового сигнала для соответствующего отрезка, как упоминалось выше. Затем количество и/или положение отрезков, для которых должна применяться иная модель кодирования, чем та, которая позволяет использовать различную длительность кадра кодирования, также можно использовать в качестве параметра управления для ограничения вариантов выбора длительности кадра кодирования.

Например, длительность кадра кодирования не может превышать размер отрезка или отрезков между двумя отрезками, для которых была выбрана иная модель кодирования.

В дальнейших вариантах осуществления изобретения длительность кадра кодирования выбирается только в пределах соответствующего суперотрезка, который содержит предварительно определенное количество отрезков. В этом случае варианты выбора длительности кадра кодирования для конкретного отрезка также можно ограничить на основе сведений о границах суперотрезка, которому принадлежит отрезок.

Например, таким суперотрезком может быть суперкадр, который содержит в качестве отрезков четыре кадра звукового сигнала, каждый кадр звукового сигнала имеет длительность 20 мс. В случае, если моделью кодирования является модель ТСХ, то она может предоставить длительности кадра кодирования 20, 40 или 80 мс. Если в этом случае, например, для второго кадра звукового сигнала в суперкадре была выбрана модель кодирования ACELP, то известно, что третий кадр звукового сигнала можно кодировать с длительностью кодирования не более чем 20 мс или вместе с четвертым кадром звукового сигнала 40 мс.

В другом предпочтительном варианте осуществления изобретения индикатор, показывающий, надо ли применять большую или меньшую длительность кадра кодирования, предоставляет добавочный параметр управления. Указание на то, что надо применять меньшую длительность кадра кодирования, при этом исключает по меньшей мере вариант выбора самой большой длительности кадра кодирования, а указание на то, что надо применять большую длительность кадра кодирования, исключает по меньшей мере вариант выбора самой малой длительности кадра кодирования.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Другие объекты и возможности настоящего изобретения станут очевидны из следующего подробного описания вместе с сопроводительными чертежами.

Фиг.1 - это схема системы для кодирования звука в соответствии с вариантом осуществления изобретения.

Фиг.2 - это алгоритм, иллюстрирующий вариант осуществления способа, в соответствии с изобретением, реализованным в системе, показанной на фиг.1;

Фиг.3 - это первая таблица, иллюстрирующая ограничение, накладываемое на сочетания режимов работы, которое основано на параметрах управления в соответствии с изобретением; и

Фиг.4 - это вторая таблица, иллюстрирующая ограничение, накладываемое на сочетания режимов работы, которое основано на параметрах управления в соответствии с изобретением.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Фиг.1 - это схема системы для кодирования звука в соответствии с вариантом осуществления изобретения, которая позволяет выбирать длительность кадра кодирования для модели кодирования с преобразованием.

Система содержит первое устройство 1, включающее кодер 10 AMR-WB+, и второе устройство 2, включающее декодер 20 AMR-WB+. Первое устройство 1 может быть, например, сервером MMS, а второе устройство 2 может быть, например, мобильным телефоном.

Первое устройство 1 содержит блок 12 первой оценки для первого выбора модели кодирования по методу с незамкнутым циклом. Кроме того, первое устройство 1 содержит блок 13 второй оценки для уточнения первого выбора дополнительным методом с незамкнутым циклом и параллельно для определения индикатора короткого кадра в качестве одного параметра управления. Блок 12 первой оценки и блок 13 второй оценки вместе образуют блок выбора параметра. Кроме того, первое устройство 1 содержит блок 14 выбора длительности кадра ТСХ для ограничения вариантов выбора длительности кадра кодирования в том случае, если выбирается модель ТСХ, и для выбора лучшего варианта среди оставшихся вариантов методом с незамкнутым циклом. Кроме того, первое устройство 1 содержит блок 15 кодирования. Блок 15 кодирования способен применять к принятым звуковым кадрам модель кодирования ACELP, модель кодирования ТСХ20, которая использует длительность кадра ТСХ 20 мс, модель кодирования ТСХ40, которая использует длительность кадра ТСХ 40 мс, или модель кодирования ТСХ80, которая использует длительность кадра ТСХ 80 мс.

Блок 12 первой оценки соединен с блоком 13 второй оценки и с блоком 15 кодирования. Блок 13 второй оценки, кроме того, соединен с блоком 14 выбора длительности кадра ТСХ и с блоком 15 кодирования. Блок 14 выбора длительности кадра ТСХ также соединен с блоком 15 кодирования.

Необходимо понимать, что представленные блоки 12-15 предназначены для кодирования монофонического звукового сигнала, который может быть сформирован из стереофонического звукового сигнала. Дополнительную стереофоническую информацию можно сформировать в непоказанных дополнительных блоках стереорасширения. Кроме того, необходимо отметить, что кодер 10 содержит дополнительные непоказанные блоки. Кроме того, необходимо понимать, что представленные блоки 12-15 не должны быть отдельными блоками, а в равной степени могут быть перемешаны между собой или с другими блоками.

Блоки 12, 13, 14 и 15 можно реализовать, в частности, с помощью программного обеспечения SW, работающего в обрабатывающей части 11 кодера 10, которая показана штриховой линией.

Далее обработка в кодере 10 будет описана подробнее со ссылкой на алгоритм, показанный на фиг.2.

Обработка выполняется для соответствующего суперкадра. Каждый суперкадр имеет длительность 80 мс и содержит четыре последовательных кадра звукового сигнала.

Кодер 10 принимает звуковой сигнал, которым его снабжает первое устройство 1. Звуковой сигнал преобразовывается в монофонический звуковой сигнал и фильтр линейного предсказания (LP - linear prediction) и вычисляет в каждом кадре кодирование с линейным предсказанием для того, чтобы смоделировать спектральную огибающую.

Блок 12 первой оценки в рамках первого анализа с незамкнутым циклом обрабатывает получающееся возбуждение LPC, производимое фильтром LP, для каждого кадра в суперкадре. Этот анализ на основе характеристик исходного сигнала определяет, может ли содержимое соответствующего кадра рассматриваться в качестве речевого сигнала или иного звукового содержимого, аналогичного музыке. Анализ, как упоминалось выше, может основываться, например, на оценке энергии в разных полосах частот. Для каждого кадра, который, предположительно, содержит речевой сигнал, выбирается модель кодирования ACELP, а для каждого кадра, который предположительно содержит иной звуковой сигнал, выбирается модель ТСХ. В этот момент времени не существует разделения между моделями ТСХ, которые используют различные длительности кадра кодирования. Для тех кадров, для которых исследуемые характеристики ясно не указывают на содержимое с речевым сигналом или на содержимое со звуковым сигналом другого типа, выбирается неопределенное состояние.

Блок 12 первой оценки информирует блок 15 кодирования обо всех кадрах, для которых пока была выбрана модель ACELP.

Затем блок 13 второй оценки выполняет второй анализ с незамкнутым циклом с использованием покадрового принципа работы для дальнейшего разделения на кадры ACELP и ТСХ, которое основано на характеристиках сигнала. Параллельно блок 13 второй оценки определяет индикатор короткого кадра - флаг MoMtcx в качестве одного параметра управления. Если флаг MoMtcx установлен, то использование ТСХ80 запрещено.

Обработка в блоке 13 второй оценки для соответствующего кадра выполняется только в том случае, если для него установлен индикатор голосовой активности - флаг VAD и если блок 12 первой оценки не выбрал для этого кадра модель кодирования ACELP.

Если результатом вычисления первого анализа с незамкнутым циклом при помощи узла 12 первой оценки стало неопределенное состояние, то сначала вычисляется спектральное расстояние и набирается множество доступных характеристик сигнала.

Спектральное расстояние SD_n текущего кадра n вычисляется из параметров спектральной пары иммитанса (ISP - Immittance Spectral Pair) согласно следующему уравнению.

где ISP_n - это вектор коэффициентов ISP кадра n и где ISP_n(i) - это i-й элемент этого вектора. Параметры ISP так или иначе доступны, так как коэффициенты LP преобразуются в область ISP для целей квантования и интерполяции.

Параметр Lag_n содержит значения двух задержек незамкнутого цикла текущего кадра. Lag - это долговременная задержка фильтра. Обычно она равна истинному периоду основного тона или кратна ему, или он кратен ей. Анализ основного тона в незамкнутом цикле выполняется дважды за кадр, то есть каждые 10 мс, чтобы найти две оценки задержки основного тона в каждом кадре. Это делается для того, чтобы упростить анализ основного тона и ограничить поиск основного тона в замкнутом цикле малым количеством задержек вблизи оценок задержек в незамкнутом цикле.

Далее, LagDif_buf - буфер, содержащий значения задержки незамкнутого цикла предыдущих десяти кадров длительностью 20 мс.

Параметр Gain_n содержит два значения коэффициента усиления LTP для текущего кадра n.

Параметр NormCorr_n содержит два значения нормированной корреляции для текущего кадра n.

Параметр MaxEnergy_buf - это максимальное значение буфера, содержащего значения энергии. Буфер энергии содержит значения энергии текущего кадра n и пяти предыдущих кадров, каждый длительностью 20 мс.

Теперь выбираются режимы кодирования, а параметр управления NoMtcx устанавливается в соответствии со следующим алгоритмом с незамкнутым циклом:

if (SD_n>0.2)

Mode=ACELP_MODE;

else

if (LagDif_buf<2)

if (Lag_n==HIGH LIMIT or Lag_n==LOW LIMIT) {

if(Gainn-NormCorr_n<0.1 and NormCorr_n>0.9)

Mode=ACELP_MODE

else

Mode=TCX_MODE

else if (Gainn-NormCorr_n<0.1 and NormCorr_n>0.88)

Mode==ACELP_MODE

else if (Gain_n-NormCorr_n>0.2)

Mode==TCX_MODE

else

NoMtcx=NoMtcx+1

if (MaxEnergybuf<60)

if (SD_n>0.15)

Mode=ACELP_MODE;

else NoMtcx=NoMtcx+1.

Таким образом, разнообразные характеристики сигнала и их сочетания сравниваются с разнообразными предварительно заданными пороговыми значениями, чтобы определить, содержит ли кадр неопределенного режима речь или другое звуковое содержимое, и назначить подходящую модель кодирования. Подобным же образом в зависимости от некоторых из этих характеристик сигнала и их сочетаний устанавливается индикатор короткого кадра - флаг NoMtcx.

Если результатом вычислений первого анализа с незамкнутым циклом с помощью блока 12 первой оценки был режим ТСХ, то, наоборот, определяется, был ли сброшен в ноль флаг VAD по меньшей мере для одного кадра в предшествующем суперкадре. Если это так, то индикатор короткого кадра - флаг NoMtcx также устанавливается на '1'.

Если режим кодирования для текущего кадра к данному моменту уже установлен на режим ТСХ или все еще установлен на неопределенный режим, решение о режиме проверяется далее. С этой целью сначала из коэффициентов LP текущего кадра создается вектор mag спектральной огибающей, подвергнутой дискретному преобразованию Фурье (DFT). Затем выполняется проверка режима кодирования в соответствии со следующим алгоритмом:

if (Gain_n-NormCorr_n<0.006 and NormCorr_n>0.92 and Lag_n>21)

DFTSum=0;

for (i=l; i<40; i++) {

DFTSum=DFTSum+mag[i];

if (DFTSum>95 and mag[0]<5) {

Mode=TCX_MODE;

else

Mode=ACELP_MODE;

NoMtcx=NoMtcx+1

Таким образом, конечная сумма DFTSum - это сумма первых 40 элементов вектора mag, исключая его первый элемент mag(0).

Блок 13 второй оценки дополнительно информирует блок 15 кодирования обо всех кадрах, для которых была выбрана модель ACELP.

В блоке 14 выбора длительности кадра ТСХ сначала оцениваются параметры управления для ограничения количества вариантов выбора длительности кадра ТСХ.

Один параметр управления - это количество режимов ACELP, выбранных в суперкадре. В том случае, если модель кодирования ACELP была выбрана для четырех кадров в суперкадре, то не остается ни одного кадра, для которого нужно определять длительность кадра ТСХ. В том случае, если модель кодирования ACELP была выбрана для трех кадров в суперкадре, то длительность кадра ТСХ устанавливается равной 20 мс.

Дальнейшие ограничения вносятся на основе таблицы фиг.3 или 4. На фиг.3 и 4 представлены соответствующие таблицы из пяти колонок, связывающие длительности кадра ТСХ, которые можно выбрать с разнообразными сочетаниями выбранных режимов кодирования.

Обе таблицы в первой колонке показывают семь возможных сочетаний выбранных режимов кодирования для четырех кадров в суперкадре. В каждом из сочетаний выбрано не более чем два режима ACELP. Сочетания следующие (0,1,1,1), (1,0,1,1), (1,1,0,1), (1,1,1,0), (1,1,0,0), (0,0,1,1) и (1,1,1,1), последнее сочетание встречается дважды. В этом представлении выбранных сочетаний '0' обозначает режим ACELP, а '1' - режим ТСХ.

В соответствующей четвертой колонке представлен параметр управления Aind, который для каждого сочетания в первой колонке указывает количество выбранных режимов работы ACELP. Можно увидеть, что присутствуют только сочетания режимов, соответствующие значениям Aind '0', '1' и '2', так как в случае, если значения равны '3' или '4', блок 14 выбора длительности кадра ТСХ может сразу выбрать длительность кадра ТСХ без дальнейшей обработки.

В соответствующей пятой колонке представлен индикатор короткого кадра - флаг NoMtcx. Этот параметр оценивается блоком 14 выбора длительности кадра ТСХ только в том случае, если параметр управления Aind имеет значение '0', то есть в случае, если ни для одного кадра в суперкадре не был выбран режим работы ACELP.

В соответствующей второй и третьей колонке для каждого сочетания показаны длительности кадра ТСХ, которые можно выбирать для кадров режима ТСХ, принимая во внимание ограничения, наложенные параметрами управления. Для каждого сочетания в первой колонке нужно проверить не больше чем две длительности кадра ТСХ. В этих сочетаниях длительностей кадра ТСХ '0' означает кадр кодирования ACELP длительностью 20 мс, '1' - кадр ТСХ длительностью 20 мс, последовательность двух '2' - кадр ТСХ длительностью 40 мс и последовательность четырех '3' - кадр ТСХ длительностью 80 мс.

Например, для первого сочетания режимов работы (0,1,1,1) разрешены сочетания длительностей кадра кодирования (0,1,1,1) и (0,1,2,2). То есть либо второй, третий и четвертый кадры кодируются как кадр ТСХ длительностью 20 мс или второй кадр кодируется как кадр ТСХ длительностью 20 мс, а третий и четвертый кадры кодируются как кадр ТСХ длительностью 40 мс.

Аналогично, для второго сочетания режимов работы (1,0,1,1) разрешено сочетание длительностей кадра кодирования (1,0,1,1) и (1,0,2,2). Для третьего сочетания режимов работы (1,1,0,1) разрешены сочетания длительностей кадра кодирования (1,1,0,1) и (2,2,0,1), Для четвертого сочетания режимов работы (1,1,1,0) разрешены сочетания длительностей кадра кодирования (1,1,1,0) и (2,2,1,0). Для пятого сочетания режимов работы (1,1,0,0) разрешено сочетание длительностей кадра кодирования (1,1,0,0) и (2,2,0,0). Для шестого сочетания режимов работы (0,0,1,1) разрешено сочетание длительностей кадра кодирования (0,0,1,1) и (0,0,2,2).

Для седьмого сочетания режимов работы (1,1,1,1) индикатор короткого кадра - флаг NoMtcx показывает, надо ли пробовать большую или меньшую длительность кадра ТСХ. Флаг NoMtcx устанавливается для суперкадра в том случае, если блок 13 второй оценки установил его по меньшей мере для одного из кадров в суперкадре. Если флаг NoMtcx устанавливается для суперкадра, то разрешены только длительности короткого кадра.

В таблице фиг.3 это означает, что блок 14 выбора длительности кадра ТСХ сразу выбирает длительность кадра ТСХ 20 мс для целого суперкадра. То есть единственным разрешенным сочетанием длительностей кадра ТСХ является (1,1,1,1). В таблице фиг.4 установленный флаг NoMtcx означает, что разрешены сочетание длительностей кадра ТСХ (1,1,1,1) и дополнительно сочетание длительностей кадра ТСХ (2,2,2,2), последнее означает кадр ТСХ длительностью 40 мс.

Если индикатор короткого кадра - флаг NoMtcx не установлен, то разрешены только большие длительности кадра ТСХ. В таблице на фиг.3 и 4 это означает, что разрешены сочетания длительностей кадра ТСХ (2,2,2,2) и (3,3,3,3), последнее означает одиночный кадр ТСХ длительностью 80 мс.

Для оптимального кодирования чистой музыки обычно требуются более длинные кадры ТСХ, а речь, очевидно, лучше всего кодируется с помощью ACELP. Особенно в начале музыкального и/или речевого сигнала, когда энергия низкая или индикатор голосовой активности VAD был сброшен в ноль в предыдущих кадрах, более длинные кадры ТСХ, использованные для кодирования речи, ухудшают ее качество. С другой стороны, короткие кадры ТСХ длительностью 20 мс сравнительно хороши для музыки и определенных речевых отрезков. При некоторых характеристиках сигнала сложно определить, является ли содержимое кадра музыкой или речью. Поэтому в таком случае короткий кадр ТСХ является хорошей альтернативой оптимальной модели кодирования, потому что он подходит для содержимого обоих типов. Таким образом, индикатор короткого кадра хорошо подходит в качестве параметра управления.

Дополнительные сочетания длительностей кадра кодирования для представленных сочетаний режимов работы не допускаются структурой кодера, в котором для центральных кадров звукового сигнала не разрешена модель ТСХ40.

Аналогично, дополнительные сочетания режимов работы при Aind<3, не представленные на фиг.3 и 4, допускают только единственное сочетание длительностей кадра кодирования или сами по себе, или из-за структуры кодера. То есть сочетание режимов (1,0,0,1) допускает только сочетание длительностей кадра кодирования (1,0,0,1), а сочетание режимов (0,1,1,0) допускает только сочетание длительностей кадра кодирования (0,1,1,0).

Так как параметры управления Aind и NoMtcx ограничивают сочетания режимов в том, что касается длительностей кадра ТСХ, то для каждого суперкадра нужно проверить не больше двух длительностей кадра.

В том случае, если остаются два возможных сочетания длительностей кадра ТСХ, то для того чтобы найти оптимальную модель или модели ТСХ для суперкадра, в блоке 14 выбора длительности кадра ТСХ используется алгоритм типа сравнения отношений сигнал/шум.

Для оценки длительностей кадра ТСХ, которые можно выбрать, кадры в суперкадре, для которых был выбран режим ТСХ, кодируются с использованием кодирования с преобразованием и с обоими разрешенными сочетаниями длительности кадра ТСХ. Для примера, модель ТСХ основана на быстром преобразовании Фурье (FFT). Закодированные сигналы снова декодируются, а затем результаты для обеих длительностей кадра ТСХ сравниваются на основе сегментного отношения сигнал/шум.

Сегментное отношение сигнал/шум - это отношение сигнал/шум для одного подкадра кадра ТСХ. Подкадр имеет длину N, что соответствует подкадру исходного звукового сигнала длительностью 5 мс.

Сегментное отношение сигнал/шум в подкадре i (segSNR_i) для каждого подкадра кадра ТСХ определяется согласно следующему уравнению:

В этом уравнении x_w(n) - это амплитуда оцифрованного исходного звукового сигнала в позиции n в подкадре, a

- это амплитуда кодированного и затем декодированного звукового сигнала в позиции n в подкадре.

На основе этого по всем подкадрам в кадре ТСХ определяется среднее сегментное отношение сигнал/шум согласно следующему уравнению:

где N_SF - число подкадров в кадре ТСХ. Так как кадр ТСХ может иметь длительность 20, 40 или 80 мс, то N_SF может быть 4, 8 или 16.

Затем блок 14 выбора длительности кадра ТСХ определяет, какая из разрешенных длительностей кадра ТСХ для определенного количества кадров звукового сигнала приводит к лучшему среднему отношению сигнал/шум. Например, в том случае, если каждый из двух кадров звукового сигнала можно было кодировать с помощью модели ТСХ20 или совместно с помощью модели ТСХ40, то сравнивается усредненное отношение сигнал/шум кадра ТСХ40 с усредненной суммой отношений сигнал/шум для обоих кадров ТСХ20. Выбирается и сообщается в блок 15 кодирования длительность кадра ТСХ, которая приводит к более высокому усредненному отношению сигнал/шум.

Блок 15 кодирования кодирует все кадры звукового сигнала с помощью соответственно выбранной модели кодирования, указанной или блоком 12 первой оценки, блоком 13 второй оценки, или блоком 14 выбора длительности кадра ТСХ. К примеру, ТСХ основано на FFT с использованием выбранной длительности кадра кодирования, а кодирование ACELP использует, к примеру, LTP и параметры фиксированной кодовой книги для возбуждения LPC.

Затем блок 15 кодирования предоставляет кодированные кадры для передачи второму устройству 2. Во втором устройстве 2 декодер 20 декодирует все принятые кадры с помощью модели кодирования ACELP или с помощью одной из моделей ТСХ. Декодированные кадры предоставляются, например, для воспроизведения пользователю второго устройства 2.

Таким образом, представленный выбор длительности кадра ТСХ основан на подходе с полузамкнутым циклом, в котором основной тип модели кодирования и параметры управления выбираются по методу незамкнутого цикла, а затем из ограниченного количества вариантов по методу замкнутого цикла выбирается длительность кадра ТСХ. В то время как в процессе анализа с полным замкнутым циклом анализ через синтез всегда выполняется четыре раза за суперкадр, в данном методе полузамкнутого цикла анализ через синтез нужно выполнить не более двух раз за суперкадр.

Нужно отметить, что описанный вариант осуществления изобретения представляет лишь один из множества возможных вариантов его осуществления.

Claims

1. Способ поддержки кодирования звукового сигнала, при котором по меньшей мере один отрезок указанного звукового сигнала необходимо кодировать с помощью модели кодирования, которая позволяет использовать различные длительности кадра кодирования, указанный способ содержит:
определение по меньшей мере одного параметра управления по меньшей мере частично на основе характеристик указанного звукового сигнала и
ограничение указанных вариантов выбора возможных длительностей кадра кодирования для указанного по меньшей мере одного отрезка посредством указанного по меньшей мере одного параметра управления.

2. Способ по п.1, который содержит определение указанного по меньшей мере одного параметра управления на основе по меньшей мере одного из следующих параметров:
индикатор спектрального расстояния между текущим и предыдущим кадрами;
количество кадров в суперкадре, которые выбраны для кодирования с помощью другой модели кодирования.

3. Способ по п.1, который содержит:
в случае, если после указанного ограничения остается более чем один вариант выбора возможных длительностей кадра кодирования, кодирование указанного по меньшей мере одного отрезка с использованием каждой из указанных оставшихся длительностей кадра кодирования с преобразованием;
декодирование указанных кодированных отрезков с соответствующей использованной длительностью кадра кодирования с преобразованием и
выбор для указанного по меньшей мере одного отрезка такой длительности кадра кодирования, которая приводит к лучшему декодированному звуковому сигналу на указанном по меньшей мере одном отрезке.

4. Способ по п.3, в котором длительность кадра кодирования, которая приводит к лучшему декодированному отрезку, определяют путем сравнения отношения сигнал/шум, получающегося для каждой из указанных длительностей кадра кодирования.

5. Способ по п.4, в котором для указанного отношения сигнал/шум звукового сигнала, полученного при конкретной длительности кадра кодирования, сначала определяют сегментное отношение сигнал/шум отдельно для множества подкадров в соответствующем кадре кодирования и затем указанные сегментные отношения сигнал/шум указанных подкадров кадра кодирования усредняют за целый кадр кодирования с получением указанного отношения сигнал/шум для указанного по меньшей мере одного отрезка.

6. Способ по п.1, в котором для каждого отрезка указанного звукового сигнала определяют на основе характеристик звукового сигнала для соответствующего отрезка, следует ли применять указанную модель кодирования или другую модель кодирования, причем указанный по меньшей мере один параметр управления содержит указание отрезков, для которых была выбрана указанная другая модель кодирования.

7. Способ по п.6, в котором указанная модель кодирования является моделью кодирования с преобразованием, а указанная другая модель кодирования является моделью кодирования по алгоритму линейного предсказания с возбуждением алгебраическим кодом.

8. Способ по п.6, в котором каждый отрезок указанного звукового сигнала имеет заранее заданную длительность, а упомянутое указание отрезков, для которых была выбрана другая модель кодирования, предоставляется для соответствующего суперотрезка, который содержит заранее заданное количество указанных отрезков.

9. Способ по п.1, в котором каждый отрезок указанного звукового сигнала имеет заранее заданную длительность, при этом заранее заданное количество последовательных отрезков соответственно формируют соответствующий суперотрезок, а указанные варианты выбора длительности кадра кодирования для конкретного отрезка ограничены границами суперотрезка, которому принадлежит указанный отрезок.

10. Способ по п.7, в котором каждый отрезок указанного звукового сигнала имеет длительность 20 мс и четыре последовательных отрезка соответственно формируют соответствующий суперотрезок, при этом указанная модель кодирования с преобразованием позволяет использовать длительности кадра кодирования 20, 40 и 80 мс, а указанные варианты выбора длительности кадра кодирования для отрезка ограничены границами суперотрезка, которому принадлежит указанный отрезок.

11. Способ по п.1, в котором указанный по меньшей мере один параметр управления содержит индикатор, указывающий, следует ли применить меньшую или большую длительность кадра кодирования, при этом указание на то, что надо применять меньшую длительность кадра кодирования, исключает вариант по меньшей мере самой большой длительности кадра кодирования, а указание на то, что надо применять большую длительность кадра кодирования, исключает вариант по меньшей мере самой меньшей длительности кадра кодирования.

12. Модуль для поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, при этом указанный модуль содержит;
блок выбора параметра, выполненный с возможностью определять по меньшей мере один параметр управления по меньшей мере частично на основе характеристик указанного звукового сигнала; и
блок выбора длительности кадра, выполненный с возможностью ограничивать варианты выбора возможных длительностей кадра кодирования по меньшей мере для одного отрезка посредством по меньшей мере одного параметра управления, предоставленного указанным блоком первой оценки.

13. Модуль по п.12, который определяет указанный по меньшей мере один параметр управления на основе по меньшей мере одного из следующих параметров:
индикатор короткого кадра, который определяется по меньшей мере на основе спектрального расстояния; и
количество выбранных кадров линейного предсказателя с возбуждением алгебраическим кодом, содержащихся в суперкадре.

14. Модуль по п.12, в котором указанный блок выбора длительности кадра выполнен с возможностью кодировать указанный по меньшей мере один отрезок с использованием каждой из указанных оставшихся длительностей кадра кодирования с преобразованием, если после указанного ограничения остается более одного варианта выбора из возможных длительностей кадра кодирования, а также снова декодировать указанные кодированные отрезки с использованием соответствующего использованного кадра кодирования с преобразованием и выбирать для указанного по меньшей мере одного отрезка длительность кадра кодирования, которая приводит к лучшему декодированному звуковому сигналу на указанном по меньшей мере одном отрезке.

15. Модуль по п.14, в котором указанный блок выбора длительности кадра способен определять длительность кадра кодирования, которая приводит к лучшему декодированному отрезку, путем сравнения отношения сигнал/шум, получающегося для каждой из указанных длительностей кадра кодирования.

16. Модуль по п.15, в котором для определения указанного отношения сигнал/шум для звукового сигнала, полученного при конкретной длительности кадра кодирования, указанный блок выбора длительности кадра выполнен с возможностью сначала определять сегментное отношение сигнал/шум отдельно для множества подкадров в соответствующем кадре кодирования и усреднять указанные сегментные отношения сигнал/шум указанных подкадров кадра кодирования за целый кадр кодирования с получением указанного отношения сигнал/шум для указанного по меньшей мере одного отрезка.

17. Модуль по п.12, в котором указанный блок выбора параметра выполнен с возможностью определять по меньшей мере для некоторых отрезков звукового сигнала на основе характеристик звукового сигнала для соответствующего отрезка звукового сигнала, следует ли применить указанную модель кодирования или другую модель кодирования, и с возможностью обеспечивать указание отрезков, для которых была выбрана указанная другая модель кодирования, в качестве одного из указанных параметров управления.

18. Модуль по п.17, в котором указанная модель кодирования является моделью кодирования с преобразованием, а указанная другая модель кодирования является моделью кодирования по алгоритму линейного предсказания с возбуждением алгебраическим кодом.

19. Электронное устройство, которое содержит модуль поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок указанного звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, при этом указанный модуль содержит:
блок выбора параметра, выполненный с возможностью определять по меньшей мере один параметр управления по меньшей мере частично на основе характеристик указанного звукового сигнала; и
блок выбора длительности кадра, который выполнен с возможностью ограничивать варианты выбора возможных длительностей кадра кодирования по меньшей мере для одного отрезка посредством по меньшей мере одного параметра управления, предоставленного указанным блоком первой оценки.

20. Электронное устройство по п.19, которое определяет указанный по меньшей мере один параметр управления на основе по меньшей мере одного из следующих параметров:
индикатор короткого кадра, который определяется по меньшей мере на основе спектрального расстояния; и
количество выбранных кадров линейного предсказателя с возбуждением алгебраическим кодом, содержащихся в суперкадре.

21. Электронное устройство по п.19, в котором указанный блок выбора длительности кадра выполнен с возможностью кодировать указанный по меньшей мере один отрезок с использованием каждой из указанных оставшихся длительностей кадра кодирования с преобразованием, если после указанного ограничения остается более одного варианта выбора возможных длительностей кадра кодирования, а также снова декодировать указанные кодированные отрезки с использованием соответствующего использованного кадра кодирования с преобразованием и выбирать для указанного по меньшей мере одного отрезка длительность кадра кодирования, которая приводит к лучшему декодированному звуковому сигналу на указанном по меньшей мере одном отрезке.

22. Электронное устройство по п.21, в котором указанный блок выбора длительности кадра выполнен с возможностью определять длительность кадра кодирования, которая приводит к лучшему декодированному отрезку, путем сравнения отношения сигнал/шум, получающегося для каждой из указанных длительностей кадра кодирования.

23. Электронное устройство по п.22, в котором для определения указанного отношения сигнал/шум для звукового сигнала, полученного при конкретной длительности кадра кодирования, указанный блок выбора длительности кадра выполнен с возможностью сначала определять сегментное отношение сигнал/шум отдельно для множества подкадров в соответствующем кадре кодирования и усреднять указанные сегментные отношения сигнал/шум указанных подкадров кадра кодирования за целый кадр кодирования с получением указанного отношения сигнал/шум для указанного по меньшей мере одного отрезка.

24. Электронное устройство по п.21, в котором указанный блок выбора параметра выполнен с возможностью определять по меньшей мере для некоторых отрезков звукового сигнала на основе характеристик звукового сигнала для соответствующего отрезка звукового сигнала, следует ли применять указанную модель кодирования или другую модель кодирования, и с возможностью обеспечивать в качестве одного из указанных параметров управления указание отрезков, для которых была выбрана указанная другая модель кодирования.

25. Электронное устройство по п.24, в котором указанная модель кодирования является моделью кодирования с преобразованием, а указанная другая модель кодирования является моделью кодирования по алгоритму линейного предсказания с возбуждением алгебраическим кодом.

26. Электронное устройство по п.24, в котором каждый отрезок указанного звукового сигнала имеет заранее заданную длительность и указанный блок выбора параметра способен обеспечивать указание отрезков, для которых была выбрана указанная другая модель кодирования, в соответствующем суперотрезке, содержащем заранее заданное количество указанных отрезков.

27. Электронное устройство по п.19, в котором каждый отрезок указанного звукового сигнала имеет заранее заданную длительность, а заранее заданное количество последовательных отрезков соответственно формирует соответствующий суперотрезок, и указанный блок выбора длительности кадра способен ограничивать варианты выбора длительности кадра кодирования для конкретного отрезка на основании границ суперотрезка, которому принадлежит указанный отрезок.

28. Электронное устройство по п.25, в котором каждый отрезок указанного звукового сигнала имеет длительность 20 мс, а четыре последовательных отрезка соответственно формируют суперотрезок, при этом указанная модель кодирования с преобразованием позволяет использовать длительности кадра кодирования 20, 40 и 80 мс и указанный блок выбора длительности кадра способен ограничивать варианты выбора длительности кадра кодирования для отрезка на основе границ суперотрезка, которому принадлежит указанный отрезок.

29. Электронное устройство по п.19, в котором указанный блок выбора параметра выполнен с возможностью предоставлять в качестве одного из указанных параметров управления индикатор, указывающий, следует ли применить меньшую или большую длительность кадра кодирования, при этом указание на то, что надо применить меньшую длительность кадра кодирования, исключает вариант по меньшей мере самой большой длительности кадра кодирования, а указание на то, что надо применить большую длительность кадра кодирования, исключает вариант по меньшей мере самой меньшей длительности кадра кодирования.

30. Система для кодирования звука, которая содержит модуль по п.12 и декодер для декодирования звуковых сигналов, кодированных с переменной длительностью кадра кодирования.

31. Система по п.30, которая включает определение по меньшей мере одного параметра управления по меньшей мере частично на основе характеристик указанного звукового сигнала.

32. Система по п.30, которая включает ограничение указанных вариантов выбора возможных длительностей кадра кодирования посредством указанного по меньшей мере одного параметра управления.

33. Система по п.31, которая дополнительно содержит в случае, если после указанного ограничения остается более чем один вариант выбора возможных длительностей кадра кодирования, кодирование указанного по меньшей мере одного отрезка с использованием каждой из указанных оставшихся длительностей кадра кодирования с преобразованием;
декодирование указанных кодированных отрезков с соответствующей использованной длительностью кадра кодирования с преобразованием и
выбор для указанного по меньшей мере одного отрезка такой длительности кадра кодирования, которая приводит к лучшему декодированному звуковому сигналу на указанном по меньшей мере одном отрезке.

34. Программный продукт, в котором хранится код программы поддержки кодирования звукового сигнала, при котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, при этом указанный код программы при выполнении в обрабатывающей части кодера осуществляет следующие операции:
определение по меньшей мере одного параметра управления по меньшей мере частично на основе характеристик указанного звукового сигнала и
ограничение указанных вариантов выбора возможных длительностей кадра кодирования для указанного по меньшей мере одного отрезка посредством указанного по меньшей мере одного параметра управления.