[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2414010C2 - Трансформация шкалы времени кадров в широкополосном вокодере - Google Patents

Трансформация шкалы времени кадров в широкополосном вокодере Download PDF

Info

Publication number
RU2414010C2
RU2414010C2 RU2009110202/09A RU2009110202A RU2414010C2 RU 2414010 C2 RU2414010 C2 RU 2414010C2 RU 2009110202/09 A RU2009110202/09 A RU 2009110202/09A RU 2009110202 A RU2009110202 A RU 2009110202A RU 2414010 C2 RU2414010 C2 RU 2414010C2
Authority
RU
Russia
Prior art keywords
speech signal
speech
residual
vocoder
lowband
Prior art date
Application number
RU2009110202/09A
Other languages
English (en)
Other versions
RU2009110202A (ru
Inventor
Рохит КАПУР (US)
Рохит КАПУР
Серафин Спиндола ДИАС (US)
Серафин Спиндола ДИАС
Original Assignee
Квэлкомм Инкорпорейтед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Квэлкомм Инкорпорейтед filed Critical Квэлкомм Инкорпорейтед
Publication of RU2009110202A publication Critical patent/RU2009110202A/ru
Application granted granted Critical
Publication of RU2414010C2 publication Critical patent/RU2414010C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к трансформации шкалы времени, т.е. расширению или сжатию, кадров в вокодере и, в частности, к способам трансформации шкалы времени кадров в широкополосном вокодере. Техническим результатом является повышение качества трансформированных по шкале времени кадров и снижение вычислительной нагрузки. Указанный технический результат достигается тем, что способ передачи речи включает трансформацию шкалы времени остаточного низкополосного речевого сигнала в растянутую или сжатую версию остаточного низкополосного речевого сигнала, трансформацию шкалы времени высокополосного речевого сигнала в растянутую или сжатую версию высокополосного речевого сигнала и объединение подвергнутых трансформации шкалы времени низкополосного и высокополосного речевых сигналов для получения полного трансформированного по шкале времени речевого сигнала. Трансформация шкалы времени высокополосного речевого сигнала содержит определение множества периодов основного тона из низкополосного речевого сигнала, использование периодов основного тона из низкополосного речевого сигнала и перекрытие/суммирование одного или нескольких периодов основного тона, если высокополосный речевой сигнал сжат, и перекрытие/суммирование или повторение одного или нескольких периодов основного тона, если высокополосный речевой сигнал растянут. Способ может дополнительно содержать этапы, на которых классифицируют сегменты речи и осуществляют кодирование линейного предсказания с кодовым возбуждением, линейного предсказания с шумовым возбуждением или кодирования 1/8 кадра (паузы). 2 н. и 49 з.п. ф-лы, 5 ил.

Description

Область техники
Настоящее изобретение, в целом, относится к трансформации шкалы времени, т.е. расширению или сжатию, кадров в вокодере и, в частности, к способам трансформации шкалы времени кадров в широкополосном вокодере.
Уровень техники
Трансформация шкалы времени имеет ряд применений в сетях с коммутацией пакетов, где пакеты вокодера могут поступать асинхронно. Хотя трансформация шкалы времени может осуществляться как внутри, так и вне вокодера, его осуществление внутри вокодера обеспечивает ряд преимуществ, как то более высокое качество кадров с трансформированной шкалой времени и снижение вычислительной нагрузки.
Раскрытие изобретения
Изобретение предусматривает устройство и способ трансформации шкалы времени речевых кадров путем манипулирования речевым сигналом. Согласно одному аспекту раскрыт способ трансформации шкалы времени кадров линейного предсказания с кодовым возбуждением (CELP) и линейного предсказания с шумовым возбуждением (NELP) на широкополосном вокодере типа вокодера четвертого поколения (4GV). В частности, для кадров CELP, способ поддерживает фазу речи путем добавления или удаления периодов основного тона для расширения или сжатия речи соответственно. Согласно этому способу низкополосный сигнал можно подвергать трансформации шкалы времени в остатке, т.е. до синтеза, тогда как высокополосный сигнал может подвергаться трансформации шкалы времени после синтеза в области 8 кГц. Раскрытый способ можно применять к любому широкополосному вокодеру, который использует CELP и/или NELP для низкой полосы и/или использует метод расщепления полосы для кодирования низкой и верхней полосы по отдельности. Следует заметить, что стандарты для широкополосного 4GV называются EVRC-C.
В виду вышеизложенного описанные признаки изобретения, в целом, относятся к одной или нескольким усовершенствованным системам, способам и/или устройствам для передачи речи. В одном варианте осуществления изобретение предусматривает способ передачи речи, содержащий трансформацию шкалы времени остаточного низкополосного речевого сигнала в растянутую или сжатую версию остаточного низкополосного речевого сигнала, трансформацию шкалы времени высокополосного речевого сигнала в растянутую или сжатую версию высокополосного речевого сигнала, и объединение подвергнутых трансформации шкалы времени низкополосного и высокополосного речевых сигналов для получения полного трансформированного по шкале времени речевого сигнала. Согласно одному аспекту изобретения остаточный низкополосный речевой сигнал синтезируется после трансформации шкалы времени остаточного низкополосного сигнала, тогда как в верхней полосе синтез осуществляется до трансформации шкалы времени высокополосного речевого сигнала. Способ может дополнительно содержать этапы, на которых классифицируют сегменты речи и кодируют сегменты речи. Кодирование сегментов речи может представлять собой одно из кодирования линейного предсказания с кодовым возбуждением, кодирования линейного предсказания с шумовым возбуждением или кодирования 1/8 кадра (пауза). Низкая полоса может представлять собой частотный диапазон до приблизительно 4 кГц, и верхняя полоса может представлять собой частотный диапазон от приблизительно 3,5 кГц до приблизительно 7 кГц.
Согласно другому варианту осуществления раскрыт вокодер, имеющий, по меньшей мере, один вход и, по меньшей мере, один выход, причем вокодер содержит кодер, содержащий фильтр, имеющий, по меньшей мере, один вход, оперативно соединенный с входом вокодера, и, по меньшей мере, один выход; и декодер, содержащий синтезатор, имеющий, по меньшей мере, один вход, оперативно соединенный с, по меньшей мере, одним выходом кодера, и, по меньшей мере, один выход, оперативно соединенный с, по меньшей мере, одним выходом вокодера. В этом варианте осуществления декодер содержит память, причем декодер способен выполнять программные инструкции, хранящиеся в памяти, содержащие трансформацию шкалы времени остаточного низкополосного речевого сигнала в растянутую или сжатую версию остаточного низкополосного речевого сигнала, трансформацию шкалы времени высокополосного речевого сигнала в растянутую или сжатую версию высокополосного речевого сигнала, и объединение подвергнутых трансформации шкалы времени низкополосного и высокополосного речевых сигналов для получения полного трансформированного по шкале времени речевого сигнала. Синтезатор может содержать средство для синтеза трансформированного по шкале времени остаточного низкополосного речевого сигнала и средство для синтеза высокополосного речевого сигнала до его трансформации шкалы времени. Кодер содержит память и может выполнять программные инструкции, хранящиеся в памяти, содержащие классификацию сегментов речи как 1/8 кадра (пауза), линейного предсказания с кодовым возбуждением или линейного предсказания с шумовым возбуждением.
Дополнительный объем применимости настоящего изобретения явствует из нижеследующего подробного описания, формулы изобретения и чертежей. Однако следует понимать, что подробное описание и конкретные примеры, хотя и указывают предпочтительные варианты осуществления изобретения, приведены исключительно в порядке иллюстрации, поскольку специалисту в данной области техники будут ясны различные изменения и модификации в рамках сущности и объема изобретения.
Краткое описание чертежей
Настоящее изобретение будет лучше понятно из нижеприведенного подробного описания, прилагаемой формулы изобретения и прилагаемых чертежей, на которых:
фиг. 1 - блок-схема вокодера на основе кодирования линейного предсказания (LPC);
фиг. 2A - речевой сигнал, содержащий вокализованную речь;
фиг. 2B - речевой сигнал, содержащий невокализованную речь;
фиг. 2C - речевой сигнал, содержащий переходную речь;
фиг. 3 - блок-схема трансформации шкалы времени низкой полосы и высокой полосы;
фиг. 4A - определение задержек основного тона путем интерполяции;
фиг. 4B - идентификация периодов основного тона;
фиг. 5A - представляет исходный речевой сигнал в форме периодов основного тона;
фиг. 5B - представляет речевой сигнал, растянутый с использованием перекрытия/суммирования; и
фиг. 5C представляет речевой сигнал, сжатый с использованием перекрытия/суммирования.
Осуществление изобретения
Слово “иллюстративный” используется в данном документе в смысле “служащий примером, экземпляром или иллюстрацией”. Любой вариант осуществления, описанный здесь как “иллюстративный”, не обязательно рассматривается как предпочтительный или имеющий преимущество над другими вариантами осуществления.
Трансформация шкалы времени имеет ряд применений в сетях с коммутацией пакетов, где пакеты вокодера могут поступать асинхронно. Хотя трансформация шкалы времени может осуществляться как внутри, так и вне вокодера, ее осуществление внутри вокодера обеспечивает ряд преимуществ, как то более высокое качество трансформированных по шкале времени кадров и снижение вычислительной нагрузки. Описанные здесь методы можно легко применять к другим вокодерам, в которых используются аналогичные методы, например широкополосный 4GV, стандарты которого называются EVRC-C, для кодирования речевых данных.
Описание функциональных возможностей вокодера
Человеческие голоса содержат два компонента. Один компонент содержит основные волны, чувствительные к основному тону, и другой содержит фиксированные гармоники, нечувствительные к основному тону. Воспринимаемый основной тон звука является реакцией уха на частоту, т.е. для большинства практических целей основной тон является частотой. Гармонические компоненты добавляют отличительные особенности голосу человека. Они зависят от голосовых связок и физической формы речевого тракта и называются формантами.
Человеческий голос можно представить цифровым сигналом s(n) 10 (см. фиг. 1). Пусть s(n) 10 это цифровой речевой сигнал, полученный в результате типичного преобразования и включающий в себя различные вокальные звуки и периоды молчания. Речевой сигнал s(n) 10 можно разделить на кадры 20, как показано на фиг. 2A-2C. Согласно одному аспекту s(n) 10 получен путем дискретизации на частоте 8 кГц. Согласно другим аспектам s(n) 10 можно дискретизировать на частоте 16 кГц или 32 кГц или на какой-либо другой частоте дискретизации.
Современные схемы кодирования сжимают оцифрованный речевой сигнал 10 в сигнал с низкой битовой скоростью путем удаления всех естественных избытков (т.е. коррелированных элементов), свойственных речи. Речь обычно демонстрирует кратковременные избытки, возникающие в результате механического действия губ и языка, долговременные избытки, возникающие в результате вибрации голосовых связок. Кодирование линейного предсказания (LPC) фильтрует речевой сигнал 10 путем удаления избытков, создавая остаточный речевой сигнал. Затем оно моделирует результирующий остаточный сигнал в виде белого гауссова шума. Дискретизированное значение речевого сигнала можно прогнозировать путем взвешенного суммирования ряда предыдущих выборок, каждая из которых умножается на коэффициент линейного предсказания. Таким образом, кодеры линейного предсказания достигают сниженной битовой скорости путем передачи коэффициентов фильтра и квантованного шума вместо речевого сигнала 10 во всей полосе.
На фиг. 1 показана блок-схема одного варианта осуществления LPC-вокодера 70. Функция LPC состоит в минимизации суммы квадратов разностей между исходным речевым сигналом и оценочным речевым сигналом на конечном интервале. Это позволяет создавать уникальное множество коэффициентов предсказания, которые обычно оцениваются для каждого кадра 20. Кадр 20 обычно имеет длительность 20 мс. Передаточную функцию переменного по времени цифрового фильтра 75 можно задать в виде:
Figure 00000001
где коэффициенты предсказания можно представить как a k, и коэффициент усиления как G.
Суммирование производится от k = 1 до k = p. Если используется метод LPC-10, то p = 10. Это значит, что только первые 10 коэффициентов передаются на синтезатор LPC 80. Два наиболее часто используемых метода вычисления коэффициентов - это метод ковариаций и метод автокорреляции, без ограничения ими.
Типичные вокодеры создают кадры 20 длительностью 20 мс, включающие в себя 160 выборок на предпочтительной частоте 8 кГц или 320 выборок на частоте 16 кГц. Версия этого кадра 20, трансформированная по шкале времени со сжатием, имеет длительность менее 20 мс, тогда как версия, трансформированная по шкале времени с растяжением, имеет длительность более 20 мс. Трансформация шкалы времени речевых данных имеет значительные преимущества при передаче речевых данных по сетям с коммутацией пакетов, которые вносят дрожание задержки в передачу речевых пакетов. В таких сетях трансформация шкалы времени может использоваться для ослабления таких эффектов, как дрожание задержки, и для создания речевого потока, который выглядит “синхронным”.
Варианты осуществления изобретения относятся к устройству и способу для трансформации шкалы времени кадров 20 на вокодере 70 за счет манипулирования остаточным речевым сигналом. В одном варианте осуществления настоящие способ и устройство используется в широкополосном 4GV. Раскрытые варианты осуществления содержат способы и устройства или системы для растяжения/сжатия разных типов сегментов речи широкополосного 4GV, закодированных с использованием кодирования на основе линейного предсказания с кодовым возбуждением (CELP) или линейного предсказания с шумовым возбуждением (NELP).
Термин “вокодер” 70 обычно относится к устройствам, которые сжимают вокализованную речь путем извлечения параметров на основании модели генерации человеческой речи. Вокодеры 70 включают в себя кодер 204 и декодер 206. Кодер 204 анализирует входной речевой сигнал и извлекает нужные параметры. В одном варианте осуществления кодер содержит фильтр 75. Декодер 206 синтезирует речевой сигнал с использованием параметров, которые он принимает от кодера 204, по каналу связи 208. В одном варианте осуществления декодер содержит синтезатор 80. Речевой сигнал 10 часто делится на кадры 20 данных и блок, обрабатываемый вокодером 70.
Специалистам в данной области техники очевидно, что человеческую речь можно классифицировать многими разными способами. Три традиционных разновидности речи представляют собой вокализованные, невокализованные звуки и переходную речь.
На фиг. 2A показан вокализованный речевой сигнал s(n) 402. На фиг. 2A показано измеримое общее свойство вокализованного речевого сигнала, известное как период 100 основного тона.
На фиг. 2B показан невокализованный речевой сигнал s(n) 404. Невокализованный речевой сигнал 404 напоминает окрашенный шум.
На фиг. 2C показан переходный речевой сигнал s(n) 406, т.е. речь, которая не является ни вокализованной, ни невокализованной. Пример переходной речи 406, показанной на фиг. 2C, может представлять собой сигнал s(n), промежуточный между невокализованной речью и вокализованной речью. Эти три разновидности не являются исключительными. Существует много других разновидностей речи, которые можно реализовать согласно описанным здесь способам для достижения сравнимых результатов.
Широкополосный вокодер 4GV
Вокодер четвертого поколения (4GV) обеспечивает привлекательные признаки для использования в беспроводных сетях, которые дополнительно описаны в совместно рассматриваемой патентной заявке № 11/123,467, поданной 5 мая 2005 г., под названием “Time Warping Frames Inside the Vocoder by Modifying the Residual”, которая полностью включена в настоящий документ посредством ссылки. Некоторые из этих признаков включают в себя возможность компромисса между качеством и битовой скоростью, повышения отказоустойчивости речевого кодирования при наличии повышенной частоты пакетной ошибки (PER), улучшения маскирования стираний и т.д. В настоящем изобретении раскрыт широкополосный вокодер 4GV, который кодирует речевой сигнал с использованием метода расщепления полосы, т.е. низкая и верхняя полосы кодируются по отдельности.
В одном варианте осуществления входной сигнал представляет широкополосный речевой сигнал, дискретизированный на частоте 16 кГц. Банк фильтров анализа предусмотрен для генерации узкополосного (низкополосного) сигнала, дискретизированного на частоте 8 кГц, и высокополосного сигнала, дискретизированного на частоте 7 кГц. Этот высокополосный сигнал представляет полосу от примерно 3,5 кГц до примерно 7 кГц во входном сигнале, тогда как низкополосный сигнал представляет полосу до примерно 4 кГц, и окончательно реконструированный широкополосный сигнал будет ограничен полосой до примерно 7 кГц. Заметим, что существует перекрытие примерно на 500 Гц между низкой и высокой полосами, допускающее более плавный переход между полосами.
В одном аспекте узкополосный сигнал кодируется с использованием модифицированной версии узкополосного речевого кодера EVRC-B, который является CELP-кодером с размером кадра 20 миллисекунд. Несколько сигналов от узкополосного кодера используются для анализа и синтеза высокой полосы; это: (1) сигнал возбуждения (т.е. квантованный остаток) от узкополосного кодера; (2) квантованный первый коэффициент отражения (в качестве индикатора спектрального наклона узкополосного сигнала); (3) квантованный коэффициент усиления адаптивной кодовой книги; и (4) квантованное отставание основного тона.
Модифицированный узкополосный кодер EVRC-B, используемый в широкополосном 4GV, кодирует речевые данные каждого кадра в один из трех разных типов кадра: линейного предсказания с кодовым возбуждением (CELP); линейного предсказания с шумовым возбуждением (NELP); или кадр паузы 1/8 скорости.
CELP используется для кодирования большинства речевых сигналов, которые включают в себя речь, которая является периодической, а также которая обладает слабой периодичностью. Обычно около 75% кадров, не содержащих пауз, кодируются модифицированным узкополосным кодером EVRC-B с использованием CELP.
NELP используется для кодирования речевого сигнала, сходного с шумом. Шумоподобный характер таких сегментов речи можно реконструировать путем генерации случайных сигналов на декодере и применения к ним соответствующих коэффициентов усиления.
Кадры 1/8 скорости используются для кодирования фонового шума, т.е. периодов, когда пользователь не говорит.
Трансформация шкалы времени кадров широкополосного 4GV
Поскольку широкополосный вокодер 4GV кодирует нижнюю и верхнюю полосы по отдельности, тот же подход применяется к трансформации шкалы времени кадров. Нижняя полоса трансформируется по шкале времени с использованием метода, аналогичного описанному в вышеупомянутой совместно рассматриваемой патентной заявке под названием “Time Warping Frames Inside the Vocoder by Modifying the Residual”.
На фиг. 3 показана трансформация 32 в нижней полосе, которая применяется к остаточному сигналу 30. Основная причина для осуществления трансформации 32 шкалы времени остаточного сигнала состоит в том, что это позволяет применять LPC-синтез 34 к подвернутому трансформации шкалы времени остаточному сигналу. Коэффициенты LPC играют важную роль в том, как звучит речь, и применение синтеза 34 после трансформации 32 гарантирует, что в сигнале поддерживается верная информация LPC. Если, с другой стороны, трансформация шкалы времени осуществляется после декодера, LPC-синтез уже произведен до трансформации шкалы времени. Таким образом, процедура трансформации может изменять информацию LPC сигнала, в особенности, если оценка периода основного тона не очень точна.
Трансформация шкалы времени остаточного сигнала, когда сегмент речи является CELP
Для трансформации остатка декодер использует информацию задержки основного тона, содержащуюся в кодированном кадре. Эта задержка основного тона фактически является задержкой основного тона в конце кадра. Заметим, что даже в периодическом кадре задержка основного тона может немного изменяться. Задержки основного тона в любой точке кадра можно оценить путем интерполяции между задержкой основного тона в конце последнего кадра и в конце текущего кадра. Это показано на фиг. 4. Когда задержки основного тона во всех точках кадра известны, кадр можно разделить на периоды основного тона. Границы периодов основного тона определяются с использованием задержек основного тона в различных точках кадра.
На фиг. 4A показан пример деления кадра на его периоды основного тона. Например, выборка номер 70 имеет задержку основного тона около 70 и выборка номер 142 имеет задержку основного тона около 72. Таким образом, периоды основного тона составляют [1-70] и [71-142]. Это показано на фиг. 4B.
Когда кадр разделен на периоды основного тона, эти периоды основного тона можно затем перекрывать/суммировать для увеличения/уменьшения размера остатка. Метод перекрытия/суммирования является известным методом, и на фиг. 5A-5C показано, как он используется для растяжения/сжатия остатка.
Альтернативно, периоды основного тона можно повторять, если необходимо растянуть речевой сигнал. Например, на фиг. 5B, период основного тона PP1 можно повторять (вместо перекрытия-суммирования с PP2) для создания дополнительного периода основного тона.
Кроме того, перекрытие/суммирование и/или повторение периодов основного тона можно производить необходимое число раз для обеспечения необходимой величины растяжения/сжатия.
На фиг. 5A показан исходный речевой сигнал, содержащий 4 периода основного тона (PP). На фиг. 5B показано, как этот речевой сигнал можно растянуть с использованием перекрытия/суммирования. Согласно фиг. 5B периоды основного тона PP2 и PP1 перекрываются/суммируются так, чтобы вклад PP2 уменьшался, и чтобы вклад PP1 увеличивался. На фиг. 5C показано, как используется перекрытие/суммирование для сжатия остатка.
В случаях, когда период основного тона изменяется, метод перекрытия-суммирования может требовать объединения двух периодов основного тона неравной длины. В этом случае лучшее объединение может достигаться путем выравнивания пиков двух периодов основного тона до их перекрытия/суммирования.
Наконец, растянутый/сжатый остаток проходит через LPC-синтез.
После трансформации шкалы нижней полосы верхняя полоса должна быть подвергнута трансформации шкалы с использованием периода основного тона из нижней полосы, т.е. для растяжения, период основного тона выборок добавляется, а для сжатия период основного тона удаляется.
Процедура трансформации шкалы верхней полосы отличается от соответствующей процедуры для нижней полосы. Согласно фиг. 3 верхняя полоса не подвергается трансформации шкалы в остаточном сигнале, но зато трансформация 38 шкалы производится после синтеза 36 верхнеполосных выборок. Причина этого в том, что верхняя полоса дискретизируется на частоте 7 кГц, тогда как нижняя полоса дискретизируется на частоте 8 кГц. Таким образом, период основного тона нижней полосы (дискретизированной на частоте 8 кГц) может содержать дробное количество выборок, когда частота дискретизации равна 7 кГц, как в верхней полосе. Например, если период основного тона равен 25 в нижней полосе, в остаточной области верхней полосы, это потребует добавления/удаления 25·7/8 = 21,875 выборок из остатка верхней полосы. Очевидно, поскольку невозможно сгенерировать дробное количество выборок, верхняя полоса трансформируется 38 после ее повторной дискретизации на 8 кГц, что имеет место после синтеза 36.
После трансформации шкалы нижней полосы 32 нижнеполосное возбуждение без трансформации шкалы (состоящее из 160 выборок) передается на высокополосный декодер. С использованием этого низкополосного возбуждения без трансформации шкалы высокополосный декодер создает 140 выборок высокой полосы на частоте 7 кГц. Эти 140 выборок затем проходят через фильтр синтеза 36 и повторно дискретизируются на 8 кГц с образованием 160 верхнеполосных выборок.
Эти 160 выборок на частоте 8 кГц затем подвергаются трансформации 38 шкалы времени с использованием периода основного тона из нижней полосы и метода перекрытия/суммирования, используемого для трансформации шкалы низкополосного сегмента речи CELP.
Наконец, верхняя и нижняя полосы суммируются или объединяются для получения полного трансформированного по шкале времени сигнала.
Трансформация шкалы времени остаточного сигнала, когда сегмент речи является NELP
Для сегментов речи NELP кодер кодирует только информацию LPC, а также коэффициенты усиления разных частей сегмента речи для нижней полосы. Коэффициенты усиления можно кодировать в “сегменты” по 16 выборок PCM в каждом. Таким образом, нижнюю полосу можно представить в виде 10 кодированных значений коэффициента усиления (по одному на каждые 16 выборок речевого сигнала).
Декодер генерирует низкополосный остаточный сигнал путем генерации случайных значений с последующим применением к ним соответствующих коэффициентов усиления. В этом случае концепция периода основного тона не применяется, и поэтому растяжение/сжатие нижней полосы не связано с разбиением на периоды основного тона.
Для растяжения/сжатия нижней полосы кадра, кодированного на основе NELP, декодер может генерировать количество сегментов, большее/меньшее, чем 10. Растяжение/сжатие нижней полосы в этом случае кратно 16 выборкам, что дает N = 16·n выборок, где n - количество сегментов. В случае растяжения дополнительно добавляемые сегменты могут принимать коэффициенты усиления некоторой функции первых 10 сегментов. Например, дополнительные сегменты могут принимать коэффициент усиления 10-го сегмента.
Альтернативно, декодер может растягивать/сжимать нижнюю полосу кадра, кодированного на основе NELP, применяя 10 декодированных коэффициентов усиления к множествам из y (вместо 16) выборок для генерации растянутого (y>16) или сжатого (y<16) низкополосного остатка.
Затем растянутый/сжатый остаток проходит через LPC-синтез для создания низкополосного подвергнутого трансформации шкалы сигнала.
После трансформации шкалы нижней полосы нижнеполосное возбуждение без трансформации шкалы (состоящее из 160 выборок) передается на высокополосный декодер. С использованием этого низкополосного возбуждения без трансформации шкалы высокополосный декодер создает 140 выборок верхней полосы на частоте 7 кГц. Эти 140 выборок затем проходят через фильтр синтеза и повторно дискретизируются на 8 кГц с образованием 160 верхнеполосных выборок.
Эти 160 выборок на частоте 8 кГц затем подвергаются трансформации шкалы времени по аналогии с верхнеполосной трансформацией шкалы сегментов речи CELP, т.е. с использованием перекрытия/суммирования. При использовании перекрытия/ суммирования для высокополосного NELP величина сжатия/ растяжения такая же, как величина, используемая для нижней полосы. Другими словами, “перекрытие”, используемое для метода перекрытия/суммирования, предполагается равным величине растяжения/сжатия в нижней полосе. Например, если нижняя полоса создала 192 выборок после трансформации шкалы, период перекрытия, используемый в методе перекрытия/суммирования, равен 192-160=32 выборкам.
Наконец, верхняя и нижняя полосы суммируются для обеспечения полного трансформированного по шкале времени сегмента речи NELP.
Специалистам в данной области техники будет очевидно, что информацию и сигналы можно представить с использованием разнообразных технологий и методов. Например, данные, инструкции, команды, информация, сигналы, биты, символы и элементарные сигналы, которые могли быть упомянуты в вышеприведенном описании, можно представить напряжениями, токами, электромагнитными волнами, магнитными полями или частицами, оптическими полями, или частицами, или любой их комбинацией.
Специалистам в данной области техники будет очевидно, что различные иллюстративные логические блоки, модули, схемы и этапы алгоритма, описанные в связи с раскрытыми здесь вариантами осуществления, можно реализовать в виде электронного оборудования, компьютерного программного обеспечения или их комбинации. Чтобы отчетливо проиллюстрировать эту взаимозаменяемость оборудования и программного обеспечения, различные иллюстративные компоненты, блоки, модули, схемы и этапы были описаны выше, в целом, в отношении их функций. Реализовать ли такие функции в виде оборудования или программного обеспечения, зависит от конкретного применения и конструкционных ограничений, налагаемых на систему в целом. Специалисты могут реализовать описанные функции по-разному для каждого конкретного применения, но такие решения по реализации не следует интерпретировать как вызывающие отход от объема настоящего изобретения.
Различные иллюстративные логические блоки, модули и схемы, описанные в связи с раскрытыми здесь вариантами осуществления, можно реализовать или осуществлять посредством процессора общего назначения, цифрового сигнального процессора (ЦСП), специализированной интегральной схемы (СИС), программируемой пользователем вентильной матрицы (FPGA) или другого программируемого логического устройства, дискретной вентильной или транзисторной логики, дискретных аппаратных компонентов или любой их комбинации, предназначенных для осуществления описанных здесь функций. Процессор общего назначения может представлять собой микропроцессор, но, альтернативно, процессор может представлять собой любой традиционный процессор, контроллер, микроконтроллер или конечный автомат. Процессор также может быть реализован как комбинация вычислительных устройств, например комбинация ЦСП и микропроцессора, совокупность микропроцессоров, один или несколько микропроцессоров в сочетании с ядром ЦСП или любая другая подобная конфигурация.
Этапы способа или алгоритма, описанные в связи с раскрытыми здесь вариантами осуществления, могут быть реализованы непосредственно в оборудовании, в программном модуле, выполняемом процессором, или в их комбинации. Программный модуль может размещаться в оперативной памяти (ОЗУ), флэш-памяти, постоянной памяти (ПЗУ), электронно-программируемом ПЗУ (ЭППЗУ), электрически стираемом программируемом ПЗУ (ЭСППЗУ), в регистрах, на жестком диске, сменном диске, CD-ROM, или носителе данных любого другого типа, известного в технике. Иллюстративный носитель данных подключен к процессору, в результате чего процессор может считывать с него информацию и записывать на него информацию. Альтернативно, носитель данных может образовывать с процессором единое целое. Процессор и носитель данных могут размещаться в СИС (специализированная интегральная схема). СИС может находиться в абонентской станции. Альтернативно, процессор и носитель данных могут размещаться в абонентской станции как дискретные компоненты.
Вышеприведенное описание раскрытых вариантов осуществления предоставлено, чтобы специалист в данной области мог использовать настоящее изобретение. Специалисту в данной области должны быть очевидны различные модификации этих вариантов осуществления, и что раскрытые здесь общие принципы можно применять к другим вариантам осуществления, не выходя за рамки сущности и объема изобретения. Таким образом, настоящее изобретение не ограничивается показанными здесь вариантами осуществления, но подлежит рассмотрению в широчайшем объеме, согласующемся с раскрытыми здесь принципами и новыми признаками.

Claims (51)

1. Способ передачи речи, содержащий:
трансформацию шкалы времени остаточного низкополосного речевого сигнала в растянутую или сжатую версию остаточного низкополосного речевого сигнала,
трансформацию шкалы времени высокополосного речевого сигнала в растянутую или сжатую версию высокополосного речевого сигнала, причем трансформация шкалы времени высокополосного речевого сигнала содержит:
определение множества периодов основного тона из низкополосного речевого сигнала,
использование периодов основного тона из низкополосного речевого сигнала,
перекрытие/суммирование одного или нескольких периодов основного тона, если высокополосный речевой сигнал сжат, и перекрытие/суммирование или повторение одного или нескольких периодов основного тона, если высокополосный речевой сигнал растянут, и
объединение подвергнутых трансформации шкалы времени низкополосного и высокополосного речевых сигналов для получения полного трансформированного по шкале времени речевого сигнала.
2. Способ по п.1, дополнительно содержащий синтезирование трансформированного по шкале времени остаточного низкополосного речевого сигнала.
3. Способ по п.2, дополнительно содержащий синтезирование высокополосного речевого сигнала до его трансформации шкалы времени.
4. Способ по п.3, дополнительно содержащий:
классифицирование сегментов речи и
кодирование сегментов речи.
5. Способ по п.4, в котором кодирование сегментов речи включает в себя использование линейного предсказания с кодовым возбуждением, линейное предсказание с шумовым возбуждением или кодирование 1/8 кадра.
6. Способ по п.4, в котором кодирование является кодированием линейного предсказания с кодовым возбуждением.
7. Способ по п.4, в котором кодирование является кодированием линейного предсказания с шумовым возбуждением.
8. Способ по п.7, в котором кодирование содержит кодирование информации кодирования линейного предсказания в качестве коэффициентов усиления разных частей речевого кадра.
9. Способ по п.8, в котором коэффициенты усиления кодируются для наборов выборок речи.
10. Способ по п.9, дополнительно содержащий генерацию остаточного низкополосного сигнала путем генерации случайных значений и затем применения коэффициентов усиления к случайным значениям.
11. Способ по п.9, дополнительно содержащий представление информации кодирования линейного предсказания в виде 10 кодированных значений коэффициента усиления для остаточного низкополосного речевого сигнала, причем каждое кодированное значение коэффициента усиления представляет 16 выборок речи.
12. Способ по п.7, дополнительно содержащий генерацию 140 выборок высокополосного речевого сигнала из не трансформированного по шкале низкополосного сигнала возбуждения.
13. Способ по п.7, в котором трансформация шкалы времени низкополосного речевого сигнала содержит генерацию большего/меньшего количества выборок и применение некоторой функции декодированных коэффициентов усиления частей речевого кадра к остатку с последующим его синтезированием.
14. Способ по п.13, в котором применение некоторой функции декодированных коэффициентов усиления частей речевого кадра к остатку содержит применение коэффициента усиления последнего сегмента речи к дополнительным выборкам, когда низкая полоса растянута.
15. Способ по п.7, в котором трансформация шкалы времени высокополосного речевого сигнала содержит:
перекрытие/суммирование того же количества выборок, которое было сжато в низкой полосе, если высокополосный речевой сигнал сжат, и
перекрытие/суммирование того же количества выборок, которое было растянуто в низкой полосе, если высокополосный речевой сигнал растянут.
16. Способ по п.6, в котором трансформация шкалы времени остаточного низкополосного речевого сигнала содержит:
оценивание, по меньшей мере, одного периода основного тона, и
прибавление или вычитание, по меньшей мере, одного периода основного тона после приема остаточного низкополосного речевого сигнала.
17. Способ по п.6, в котором трансформация шкалы времени остаточного низкополосного речевого сигнала содержит:
оценивание задержки основного тона,
деление речевого кадра на периоды основного тона, причем границы периодов основного тона определяются с использованием задержки основного тона в различных точках речевого кадра,
перекрытие/суммирование периодов основного тона, если остаточный низкополосный речевой сигнал сжат, и
перекрытие/суммирование или повторение одного или нескольких из периодов основного тона, если остаточный низкополосный речевой сигнал растянут.
18. Способ по п.17, в котором оценивание задержки основного тона включает в себя вычисление интерполяции между задержками основного тона в конце последнего кадра и в конце текущего кадра.
19. Способ по п.17, в котором перекрытие/суммирование или повторение одного или нескольких из периодов основного тона включает в себя объединение сегментов речи.
20. Способ по п.17, в котором перекрытие/суммирование или повторение одного или нескольких из периодов основного тона, если остаточный низкополосный речевой сигнал растянут, включает в себя добавление дополнительного периода основного тона, созданного из первого сегмента периода основного тона и второго сегмента периода основного тона.
21. Способ по п.19, дополнительно содержащий выбор аналогичных сегментов речи, причем аналогичные сегменты речи объединяются.
22. Способ по п.19, дополнительно содержащий определение корреляции между сегментами речи и выбор тем самым аналогичных сегментов речи.
23. Способ по п.20, в котором добавление дополнительного периода основного тона, созданного из первого сегмента периода основного тона и второго сегмента периода основного тона, включает в себя добавление первого и второго сегментов основного тона таким образом, чтобы вклад первого сегмента периода основного тона возрастал, а вклад второго сегмента периода основного тона убывал.
24. Способ по п.1, в котором низкая полоса представляет полосу до 4 кГц включительно.
25. Способ по п.1, в котором верхняя полоса представляет полосу от приблизительно 3,5 кГц до приблизительно 7 кГц.
26. Вокодер, имеющий, по меньшей мере, один вход и, по меньшей мере, один выход, содержащий:
кодер, содержащий фильтр, имеющий, по меньшей мере, один вход, оперативно соединенный с входом вокодера, и, по меньшей мере, один выход, и
декодер, содержащий:
синтезатор, имеющий, по меньшей мере, один вход, оперативно соединенный с, по меньшей мере, одним выходом кодера, и, по меньшей мере, один выход, оперативно соединенный с, по меньшей мере, одним выходом вокодера, и
память, причем декодер способен выполнять программные инструкции, сохраненные в памяти, содержащие:
трансформацию шкалы времени остаточного низкополосного речевого сигнала в растянутую или сжатую версию остаточного низкополосного речевого сигнала,
трансформацию шкалы времени высокополосного речевого сигнала в растянутую или сжатую версию высокополосного речевого сигнала, причем программная инструкция трансформации шкалы времени высокополосного речевого сигнала содержит определение множества периодов основного тона из низкополосного речевого сигнала, использование периодов основного тона из низкополосного речевого сигнала, перекрытие/суммирование одного или нескольких периодов основного тона, если высокополосный речевой сигнал сжат, и перекрытие/суммирование или повторение одного или нескольких периодов основного тона, если высокополосный речевой сигнал растянут, и
объединение подвергнутых трансформации шкалы времени низкополосного и высокополосного речевых сигналов для получения полного трансформированного по шкале времени речевого сигнала.
27. Вокодер по п.26, в котором синтезатор содержит средство для синтеза трансформированного по шкале времени остаточного низкополосного речевого сигнала.
28. Вокодер по п.27, в котором синтезатор дополнительно содержит средство для синтеза высокополосного речевого сигнала до его трансформации шкалы времени.
29. Вокодер по п.26, в котором кодер содержит память, и кодер способен выполнять программные инструкции, сохраненные в памяти, содержащие классификацию сегментов речи согласно 1/8 кадра, линейного предсказания с кодовым возбуждением или линейного предсказания с шумовым возбуждением.
30. Вокодер по п.28, в котором кодер содержит память, и кодер способен выполнять программные инструкции, сохраненные в памяти, содержащие кодирование сегментов речи с использованием кодирования линейного предсказания с кодовым возбуждением.
31. Вокодер по п.28, в котором кодер содержит память, и кодер способен выполнять программные инструкции, сохраненные в памяти, содержащие кодирование сегментов речи с использованием кодирования линейного предсказания с шумовым возбуждением.
32. Вокодер по п.31, в котором программная инструкция кодирования сегментов речи с использованием кодирования линейного предсказания с шумовым возбуждением содержит кодирование информации кодирования линейного предсказания в качестве коэффициентов усиления разных частей сегмента речи.
33. Вокодер по п.32, в котором коэффициенты усиления кодируются для наборов выборок речи.
34. Вокодер по п.33, в котором инструкция трансформации шкалы времени остаточного низкополосного речевого сигнала дополнительно содержит генерацию остаточного низкополосного речевого сигнала путем генерации случайных значений с последующим применением коэффициентов усиления к случайным значениям.
35. Вокодер по п.33, в котором инструкция трансформации шкалы времени остаточного низкополосного речевого сигнала дополнительно содержит представление информации кодирования линейного предсказания в виде 10 кодированных значений коэффициента усиления для остаточного низкополосного речевого сигнала, причем каждое кодированное значение коэффициента усиления представляет 16 выборок речи.
36. Вокодер по п.31, дополнительно содержащий создание 140 выборок высокополосного речевого сигнала из не трансформированного по шкале низкополосного сигнала возбуждения.
37. Вокодер по п.31, в котором программная инструкция трансформации шкалы времени низкополосного речевого сигнала содержит генерацию большего/меньшего количества выборок и применение некоторой функции декодированных коэффициентов усиления частей речевого кадра к остатку с последующим его синтезированием.
38. Вокодер по п.37, в котором применение некоторой функции декодированных коэффициентов усиления частей речевого кадра к остатку содержит применение коэффициента усиления последнего сегмента речи к дополнительным выборкам, когда низкая полоса растянута.
39. Вокодер по п.30, в котором программная инструкция трансформации шкалы времени высокополосного речевого сигнала содержит:
перекрытие/суммирование того же количества выборок, которое было сжато в низкой полосе, если высокополосный речевой сигнал сжат, и
перекрытие/суммирование того же количества выборок, которое было растянуто в низкой полосе, если высокополосный речевой сигнал растянут.
40. Вокодер по п.30, в котором программная инструкция трансформации шкалы времени остаточного низкополосного речевого сигнала содержит:
оценивание, по меньшей мере, одного периода основного тона, и
прибавление или вычитание, по меньшей мере, одного периода основного тона после приема остаточного низкополосного речевого сигнала.
41. Вокодер по п.30, в котором программная инструкция трансформации шкалы времени остаточного низкополосного речевого сигнала содержит:
оценивание задержки основного тона,
деление речевого кадра на периоды основного тона, причем границы периодов основного тона определяются с использованием задержки основного тона в различных точках речевого кадра,
перекрытие/суммирование периодов основного тона, если остаточный речевой сигнал сжат, и
перекрытие/суммирование или повторение одного или нескольких периодов основного тона, если остаточный речевой сигнал растянут.
42. Вокодер по п.41, в котором инструкция перекрытия/суммирования периодов основного тона, если остаточный низкополосный речевой сигнал сжат, содержит:
сегментирование входной последовательности выборок на блоки выборок,
удаление сегментов остаточного сигнала с регулярными временными интервалами,
объединение удаленных сегментов и
замену удаленных сегментов объединенным сегментом.
43. Вокодер по п.41, в котором инструкция оценивания задержки основного тона содержит интерполяцию между задержками основного тона в конце последнего кадра и в конце текущего кадра.
44. Вокодер по п.41, в котором инструкция перекрытия/суммирования или повторения одного или нескольких из периодов основного тона содержит объединение сегментов речи.
45. Вокодер по п.41, в котором инструкция перекрытия/суммирования или повторения одного или нескольких из периодов основного тона, если остаточный низкополосный речевой сигнал растянут, содержит добавление дополнительного периода основного тона, созданного из первого сегмента периода основного тона и второго сегмента периода основного тона.
46. Вокодер по п.42, в котором инструкция объединения удаленных сегментов содержит увеличение вклада первого сегмента периода основного тона и уменьшение вклада второго сегмента периода основного тона.
47. Вокодер по п.44, дополнительно содержащий выбор аналогичных сегментов речи, причем аналогичные сегменты речи объединяются.
48. Вокодер по п.44, в котором инструкция трансформации шкалы времени остаточного низкополосного речевого сигнала дополнительно содержит вычисление корреляции между сегментами речи, причем таким образом выбираются аналогичные сегменты речи.
49. Вокодер по п.45, в котором инструкция добавления дополнительного периода основного тона, созданного из первого и второго сегментов периода основного тона, содержит добавление первого и второго сегментов периода основного тона таким образом, чтобы вклад первого сегмента периода основного тона возрастал, и вклад второго сегмента периода основного тона убывал.
50. Вокодер по п.26, в котором низкая полоса представляет собой полосу до 4 кГц включительно.
51. Вокодер по п.26, в котором верхняя полоса представляет собой полосу от приблизительно 3,5 кГц до приблизительно 7 кГц.
RU2009110202/09A 2006-08-22 2007-08-06 Трансформация шкалы времени кадров в широкополосном вокодере RU2414010C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/508,396 2006-08-22
US11/508,396 US8239190B2 (en) 2006-08-22 2006-08-22 Time-warping frames of wideband vocoder

Publications (2)

Publication Number Publication Date
RU2009110202A RU2009110202A (ru) 2010-10-27
RU2414010C2 true RU2414010C2 (ru) 2011-03-10

Family

ID=38926197

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009110202/09A RU2414010C2 (ru) 2006-08-22 2007-08-06 Трансформация шкалы времени кадров в широкополосном вокодере

Country Status (10)

Country Link
US (1) US8239190B2 (ru)
EP (1) EP2059925A2 (ru)
JP (1) JP5006398B2 (ru)
KR (1) KR101058761B1 (ru)
CN (1) CN101506877B (ru)
BR (1) BRPI0715978A2 (ru)
CA (1) CA2659197C (ru)
RU (1) RU2414010C2 (ru)
TW (1) TWI340377B (ru)
WO (1) WO2008024615A2 (ru)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410519B1 (en) * 2008-07-11 2019-09-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for encoding and decoding an audio signal and computer programs
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
TWI455113B (zh) * 2010-03-10 2014-10-01 Fraunhofer Ges Forschung 音訊信號解碼器、音訊信號編碼器、用以提供解碼音訊信號表示型態之方法及電腦程式與用以提供音訊信號之編碼表示型態之方法及電腦程式
JPWO2012046447A1 (ja) 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
JP6270992B2 (ja) 2014-04-24 2018-01-31 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、プログラム及び記録媒体
CN112820304B (zh) * 2014-05-01 2024-09-13 日本电信电话株式会社 解码装置、解码方法、解码程序、记录介质
DE102018206689A1 (de) * 2018-04-30 2019-10-31 Sivantos Pte. Ltd. Verfahren zur Rauschunterdrückung in einem Audiosignal

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2412987A1 (fr) * 1977-12-23 1979-07-20 Ibm France Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
DE4324853C1 (de) 1993-07-23 1994-09-22 Siemens Ag Spannungserzeugungsschaltung
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5594174A (en) * 1994-06-06 1997-01-14 University Of Washington System and method for measuring acoustic reflectance
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
JP2976860B2 (ja) 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
AU7463696A (en) * 1995-10-23 1997-05-15 Regents Of The University Of California, The Control structure for sound synthesis
TW321810B (ru) * 1995-10-26 1997-12-01 Sony Co Ltd
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
JP2001255882A (ja) * 2000-03-09 2001-09-21 Sony Corp 音声信号処理装置及びその信号処理方法
US6735563B1 (en) 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6477502B1 (en) * 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6754629B1 (en) 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
EP1340317A1 (en) * 2000-11-03 2003-09-03 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US6999598B2 (en) * 2001-03-23 2006-02-14 Fuji Xerox Co., Ltd. Systems and methods for embedding data by dimensional compression and expansion
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US20050137730A1 (en) * 2003-12-18 2005-06-23 Steven Trautmann Time-scale modification of audio using separated frequency bands
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4146489B2 (ja) 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP1787290B1 (en) * 2004-08-30 2010-11-17 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
AU2006232362B2 (en) * 2005-04-01 2009-10-08 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
US7945305B2 (en) * 2005-04-14 2011-05-17 The Board Of Trustees Of The University Of Illinois Adaptive acquisition and reconstruction of dynamic MR images
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAN R.K.C., LIN A.H.J., A time-scale modification algorithm based on the subband time-domain technique for broad-band signal applications, Journal of the audio engineering society, Audio engineering society, New York, NY, US, vol.48, №5, 05.2000. *

Also Published As

Publication number Publication date
JP2010501896A (ja) 2010-01-21
RU2009110202A (ru) 2010-10-27
EP2059925A2 (en) 2009-05-20
KR20090053917A (ko) 2009-05-28
CN101506877A (zh) 2009-08-12
US20080052065A1 (en) 2008-02-28
US8239190B2 (en) 2012-08-07
CN101506877B (zh) 2012-11-28
TWI340377B (en) 2011-04-11
CA2659197C (en) 2013-06-25
CA2659197A1 (en) 2008-02-28
JP5006398B2 (ja) 2012-08-22
WO2008024615A3 (en) 2008-04-17
KR101058761B1 (ko) 2011-08-24
WO2008024615A2 (en) 2008-02-28
TW200822062A (en) 2008-05-16
BRPI0715978A2 (pt) 2013-08-06

Similar Documents

Publication Publication Date Title
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
RU2371784C2 (ru) Изменение масштаба времени кадров в вокодере посредством изменения остатка
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
Kleijn Encoding speech using prototype waveforms
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
JP5325292B2 (ja) 信号の異なるセグメントを分類するための方法および識別器
JP2010501896A5 (ru)
US10043539B2 (en) Unvoiced/voiced decision for speech processing
EP2951824B1 (en) Adaptive high-pass post-filter
Al-Naimi et al. Improved line spectral frequency estimation through anti-aliasing filtering