[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2616534C2 - Ослабление шума при передаче аудиосигналов - Google Patents

Ослабление шума при передаче аудиосигналов Download PDF

Info

Publication number
RU2616534C2
RU2616534C2 RU2014121031A RU2014121031A RU2616534C2 RU 2616534 C2 RU2616534 C2 RU 2616534C2 RU 2014121031 A RU2014121031 A RU 2014121031A RU 2014121031 A RU2014121031 A RU 2014121031A RU 2616534 C2 RU2616534 C2 RU 2616534C2
Authority
RU
Russia
Prior art keywords
signal
noise
component
fractions
useful
Prior art date
Application number
RU2014121031A
Other languages
English (en)
Other versions
RU2014121031A (ru
Inventor
Срирам СРИНИВАСАН
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2014121031A publication Critical patent/RU2014121031A/ru
Application granted granted Critical
Publication of RU2616534C2 publication Critical patent/RU2616534C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Изобретение относится к области обработки речевых аудиосигналов. Технический результат заключается в обеспечении ослабления шума при приеме аудиосигналов. Технический результат достигается за счет обеспечения двух таблиц кодирования, которые содержат варианты полезного сигнала, представляющие возможный компонент полезного сигнала, и возможные варианты долей шумового сигнала, представляющие возможные доли шума, сегментации аудиосигнала на временные сегменты, и для каждого временного сегмента формирования возможных вариантов оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, минимизации функции затрат, указывающей разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, определения варианта сигнала для временного сегмента из возможных вариантов оцененного сигнала и компенсации аудиосигнала шума на основе этого возможного варианта сигнала. 2 н. и 12 з.п. ф-лы, 3 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к ослаблению шума при передаче аудиосигналов и, в частности, но не только, к ослаблению шума для речевых сигналов.
УРОВЕНЬ ТЕХНИКИ
Ослабление шума в аудиосигналах требуется во множестве вариантов применения для того, чтобы дополнительно улучшать или выделять компонент полезного сигнала. Например, улучшение речи при наличии фонового шума привлекает большое внимание вследствие своей практической значимости. Очень перспективным вариантом применения является уменьшение уровня шума от одного микрофона в мобильной телефонной связи. Низкие затраты устройства с одним микрофоном приводят к его привлекательности на развивающихся рынках. С другой стороны, отсутствие нескольких микрофонов не позволяет решениям на основе формирователя диаграммы направленности подавлять высокие уровни шума, который может присутствовать.
Подход на основе одного микрофона, который хорошо работает в нестационарных условиях, в силу этого является коммерчески желательным. Алгоритмы ослабления шума от одного микрофона также являются значимыми в вариантах применения с несколькими микрофонами, в которых формирование диаграммы направленности аудио является непрактичным или предпочтительным либо в дополнение к такому формированию диаграммы направленности. Например, такие алгоритмы могут быть полезными для систем проведения аудио- и видеоконференций на основе громкой связи в реверберирующих и рассеянных нестационарных шумовых полях, либо когда присутствует ряд создающих помехи источников. Технологии пространственной фильтрации, к примеру, формирование диаграммы направленности, позволяют достигать только ограниченного успеха в таких сценариях, и дополнительное подавление шума должно быть выполнено для вывода модуля формирования диаграммы направленности на этапе постобработки.
Предложены различные алгоритмы ослабления шума, включающие в себя системы, которые основаны на знаниях или допущениях касательно характеристик компонента полезного сигнала. В частности, продемонстрировано, что основанные на знаниях способы улучшения речи, такие как схемы на базе таблиц кодирования, хорошо работают в нестационарных условиях шума, даже при управлении сигналом из одного микрофона. Примеры таких способов представляются в следующих работах: S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook driven short-term predictor parameter estimation for speech enhancement", IEEE Trans. Speech, Audio and Language Processing, издание 14, № 1, стр. 163-176, январь 2006 года, и S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook based Bayesian speech enhancement for non-stationary environments", IEEE Trans. Speech Audio Processing, издание 15, № 2, стр. 441-452, февраль 2007 года.
Эти способы основываются на обученных таблицах кодирования спектральных форм речи и шума, которые параметризуются, например, посредством линейных прогнозирующих (LP) коэффициентов. Использование таблицы кодирования речи является интуитивным и легко поддается практической реализации. Таблица кодирования речи может быть либо независимой от говорящего (обученной с использованием данных от нескольких говорящих), либо зависимой от говорящего. Второй случай является полезным, например, для приложений для мобильных телефонов, поскольку они чаще всего являются персональными и зачастую используются преимущественно одним говорящим. Тем не менее, использование таблиц кодирования шума в практической реализации является перспективным вследствие множества типов шума, которые могут встречаться на практике. Как результат, типично используется очень большая таблица кодирования шума.
Обычно такие алгоритмы на основе таблиц кодирования направлены на нахождение записи таблицы кодирования речи и записи таблицы кодирования шума, которые при комбинировании наиболее близко совпадают с захваченным сигналом. Когда надлежащие записи таблицы кодирования найдены, алгоритмы компенсируют принимаемый сигнал на основе записей таблицы кодирования. Тем не менее, чтобы идентифицировать надлежащие записи таблицы кодирования, поиск выполняется по всем возможным комбинациям записей таблицы кодирования речи и записей таблицы кодирования шума. Это приводит к очень ресурсоемкому в вычислительном отношении процессу, который зачастую является непрактичными для устройств с очень низкой сложностью. Кроме того, большие таблицы кодирования шума являются громоздкими при формировании и хранении, и большое число возможных вариантов шума может увеличивать риск ошибочной оценки, что приводит к неоптимальному ослаблению шума.
Следовательно, был бы желателен улучшенный подход к ослаблению шума, в частности был бы желателен подход, обеспечивающий повышенную гибкость, уменьшенные требования по объему вычислений, упрощенную реализацию и/или работу, сокращенные затраты и/или повышенную производительность.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Следовательно, изобретение предпочтительно нацелено на уменьшение, облегчение или устранение одного или более вышеуказанных недостатков по отдельности или в любой комбинации.
Согласно аспекту изобретения предусмотрено устройство ослабления шума, содержащее: приемное устройство для приема аудиосигнала, содержащего компонент полезного сигнала и компонент шумового сигнала; первую таблицу кодирования, содержащую множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала; вторую таблицу кодирования, содержащую множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала; модуль сегментации для сегментации аудиосигнала на временные сегменты; ослабитель шума, выполненный с возможностью для каждого временного сегмента выполнять этапы: формирования множества возможных вариантов оцененного сигнала посредством для каждого из возможных вариантов полезного сигнала первой таблицы кодирования формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, формирования возможного варианта сигнала для аудиосигнала во временном сегменте из возможных вариантов оцененного сигнала и ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
Изобретение позволяет предоставлять улучшенное и/или упрощенное ослабление шума. Во многих вариантах осуществления требуются существенно уменьшенные вычислительные ресурсы. Подход позволяет обеспечивать более эффективное ослабление шума во многих вариантах осуществления, которое может приводить к более быстрому ослаблению шума. Во многих сценариях подход может обеспечивать или давать возможность ослабления шума в реальном времени.
Существенно меньшая таблица кодирования шума (вторая таблица кодирования) может быть использована во многих вариантах осуществления по сравнению с традиционными подходами. Это позволяет уменьшать требования к запоминающему устройству.
Во многих вариантах осуществления множество возможных вариантов долей шумового сигнала может не отражать знания или допущение касательно характеристик компонента шумового сигнала. Возможные варианты долей шумового сигнала могут представлять собой общие возможные варианты долей шумового сигнала и, в частности, могут представлять собой фиксированные, предварительно определенные, статические, постоянные и/или необученные возможные варианты долей шумового сигнала. Это позволяет обеспечивать упрощенную работу и/или позволяет упрощать формирование и/или распределение второй таблицы кодирования. В частности, фаза обучения может исключаться во многих вариантах осуществления.
Каждый из возможных вариантов полезного сигнала может иметь длительность, соответствующую длительности временного сегмента. Каждый из возможных вариантов долей шумового сигнала может иметь длительность, соответствующую длительности временного сегмента.
Каждый из возможных вариантов полезного сигнала может быть представлен посредством набора параметров, который характеризует компонент сигнала. Например, каждый возможный вариант полезного сигнала может содержать набор коэффициентов линейного прогнозирования для модели линейного прогнозирования. Каждый возможный вариант полезного сигнала может содержать набор параметров, характеризующий спектральное распределение, такой как, например, спектральная плотность мощности (PSD).
Каждый из возможных вариантов долей шумового сигнала может быть представлен посредством набора параметров, который характеризует компонент сигнала. Например, каждый возможный вариант доли шумового сигнала может содержать набор параметров, характеризующий спектральное распределение, такой как, например, спектральная плотность мощности (PSD). Число параметров для возможных вариантов долей шумового сигнала может быть ниже числа параметров для возможных вариантов полезного сигнала.
Компонент шумового сигнала может соответствовать любому компоненту сигнала, не составляющему часть компонента полезного сигнала. Например, компонент шумового сигнала может включать в себя белый шум, цветной шум, детерминированный шум из источников нежелательного шума, шум от реализации и т.д. Компонент шумового сигнала может быть нестационарным шумом, который может изменяться для различных временных сегментов. Обработка каждого временного сегмента посредством ослабителя шума может быть независимой для каждого временного сегмента.
Ослабитель шума может, в частности, включать в себя процессор, схему, функциональный модуль или средство для формирования множества возможных вариантов оцененного сигнала посредством, для каждого из возможных вариантов полезного сигнала первой таблицы кодирования, формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте; процессор, схему, функциональный модуль или средство для формирования возможного варианта сигнала для аудиосигнала во временном сегменте из возможных вариантов оцененного сигнала; и процессор, схему, функциональный модуль или средство для ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
В соответствии с необязательным признаком изобретения функция затрат является одной из функции затрат на основе максимального правдоподобия и функции затрат на основе минимальной среднеквадратической ошибки.
Это позволяет предоставлять очень эффективное и высокопроизводительное определение масштабирования и весовых коэффициентов.
В соответствии с необязательным признаком изобретения ослабитель шума выполнен с возможностью вычислять масштабирование и весовые коэффициенты из уравнений, отражающих производную функции затрат относительно масштабирования и весовых коэффициентов, равных нулю.
Это позволяет предоставлять очень эффективное и высокопроизводительное определение масштабирования и весовых коэффициентов. Во многих вариантах осуществления это позволяет обеспечивать работу, в которой масштабирование и весовые коэффициенты могут быть непосредственно вычислены из уравнений в замкнутой форме. Во многих вариантах осуществления это позволяет обеспечивать прямое вычисление масштабирования и весовых коэффициентов без необходимости рекурсивных итераций или операций поиска.
В соответствии с необязательным признаком изобретения возможные варианты полезного сигнала имеют более высокое частотное разрешение, чем взвешенная комбинация.
Это позволяет обеспечивать практическое ослабление шума с высокой производительностью. В частности, это позволяет обеспечивать выделение значимости возможного варианта полезного сигнала относительно значимости возможного варианта доли шумового сигнала при определении возможных вариантов оцененного сигнала.
Степени свободы при задании возможных вариантов полезного сигнала могут быть выше степеней свободы при формировании взвешенной комбинации. Число параметров, задающих возможные варианты полезного сигнала, может быть выше числа параметров, задающих возможные варианты долей шумового сигнала.
В соответствии с необязательным признаком изобретения множество возможных вариантов долей шумового сигнала покрывает частотный диапазон, при этом каждый возможный вариант доли шумового сигнала из группы возможных вариантов долей шумового сигнала предоставляет доли только в поддиапазоне частотного диапазона, причем поддиапазоны различных возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала отличаются.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, это позволяет обеспечивать упрощенную и/или улучшенную адаптацию возможного варианта оцененного сигнала к аудиосигналу посредством регулирования весовых коэффициентов.
В соответствии с необязательным признаком изобретения поддиапазоны группы возможных вариантов долей шумового сигнала являются неперекрывающимися.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления.
В некоторых вариантах осуществления поддиапазоны группы возможных вариантов долей шумового сигнала могут быть перекрывающимися.
В соответствии с необязательным признаком изобретения поддиапазоны группы возможных вариантов долей шумового сигнала имеют неравные размеры.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления.
В соответствии с необязательным признаком изобретения каждый из возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала соответствует по существу плоскому частотному распределению.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, это позволяет обеспечивать упрощенную и/или улучшенную адаптацию возможного варианта оцененного сигнала к аудиосигналу посредством регулирования весовых коэффициентов.
В соответствии с необязательным признаком изобретения устройство ослабления шума дополнительно содержит модуль оценки шума для формирования оценки шума для аудиосигнала во временном интервале, по меньшей мере, частично за пределами временного сегмента и для формирования, по меньшей мере, одного из возможных вариантов долей шумового сигнала в ответ на оценку шума.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, во многих вариантах осуществления это может обеспечивать более точную оценку компонента шумового сигнала, в частности, для систем, в которых шум может иметь стационарный или медленно изменяющийся компонент. Оценка шума, например, может представлять собой оценку шума, сформированную из аудиосигнала в одном или более предыдущих временных сегментов.
В соответствии с необязательным признаком изобретения взвешенная комбинация представляет собой взвешенное суммирование.
Это позволяет предоставлять очень эффективную реализацию и может, в частности, уменьшать сложность и, например, обеспечивать упрощенное определение весовых коэффициентов для взвешенного суммирования.
В соответствии с необязательным признаком изобретения, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством набора параметров, содержащего не более 20 параметров.
Это обеспечивает низкую сложность. Изобретение во многих вариантах осуществления и сценариях может обеспечивать эффективное ослабление шума даже для относительно приблизительных оценок сигнала и компонентов шумового сигнала.
В соответствии с необязательным признаком изобретения, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством спектрального распределения.
Это позволяет предоставлять очень эффективную реализацию и может, в частности, уменьшать сложность.
В соответствии с необязательным признаком изобретения компонент полезного сигнала представляет собой компонент речевого сигнала.
Изобретение позволяет предоставлять преимущественный подход для улучшения речи.
Подход может быть, в частности, подходящим для улучшения речи. Возможные варианты полезного сигнала могут представлять компоненты сигнала, совместимые с речевой моделью.
Согласно аспекту изобретения предусмотрен способ ослабления шума, содержащий: прием аудиосигнала, содержащего компонент полезного сигнала и компонент шумового сигнала; предоставление первой таблицы кодирования, содержащей множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала; предоставление второй таблицы кодирования, содержащей множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала; сегментацию аудиосигнала на временные сегменты; и для каждого временного сегмента выполнение этапов: формирования множества возможных вариантов оцененного сигнала посредством для каждого из возможных вариантов полезного сигнала первой таблицы кодирования формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, формирования возможного варианта сигнала для временного сегмента из возможных вариантов оцененного сигнала и ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
Эти и другие аспекты, признаки и преимущества изобретения должны становиться очевидными и должны истолковываться со ссылкой на описанные далее варианты осуществления.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления изобретения описаны далее только в качестве примера со ссылкой на чертежи, на которых:
Фиг. 1 является иллюстрацией примера элементов устройства ослабления шума в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 2 является иллюстрацией способа ослабления шума в соответствии с некоторыми вариантами осуществления изобретения; и
Фиг. 3 является иллюстрацией примера элементов ослабителя шума для устройства ослабления шума по фиг. 1.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Нижеприведенное описание фокусируется на вариантах осуществления изобретения, применимых к улучшению речи посредством ослабления шума. Тем не менее, следует принимать во внимание, что изобретение не ограничено этим вариантом применения и может применяться ко многим другим сигналам.
Фиг. 1 иллюстрирует пример ослабителя шума в соответствии с некоторыми вариантами осуществления изобретения.
Ослабитель шума содержит приемное устройство 101, которое принимает сигнал, который содержит как полезный компонент, так и неполезный компонент. Неполезный компонент упоминается в качестве шумового сигнала и может включать в себя любой компонент сигнала, не составляющий часть компонента полезного сигнала.
В системе по фиг. 1 сигнал представляет собой аудиосигнал, который, в частности, может быть сформирован из сигнала микрофона, захватывающего аудиосигнал в данном аудиоокружении. Нижеприведенное описание фокусируется на вариантах осуществления, в которых компонент полезного сигнала представляет собой речевой сигнал от требуемого говорящего. Компонент шумового сигнала может включать посторонний шум в окружении, аудио из нежелательных источников звука, шум от реализации и т.д.
Приемное устройство 101 соединяется с модулем 103 сегментации, который сегментирует аудиосигнал на временные сегменты. В некоторых вариантах осуществления временные сегменты могут быть неперекрывающимися, но в других вариантах осуществления временные сегменты могут быть перекрывающимися. Дополнительно, сегментация может быть выполнена посредством применения взвешивающей функции подходящей формы, и, в частности, устройство ослабления шума может использовать известную технологию суммирования с перекрытием для сегментации с использованием подходящей взвешивающей функции, к примеру, взвешивающей функции Хеннинга или Хэмминга. Длительность временного сегмента должна зависеть от конкретной реализации, но во многих вариантах осуществления должна составлять порядка 10-100 мс.
Модуль 103 сегментации подает результат в ослабитель 105 шума, который выполняет посегментное ослабление шума, чтобы выделять компонент полезного сигнала относительно неполезного компонента шумового сигнала. Результирующие сегменты после ослабления шума подаются в процессор 107 вывода, который предоставляет непрерывный аудиосигнал. Процессор вывода может, в частности, выполнять десегментацию, например, посредством выполнения функции суммирования с перекрытием. Следует принимать во внимание, что в других вариантах осуществления выходной сигнал может предоставляться в качестве сегментированного сигнала, например в вариантах осуществления, в которых дополнительная посегментная обработка сигналов выполняется для сигнала после ослабления шума.
Ослабление шума основано на подходе на основе таблиц кодирования, который использует отдельные таблицы кодирования, связанные с компонентом полезного сигнала и с компонентом шумового сигнала. Соответственно, ослабитель 105 шума соединяется с первой таблицей 109 кодирования, которая представляет собой таблицу кодирования полезных сигналов и в конкретном примере представляет собой таблицу кодирования речи. Ослабитель 105 шума дополнительно соединяется со второй таблицей 111 кодирования, которая представляет собой таблицу кодирования долей шумового сигнала.
Ослабитель 105 шума выполнен с возможностью выбирать записи таблицы кодирования из таблицы кодирования речи и таблицы кодирования шума, так что комбинация компонентов сигнала, соответствующих выбранным записям, наиболее близко напоминает аудиосигнал в этом временном сегменте. После того как надлежащие записи таблицы кодирования найдены (наряду с их масштабированием), они представляют оценку отдельного компонента речевого сигнала и компонента шумового сигнала в захваченном аудиосигнале. В частности, компонент сигнала, соответствующий выбранной записи таблицы кодирования речи, представляет собой оценку компонента речевого сигнала в захваченном аудиосигнале, и записи таблицы кодирования шума предоставляют оценку компонента шумового сигнала. Соответственно, подход использует подход на основе таблиц кодирования для того, чтобы оценивать компоненты речевого и шумового сигнала аудиосигнала, и после того, как эти оценки определены, они могут быть использованы для того, чтобы ослаблять компонент шумового сигнала относительно компонента речевого сигнала в аудиосигнале, поскольку оценки позволяют различать между ними.
Более конкретно, рассмотрим модель аддитивного шума, в которой речь и шум предположительно являются независимыми:
Figure 00000001
где y(n), x(n) и w(n) представляют дискретизированную зашумленную речь (входной аудиосигнал), чистую речь (компонент полезного речевого сигнала) и шум (компонент шумового сигнала) соответственно.
Подход на основе таблиц кодирования предшествующего уровня техники выполняет поиск в таблицах кодирования, чтобы находить запись таблицы кодирования для компонента сигнала и компонента шума, так что масштабированная комбинация наиболее близко напоминает захваченный сигнал, в силу этого предоставляя оценку PSD речи и шума для каждого кратковременного сегмента. Пусть Py(ω) обозначает PSD наблюдаемого зашумленного сигнала y(n), Px(ω) обозначает PSD компонента x(n) речевого сигнала и Pw(ω) обозначает PSD компонента шумового сигнала, в таком случае:
Py(ω)=Px(ω)+Pw(ω).
Пусть ^ обозначает оценку соответствующей PSD, традиционное ослабление шума на основе таблиц кодирования может сокращать шум посредством применения фильтра H(ω) Винера в частотной области к захваченному сигналу, т.е.:
Pna(ω)=Py(ω)H(ω),
где фильтр Винера задается следующим образом:
Figure 00000002
В подходе предшествующего уровня техники таблицы кодирования содержат возможные варианты речевого сигнала и возможные варианты шумового сигнала соответственно, и критически важная проблема состоит в том, чтобы идентифицировать самую подходящую пару возможных вариантов.
Оценка PSD речи и шума и, таким образом, выбор надлежащих возможных вариантов может следовать подходу на основе максимального правдоподобия (ML) или подходу на основе байесовской минимальной среднеквадратической ошибки (MMSE).
Отношение между вектором коэффициентов линейного прогнозирования и базовой PSD может быть определено посредством следующего:
Figure 00000003
где
Figure 00000004
являются коэффициентами линейного прогнозирования,
Figure 00000005
и
Figure 00000006
является порядком модели линейного прогнозирования, и
Figure 00000007
С использованием этого отношения оцененная PSD захваченного сигнала задается следующим образом:
Figure 00000008
где gx и gw являются частотно-независимыми усилениями уровня, ассоциированными с PSD речи и шума. Эти усиления вводятся, чтобы учитывать изменение в уровне между PSD, сохраненными в таблице кодирования, и PSD, встречающимися во входном аудиосигнале.
Предшествующий уровень техники выполняет поиск по всем возможным спариваниям записи таблицы кодирования речи и записи таблицы кодирования шума, чтобы определять пару, которая максимизирует определенный показатель подобия между наблюдаемой зашумленной PSD и оцененной PSD, как описано ниже.
Рассмотрим пару PSD речи и шума, заданных посредством i-той PSD из таблицы кодирования речи и j-той PSD из таблицы кодирования шума. Зашумленная PSD, соответствующая этой паре, может быть записана следующим образом:
Figure 00000009
В этом уравнении PSD известны, тогда как усиления неизвестны. Таким образом, для каждой возможной пары PSD речи и шума должны определяться усиления. Это может осуществляться на базе подхода на основе максимального правдоподобия. Оценка по принципу максимального правдоподобия требуемых PSD речи и шума может быть получена в двухэтапной процедуре. Логарифм правдоподобия того, что данная пара
Figure 00000010
и
Figure 00000011
приводит к наблюдаемой зашумленной PSD, представляется посредством следующего уравнения:
Figure 00000012
Figure 00000013
Figure 00000014
На первом этапе определяются неизвестные члены
Figure 00000015
и
Figure 00000016
уровня, которые максимизируют
Figure 00000017
Один способ выполнять это заключается в различении относительно
Figure 00000018
и
Figure 00000019
обнулении результата и решении результирующего набора системы уравнений. Тем не менее, эти уравнения являются нелинейными и не поддаются решению в замкнутой форме. Альтернативный подход основан на том факте, что правдоподобие максимизируется, когда
Figure 00000020
и в силу этого члены усиления могут быть получены посредством минимизации спектрального расстояния между этими двумя объектами.
После того как члены уровня известны, может определяться значение
Figure 00000021
поскольку все объекты известны. Эта процедура повторяется для всех пар записей таблицы кодирования речи и шума, и пара, которая приводит к наибольшему правдоподобию, используется для того, чтобы получать PSD речи и шума. Поскольку этот этап выполняется для каждого кратковременного сегмента, способ может точно оценивать PSD шума даже в нестационарных условиях шума.
Пусть
Figure 00000022
обозначают пару, приводящую к наибольшему правдоподобию для данного сегмента, и пусть
Figure 00000023
и
Figure 00000024
обозначают соответствующие члены уровня. Затем PSD речи и шума задаются посредством следующего:
Figure 00000025
Figure 00000026
Таким образом, эти результаты задают фильтр Винера, который применяется к входному аудиосигналу для того, чтобы формировать сигнал после ослабления шума.
Таким образом, предшествующий уровень техники основан на нахождении подходящей записи таблицы кодирования полезных сигналов, которая является хорошей оценкой для компонента речевого сигнала, и подходящей записи таблицы кодирования шумового сигнала, которая является хорошей оценкой для компонента шумового сигнала. После того как они находятся, может применяться эффективное ослабление шума.
Тем не менее, подход является очень сложным и ресурсоемким. В частности, должны быть оценены все возможные комбинации записей таблицы кодирования шума и речи, чтобы находить наилучшее совпадение. Дополнительно, поскольку записи таблицы кодирования должны представлять большое множество возможных сигналов, это приводит к очень большим таблицам кодирования и в силу этого ко множеству возможных пар, которые должны быть оценены. В частности, компонент шумового сигнала зачастую может иметь большое изменение в возможных характеристиках, например, в зависимости от конкретных окружений использования и т.д. Следовательно, зачастую требуется очень большая таблица кодирования шума для того, чтобы обеспечивать достаточно близкую оценку. Это приводит к очень высокой вычислительной нагрузке, а также к значительным требованиям для хранения таблиц кодирования. Помимо этого формирование, в частности, таблицы кодирования шума может быть очень громоздким или трудным. Например, при использовании подхода на основе обучения набор обучающих выборок должен быть достаточно большим, чтобы в достаточной степени представлять возможный широкий спектр в шумовых сценариях. Это может приводить к очень затратному процессу.
В системе по фиг. 1 подход на основе таблиц кодирования не основан на выделенной таблице кодирования шума, которая задает возможные варианты для множества различных возможных компонентов шума. Наоборот, используется таблица кодирования шума, в которой записи таблицы кодирования считаются долями в компоненте шумового сигнала, вместо того чтобы обязательно быть прямыми оценками компонента шумового сигнала. Оценка компонента шумового сигнала затем формируется посредством взвешенной комбинации и, в частности, взвешенного суммирования записей таблицы кодирования долей шума. Таким образом, в системе по фиг. 1 оценка компонента шумового сигнала формируется посредством совместного рассмотрения множества записей таблицы кодирования, и фактически компонент оцененного шумового сигнала обычно задается в качестве линейной взвешенной комбинации или, в частности, суммирования записей таблицы кодирования шума.
В системе по фиг. 1 ослабитель 105 шума соединяется с таблицей 109 кодирования сигнала, которая содержит определенное число записей таблицы кодирования, каждая из которых содержит набор параметров, задающий возможный компонент полезного сигнала и, в конкретном примере, полезный речевой сигнал.
Таким образом, записи таблицы кодирования для компонента полезного сигнала соответствуют потенциальным возможным вариантам для компонентов полезного сигнала. Каждая запись содержит набор параметров, которые характеризуют возможный компонент полезного сигнала. В конкретном примере каждая запись содержит набор параметров, которые характеризуют возможный компонент речевого сигнала. Таким образом, сигнал, характеризуемый посредством записи таблицы кодирования, представляет собой сигнал, который имеет характеристики речевого сигнала, и в силу этого записи таблицы кодирования вводят знания речевых характеристик в оценку компонента речевого сигнала.
Записи таблицы кодирования для компонента полезного сигнала могут быть основаны на модели требуемого аудиоисточника либо дополнительно или альтернативно могут быть определены посредством процесса обучения. Например, записи таблицы кодирования могут представлять собой параметры для речевой модели, разработанной, чтобы представлять характеристики речи. В качестве другого примера, большое число речевых выборок может записываться и статистически обрабатываться, чтобы формировать подходящее число потенциальных возможных вариантов речи, которые сохраняются в таблице кодирования.
В частности, записи таблицы кодирования могут быть основаны на модели линейного прогнозирования. Фактически, в конкретном примере, каждая запись таблицы кодирования содержит набор параметров линейного прогнозирования. Записи таблицы кодирования, возможно, в частности, сформированы посредством процесса обучения, в котором параметры линейного прогнозирования сформированы посредством подгонки к большому числу речевых выборок.
Записи таблицы кодирования в некоторых вариантах осуществления могут представляться как частотное распределение и, в частности, как спектральная плотность мощности (PSD). PSD может соответствовать непосредственно параметрам линейного прогнозирования.
Число параметров для каждой записи таблицы кодирования типично является относительно небольшим. Фактически типично имеется не более 20 и зачастую не более 10 параметров, указывающих каждую запись таблицы кодирования. Таким образом, используется относительно приблизительная оценка компонента полезного сигнала. Это обеспечивает упрощенную обработку с меньшей сложностью, но при этом обнаружено, что это предоставляет эффективное ослабление шума в большинстве случаев.
Ослабитель 105 шума дополнительно соединяется с таблицей 111 кодирования долей шума. Тем не менее, в отличие от таблицы кодирования полезных сигналов, записи таблицы 109 кодирования долей шума, в общем, не задают компоненты шумового сигнала как таковые, а вместо этого задают возможные доли в оценке компонента шумового сигнала. Ослабитель 105 шума в силу этого формирует оценку для компонента шумового сигнала посредством комбинирования этих возможных долей.
Число параметров для каждой записи таблицы кодирования из таблицы 111 кодирования долей шума также типично является относительно небольшим. Фактически типично имеется не более 20 и зачастую не более 10 параметров, указывающих каждую запись таблицы кодирования. Таким образом, используется относительно приблизительная оценка компонента шумового сигнала. Это обеспечивает упрощенную обработку с меньшей сложностью, но при этом обнаружено, что это предоставляет эффективное ослабление шума в большинстве случаев. Дополнительно, число параметров, задающих записи таблицы кодирования долей шума, зачастую меньше числа параметров, задающих записи таблицы кодирования полезных сигналов.
В частности, для данной записи таблицы кодирования речи, обозначаемой посредством буквы i, ослабитель 105 шума формирует оценку аудиосигнала во временном сегменте следующим образом:
Figure 00000027
Где Nw является числом записей в таблице 111 кодирования долей шума, Pw(ω) является PSD записи и Px(ω) является PSD записи в таблице кодирования речи.
Для i-той записи таблицы кодирования речи ослабитель 105 шума в силу этого определяет наилучшую оценку для аудиосигнала посредством определения комбинации записей таблицы кодирования долей шума. Процесс затем повторяется для всех записей таблицы кодирования речи.
Фиг. 2 подробнее иллюстрирует процесс. Способ описывается со ссылкой на фиг. 3, который иллюстрирует элементы обработки ослабителя 105 шума. Способ начинается на этапе 201, на котором выбирается аудиосигнал в следующем сегменте.
Способ затем продолжается на этапе 203, на котором выбирается первая (следующая) запись таблицы кодирования речи из таблицы 109 кодирования речи.
После этапа 203 выполняется этап 205, на котором определяются весовые коэффициенты, применяемые к каждой записи таблицы кодирования из таблицы 111 кодирования долей шума, а также масштабирование записи таблицы кодирования речи. Таким образом, на этапе 205 gx и gw для каждого k определяются для записи таблицы кодирования речи.
Усиления (масштабирование/весовые коэффициенты), например, могут быть определены с использованием подхода на основе максимального правдоподобия, хотя следует принимать во внимание, что в других вариантах осуществления могут использоваться другие подходы и критерии, такие как, например, подход на основе минимальной среднеквадратической ошибки.
В качестве конкретного примера, логарифм правдоподобия того, что данная пара
Figure 00000028
и
Figure 00000029
приводит к наблюдаемой зашумленной PSD, задается следующим образом:
Figure 00000030
Figure 00000031
Функция логарифмического правдоподобия может рассматриваться как взаимно обратная функция затрат, т.е. чем больше значение, тем меньше разность (в смысле максимального правдоподобия) между возможным вариантом оцененного сигнала и входным аудиосигналом.
Определяются неизвестные значения
Figure 00000032
и
Figure 00000033
усиления, которые максимизируют
Figure 00000034
. Это может выполняться, например, посредством различения относительно
Figure 00000035
и
Figure 00000036
и обнуления результата и последующего решения результирующих уравнений, чтобы предоставлять усиления (соответствующие нахождению максимума функции логарифмического правдоподобия и в силу этого минимума функции затрат на основе логарифмического правдоподобия).
В частности, подход может быть основан на том факте, что правдоподобие максимизируется (и в силу этого соответствующая функция затрат минимизируется), когда
Figure 00000037
равно
Figure 00000038
Таким образом, члены усиления могут быть получены посредством минимизации спектрального расстояния между этими двумя объектами.
Во-первых, для удобства обозначения PSD речи и шума и члены усиления переименовываются следующим образом:
Figure 00000039
Figure 00000040
так что:
Figure 00000041
Функция затрат минимизируется посредством максимизации обратной функции затрат:
Figure 00000042
частная производная которой относительно gl (1<l≤Nw+1) может задаваться равной нулю, чтобы решать для членов усиления:
Figure 00000043
Это приводит к следующей линейной системе, решение которой дает в результате требуемые члены усиления:
Figure 00000044
где:
Figure 00000045
Figure 00000046
Figure 00000047
Figure 00000048
Следует отметить, что усиления, заданные посредством этих уравнений, могут быть отрицательными. Тем не менее, чтобы обеспечивать то, что рассматриваются только доли шума реального мира, усиления, возможно, должны быть положительными, например, посредством применения модифицированных условий Каруша-Куна-Таккера.
Таким образом, этап 205 продолжает формировать возможный вариант оцененного сигнала для обрабатываемой записи таблицы кодирования речи. Возможный вариант оцененного сигнала задается следующим образом:
Figure 00000049
Где усиления вычислены так, как описано.
После этапа 205 способ переходит к этапу 207, на котором оценивается, обработаны или нет все речевые записи таблицы кодирования речи. Если нет, способ возвращается к этапу 203, на котором выбирается следующая запись таблицы кодирования речи. Это повторяется для всех записей таблицы кодирования речи.
Этапы 201-207 выполняются посредством модуля 301 оценки по фиг. 3. Таким образом, модуль 301 оценки является процессором, схемой или функциональным элементом, который определяет возможный вариант оцененного сигнала для каждой записи первой таблицы 109 кодирования.
Если выявлено, что все записи таблицы кодирования обработаны на этапе 207, способ переходит к этапу 209, на котором процессор 303 продолжает формировать возможный вариант сигнала для временного сегмента на основе возможных вариантов оцененного сигнала. Таким образом, возможный вариант сигнала формируется посредством рассмотрения
Figure 00000050
для всех i. В частности, для каждой записи в таблице 109 кодирования речи наилучшее приближение к входному аудиосигналу формируется на этапе 205 посредством определения относительного усиления для речевой записи и для каждой доли шума в таблице 111 кодирования долей шума. Кроме того, значение логарифмического правдоподобия вычисляется для каждой речевой записи, в силу этого предоставляя индикатор относительно правдоподобия того, что аудиосигнал вытекает из компонентов речевого и шумового сигнала, соответствующих возможному варианту оцененного сигнала.
Этап 209 может, в частности, определять возможный вариант сигнала на основе определенных значений логарифмического правдоподобия. В качестве примера с низкой сложностью система может просто выбирать возможный вариант оцененного сигнала, имеющий наибольшее значение логарифмического правдоподобия. В более сложных вариантах осуществления возможный вариант сигнала может быть вычислен посредством взвешенной комбинации и, в частности, суммирования всех возможных вариантов оцененного сигнала, при этом взвешивание каждого возможного варианта оцененного сигнала зависит от значения логарифмического правдоподобия.
После этапа 209 выполняется этап 211, на котором модуль 303 ослабления шума продолжает компенсировать аудиосигнал на основе вычисленного возможного варианта сигнала. В частности, посредством фильтрации аудиосигнала с помощью фильтра Винера:
Figure 00000051
Следует принимать во внимание, что могут использоваться другие подходы для уменьшения шума на основе компонентов оцененного сигнала и шума. Например, система может просто вычитать оцененный возможный вариант шума из входного аудиосигнала.
Таким образом, этап 211 формирует выходной сигнал из входного сигнала во временном сегменте, в котором компонент шумового сигнала ослабляется относительно компонента речевого сигнала. Способ затем возвращается к этапу 201 и обрабатывает следующий сегмент.
Подход позволяет предоставлять очень эффективное ослабление шума при значительном уменьшении сложности. В частности, поскольку записи таблицы кодирования шума соответствуют долям шума, а не обязательно всему компоненту шумового сигнала, необходимо гораздо меньшее число записей. Большое изменение в возможных оценках шума является возможным посредством регулирования комбинации отдельных долей. Кроме того, ослабление шума может достигаться с существенно меньшей сложностью. Например, в отличие от традиционного подхода, который заключает в себе поиск по всем комбинациям записей таблицы кодирования речи и шума, подход по фиг. 1 включает в себя только один контур, а именно по записям таблицы кодирования речи.
Следует принимать во внимание, что таблица 111 кодирования долей шума может содержать различные записи, соответствующие различным возможным вариантам доли шума в различных вариантах осуществления.
В частности, в некоторых вариантах осуществления некоторые или все возможные варианты долей шумового сигнала могут совместно покрывать частотный диапазон, в котором выполняется ослабление шума, тогда как отдельные возможные варианты покрывают только поднабор этого диапазона. Например, группа записей может совместно покрывать частотный интервал, скажем, в 200 Гц - 4 кГц, но каждая запись набора содержит только поддиапазон (т.е. часть) этого частотного интервала. Таким образом, каждый возможный вариант может покрывать различные поддиапазоны. Фактически в некоторых вариантах осуществления каждая из записей может покрывать различный поддиапазон, т.е. поддиапазоны группы возможных вариантов долей шумового сигнала могут быть по существу неперекрывающимися. Например, спектральная плотность в частотном поддиапазоне одного возможного варианта может, по меньшей мере, на 6 дБ превышать спектральную плотность любого другого возможного варианта в этом поддиапазоне. Следует принимать во внимание, что в таких примерах поддиапазоны могут разделяться посредством переходных диапазонов. Такие переходные диапазоны предпочтительно могут быть меньше 10% полосы пропускания поддиапазонов.
В других вариантах осуществления некоторые или все возможные варианты долей шумового сигнала могут быть перекрывающимися, так что несколько возможных вариантов предоставляют значительную долю в интенсивности сигнала на данной частоте.
Также следует принимать во внимание, что спектральное распределение каждого возможного варианта может отличаться в различных вариантах осуществления. Тем не менее, во многих вариантах осуществления спектральное распределение каждого возможного варианта может быть по существу плоским в поддиапазоне. Например, амплитудное изменение может быть меньше 10%. Это позволяет упрощать работу во многих вариантах осуществления и может, в частности, обеспечивать обработку с меньшей сложностью и/или уменьшенными требованиями по хранению.
В качестве конкретного примера, каждый возможный вариант доли шумового сигнала может задавать сигнал с плоской спектральной плотностью в данном частотном диапазоне. Дополнительно, таблица 111 кодирования долей шума может содержать набор таких возможных вариантов (возможно в дополнение к другим возможным вариантам), которые покрывают весь требуемый частотный диапазон, в котором должна быть выполнена компенсация.
В частности, для поддиапазонов с равной шириной, записи таблицы 111 кодирования долей шума могут задаваться следующим образом:
Figure 00000052
для
Figure 00000053
и
Figure 00000054
Таким образом, в некоторых подходах компонент шумового сигнала в этом случае моделируется в качестве взвешенной суммы плоских PSD с ограниченной полосой частот. Следует отметить, что в этом примере таблица 111 кодирования долей шума может быть реализована просто посредством линейного уравнения, задающего все записи, и нет необходимости в выделенном запоминающем устройстве таблиц кодирования, сохраняющем отдельные примеры сигналов.
Следует отметить, что такой подход на основе взвешенной суммы позволяет моделировать окрашенный шум. Частотное разрешение, с которым оценка шума может быть адаптирована к аудиосигналу, определяется посредством ширины каждого поддиапазона, который, в свою очередь, определяется посредством числа записей Nw таблицы кодирования. Тем не менее, возможные варианты долей шумового сигнала типично выполнены с возможностью иметь более низкое разрешение, чем частотное разрешение взвешенного суммирования (которое вытекает из регулирования весовых коэффициентов). Таким образом, степени свободы, доступные, чтобы совпадать с оценкой шума, меньше степеней свободы, доступных, чтобы задавать каждый возможный вариант полезного сигнала в таблице 109 кодирования полезных сигналов.
Это используется для того, чтобы обеспечивать, что оценка компонента полезного сигнала на основе таблицы кодирования полезных сигналов является центральной для оценки всего сигнала, и, в частности, снижать риск того, что ошибочный или неточный возможный вариант полезного сигнала выбирается вследствие подавления ошибок посредством адаптации взвешенного суммирования к аудиосигналу на основе неправильного возможного варианта полезного сигнала. Фактически, если свобода адаптации оценки компонента шума является слишком высокой, члены усиления могут регулироваться таким образом, что любая запись таблицы кодирования речи может приводить к одинаково высокой вероятности. Следовательно, приблизительное частотное разрешение (имеющее один член усиления для полосы элементов разрешения по частоте возможных вариантов полезного сигнала) в таблице кодирования шума обеспечивает то, что записи таблицы кодирования речи, которые являются близкими к базовой чистой речи, приводят к большему правдоподобию и наоборот.
В некоторых вариантах осуществления поддиапазоны преимущественно могут иметь неравные полосы пропускания. Например, полоса пропускания каждого возможного варианта может быть выбрана в соответствии с психоакустическими принципами. Например, каждый поддиапазон может быть выбран таким образом, что он соответствует полосе частот ERB или Барка.
Следует принимать во внимание, что подход с использованием таблицы 111 кодирования долей шума, содержащей определенное число неперекрывающихся PSD с ограниченной полосой частот равной полосы пропускания, представляет собой просто один пример и что альтернативно или дополнительно может использоваться определенное число других таблиц кодирования. Например, как упомянуто выше, могут рассматриваться неравная ширина и/или перекрывающиеся полосы пропускания для каждой записи таблицы кодирования. Кроме того, может использоваться комбинация перекрывающихся и неперекрывающихся полос пропускания. Например, таблица 111 кодирования долей шума может содержать набор записей, в котором интересующая полоса пропускания разделяется на первое число полос, и другой набор записей, в котором интересующая полоса пропускания разделяется на другое число полос.
В некоторых вариантах осуществления система может содержать модуль оценки шума, который формирует оценку шума для аудиосигнала, причем оценка шума формируется с учетом временного интервала, который, по меньшей мере, частично находится за пределами обрабатываемого временного сегмента. Например, оценка шума может быть сформирована на основе временного интервала, который существенно длительнее временного сегмента. Эта оценка шума затем может быть включена в качестве возможного варианта доли шумового сигнала в таблицу 111 кодирования долей шума при обработке временного интервала.
Это позволяет предоставлять в алгоритм запись таблицы кодирования, которая с большой вероятностью является близкой к более долговременному среднему компоненту шума, при предоставлении возможности адаптации с использованием других возможных вариантов, чтобы модифицировать ее для того, чтобы оценивать, чтобы следовать более кратковременным изменениям шума. Например, одна запись таблицы кодирования шума может выделяться для сохранения последней оценки PSD шума, полученной из другой оценки шума, как, например, в алгоритме, раскрытом в работе R. Martin "Noise power spectral density estimation based on optimal smoothing and minimum statistics" IEEE Trans. Speech and Audio Processing, издание 9, № 5, стр. 504-512, июль 2001 года. Таким образом, можно ожидать, что алгоритм должен работать, по меньшей мере, не хуже существующих алгоритмов и работать лучше в трудных условиях.
В качестве другого примера, система может усреднять результирующие оценки долей шума и сохранять более долговременное среднее в качестве записи в таблице 111 кодирования долей шума.
Система может быть использована во множестве различных вариантов применения, включающих в себя, например, варианты применения, которые требуют уменьшения уровня шума от одного микрофона, например мобильную телефонную связь и DECT-телефоны. В качестве другого примера, подход может быть использован в системах улучшения речи на основе нескольких микрофонов (например, слуховых аппаратах, матричных системах громкой связи и т.д.), которые обычно имеют одноканальный постпроцессор для дополнительного уменьшения уровня шума.
Следует принимать во внимание, что вышеприведенное описание для понятности описывает варианты осуществления со ссылкой на различные функциональные схемы, модули и процессоры. Тем не менее, должно быть очевидным, что любое надлежащее распределение функциональности между различными функциональными схемами, модулями или процессорами может быть использовано без отступления от изобретения. Например, функциональность, проиллюстрированная как выполняемая посредством отдельных процессоров или контроллеров, может быть выполнена посредством одного процессора или контроллера. Следовательно, ссылки на конкретные функциональные модули или схемы должны рассматриваться только как ссылки на надлежащее средство предоставления описанной функциональности, а не обозначать точную логическую или физическую структуру либо организацию.
Изобретение может быть реализовано в любой надлежащей форме, включающей в себя аппаратные средства, программное обеспечение, микропрограммное обеспечение или любую комбинацию вышеозначенного. Необязательно, изобретение может быть реализовано, по меньшей мере, частично как вычислительное программное обеспечение, выполняемое на одном или более процессоров данных и/или процессоров цифровых сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым надлежащим образом. Фактически функциональность может быть реализована в одном модуле, во множестве модулей или как часть других функциональных модулей. По существу, изобретение может быть реализовано в одном модуле или может быть физически и функционально распределено между различными модулями, схемами и процессорами.
Хотя настоящее изобретение описано в связи с некоторыми вариантами осуществления, оно не имеет намерения быть ограниченным конкретной изложенной в данном документе формой. Вместо этого объем настоящего изобретения ограничен только посредством прилагаемой формулы изобретения. Дополнительно, хотя предположительно признак описывается в данном документе в связи с конкретными вариантами осуществления, специалисты в данной области техники должны признавать, что различные признаки описанных вариантов осуществления могут быть комбинированы в соответствии с изобретением. В формуле изобретения термин "содержащий" не исключает наличия других элементов или этапов.
Более того, хотя перечислены по отдельности, множество средств, элементов, схем или этапов способа может быть реализовано посредством, к примеру, одной схемы, модуля или процессора. Дополнительно, хотя отдельные признаки могут быть включены в различные пункты формулы изобретения, они могут быть преимущественно комбинированы, и их включение в различные пункты формулы изобретения не подразумевает, что комбинация признаков является невыполнимой и/или преимущественной. Также включение признака в одну категорию пунктов формулы изобретения не налагает ограничения на эту категорию, а вместо этого указывает то, что признак в равной степени применим к другим категориям пунктов формулы изобретения по мере необходимости. Более того, порядок признаков в пунктах формулы изобретения не налагает какой-либо конкретный порядок, в котором признаки должны осуществляться, и, в частности, порядок отдельных этапов в пункте формулы изобретения на способ не подразумевает, что этапы должны выполняться в этом порядке. Вместо этого этапы могут выполняться в любом надлежащем порядке. Кроме того, ссылки в единственном числе не исключают множественности. Таким образом, ссылки на "первый", "второй" и т.д. не исключают множественности. Цифровые позиционные обозначения в формуле изобретения предоставлены просто в качестве поясняющего примера, и они не должны истолковываться как каким-либо образом ограничивающие объем формулы изобретения.

Claims (30)

1. Устройство ослабления шума, содержащее:
- приемное устройство (101) для приема аудиосигнала, содержащего компонент полезного сигнала и компонент шумового сигнала;
- первую таблицу (109) кодирования, содержащую множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала;
- вторую таблицу (111) кодирования, содержащую множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала;
- модуль (103) сегментации для сегментации аудиосигнала на временные сегменты;
- ослабитель (105) шума, выполненный с возможностью для каждого временного сегмента выполнять этапы, на которых:
- формируют множество возможных вариантов оцененного сигнала посредством формирования, для каждого из возможных вариантов полезного сигнала первой таблицы кодирования, возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте,
- формируют возможный вариант сигнала для аудиосигнала во временном сегменте из возможных вариантов оцененного сигнала, и
- ослабляют шум аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
2. Устройство ослабления шума по п. 1, в котором функция затрат является одной из функции затрат на основе максимального правдоподобия и функции затрат на основе минимальной среднеквадратической ошибки.
3. Устройство ослабления шума по п. 1, в котором ослабитель (105) шума выполнен с возможностью вычислять масштабирование и весовые коэффициенты из уравнений, отражающих производную функции затрат относительно масштабирования и весовых коэффициентов, равных нулю.
4. Устройство ослабления шума по п. 1, в котором возможные варианты полезного сигнала имеют более высокое частотное разрешение, чем взвешенная комбинация.
5. Устройство ослабления шума по п. 1, в котором множество возможных вариантов долей шумового сигнала покрывает частотный диапазон, при этом каждый возможный вариант доли шумового сигнала из группы возможных вариантов долей шумового сигнала предоставляет доли только в поддиапазоне частотного диапазона, причем поддиапазоны различных возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала отличаются.
6. Устройство ослабления шума по п. 5, в котором поддиапазоны группы возможных вариантов долей шумового сигнала являются неперекрывающимися.
7. Устройство ослабления шума по п. 5, в котором поддиапазоны группы возможных вариантов долей шумового сигнала имеют неравные размеры.
8. Устройство ослабления шума по п. 5, в котором каждый из возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала соответствует по существу плоскому частотному распределению.
9. Устройство ослабления шума по п. 1, дополнительно содержащее модуль оценки шума для формирования оценки шума для аудиосигнала во временном интервале, по меньшей мере, частично за пределами временного сегмента и для формирования, по меньшей мере, одного из возможных вариантов долей шумового сигнала в ответ на оценку шума.
10. Устройство ослабления шума по п. 1, в котором взвешенная комбинация представляет собой взвешенное суммирование.
11. Устройство ослабления шума по п. 1, в котором, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством набора параметров, содержащего не более 20 параметров.
12. Устройство ослабления шума по п. 1, в котором, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством спектрального распределения.
13. Устройство ослабления шума по п. 1, в котором компонент полезного сигнала представляет собой компонент речевого сигнала.
14. Способ ослабления шума, содержащий этапы, на которых:
- принимают аудиосигнал, содержащий компонент полезного сигнала и компонент шумового сигнала;
- предоставляют первую таблицу (109) кодирования, содержащую множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала;
- предоставляют вторую таблицу (111) кодирования, содержащую множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала;
- сегментируют аудиосигнал на временные сегменты; и
- для каждого временного сегмента выполняют этапы, на которых:
- формируют множество возможных вариантов оцененного сигнала посредством формирования, для каждого из возможных вариантов полезного сигнала первой таблицы кодирования, возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте,
- формируют возможный вариант сигнала для временного сегмента из возможных вариантов оцененного сигнала, и
- ослабляют шум аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
RU2014121031A 2011-10-24 2012-10-22 Ослабление шума при передаче аудиосигналов RU2616534C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161550512P 2011-10-24 2011-10-24
US61/550,512 2011-10-24
PCT/IB2012/055792 WO2013061232A1 (en) 2011-10-24 2012-10-22 Audio signal noise attenuation

Publications (2)

Publication Number Publication Date
RU2014121031A RU2014121031A (ru) 2015-12-10
RU2616534C2 true RU2616534C2 (ru) 2017-04-17

Family

ID=47324238

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014121031A RU2616534C2 (ru) 2011-10-24 2012-10-22 Ослабление шума при передаче аудиосигналов

Country Status (8)

Country Link
US (1) US9875748B2 (ru)
EP (1) EP2774147B1 (ru)
JP (1) JP6190373B2 (ru)
CN (1) CN103999155B (ru)
BR (1) BR112014009647B1 (ru)
IN (1) IN2014CN03102A (ru)
RU (1) RU2616534C2 (ru)
WO (1) WO2013061232A1 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013975B2 (en) * 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN104952458B (zh) * 2015-06-09 2019-05-14 广州广电运通金融电子股份有限公司 一种噪声抑制方法、装置及系统
US10565336B2 (en) 2018-05-24 2020-02-18 International Business Machines Corporation Pessimism reduction in cross-talk noise determination used in integrated circuit design
CN112466322B (zh) * 2020-11-27 2023-06-20 华侨大学 一种机电设备噪声信号特征提取方法
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070282603A1 (en) * 2004-02-18 2007-12-06 Bruno Bessette Methods and Devices for Low-Frequency Emphasis During Audio Compression Based on Acelp/Tcx
US20080077413A1 (en) * 2006-09-27 2008-03-27 Fujitsu Limited Audio coding device with two-stage quantization mechanism
WO2009097023A1 (en) * 2008-01-28 2009-08-06 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
RU2364958C2 (ru) * 2003-09-09 2009-08-20 Нокиа Корпорейшн Кодирование с множеством скоростей
WO2011114192A1 (en) * 2010-03-19 2011-09-22 Nokia Corporation Method and apparatus for audio coding

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275247B2 (ja) 1991-05-22 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
US6970558B1 (en) * 1999-02-26 2005-11-29 Infineon Technologies Ag Method and device for suppressing noise in telephone devices
EP2242049B1 (en) * 2001-03-28 2019-08-07 Mitsubishi Denki Kabushiki Kaisha Noise suppression device
EP1414024A1 (en) * 2002-10-21 2004-04-28 Alcatel Realistic comfort noise for voice calls over packet networks
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7797156B2 (en) * 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
DE602006005684D1 (de) 2006-10-31 2009-04-23 Harman Becker Automotive Sys Modellbasierte Verbesserung von Sprachsignalen
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
EP2081405B1 (en) * 2008-01-21 2012-05-16 Bernafon AG A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use
MX2011000382A (es) * 2008-07-11 2011-02-25 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodos para la codificacion y decodificacion de audio; transmision de audio y programa de computacion.
EP2246845A1 (en) 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
CN102428512A (zh) * 2009-06-02 2012-04-25 松下电器产业株式会社 下混装置、编码装置以及其方法
US20110096942A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Noise suppression system and method
EP2363853A1 (en) 2010-03-04 2011-09-07 Österreichische Akademie der Wissenschaften A method for estimating the clean spectrum of a signal
RU2611973C2 (ru) 2011-10-19 2017-03-01 Конинклейке Филипс Н.В. Ослабление шума в сигнале
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US9336212B2 (en) * 2012-10-30 2016-05-10 Slicethepie Limited Systems and methods for collection and automatic analysis of opinions on various types of media

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2364958C2 (ru) * 2003-09-09 2009-08-20 Нокиа Корпорейшн Кодирование с множеством скоростей
US20070282603A1 (en) * 2004-02-18 2007-12-06 Bruno Bessette Methods and Devices for Low-Frequency Emphasis During Audio Compression Based on Acelp/Tcx
US20080077413A1 (en) * 2006-09-27 2008-03-27 Fujitsu Limited Audio coding device with two-stage quantization mechanism
WO2009097023A1 (en) * 2008-01-28 2009-08-06 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
WO2011114192A1 (en) * 2010-03-19 2011-09-22 Nokia Corporation Method and apparatus for audio coding

Also Published As

Publication number Publication date
RU2014121031A (ru) 2015-12-10
US9875748B2 (en) 2018-01-23
JP6190373B2 (ja) 2017-08-30
JP2014532891A (ja) 2014-12-08
WO2013061232A1 (en) 2013-05-02
EP2774147A1 (en) 2014-09-10
CN103999155A (zh) 2014-08-20
BR112014009647B1 (pt) 2021-11-03
IN2014CN03102A (ru) 2015-07-03
BR112014009647A2 (pt) 2017-05-09
CN103999155B (zh) 2016-12-21
US20140249809A1 (en) 2014-09-04
EP2774147B1 (en) 2015-07-22

Similar Documents

Publication Publication Date Title
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US10049678B2 (en) System and method for suppressing transient noise in a multichannel system
RU2616534C2 (ru) Ослабление шума при передаче аудиосигналов
US20200286501A1 (en) Apparatus and a method for signal enhancement
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN110556125A (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
Djendi et al. New automatic forward and backward blind sources separation algorithms for noise reduction and speech enhancement
Li et al. Multichannel online dereverberation based on spectral magnitude inverse filtering
RU2611973C2 (ru) Ослабление шума в сигнале
Lu Noise reduction using three-step gain factor and iterative-directional-median filter
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Esch et al. Model-based speech enhancement exploiting temporal and spectral dependencies
Lu et al. Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition
CN113870884B (zh) 单麦克风噪声抑制方法和装置
Zhang et al. Gain factor linear prediction based decision-directed method for the a priori SNR estimation
Xiao et al. Adaptive Beamforming Based on Interference-Plus-Noise Covariance Matrix Reconstruction for Speech Separation
CN118899005A (zh) 一种音频信号处理方法、装置、计算机设备及存储介质
WO2023059402A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Krishnamoorthy et al. Processing noisy speech for enhancement
CN117121104A (zh) 估计用于处理所获取的声音数据的优化掩模
Thanhikam et al. A speech enhancement method using adaptive speech PDF
EP3516653A1 (en) Apparatus and method for generating noise estimates
Aoki et al. Sound source segregation based on estimating incident angle for hands-free speech recognition