[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

ES2403410T3 - Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda - Google Patents

Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda Download PDF

Info

Publication number
ES2403410T3
ES2403410T3 ES08828148T ES08828148T ES2403410T3 ES 2403410 T3 ES2403410 T3 ES 2403410T3 ES 08828148 T ES08828148 T ES 08828148T ES 08828148 T ES08828148 T ES 08828148T ES 2403410 T3 ES2403410 T3 ES 2403410T3
Authority
ES
Spain
Prior art keywords
frequency
spectral
transition
transition frequency
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08828148T
Other languages
English (en)
Inventor
Gustaf Ullberg
Manuel Briand
Anisse Taleb
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40387561&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2403410(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2403410T3 publication Critical patent/ES2403410T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de: obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft); rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.

Description

Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.
CAMPO TÉCNICO La presente invención se refiere en general a métodos y dispositivos para la codificación y la descodificación de señales de audio, y en particular a métodos y dispositivos para el rellenado del espectro.
ANTECEDENTES Cuando las señales van a ser almacenadas y/o transmitidas, un planteamiento estándar actual es codificar las señales de audio en una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o de transmisión, un deseo general es reducir el tamaño de la representación digital necesario para permitir la reconstrucción de las señales de audio con suficiente calidad. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación real.
Los codificadores de audio basados en transformada comprimen las señales de audio cuantificando los coeficientes de transformación. Para permitir bajas tasas de bits, los cuantificadores podrían concentrar los bits disponibles en
los coeficientes más energéticos y perceptualmente relevantes y transmitir sólo esos, dejando “agujeros espectrales”
de coeficientes no cuantificados en el espectro de frecuencia.
La llamada tecnología de SBR (Replicación de Banda Espectral – Spectral Band Replication, en inglés), véase por ejemplo el TS 26.404 V6.0.0 (2004-09) del 3GPP, “Enhanced aacPlus general audio codec – encoder SBR part (versión 6)”, 2004 [1], cierra el hueco entre la señal de banda limitada de un codificador perceptual convencional y el ancho de banda audible de aproximadamente 15 kHz. La idea general tras la SBR es recrear el contenido de alta frecuencia faltante de una señal decodificada de una manera perceptualmente precisa. Las frecuencias por encima de 15 kHz son menos importantes desde un punto de vista psicoacústico, pero pueden ser también reconstruidas. No obstante, la SBR no puede ser utilizada como un códec autónomo. Siempre opera en conjunción con un códec de forma de onda convencional, un llamado códec de núcleo. El códec de núcleo es responsable de transmitir la parte inferior del espectro original mientras que el descodificador de SBR, que es principalmente un post-proceso al descodificador de forma de onda convencional, reconstruye el intervalo de frecuencia no transmitido. Los valores espectrales de la banda ancha no son transmitidos directamente como en los códecs convencionales. El sistema combinado ofrece una ganancia de codificación superior a la ganancia del códec de núcleo solo.
La metodología de SBR se basa en la definición de una frecuencia de transición fija entre una banda baja, bajas frecuencias perceptualmente relevantes codificadas, y una banda alta, altas frecuencias menos relevantes no codificadas. No obstante, en la práctica, esta frecuencia de transición se basa en el contenido de audio de la señaloriginal. En otras palabras, de una señal a otra, la frecuencia de transición apropiada puede variar mucho. Éste es por ejemplo el caso cuando se comparan señales de conversación limpia y de música de banda completa.
Los “agujeros espectrales” del espectro descodificado pueden dividirse en dos tipos. El primero es pequeños agujeros a bajas frecuencias debido al efecto de enmascaramiento instantáneo, véase por ejemplo “Estimation of Perceptual Entropy Using Noise Masking Criteria”, Proc. ICASSP, pp. 2524-2527, Mayo de 1988, de J.D. Johnston [2]. El segundo es agujeros más grandes a partir de la saturación por el umbral absoluto de audición y la adición de enmascaramiento [2]. La SBR afecta principalmente al segundo tipo.
Además, un códec de audio típico basado en tal método que se dirige a rellenar el “agujero espectral”, es decir, coeficientes no codificados, para las altas frecuencias, es decir, el segundo tipo de “agujeros espectrales”, podría preferiblemente rellenar los agujeros espectrales sobre el espectro completo. Verdaderamente, incluso si un códec de SBR es capaz de proporcionar una señal de audio de ancho de banda completo, las altas frecuencias reconstruidas no enmascararán las molestas aberraciones introducidas por la descodificación, es decir, la cuantificación de la banda baja, es decir, las frecuencias bajas perceptualmente relevantes.
El documento WO 02/41302 A1 describe la adaptación de la frecuencia de transición de acuerdo con las características de la señal de entrada.
COMPENDIO Un objeto general de la presente invención es proporcionar métodos y dispositivos para permitir una supresión eficiente de las aberraciones perceptuales provocadas por agujeros espectrales sobre una señal de audio de banda completa.
Los objetos anteriores se logran mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas.
La presente invención tiene varias ventajas. Una ventaja es que un uso de la frecuencia de transición permite la utilización de un rellenado combinado del espectro utilizando tanto rellenado con ruido como extensión del ancho de banda. Además, la frecuencia de transición se define adaptativamente, por ejemplo, de acuerdo con el esquema de codificación utilizado, lo que hace al rellenado del espectro dependiente por ejemplo de la resolución de la frecuencia. Cualquier códec de conversación y/o de audio que utilice este método es capaz de proporcionar una alta calidad, es decir, con menos aberraciones molestas, y una señal de audio de ancho de banda completo. El método es flexible en el sentido de que puede ser combinado con cualquier tipo de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrico, etc.).
BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención, junto con otros objetos y ventajas de la misma, puede comprenderse haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los cuales:
la FIGURA 1 es un esquema de bloques esquemático de un sistema de códec; la FIGURA 2 es un esquema de bloques esquemático de una realización de una realización de un codificador de señal de audio de acuerdo con la presente invención; la FIGURA 3 es una ilustración esquemática de coeficientes espectrales, grupos de los mismos y bandas de frecuencia; la FIGURA 4 es un esquema de bloques esquemático de una realización de una realización de un descodificador de señal de audio de acuerdo con la presente invención; las FIGURAS 5A-C son ilustraciones de realizaciones de principios para encontrar una frecuencia de transición; la FIGURA 6 es un diagrama de flujo de etapas de una realización de un método de acuerdo con la presente invención; y la FIGURA 7 es un diagrama de flujo de una etapa de una realización de un método de manejo de señal de acuerdo con la presente invención.
DESCRIPCIÓN DETALLADA En todos los dibujos, los mismos números de referencia se utilizan para elementos similares o correspondientes.
Una realización de un sistema de códec general para señales de audio se ilustra esquemáticamente en la FIGURA
1. Una fuente de audio 10 produce una señal de audio 15. La señal de audio 15 es manejada en un codificador 20, el cual produce un flujo 25 binario que comprende datos que representan a la señal de audio 15. El flujo binario 25 puede ser transmitido, como por ejemplo, en el caso de la comunicación multimedia, mediante una disposición de transmisión y/o de almacenamiento 30. La disposición de transmisión y/o de almacenamiento 30 opcionalmente también puede comprender alguna capacidad de almacenamiento. El flujo binario 25 puede también ser almacenado en la disposición de transmisión y/o de almacenamiento 30, sólo introduciendo un retardo de tiempo en la utilización del flujo binario. La disposición de transmisión y/o de almacenamiento 30 es así una disposición que introduce al menos uno de un reposicionamiento en el espacio o retardo en el tiempo del flujo binario 25. Cuando se está utilizando, el flujo binario 25 es manejado en un descodificador 40, que produce una salida de audio 35 de los datos comprendidos en el flujo binario. Típicamente, la salida de audio 35 debería recoger la señal de audio 15 original lo mejor posible bajo ciertas restricciones.
En muchas aplicaciones en tiempo real, el retardo en el tiempo entre la producción de la señal de audio 15 original y la salida de audio 35 producida típicamente no está permitido que exceda un cierto tiempo. Si los recursos de transmisión en el mismo tiempo son limitados, la tasa de bits disponible es también típicamente baja. Con el fin de utilizar la tasa de bits disponible de una mejor manera posible, se ha desarrollado la codificación de audio perceptual. La codificación de audio perceptual, por lo tanto, se ha convertido actualmente en una parte importante para muchos servicios de multimedia. El principio básico es convertir la señal de audio en coeficientes espectrales en un dominio de la frecuencia y utilizar un modelo perceptual para determinar un enmascaramiento dependiente de la frecuencia y del tiempo de los coeficientes espectrales.
La FIGURA 2 ilustra una realización de un codificador de audio 20 de acuerdo con la presente invención. En esta realización particular, el codificador de audio 20 perceptual es un codificador basado en un transformador perceptual
o en un banco de filtros perceptual. Se recibe una fuente de audio 15, que comprende tramas de señales de audio x[n].
En un codificador espectral típico, un convertidor 21 está dispuesto para convertir la señal de audio 15 en el dominio del tiempo en un conjunto 24 de coeficientes espectrales Xb[n] de un dominio de frecuencia. En un codificador de transformada típico, la conversión puede, por ejemplo, ser llevada a cabo mediante una Transformada de Fourier Discreta (DFT – Discrete Fourier Transform, en inglés), una Transformada del Coseno Discreta (DCT – Discrete Cosine Transform, en inglés) o una Transformada del Coseno Discreta Modificada (MDCT – Modified Discrete Cosine Transform, en inglés). El convertidor 21 puede por ello típicamente estar constituido por un transformador espectral. Los detalles de la actual transformación no son de particular importancia para las ideas básicas de la presente invención y por lo tanto no se explicarán más.
El conjunto 24 de coeficientes espectrales, es decir, se proporciona una representación de frecuencia de la señal de audio de entrada a una sección de cuantificación y codificación 28, en la que los coeficientes espectrales son cuantificados y codificados. Típicamente, la cuantificación está operando para concentrar los bits disponibles en los coeficientes más energéticos y perceptualmente más relevantes. Esto puede ser llevado a cabo utilizando, por ejemplo, diferentes tipos de umbrales de enmascaramiento o reducciones del ancho de banda. El resultado será
típicamente “agujeros espectrales” de coeficientes no cuantificados en el espectro de la frecuencia. En otras
palabras, algunos de los coeficientes se dejan fuera a propósito, puesto que son perceptualmente menos importantes, para no ocupar recursos de transmisión que se necesitan más para otros propósitos. Tales agujeros espectrales pueden entonces mediante diferentes estrategias de reconstrucción ser corregidos o reconstruidos en el lado del descodificador. Típicamente, aparecen agujeros espectrales de dos clases. La primera clase comprende agujeros espectrales, solos o unos pocos vecinos que ocurren en diferentes lugares en la región de frecuencia más baja. El segundo tipo es un grupo más o menos continuo de agujeros espectrales en el extremo de la alta frecuencia del espectro.
De acuerdo con la presente invención, resulta favorable tratar estas dos clases distintas de agujeros espectrales de diferentes maneras, con el fin de lograr un rellenado del espectro lo más eficiente posible. Un parámetro que se debe determinar es entonces una frecuencia, a la cual se encuentran los diferentes planteamientos de rellenado, una llamada frecuencia de transición. Puesto que la distribución de agujeros espectrales difiere entre las diferentes clases de señales de audio, la elección óptima de frecuencia de transición también difiere. De acuerdo con la presente invención, la frecuencia de transición está adaptada a un contenido espectral de la señal de audio. Típicamente, la frecuencia de transición está adaptada a un contenido espectral de una trama presente de la señal de audio, no obstante, la frecuencia de transición puede también depender del contenido espectral de las tramas previas de la señal de audio, y si no hay ningún requisito de retardo serio, la frecuencia de transición puede también depender del contenido espectral de tramas futuras de la señal de audio. Esta adaptación puede ser llevada a cabo en el lado del codificador mediante unos circuitos de determinación de transición 60, típicamente integrados con la sección de cuantificación y codificación 28. No obstante, en realizaciones alternativas, los circuitos de determinación de transición 60 pueden ser proporcionados como una sección de operación separadamente, por lo que sólo un parámetro que representa la frecuencia de transición es proporcionado a las diferentes funcionalidades del codificador 20. La frecuencia de transición puede ser utilizada en el lado del codificador 20 por ejemplo proporcionando una codificación de envoltura para los intervalos de frecuencia en los diferentes lados de la frecuencia de transición.
La sección de cuantificación y de codificación 28 está también dispuesta para empaquetar los coeficientes espectrales codificados junto con la información lateral adicional en una corriente de bits de acuerdo con el estándar de transmisión o de almacenamiento que va a ser utilizado. Un flujo binario 25 que tiene datos que representan al conjunto de coeficientes espectrales es por ello extraído de la sección de cuantificación y codificación 28. Puesto que la frecuencia de transición puede obtenerse directamente a partir del contenido espectral de la señal de audio, la misma derivación puede ser llevada a cabo en ambos lados de la interfaz de transmisión, es decir, tanto en el codificador como en el descodificador. Esto significa que el propio valor de la frecuencia de transición no necesariamente tiene que ser transmitido entre la información lateral adicional. No obstante, por supuesto es también posible hacer eso si hay una capacidad de tasa de bits disponible.
En una realización particular, se utiliza una transformada MDCT. Después de que se ha realizado la ponderación mediante un modelo psico-acústico, los coeficientes de la MDCT son cuantificados utilizando un vector de cuantificación. En el vector de cuantificación, VQ (Quantization Vector, en inglés), los coeficientes espectrales son divididos en pequeños grupos. Cada grupo de coeficientes puede verse como un único vector, y cada vector es cuantificado individualmente.
Por ejemplo, debido a las elevadas restricciones en la tasa de bits, el cuantificador puede centrar los bits disponibles en los grupos más energéticos y perceptualmente más relevantes, resultando en que algunos grupos son puestos a cero. Estos grupos forman agujeros espectrales en el espectro cuantificado. Esto se ilustra en la FIGURA 3. En la presente realización, los grupos 70 comprenden el mismo número de coeficientes espectrales 71, en este caso cuatro. No obstante, en realizaciones alternativas pueden ser también posibles grupos que tienen diferente número de coeficientes espectrales. En una realización particular, todos los grupos comprenden sólo un coeficiente espectral cada uno, es decir, el grupo es el mismo que el propio coeficiente espectral. Los grupos cuantificados 72 se ilustran en la figura mediante rectángulos sin relleno, mientras que los grupos puestos a cero 73 se ilustran como rectángulos negros. Son típicamente sólo los grupos cuantificados 72 los que son transmitidos a cualquier usuario final.
Los grupos 70 de coeficientes se dividen a su vez en diferentes bandas de frecuencia 74. Esta división es preferiblemente llevada a cabo de acuerdo con algún criterio psico-acústico. Los grupos que tienen esencialmente similares propiedades psico-acústicas pueden por ello ser tratados colectivamente. El número de miembros de cada banda de frecuencia 74, es decir, el número de grupos 70 asociados con las bandas de frecuencia 74 puede por lo tanto diferir. Si grandes porciones de frecuencia tienen similares propiedades, una banda de frecuencia que cubre estas frecuencias puede tener un gran intervalo de frecuencia. Si las propiedades psico-acústicas cambian rápidamente con las frecuencias, esto por el contrario requiere bandas de frecuencia de un pequeño intervalo de frecuencia. Las rutinas para el rellenado del espectro pueden preferiblemente depender de la banda de frecuencia que va a ser rellenada como se explica con detalle a continuación.
En la etapa de descodificación, la operación inversa es básicamente lograda. En la FIGURA 4, se ilustra una realización de un descodificador 40 de audio de acuerdo con la presente invención. Se recibe un flujo binario 25, que tiene propiedades causadas por el codificador descrito anteriormente en esta memoria. La descuantificación y la descodificación del flujo binario 25 recibido, por ejemplo, una corriente de bits es llevada a cabo en un descodificador 41 de coeficiente espectral. El descodificador 41 de coeficiente espectral está dispuesto para descodificar coeficientes espectrales recuperados del flujo binario en los coeficientes espectrales descodificados XQ[n] de un conjunto inicial de coeficientes espectrales 42, posiblemente agrupados en grupos de frecuencias XbQ[n]. El conjunto inicial de coeficientes espectrales 42 preferiblemente agrupa al conjunto de coeficientes espectrales proporcionados por el convertidor del lado del codificador, posiblemente tras un post-procesamiento tal como, por ejemplo, enmascaramiento de umbrales o reducciones del ancho de banda.
Como se explica también a continuación, la aplicación de enmascarar umbrales o de reducciones del ancho de banda en el codificador típicamente resulta en que el conjunto de coeficientes espectrales 42 está incompleto en el
sentido de que típicamente comprende los llamados “agujeros espectrales”. Los “agujeros espectrales”
corresponden a coeficientes espectrales que no son recibidos en el flujo binario. En otras palabras, los agujeros espectrales son coeficientes espectrales no definidos o no codificados XQ[n] o coeficientes espectrales automáticamente puestos a un valor predeterminado, típicamente cero, por el descodificador espectral 41. Para evitar aberraciones audibles, estos coeficientes tienen que ser reemplazados por estimaciones (rellenadas) en el descodificador.
Los agujeros espectrales a menudo vienen en dos tipos. Los agujeros espectrales pequeños están típicamente en las bajas frecuencias, y uno o unos pocos agujeros espectrales grandes típicamente ocurren en las altas frecuencias.
Para minimizar las aberraciones en la señal de audio descodificada, el descodificador “rellena” el espectro
reemplazando los agujeros espectrales en el espectro con estimaciones de los coeficientes. Estas estimaciones pueden basarse en información lateral transmitida por el descodificador y/o pueden depender de la propia señal. Ejemplos de tal información lateral útil podrían ser la envoltura de potencia del espectro y la tonalidad, es decir, medida de planicidad espectral, de los coeficientes faltantes.
Pueden utilizarse dos métodos diferentes para rellenar distintas clases de agujeros espectrales. El “rellenado con ruido” funciona bien para agujeros espectrales en las frecuencias bajas, mientras que la “extensión del ancho de banda” es más adecuada a frecuencias altas. La presente invención describe un método para decidir dónde deben
utilizarse el rellenado con ruido y la extensión del ancho de banda, respectivamente.
La presente invención se basa en la definición de una frecuencia de transición entre las partes relevantes baja y alta del espectro. Basándose en esta información, un algoritmo de codificación típico que se basa en un procedimiento de “rellenado con ruido” de alta calidad será capaz de reducir las aberraciones de codificación que ocurren para bajas tasas y también de regenerar una señal de audio de ancho de banda completo incluso a bajas tasas y con un esquema de baja complejidad basado en la “extensión del ancho de banda”. Esto se explicará con más detalle a continuación.
El conjunto inicial de coeficientes espectrales 42 del descodificador de coeficiente espectral 41, que comprende típicamente una cierta cantidad de agujeros espectrales, se proporciona a unos circuitos de determinación de transición 60. Los circuitos de determinación de transición 60 están dispuestos para determinar una frecuencia de transición ft.
El conjunto inicial de coeficientes espectrales 42 del descodificador de coeficiente espectral 41 es proporcionado también a un rellenador de espectro 43. El rellenador de espectro 43 está dispuesto para llevar a cabo un rellenado del espectro en el conjunto inicial de coeficientes espectrales 42, creando un conjunto 44 completo de coeficientes espectrales reconstruidos Xb’[n]. El conjunto 44 de coeficientes espectrales reconstruidos tiene típicamente todos los coeficientes espectrales dentro de un cierto intervalo de frecuencia definido.
El rellenador de espectro 43 a su vez comprende un filtro de ruido 50. El filtro de ruido 50 está dispuesto para proporcionar un proceso para el rellenado con ruido de los agujeros espectrales, preferiblemente en la región de la frecuencia baja, es decir, por debajo de la frecuencia de transición ft. Un valor es por ello asignado a los coeficientes
espectrales en el conjunto inicial de coeficientes espectrales por debajo de la frecuencia de transición que “falta”,
como resultado de no estar incluida en la corriente de bits codificados recibida. En este sentido, una salida 65 de los circuitos de determinación de transición 60 está conectada al filtro de ruido 50, proporcionando información asociada con la frecuencia de transición ft.
El rellenador de espectro 43 comprende también un extensor del ancho de banda 55, dispuesto para extender el ancho de banda del conjunto inicial de coeficientes espectrales por encima de la frecuencia de transición con el fin de producir el conjunto 44 de coeficientes espectrales reconstruidos. Por lo tanto, la salida 65 de los circuitos de determinación de transición 60 está también conectada al extensor del ancho de banda 55.
Como se ha mencionado anteriormente, el resultado del rellenador de espectro 43 es un conjunto 44 completo de coeficientes espectrales reconstruidos Xb’[n], que tiene todos los coeficientes espectrales dentro de un cierto intervalo de frecuencia definido.
El conjunto 44 de coeficientes espectrales reconstruidos es proporcionado a un convertidor 45 conectado al rellenador de espectro 43. El convertidor 45 está dispuesto para convertir el conjunto 44 de coeficientes espectrales de un dominio de la frecuencia en una señal de audio 46 de un dominio del tiempo. El convertidor 45 está en la presente realización basado en un transformador perceptual, correspondiente a la técnica de transformada utilizada en el codificador 20 (FIGURA 2). En una realización particular, la señal es proporcionada de nuevo al dominio del tiempo con una transformada inversa, por ejemplo, MDCT Inversa – IMDCT o DFT inversa – IDFT, etc. En otras realizaciones puede utilizarse un banco de filtros inverso. Como en el lado del codificador, la técnica de tal convertidor 45 es conocida de la técnica anterior, y no se explicará de nuevo. Una señal de audio reconstruida perceptualmente final 34 x’[n] es proporcionada en una salida 35 para la señal de audio, posiblemente con otras etapas de tratamiento.
El códec debe decidir en qué bandas de frecuencia utilizar el rellenado con ruido y en qué bandas de frecuencia utilizar la extensión del ancho de banda. El rellenado con ruido proporciona el mejor resultado cuando la mayoría de los grupos de la banda de frecuencia para ser rellenados están cuantificados, y hay sólo agujeros espectrales menores en la banda. La extensión del ancho de banda es preferible cuando una gran parte de la señal en las frecuencias altas se deja sin cuantificar.
Un método básico sería establecer una frecuencia de transición fija entre el rellenado con ruido y la extensión del ancho de banda. Los agujeros espectrales en las bandas o grupos de frecuencia por debajo de tal frecuencia son rellenados mediante rellenado con ruido y los agujeros espectrales en grupos o bandas de frecuencia por encima de esa frecuencia son rellenados mediante extensión del ancho de banda.
Un problema con este planteamiento es, no obstante, que la frecuencia de transición óptima no es la misma para todas las señales de audio. Algunas señales tienen la mayoría de la energía concentrada en las frecuencias bajas y una gran parte de la señal podría ser sometida a extensión del ancho de banda. Otras señales tienen su energía más uniformemente distribuida sobre el espectro y estas señales pueden beneficiarse de utilizar sólo rellenado con ruido.
De acuerdo con la presente invención la frecuencia de transición es adaptativamente dependiente de una distribución de agujeros espectrales en el citado conjunto de coeficientes espectrales. Una rutina para encontrar una frecuencia de transición adecuada podría ser pasar por todas las bandas de frecuencia, empezando en la más alta (BN) hasta 1. Si no hay coeficientes cuantificados en la banda actual, será rellenada mediante extensión del ancho de banda. Si hay coeficientes cuantificados en la banda, los agujeros de esta banda así como las siguientes bandas son rellenados utilizando rellenado con ruido. Así, una frecuencia de transición es puesta en el límite superior de la primera banda de frecuencia vista desde el lado de la alta frecuencia que tiene un coeficiente cuantificado en ella. Esto se ilustra en la FIGURA 5A. Los agujeros espectrales 77 en la banda N, es decir, por encima de la frecuencia de transición ft son así rellenados con planteamientos de extensión del ancho de banda. Los agujeros espectrales 76 por debajo de la frecuencia de transición ft son, por el contrario, rellenados mediante rellenado con ruido.
Una realización alternativa se ilustra en la FIGURA 5B. Aquí la definición de la frecuencia de transición se basa directamente en los grupos 70, despreciando la división de banda de frecuencia. Aquí, la extensión del ancho de banda se utiliza para todos los grupos desde las frecuencias más altas hasta el grupo inmediatamente por encima del primer grupo cuantificado 78. Los agujeros espectrales 76 por debajo de la frecuencia de transición ft son, por el contrario, rellenados mediante rellenado con ruido.
Estos métodos son más adaptativos a la señal de audio y el cuantificador, es decir, el esquema de codificación, pero pueden experimentar problemas menores cuando la señal es cuantificada, por ejemplo de acuerdo con la FIGURA 5C. Aquí, una gran parte de las altas frecuencias de la señal es puesta a cero, y la extensión del ancho de banda preferiblemente se utilizaría desde la banda B9 a la B12. No obstante, puesto que existe un solo grupo cuantificado 79 codificado en la banda de frecuencia B11, la extensión del ancho de banda estará completamente deshabilitada por debajo de este grupo cuantificado 79 y el rellenado con ruido será utilizado en todas las bandas hasta este grupo
79.
Para evitar también este problema, se propone también otra realización, en la que la frecuencia de transición ft es seleccionada dependiendo de una proporción de agujeros espectrales en las bandas de frecuencia. Como en las realizaciones previas, el códec pasa por todas las bandas de frecuencia, empezando en la más alta hacia el 1. Para cada banda de frecuencia, el número de coeficientes espectrales o grupos codificados se cuenta. Si el número de coeficientes cuantificados o grupos dividido por el número total de coeficientes espectrales o grupos, es decir, la proporción de coeficientes espectrales codificados, de la banda de frecuencia excede un cierto umbral, los agujeros espectrales de esa banda de frecuencia y las siguientes bandas de frecuencia son rellenados con rellenado con
5 ruido. Si no, se utiliza la extensión del ancho de banda. Análogamente, se puede monitorizar la proporción de agujeros espectrales en las bandas de frecuencia. En otras palabras, debe encontrarse una banda de frecuencia de transición, la cual es una banda de la frecuencia más alta en la cual una proporción de agujeros espectrales es menor que un primer umbral.
10 Existen también criterios alternativos para seleccionar la banda de frecuencia de transición. Una posibilidad es dejar que el propio umbral dependa de la frecuencia. De tal manera, una cierta proporción de agujeros espectrales puede ser aceptada en las partes de alta frecuencia para utilizar todavía técnicas de expansión del ancho de banda, pero no en las partes de baja frecuencia. Cualquier experto en la materia se da cuenta de que los detalles en la selección de criterios apropiados pueden ser variados de muchas maneras, por ejemplo, siendo dependientes de otras
15 propiedades relativas a la señal o de otra información lateral.
En una realización, la frecuencia de transición se hace dependiente de, y preferiblemente igual a, un límite de frecuencia superior de la banda de frecuencia de transición. No obstante, existen también varias alternativas. Una alternativa es buscar el coeficiente espectral o grupo codificado en frecuencia más alto y establecer la frecuencia de
20 transición en el lado de alta frecuencia de ese grupo.
El algoritmo de la realización descrita anteriormente puede ser también descrito con el siguiente pseudo código:
25 Se prefiere que la frecuencia de transición no varíe demasiado entre tramas consecutivas. Cambios demasiado grandes pueden ser percibidos como molestos. Por lo tanto, en una realización de ejemplo, la frecuencia de transición es también dependiente de una frecuencia de transición usada previamente. Sería posible, por ejemplo, prohibir que la frecuencia de transición cambie más de una cantidad predeterminada absoluta o relativa entre dos tramas consecutivas. Alternativamente, una frecuencia de transición provisional podría ser introducida como un valor
30 en un filtro junto con frecuencias de transición previas, proporcionando una frecuencia de transición modificada que tiene un comportamiento de cambio más suave. La frecuencia de transición dependerá entonces de más de una frecuencia de transición previa.
Estas rutinas son típicamente llevadas a cabo en los circuitos de determinación de transición, es decir,
35 preferiblemente en la sección de cuantificación y de codificación del codificador y del descodificador, respectivamente.
La FIGURA 6 es un diagrama de flujo que ilustra etapas de una realización de un método de acuerdo con la presente invención. Un método para la recuperación del espectro en la descodificación espectral de una señal de 40 audio se inicia en la etapa 200. En la etapa 210, se obtiene un conjunto inicial de coeficientes espectrales que representan a la señal de audio. En la etapa 212, se determina una frecuencia de transición. La frecuencia de transición es adaptada al contenido espectral de la señal de audio. El rellenado con ruido de agujeros espectrales en el conjunto inicial de coeficientes espectrales por debajo de la frecuencia de transición se lleva a cabo en la etapa 214 y la extensión del ancho de banda del conjunto inicial de coeficientes espectrales por encima de la frecuencia de
45 transición es llevado a cabo en la etapa 216. El proceso finaliza en la etapa 249.
Análogamente, la FIGURA 7 es un diagrama de flujo que ilustra una etapa de una realización de otro método de acuerdo con la presente invención. Un método para su uso en la codificación espectral de una señal de audio se inicia en la etapa 200. En la etapa 212, se determina una frecuencia de transición. La frecuencia de transición para un conjunto inicial de coeficientes espectrales que representan a la señal de audio es adaptada a un contenido espectral de la señal de audio. La frecuencia de transición que define una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda.
La presente invención adquiere un número de ventajas mediante la definición adaptativa de la frecuencia de transición de acuerdo con el esquema de codificación utilizado. La frecuencia de transición adaptada permite el uso eficiente de un rellenado de espectro combinado utilizando tanto rellenado con ruido como extensión del ancho de banda. Cualquier códec de conversación y/o de audio utilizando este método es capaz de proporcionar una señal de audio de alta calidad y ancho de banda completo con menos aberraciones molestas. El método es flexible en el sentido de que puede ser combinado con cualquier clase de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrico, etc.).
Las realizaciones descritas anteriormente deben ser entendidas como unos pocos ejemplos ilustrativos de la presente invención. Los expertos en la materia deben entender que pueden realizarse varias modificaciones, combinaciones y cambios sin separarse del alcance de la presente invención. En particular, diferentes soluciones parciales en las diferentes realizaciones pueden ser combinadas en otras configuraciones, donde sea técnicamente posible. El alcance de la presente invención está, no obstante, definido por las reivindicaciones adjuntas.
REFERENCIAS
[1] 3GPP TS 26.404 V6.0.0 (2004-09), “Enhanced aacPlus general audio codec – encoder SBR part (Versión 6)”, 2004.
[2] J. D. Johnston, “Estimation of Perceptual Entropy Using Noise Masking Criteria”, Proc. ICASSP, pp. 2524-2527, Mayo de 1988.

Claims (15)

  1. REIVINDICACIONES
    1.
    Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:
    obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft); rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
  2. 2.
    Método de acuerdo con la reivindicación 1, en el que la citada etapa de determinación de la citada frecuencia de transición (ft) a su vez comprende las etapas de:
    dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74); y seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74).
  3. 3.
    Método de acuerdo con la reivindicación 2, en el que las citadas bandas de frecuencia (74) tienen un ancho de frecuencia constante.
  4. 4.
    El método de acuerdo con la reivindicación 2, en el que al menos dos de las citadas bandas de frecuencia (74) tienen diferentes anchos de frecuencia.
  5. 5.
    Método de acuerdo con cualquiera de las reivindicaciones 2 a 4, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende:
    encontrar una banda de frecuencia de transición, siendo una banda de frecuencia más alta en la cual la citada proporción es menor que un primer umbral.
  6. 6.
    Método de acuerdo con la reivindicación 5, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende también:
    establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición.
  7. 7.
    Método de acuerdo con la reivindicación 5 ó 6, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de una frecuencia de transición previamente utilizada.
  8. 8.
    Método de acuerdo con la reivindicación 7, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de más de una frecuencia de transición utilizada previamente.
  9. 9.
    Método de acuerdo con la reivindicación 7 u 8, en el que la citada frecuencia de transición (ft) está prohibido que cambie más de una cantidad absoluta o relativa predeterminada entre dos tramas consecutivas.
  10. 10.
    Método para su uso para la codificación espectral de una señal de audio, que comprende:
    determinar (212) una frecuencia de transición (ft) para un conjunto (24; 42) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
  11. 11.
    Descodificador (40) para la descodificación espectral de una señal de audio, que comprende:
    entrada para obtener un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;
    circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft); un rellenador con ruido (50) para el rellenado con ruido de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y un extensor de ancho de banda (55) dispuesto para extender el ancho de banda del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determinación de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
  12. 12. Descodificador de acuerdo con la reivindicación 11, en el que los citados circuitos de determinación de transición
    (60) están también dispuestos para dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y para seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74).
  13. 13. Descodificador de acuerdo con la reivindicación 12, en el que los citados circuitos de determinación de transición
    (60) están también dispuestos para encontrar una banda de frecuencia de transición, siendo una banda de la frecuencia más alta en la cual la citada proporción es menor que un primer umbral.
  14. 14. Descodificador de acuerdo con la reivindicación 13, en el que los citados circuitos de determinación de transición
    (60) están también dispuestos para establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición.
  15. 15. Codificador (20) para la codificación espectral de una señal de audio, que comprende:
    circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) para un conjunto (24) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, previsto para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determina de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
ES08828148T 2007-08-27 2008-08-26 Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda Active ES2403410T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US96813407P 2007-08-27 2007-08-27
US968134P 2007-08-27
PCT/SE2008/050969 WO2009029037A1 (en) 2007-08-27 2008-08-26 Adaptive transition frequency between noise fill and bandwidth extension

Publications (1)

Publication Number Publication Date
ES2403410T3 true ES2403410T3 (es) 2013-05-17

Family

ID=40387561

Family Applications (2)

Application Number Title Priority Date Filing Date
ES08828148T Active ES2403410T3 (es) 2007-08-27 2008-08-26 Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
ES12196913.3T Active ES2526333T3 (es) 2007-08-27 2008-08-26 Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES12196913.3T Active ES2526333T3 (es) 2007-08-27 2008-08-26 Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda

Country Status (12)

Country Link
US (5) US9269372B2 (es)
EP (2) EP2186086B1 (es)
JP (2) JP5183741B2 (es)
CN (1) CN101939782B (es)
BR (1) BRPI0815972B1 (es)
DK (1) DK2571024T3 (es)
ES (2) ES2403410T3 (es)
HK (1) HK1143239A1 (es)
MX (1) MX2010001394A (es)
PL (1) PL2186086T3 (es)
PT (1) PT2571024E (es)
WO (1) WO2009029037A1 (es)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2186089T3 (en) * 2007-08-27 2019-01-07 Ericsson Telefon Ab L M Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes
ES2403410T3 (es) 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
WO2010003556A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN102822890A (zh) * 2010-03-30 2012-12-12 松下电器产业株式会社 音响装置
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
PL2614586T3 (pl) * 2010-09-10 2017-05-31 Dts, Inc. Dynamiczna kompensacja sygnałów audio dla poprawy postrzeganych braków balansu spektralnego
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
WO2012122303A1 (en) 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2013002623A2 (ko) * 2011-06-30 2013-01-03 삼성전자 주식회사 대역폭 확장신호 생성장치 및 방법
US8731949B2 (en) 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
JP5416173B2 (ja) * 2011-07-07 2014-02-12 中興通訊股▲ふん▼有限公司 周波数帯コピー方法、装置及びオーディオ復号化方法、システム
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN106409299B (zh) * 2012-03-29 2019-11-05 华为技术有限公司 信号编码和解码的方法和设备
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9633662B2 (en) * 2012-09-13 2017-04-25 Lg Electronics Inc. Frame loss recovering method, and audio decoding method and device using same
CN103778918B (zh) * 2012-10-26 2016-09-07 华为技术有限公司 音频信号的比特分配的方法和装置
CN103854653B (zh) 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
CN106847297B (zh) 2013-01-29 2020-07-07 华为技术有限公司 高频带信号的预测方法、编/解码设备
CN103971694B (zh) 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
CN116741186A (zh) * 2013-04-05 2023-09-12 杜比国际公司 立体声音频编码器和解码器
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
BR112016009563B1 (pt) * 2013-10-31 2021-12-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência
BR112016014476B1 (pt) 2013-12-27 2021-11-23 Sony Corporation Aparelho e método de decodificação, e, meio de armazenamento legível por computador
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3427256B1 (en) * 2016-03-07 2020-04-08 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Hybrid concealment techniques: combination of frequency and time domain packet loss concealment in audio codecs
JP6734394B2 (ja) * 2016-04-12 2020-08-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
CN110199568B (zh) 2017-03-18 2024-03-15 华为技术有限公司 连接恢复方法、接入和移动性管理功能实体及用户设备
EP3382702A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CN116157860A (zh) * 2021-09-22 2023-05-23 京东方科技集团股份有限公司 音频调节方法、装置、设备及存储介质
WO2024050673A1 (zh) * 2022-09-05 2024-03-14 北京小米移动软件有限公司 一种音频信号频带扩展方法、装置、设备及存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
WO2002091363A1 (en) * 2001-05-08 2002-11-14 Koninklijke Philips Electronics N.V. Audio coding
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
EP1351401B1 (en) * 2001-07-13 2009-01-14 Panasonic Corporation Audio signal decoding device and audio signal encoding device
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
KR100935961B1 (ko) * 2001-11-14 2010-01-08 파나소닉 주식회사 부호화 장치 및 복호화 장치
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
JP2004134900A (ja) * 2002-10-09 2004-04-30 Matsushita Electric Ind Co Ltd 符号化信号復号化装置および復号化方法
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US7548852B2 (en) * 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP2006087018A (ja) * 2004-09-17 2006-03-30 Matsushita Electric Ind Co Ltd 音響処理装置
WO2006033058A1 (en) * 2004-09-23 2006-03-30 Koninklijke Philips Electronics N.V. A system and a method of processing audio data, a program element and a computer-readable medium
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
WO2007121778A1 (en) * 2006-04-24 2007-11-01 Nero Ag Advanced audio coding apparatus
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US20080109215A1 (en) * 2006-06-26 2008-05-08 Chi-Min Liu High frequency reconstruction by linear extrapolation
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
MX2010001763A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
ES2403410T3 (es) * 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
DK2186089T3 (en) * 2007-08-27 2019-01-07 Ericsson Telefon Ab L M Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes
CA2697920C (en) * 2007-08-27 2018-01-02 Telefonaktiebolaget L M Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof

Also Published As

Publication number Publication date
DK2571024T3 (en) 2015-01-05
CN101939782B (zh) 2012-12-05
WO2009029037A1 (en) 2009-03-05
JP5183741B2 (ja) 2013-04-17
PT2571024E (pt) 2014-12-23
CN101939782A (zh) 2011-01-05
BRPI0815972B1 (pt) 2020-02-04
EP2571024A1 (en) 2013-03-20
BRPI0815972A8 (pt) 2017-11-14
MX2010001394A (es) 2010-03-10
EP2186086A4 (en) 2012-01-25
US11990147B2 (en) 2024-05-21
HK1143239A1 (en) 2010-12-24
PL2186086T3 (pl) 2013-07-31
US20160086614A1 (en) 2016-03-24
US9269372B2 (en) 2016-02-23
EP2571024B1 (en) 2014-10-22
US20110264454A1 (en) 2011-10-27
ES2526333T3 (es) 2015-01-09
EP2186086B1 (en) 2013-01-23
JP2013117730A (ja) 2013-06-13
JP5458189B2 (ja) 2014-04-02
US9711154B2 (en) 2017-07-18
US20170301358A1 (en) 2017-10-19
US10199049B2 (en) 2019-02-05
US10878829B2 (en) 2020-12-29
BRPI0815972A2 (pt) 2015-09-29
EP2186086A1 (en) 2010-05-19
JP2010538318A (ja) 2010-12-09
US20210110836A1 (en) 2021-04-15
US20190122680A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
ES2403410T3 (es) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
ES2396481T3 (es) Método y aparato para codificación selectiva de señales en base al rendimiento del codificador de núcleo
ES2858423T3 (es) Método y dispositivo para el llenado de huecos espectrales
ES2312142T3 (es) Aparato avanzado para codificar datos de audio digitales.
ES2374640T3 (es) Rellenador de ruido, calculador de parámetro de relleno de ruido, método para proporcionar un parámetro de relleno de ruido, método para proporcionar una representación espectral rellenada con ruido de una señal de audio, programa informático correspondiente y señal de audio codificada.
ES2434251T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
KR101180202B1 (ko) 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
KR100952693B1 (ko) 멀티채널 디지털 오디오 코딩을 위한 장치 및 방법
CN100546233C (zh) 用于支持多声道音频扩展的方法和设备
ES2628127T3 (es) Cuantificador avanzado
KR20110076982A (ko) 오디오 디코더, 오디오 인코더, 오디오 신호를 디코딩하는 방법, 오디오 신호를 인코딩하는 방법, 컴퓨터 프로그램 및 오디오 신호
ES2703873T3 (es) Codificación/descodificación de la transformada de señales armónicas de audio
ATE320651T1 (de) Kodieren eines audiosignals
CN101836252A (zh) 用于在音频代码化系统中生成增强层的方法和装置
JP2011525636A (ja) 改善されたオーディオ符号化のマルチモード方式
JP7279160B2 (ja) サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
JP3692959B2 (ja) 電子透かし情報埋め込み装置
RU2024106737A (ru) Способ и система для генерирования битового потока