ES2403410T3 - Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda - Google Patents
Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda Download PDFInfo
- Publication number
- ES2403410T3 ES2403410T3 ES08828148T ES08828148T ES2403410T3 ES 2403410 T3 ES2403410 T3 ES 2403410T3 ES 08828148 T ES08828148 T ES 08828148T ES 08828148 T ES08828148 T ES 08828148T ES 2403410 T3 ES2403410 T3 ES 2403410T3
- Authority
- ES
- Spain
- Prior art keywords
- frequency
- spectral
- transition
- transition frequency
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 title claims abstract description 112
- 230000003044 adaptive effect Effects 0.000 title description 4
- 230000003595 spectral effect Effects 0.000 claims abstract description 145
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 7
- 238000011084 recovery Methods 0.000 claims abstract description 3
- 239000000945 filler Substances 0.000 claims description 7
- 239000004606 Fillers/Extenders Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 8
- 230000004075 alteration Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de: obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft); rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
Description
Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.
CAMPO TÉCNICO La presente invención se refiere en general a métodos y dispositivos para la codificación y la descodificación de señales de audio, y en particular a métodos y dispositivos para el rellenado del espectro.
ANTECEDENTES Cuando las señales van a ser almacenadas y/o transmitidas, un planteamiento estándar actual es codificar las señales de audio en una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o de transmisión, un deseo general es reducir el tamaño de la representación digital necesario para permitir la reconstrucción de las señales de audio con suficiente calidad. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación real.
Los codificadores de audio basados en transformada comprimen las señales de audio cuantificando los coeficientes de transformación. Para permitir bajas tasas de bits, los cuantificadores podrían concentrar los bits disponibles en
los coeficientes más energéticos y perceptualmente relevantes y transmitir sólo esos, dejando “agujeros espectrales”
de coeficientes no cuantificados en el espectro de frecuencia.
La llamada tecnología de SBR (Replicación de Banda Espectral – Spectral Band Replication, en inglés), véase por ejemplo el TS 26.404 V6.0.0 (2004-09) del 3GPP, “Enhanced aacPlus general audio codec – encoder SBR part (versión 6)”, 2004 [1], cierra el hueco entre la señal de banda limitada de un codificador perceptual convencional y el ancho de banda audible de aproximadamente 15 kHz. La idea general tras la SBR es recrear el contenido de alta frecuencia faltante de una señal decodificada de una manera perceptualmente precisa. Las frecuencias por encima de 15 kHz son menos importantes desde un punto de vista psicoacústico, pero pueden ser también reconstruidas. No obstante, la SBR no puede ser utilizada como un códec autónomo. Siempre opera en conjunción con un códec de forma de onda convencional, un llamado códec de núcleo. El códec de núcleo es responsable de transmitir la parte inferior del espectro original mientras que el descodificador de SBR, que es principalmente un post-proceso al descodificador de forma de onda convencional, reconstruye el intervalo de frecuencia no transmitido. Los valores espectrales de la banda ancha no son transmitidos directamente como en los códecs convencionales. El sistema combinado ofrece una ganancia de codificación superior a la ganancia del códec de núcleo solo.
La metodología de SBR se basa en la definición de una frecuencia de transición fija entre una banda baja, bajas frecuencias perceptualmente relevantes codificadas, y una banda alta, altas frecuencias menos relevantes no codificadas. No obstante, en la práctica, esta frecuencia de transición se basa en el contenido de audio de la señaloriginal. En otras palabras, de una señal a otra, la frecuencia de transición apropiada puede variar mucho. Éste es por ejemplo el caso cuando se comparan señales de conversación limpia y de música de banda completa.
Los “agujeros espectrales” del espectro descodificado pueden dividirse en dos tipos. El primero es pequeños agujeros a bajas frecuencias debido al efecto de enmascaramiento instantáneo, véase por ejemplo “Estimation of Perceptual Entropy Using Noise Masking Criteria”, Proc. ICASSP, pp. 2524-2527, Mayo de 1988, de J.D. Johnston [2]. El segundo es agujeros más grandes a partir de la saturación por el umbral absoluto de audición y la adición de enmascaramiento [2]. La SBR afecta principalmente al segundo tipo.
Además, un códec de audio típico basado en tal método que se dirige a rellenar el “agujero espectral”, es decir, coeficientes no codificados, para las altas frecuencias, es decir, el segundo tipo de “agujeros espectrales”, podría preferiblemente rellenar los agujeros espectrales sobre el espectro completo. Verdaderamente, incluso si un códec de SBR es capaz de proporcionar una señal de audio de ancho de banda completo, las altas frecuencias reconstruidas no enmascararán las molestas aberraciones introducidas por la descodificación, es decir, la cuantificación de la banda baja, es decir, las frecuencias bajas perceptualmente relevantes.
El documento WO 02/41302 A1 describe la adaptación de la frecuencia de transición de acuerdo con las características de la señal de entrada.
COMPENDIO Un objeto general de la presente invención es proporcionar métodos y dispositivos para permitir una supresión eficiente de las aberraciones perceptuales provocadas por agujeros espectrales sobre una señal de audio de banda completa.
Los objetos anteriores se logran mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas.
La presente invención tiene varias ventajas. Una ventaja es que un uso de la frecuencia de transición permite la utilización de un rellenado combinado del espectro utilizando tanto rellenado con ruido como extensión del ancho de banda. Además, la frecuencia de transición se define adaptativamente, por ejemplo, de acuerdo con el esquema de codificación utilizado, lo que hace al rellenado del espectro dependiente por ejemplo de la resolución de la frecuencia. Cualquier códec de conversación y/o de audio que utilice este método es capaz de proporcionar una alta calidad, es decir, con menos aberraciones molestas, y una señal de audio de ancho de banda completo. El método es flexible en el sentido de que puede ser combinado con cualquier tipo de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrico, etc.).
BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención, junto con otros objetos y ventajas de la misma, puede comprenderse haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los cuales:
la FIGURA 1 es un esquema de bloques esquemático de un sistema de códec; la FIGURA 2 es un esquema de bloques esquemático de una realización de una realización de un codificador de señal de audio de acuerdo con la presente invención; la FIGURA 3 es una ilustración esquemática de coeficientes espectrales, grupos de los mismos y bandas de frecuencia; la FIGURA 4 es un esquema de bloques esquemático de una realización de una realización de un descodificador de señal de audio de acuerdo con la presente invención; las FIGURAS 5A-C son ilustraciones de realizaciones de principios para encontrar una frecuencia de transición; la FIGURA 6 es un diagrama de flujo de etapas de una realización de un método de acuerdo con la presente invención; y la FIGURA 7 es un diagrama de flujo de una etapa de una realización de un método de manejo de señal de acuerdo con la presente invención.
DESCRIPCIÓN DETALLADA
En todos los dibujos, los mismos números de referencia se utilizan para elementos similares o correspondientes.
Una realización de un sistema de códec general para señales de audio se ilustra esquemáticamente en la FIGURA
1. Una fuente de audio 10 produce una señal de audio 15. La señal de audio 15 es manejada en un codificador 20, el cual produce un flujo 25 binario que comprende datos que representan a la señal de audio 15. El flujo binario 25 puede ser transmitido, como por ejemplo, en el caso de la comunicación multimedia, mediante una disposición de transmisión y/o de almacenamiento 30. La disposición de transmisión y/o de almacenamiento 30 opcionalmente también puede comprender alguna capacidad de almacenamiento. El flujo binario 25 puede también ser almacenado en la disposición de transmisión y/o de almacenamiento 30, sólo introduciendo un retardo de tiempo en la utilización del flujo binario. La disposición de transmisión y/o de almacenamiento 30 es así una disposición que introduce al menos uno de un reposicionamiento en el espacio o retardo en el tiempo del flujo binario 25. Cuando se está utilizando, el flujo binario 25 es manejado en un descodificador 40, que produce una salida de audio 35 de los datos comprendidos en el flujo binario. Típicamente, la salida de audio 35 debería recoger la señal de audio 15 original lo mejor posible bajo ciertas restricciones.
En muchas aplicaciones en tiempo real, el retardo en el tiempo entre la producción de la señal de audio 15 original y la salida de audio 35 producida típicamente no está permitido que exceda un cierto tiempo. Si los recursos de transmisión en el mismo tiempo son limitados, la tasa de bits disponible es también típicamente baja. Con el fin de utilizar la tasa de bits disponible de una mejor manera posible, se ha desarrollado la codificación de audio perceptual. La codificación de audio perceptual, por lo tanto, se ha convertido actualmente en una parte importante para muchos servicios de multimedia. El principio básico es convertir la señal de audio en coeficientes espectrales en un dominio de la frecuencia y utilizar un modelo perceptual para determinar un enmascaramiento dependiente de la frecuencia y del tiempo de los coeficientes espectrales.
La FIGURA 2 ilustra una realización de un codificador de audio 20 de acuerdo con la presente invención. En esta realización particular, el codificador de audio 20 perceptual es un codificador basado en un transformador perceptual
o en un banco de filtros perceptual. Se recibe una fuente de audio 15, que comprende tramas de señales de audio x[n].
En un codificador espectral típico, un convertidor 21 está dispuesto para convertir la señal de audio 15 en el dominio del tiempo en un conjunto 24 de coeficientes espectrales Xb[n] de un dominio de frecuencia. En un codificador de transformada típico, la conversión puede, por ejemplo, ser llevada a cabo mediante una Transformada de Fourier Discreta (DFT – Discrete Fourier Transform, en inglés), una Transformada del Coseno Discreta (DCT – Discrete Cosine Transform, en inglés) o una Transformada del Coseno Discreta Modificada (MDCT – Modified Discrete Cosine Transform, en inglés). El convertidor 21 puede por ello típicamente estar constituido por un transformador espectral. Los detalles de la actual transformación no son de particular importancia para las ideas básicas de la presente invención y por lo tanto no se explicarán más.
El conjunto 24 de coeficientes espectrales, es decir, se proporciona una representación de frecuencia de la señal de audio de entrada a una sección de cuantificación y codificación 28, en la que los coeficientes espectrales son cuantificados y codificados. Típicamente, la cuantificación está operando para concentrar los bits disponibles en los coeficientes más energéticos y perceptualmente más relevantes. Esto puede ser llevado a cabo utilizando, por ejemplo, diferentes tipos de umbrales de enmascaramiento o reducciones del ancho de banda. El resultado será
típicamente “agujeros espectrales” de coeficientes no cuantificados en el espectro de la frecuencia. En otras
palabras, algunos de los coeficientes se dejan fuera a propósito, puesto que son perceptualmente menos importantes, para no ocupar recursos de transmisión que se necesitan más para otros propósitos. Tales agujeros espectrales pueden entonces mediante diferentes estrategias de reconstrucción ser corregidos o reconstruidos en el lado del descodificador. Típicamente, aparecen agujeros espectrales de dos clases. La primera clase comprende agujeros espectrales, solos o unos pocos vecinos que ocurren en diferentes lugares en la región de frecuencia más baja. El segundo tipo es un grupo más o menos continuo de agujeros espectrales en el extremo de la alta frecuencia del espectro.
De acuerdo con la presente invención, resulta favorable tratar estas dos clases distintas de agujeros espectrales de diferentes maneras, con el fin de lograr un rellenado del espectro lo más eficiente posible. Un parámetro que se debe determinar es entonces una frecuencia, a la cual se encuentran los diferentes planteamientos de rellenado, una llamada frecuencia de transición. Puesto que la distribución de agujeros espectrales difiere entre las diferentes clases de señales de audio, la elección óptima de frecuencia de transición también difiere. De acuerdo con la presente invención, la frecuencia de transición está adaptada a un contenido espectral de la señal de audio. Típicamente, la frecuencia de transición está adaptada a un contenido espectral de una trama presente de la señal de audio, no obstante, la frecuencia de transición puede también depender del contenido espectral de las tramas previas de la señal de audio, y si no hay ningún requisito de retardo serio, la frecuencia de transición puede también depender del contenido espectral de tramas futuras de la señal de audio. Esta adaptación puede ser llevada a cabo en el lado del codificador mediante unos circuitos de determinación de transición 60, típicamente integrados con la sección de cuantificación y codificación 28. No obstante, en realizaciones alternativas, los circuitos de determinación de transición 60 pueden ser proporcionados como una sección de operación separadamente, por lo que sólo un parámetro que representa la frecuencia de transición es proporcionado a las diferentes funcionalidades del codificador 20. La frecuencia de transición puede ser utilizada en el lado del codificador 20 por ejemplo proporcionando una codificación de envoltura para los intervalos de frecuencia en los diferentes lados de la frecuencia de transición.
La sección de cuantificación y de codificación 28 está también dispuesta para empaquetar los coeficientes espectrales codificados junto con la información lateral adicional en una corriente de bits de acuerdo con el estándar de transmisión o de almacenamiento que va a ser utilizado. Un flujo binario 25 que tiene datos que representan al conjunto de coeficientes espectrales es por ello extraído de la sección de cuantificación y codificación 28. Puesto que la frecuencia de transición puede obtenerse directamente a partir del contenido espectral de la señal de audio, la misma derivación puede ser llevada a cabo en ambos lados de la interfaz de transmisión, es decir, tanto en el codificador como en el descodificador. Esto significa que el propio valor de la frecuencia de transición no necesariamente tiene que ser transmitido entre la información lateral adicional. No obstante, por supuesto es también posible hacer eso si hay una capacidad de tasa de bits disponible.
En una realización particular, se utiliza una transformada MDCT. Después de que se ha realizado la ponderación mediante un modelo psico-acústico, los coeficientes de la MDCT son cuantificados utilizando un vector de cuantificación. En el vector de cuantificación, VQ (Quantization Vector, en inglés), los coeficientes espectrales son divididos en pequeños grupos. Cada grupo de coeficientes puede verse como un único vector, y cada vector es cuantificado individualmente.
Por ejemplo, debido a las elevadas restricciones en la tasa de bits, el cuantificador puede centrar los bits disponibles en los grupos más energéticos y perceptualmente más relevantes, resultando en que algunos grupos son puestos a cero. Estos grupos forman agujeros espectrales en el espectro cuantificado. Esto se ilustra en la FIGURA 3. En la presente realización, los grupos 70 comprenden el mismo número de coeficientes espectrales 71, en este caso cuatro. No obstante, en realizaciones alternativas pueden ser también posibles grupos que tienen diferente número de coeficientes espectrales. En una realización particular, todos los grupos comprenden sólo un coeficiente espectral cada uno, es decir, el grupo es el mismo que el propio coeficiente espectral. Los grupos cuantificados 72 se ilustran en la figura mediante rectángulos sin relleno, mientras que los grupos puestos a cero 73 se ilustran como rectángulos negros. Son típicamente sólo los grupos cuantificados 72 los que son transmitidos a cualquier usuario final.
Los grupos 70 de coeficientes se dividen a su vez en diferentes bandas de frecuencia 74. Esta división es preferiblemente llevada a cabo de acuerdo con algún criterio psico-acústico. Los grupos que tienen esencialmente similares propiedades psico-acústicas pueden por ello ser tratados colectivamente. El número de miembros de cada banda de frecuencia 74, es decir, el número de grupos 70 asociados con las bandas de frecuencia 74 puede por lo tanto diferir. Si grandes porciones de frecuencia tienen similares propiedades, una banda de frecuencia que cubre estas frecuencias puede tener un gran intervalo de frecuencia. Si las propiedades psico-acústicas cambian rápidamente con las frecuencias, esto por el contrario requiere bandas de frecuencia de un pequeño intervalo de frecuencia. Las rutinas para el rellenado del espectro pueden preferiblemente depender de la banda de frecuencia que va a ser rellenada como se explica con detalle a continuación.
En la etapa de descodificación, la operación inversa es básicamente lograda. En la FIGURA 4, se ilustra una realización de un descodificador 40 de audio de acuerdo con la presente invención. Se recibe un flujo binario 25, que tiene propiedades causadas por el codificador descrito anteriormente en esta memoria. La descuantificación y la descodificación del flujo binario 25 recibido, por ejemplo, una corriente de bits es llevada a cabo en un descodificador 41 de coeficiente espectral. El descodificador 41 de coeficiente espectral está dispuesto para descodificar coeficientes espectrales recuperados del flujo binario en los coeficientes espectrales descodificados XQ[n] de un conjunto inicial de coeficientes espectrales 42, posiblemente agrupados en grupos de frecuencias XbQ[n]. El conjunto inicial de coeficientes espectrales 42 preferiblemente agrupa al conjunto de coeficientes espectrales proporcionados por el convertidor del lado del codificador, posiblemente tras un post-procesamiento tal como, por ejemplo, enmascaramiento de umbrales o reducciones del ancho de banda.
Como se explica también a continuación, la aplicación de enmascarar umbrales o de reducciones del ancho de banda en el codificador típicamente resulta en que el conjunto de coeficientes espectrales 42 está incompleto en el
sentido de que típicamente comprende los llamados “agujeros espectrales”. Los “agujeros espectrales”
corresponden a coeficientes espectrales que no son recibidos en el flujo binario. En otras palabras, los agujeros espectrales son coeficientes espectrales no definidos o no codificados XQ[n] o coeficientes espectrales automáticamente puestos a un valor predeterminado, típicamente cero, por el descodificador espectral 41. Para evitar aberraciones audibles, estos coeficientes tienen que ser reemplazados por estimaciones (rellenadas) en el descodificador.
Los agujeros espectrales a menudo vienen en dos tipos. Los agujeros espectrales pequeños están típicamente en las bajas frecuencias, y uno o unos pocos agujeros espectrales grandes típicamente ocurren en las altas frecuencias.
Para minimizar las aberraciones en la señal de audio descodificada, el descodificador “rellena” el espectro
reemplazando los agujeros espectrales en el espectro con estimaciones de los coeficientes. Estas estimaciones pueden basarse en información lateral transmitida por el descodificador y/o pueden depender de la propia señal. Ejemplos de tal información lateral útil podrían ser la envoltura de potencia del espectro y la tonalidad, es decir, medida de planicidad espectral, de los coeficientes faltantes.
Pueden utilizarse dos métodos diferentes para rellenar distintas clases de agujeros espectrales. El “rellenado con ruido” funciona bien para agujeros espectrales en las frecuencias bajas, mientras que la “extensión del ancho de banda” es más adecuada a frecuencias altas. La presente invención describe un método para decidir dónde deben
utilizarse el rellenado con ruido y la extensión del ancho de banda, respectivamente.
La presente invención se basa en la definición de una frecuencia de transición entre las partes relevantes baja y alta del espectro. Basándose en esta información, un algoritmo de codificación típico que se basa en un procedimiento de “rellenado con ruido” de alta calidad será capaz de reducir las aberraciones de codificación que ocurren para bajas tasas y también de regenerar una señal de audio de ancho de banda completo incluso a bajas tasas y con un esquema de baja complejidad basado en la “extensión del ancho de banda”. Esto se explicará con más detalle a continuación.
El conjunto inicial de coeficientes espectrales 42 del descodificador de coeficiente espectral 41, que comprende típicamente una cierta cantidad de agujeros espectrales, se proporciona a unos circuitos de determinación de transición 60. Los circuitos de determinación de transición 60 están dispuestos para determinar una frecuencia de transición ft.
El conjunto inicial de coeficientes espectrales 42 del descodificador de coeficiente espectral 41 es proporcionado también a un rellenador de espectro 43. El rellenador de espectro 43 está dispuesto para llevar a cabo un rellenado del espectro en el conjunto inicial de coeficientes espectrales 42, creando un conjunto 44 completo de coeficientes espectrales reconstruidos Xb’[n]. El conjunto 44 de coeficientes espectrales reconstruidos tiene típicamente todos los coeficientes espectrales dentro de un cierto intervalo de frecuencia definido.
El rellenador de espectro 43 a su vez comprende un filtro de ruido 50. El filtro de ruido 50 está dispuesto para proporcionar un proceso para el rellenado con ruido de los agujeros espectrales, preferiblemente en la región de la frecuencia baja, es decir, por debajo de la frecuencia de transición ft. Un valor es por ello asignado a los coeficientes
espectrales en el conjunto inicial de coeficientes espectrales por debajo de la frecuencia de transición que “falta”,
como resultado de no estar incluida en la corriente de bits codificados recibida. En este sentido, una salida 65 de los circuitos de determinación de transición 60 está conectada al filtro de ruido 50, proporcionando información asociada con la frecuencia de transición ft.
El rellenador de espectro 43 comprende también un extensor del ancho de banda 55, dispuesto para extender el ancho de banda del conjunto inicial de coeficientes espectrales por encima de la frecuencia de transición con el fin de producir el conjunto 44 de coeficientes espectrales reconstruidos. Por lo tanto, la salida 65 de los circuitos de determinación de transición 60 está también conectada al extensor del ancho de banda 55.
Como se ha mencionado anteriormente, el resultado del rellenador de espectro 43 es un conjunto 44 completo de coeficientes espectrales reconstruidos Xb’[n], que tiene todos los coeficientes espectrales dentro de un cierto intervalo de frecuencia definido.
El conjunto 44 de coeficientes espectrales reconstruidos es proporcionado a un convertidor 45 conectado al rellenador de espectro 43. El convertidor 45 está dispuesto para convertir el conjunto 44 de coeficientes espectrales de un dominio de la frecuencia en una señal de audio 46 de un dominio del tiempo. El convertidor 45 está en la presente realización basado en un transformador perceptual, correspondiente a la técnica de transformada utilizada en el codificador 20 (FIGURA 2). En una realización particular, la señal es proporcionada de nuevo al dominio del tiempo con una transformada inversa, por ejemplo, MDCT Inversa – IMDCT o DFT inversa – IDFT, etc. En otras realizaciones puede utilizarse un banco de filtros inverso. Como en el lado del codificador, la técnica de tal convertidor 45 es conocida de la técnica anterior, y no se explicará de nuevo. Una señal de audio reconstruida perceptualmente final 34 x’[n] es proporcionada en una salida 35 para la señal de audio, posiblemente con otras etapas de tratamiento.
El códec debe decidir en qué bandas de frecuencia utilizar el rellenado con ruido y en qué bandas de frecuencia utilizar la extensión del ancho de banda. El rellenado con ruido proporciona el mejor resultado cuando la mayoría de los grupos de la banda de frecuencia para ser rellenados están cuantificados, y hay sólo agujeros espectrales menores en la banda. La extensión del ancho de banda es preferible cuando una gran parte de la señal en las frecuencias altas se deja sin cuantificar.
Un método básico sería establecer una frecuencia de transición fija entre el rellenado con ruido y la extensión del ancho de banda. Los agujeros espectrales en las bandas o grupos de frecuencia por debajo de tal frecuencia son rellenados mediante rellenado con ruido y los agujeros espectrales en grupos o bandas de frecuencia por encima de esa frecuencia son rellenados mediante extensión del ancho de banda.
Un problema con este planteamiento es, no obstante, que la frecuencia de transición óptima no es la misma para todas las señales de audio. Algunas señales tienen la mayoría de la energía concentrada en las frecuencias bajas y una gran parte de la señal podría ser sometida a extensión del ancho de banda. Otras señales tienen su energía más uniformemente distribuida sobre el espectro y estas señales pueden beneficiarse de utilizar sólo rellenado con ruido.
De acuerdo con la presente invención la frecuencia de transición es adaptativamente dependiente de una distribución de agujeros espectrales en el citado conjunto de coeficientes espectrales. Una rutina para encontrar una frecuencia de transición adecuada podría ser pasar por todas las bandas de frecuencia, empezando en la más alta (BN) hasta 1. Si no hay coeficientes cuantificados en la banda actual, será rellenada mediante extensión del ancho de banda. Si hay coeficientes cuantificados en la banda, los agujeros de esta banda así como las siguientes bandas son rellenados utilizando rellenado con ruido. Así, una frecuencia de transición es puesta en el límite superior de la primera banda de frecuencia vista desde el lado de la alta frecuencia que tiene un coeficiente cuantificado en ella. Esto se ilustra en la FIGURA 5A. Los agujeros espectrales 77 en la banda N, es decir, por encima de la frecuencia de transición ft son así rellenados con planteamientos de extensión del ancho de banda. Los agujeros espectrales 76 por debajo de la frecuencia de transición ft son, por el contrario, rellenados mediante rellenado con ruido.
Una realización alternativa se ilustra en la FIGURA 5B. Aquí la definición de la frecuencia de transición se basa directamente en los grupos 70, despreciando la división de banda de frecuencia. Aquí, la extensión del ancho de banda se utiliza para todos los grupos desde las frecuencias más altas hasta el grupo inmediatamente por encima del primer grupo cuantificado 78. Los agujeros espectrales 76 por debajo de la frecuencia de transición ft son, por el contrario, rellenados mediante rellenado con ruido.
Estos métodos son más adaptativos a la señal de audio y el cuantificador, es decir, el esquema de codificación, pero pueden experimentar problemas menores cuando la señal es cuantificada, por ejemplo de acuerdo con la FIGURA 5C. Aquí, una gran parte de las altas frecuencias de la señal es puesta a cero, y la extensión del ancho de banda preferiblemente se utilizaría desde la banda B9 a la B12. No obstante, puesto que existe un solo grupo cuantificado 79 codificado en la banda de frecuencia B11, la extensión del ancho de banda estará completamente deshabilitada por debajo de este grupo cuantificado 79 y el rellenado con ruido será utilizado en todas las bandas hasta este grupo
79.
Para evitar también este problema, se propone también otra realización, en la que la frecuencia de transición ft es seleccionada dependiendo de una proporción de agujeros espectrales en las bandas de frecuencia. Como en las realizaciones previas, el códec pasa por todas las bandas de frecuencia, empezando en la más alta hacia el 1. Para cada banda de frecuencia, el número de coeficientes espectrales o grupos codificados se cuenta. Si el número de coeficientes cuantificados o grupos dividido por el número total de coeficientes espectrales o grupos, es decir, la proporción de coeficientes espectrales codificados, de la banda de frecuencia excede un cierto umbral, los agujeros espectrales de esa banda de frecuencia y las siguientes bandas de frecuencia son rellenados con rellenado con
5 ruido. Si no, se utiliza la extensión del ancho de banda. Análogamente, se puede monitorizar la proporción de agujeros espectrales en las bandas de frecuencia. En otras palabras, debe encontrarse una banda de frecuencia de transición, la cual es una banda de la frecuencia más alta en la cual una proporción de agujeros espectrales es menor que un primer umbral.
10 Existen también criterios alternativos para seleccionar la banda de frecuencia de transición. Una posibilidad es dejar que el propio umbral dependa de la frecuencia. De tal manera, una cierta proporción de agujeros espectrales puede ser aceptada en las partes de alta frecuencia para utilizar todavía técnicas de expansión del ancho de banda, pero no en las partes de baja frecuencia. Cualquier experto en la materia se da cuenta de que los detalles en la selección de criterios apropiados pueden ser variados de muchas maneras, por ejemplo, siendo dependientes de otras
15 propiedades relativas a la señal o de otra información lateral.
En una realización, la frecuencia de transición se hace dependiente de, y preferiblemente igual a, un límite de frecuencia superior de la banda de frecuencia de transición. No obstante, existen también varias alternativas. Una alternativa es buscar el coeficiente espectral o grupo codificado en frecuencia más alto y establecer la frecuencia de
20 transición en el lado de alta frecuencia de ese grupo.
El algoritmo de la realización descrita anteriormente puede ser también descrito con el siguiente pseudo código:
25 Se prefiere que la frecuencia de transición no varíe demasiado entre tramas consecutivas. Cambios demasiado grandes pueden ser percibidos como molestos. Por lo tanto, en una realización de ejemplo, la frecuencia de transición es también dependiente de una frecuencia de transición usada previamente. Sería posible, por ejemplo, prohibir que la frecuencia de transición cambie más de una cantidad predeterminada absoluta o relativa entre dos tramas consecutivas. Alternativamente, una frecuencia de transición provisional podría ser introducida como un valor
30 en un filtro junto con frecuencias de transición previas, proporcionando una frecuencia de transición modificada que tiene un comportamiento de cambio más suave. La frecuencia de transición dependerá entonces de más de una frecuencia de transición previa.
Estas rutinas son típicamente llevadas a cabo en los circuitos de determinación de transición, es decir,
35 preferiblemente en la sección de cuantificación y de codificación del codificador y del descodificador, respectivamente.
La FIGURA 6 es un diagrama de flujo que ilustra etapas de una realización de un método de acuerdo con la presente invención. Un método para la recuperación del espectro en la descodificación espectral de una señal de 40 audio se inicia en la etapa 200. En la etapa 210, se obtiene un conjunto inicial de coeficientes espectrales que representan a la señal de audio. En la etapa 212, se determina una frecuencia de transición. La frecuencia de transición es adaptada al contenido espectral de la señal de audio. El rellenado con ruido de agujeros espectrales en el conjunto inicial de coeficientes espectrales por debajo de la frecuencia de transición se lleva a cabo en la etapa 214 y la extensión del ancho de banda del conjunto inicial de coeficientes espectrales por encima de la frecuencia de
45 transición es llevado a cabo en la etapa 216. El proceso finaliza en la etapa 249.
Análogamente, la FIGURA 7 es un diagrama de flujo que ilustra una etapa de una realización de otro método de acuerdo con la presente invención. Un método para su uso en la codificación espectral de una señal de audio se inicia en la etapa 200. En la etapa 212, se determina una frecuencia de transición. La frecuencia de transición para un conjunto inicial de coeficientes espectrales que representan a la señal de audio es adaptada a un contenido espectral de la señal de audio. La frecuencia de transición que define una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda.
La presente invención adquiere un número de ventajas mediante la definición adaptativa de la frecuencia de transición de acuerdo con el esquema de codificación utilizado. La frecuencia de transición adaptada permite el uso eficiente de un rellenado de espectro combinado utilizando tanto rellenado con ruido como extensión del ancho de banda. Cualquier códec de conversación y/o de audio utilizando este método es capaz de proporcionar una señal de audio de alta calidad y ancho de banda completo con menos aberraciones molestas. El método es flexible en el sentido de que puede ser combinado con cualquier clase de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrico, etc.).
Las realizaciones descritas anteriormente deben ser entendidas como unos pocos ejemplos ilustrativos de la presente invención. Los expertos en la materia deben entender que pueden realizarse varias modificaciones, combinaciones y cambios sin separarse del alcance de la presente invención. En particular, diferentes soluciones parciales en las diferentes realizaciones pueden ser combinadas en otras configuraciones, donde sea técnicamente posible. El alcance de la presente invención está, no obstante, definido por las reivindicaciones adjuntas.
REFERENCIAS
[1] 3GPP TS 26.404 V6.0.0 (2004-09), “Enhanced aacPlus general audio codec – encoder SBR part (Versión 6)”, 2004.
[2] J. D. Johnston, “Estimation of Perceptual Entropy Using Noise Masking Criteria”, Proc. ICASSP, pp. 2524-2527, Mayo de 1988.
Claims (15)
- REIVINDICACIONES
- 1.
- Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:
obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft); rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales. -
- 2.
- Método de acuerdo con la reivindicación 1, en el que la citada etapa de determinación de la citada frecuencia de transición (ft) a su vez comprende las etapas de:
dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74); y seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74). -
- 3.
- Método de acuerdo con la reivindicación 2, en el que las citadas bandas de frecuencia (74) tienen un ancho de frecuencia constante.
-
- 4.
- El método de acuerdo con la reivindicación 2, en el que al menos dos de las citadas bandas de frecuencia (74) tienen diferentes anchos de frecuencia.
-
- 5.
- Método de acuerdo con cualquiera de las reivindicaciones 2 a 4, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende:
encontrar una banda de frecuencia de transición, siendo una banda de frecuencia más alta en la cual la citada proporción es menor que un primer umbral. -
- 6.
- Método de acuerdo con la reivindicación 5, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende también:
establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición. -
- 7.
- Método de acuerdo con la reivindicación 5 ó 6, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de una frecuencia de transición previamente utilizada.
-
- 8.
- Método de acuerdo con la reivindicación 7, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de más de una frecuencia de transición utilizada previamente.
-
- 9.
- Método de acuerdo con la reivindicación 7 u 8, en el que la citada frecuencia de transición (ft) está prohibido que cambie más de una cantidad absoluta o relativa predeterminada entre dos tramas consecutivas.
-
- 10.
- Método para su uso para la codificación espectral de una señal de audio, que comprende:
determinar (212) una frecuencia de transición (ft) para un conjunto (24; 42) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales. -
- 11.
- Descodificador (40) para la descodificación espectral de una señal de audio, que comprende:
entrada para obtener un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft); un rellenador con ruido (50) para el rellenado con ruido de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y un extensor de ancho de banda (55) dispuesto para extender el ancho de banda del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft); estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determinación de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales. - 12. Descodificador de acuerdo con la reivindicación 11, en el que los citados circuitos de determinación de transición(60) están también dispuestos para dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y para seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74).
- 13. Descodificador de acuerdo con la reivindicación 12, en el que los citados circuitos de determinación de transición(60) están también dispuestos para encontrar una banda de frecuencia de transición, siendo una banda de la frecuencia más alta en la cual la citada proporción es menor que un primer umbral.
- 14. Descodificador de acuerdo con la reivindicación 13, en el que los citados circuitos de determinación de transición(60) están también dispuestos para establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición.
- 15. Codificador (20) para la codificación espectral de una señal de audio, que comprende:circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) para un conjunto (24) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, previsto para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determina de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US96813407P | 2007-08-27 | 2007-08-27 | |
US968134P | 2007-08-27 | ||
PCT/SE2008/050969 WO2009029037A1 (en) | 2007-08-27 | 2008-08-26 | Adaptive transition frequency between noise fill and bandwidth extension |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2403410T3 true ES2403410T3 (es) | 2013-05-17 |
Family
ID=40387561
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES08828148T Active ES2403410T3 (es) | 2007-08-27 | 2008-08-26 | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
ES12196913.3T Active ES2526333T3 (es) | 2007-08-27 | 2008-08-26 | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12196913.3T Active ES2526333T3 (es) | 2007-08-27 | 2008-08-26 | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
Country Status (12)
Country | Link |
---|---|
US (5) | US9269372B2 (es) |
EP (2) | EP2186086B1 (es) |
JP (2) | JP5183741B2 (es) |
CN (1) | CN101939782B (es) |
BR (1) | BRPI0815972B1 (es) |
DK (1) | DK2571024T3 (es) |
ES (2) | ES2403410T3 (es) |
HK (1) | HK1143239A1 (es) |
MX (1) | MX2010001394A (es) |
PL (1) | PL2186086T3 (es) |
PT (1) | PT2571024E (es) |
WO (1) | WO2009029037A1 (es) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK2186089T3 (en) * | 2007-08-27 | 2019-01-07 | Ericsson Telefon Ab L M | Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes |
ES2403410T3 (es) | 2007-08-27 | 2013-05-17 | Telefonaktiebolaget L M Ericsson (Publ) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
WO2010003556A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
CN102822890A (zh) * | 2010-03-30 | 2012-12-12 | 松下电器产业株式会社 | 音响装置 |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
PL2614586T3 (pl) * | 2010-09-10 | 2017-05-31 | Dts, Inc. | Dynamiczna kompensacja sygnałów audio dla poprawy postrzeganych braków balansu spektralnego |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US20130173275A1 (en) * | 2010-10-18 | 2013-07-04 | Panasonic Corporation | Audio encoding device and audio decoding device |
WO2012122303A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
WO2012122299A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
WO2013002623A2 (ko) * | 2011-06-30 | 2013-01-03 | 삼성전자 주식회사 | 대역폭 확장신호 생성장치 및 방법 |
US8731949B2 (en) | 2011-06-30 | 2014-05-20 | Zte Corporation | Method and system for audio encoding and decoding and method for estimating noise level |
JP5416173B2 (ja) * | 2011-07-07 | 2014-02-12 | 中興通訊股▲ふん▼有限公司 | 周波数帯コピー方法、装置及びオーディオ復号化方法、システム |
CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN106409299B (zh) * | 2012-03-29 | 2019-11-05 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US9633662B2 (en) * | 2012-09-13 | 2017-04-25 | Lg Electronics Inc. | Frame loss recovering method, and audio decoding method and device using same |
CN103778918B (zh) * | 2012-10-26 | 2016-09-07 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
CN103854653B (zh) | 2012-12-06 | 2016-12-28 | 华为技术有限公司 | 信号解码的方法和设备 |
RU2660605C2 (ru) * | 2013-01-29 | 2018-07-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция заполнения шумом |
CN106847297B (zh) | 2013-01-29 | 2020-07-07 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
CN103971694B (zh) | 2013-01-29 | 2016-12-28 | 华为技术有限公司 | 带宽扩展频带信号的预测方法、解码设备 |
ES2688134T3 (es) | 2013-04-05 | 2018-10-31 | Dolby International Ab | Codificador y decodificador de audio para codificación de forma de onda intercalada |
CN116741186A (zh) * | 2013-04-05 | 2023-09-12 | 杜比国际公司 | 立体声音频编码器和解码器 |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
US9875746B2 (en) | 2013-09-19 | 2018-01-23 | Sony Corporation | Encoding device and method, decoding device and method, and program |
BR112016009563B1 (pt) * | 2013-10-31 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência |
BR112016014476B1 (pt) | 2013-12-27 | 2021-11-23 | Sony Corporation | Aparelho e método de decodificação, e, meio de armazenamento legível por computador |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980792A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3427256B1 (en) * | 2016-03-07 | 2020-04-08 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Hybrid concealment techniques: combination of frequency and time domain packet loss concealment in audio codecs |
JP6734394B2 (ja) * | 2016-04-12 | 2020-08-05 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
CN110199568B (zh) | 2017-03-18 | 2024-03-15 | 华为技术有限公司 | 连接恢复方法、接入和移动性管理功能实体及用户设备 |
EP3382702A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
CN116157860A (zh) * | 2021-09-22 | 2023-05-23 | 京东方科技集团股份有限公司 | 音频调节方法、装置、设备及存储介质 |
WO2024050673A1 (zh) * | 2022-09-05 | 2024-03-14 | 北京小米移动软件有限公司 | 一种音频信号频带扩展方法、装置、设备及存储介质 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
US5664057A (en) * | 1993-07-07 | 1997-09-02 | Picturetel Corporation | Fixed bit rate speech encoder/decoder |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
SE522553C2 (sv) * | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
WO2002091363A1 (en) * | 2001-05-08 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Audio coding |
US6493668B1 (en) * | 2001-06-15 | 2002-12-10 | Yigal Brandman | Speech feature extraction system |
EP1351401B1 (en) * | 2001-07-13 | 2009-01-14 | Panasonic Corporation | Audio signal decoding device and audio signal encoding device |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
KR100935961B1 (ko) * | 2001-11-14 | 2010-01-08 | 파나소닉 주식회사 | 부호화 장치 및 복호화 장치 |
DE60202881T2 (de) * | 2001-11-29 | 2006-01-19 | Coding Technologies Ab | Wiederherstellung von hochfrequenzkomponenten |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
GB2388502A (en) * | 2002-05-10 | 2003-11-12 | Chris Dunn | Compression of frequency domain audio signals |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7330812B2 (en) * | 2002-10-04 | 2008-02-12 | National Research Council Of Canada | Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel |
JP2004134900A (ja) * | 2002-10-09 | 2004-04-30 | Matsushita Electric Ind Co Ltd | 符号化信号復号化装置および復号化方法 |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
US7548852B2 (en) * | 2003-06-30 | 2009-06-16 | Koninklijke Philips Electronics N.V. | Quality of decoded audio by adding noise |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP2006087018A (ja) * | 2004-09-17 | 2006-03-30 | Matsushita Electric Ind Co Ltd | 音響処理装置 |
WO2006033058A1 (en) * | 2004-09-23 | 2006-03-30 | Koninklijke Philips Electronics N.V. | A system and a method of processing audio data, a program element and a computer-readable medium |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
US7885809B2 (en) * | 2005-04-20 | 2011-02-08 | Ntt Docomo, Inc. | Quantization of speech and audio coding parameters using partial information on atypical subsequences |
KR101171098B1 (ko) * | 2005-07-22 | 2012-08-20 | 삼성전자주식회사 | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
WO2007121778A1 (en) * | 2006-04-24 | 2007-11-01 | Nero Ag | Advanced audio coding apparatus |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US20080109215A1 (en) * | 2006-06-26 | 2008-05-08 | Chi-Min Liu | High frequency reconstruction by linear extrapolation |
US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
MX2010001763A (es) * | 2007-08-27 | 2010-03-10 | Ericsson Telefon Ab L M | Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable. |
ES2403410T3 (es) * | 2007-08-27 | 2013-05-17 | Telefonaktiebolaget L M Ericsson (Publ) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
DK2186089T3 (en) * | 2007-08-27 | 2019-01-07 | Ericsson Telefon Ab L M | Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes |
CA2697920C (en) * | 2007-08-27 | 2018-01-02 | Telefonaktiebolaget L M Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
-
2008
- 2008-08-26 ES ES08828148T patent/ES2403410T3/es active Active
- 2008-08-26 EP EP08828148A patent/EP2186086B1/en active Active
- 2008-08-26 BR BRPI0815972A patent/BRPI0815972B1/pt active IP Right Grant
- 2008-08-26 MX MX2010001394A patent/MX2010001394A/es active IP Right Grant
- 2008-08-26 DK DK12196913.3T patent/DK2571024T3/en active
- 2008-08-26 CN CN200880105330XA patent/CN101939782B/zh active Active
- 2008-08-26 JP JP2010522869A patent/JP5183741B2/ja not_active Expired - Fee Related
- 2008-08-26 PL PL08828148T patent/PL2186086T3/pl unknown
- 2008-08-26 ES ES12196913.3T patent/ES2526333T3/es active Active
- 2008-08-26 PT PT121969133T patent/PT2571024E/pt unknown
- 2008-08-26 US US12/674,341 patent/US9269372B2/en not_active Expired - Fee Related
- 2008-08-26 WO PCT/SE2008/050969 patent/WO2009029037A1/en active Application Filing
- 2008-08-26 EP EP12196913.3A patent/EP2571024B1/en active Active
-
2010
- 2010-10-08 HK HK10109588.7A patent/HK1143239A1/xx unknown
-
2013
- 2013-01-15 JP JP2013004910A patent/JP5458189B2/ja active Active
-
2015
- 2015-12-01 US US14/955,645 patent/US9711154B2/en active Active
-
2017
- 2017-06-30 US US15/639,347 patent/US10199049B2/en active Active
-
2018
- 2018-12-21 US US16/230,777 patent/US10878829B2/en active Active
-
2020
- 2020-12-21 US US17/128,665 patent/US11990147B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
DK2571024T3 (en) | 2015-01-05 |
CN101939782B (zh) | 2012-12-05 |
WO2009029037A1 (en) | 2009-03-05 |
JP5183741B2 (ja) | 2013-04-17 |
PT2571024E (pt) | 2014-12-23 |
CN101939782A (zh) | 2011-01-05 |
BRPI0815972B1 (pt) | 2020-02-04 |
EP2571024A1 (en) | 2013-03-20 |
BRPI0815972A8 (pt) | 2017-11-14 |
MX2010001394A (es) | 2010-03-10 |
EP2186086A4 (en) | 2012-01-25 |
US11990147B2 (en) | 2024-05-21 |
HK1143239A1 (en) | 2010-12-24 |
PL2186086T3 (pl) | 2013-07-31 |
US20160086614A1 (en) | 2016-03-24 |
US9269372B2 (en) | 2016-02-23 |
EP2571024B1 (en) | 2014-10-22 |
US20110264454A1 (en) | 2011-10-27 |
ES2526333T3 (es) | 2015-01-09 |
EP2186086B1 (en) | 2013-01-23 |
JP2013117730A (ja) | 2013-06-13 |
JP5458189B2 (ja) | 2014-04-02 |
US9711154B2 (en) | 2017-07-18 |
US20170301358A1 (en) | 2017-10-19 |
US10199049B2 (en) | 2019-02-05 |
US10878829B2 (en) | 2020-12-29 |
BRPI0815972A2 (pt) | 2015-09-29 |
EP2186086A1 (en) | 2010-05-19 |
JP2010538318A (ja) | 2010-12-09 |
US20210110836A1 (en) | 2021-04-15 |
US20190122680A1 (en) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2403410T3 (es) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda | |
ES2396481T3 (es) | Método y aparato para codificación selectiva de señales en base al rendimiento del codificador de núcleo | |
ES2858423T3 (es) | Método y dispositivo para el llenado de huecos espectrales | |
ES2312142T3 (es) | Aparato avanzado para codificar datos de audio digitales. | |
ES2374640T3 (es) | Rellenador de ruido, calculador de parámetro de relleno de ruido, método para proporcionar un parámetro de relleno de ruido, método para proporcionar una representación espectral rellenada con ruido de una señal de audio, programa informático correspondiente y señal de audio codificada. | |
ES2434251T3 (es) | Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales | |
KR101180202B1 (ko) | 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 | |
KR100952693B1 (ko) | 멀티채널 디지털 오디오 코딩을 위한 장치 및 방법 | |
CN100546233C (zh) | 用于支持多声道音频扩展的方法和设备 | |
ES2628127T3 (es) | Cuantificador avanzado | |
KR20110076982A (ko) | 오디오 디코더, 오디오 인코더, 오디오 신호를 디코딩하는 방법, 오디오 신호를 인코딩하는 방법, 컴퓨터 프로그램 및 오디오 신호 | |
ES2703873T3 (es) | Codificación/descodificación de la transformada de señales armónicas de audio | |
ATE320651T1 (de) | Kodieren eines audiosignals | |
CN101836252A (zh) | 用于在音频代码化系统中生成增强层的方法和装置 | |
JP2011525636A (ja) | 改善されたオーディオ符号化のマルチモード方式 | |
JP7279160B2 (ja) | サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化 | |
JP3692959B2 (ja) | 電子透かし情報埋め込み装置 | |
RU2024106737A (ru) | Способ и система для генерирования битового потока |