ES2974029T3

ES2974029T3 - Dispositivo de codificación de audio y método de codificación de audio

Info

Publication number: ES2974029T3
Application number: ES19205596T
Authority: ES
Inventors: Kei Kikuiri; Atsushi Yamaguchi
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-03-24
Filing date: 2015-03-20
Publication date: 2024-06-25
Anticipated expiration: 2035-03-20
Also published as: TW201603007A; CN107767876A; KR101906524B1; EP3125243B1; JP6035270B2; KR20200030125A; FI3621073T3; AU2021200603A1; CN106133829B; TW201810251A; US20220366924A1; AU2019257487B2; PH12016501844B1; RU2751150C1; PT3621073T; CA2942885A1; CA2990392C; KR102208915B1; AU2018201468A1; EP4293667A3

Abstract

El objetivo de la presente invención es reducir la distorsión de un componente de banda de frecuencia codificado con un pequeño número de bits en un dominio temporal y mejorar la calidad. Un dispositivo de decodificación de audio (10) decodifica una señal de audio codificada y emite la señal de audio. Una unidad de decodificación (10a) decodifica una secuencia codificada que contiene una señal de audio codificada y obtiene una señal decodificada. Una unidad de conformación de envolvente temporal selectiva (10b) conforma una envolvente temporal de una señal decodificada en la banda de frecuencia en base a información relacionada con la decodificación relativa a la decodificación de la secuencia codificada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Dispositivo de codificación de audio y método de codificación de audio

Campo técnico

La presente invención se refiere a un dispositivo de codificación de audio y a un método de codificación de audio.Técnica anterior

La tecnología de codificación de audio que comprime la cantidad de datos de una señal de audio o una señal acústica a unas varias décimas de su tamaño original es significativamente importante en el contexto de transmisión y acumulación de señales. Un ejemplo de tecnología de codificación de audio ampliamente usada es la codificación por transformación que codifica una señal en un dominio de frecuencias.

En codificación por transformación, la atribución de bits adaptativa que atribuye bits necesarios para la codificación para cada banda de frecuencia según una señal de entrada se usa ampliamente para obtener una calidad alta con una velocidad binaria baja. La técnica de atribución de bits que minimiza la distorsión debido a la codificación es la atribución según la potencia de señal de cada banda de frecuencia, y también se realiza la atribución de bits que tiene en cuenta el sentido del oído del ser humano.

Por otro lado, existe una técnica para mejorar la calidad de una(s) banda(s) de frecuencia con un número muy pequeño de bits atribuidos. El documento de patente 1 divulga una técnica que realiza la aproximación de un(os) coeficiente(s) de transformada en una(s) banda(s) de frecuencia en la(s) que el número de bits atribuidos es más pequeño que un umbral especificado para un(os) coeficiente(s) de transformada en otra(s) banda(s) de frecuencia. El documento de patente 2 divulga una técnica que genera una señal de pseudorruido y una técnica que reproduce una señal con una componente que no está cuantizada a cero en otra(s) banda(s) de frecuencia, para una componente que está cuantizada a cero debido a una potencia pequeña en una(s) banda(s) de frecuencia.

Además, considerando el hecho de que la potencia de una señal de audio y una señal acústica es generalmente más alta en una(s) banda(s) de baja frecuencia que en una(s) banda(s) de alta frecuencia, lo que tiene un efecto significativo en la calidad subjetiva, se usa ampliamente la extensión de ancho de banda que genera una(s) banda(s) de alta frecuencia de una señal de entrada usando una(s) banda(s) de baja frecuencia codificada(s). Puesto que la extensión de ancho de banda puede generar una(s) banda(s) de alta frecuencia con un número pequeño de bits, es posible obtener una calidad alta a una velocidad binaria baja. El documento de patente 3 divulga una técnica que genera una(s) banda(s) de alta frecuencia reproduciendo el espectro de una(s) banda(s) de baja frecuencia en una(s) banda(s) de alta frecuencia y después ajustando la forma del espectro basándose en información acerca de las características del espectro de la(s) banda(s) de alta frecuencia transmitido desde un codificador.

El documento de patente 4 divulga un dispositivo de codificación de audio que determina la información suplementaria de la envolvente temporal derivada del análisis de predicción lineal.

Lista de referencias

Bibliografía

PTL1: Publicación de patente japonesa no examinada n.° H9-153811

PTL2: Patente estadounidense n.° 7447631

PTL3: Patente japonesa n.° 5203077

PTL4: Documento US 2012/010879 A1

Sumario de la invención

Problema técnico

En la técnica descrita anteriormente, la componente de una(s) banda(s) de frecuencia que se codifica con un número pequeño de bits es similar a la componente correspondiente del sonido original en el dominio de frecuencias. Por otro lado, la distorsión es significativa en el dominio del tiempo, lo que puede provocar la degradación de la calidad.

En vista de lo anterior, un objeto de la presente invención es proporcionar un dispositivo de codificación de audio y un método de codificación de audio que puede reducir la distorsión de una componente de banda(s) de frecuencia codificada con un número pequeño de bits en el dominio del tiempo y mejorar de ese modo la calidad.

Solución al problema

Para solucionar el problema anterior, se proporcionan un dispositivo de codificación de audio según la reivindicación 1 y un método de codificación de audio según la reivindicación 5.

Efectos ventajosos de la invención

Según la presente invención, es posible conformar la envolvente temporal de una señal decodificada en una banda de frecuencia codificada con un número pequeño de bits en una envolvente temporal deseada y mejorar de ese modo la calidad.

Breve descripción de los dibujos

La figura 1 es una vista que muestra la configuración de un dispositivo 10 de decodificación de audio según una primera realización.

La figura 2 es un diagrama de flujo que muestra el funcionamiento del dispositivo 10 de decodificación de audio según la primera realización.

La figura 3 es una vista que muestra la configuración de un primer ejemplo de una unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 4 es un diagrama de flujo que muestra el funcionamiento del primer ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 5 es una vista que muestra la configuración de un segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 6 es un diagrama de flujo que muestra el funcionamiento del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 7 es una vista que muestra la configuración de una primera unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. La figura 8 es un diagrama de flujo que muestra el funcionamiento de la primera unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 9 es una vista que muestra la configuración de una segunda unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. La figura 10 es un diagrama de flujo que muestra el funcionamiento de la segunda unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 11 es una vista que muestra la configuración de un primer ejemplo de una unidad 10b de conformación de envolvente temporal selectiva en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 12 es un diagrama de flujo que muestra el funcionamiento del primer ejemplo de la unidad 10b de conformación de envolvente temporal selectiva en el dispositivo 10 de decodificación de audio según la primera realización.

La figura 13 es una vista explicativa que muestra la conformación de envolvente temporal.

La figura 14 es una vista que muestra la configuración de un dispositivo 11 de decodificación de audio según una segunda realización.

La figura 15 es un diagrama de flujo que muestra el funcionamiento del dispositivo 11 de decodificación de audio según la segunda realización.

La figura 16 es una vista que muestra la configuración de un dispositivo 21 de codificación de audio según la segunda realización.

La figura 17 es un diagrama de flujo que muestra el funcionamiento del dispositivo 21 de codificación de audio según la segunda realización.

La figura 18 es una vista que muestra la configuración de un dispositivo 12 de decodificación de audio según una tercera realización.

La figura 19 es un diagrama de flujo que muestra el funcionamiento del dispositivo 12 de decodificación de audio según la tercera realización.

La figura 20 es una vista que muestra la configuración de un dispositivo 13 de decodificación de audio según una cuarta realización.

La figura 21 es un diagrama de flujo que muestra el funcionamiento del dispositivo 13 de decodificación de audio según la cuarta realización.

La figura 22 es una vista que muestra la configuración de hardware de un ordenador que funciona como el dispositivo de decodificación de audio o el dispositivo de codificación de audio según esta realización.

La figura 23 es una vista que muestra una estructura de programa para hacer que un ordenador funcione como el dispositivo de decodificación de audio.

La figura 24 es una vista que muestra una estructura de programa para hacer que un ordenador funcione como el dispositivo de codificación de audio.

Descripción de realizaciones

A continuación en el presente documento se describen realizaciones de la presente invención con referencia a los dibujos adjuntos. Obsérvese que, donde sea posible, los mismos elementos se indican mediante los mismos números de referencia y se omite la descripción redundante de los mismos. Las realizaciones primera, tercera y cuarta no forman parte de la invención.

[Primera realización] La figura 1 es una vista que muestra la configuración de un dispositivo 10 de decodificación de audio según una primera realización. Un dispositivo de comunicación del dispositivo 10 de decodificación de audio recibe una secuencia codificada de una señal de audio y emite una señal de audio decodificada al exterior. Tal como se muestra en la figura 1, el dispositivo 10 de decodificación de audio incluye funcionalmente una unidad 10a de decodificación y una unidad 10b de conformación de envolvente temporal selectiva.

La unidad 10a de decodificación decodifica una secuencia codificada y genera una señal decodificada (etapa S10-1).

La unidad 10b de conformación de envolvente temporal selectiva recibe información relacionada con la decodificación, que es información obtenida cuando se decodifica la secuencia codificada, y la señal decodificada desde la unidad de decodificación, y conforma de manera selectiva la envolvente temporal de la componente de señal decodificada en una envolvente temporal deseada (etapa S10-2). Obsérvese que, en la siguiente descripción, la envolvente temporal de una señal indica la variación de la energía o potencia (y un parámetro equivalente a éstas) de la señal en la dirección del tiempo.

La figura 3 es una vista que muestra la configuración de un primer ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. Tal como se muestra en la figura 3, la unidad 10a de decodificación incluye funcionalmente una unidad 10aA de decodificación/cuantización inversa, una unidad 10aB de emisión de información relacionada con la decodificación, y una unidad 10aC de transformada inversa de tiempo/frecuencia.

La unidad 10aA de decodificación/cuantización inversa realiza al menos una de decodificación y cuantización inversa de una secuencia codificada según el esquema de codificación de la secuencia codificada y genera de ese modo una señal decodificada en el dominio de frecuencias (etapa S10-1-1).

La unidad 10aB de emisión de información relacionada con la decodificación recibe información relacionada con la decodificación, que es información obtenida cuando se genera la señal decodificada en la unidad 10aA de decodificación/cuantización inversa, y emite la información relacionada con la decodificación (etapa S10-1-2). La unidad 10aB de emisión de información relacionada con la decodificación puede recibir una secuencia codificada, analizarla para obtener información relacionada con la decodificación, y emitir la información relacionada con la decodificación. Por ejemplo, la información relacionada con la decodificación puede ser el número de bits codificados en cada banda de frecuencia o información equivalente (por ejemplo, el número promedio de bits codificados mediante una componente de frecuencia en cada banda de frecuencia). La información relacionada con la decodificación puede ser el número de bits codificados en cada componente de frecuencia. La información relacionada con la decodificación puede ser el tamaño del escalón de cuantización en cada banda de frecuencia. La información relacionada con la decodificación puede ser el valor de cuantización de una componente de frecuencia. La componente de frecuencia es un coeficiente de transformada de la transformada de tiempo-frecuencia especificada, por ejemplo. La información relacionada con la decodificación puede ser la energía o potencia en cada banda de frecuencia. La información relacionada con la decodificación puede ser información que presenta una(s) banda(s) de frecuencia especificada(s) (o componente de frecuencia). Además, cuando se incluye otro procesamiento relacionado con la conformación de envolvente temporal en la generación de una señal decodificada, por ejemplo, la información relacionada con la decodificación puede ser información acerca del procesamiento de conformación de envolvente temporal, tal como al menos uno de información con respecto a si se realiza o no el procesamiento de conformación de envolvente temporal, información acerca de una envolvente temporal conformada por el procesamiento de conformación de envolvente temporal, e información sobre la intensidad de conformación de envolvente temporal del procesamiento de conformación de envolvente temporal, por ejemplo. Al menos uno de los ejemplos anteriores se emite como la información relacionada con la decodificación.

La unidad 10aC de transformada inversa de tiempo-frecuencia transforma la señal decodificada en el dominio de frecuencias en la señal decodificada en el dominio del tiempo mediante transformada inversa de tiempo-frecuencia especificada y la emite (etapa S10-1-3). Obsérvese que sin embargo, la unidad 10aC de transformada inversa de tiempo-frecuencia puede emitir la señal decodificada en el dominio de frecuencias sin realizar la transformada inversa de tiempo-frecuencia. Esto corresponde al caso en el que la unidad 10b de conformación de envolvente temporal selectiva solicita una señal en el dominio de frecuencias como una señal de entrada, por ejemplo.

La figura 5 es una vista que muestra la configuración de un segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. Tal como se muestra en la figura 5, la unidad 10a de decodificación incluye funcionalmente una unidad 10aD de análisis de secuencia codificada, una primera unidad 10aE de decodificación, y una segunda unidad 10aF de decodificación.

La unidad 10aD de análisis de secuencia codificada analiza una secuencia codificada y la divide en una primera secuencia codificada y una segunda secuencia codificada (etapa S10-1-4).

La primera unidad 10aE de decodificación decodifica la primera secuencia codificada mediante un primer esquema de decodificación y genera una primera señal decodificada, y emite la primera información relacionada con la decodificación, que es información acerca de esta decodificación (etapa S10-1-5).

La segunda unidad 10aF de decodificación decodifica, usando la primera señal decodificada, la segunda secuencia codificada mediante un segundo esquema de decodificación y genera una señal decodificada, y emite la segunda información relacionada con la decodificación, que es información acerca de esta decodificación (etapa S10-1-6). En este ejemplo, la primera información relacionada con la decodificación y la segunda información relacionada con la decodificación en combinación son información relacionada con la decodificación.

La figura 7 es una vista que muestra la configuración de la primera unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. Tal como se muestra en la figura 7, la primera unidad 10aE de decodificación incluye funcionalmente una primera unidad 10aE-a de decodificación/cuantización inversa y una primera unidad 10aE-b de emisión de información relacionada con la decodificación.

La figura 8 es un diagrama de flujo que muestra el funcionamiento de la primera unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La primera unidad 10aE-a de decodificación/cuantización inversa realiza al menos una de decodificación y cuantización inversa de una primera secuencia codificada según el esquema de codificación de la primera secuencia codificada y genera y emite de ese modo la primera señal decodificada (etapa S10-1-5-1).

La primera unidad 10aE-b de emisión de información relacionada con la decodificación recibe la primera información relacionada con la decodificación, que es información obtenida cuando se genera la primera señal decodificada en la primera unidad 10aE-a de decodificación/cuantización inversa, y emite la primera información relacionada con la decodificación (etapa S10-5-2). La primera unidad 10aE-b de emisión de información relacionada con la decodificación puede recibir la primera secuencia codificada, analizarla para obtener la primera información relacionada con la decodificación, y emitir la primera información relacionada con la decodificación. Los ejemplos de la primera información relacionada con la decodificación pueden ser los mismos que los ejemplos de la información relacionada con la decodificación que se emite desde la unidad 10aB de emisión de información relacionada con la decodificación. Además, la primera información relacionada con la decodificación puede ser información que indica que el esquema de decodificación de la primera unidad de decodificación es un primer esquema de decodificación. Además, la primera información relacionada con la decodificación puede ser información que indica la(s) banda(s) de frecuencia (o componente(s) de frecuencia) contenidas en la primera señal decodificada (la(s) banda(s) de frecuencia (o componente(s) de frecuencia) de la señal de audio codificada en la primera secuencia codificada).

La figura 9 es una vista que muestra la configuración de la segunda unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización. Tal como se muestra en la figura 9, la segunda unidad 10aF de decodificación incluye funcionalmente una segunda unidad 10aF-a de decodificación/cuantización inversa, una segunda unidad 10aF-b de emisión de información relacionada con la decodificación y una unidad 10aF-c de síntesis de señal decodificada.

La figura 10 es un diagrama de flujo que muestra el funcionamiento de la segunda unidad de decodificación del segundo ejemplo de la unidad 10a de decodificación en el dispositivo 10 de decodificación de audio según la primera realización.

La segunda unidad 10aF-1 de decodificación/cuantización inversa realiza al menos una de decodificación y cuantización inversa de una segunda secuencia codificada según el esquema de codificación de la segunda secuencia codificada y genera y emite de ese modo la segunda señal decodificada (etapa S10-1-6-1). La primera señal decodificada puede usarse en la generación de la segunda señal decodificada. El esquema de decodificación (segundo esquema de decodificación) de la segunda unidad de decodificación puede ser una extensión de ancho de banda, y puede ser una extensión de ancho de banda que usa la primera señal decodificada. Además, tal como se describe en el documento de patente 1 (publicación de patente japonesa no examinada n.° H9-153811), el segundo esquema de decodificación puede ser un esquema de decodificación que corresponde al esquema de codificación que aproxima un(os) coeficiente(s) de transformada en una(s) banda(s) de frecuencia en la(s) que el número de bits atribuidos por el primer esquema de codificación es menor que un umbral especificado para un(os) coeficiente(s) de transformada en otra(s) banda(s) de frecuencia como el segundo esquema de codificación. Alternativamente, tal como se describe en el documento de patente 2 (patente estadounidense n.° 7447631), el segundo esquema de decodificación puede ser un esquema de decodificación que corresponde al esquema de codificación que genera una señal de pseudorruido o reproduce una señal con otra componente de frecuencia mediante el segundo esquema de codificación para una componente de frecuencia que está cuantizada a cero mediante el primer esquema de codificación. El segundo esquema de decodificación puede ser un esquema de decodificación que corresponde al esquema de codificación que aproxima una determinada componente de frecuencia usando una señal con otra componente de frecuencia mediante el segundo esquema de codificación. Una componente de frecuencia que está cuantizada a cero mediante el primer esquema de codificación puede considerarse como una componente de frecuencia que no se codifica mediante el primer esquema de codificación. En estos casos, un esquema de decodificación que corresponde al primer esquema de codificación puede ser un primer esquema de decodificación, que es el esquema de decodificación de la primera unidad de decodificación, y un esquema de decodificación que corresponde al segundo esquema de codificación puede ser un segundo esquema de decodificación, que es el esquema de decodificación de la segunda unidad de decodificación.

La segunda unidad 10aF-b de emisión de información relacionada con la decodificación recibe segunda información relacionada con la decodificación que se obtiene cuando se genera la segunda señal decodificada en la segunda unidad 10aF-a de decodificación/cuantización inversa y emite la segunda información relacionada con la decodificación (etapa S10-1-6-2). Además, la segunda unidad 10aF-b de emisión de información relacionada con la decodificación puede recibir la segunda secuencia codificada, analizarla para obtener la segunda información relacionada con la decodificación, y emitir la segunda información relacionada con la decodificación. Los ejemplos de la segunda información relacionada con la decodificación pueden ser los mismos que los ejemplos de la información relacionada con la decodificación que se emite desde la unidad 10aB de emisión de información relacionada con la decodificación.

Además, la segunda información relacionada con la decodificación puede ser información que indica que el esquema de decodificación de la segunda unidad de decodificación es el segundo esquema de decodificación. Por ejemplo, la segunda información relacionada con la decodificación puede ser información que indica que el segundo esquema de decodificación es una extensión de ancho de banda. Además, por ejemplo, puede usarse información que indica un esquema de extensión de ancho de banda para cada banda de frecuencia de la segunda señal decodificada que se genera mediante una extensión de ancho de banda como la segunda información de decodificación. La información que indica un esquema de extensión de ancho de banda para cada banda de frecuencia puede ser información que indica una reproducción de una señal que usa otra(s) banda(s) de frecuencia, la aproximación de una señal en una frecuencia determinada a una señal en otra frecuencia, la generación de una señal de pseudorruido, la adición de una señal sinusoidal y similares, por ejemplo. Además, en el caso de aproximar una señal en una frecuencia determinada a una señal en otra frecuencia, puede ser información que indica un método de aproximación. Además, en el caso de usar blanqueamiento cuando se aproxima una señal en una frecuencia determinada a una señal en otra frecuencia, puede usarse información acerca de la intensidad del blanqueamiento como la segunda información de decodificación. Además, por ejemplo, en el caso de añadir una señal de pseudorruido cuando se aproxima una señal en una frecuencia determinada a una señal en otra frecuencia, puede usarse información acerca del nivel de la señal de pseudorruido como la segunda información de decodificación. Además, por ejemplo, en el caso de generar una señal de pseudorruido, puede usarse información acerca del nivel de la señal de pseudorruido como la segunda información de decodificación.

Además, por ejemplo, la segunda información relacionada con la decodificación puede ser información que indica que el segundo esquema de decodificación es un esquema de decodificación que corresponde al esquema de codificación que realiza una o ambas de aproximación de un(os) coeficiente(s) de transformada en una(s) banda(s) de frecuencia en la(s) que el número de bits atribuidos por el primer esquema de codificación es menor que un umbral especificado para un(os) coeficiente(s) de transformada en otra(s) banda(s) de frecuencia y adición (o sustitución) de un(os) coeficiente(s) de transformada de una señal de pseudorruido. Por ejemplo, la segunda información relacionada con la decodificación puede ser información acerca del método de aproximación de un(os) coeficiente(s) de transformada en una(s) banda(s) de frecuencia determinada(s). Por ejemplo, en el caso de usar un método de blanquear un(os) coeficiente(s) de transformada en otra(s) banda(s) de frecuencia como el método de aproximación, puede usarse información acerca de la intensidad del blanqueamiento como la segunda información de decodificación. Además, puede usarse información acerca del nivel de la señal de pseudorruido como la segunda información de decodificación.

Además, por ejemplo, la segunda información relacionada con la decodificación puede ser información que indica que el segundo esquema de codificación es un esquema de codificación que genera una señal de pseudorruido o reproduce una señal con otra componente de frecuencia para una componente de frecuencia que está cuantizada a cero mediante el primer esquema de codificación (es decir, no codificada mediante el primer esquema de codificación). Por ejemplo, la segunda información relacionada con la decodificación puede ser información que indica si cada componente de frecuencia es una componente de frecuencia que está cuantizada a cero mediante el primer esquema de codificación (es decir, no codificada mediante el primer esquema de codificación). Por ejemplo, la segunda información relacionada con la decodificación puede ser información que indica si se genera una señal de pseudorruido o reproduce una señal con otra componente de frecuencia para una componente de frecuencia determinada. Además, por ejemplo, en el caso de reproducir una señal con otra componente de frecuencia para una componente de frecuencia determinada, la segunda información relacionada con la decodificación puede ser información acerca de un método de reproducción. La información acerca de un método de reproducción puede ser la frecuencia de una componente de fuente de la reproducción, por ejemplo. Además, puede ser información con respecto a si se realiza o no el procesamiento en una componente de frecuencia de fuente de la reproducción e información acerca del procesamiento que va a realizarse durante la reproducción, por ejemplo. Además, en el caso en el que el procesamiento que va a realizarse en una componente de frecuencia de fuente de la reproducción es blanqueamiento, por ejemplo, puede ser información acerca de la intensidad del blanqueamiento. Además, en el caso en el que el procesamiento que va a realizarse en una componente de frecuencia de fuente de la reproducción es la adición de una señal de pseudorruido, puede ser información acerca del nivel de la señal de pseudorruido. La unidad 10aF-c de síntesis de señal decodificada sintetiza una señal decodificada a partir de la primera señal decodificada y la segunda señal decodificada y la emite (etapa S10-1-6-3). En el caso en el que el segundo esquema de codificación es una extensión de ancho de banda, la primera señal decodificada es una señal en una(s) banda(s) de baja frecuencia y la segunda señal decodificada es una señal en una(s) banda(s) de alta frecuencia en general, y la señal decodificada tiene ambas bandas de frecuencia.

La figura 11 es una vista que muestra la configuración de un primer ejemplo de la unidad 10b de conformación de envolvente temporal selectiva en el dispositivo 10 de decodificación de audio según la primera realización. Tal como se muestra en la figura 11, la unidad 10b de conformación de envolvente temporal selectiva incluye funcionalmente una unidad 10bA de transformada de tiempo-frecuencia, una unidad 10bB de selección de frecuencia, una unidad 10bC de conformación de envolvente temporal selectiva en frecuencia, y una unidad 10bD de transformada inversa de tiempo-frecuencia.

La unidad 10bA de transformada de tiempo-frecuencia transforma una señal decodificada en el dominio del tiempo en una señal decodificada en el dominio de frecuencias mediante una transformada de tiempo-frecuencia especificada (etapa S10-2-1). Obsérvese que sin embargo, cuando la señal decodificada es una señal en el dominio de frecuencias, pueden omitirse la unidad 10bA de transformada de tiempo-frecuencia y la etapa S10-2-1.

La unidad 10bB de selección de frecuencia selecciona una(s) banda(s) de frecuencia de la señal decodificada de dominio de frecuencias en la que va a realizarse la conformación de envolvente temporal usando al menos una de la señal decodificada de dominio de frecuencias y la información relacionada con la decodificación (etapa S10-2-2). En esta etapa de selección de frecuencia, puede seleccionarse una componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. La(s) banda(s) de frecuencia (o componente(s) de frecuencia) que van a seleccionarse pueden ser una parte de o la totalidad de la(s) banda(s) de frecuencia (o componente(s) de frecuencia) de la señal decodificada.

Por ejemplo, en el caso en el que la información relacionada con la decodificación es el número de bits codificados en cada banda de frecuencia, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que el número de bits codificados es menor que un umbral especificado como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Asimismo, en el caso en el que la información relacionada con la decodificación es información equivalente al número de bits codificados en cada banda de frecuencia, puede(n) seleccionarse la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal mediante la comparación con un umbral especificado por rutina. Además, en el caso en el que la información relacionada con la decodificación es el número de bits codificados en cada componente de frecuencia, por ejemplo, puede seleccionarse una componente de frecuencia en la que el número de bits codificados es menor que un umbral especificado como la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede seleccionarse una componente de frecuencia en la que no se codifica(n) un(os) coeficiente(s) de transformada como la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. Además, por ejemplo, en el caso en el que la información relacionada con la decodificación es el tamaño del escalón de cuantización en cada banda de frecuencia, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que el tamaño del escalón de cuantización es mayor que un umbral especificado como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Además, en el caso en el que la información relacionada con la decodificación es el valor de cuantización de una componente de frecuencia, por ejemplo, puede(n) seleccionarse la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal comparando el valor de cuantización con un umbral especificado. Por ejemplo, puede seleccionarse una componente en la que un(os) coeficiente(s) de transformada de cuantización es/son menor(es) que un umbral especificado como la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. Además, en el caso en el que la información relacionada con la decodificación es la energía o potencia en cada banda de frecuencia, por ejemplo, puede(n) seleccionarse la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal comparando la energía o potencia con un umbral especificado. Por ejemplo, cuando la energía o potencia en una(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal selectiva es menor que un umbral especificado, puede determinarse que no se realiza la conformación de envolvente temporal en esta(s) banda(s) de frecuencia.

Además, en el caso en el que la información relacionada con la decodificación es información acerca de otro procesamiento de conformación de envolvente temporal, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que no va a realizarse este procesamiento de conformación de envolvente temporal como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal según la presente invención.

Además, en el caso en el que la unidad 10a de decodificación tiene la configuración descrita como el segundo ejemplo de la unidad 10a de decodificación y la información relacionada con la decodificación es el esquema de codificación de la segunda unidad de decodificación, puede(n) seleccionarse una(s) banda(s) de frecuencia que va(n) a decodificarse mediante la segunda unidad de decodificación mediante un esquema que corresponde al esquema de codificación de la segunda unidad de decodificación como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, cuando el esquema de codificación de la segunda unidad de decodificación es una extensión de ancho de banda, puede(n) seleccionarse una(s) banda(s) de frecuencia que va(n) a decodificarse mediante la segunda unidad de decodificación como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Además, por ejemplo, cuando el esquema de codificación de la segunda unidad de decodificación es extensión de ancho de banda en el dominio del tiempo, puede(n) seleccionarse una(s) banda(s) de frecuencia que va(n) a decodificarse mediante la segunda unidad de decodificación como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, cuando el esquema de codificación de la segunda unidad de decodificación es una extensión de ancho de banda en el dominio de frecuencias, puede(n) seleccionarse una(s) banda(s) de frecuencia que va(n) a decodificarse mediante la segunda unidad de decodificación como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que se reproduce una señal con otra(s) banda(s) de frecuencia mediante la extensión de ancho de banda como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que se aproxima una señal usando una señal en otra(s) banda(s) de frecuencia mediante una extensión de ancho de banda como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) banda(s) de frecuencia en la(s) que se genera una señal de pseudorruido mediante una extensión de ancho de banda como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) banda(s) de frecuencia que excluyen una(s) banda(s) de frecuencia en la(s) que se añade una señal sinusoidal mediante una extensión de ancho de banda como la(s) banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal.

Además, en el caso en el que la unidad 10a de decodificación tiene la configuración descrita como el segundo ejemplo de la unidad 10a de decodificación, y el segundo esquema de codificación es un esquema de codificación que realiza una o ambas de aproximación de un(os) coeficiente(s) de transformada de una(s) componente(s) o banda(s) de frecuencia en la(s) que el número de bits atribuidos por el primer esquema de codificación es menor que un umbral especificado (o una(s) componente(s) o banda(s) de frecuencia que no se codifica(n) por el primer esquema de codificación) a un(os) coeficiente(s) de transformada en otra(s) componente(s) o banda(s) de frecuencia y adición (o sustitución) de un(os) coeficiente(s) de transformada de una señal de pseudorruido, puede(n) seleccionarse una componente o banda(s) de frecuencia en la(s) que se realiza la aproximación de un(os) coeficiente(s) de transformada a un(os) coeficiente(s) de transformada en otra(s) componente(s) o banda(s) de frecuencia como la(s) componente(s) o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) componente(s) o banda(s) de frecuencia en la(s) que se añade(n) o sustituye(n) un(os) coeficiente(s) de transformada de una señal de pseudorruido como la(s) componente(s) o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede(n) seleccionarse una(s) componente(s) o banda(s) de frecuencia como la(s) componente(s) o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal según un método de aproximación cuando se aproxima(n) un(os) coeficiente(s) de transformada usando un(os) coeficiente(s) de transformada en otra(s) componente(s) o banda(s) de frecuencia. Por ejemplo, en el caso de usar un método de blanquear un(os) coeficiente(s) de transformada en otra(s) componente(s) o banda(s) de frecuencia como el método de aproximación, puede(n) seleccionarse la(s) componente(s) o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal según la intensidad del blanqueamiento. Por ejemplo, en el caso de añadir (o sustituir) un(os) coeficiente(s) de transformada de una señal de pseudorruido, puede(n) seleccionarse la(s) componente(s) o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal según el nivel de la señal de pseudorruido.

Además, en el caso en el que la unidad 10a de decodificación tiene la configuración descrita como el segundo ejemplo de la unidad 10a de decodificación, y el segundo esquema de codificación es un esquema de codificación que genera una señal de pseudorruido o reproduce una señal en otra componente de frecuencia (o aproxima usando una señal en otra componente de frecuencia) para una componente de frecuencia que está cuantizada a cero mediante el primer esquema de codificación (es decir, no codificada mediante el primer esquema de codificación), puede seleccionarse una componente de frecuencia en la que se genera una señal de pseudorruido como la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. Por ejemplo, puede seleccionarse una componente de frecuencia en la que se realiza la reproducción de una señal en otra componente de frecuencia (o aproximación usando una señal en otra componente de frecuencia) como la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal. Por ejemplo, en el caso de reproducir una señal en otra componente de frecuencia (o aproximar usando una señal en otra componente de frecuencia) para una componente de frecuencia determinada, puede seleccionarse la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal según la frecuencia de una componente de fuente de la reproducción (o aproximación). Por ejemplo, puede seleccionarse la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal según si se realiza o no el procesamiento en una componente de frecuencia de fuente de la reproducción durante la reproducción. Además, por ejemplo, puede seleccionarse la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal según el procesamiento que va a realizarse en una componente de frecuencia de fuente de la reproducción (o aproximación) durante la reproducción (o aproximación). Por ejemplo, en el caso en el que el procesamiento que va a realizarse en una componente de frecuencia de fuente de la reproducción (o aproximación) es blanqueamiento, puede seleccionarse la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal según la intensidad del blanqueamiento. Además, por ejemplo, puede seleccionarse la componente de frecuencia en la que va a realizarse la conformación de envolvente temporal según un método de aproximación.

Un método de seleccionar una componente de frecuencia o una(s) banda(s) de frecuencia puede ser una combinación de los ejemplos descritos anteriormente. Además, puede(n) seleccionarse la(s) componente(s) o banda(s) de frecuencia de una señal decodificada de dominio de frecuencias en la(s) que va a realizarse la conformación de envolvente temporal usando al menos una de la señal decodificada de dominio de frecuencias y la información relacionada con la decodificación, y un método de seleccionar una componente de frecuencia o una(s) banda(s) de frecuencia no se limita a los ejemplos anteriores.

La unidad 10bC de conformación de envolvente temporal selectiva en frecuencia conforma la envolvente temporal de la(s) banda(s) de frecuencia de la señal decodificada que se selecciona mediante la unidad 10bB de selección de frecuencia en una envolvente temporal deseada (etapa S10-2-3). La conformación de envolvente temporal puede realizarse para cada componente de frecuencia.

Como un método para la conformación de envolvente temporal, la envolvente temporal puede hacerse plana filtrando con un filtro inverso de predicción lineal que usa un(os) coeficiente(s) de predicción lineal obtenido(s) mediante análisis de predicción lineal de un(os) coeficiente(s) de transformada de una(s) banda(s) de frecuencia seleccionada(s), por ejemplo. Una función de transferencia A(z) del filtro inverso de predicción lineal es una función que representa una respuesta del filtro inverso de predicción lineal en un sistema de tiempo discreto, que se representa mediante la siguiente ecuación:

donde p es un orden de predicción y ai(i= 1,..,p) es un coeficiente de predicción lineal. Por ejemplo, puede usarse un método de hacer que la envolvente temporal se eleve o caiga filtrando un(os) coeficiente(s) de transformada de una(s) banda(s) de frecuencia seleccionada(s) con un filtro de predicción lineal que usa el/los coeficiente(s) de predicción lineal. Se representa una función de transferencia del filtro de predicción lineal mediante la siguiente ecuación:

En la conformación de envolvente temporal que usa el/los coeficiente(s) de predicción lineal, la intensidad de hacer la envolvente temporal plana, o que se eleve o que caiga puede ajustarse usando una relación de expansión de ancho de banda p como en las siguientes ecuaciones.

El ejemplo descrito anteriormente puede realizarse en una submuestra a tiempo arbitrario t de una señal de subbanda que se obtiene transformando una señal decodificada en una señal de dominio de frecuencias mediante un banco de filtros, no sólo en un(os) coeficiente(s) de transformada que se obtiene(n) mediante la transformada de tiempo-frecuencia de la señal decodificada. En el ejemplo anterior, filtrando una señal decodificada en el dominio de frecuencias basándose en el análisis de predicción lineal, se cambia la distribución de la potencia de la señal decodificada en el dominio del tiempo para conformar de ese modo la envolvente temporal.

Además, por ejemplo, la envolvente temporal puede aplanarse convirtiendo la amplitud de una señal de subbanda obtenida transformando una señal decodificada en una señal de dominio de frecuencias mediante un banco de filtros en la amplitud promedio de una(s) componente(s) de frecuencia (o banda(s) de frecuencia) en la(s) que va a realizarse la conformación de envolvente temporal en un segmento de tiempo arbitrario. Es posible por tanto hacer plana la envolvente temporal mientras que se mantiene la energía de la(s) componente(s) de frecuencia (o banda(s) de frecuencia) del segmento de tiempo antes de la conformación de envolvente temporal. Asimismo, puede hacerse que la envolvente temporal se eleve o caiga cambiando la amplitud de una señal de subbanda mientras que se mantiene la energía de la(s) componente(s) de frecuencia (o banda(s) de frecuencia) del segmento de tiempo antes de la conformación de envolvente temporal.

Además, por ejemplo, tal como se muestra en la figura 13, en una(s) banda(s) de frecuencia que contiene(n) una(s) componente(s) de frecuencia o banda(s) de frecuencia que no se selecciona(n) como la(s) componente(s) de frecuencia o banda(s) de frecuencia en la(s) que va a realizarse la conformación de envolvente temporal mediante la unidad 10bB de selección de frecuencia (que se denominan una(s) componente(s) de frecuencia no seleccionada(s) o banda(s) de frecuencia no seleccionada(s)), puede realizarse la conformación de envolvente temporal mediante el método de conformación de envolvente temporal descrito anteriormente después de sustituir un(os) coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)) de una señal decodificada con otro valor, y después el/los coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)) puede(n) volver a ajustarse al valor original antes de la sustitución, realizando de ese modo la conformación de envolvente temporal en la(s) componente(s) de frecuencia (o banda(s) de frecuencia) excluyendo la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)).

De esta manera, incluso cuando la(s) componente(s) de frecuencia (o banda(s) de frecuencia) en la(s) que va a realizarse la conformación de envolvente temporal se divide(n) en muchos segmentos pequeños debido a componentes de frecuencia no seleccionadas (o bandas de frecuencia no seleccionadas) dispersadas, es posible realizar la conformación de envolvente temporal de los segmentos de componente(s) de frecuencia (o banda(s) de frecuencia) todos juntos, logrando de ese modo la reducción de la complejidad computacional. Por ejemplo, en el método de conformación de envolvente temporal descrito anteriormente que usa el análisis de predicción lineal, mientras que se requiere que realice el análisis de predicción lineal para cada uno de los segmentos de componente(s) de frecuencia (o banda(s) de frecuencia) en los que va a realizarse la conformación de envolvente temporal sin esta técnica, sólo es necesario realizar el análisis de predicción lineal una vez para los segmentos de componente(s) de frecuencia (o banda(s) de frecuencia) que incluyen componentes de frecuencia no seleccionadas (o bandas de frecuencia no seleccionadas), y además sólo es necesario realizar el filtrado con el filtro inverso de predicción lineal (o filtro de predicción lineal) de los segmentos de componente(s) de frecuencia (o banda(s) de frecuencia) que incluyen componentes de frecuencia no seleccionadas (o bandas de frecuencia no seleccionadas) todas a la vez, logrando de ese modo la reducción de la complejidad computacional.

En la sustitución de un(os) coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)), la amplitud de un(os) coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)) puede sustituirse con el valor promedio de la amplitud que incluye el/los coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)) y la(s) componente(s) de frecuencia (o banda(s) de frecuencia) adyacente(s). En este momento, el signo del/de los coeficiente(s) de transformada puede ser el mismo que el signo del/de los coeficiente(s) de transformada original(es), y la fase de la submuestra puede ser la misma que la fase de la submuestra original. Además, en el caso en el que el/los coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia (o banda(s) de frecuencia) no se cuantiza(n)/codifica(n), y se selecciona(n) para realizar la conformación de envolvente temporal en una(s) componente(s) de frecuencia (o banda(s) de frecuencia) que se genera(n) mediante la reproducción o aproximación que usa el/los coeficiente(s) de transformada (o submuestra(s)) de otra(s) componente(s) de frecuencia (o banda(s) de frecuencia), o/y la generación o adición de una señal de pseudorruido, y/o la adición de una señal sinusoidal, el/los coeficiente(s) de transformada (o submuestra(s)) de la(s) componente(s) de frecuencia no seleccionada(s) (o banda(s) de frecuencia no seleccionada(s)) puede(n) sustituirse con un(os) coeficiente(s) de transformada (o submuestra(s)) que se genera(n) mediante la reproducción o aproximación que usa el/los coeficiente(s) de transformada (o submuestra(s)) de otra(s) componente(s) de frecuencia (o banda(s) de frecuencia), o/y la generación o la adición de una señal de pseudorruido, y/o la adición de una señal sinusoidal de modo pseudo. Un método de conformación de envolvente temporal de la(s) banda(s) de frecuencia seleccionada(s) puede ser una combinación de los métodos descritos anteriormente, y el método de conformación de envolvente temporal no se limita a los ejemplos anteriores.

La unidad 10bD de transformada inversa de tiempo-frecuencia transforma la señal decodificada en la que se ha realizado la conformación de envolvente temporal de una manera selectiva en frecuencia en la señal en el dominio del tiempo y la emite (etapa S10-2-4).

[Segunda realización] La figura 14 es una vista que muestra la configuración de un dispositivo 11 de decodificación de audio según una segunda realización. Un dispositivo de comunicación del dispositivo 11 de decodificación de audio recibe una secuencia codificada de una señal de audio y emite una señal de audio decodificada al exterior. Tal como se muestra en la figura 14, el dispositivo 11 de decodificación de audio incluye funcionalmente una unidad 11a de demultiplexación, una unidad 10a de decodificación, y una unidad 11b de conformación de envolvente temporal selectiva.

La unidad 11a de demultiplexación divide una secuencia codificada en la secuencia codificada para obtener una señal decodificada e información de envolvente temporal decodificando/realizando la cuantización inversa (etapa S11-1). La unidad 10a de decodificación decodifica la secuencia codificada y genera de ese modo una señal decodificada (etapa S10-1). Cuando la información de envolvente temporal se codifica o/y cuantiza, se decodifica o/y se realiza la cuantización inversa para obtener la información de envolvente temporal.

La información de envolvente temporal es información que indica que la envolvente temporal de una señal de entrada que se ha codificado mediante un dispositivo codificador es plana.

Además, por ejemplo pero sin formar parte de la invención, la información de envolvente temporal puede ser información que indica el grado de planitud de la envolvente temporal de la señal de entrada, información que indica el grado de elevación de la envolvente temporal de la señal de entrada, o información que indica el grado de caída de la envolvente temporal de la señal de entrada, por ejemplo.

Además, por ejemplo, la información de envolvente temporal puede ser información que indica si se conforma o no la envolvente temporal mediante la unidad de conformación de envolvente temporal selectiva.

La unidad 11b de conformación de envolvente temporal selectiva recibe información relacionada con la decodificación, que es información obtenida cuando se decodifica la secuencia codificada, y la señal decodificada desde la unidad 10a de decodificación, recibe la información de envolvente temporal desde la unidad de demultiplexación, y conforma de manera selectiva la envolvente temporal de la componente de señal decodificada en una envolvente temporal deseada basándose en al menos una de ellas (etapa S11-2).

Un método de la conformación de envolvente temporal selectiva en la unidad 11b de conformación de envolvente temporal selectiva puede ser el mismo que el de en la unidad 10b de conformación de envolvente temporal selectiva, o puede realizarse la conformación de envolvente temporal selectiva también teniendo en cuenta la información de envolvente temporal, por ejemplo. Por ejemplo, en el caso en el que la información de envolvente temporal es información que indica que la envolvente temporal de una señal de entrada que se ha codificado mediante un dispositivo codificador es plana, la envolvente temporal puede conformarse para ser plana basándose en esta información. En el caso de no formar parte de la invención en el que la información de envolvente temporal es información que indica que la envolvente temporal de la señal de entrada está elevándose, por ejemplo, la envolvente temporal puede conformarse para elevarse basándose en esta información. En el caso de no formar parte de la invención en el que la información de envolvente temporal es información que indica que la envolvente temporal de la señal de entrada está cayendo, por ejemplo, la envolvente temporal puede conformarse para caer basándose en esta información.

Además, por ejemplo, en el caso de no formar parte de la invención en el que la información de envolvente temporal es información que indica el grado de planitud de la envolvente temporal de la señal de entrada, el grado de hacer plana la envolvente temporal puede ajustarse basándose en esta información. En el caso en el que la información de envolvente temporal es información que indica el grado de elevación de la envolvente temporal de la señal de entrada, por ejemplo, el grado de hacer que la envolvente temporal se eleve puede ajustarse basándose en esta información. En el caso en el que la información de envolvente temporal es información que indica el grado de caída de la envolvente temporal de la señal de entrada, por ejemplo, el grado de hacer que la envolvente temporal caiga puede ajustarse basándose en esta información.

Además, por ejemplo, en el caso en el que la información de envolvente temporal es información que indica si se conforma o no la envolvente temporal mediante la unidad 11b de conformación de envolvente temporal selectiva, puede determinarse si se realiza o no la conformación de envolvente temporal basándose en esta información.

Además, por ejemplo, en el caso de realizar la conformación de envolvente temporal basándose en la información de envolvente temporal de los ejemplos descritos anteriormente, puede seleccionarse una componente de frecuencia (o banda de frecuencia) en la que va a realizarse la conformación de envolvente temporal de la misma manera que en la primera realización, y la envolvente temporal de la(s) componente(s) de frecuencia (o banda(s) de frecuencia) seleccionada(s) de la señal decodificada puede conformarse en una envolvente temporal deseada.

La figura 16 es una vista que muestra la configuración de un dispositivo 21 de codificación de audio según la segunda realización. Un dispositivo de comunicación del dispositivo 21 de codificación de audio recibe una señal de audio que va a codificarse desde el exterior, y emite una secuencia codificada al exterior. Tal como se muestra en la figura 16, el dispositivo 21 de codificación de audio incluye funcionalmente una unidad 21a de codificación, una unidad 21b de codificación de información de envolvente temporal, y una unidad 21c de multiplexación.

La unidad 21a de codificación codifica una señal de audio de entrada y genera una secuencia codificada (etapa S21-1) . El esquema de codificación de la señal de audio en la unidad 21a de codificación es un esquema de codificación que corresponde al esquema de decodificación de la unidad 10a de decodificación descrita anteriormente.

La unidad 21b de codificación de información de envolvente temporal genera información de envolvente temporal usando la señal de audio de entrada y al menos una de información obtenida cuando se codifica la señal de audio en la unidad 21a de codificación. La información de envolvente temporal generada se codifica/cuantiza (etapa S21-2) . La información de envolvente temporal puede ser información de envolvente temporal que se obtiene en la unidad 11a de demultiplexación del dispositivo 11 de decodificación de audio.

Además, en el caso en el que se realiza el procesamiento relacionado con la conformación de envolvente temporal, que es diferente del procesamiento en la presente invención, cuando se genera una señal decodificada en la unidad de decodificación del dispositivo 11 de decodificación de audio, y se almacena información acerca de este procesamiento de conformación de envolvente temporal en el dispositivo 21 de codificación de audio, por ejemplo, la información de envolvente temporal puede generarse usando esta información. Por ejemplo, puede generarse información con respecto a si se conforma o no la envolvente temporal en la unidad 11b de conformación de envolvente temporal selectiva del dispositivo 11 de decodificación de audio basándose en información con respecto a si se realiza o no el procesamiento de conformación de envolvente temporal que es diferente del de la presente invención.

Además, en el caso en el que la unidad 11b de conformación de envolvente temporal selectiva del dispositivo 11 de decodificación de audio realiza la conformación de envolvente temporal usando el análisis de predicción lineal que se describe en el primer ejemplo de la unidad 10b de conformación de envolvente temporal selectiva del dispositivo 10 de decodificación de audio según la primera realización, por ejemplo, puede generar la información de envolvente temporal usando un resultado del análisis de predicción lineal de un(os) coeficiente(s) de transformada (o muestras de subbanda) de una señal de audio de entrada, justo como el análisis de predicción lineal en esta conformación de envolvente temporal. Para ser más preciso, puede calcularse una ganancia de predicción mediante el análisis de predicción lineal, y puede generarse la información de envolvente temporal basándose en la ganancia de predicción. Cuando se calcula la ganancia de predicción, puede realizarse el análisis de predicción lineal en el/los coeficiente(s) de transformada (o muestra(s) de subbanda) de la totalidad de la(s) banda(s) de frecuencia de una señal de audio de entrada, o puede realizarse el análisis de predicción lineal en el/los coeficiente(s) de transformada (o muestra(s) de subbanda) de una parte de la(s) banda(s) de frecuencia de una señal de audio de entrada. Además, una señal de audio de entrada puede dividirse en una pluralidad de segmentos de bandas de frecuencia, y puede realizarse el análisis de predicción lineal del/de los coeficiente(s) de transformada (o muestra(s) de subbanda) para cada segmento de banda de frecuencia, y debido a que se obtiene una pluralidad de ganancias de predicción en este caso, la información de envolvente temporal puede generarse usando la pluralidad de ganancias de predicción.

Además, por ejemplo, una información obtenida cuando se codifica la señal de audio en la unidad 21a de codificación puede ser al menos una de información obtenida cuando se codifica mediante el esquema de codificación que corresponde al primer esquema de decodificación (primer esquema de codificación) e información obtenida cuando se codifica mediante el esquema de codificación que corresponde al segundo esquema de decodificación (segundo esquema de codificación) en el caso en el que la unidad 10a de decodificación tiene la configuración del segundo ejemplo.

La unidad 21c de multiplexación multiplexa la secuencia codificada obtenida mediante la unidad de codificación y la información de envolvente temporal obtenida mediante la unidad de codificación de información de envolvente temporal y las emite (etapa S21-3).

[Tercera realización] La figura 18 es una vista que muestra la configuración de un dispositivo 12 de decodificación de audio según una tercera realización. Un dispositivo de comunicación del dispositivo 12 de decodificación de audio recibe una secuencia codificada de una señal de audio y emite una señal de audio decodificada al exterior. Tal como se muestra en la figura 18, el dispositivo 12 de decodificación de audio incluye funcionalmente una unidad 10a de decodificación y una unidad 12a de conformación de envolvente temporal.

La figura 19 es un diagrama de flujo que muestra el funcionamiento del dispositivo 12 de decodificación de audio según la tercera realización. La unidad 10a de decodificación decodifica una secuencia codificada y genera una señal decodificada (etapa S10-1). Después, la unidad 12a de conformación de envolvente temporal conforma la envolvente temporal de la señal decodificada que se emite desde la unidad 10a de decodificación en una envolvente temporal deseada (etapa S12-1). Para la conformación de envolvente temporal, tal como se describió en la primera realización, puede usarse un método que hace plana la envolvente temporal filtrando con el filtro inverso de predicción lineal que usa un(os) coeficiente(s) de predicción lineal obtenido(s) mediante análisis de predicción lineal de un(os) coeficiente(s) de transformada de una señal decodificada, o un método que hace que la envolvente temporal se eleve o caiga filtrando con el filtro de predicción lineal que usa el/los coeficiente(s) de predicción lineal. Además, puede ajustarse la intensidad de hacer plana, que se eleve o caiga la envolvente temporal usando una razón de expansión de ancho de banda, o puede realizarse la conformación de envolvente temporal en el ejemplo descrito anteriormente en una(s) submuestra(s) a tiempo arbitrario t de una señal de subbanda obtenida transformando una señal decodificada en una señal de dominio de frecuencias mediante un banco de filtros, en lugar de un(os) coeficiente(s) de transformada de la señal decodificada. Además, tal como se describe en la primera realización, la amplitud de la señal de subbanda puede corregirse para lograr una envolvente temporal deseada en un segmento de tiempo arbitrario, y, por ejemplo, la envolvente temporal puede aplanarse cambiando la amplitud de la señal de subbanda en la amplitud promedio de una(s) componente(s) de frecuencia (o banda(s) de frecuencia) en la(s) que va a realizarse la conformación de envolvente temporal. Puede realizarse la conformación de envolvente temporal descrita anteriormente en toda la banda de frecuencia de la señal decodificada, o puede realizarse en una(s) banda(s) de frecuencia especificada(s).

[Cuarta realización] La figura 20 es una vista que muestra la configuración de un dispositivo 13 de decodificación de audio según una cuarta realización. Un dispositivo de comunicación del dispositivo 13 de decodificación de audio recibe una secuencia codificada de una señal de audio y emite una señal de audio decodificada al exterior. Tal como se muestra en la figura 20, el dispositivo 13 de decodificación de audio incluye funcionalmente una unidad 11a de demultiplexación, una unidad 10a de decodificación, y una unidad 13a de conformación de envolvente temporal.

La figura 21 es un diagrama de flujo que muestra el funcionamiento del dispositivo 13 de decodificación de audio según la cuarta realización. La unidad 11a de demultiplexación divide una secuencia codificada en la secuencia codificada para obtener una señal decodificada e información de envolvente temporal decodificando/realizando la cuantización inversa (etapa S11-1). La unidad 10a de decodificación decodifica la secuencia codificada y genera de ese modo una señal decodificada (etapa S10-1). La unidad 13a de conformación de envolvente temporal recibe la información de envolvente temporal desde la unidad 11a de demultiplexación, y conforma la envolvente temporal de la señal decodificada que se emite desde la unidad 10a de decodificación en una envolvente temporal deseada basándose en la información de envolvente temporal (etapa S13-1).

La información de envolvente temporal puede ser información que indica que la envolvente temporal de una señal de entrada que se ha codificado mediante un dispositivo codificador es plana, información que indica que la envolvente temporal de la señal de entrada está elevándose, o información que indica que la envolvente temporal de la señal de entrada está cayendo, tal como se describe en la segunda realización. Además, por ejemplo, la información de envolvente temporal puede ser información que indica el grado de planitud de la envolvente temporal de la señal de entrada, información que indica el grado de elevación de la envolvente temporal de la señal de entrada, información que indica el grado de caída de la envolvente temporal de la señal de entrada, o información que indica si se conforma o no la envolvente temporal en la unidad 13a de conformación de envolvente temporal.

[Configuración de hardware] Cada uno de los dispositivos 10, 11, 12, 13 de decodificación de audio y el dispositivo 21 de codificación de audio descritos anteriormente está compuesto por hardware tal como una CPU. La figura 11 es una vista que muestra un ejemplo de configuraciones de hardware de los dispositivos 10, 11, 12, 13 de decodificación de audio y el dispositivo 21 de codificación de audio. Tal como se muestra en la figura 11, cada uno de los dispositivos 10, 11, 12, 13 de decodificación de audio y el dispositivo 21 de codificación de audio está configurado físicamente como un sistema informático que incluye una CPU 100, una RAM 101 y una ROM 102 como un dispositivo de almacenamiento principal, un dispositivo 103 de entrada/salida tal como una pantalla, un módulo 104 de comunicación, un dispositivo 105 de almacenamiento auxiliar y similares.

Las funciones de cada bloque funcional de los dispositivos 10, 11, 12, 13 de decodificación de audio y el dispositivo 21 de codificación de audio se implementan cargando el software informático dado en hardware tal como la CPU 100, la RAM 101 o similares mostrados en la figura 22, haciendo que el dispositivo 103 de entrada/salida, el módulo 104 de comunicación y el dispositivo 105 de almacenamiento auxiliar funcionen bajo el control de la CPU 100, y realizando la lectura y escritura de datos en la RAM 101.

[Estructura de programa] A continuación en el presente documento se describen un programa 50 de decodificación de audio y un programa 60 de codificación de audio que hacen que un ordenador ejecute el procesamiento mediante los dispositivos 10, 11, 12, 13 de decodificación de audio y el dispositivo 21 de codificación de audio mencionados con anterioridad, respectivamente.

Tal como se muestra en la figura 23, el programa 50 de decodificación de audio se almacena en una zona 41 de almacenamiento de programa formada en un medio 40 de grabación que se inserta en un ordenador y se accede, o se incluye en un ordenador. Para ser más preciso, el programa 50 de decodificación de audio se almacena en la zona 41 de almacenamiento de programa formada en el medio 40 de grabación que se incluye en el dispositivo 10 de decodificación de audio.

Las funciones implementadas ejecutando un módulo 50a de decodificación y un módulo 50b de conformación de envolvente temporal selectiva del programa 50 de decodificación de audio son las mismas respectivamente que las funciones de la unidad 10a de decodificación y la unidad 10b de conformación de envolvente temporal selectiva del dispositivo 10 de decodificación de audio descritas anteriormente. Además, el módulo 50a de decodificación incluye módulos para que sirvan como la unidad 10aA de decodificación/cuantización inversa, la unidad 10aB de emisión de información relacionada con la decodificación y la unidad 10aC de transformada inversa de tiempo-frecuencia. Además, el módulo 50a de decodificación puede incluir módulos para que sirvan como la unidad 10aD de análisis de secuencia codificada, la primera unidad 10aE de decodificación y la segunda unidad 10aF de decodificación.

Además, el módulo 50b de conformación de envolvente temporal selectiva incluye módulos para que sirvan como la unidad 10bA de transformada de tiempo-frecuencia, la unidad 10bB de selección de frecuencia, la unidad 10bC de conformación de envolvente temporal selectiva en frecuencia y la unidad 10bD de transformada inversa de tiempofrecuencia.

Además, con el fin de servir como el dispositivo 11 de decodificación de audio descrito anteriormente, el programa 50 de decodificación de audio incluye módulos para que sirvan como la unidad 11a de demultiplexación, la unidad 10a de decodificación y la unidad 11b de conformación de envolvente temporal selectiva.

Además, con el fin de que sirva como el dispositivo 12 de decodificación de audio descrito anteriormente, el programa 50 de decodificación de audio incluye módulos para que sirvan como la unidad 10a de decodificación y la unidad 12a de conformación de envolvente temporal.

Además, con el fin de que sirva como el dispositivo 13 de decodificación de audio descrito anteriormente, el programa 50 de decodificación de audio incluye módulos para que sirvan como la unidad 11a de demultiplexación, la unidad 10a de decodificación y la unidad 13a de conformación de envolvente temporal.

Además, tal como se muestra en la figura 24, el programa 60 de codificación de audio se almacena en una zona 41 de almacenamiento de programa formada en un medio 40 de grabación que se inserta en un ordenador y se accede, o se incluye en un ordenador. Para ser más preciso, el programa 60 de codificación de audio se almacena en la zona 41 de almacenamiento de programa formada en el medio 40 de grabación que se incluye en el dispositivo 20 de codificación de audio.

El programa 60 de codificación de audio incluye un módulo 60a de codificación, un módulo 60b de codificación de información de envolvente temporal y un módulo 60c de multiplexación. Las funciones implementadas ejecutando el módulo 60a de codificación, el módulo 60b de codificación de información de envolvente temporal y el módulo 60c de multiplexación son las mismas que las funciones de la unidad 21a de codificación, la unidad 21b de codificación de información de envolvente temporal y la unidad 21c de multiplexación del dispositivo 21 de codificación de audio descritas con anterioridad, respectivamente.

Obsérvese que una parte o la totalidad de cada uno del programa 50 de decodificación de audio y el programa 60 de codificación de audio puede transmitirse a través de un medio de transmisión tal como una línea de comunicación, recibirse y grabarse (incluso instalarse) en otro dispositivo. Además, cada módulo del programa 50 de decodificación de audio y el programa 60 de codificación de audio puede instalarse no en un ordenador sino en cualquiera de una pluralidad de ordenadores. En este caso, el procesamiento de cada uno del programa 50 de decodificación de audio y el programa 60 de codificación de audio se realiza mediante un sistema informático compuesto por la pluralidad de ordenadores.

Lista de signos de referencia

10aF-1...unidad de cuantización inversa, 10...dispositivo de decodificación de audio, 10a...unidad de decodificación, 10aA...unidad de decodificación/cuantización inversa, 10aB...unidad de emisión de información relacionada con la decodificación, 10aC...unidad de transformada inversa de tiempo-frecuencia, 10aD... unidad de análisis de secuencia codificada, 10aE...primera unidad de decodificación, 10aE-a...primera unidad de decodificación/cuantización inversa, 10aE-b...primera unidad de emisión de información relacionada con la decodificación, 10aF...segunda unidad de decodificación, 10aF-a...segunda unidad de decodificación/cuantización inversa, 10aF-b... segunda unidad de emisión de información relacionada con la decodificación, 10aF-c...unidad de síntesis de señal decodificada, 10b... unidad de conformación de envolvente temporal selectiva, 10bA...unidad de transformada de tiempo-frecuencia, 10bB...unidad de selección de frecuencia, 10bC...unidad de conformación de envolvente temporal selectiva en frecuencia, 10bD...unidad de transformada inversa de tiempo-frecuencia, 11...dispositivo de decodificación de audio, 11a... unidad de demultiplexación, 11b...unidad de conformación de envolvente temporal selectiva, 12...dispositivo de decodificación de audio, 12a...unidad de conformación de envolvente temporal, 13...dispositivo de decodificación de audio, 13a...unidad de conformación de envolvente temporal, 21...dispositivo de codificación de audio, 21a...unidad de codificación, 21b...unidad de codificación de información de envolvente temporal, 21c...unidad de multiplexación

Claims

REIVINDICACIONES

i.Dispositivo (21) de codificación de audio que codifica una señal de audio de entrada y emite una secuencia codificada, que comprende:

una unidad (21a) de codificación configurada para codificar la señal de audio y obtener una secuencia codificada que contiene la señal de audio;

una unidad (21b) de obtención de información de envolvente temporal configurada para obtener información acerca de una envolvente temporal de la señal de audio; y

una unidad (21c) de multiplexación configurada para multiplexar la secuencia codificada obtenida por la unidad (21a) de codificación y la información acerca de la envolvente temporal obtenida por la unidad (21b) de obtención de información de envolvente temporal,

en el que la información acerca de la envolvente temporal se genera usando un resultado del análisis de predicción lineal de un coeficiente de transformada obtenido por transformada de tiempo-frecuencia de la señal de audio de entrada, y

caracterizado porque la información acerca de la envolvente temporal es información que indica que la envolvente temporal es plana.
2. Dispositivo (21) de codificación de audio según la reivindicación 1, en el que la información acerca de la envolvente temporal se genera basándose en una ganancia de predicción calculada por el análisis de predicción lineal.
3. Dispositivo (21) de codificación de audio según la reivindicación 2, en el que cuando se calcula la ganancia de predicción, el análisis de predicción lineal se realiza en el coeficiente de transformada de una parte de una banda de frecuencia de la señal de audio de entrada.
4. Dispositivo (21) de codificación de audio según la reivindicación 3, en el que la información acerca de la envolvente temporal se genera basándose en una pluralidad de ganancias de predicción obtenidas dividiendo la señal de audio de entrada en una pluralidad de segmentos de banda de frecuencia y realizando el análisis de predicción lineal del coeficiente de transformada para cada segmento de banda de frecuencia.
5. Método de codificación de audio de un dispositivo (21) de codificación de audio que codifica una señal de audio de entrada y emite una secuencia codificada, que comprende:

una etapa (S21-1) de codificación para codificar la señal de audio y obtener una secuencia codificada que contiene la señal de audio;

una etapa (S21-2) de obtención de información de envolvente temporal para obtener información acerca de una envolvente temporal de la señal de audio; y

una etapa (S21-2) de multiplexación para multiplexar la secuencia codificada obtenida por la etapa de codificación y la información acerca de la envolvente temporal obtenida por la etapa de obtención de información de envolvente temporal,

en el que la información acerca de la envolvente temporal se genera usando un resultado del análisis de predicción lineal de un coeficiente de transformada obtenido por la transformada de tiempo-frecuencia de la señal de audio de entrada, y

caracterizado porque la información acerca de la envolvente temporal es información que indica que la envolvente temporal es plana.