[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

PT2146344T - Esquema de codificação/descodificação de áudio com uma derivação comutável - Google Patents

Esquema de codificação/descodificação de áudio com uma derivação comutável Download PDF

Info

Publication number
PT2146344T
PT2146344T PT90022708T PT09002270T PT2146344T PT 2146344 T PT2146344 T PT 2146344T PT 90022708 T PT90022708 T PT 90022708T PT 09002270 T PT09002270 T PT 09002270T PT 2146344 T PT2146344 T PT 2146344T
Authority
PT
Portugal
Prior art keywords
domain
signal
audio signal
converter
processed
Prior art date
Application number
PT90022708T
Other languages
English (en)
Inventor
Popp Harald
Lefebvre Roch
Hilpert Johannes
Geyersberger Stefan
Multrus Markus
Geiger Ralf
Gournay Philippe
Salami Redwan
Bessette Bruno
Grill Bernhard
Bayer Stefan
Lapierre Jimmy
Lecomte Jeremie
Neuendorf Max
Rettelbach Nikolaus
Fuchs Guillaume
Krämer* Ulrich
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40718647&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=PT2146344(T) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT2146344T publication Critical patent/PT2146344T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

DESCRIÇÃO
ESQUEMA DE CODIFICAÇÃO/DESCODIFICAÇÃO DE ÁUDIO COM UMA DERIVAÇÃO
COMUTÁVEL A presente invenção refere-se a codificação de áudio e, particularmente, a esquemas de codificação de áudio de baixo débito binário.
Na área conhecem-se esquemas de codificação no dominio da frequência, tais como MP3 ou AAC. Estes codificadores no dominio da frequência baseiam-se numa conversão dominio temporal/dominio da frequência, numa etapa de quantificação subsequente, em que o erro da quantificação é controlado utilizando informação de um módulo psicoacústico, e numa etapa de codificação, em que os coeficientes espetrais quantificados e correspondente informação lateral são codificados por entropia utilizando tabelas de código.
Por outro lado, há codificadores que são muito adequados para o processamento de voz, tais como o AMR-WB+ descrito em 3GPP TS 26.290. Tais esquemas codificadores de voz efetuam uma filtragem de Previsão Linear de um sinal do dominio temporal. Tal filtragem de LP é derivada de uma análise de Previsão Linear de um sinal de entrada no dominio temporal. Os coeficientes de filtro de LP resultantes são depois codificados e transmitidos como informação lateral. O processo é conhecido como Codificação de Previsão Linear (LPC). À saida do filtro, o sinal residual de previsão ou sinal de erro de previsão, que também é conhecido como sinal de excitação, é codificado utilizando as etapas de análise por síntese do codificador de ACELP ou, alternativamente, é codificado utilizando um codificador de transformada, que emprega uma transformada de Fourier com uma sobreposição. A decisão entre a codificação de ACELP e a codificação com excitação Codificada por Transformada, que também é denominada codificação de TCX, é tomada utilizando um algoritmo de ciclo fechado ou de ciclo aberto.
Esquemas de codificação de áudio no domínio da frequência, tais como o esquema de codificação AAC de alta eficiência, que combina um esquema de codificação AAC e uma técnica de replicação de largura de banda espetral, também podem ser combinados com uma ferramenta de codificação estéreo combinada ou de múltiplos canais que é conhecida pela designação "MPEG surround".
Por outro lado, codificadores de voz tais como o AMR-WB+ também têm uma etapa de aumento de alta frequência e uma funcionalidade estéreo.
Esquemas de codificação no domínio da frequência são vantajosos por exibirem uma elevada qualidade a baixos débitos binários para sinais de música. No entanto, é problemática a qualidade de sinais de voz a baixos débitos binários.
Os esquemas de codificação de voz exibem uma elevada qualidade para sinais de voz mesmo a baixos débitos binários, mas exibem fraca qualidade para sinais de música a baixos débitos binários. WO 2008/071353 A2 e RAMPRASHAD, S. A. "The Multimode Transform Predictive Coding Paradigm". IEEE Transactions on Speech and Audio Processing, Volume 11, No. 2, março de 2003, páginas 117-129, XP011079700, revelam exemplos de esquemas híbridos para codificação e descodificação de sinais de voz e áudio.
Um objetivo da presente invenção consiste em proporcionar um conceito de codificação/descodificação aperfeiçoado.
Este objetivo é atingido por um aparelho para codificar um sinal de áudio de acordo com a reivindicação 1, um método para codificar um sinal de áudio de acordo com a reivindicação 11, um aparelho para descodificar um sinal de áudio codificado de acordo com a reivindicação 12, um método para descodificar um sinal de áudio codificado de acordo com a reivindicação 18 ou um programa computacional de acordo com a reivindicação 19.
Num codificador de acordo com a presente invenção utilizam-se dois conversores de domínio, em que o primeiro conversor de domínio converte um sinal de áudio do primeiro domínio, tal como o domínio temporal, num segundo domínio, tal como um domínio de LPC. 0 segundo conversor de domínio opera para converter de um domínio de entrada num domínio de saída e o segundo conversor de domínio recebe, como entrada, um sinal de saída do primeiro conversor de domínio ou um sinal de saída de uma derivação comutável que está conectada para contornar o primeiro conversor de domínio. Por outras palavras, tal significa que o segundo conversor de domínio recebe, como entrada, o sinal de áudio no primeiro domínio, tal como o domínio temporal, ou, alternativamente, o sinal de saída do primeiro conversor de domínio, isto é, um sinal de áudio, que já foi convertido de um domínio num domínio diferente. A saída do segundo conversor de domínio é processada por um primeiro processador para gerar um primeiro sinal processado e a saída do primeiro conversor de domínio é processada por um segundo processador para gerar um segundo sinal processado. Preferencialmente, a derivação comutável também pode ser adicionalmente conectada ao segundo processador de modo que a entrada para o segundo processador seja o sinal de áudio no domínio temporal em vez de uma saída do primeiro conversor de domínio.
Este conceito de codificação extremamente flexível é especificamente útil para codificação de áudio de elevada qualidade e elevada eficiência binária, uma vez que permite codificar um sinal de áudio em pelo menos três domínios diferentes e, quando a derivação comutável também é adicionalmente conectada ao segundo processador, mesmo em quatro domínios. Tal pode ser atingido por comutação controlável da derivação comutável para contornar ou passar por cima, ou não, do primeiro conversor de domínio para uma determinada parte do sinal de áudio no domínio temporal. Mesmo que o primeiro conversor de domínio seja contornado, ainda restam duas possibilidades diferentes para codificar o sinal de áudio no domínio temporal, isto é, via o primeiro processador conectado a um segundo conversor de domínio ou ao segundo processador.
Preferencialmente, o primeiro processador e o segundo conversor de domínio formam em conjunto um codificador de modelo de depósito de informação, tal como o codificador de áudio acionado de modo psicoacústico conhecido da Camada 3 de MPEG 1 ou MPEG 4 (AAC).
Preferencialmente, o outro codificador, isto é, o segundo processador, é um codificador do domínio temporal, que é, por exemplo, o codificador residual conhecido de um codificador de ACELP, onde o sinal residual de LPC é codificado utilizando um codificador residual, tal como um codificador de quantificação vetorial para o sinal residual de LPC ou um sinal do domínio temporal. Numa forma de realização, este codificador do domínio temporal recebe, como entrada, um sinal de domínio de LPC, quando a derivação está aberta. Tal codificador é um codificador de modelo de fonte de informação uma vez que, em contraste com o codificador de modelo de depósito de informação, o codificador de modelo de fonte de informação é especificamente concebido para utilizar características específicas de um modelo de geração de voz. No entanto, quando a derivação está fechada, o sinal de entrada para o segundo processador será um sinal do domínio temporal em vez de um sinal de domínio de LPC.
No entanto, se a derivação comutável estiver desativada, o que significa que o sinal de áudio do primeiro domínio é convertido num segundo domínio antes de ser adicionalmente processado, mais uma vez continuam a existir duas possibilidades diferentes, isto é, codificar a saída do primeiro conversor de domínio no segundo domínio, que pode ser, por exemplo, um domínio de LPC, ou, alternativamente, transformar o sinal do segundo domínio num terceiro domínio, que pode ser, por exemplo, um domínio espetral.
Vantajosamente, o conversor de domínio espetral, isto é, o segundo conversor de domínio, está adaptado para implementar o mesmo algoritmo independentemente de o sinal de entrada para o segundo conversor de domínio estar no primeiro domínio, tal como o domínio temporal, ou estar no segundo domínio, tal como o domínio de LPC.
No lado do descodificador existem duas ramificações de descodificação diferentes em que uma ramificação de descodificação inclui um conversor de domínio, isto é, o segundo conversor de domínio, ao passo que a outra ramificação de descodificação inclui apenas um processador inverso, mas não inclui um conversor de domínio. Dependendo do cenário real da derivação no lado do codificador, isto é, se a derivação estava ativa ou não, um primeiro conversor num descodificador é contornado ou não. Em particular, o primeiro conversor num descodificador é contornado quando a saída do segundo conversor já está no domínio alvo, tal como o primeiro domínio ou domínio temporal. No entanto, se a saída do segundo conversor no descodificador estiver num domínio diferente do primeiro domínio, então a derivação do descodificador é desativada e o sinal é convertido do domínio diferente no domínio alvo, isto é, o primeiro domínio na forma de realização preferencial. 0 segundo sinal processado está, numa forma de realização, no mesmo domínio, isto é, no segundo domínio, mas noutras formas de realização em que uma derivação comutável no lado do codificador também é conectável ao segundo processador, a saída do segundo processador inverso no lado do descodificador também já pode estar no primeiro domínio. Neste caso, o primeiro conversor é contornado utilizando a derivação comutável no lado do descodif icador de modo que um combinador de saída do descodificador recebe sinais de entrada, que representam partes diferentes de um sinal de áudio e que estão no mesmo domínio. Estes sinais podem ser multiplexados no tempo pelo combinador ou podem sofrer desvanecimento cruzado pelo combinador de saída do descodificador.
Numa forma de realização preferencial, o aparelho para codificar compreende uma etapa de pré-processamento em comum para comprimir um sinal de entrada. Esta etapa de pré-processamento em comum pode incluir o processador de múltiplos canais e/ou um processador de replicação de largura de banda espetral de modo que a saída da etapa de pré-processamento em comum para todos os diferentes modos de codificação seja uma versão comprimida relativamente a uma entrada na etapa de pré-processamento em comum. De modo correspondente, o sinal de saída do combinador do lado do descodificador pode ser pós-processado por uma etapa de pós-processamento em comum que, por exemplo, opera para efetuar uma síntese de replicação de largura de banda espetral e/ou uma operação de expansão de múltiplos canais, tal como uma operação de mistura ascendente de múltiplos canais, que é preferencialmente guiada utilizando informação paramétrica de múltiplos canais transmitida do lado do codificador para o lado do descodificador.
Numa forma de realização preferencial, o primeiro domínio onde está localizada a entrada do sinal de áudio para o codificador e a saída do sinal de áudio pelo descodificador é o domínio temporal. Numa forma de realização preferencial, o segundo domínio onde está posicionada a saída do primeiro conversor de domínio é um domínio de LPC, de modo que o primeiro conversor de domínio é uma etapa de análise de LPC. Numa forma de realização adicional, o terceiro domínio, isto é, onde está posicionada a saída do segundo conversor de domínio, é um domínio espetral ou é um domínio espetral do sinal de domínio de LPC gerado pelo primeiro conversor de domínio. 0 primeiro processador conectado ao segundo conversor de domínio é preferencialmente implementado como um codificador de depósito de informação, tal como um quantificador/contador, em conjunto com um código de redução de entropia, tal como um quantificador acionado de modo psicoacústico, conectado a um codificador de Huffman ou um codificador aritmético, que desempenhe as mesmas funcionalidades independentemente de o sinal de entrada se encontrar no domínio espetral ou no domínio espetral de LPC.
Numa forma de realização adicional preferencial, o segundo processador para processamento da saída do primeiro conversor de domínio ou para processamento da saída da derivação comutável num dispositivo de funcionalidade completa é um codificador do domínio temporal, tal como um codificador de sinal residual utilizado no codificador de ACELP ou em quaisquer outros codificadores de CELP.
Formas de realização preferenciais da presente invenção são subsequentemente descritas relativamente às figuras adjuntas, em que: A Fig. la é um diagrama de blocos de um esquema codificador de acordo com um primeiro aspeto da presente invenção; A Fig. lb é um diagrama de blocos de um esquema descodificador de acordo com o primeiro aspeto da presente invenção; A Fig. lc é um diagrama de blocos de um esquema codificador de acordo com um aspeto adicional da presente invenção; A Fig. Id é um diagrama de blocos de um esquema descodificador de acordo com o aspeto adicional da presente invenção; A Fig. 2a é um diagrama de blocos de um esquema codificador de acordo com um segundo aspeto da presente invenção, e A Fig. 2b é um diagrama esquemático de um esquema descodificador de acordo com o segundo aspeto da presente invenção; A Fig. 2c é um diagrama de blocos de um pré-processamento em comum preferencial da Fig. 2a, e A Fig. 2d é um diagrama de blocos de um pós-processamento em comum preferencial da Fig. 2b; A Fig. 3a ilustra um diagrama de blocos de um esquema codificador de acordo com um aspeto adicional da presente invenção;
Fig. 3b ilustra um diagrama de blocos de um esquema descodificador de acordo com o aspeto adicional da presente invenção; A Fig. 3c ilustra uma representação esquemática do aparelho/método codificador com comutadores em cascata; A Fig. 3d ilustra um diagrama esquemático de um aparelho ou método para descodificar em que são utilizados combinadores em cascata; A Fig. 3e apresenta uma ilustração de um sinal do domínio temporal e uma representação correspondente do sinal codificado, ilustrando regiões pequenas de desvanecimento cruzado que são incluídas em ambos os sinais codificados; A Fig. 4a ilustra um diagrama de blocos com um comutador posicionado antes das ramificações codificadoras; A Fig. 4b ilustra um diagrama de blocos de um esquema codificador com o comutador posicionado de modo subsequente à codificação das ramificações; A Fig. 4c ilustra um diagrama de blocos para uma forma de realização preferencial de um combinador; A Fig. 5a ilustra uma forma de onda de um segmento de voz do domínio temporal como um segmento de sinal quasi-periódico ou do tipo impulso; A Fig. 5b ilustra um espetro do segmento da Fig. 5a; A Fig. 5c ilustra um segmento de voz do domínio temporal de voz não vocalizada como exemplo de um segmento do tipo ruído ou estacionário; A Fig. 5d ilustra um espetro da forma de onda do domínio temporal da Fig. 5c; A Fig. 6 ilustra um diagrama de blocos de uma análise por codificador de CELP de síntese;
As Figs. 7a até 7d ilustram sinais de excitação vocalizados/não vocalizados como exemplo de sinais do tipo impulso e estacionários; A Fig. 7e ilustra uma etapa de LPC do lado do codificador que proporciona informação de previsão a curto prazo e o sinal de erro de previsão; A Fig. 7f ilustra uma forma de realização adicional de um dispositivo LPC para gerar um sinal ponderado; A Fig. 7g ilustra uma implementação para transformar um sinal ponderado num sinal de excitação por aplicação de uma operação de ponderação inversa e uma análise de excitação subsequente como requerido no conversor 537 da Fig. 2b; A Fig. 8 ilustra um diagrama de blocos de um algoritmo combinado de múltiplos canais de acordo com uma forma de realização da presente invenção; A Fig. 9 ilustra uma forma de realização preferencial de um algoritmo de extensão de largura de banda; A Fig. 10a ilustra uma descrição pormenorizada do comutador quando se implementa uma decisão de ciclo aberto, e A Fig. 10b apresenta uma ilustração do comutador quando se opera num modo de decisão de ciclo fechado. A Fig. la ilustra uma forma de realização da invenção em que há dois conversores de domínio 510, 410 e a derivação comutável 50. A derivação comutável 50 está adaptada para ser ativa ou inativa em resposta a um sinal de comando 51, que entra numa entrada de comando de comutação da derivação comutável 50. Se a derivação comutável estiver ativa, o sinal de áudio numa entrada do sinal de áudio 99, 195 não é alimentado para o primeiro conversor de domínio 510, mas é alimentado para a derivação comutável 50 de modo que o segundo conversor de domínio 410 recebe o sinal de áudio na entrada 99, 195 diretamente. Numa forma de realização, que será discutida em conexão com as Figs, lc e Id, a derivação comutável 50 é alternativamente conectável ao segundo processador 520 sem ser conectada ao segundo conversor de domínio 410, de modo que o sinal de saída da derivação comutável 50 é processado apenas via o segundo processador 520.
No entanto, se a derivação comutável 50 for colocada num estado inativo pelo sinal de comando 51, o sinal de áudio na entrada do sinal de áudio 99 ou 195 entra no primeiro conversor de domínio 510 e, à saída do primeiro conversor de domínio 510, entra no segundo conversor de domínio 410 ou no segundo processador 520. A decisão de o sinal de saída do primeiro conversor de domínio entrar no segundo conversor de domínio 410 ou no segundo processador 520 é preferencialmente tomada também com base num sinal de comando do comutador mas, alternativamente, pode ser tomada via outros meios, tais como metadados ou com base numa análise do sinal. Alternativamente, o sinal do primeiro conversor de domínio 510 pode mesmo entrar em ambos os dispositivos 410, 520 e a seleção de qual o sinal de processo que entra na interface de saída para representar o sinal de áudio num determinado intervalo de tempo é tomada via um comutador conectado entre os processadores e a interface de saída, como discutido em conexão com a Fig. 4b. Por outro lado, a decisão de qual o sinal que entra no fluxo de dados de saída também pode ser tomada dentro da própria interface de saída 800.
Como ilustrado na Fig. la, o aparelho inventivo para codificar um sinal de áudio para obter um sinal de áudio codificado em que o sinal de áudio na entrada 99/195 está no primeiro domínio compreende o primeiro conversor de domínio para converter o sinal de áudio do primeiro domínio num segundo domínio. Adicionalmente é proporcionada a derivação comutável 54 que contorna o primeiro conversor de domínio 510 ou para forçar uma conversão do sinal de áudio pelo primeiro conversor de domínio em resposta a um sinal de comando de comutação da derivação 51. Assim, no estado ativo, a derivação comutável contorna o primeiro conversor de domínio e, no estado não ativo, o sinal de áudio entra no primeiro conversor de domínio.
Adicionalmente é proporcionado o segundo conversor de domínio 410 para converter o sinal de áudio recebido da derivação comutável 50 ou do primeiro conversor de domínio num terceiro domínio. 0 terceiro domínio é diferente do segundo domínio. Além disso, é proporcionado um primeiro processador 420 para codificar o sinal de áudio do terceiro domínio de acordo com um primeiro algoritmo codificador para obter um primeiro sinal processado. Adicionalmente, é proporcionado um segundo processador 520 para codificar o sinal de áudio recebido do primeiro conversor de domínio de acordo com um segundo algoritmo codificador, em que o segundo algoritmo codificador é diferente do primeiro algoritmo codificador. O segundo processador proporciona o segundo sinal processado. Em particular, o aparelho está adaptado para ter um sinal de áudio codificado na sua saída para uma parte do sinal de áudio em que este sinal codificado inclui o primeiro sinal processado ou o segundo sinal processado. Naturalmente, pode haver regiões que se cruzam, mas considerando uma eficiência de codificação aumentada, o objetivo é manter as regiões que se cruzam tão pequenas quanto possível e eliminá-las sempre que for possível de modo de modo a obter-se uma compressão máxima do débito binário. A Fig. lb ilustra um descodificador correspondente ao codificador da Fig. la numa forma de realização preferencial. O aparelho para descodificar um sinal de áudio codificado na Fig.lb recebe, como entrada, um sinal de áudio codificado que compreende um primeiro sinal processado que está num terceiro domínio e um segundo sinal processado que está num segundo domínio, em que o segundo domínio e o terceiro domínio são diferentes entre si. Em particular, a entrada de sinal numa interface de entrada 900 é semelhante à saída da interface 800 da Fig. la. O aparelho para descodificar compreende um primeiro processador inverso 430 para o processamento inverso do primeiro sinal processado e um segundo processador inverso 530 para o processamento inverso do segundo sinal processado. Adicionalmente, é proporcionado um segundo conversor 440 para conversão de domínio do primeiro sinal processado inverso do terceiro domínio num domínio diferente. Além disso é proporcionado um primeiro conversor 540 para converter o segundo sinal processado inverso num primeiro domínio ou para converter o primeiro sinal processado inverso no primeiro domínio quando o domínio diferente não é o primeiro domínio. Tal significa que o primeiro sinal processado inverso só é convertido pelo primeiro conversor quando o primeiro sinal processado ainda não se encontra no primeiro domínio, isto é, num domínio alvo em que deverá estar o sinal de áudio descodificado ou o sinal de áudio intermédio no caso de um circuito de pré-processamento/pós-processamento. Adicionalmente, o descodificador compreende uma derivação 52 para contornar o primeiro conversor 540 quando o domínio diferente é o primeiro domínio. 0 circuito na Fig. lb compreende adicionalmente um combinador 600 para combinar uma saída do primeiro conversor 540 e uma saída de derivação, isto é, um sinal emitido pela derivação 52, para obter um sinal de áudio descodificado combinado 699, que pode ser utilizado como tal ou que pode mesmo ser descomprimido utilizando uma etapa de pós-processamento em comum, como será discutido mais tarde. A Fig. lc ilustra uma forma de realização preferencial do codificador de áudio inventivo em que é proporcionado o classificador de sinal no modelo psicoacústico 300 para classificar a entrada do sinal de áudio numa etapa de pré-processamento em comum formada por um codificador MPEG Surround 101 e um processador de replicação de banda espetral intensificada 102. Adicionalmente, o primeiro conversor de domínio 510 é uma etapa de análise de LPC e a derivação comutável é conectada entre uma entrada e uma saída da etapa de análise de LPC 510, que é o primeiro conversor de domínio. 0 dispositivo de LPC geralmente emite um sinal de domínio de LPC, que pode ser qualquer sinal no domínio de LPC, tal como o sinal de excitação na Fig. 7e ou um sinal ponderado na Fig. 7f ou qualquer outro sinal que tenha sido gerado por aplicação de coeficientes de filtros de LPC a um sinal de áudio. Adicionalmente, um dispositivo de LPC também pode determinar estes coeficientes e também pode quantificar/codificar estes coeficientes.
Adicionalmente, é proporcionado um comutador 200 à saída do primeiro conversor de domínio de modo que um sinal na saída em comum da derivação 50 e da etapa de LPC 510 é enviado para uma primeira ramificação de codificação 400 ou para uma segunda ramificação de codificação 500. A primeira ramificação de codificação 400 compreende o segundo conversor de domínio 410 e o primeiro processador 420 da Fig. la e a segunda ramificação de codificação 500 compreende o segundo processador 520 da Fig. la. Na forma de realização do codificador da Fig. lc, a entrada do primeiro conversor de domínio 510 está conectada à entrada da derivação comutável 50 e a saída da derivação comutável 50 está conectada à saída do primeiro conversor de domínio 510 de modo a formar uma saída em comum e esta saída em comum entra no comutador 200 em que o comutador compreende duas saídas, mas pode mesmo compreender saídas adicionais para processadores de codificação adicionais.
Preferencialmente, o segundo conversor de domínio 410 na primeira ramificação de codificação 400 compreende uma transformada de MDCT que, adicionalmente, é combinada com uma funcionalidade de distorção temporal (TW) comutável. O espetro de MDCT é codificado utilizando um contador/quantificador, que efetua uma quantificação de valores de entrada com base em informação proporcionada pelo modelo psicoacústico localizado dentro do bloco classificador de sinal 300. Por outro lado, o segundo processador compreende um codificador do domínio temporal para codificar no dominio temporal o sinal de entrada. Numa forma de realização, o comutador 200 é controlado de modo que, no caso de uma derivação 50 ativa/fechada, o comutador 200 é automaticamente ajustado à ramificação de codificação superior 400. No entanto, numa forma de realização adicional, o comutador 200 também pode ser controlado independentemente da derivação comutável 50 mesmo quando a derivação está ativa/fechada, de modo que o codificador do dominio temporal 520 pode receber diretamente o sinal de entrada de áudio do dominio temporal. A Fig. ld ilustra um descodificador correspondente em que o bloco de síntese de LPC 540 corresponde ao primeiro conversor da Fig. lb e pode ser contornado via a derivação 52, que é preferencialmente uma derivação comutável controlada via uma sinal de derivação gerado pelo desmultiplexador de fluxo binário 900. O desmultiplexador de fluxo binário 900 pode gerar este sinal e todos os outros sinais de comando para as ramificações de codificação 430, 530 ou o bloco de síntese de SBR 701 ou o bloco descodificador MPEG Surround 702 de um fluxo binário de entrada 899 ou pode receber os dados para estas linhas de comando de uma análise do sinal ou qualquer outra fonte de informação separada.
Subsequentemente será apresentada uma descrição mais pormenorizada da forma de realização na Fig. lc para o codificador e Fig. ld para o descodificador. A forma de realização preferencial consiste num codificador de áudio híbrido, que combina as potências da tecnologia de MPEG bem-sucedida, tais como AAC, SBR e MPEG Surround, com tecnologia de codificação de voz bem-sucedida. O codec resultante compreende um pré-processamento em comum para todas as categorias de sinal, que consiste em MPEG Surround e uma SBR reforçada (eSBR). Controlado por um modelo psicoacústico e com base na categoria de sinal, seleciona-se uma arquitetura de codificador derivada de depósito ou fonte de informação numa base trama-por-trama. 0 codec proposto emprega vantajosamente ferramentas de codificação, tais como MPEG Surround, SBR e o codificador de base de AAC. Estes sofreram alterações e aperfeiçoamentos para melhorar o desempenho para voz e a débitos binários muito baixos. A débitos binários mais elevados, o desempenho de AAC é pelo menos equiparado, pois o novo codec pode regressar a um modo muito próximo de AAC. É implementado um modo de codificação sem ruido aperfeiçoado que proporciona em média um desempenho de codificação sem ruido ligeiramente melhor. Para débitos binários de aproximadamente 32 kbps e menores, ferramentas adicionais são ativadas para melhorar o desempenho do codificador de base para voz e outros sinais. Os principais componentes destas ferramentas são uma configuração de frequência baseada em LPC, mais opções alternativas de largura de janela para o codificador à base de MDCT e um codificador do domínio temporal. Uma nova técnica de extensão de largura de banda é utilizada como extensão da ferramenta de SBR, que é mais adequada para baixas frequências de cruzamento e para voz. A ferramenta MPEG Surround proporciona uma representação paramétrica de um sinal estéreo ou de múltiplos canais ao proporcionar uma mistura descendente e imagem estéreo parametrizada. Para os casos de teste apresentados, é utilizada apenas para codificar sinais estéreo, mas também é adequada para sinais de entrada de múltiplos canais ao utilizar a funcionalidade existente MPEG Surround de MPEG-D.
Todas as ferramentas da cadeia de codec, excetuando o Codificador MDCT, são preferencialmente utilizadas apenas a baixos débitos binários.
A tecnologia MPEG Surround é utilizada para transmitir N canais de entrada de áudio via M canais de transmissão de áudio. Assim, o sistema é inerentemente capaz de gerir múltiplos canais. A tecnologia MPEG Surround sofreu aperfeiçoamentos para aumentar o desempenho a baixos débitos binários e para sinais do tipo voz. 0 modo básico de operação é a criação de uma mistura descendente mono de elevada qualidade a partir do sinal de entrada estéreo. Adicionalmente é extraído um conjunto de parâmetros espaciais. No lado do descodificador é gerado um sinal de saída estéreo utilizando a mistura descendente mono descodificada em combinação com os parâmetros espaciais extraídos e transmitidos. Foi adicionado um modo 2-1-2 de baixo débito binário aos pontos operacionais 5-x-5 ou 7-x-7 existentes em MPEG Surround, utilizando uma estrutura de árvore simples que consiste numa única caixa de OTT (um-para-dois) na mistura ascendente de MPEG Surround. Alguns dos componentes sofreram modificações para se adaptarem melhor à reprodução de voz. Para velocidades de transmissão de dados mais elevadas, tais como 64 kbps e superiores, o código de núcleo emprega codificação estéreo discreta (Mid/Side ou L/R), MPEG Surround não é utilizado para este ponto de operação. A extensão de largura de banda proposta nesta submissão de tecnologia baseia-se na tecnologia MPEG SBR. 0 banco de filtros utilizado é idêntico ao banco de filtros QMF em MPEG Surround e SBR, oferecendo a possibilidade de partilhar amostras do domínio de QMF entre MPEG Surround e SBR sem síntese/análise adicionais. Em comparação com a ferramenta SBR padronizada, eSBR introduz um algoritmo de processamento aperfeiçoado que é ótimo para conteúdo de voz e áudio. É incluída uma extensão a SBR que é mais adequada para débitos binários muito baixos e baixas frequências de cruzamento.
Como é conhecido da combinação de SBR e AAC, esta característica pode ser globalmente desativada, deixando a codificação de toda a gama de frequências para o codificador de núcleo. A parte de codificador de núcleo do sistema proposto pode ser vista como a combinação de um filtro de LPC opcional e um codificador de núcleo no domínio da frequência/domínio temporal comutável.
Como é conhecido de arquiteturas de codificadores de voz, o filtro de LPC proporciona a base de um modelo de fonte para voz humana. 0 processamento de LPC pode ser ativado ou desativado (contornado) globalmente ou numa base trama-por-trama.
Após o filtro de LPC, o sinal de domínio de LPC é codificado utilizando uma arquitetura de codificador de domínio temporal ou domínio da frequência baseado em transformada. A comutação entre estas duas ramificações é controlada por um modelo psicoacústico estendido. A arquitetura do codificador do domínio temporal baseia-se na tecnologia ACELP, que proporciona um desempenho de codificação ótimo especialmente para sinais de voz a baixos débitos binários. A ramificação do codec baseada no domínio da frequência baseia-se numa arquitetura MDCT com quantificador escalar e codificação de entropia.
Opcionalmente é disponibilizada uma ferramenta de distorção temporal para aumentar a eficiência da codificação para sinais de voz a débitos binários mais elevados (tais como 64 kbps e superiores) através de uma representação de sinal mais compacta. A arquitetura baseada em MDCT proporciona boa qualidade a menores débitos binários e escala até à transparência, como é conhecido de tecnologias MPEG existentes. Pode convergir para um modo de AAC a débitos binários mais elevados.
Os requisitos de memória intermédia auxiliar são idênticos a AAC, isto é, o número máximo de bits na memória intermédia auxiliar de entrada é 6144 por canal do codificador de núcleo: 6144 bits por elemento de canal mono, 12288 bits por elemento de par de canal estéreo.
Um reservatório de bits é controlado no codificador, que permite adaptar o processo de codificação à necessidade binária corrente. As características do reservatório de bits são idênticas às do AAC. 0 codificador e descodificador podem ser controlados para operarem em diferentes débitos binários entre 12 kbps mono e 64 kpbs estéreo. A complexidade do descodificador é especificada em termos de PCU. Para o descodif icador de base é requerida uma complexidade de aproximadamente 11,7 PCU. No caso de ser utilizada a ferramenta de distorção temporal, tal como para o modo de teste de 64 kbps, a complexidade do descodificador é aumentada para 22,2 PCU.
Os requisitos de RAM e ROM para um descodificador estéreo preferencial são: RAM: ~24 kPalavras ROM: ~150 kPalavras
Por notificação do codificador de entropia pode obter-se um tamanho global de ROM de apenas ~98 kPalavras.
No caso de ser utilizada a ferramenta de distorção temporal, os requisitos de RAM são aumentados em ~3 kPalavras, os requisitos de ROM são aumentados em ~40 kPalavras. 0 atraso algorítmico teórico depende das ferramentas utilizadas na cadeia de codec (por exemplo, MPEG Surround etc.): O atraso algorítmico da tecnologia proposta é exibido por ponto operacional à velocidade de amostragem do codec. Os valores apresentados abaixo não incluem um atraso de trama, isto é, o atraso necessário para encher a memória intermédia auxiliar de entrada do codificador com o número de amostras necessárias para processar a primeira trama. Este atraso de trama é 2048 amostras para todos os modos operativos especificados. As tabelas subsequentes contêm o atraso algorítmico mínimo e o atraso para a implementação utilizada. O atraso adicional para a reamostragem de ficheiros PCM de entrada de 48 kHz com a velocidade de amostragem do codec é especificado em '(·)'·
Os principais atributos deste codec podem ser resumidos do modo seguinte: A tecnologia proposta emprega vantajosamente tecnologia de codificação de voz e áudio comum na área, sem sacrificar o desempenho de codificação do conteúdo de voz ou música. Tal origina um codec capaz de proporcionar qualidade comum na área
de conteúdo de voz, música e misto para uma gama de débitos binários que começa a velocidades muito baixas (12 kbps) e vai até velocidades elevadas de transmissão dados, tais como 128 kbps e superiores, às quais o codec atinge qualidade transparente.
Um sinal mono, um sinal estéreo ou um sinal de múltiplos canais entra numa etapa de pré-processamento em comum 100 na Fig. 2a. O esquema de pré-processamento em comum pode ter uma funcionalidade estéreo combinada, uma funcionalidade surround e/ou uma funcionalidade de extensão de largura de banda. À saida do bloco 100 há um canal mono, um canal estéreo ou múltiplos canais que entram num conjunto de derivação 50 e conversor 510 ou múltiplos conjuntos deste tipo. 0 conjunto de derivação 50 e conversor 510 pode existir para cada saida da etapa 100 quando a etapa 100 tem duas ou mais saidas, isto é, quando a saida da etapa 100 é um sinal estéreo ou um sinal de múltiplos canais. De modo exemplificativo, o primeiro canal de um sinal estéreo pode ser um canal de voz e o segundo canal do sinal estéreo pode ser um canal de música. Nesta situação, a decisão na etapa de decisão pode ser diferente entre os dois canais para o mesmo instante. A derivação 50 é comandada por uma etapa de decisão 300. A etapa de decisão recebe, como entrada, uma entrada de sinal no bloco 100 ou um sinal emitido pelo bloco 100. Alternativamente, a etapa de decisão 300 também pode receber uma informação lateral que é incluída no sinal mono, no sinal estéreo ou no sinal de múltiplos canais ou é pelo menos associada a tal sinal, onde existe informação que foi, por exemplo, gerada quando se produziu originalmente o sinal mono, o sinal estéreo ou o sinal de múltiplos canais.
Numa forma de realização, a etapa de decisão não comanda a etapa de pré-processamento 100 e a seta entre o bloco 300 e 100 não existe. Numa forma de realização adicional, o processamento no bloco 100 é controlado, em certa extensão, pela etapa de decisão 300 para estabelecer um ou mais parâmetros no bloco 100 com base na decisão. No entanto, tal não irá influenciar o algoritmo geral no bloco 100, de modo que a funcionalidade principal no bloco 100 está ativa independentemente da decisão na etapa 300. A etapa de decisão 300 aciona a derivação 50 para alimentar a saída da etapa de pré-processamento em comum numa parte de codificação da frequência 400 ilustrada numa ramificação superior da Fig. la ou no conversor de domínio de LPC 510 que pode ser parte da segunda porção de codificação 500 ilustrada numa ramificação inferior na Fig. 2a e que tem os elementos 510, 520 .
Numa forma de realização, a derivação contorna um único conversor de domínio. Numa forma de realização adicional, pode haver conversores de domínio adicionais para diferentes ramificações de codificação, tais como uma terceira ramificação de codificação ou mesmo uma quarta ramificação de codificação ou mesmo mais ramificações de codificação. Numa forma de realização com três ramificações de codificação, a terceira ramificação de codificação pode ser semelhante à segunda ramificação de codificação, mas pode incluir um codificador de excitação diferente do codificador de excitação 520 na segunda ramificação 500. Nesta forma de realização, a segunda ramificação compreende a etapa de LPC 510 e um codificador de excitação baseado num livro de código, tal como em ACELP, e a terceira ramificação compreende uma etapa de LPC e um codificador de excitação que opera numa representação espetral do sinal de saída da etapa de LPC.
Um elemento-chave da ramificação de codificação do domínio da frequência é um bloco de conversão espetral 410 que opera para converter o sinal de saída da etapa de pré-processamento em comum num domínio espetral. O bloco de conversão espetral pode incluir um algoritmo MDCT, um QMF, um algoritmo FFT, análise de Wavelet ou um banco de filtros, tal como um banco de filtros com amostragem crítica com um determinado número de canais de banco de filtros, em que os sinais de sub-banda neste banco de filtros podem ser sinais de valores reais ou sinais de valores complexos. A saída do bloco de conversão espetral 410 é codificada utilizando um codificador de áudio espetral 420 que pode incluir blocos de processamento como os conhecidos do esquema de codificação de AAC.
Na ramificação de codificação inferior 500, um elemento-chave é um analisador de modelo de fonte tal como o LPC 510 que, nesta forma de realização, é o conversor de domínio 510 e que emite dois tipos de sinais. Um sinal é um sinal de informação de LPC que é utilizado para controlar a característica de filtro de um filtro de síntese de LPC. Esta informação de LPC é transmitida a um descodificador. O outro sinal de saída da etapa de LPC 510 é um sinal de excitação ou um sinal no domínio de LPC que entra num codificador de excitação 520. O codificador de excitação 520 pode provir de qualquer codificador de modelo de fonte-filtro, tal como um codificador CELP, um codificador ACELP ou qualquer outro codificador que processe um sinal de domínio de LPC.
Outra implementação preferencial de um codificador de excitação é uma codificação de transformada do sinal de excitação ou de um sinal de domínio de LPC. Nesta forma de realização, o sinal de excitação não é codificado utilizando um mecanismo de livro de código de ACELP, mas o sinal de excitação é convertido numa representação espetral e os valores da representação espetral, tais como sinais de sub-banda no caso de um banco de filtros ou coeficientes de frequência no caso de uma transformada, tal como uma FFT, são codificados para obter uma compressão de dados. Uma implementação deste tipo de codificador de excitação é o modo de codificação de TCX conhecido de AMR-WB+. Este modo é obtido por conexão da saida da etapa de LPC 510 ao conversor espetral 410. O modo de TCX conhecido de 3GPP TS 2 6.2 90 incorre num processamento de um sinal percetualmente ponderado no domínio da transformada. Um sinal ponderado com transformada de Fourier é quantificado utilizando uma quantificação de reticulado dividido de múltiplos coeficientes a múltiplas velocidades (VQ algébrica) com quantificação do fator de ruído. Uma transformada é calculada em 1024, 512 ou 256 janelas de amostra. O sinal de excitação é recuperado por filtragem inversa do sinal ponderado quantificado através de um filtro de ponderação inverso.
Na Fig. la ou Fig. lc, o bloco de LPC 510 é seguido de um codificador do domínio temporal, que pode ser um bloco de ACELP ou um codificador do domínio da transformada, que pode ser um bloco de TCX 527. ACELP é descrito em 3GPP TS 26.190 e TCX é descrito em 3GPP TS 26.290. Em geral, o bloco de ACELP recebe um sinal de excitação de LPC calculado por um procedimento como descrito na Fig. 7e. O bloco de TCX 527 recebe um sinal ponderado gerado tal como na Fig. 7f.
Em TCX, a transformada é aplicada ao sinal ponderado calculado por filtragem do sinal de entrada através de um filtro de ponderação baseado em LPC. 0 filtro de ponderação utilizado em formas de realização preferenciais da invenção é dado por (1-Α(ζ/γ) ) / (l-μζ-1) . Assim, o sinal ponderado é um sinal de domínio de LPC e a sua transformada é um domínio espetral de LPC. O sinal processado pelo bloco de ACELP 526 é o sinal de excitação e é diferente do sinal processado pelo bloco 527, mas ambos os sinais estão no domínio de LPC.
No lado do descodificador, após a transformada espetral inversa aplica-se o inverso do filtro de ponderação, que é (1-μζ 1)/Α(ζ/γ). Em seguida, o sinal é filtrado através de (l-A(z)) para passar para o domínio de excitação de LPC. Assim, a conversão no domínio de LPC e uma operação de TCX”1 incluem uma transformada inversa e depois uma filtragem através de v ~ Ms í .*)) para converter do domínio do sinal ponderado no domínio de excitação.
Apesar de o item 510 ilustrar um único bloco, o bloco 510 pode emitir diferentes sinais desde que estes sinais estejam no domínio de LPC. O modo real do bloco 510, tal como o modo do sinal de excitação ou o modo do sinal ponderado, pode depender do estado de comutação real. Alternativamente, o bloco 510 pode ter dois dispositivos de processamento paralelos, em que um dispositivo é implementado de modo semelhante à Fig. 7e e o outro dispositivo é implementado tal como na Fig. 7f. Assim, o domínio de LPC à saída de 510 pode representar o sinal de excitação de LPC ou o sinal ponderado de LPC ou qualquer outro sinal de domínio de LPC.
No modo de LPC, quando a derivação estiver inativa, isto é, quando houver uma codificação de ACELP/TCX, o sinal é preferencialmente pré-acentuado através de um filtro 1-0,68z 1 antes da codificação. No descodificador de ACELP/TCX, o sinal sintetizado é desacentuado com o filtro 1/(1-0,68z 1) . A pré-ênfase pode fazer parte do bloco de LPC 510, onde o sinal é pré-enfatizado antes da análise e quantificação de LPC. De modo semelhante, a remoção da ênfase pode fazer parte do bloco de síntese de LPC LPC-1 540. Há vários domínios de LPC. Um primeiro domínio de LPC representa a excitação de LPC e o segundo domínio de LPC representa o sinal ponderado de LPC. Isto é, o primeiro sinal de domínio de LPC é obtido por filtragem através de (l-A(z)) para conversão no domínio residual/de excitação de LPC, ao passo que o segundo sinal de domínio de LPC é obtido por filtragem através do filtro (1-Ά(z/γ))/(l-μζ-1) para conversão no domínio ponderado de LPC. A decisão na etapa de decisão pode adaptar-se ao sinal de modo que a etapa de decisão efetue uma distinção música/voz e controle a derivação 50 e, se estiver presente, o comutador 200 na Fig. lc de modo tal que sinais de música entrem na ramificação superior 400 e sinais de voz entrem na ramificação inferior 500. Numa forma de realização, a etapa de decisão alimenta a sua informação de decisão para um fluxo binário de saída de modo que um descodif icador pode utilizar esta informação de decisão para efetuar as operações corretas de descodificação.
Tal descodificador está ilustrado na Fig. 2b. O sinal emitido pelo codificador de áudio espetral 420, após a transmissão, entra num descodificador de áudio espetral 430. A saída do descodificador de áudio espetral 430 entra num conversor de domínio temporal 440. Analogamente, a saída do codificador de excitação 520 da Fig. 2a entra num descodificador de excitação 530 que emite um sinal no domínio de LPC. O sinal do domínio de LPC entra numa etapa de síntese de LPC 540 que recebe, como entrada adicional, a informação de LPC gerada pela correspondente etapa de análise de LPC 510. A saída do conversor de domínio temporal 440 e/ou a saída da etapa de síntese de LPC 540 entram numa derivação comutável 52. A derivação 52 é controlada via um sinal de controlo de derivação que, por exemplo, foi gerado pela etapa de decisão 300 ou que foi proporcionado externamente, tal como por um criador do sinal mono, sinal estéreo ou sinal de múltiplos canais original. A saída da derivação 540 ou etapa 540 que entra no combinador 600 é um sinal mono completo que, subsequentemente, entra numa etapa de pós-processamento em comum 700 que pode efetuar um processamento estéreo combinado ou um processamento de extensão de largura de banda, etc. Dependendo da funcionalidade especifica da etapa de pós-processamento em comum é emitido um sinal mono, um sinal estéreo ou um sinal de múltiplos canais que, quando a etapa de pós-processamento em comum 700 efetua uma operação de extensão de largura de banda, tem uma maior largura de banda do que a entrada de sinal no bloco 700.
Numa forma de realização, a derivação 52 está adaptada para contornar o conversor único 540. Numa forma de realização adicional, pode haver conversores adicionais que definem ramificações de descodificação adicionais, tais como uma terceira ramificação de descodificação ou mesmo uma quarta ramificação de descodificação ou mesmo mais ramificações de descodificação. Numa forma de realização com três ramificações de descodificação, a terceira ramificação de descodificação pode ser semelhante à segunda ramificação de descodificação, mas pode incluir um descodificador de excitação diferente do descodificador de excitação 530 na segunda ramificação 530, 540. Nesta forma de realização, a segunda ramificação compreende a etapa de LPC 540 e um descodif icador de excitação baseado num livro de código, tal como em ACELP, e a terceira ramificação compreende uma etapa de LPC e um descodificador de excitação que opera numa representação espetral do sinal de salda da etapa de LPC 540.
Como afirmado anteriormente, a Fig. 2c ilustra um esquema codificador preferencial de acordo com um segundo aspeto da invenção. O esquema de pré-processamento em comum em 100 da Fig. la compreende agora um bloco surround/estéreo combinado 101 que gera, como salda, parâmetros estéreo combinados e um sinal mono de salda, que é gerado pela mistura descendente do sinal de entrada que é um sinal que tem dois ou mais canais. Em geral, o sinal a salda do bloco 101 também pode ser um sinal que tem mais canais mas, devido à funcionalidade de mistura descendente do bloco 101, o número de canais à saída do bloco 101 será menor do que o número de canais que entra no bloco 101. A saída do bloco 101 entra num bloco de extensão de largura de banda 102 que, no codificador da Fig. 2c, emite, na sua saída, um sinal de banda limitada, tal como o sinal de banda baixa ou o sinal de passa baixo. Adicionalmente, para a banda alta da entrada de sinal no bloco 102, parâmetros de extensão de largura de banda, tais como parâmetros do envelope espetral, parâmetros de filtragem inversa, parâmetros de ruído de fundo, etc. conhecidos do perfil HE-AAC de MPEG-4, são gerados e enviados para um multiplexador de fluxo binário 800.
Preferencialmente, a etapa de decisão 300 recebe a entrada de sinal no bloco 101 ou entrada no bloco 102 de modo a decidir, por exemplo, entre um modo de música ou um modo de voz. No modo de música é selecionada a ramificação superior de codificação 400 ao passo que, no modo de voz, é selecionada a ramificação inferior de codificação 500. Preferencialmente, a etapa de decisão controla adicionalmente o bloco de estéreo combinado 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade destes blocos ao sinal específico. Assim, quando a etapa de decisão determina que uma certa parte temporal do sinal de entrada é do primeiro modo, tal como o modo de música, então características específicas do bloco 101 e/ou bloco 102 podem ser controladas pela etapa de decisão 300. Alternativamente, quando a etapa de decisão 300 determina que o sinal está num modo de voz ou, genericamente, num modo de codificação do domínio de LPC, então características específicas dos blocos 101 e 102 podem ser controladas de acordo com a saída da etapa de decisão.
Dependendo da decisão do comutador, que pode ser derivada do sinal de entrada do comutador 200 ou de qualquer fonte externa, tal como um produtor do sinal de áudio original subjacente à entrada de sinal na etapa 200, o comutador comuta entre a ramificação de codificação de frequência 400 e a ramificação de codificação de LPC 500. A ramificação de codificação de frequência 400 compreende uma etapa de conversão espetral e uma etapa de quantificação/codificação subsequentemente conectada. A etapa de quantificação/codificação pode incluir quaisquer das funcionalidades conhecidas de codificadores do domínio da frequência modernos, tais como o codificador AAC. Adicionalmente, a operação de quantificação na etapa de quantificação/codificação pode ser controlada via um módulo psicoacústico que gera informação psicoacústica, tal como um limiar de mascaramento psicoacústico sobre a frequência, em que esta informação entra na etapa.
Preferencialmente, a conversão espetral é realizada utilizando uma operação de MDCT que, ainda mais preferencialmente, é a operação MDCT com distorção temporal, em que a intensidade ou, genericamente, a intensidade da distorção pode ser controlada entre zero e uma elevada intensidade da distorção. Numa intensidade da distorção zero, a operação de MDCT no bloco 400 na Fig. lc é uma operação de MDCT direta conhecida na área. A intensidade da distorção temporal em conjunto com a informação lateral de distorção temporal pode ser transmitida/entrar no multiplexador de fluxo binário 800 como informação lateral. Em consequência, se for utilizado TW-MDCT, informação lateral de distorção temporal deve ser enviada para o fluxo binário como ilustrado por 424 na Fig. lc e -no lado do descodif icador -informação lateral de distorção temporal deve ser recebida do fluxo binário como ilustrado pelo item 434 na Fig. ld.
Na ramificação de codificação de LPC, o codificador de domínio de LPC pode incluir um núcleo de ACELP que calcula um ganho de passo, um atraso de passo e/ou informação de livro de código, tal como um índice de livro de código e um ganho de código.
Na primeira ramificação de codificação 400, um conversor espetral compreende preferencialmente uma operação de MDCT especificamente adaptada que tem determinadas funções de janela seguida de uma etapa de quantificação/codificação da entropia que pode ser uma etapa de quantificação vetorial mas, preferencialmente, é um quantificador/codificador semelhante ao quantificador/codificador na ramificação de codificação do domínio da frequência. A Fig. 2d ilustra um esquema descodificador correspondente ao esquema codificador da Fig. 2c. O fluxo binário gerado por um multiplexador de fluxo binário entra num desmultiplexador de fluxo binário. Dependendo de uma informação derivada, por exemplo, do fluxo binário via a bloco de deteção de modo, um comutador do lado do descodificador é comandado para enviar sinais da ramificação superior ou sinais da ramificação inferior para o bloco de extensão de largura de banda 701. O bloco de extensão de largura de banda 701 recebe, do desmultiplexador de fluxo binário, informação lateral e, com base nesta informação lateral e na saída da decisão de modo, reconstrói a banda alta com base na banda baixa emitida pelo combinador 600 da Fig. ld, por exemplo. O sinal de banda completa gerado pelo bloco 701 entra na etapa de processamento de estéreo combinado/surround 702, que reconstrói dois canais estéreo ou vários canais múltiplos. Em geral, o bloco 702 irá emitir mais canais do que os que entraram neste bloco. Dependendo da aplicação, a entrada no bloco 702 pode mesmo incluir dois canais, tal como num modo estéreo, e pode mesmo incluir mais canais desde que a saída deste bloco tenha mais canais do que a entrada neste bloco.
Foi mostrado que o comutador 200 na Fig. lc comuta entre ambas as ramificações de modo que apenas uma ramificação recebe um sinal para processar e a outra ramificação não recebe um sinal para processar, como mostrado genericamente na Fig. 4a. No entanto, numa forma de realização alternativa ilustrada na Fig. 4b, o comutador também pode ser disposto subsequentemente, por exemplo, ao codificador de áudio 420 e ao codificador de excitação 520, o que significa que ambas as ramificações 400, 500 processam o mesmo sinal em paralelo. No entanto, para não duplicar o débito binário, apenas o sinal emitido por uma daquelas ramificações de codificação 400 ou 500 é selecionado para ser escrito no fluxo binário emitido. A etapa de decisão irá então operar de modo que o sinal escrito no fluxo binário minimize uma determinada função de custo, em que a função de custo pode ser o débito binário gerado ou a distorção percetual gerada ou uma função de custo débito/distorção combinada. Em consequência, neste modo ou no modo ilustrado nas Figuras, a etapa de decisão também pode operar num modo de ciclo fechado para assegurar que, por fim, apenas a saída da ramificação de codificação é escrita no fluxo binário que tem, para uma determinada distorção percetual, o menor débito binário ou, para um determinado débito binário, tem a menor distorção percetual.
Em geral, o processamento na ramificação 400 é um processamento num modelo baseado na perceção ou modelo de depósito de informação. Assim, esta ramificação modela o som recebido pelo sistema auditivo humano. Em contraste, o processamento na ramificação 500 destina-se a gerar um sinal no domínio de excitação, residual ou de LPC. Em geral, o processamento na ramificação 500 é um processamento num modelo de voz ou num modelo de geração de informação. Para sinais de voz, este modelo é um modelo do sistema humano de geração de voz/som gerador de som. No entanto, se for pretendido codificar um som de uma fonte diferente que requeira um modelo diferente de geração de som, então o processamento na ramificação 500 pode ser diferente.
Apesar de as Figs, la até 4c estarem ilustradas como diagramas de blocos de um aparelho, estas figuras são simultaneamente uma ilustração de um método, em que as funcionalidades de bloco correspondem às etapas do método. A Fig. 3c ilustra um codificador de áudio para codificar um sinal de entrada de áudio 195. 0 sinal de entrada de áudio 195 está presente num primeiro domínio que, por exemplo, pode ser o domínio temporal mas que também pode ser qualquer outro domínio, tal como um domínio da frequência, um domínio de LCP, um domínio espetral de LPC ou qualquer outro domínio. Em geral, a conversão de um domínio para o outro domínio é efetuada por um tipo de um algoritmo de conversão tal como qualquer um dos bem conhecidos algoritmos de conversão tempo/frequência ou algoritmos de conversão frequência/tempo.
Uma transformada alternativa do domínio temporal, por exemplo, no domínio de LPC, resulta de filtragem à base de LPC de um sinal do domínio temporal que origina um sinal residual ou sinal de excitação de LPC ou outro sinal de domínio de LPC. Quaisquer outras operações de filtragem produtoras de um sinal filtrado que tenha impacto num número substancial de amostras de sinal antes da transformada podem ser utilizadas como algoritmo de transformada, consoante o caso. Em consequência, a ponderação de um sinal de áudio utilizando um filtro de ponderação à base de LPC é outra transformada, que gera um sinal no domínio de LPC. Numa transformada tempo/frequência, a modificação de um único valor espetral terá impacto em todos os valores do domínio temporal antes da transformada. Analogamente, uma modificação de qualquer amostra no domínio temporal terá impacto em cada amostra do domínio da frequência. De modo semelhante, uma modificação de uma amostra do sinal de excitação numa situação de domínio de LPC, devido ao comprimento do filtro de LPC, terá impacto num número substancial de amostras antes da filtragem de LPC. De modo semelhante, uma modificação de uma amostra antes de uma transformação de LPC terá impacto em muitas amostras obtidas por esta transformação de LPC devido ao efeito de memória inerente do filtro de LPC. 0 codificador de áudio da Fig. 3c inclui uma primeira ramificação de codificação 522 que gera um primeiro sinal codificado. Este primeiro sinal codificado pode estar num quarto domínio que, na forma de realização preferencial, é o domínio espetral de tempo, isto é, o domínio que é obtido quando um sinal do domínio temporal é processado via uma conversão tempo/frequência.
Em consequência, a primeira ramificação de codificação 522 para codificar um sinal de áudio emprega um primeiro algoritmo codificador para obter um primeiro sinal codificado, em que este primeiro algoritmo codificador pode ou não incluir um algoritmo de conversão tempo/frequência. 0 codificador de áudio inclui adicionalmente uma segunda ramificação de codificação 523 para codificar um sinal de áudio. A segunda ramificação de codificação 523 emprega um segundo algoritmo codificador para obter um segundo sinal codificado que é diferente do primeiro algoritmo codificador. 0 codificador de áudio inclui adicionalmente um primeiro comutador 521 para comutação entre a primeira ramificação de codificação 522 e a segunda ramificação de codificação 523, 524 de modo que, para uma parte do sinal de entrada de áudio, o primeiro sinal codificado à saída do bloco 522 ou o segundo sinal codificado à saída da segunda ramificação de codificação é incluído num sinal de saída do codificador. Assim, quando, para uma determinada parte do sinal de entrada de áudio 195, o primeiro sinal codificado no quarto domínio é incluído no sinal de saída do codificador, o segundo sinal codificado, que é o primeiro sinal processado no segundo domínio ou o segundo sinal processado no terceiro domínio, não é incluído no sinal de saída do codificador. Tal assegura que este codificador é eficiente em termos do débito binário. Em formas de realização, quaisquer porções temporais do sinal de áudio que são incluídas em dois sinais codificados diferentes são pequenas em comparação com um comprimento de trama de uma trama, como será discutido em conexão com a Fig. 3e. Estas porções pequenas são úteis para um desvanecimento cruzado de um sinal codificado para o outro sinal codificado no caso de um evento de comutação para reduzir artefactos que possam ocorrer sem qualquer desvanecimento cruzado. Em consequência, para além da região de desvanecimento cruzado, cada bloco de domínio temporal é representado por um sinal codificado de apenas um único domínio.
Como ilustrado na Fig. 3c, a segunda ramificação de codificação 523 segue-se a um conversor 521 para converter o sinal de áudio no primeiro domínio, isto é, sinal 195, num segundo domínio, e a derivação 50. Adicionalmente, a primeira ramificação de processamento 522 obtém um primeiro sinal processado que, preferencialmente, também está no segundo domínio, de modo que a primeira ramificação de processamento 522 não efetua uma alteração de domínio, ou que está no primeiro domínio. A segunda ramificação de codificação 523, 524 converte o sinal de áudio num terceiro domínio ou num quarto domínio, que é diferente do primeiro domínio e que também é diferente do segundo domínio, para obter um segundo sinal processado à saída da segunda ramificação de processamento 523, 524.
Adicionalmente, o codificador compreende um comutador 521 para comutação entre a primeira ramificação de processamento 522 e a segunda ramificação de processamento 523, 524, em que este comutador corresponde ao comutador 200 da Fig. lc. A Fig. 3d ilustra um descodificador correspondente para descodificar um sinal de áudio codificado gerado pelo codificador da Fig. 3c. Em geral, cada bloco do sinal de áudio do primeiro domínio é representado por um sinal do segundo ou primeiro domínio, ou um sinal codificado do terceiro ou quarto domínio para além de uma região de desvanecimento cruzado opcional que, preferencialmente, é pequena em comparação com o comprimento de uma trama para obter um sistema que está, tanto quanto possível, no limite de amostragem crítico. 0 sinal de áudio codificado inclui o primeiro sinal codificado, um segundo sinal codificado, em que o primeiro sinal codificado e o segundo sinal codificado se referem a diferentes porções temporais do sinal de áudio descodificado e em que o segundo domínio, o terceiro domínio e o primeiro domínio para um sinal de áudio descodificado são diferentes entre si. 0 descodificador compreende uma primeira ramificação de descodificação para descodificação com base no primeiro algoritmo codificador. A primeira ramificação de descodificação está ilustrada em 531 na Fig. 3d. 0 descodificador da Fig. 3d compreende adicionalmente uma segunda ramificação de descodificação 533, 534 que compreende vários elementos. 0 descodificador compreende adicionalmente um primeiro combinador 532 para combinar o primeiro sinal processado inverso e o segundo sinal processado inverso para obter um sinal no primeiro ou no segundo domínio, em que este sinal combinado, no primeiro instante, só é influenciado pelo primeiro sinal processado inverso e, num instante posterior, só é influenciado pelo segundo sinal processado inverso. 0 descodificador compreende adicionalmente o conversor 540, para converter o sinal combinado no primeiro domínio, e a derivação comutável 52.
Por fim, o descodif icador ilustrado na Fig. 3d compreende um segundo combinador 600 para combinar o primeiro sinal descodificado da derivação 52 e o sinal de saida do conversor 540 para obter um sinal de saida descodificado no primeiro domínio. Mais uma vez, o sinal de saída descodificado no primeiro domínio, no primeiro instante, só é influenciado pelo sinal emitido pelo conversor 540 e, num instante posterior, só é influenciado pelo sinal desviado.
Esta situação está ilustrada, da perspetiva de um codificador, na Fig. 3e. A parte de cima da Fig. 3e ilustra, na representação esquemática, um sinal de áudio no primeiro domínio, tal como um sinal de áudio no domínio temporal, em que o índice temporal aumenta da esquerda para a direita e o item 3 pode ser considerado um fluxo de amostras de áudio que representa o sinal 195 na Fig. 3c. A Fig. 3e ilustra as tramas 3a, 3b, 3c, 3d que podem ser geradas por comutação entre o primeiro sinal codificado e o segundo sinal codificado, como ilustrado no item 4 na Fig. 3e. o primeiro sinal codificado e o segundo sinal codificado estão em domínios diferentes. Para assegurar que a comutação entre os domínios diferentes não origina um artefacto no lado do descodif icador, as tramas 3a, 3b, 3c... do sinal do domínio temporal têm um intervalo de sobreposição que está indicado como uma região de desvanecimento cruzado. No entanto, tal região de desvanecimento cruzado não existe entre a trama 3d, 3c, o que significa que a trama 3d também pode ser representada por um sinal no mesmo domínio do sinal precedente 3c e não há nenhuma alteração de domínio entre a trama 3c e 3d.
Em consequência, genericamente, é preferencial não proporcionar uma região de desvanecimento cruzado quando não houver nenhuma alteração de domínio e proporcionar uma região de desvanecimento cruzado, isto é, uma parte do sinal de áudio que é codificada por dois sinais codificados/processados subsequentes, quando houver uma alteração de domínio, isto é, uma ação de comutação de qualquer um dos dois comutadores.
Na forma de realização em que o primeiro sinal codificado ou o segundo sinal processado foi gerado por um processamento de MDCT que tem, por exemplo, 50 por cento de sobreposição, cada amostra do domínio temporal é incluída em duas tramas subsequentes. No entanto, devido às características do MDCT, tal não origina um overhead, pois o MDCT é um sistema com amostragem crítica. Neste contexto, amostragem crítica significa que o número de valores espetrais é igual ao número de valores no domínio temporal. O MDCT é vantajoso pois é proporcionado o efeito de cruzamento sem uma região de cruzamento específica, de modo que é proporcionado um cruzamento de um bloco de MDCT para o bloco de MDCT seguinte sem qualquer overhead que pudesse violar o requisito de amostragem crítica.
Preferencialmente, o primeiro algoritmo codificador na primeira ramificação de codificação baseia-se num modelo de depósito de informação e o segundo algoritmo codificador na segunda ramificação de codificação baseia-se num modelo de fonte de informação ou num modelo de SNR. Um modelo de SNR é um modelo que não está especificamente relacionado com um mecanismo específico de geração de som mas que é um modo de codificação que pode ser selecionado de entre uma pluralidade de modos de codificação baseados, por exemplo, numa decisão de ciclo fechado. Assim, um modelo de SNR é qualquer modelo de codificação disponível mas que não tem de estar necessariamente relacionado com a constituição física do gerador de som, sendo qualquer modelo de codificação parametrizado diferente do modelo de depósito de informação que pode ser selecionado por uma decisão de ciclo fechado e, especificamente, por comparação de resultados de SNR diferentes de modelos diferentes.
Como ilustrado na Fig. 3c, é proporcionado um controlador 300, 525. Este controlador pode incluir as funcionalidades da etapa de decisão 300 da Fig. lc. Em geral, o controlador destina-se a controlar a derivação e o comutador 200 na Fig. lc de um modo que se adapta aos sinais. O controlador opera para analisar uma entrada de sinal na derivação ou saida pela primeira ou segunda ramificação de codificação ou sinais obtidos por codificação e descodificação da primeira e segunda ramificações de codificação relativamente a uma função alvo. Alternativa ou adicionalmente, o controlador opera para analisar a entrada de sinal no comutador ou saida pela primeira ramificação de processamento ou segunda ramificação de processamento ou sinal obtido por processamento e processamento inverso da primeira ramificação de processamento e segunda ramificação de processamento, mais uma vez relativamente a uma função alvo.
Numa forma de realização, a primeira ramificação de codificação ou a segunda ramificação de codificação compreende um algoritmo de conversão tempo/frequência que introduz serrilhado, tal como um algoritmo MDCT ou MDST, que é diferente de uma transformada FFT direta, que não introduz um efeito de serrilhado. Adicionalmente, uma ou ambas as ramificações compreendem um bloco quantificador/codificador de entropia. De modo especifico, apenas a segunda ramificação de processamento da segunda ramificação de codificação inclui o conversor tempo/frequência que introduz uma operação de serrilhado e a primeira ramificação de processamento da segunda ramificação de codificação compreende um quantificador e/ou codificador de entropia e não introduz quaisquer efeitos de serrilhado. O conversor tempo/frequência que introduz serrilhado compreende preferencialmente um dispositivo de janela para aplicar uma janela de análise e um algoritmo de transformada de MDCT. De modo especifico, o dispositivo de janela opera para aplicar a função de janela a tramas subsequentes de um modo sobreposto para que a amostra de um sinal tratado em janela ocorra em pelo menos duas tramas tratadas em janela subsequentes.
Numa forma de realização, a primeira ramificação de processamento compreende um codificador de ACELP e uma segunda ramificação de processamento compreende um conversor espetral de MDCT e o quantificador para quantificar componentes espetrais para obter componentes espetrais quantificados, em que cada componente espetral quantificado é zero ou é definido por um índice de quantificador da pluralidade de diferentes indices quantificadores possíveis.
Como afirmado anteriormente, ambas as ramificações de codificação operam de modo a codificar o sinal de áudio de uma forma em blocos, em que a derivação ou o comutador operam de uma forma em blocos de modo que ocorra uma ação de comutação ou derivação, no mínimo, após um bloco de um número predefinido de amostras de um sinal, em que o número predefinido forma um comprimento de trama para o comutador correspondente. Assim, o grânulo para o contorno pela derivação pode ser, por exemplo, um bloco de 2048 ou 1028 amostras e o comprimento de trama, com base na qual a derivação comuta, pode ser variável mas, preferencialmente, é fixo num intervalo de tempo tão prolongado.
Em contraste, o comprimento de bloco para o comutador 200, isto é, quando o comutador 200 comuta de um modo para o outro, é substancialmente menor do que o comprimento de bloco para o primeiro comutador. Preferencialmente, ambos os comprimentos de bloco para os comutadores são selecionados de modo que o comprimento de bloco maior seja um múltiplo inteiro do comprimento de bloco mais pequeno. Na forma de realização preferencial, o comprimento de bloco do primeiro comutador é 2048 e o comprimento de bloco do segundo comutador é 1024 ou, mais preferencialmente, 512 e ainda mais preferencialmente 256 e ainda mais preferencialmente 256 ou mesmo 128 amostras de modo que, no máximo, o comutador possa comutar 16 vezes quando a derivação muda apenas uma única vez.
Numa forma de realização adicional, o controlador 300 opera para efetuar uma distinção voz música para o primeiro comutador de modo que uma decisão de voz seja favorecida relativamente a uma decisão de música. Nesta forma de realização, uma decisão de voz é tomada mesmo quando uma parte menor do que 50% de uma trama para o primeiro comutador é voz e a parte maior do que 50% da trama é música.
Adicionalmente, o controlador opera para comutar logo para o modo de voz quando uma parte bastante pequena da primeira trama é voz e, especificamente, quando uma parte da primeira trama é voz que é 50% do comprimento da segunda trama mais pequena. Assim, uma decisão preferencial de comutação com favorecimento de voz comuta logo para voz mesmo quando, por exemplo, apenas 6% ou 12% de um bloco correspondente ao comprimento da trama do primeiro comutador é voz.
Este procedimento é preferencialmente seguido para explorar completamente a capacidade de economizar o débito binário da primeira ramificação de processamento, que tem um núcleo de voz vocalizada numa forma de realização, e para não perder qualquer qualidade mesmo para o resto da primeira trama grande, que não é voz devido ao facto de a segunda ramificação de processamento incluir um conversor e, consequentemente, é útil para sinais de áudio que também têm sinais diferentes de voz. Preferencialmente, esta segunda ramificação de processamento inclui um MDCT sobreposto, que é submetido a amostragem critica e que, mesmo a pequenos tamanhos de janela, proporciona uma operação altamente eficiente e sem serrilhado devido ao processo de cancelamento de serrilhado no domínio temporal, tal como sobreposição e adição no lado do descodificador. Adicionalmente, um grande comprimento de bloco para a primeira ramificação de codificação, que é preferencialmente uma ramificação de codificação MDCT do tipo AAC, é útil pois sinais diferentes de voz são normalmente bastante estacionários e uma longa janela de transformada proporciona uma resolução de elevada frequência e, consequentemente, elevada qualidade e, adicionalmente, proporciona uma eficiência do débito binário devido a um módulo de quantificação controlado de modo psicoacústico, que também pode aplicar-se ao modo de codificação baseado na transformada na sequnda ramificação de processamento da sequnda ramificação de codificação.
Relativamente à ilustração do descodificador da Fig. 3d, é preferencial que o sinal transmitido inclua um indicador explicito como informação lateral 4a, como ilustrado na Fig. 3e. Esta informação lateral 4a é extraída por um analisador sintático do fluxo binário não ilustrado na Fig. 3d para dirigir o correspondente primeiro sinal processado ou segundo sinal processado para o processador correto, tal como a primeira ramificação de processamento inverso ou a segunda ramificação de processamento inverso na Fig. 3d. Em consequência, um sinal codificado não só tem os sinais codificados/processados mas também inclui informação lateral relativa a estes sinais. No entanto, noutras formas de realização, pode haver uma sinalização implícita que permita que um analisador sintático do fluxo binário do lado do descodificador distinga entre os sinais determinados. Relativamente à Fig. 3e, é indicado que o primeiro sinal processado ou o segundo sinal processado é a saída da segunda ramificação de codificação e, consequentemente, o segundo sinal codificado.
Preferencialmente, a primeira ramificação de descodificação e/ou a segunda ramificação de processamento inverso incluem uma transformada de MDCT para converter do domínio espetral para o domínio temporal. Para esta finalidade proporciona-se um adicionador de sobreposição para efetivar uma funcionalidade de cancelamento do serrilhado no domínio temporal que, ao mesmo tempo, proporciona um efeito de desvanecimento cruzado para evitar artefactos de bloqueio. Em geral, a primeira ramificação de descodificação converte um sinal codificado no quarto domínio no primeiro domínio, enquanto a segunda ramificação de processamento inverso efetua uma conversão do terceiro domínio para o segundo domínio e o conversor subsequentemente conectado ao primeiro combinador proporciona uma conversão do segundo domínio para o primeiro domínio de modo que, à entrada do combinador 600, apenas estão lá sinais do primeiro domínio que representam, na forma de realização da Fig. 3d, o sinal de saída descodificado. A Fig. 4c ilustra um aspeto adicional de uma implementação de descodificador preferencial. Para evitar artefactos audíveis especificamente na situação em que o primeiro descodificador é um descodificador gerador de serrilhado temporal ou, de modo genérico, um descodificador no domínio da frequência e o segundo descodificador é um dispositivo do domínio temporal, os limites entre blocos ou tramas que saem do primeiro descodificador 450 e do segundo descodificador 550 não devem ser totalmente contínuos, especificamente numa situação de comutação. Assim, quando o primeiro bloco do primeiro descodificador 450 é emitido e quando, para a porção de tempo subsequente, um bloco do segundo descodificador é emitido, é preferencial efetuar uma operação de desvanecimento cruzado como ilustrado pelo bloco de desvanecimento cruzado 607. Para esta finalidade, o bloco de desvanecimento cruzado 607 pode ser implementado como ilustrado na Fig. 4c em 607a, 607b e 607c. Cada ramificação pode ter um ponderador que tem um fator de ponderação rru situado entre 0 e 1 na escala normalizada, em que o fator de ponderação pode variar como indicado no gráfico 609, de modo que uma regra de desvanecimento cruzado assegura que ocorre um desvanecimento cruzado contínuo e suave que, adicionalmente, assegura que um utilizador não se aperceberá de quaisquer variações na sonoridade. Podem ser aplicadas regras de desvanecimento cruzado não lineares, tais como uma regra de desvanecimento cruzado sm , em vez de uma regra de desvanecimento cruzado linear.
Em certos casos, o último bloco do primeiro descodificador foi gerado utilizando uma janela em que a janela efetuou de facto um desvanecimento deste bloco. Neste caso, o fator de ponderação mi no bloco 607a é igual ale, de facto, não é necessária nenhuma ponderação para esta ramificação. Quando ocorre uma comutação do segundo descodificador para o primeiro descodificador e quando o segundo descodificador inclui uma janela que de facto desvanece a saida até à extremidade do bloco, então o ponderador indicado com "m2" não será necessário ou o parâmetro de ponderação pode ser fixado em 1 ao longo de toda a região de desvanecimento cruzado.
Quando o primeiro bloco após uma comutação foi gerado utilizando uma operação de janela e quando esta janela realizou, de facto, uma operação de intensificação, então o fator de ponderação correspondente também pode ser fixado em 1 de modo que um ponderador não é realmente necessário. Em consequência, quando o último bloco é tratado em janela para efetuar desvanecimento pelo descodificador e quando o primeiro bloco após o comutador é tratado em janela utilizando o descodificador para proporcionar intensificação, então os ponderadores 607a, 607b são completamente desnecessários e é suficiente uma operação de adição pelo adicionador 607c.
Neste caso, a parte desvanecida da última trama e a parte intensificada da trama seguinte definem a região de desvanecimento cruzado indicada no bloco 609. Adicionalmente, é preferencial em tal situação que o último bloco de um descodificador tenha uma determinada sobreposição temporal com o primeiro bloco do outro descodificador.
Se uma operação de desvanecimento cruzado não for requerida ou não for possível ou não for desejada e se apenas existir uma comutação dura de um descodificador para o outro descodificador, é preferencial efetuar tal comutação em passagens silenciosas do sinal de áudio ou pelo menos em passagens do sinal de áudio em que há baixa energia, isto é, que são apercebidas como sendo silenciosas ou quase silenciosas. Preferencialmente, a etapa de decisão 300 assegura, numa tal forma de realização, que o comutador 200 só é ativado quando a porção de tempo correspondente que se segue ao evento de comutação tem uma energia que, por exemplo, é menor do que a energia média do sinal de áudio e, preferencialmente, é menor do que 50% da energia média do sinal de áudio relacionada, por exemplo, com duas ou mesmo mais porções/tramas de tempo do sinal de áudio.
Preferencialmente, a segunda regra de codificação/regra de descodificação é um algoritmo de codificação à base de LPC. Em codificação de voz baseada em LPC é efetuada uma diferenciação entre segmentos de sinal ou porções de sinal de excitação do tipo impulsos quasi-periódicos e segmentos de sinal ou porções de sinal de excitação do tipo ruído. Tal é realizado para vocoders de LPC de débito binário muito baixo (2,4 kbps) tal como na Fig 7b. No entanto, em codificadores de CELP de débito médio, a excitação é obtida para a adição de vetores escalados de um livro de código adaptativo e um livro de código fixo.
Segmentos de sinal de excitação do tipo impulso quasi-periódico, isto é, segmentos de sinal que têm um passo específico, são codificados com mecanismos diferentes de sinais de excitação do tipo ruído. Enquanto sinais de excitação do tipo impulso quasi-periódico estão relacionados com voz vocalizada, sinais do tipo ruído estão relacionados com voz não vocalizada.
De modo exemplif icativo referem-se as Figs. 5a até 5d. Aqui, segmentos de sinal ou porções de sinal do tipo impulso quasi- periódico e segmentos de sinal ou porções de sinal do tipo ruido são discutidos de modo exemplificativo. De modo especifico, uma voz vocalizada como ilustrado na Fig. 5a no domínio temporal e na Fig. 5b no domínio da frequência é discutida como exemplo de uma porção de sinal do tipo impulso quasiperiódico e um segmento de voz não vocalizada como exemplo de uma porção de sinal do tipo ruído é discutido em conexão com as Figs. 5c e 5d. Genericamente, a voz pode ser classificada como vocalizada, não vocalizada ou mista. Gráficos de domínio de tempo e frequência para segmentos vocalizados e não vocalizados submetidos a amostragem são apresentados na Fig. 5a até 5d. A voz vocalizada é quasi-periódica no domínio temporal e harmonicamente estruturada no domínio da frequência, ao passo que voz não vocalizada é do tipo aleatório e de banda larga. 0 espetro de tempo curto de voz vocalizada é caracterizado pela sua estrutura fina e formante. A estrutura harmónica fina é uma consequência da quasi-periodicidade da voz e pode ser atribuída às cordas vocais em vibração. A estrutura de formante (envelope espetral) deve-se à interação da fonte e dos tratos vocais. Os tratos vocais consistem na faringe e na cavidade bucal. A forma do envelope espetral que "se ajusta" ao espetro de tempo curto de voz vocalizada está associada às características de transferência do trato vocal e da pendente espetral (6 dB /Oitava) devido ao pulso glotal. 0 envelope espetral é caracterizado por um conjunto de picos que são denominados formantes. Os formantes são os modos ressonantes do trato vocal. Para o trato vocal médio há três até cinco formantes inferiores a 5 kHz. As amplitudes e localizações dos primeiros três formantes, que ocorrem habitualmente a menos de 3 kHz, são bastante importantes no que se refere à síntese e perceção da voz. Os formantes superiores também são importantes para as representações de voz de banda larga e não vocalizada. As propriedades da voz estão relacionadas com o sistema físico de produção de voz do modo seguinte. A voz vocalizada é produzida por excitação do trato vocal com pulsos de ar glotais quasi- periódicos gerados pelas cordas vocais em vibração. A frequência dos pulsos periódicos é referida como frequência ou passo fundamental. A voz não vocalizada é produzida forçando ar a passar através de uma constrição no trato vocal. Os sons nasais devem-se ao acoplamento acústico do trato nasal ao trato vocal e os sons (ex)plosivos são produzidos por libertação abrupta da pressão de ar que se acumulou por detrás do fecho no trato.
Assim, uma porção do tipo ruido do sinal de áudio não exibe nenhuma estrutura no domínio temporal do tipo impulso nem estrutura harmónica no domínio da frequência, como ilustrado na Fig. 5c e na Fig. 5d, que é diferente da porção do tipo impulso quasi-periódico como ilustrado, por exemplo, na Fig. 5a e na Fig. 5b. No entanto, como será delineado mais tarde, a diferenciação entre porções do tipo ruído e porções do tipo impulso quasi-periódico também pode ser observada após um LPC para o sinal de excitação. 0 LPC é a método que modela o trato vocal e extrai do sinal a excitação dos tratos vocais.
Adicionalmente, porções do tipo impulso quasi-periódico e porções do tipo ruído podem ocorrer de um modo oportuno, isto é, significando que uma porção do sinal de áudio no tempo é ruidosa e outra porção do sinal de áudio no tempo é quasi-periódica, isto é, tonal. Alternativa ou adicionalmente, a característica de um sinal pode ser diferente em diferentes bandas de frequência. Assim, a determinação de que o sinal de áudio é ruidoso ou tonal também pode ser efetuada de forma seletiva na frequência, de modo que uma determinada banda de frequência ou várias bandas de frequência determinadas são consideradas ruidosas e outras bandas de frequência são consideradas tonais. Neste caso, uma determinada porção temporal do sinal de áudio pode incluir componentes tonais e componentes ruidosos. A Fig. 7a ilustra um modelo linear de um sistema de produção de voz. Este sistema presume uma excitação em duas etapas, isto é, uma série de impulsos para voz vocalizada, como indicado na Fig. 7c, e um ruido aleatório para voz não vocalizada, como indicado na Fig. 7d. 0 trato vocal é modelado como um filtro só de polos 70 que processa pulsos da Fig. 7c ou Fig. 7d gerados pelo modelo glotal 72. Assim o sistema da Fig. 7a pode ser reduzido a um modelo de filtro só de polos da Fig. 7b que tem uma etapa de ganho 77, uma trajetória para a frente 78, uma trajetória de realimentação 79 e uma etapa de adição 80. Na trajetória de realimentação 79 há um filtro de previsão 81 e todo o sistema de síntese do modelo de fonte ilustrado na Fig. 7b pode ser representado utilizando funções no domínio z do modo seguinte: f í *!**>» em que g representa o ganho, A(z) é o filtro de previsão determinado por uma análise de LP, X(z) é o sinal de excitação e S(z) é a saída de voz da síntese.
As Figs. 7c e 7d apresentam uma descrição gráfica no domínio temporal da síntese de voz vocalizada e não vocalizada utilizando o modelo do sistema de fonte linear. Este sistema e os parâmetros de excitação na equação acima são desconhecidos e devem ser determinados a partir de um conjunto finito de amostras de voz. Os coeficientes de A(z) são obtidos utilizando uma previsão linear do sinal de entrada e uma quantificação dos coeficientes de filtro. Numa previsão linear direta de ordem p, a presente amostra da sequência de voz é prevista a partir de uma combinação linear de p amostras passadas. Os coeficientes de previsão podem ser determinados por algoritmos bem conhecidos, tais como o algoritmo de Levinson-Durbin, ou genericamente por um método de autocorrelação ou um método de reflexão. A Fig. 7e ilustra uma implementação mais detalhada do bloco de análise de LPC 510. O sinal de áudio entra num bloco de determinação de filtro que determina a informação de filtro A(z). Esta informação é emitida como a informação de previsão a curto prazo requerida para um descodificador. Esta informação é quantificada por um quantificador 81 conhecido, por exemplo, da especificação de AMR-WB+. A informação de previsão a curto prazo é requerida pelo filtro de previsão real 85. Num subtrator 86 entra uma amostra corrente do sinal de áudio e um valor previsto para a amostra corrente é subtraído de modo que, para esta amostra, o sinal de erro de previsão é gerado na linha 84. Uma sequência de tais amostras de sinal de erro de previsão está ilustrada muito esquematicamente na Fig. 7c ou 7d. Em consequência, as Fig. 7c, 7d podem ser consideradas um tipo de um sinal do tipo impulso retificado.
Enquanto a Fig. 7e ilustra um modo preferencial de calcular o sinal de excitação, a Fig. 7f ilustra um modo preferencial de calcular o sinal ponderado. Em contraste com a Fig. 7e, o filtro 85 é diferente quando γ é diferente de 1. Um valor menor do que 1 é preferencial para γ. Adicionalmente, o bloco 87 está presente e μ é preferencialmente um número menor do que 1. Em geral, os elementos na Fig. 7e e 7f podem ser implementados tal como em 3GPP TS 26.190 ou 3GPP TS 26.290. A Fig. 7g ilustra um processamento inverso, que pode ser aplicado no lado do descodificador tal como no elemento 537 da Fig. 2b. Em particular, o bloco 88 gera um sinal não ponderado a partir do sinal ponderado e o bloco 89 calcula uma excitação a partir do sinal não ponderado. Em geral, todos os sinais menos o sinal não ponderado na Fig. 7g estão no domínio de LPC, mas o sinal de excitação e o sinal ponderado são sinais diferentes no mesmo domínio. O bloco 89 emite um sinal de excitação que depois pode ser utilizado em conjunto com a saída do bloco 536. Em seguida, a transformada de LPC inversa comum pode ser efetuada no bloco 540 da Fig. 2b.
Subsequentemente será discutido um codificador de CELP de análise-por-síntese em conexão com a Fig. 6 para ilustrar as modificações aplicadas a este algoritmo. Este codificador de CELP é discutido pormenorizadamente em "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Volume 82, No. 10, outubro de 1994, páginas 1541-1582. 0 codificador de CELP, como ilustrado na Fig. 6, inclui um componente de previsão a longo prazo 60 e um componente de previsão a curto prazo 62. Adicionalmente utiliza-se um livro de código que está indicado em 64. Um filtro de ponderação percetual W(z) é implementado em 66 e um controlador de minimização de erros é proporcionado em 68. s (n) é o sinal de entrada no domínio temporal. Depois de ter sido percetualmente ponderado, o sinal ponderado entra num subtrator 69, que calcula o erro entre o sinal de síntese ponderado à saída do bloco 66 e o sinal original ponderado sw(n). Em geral, os coeficientes de filtros previsão a curto prazo A(z) são calculados por uma etapa de análise de LP e os seus coeficientes são quantificados em Â(z) como indicado na Fig. 7e. A informação de previsão de longo prazo Al(z) incluindo o ganho de previsão de longo prazo g e o índice de quantificação vetorial, isto é, referências do livro de código, são calculados no sinal de erro de previsão à saída da etapa de análise de LPC referida como 10a na Fig. 7e. Os parâmetros de LTP são o atraso do passo e ganho. Em CELP tal é habitualmente implementado como um livro de código adaptativo que contém o sinal de excitação anterior (não o residual). O atraso de CB adaptativo e o ganho são encontrados por minimização do erro quadrático médio ponderado (busca de passo em ciclo fechado).
Depois, o algoritmo de CELP codifica o sinal residual obtido após as previsões de curto prazo e longo prazo utilizando um livro de código, por exemplo, de sequências Gaussianas. O algoritmo de ACELP, em que o "A" significa "Algébrico", tem um livro de código específico concebido algebricamente.
Um livro de código pode conter mais ou menos vetores, em que cada vetor tem algumas amostras de comprimento. Um fator de ganho g escala o vetor de código e o código ganho é filtrado pelo filtro de síntese de previsão de longo prazo e o filtro de síntese de previsão de curto prazo. 0 vetor de código "ótimo" é selecionado de modo a minimizar o erro quadrático médio ponderado percetualmente à saída do subtrator 69. 0 processo de busca em CELP é efetuado por uma otimização análise-por-síntese como ilustrado na Fig. 6.
Para casos específicos, quando uma trama é uma mistura de voz não vocalizada e vocalizada ou quando ocorre voz sobre música, uma codificação de TCX pode ser mais apropriada para codificar a excitação no domínio de LPC. A codificação de TCX processa o sinal ponderado no domínio da frequência sem presumir nada sobre a produção de excitação. Assim, a codificação de TCX é mais genérica do que a CELP e não está restringida a um modelo de fonte vocalizado ou não vocalizado da excitação. TCX é ainda uma codificação de modelo de fonte-filtro que utiliza um filtro de previsão linear para modelação dos formantes dos sinais do tipo voz .
Na codificação do tipo AMR-WB+ ocorre uma seleção entre diferentes modos de TCX e ACELP, como é conhecido da descrição de AMR-WB+. Os modos de TCX são diferentes por o comprimento da Transformada de Fourier Discreta em blocos ser diferente para diferentes modos e o melhor modo pode ser selecionado por uma abordagem análise por síntese ou por um modo direto de "realimentação positiva".
Como discutido em conexão com a Fig. 2c e 2d, a etapa de pré-processamento em comum 100 inclui preferencialmente um multicanal combinado (dispositivo surround/estéreo combinado) 101 e, adicionalmente, uma etapa de extensão de largura de banda 102. De modo correspondente, o descodificador inclui uma etapa de extensão de largura de banda 701 e uma etapa de múltiplos canais combinada subsequentemente conectada 702.
Preferencialmente, a etapa de múltiplos canais combinada 101 é, relativamente ao codificador, conectada antes da etapa de extensão de largura de banda 102, e, no lado do descodificador, a etapa de extensão de largura de banda 701 é conectada antes da etapa de múltiplos canais combinada 702 relativamente à direção do processamento de sinal. No entanto, alternativamente, a etapa de pré-processamento em comum pode incluir uma etapa combinada de múltiplos canais sem a etapa de extensão de largura de banda subsequentemente conectada ou uma etapa de extensão de largura de banda sem uma etapa conectada combinada de múltiplos canais.
Um exemplo preferencial para uma etapa combinada de múltiplos canais no lado do codificador 101a, 101b e no lado do descodif icador 702a e 702b é ilustrado no contexto da Fig. 8. Alguns E canais de entrada originais entram no misturador descendente 101a de modo que o misturador descendente gera alguns K canais transmitidos, em que o número K é maior ou igual a um e é menor ou igual a E.
Preferencialmente, os E canais de entrada entram num analisador de parâmetros de múltiplos canais combinado 101b que gera informação paramétrica. Esta informação paramétrica é preferencialmente codificada por entropia, tal como por um codificador diferente e codificador de Huffman subsequente ou, alternativamente, codificador aritmético subsequente. A informação paramétrica codificada emitida pelo bloco lOld é transmitida a um descodificador de parâmetros 702b que pode fazer parte do item 702 na Fig. 2b. O descodificador de parâmetros 702b descodifica a informação paramétrica transmitida e dirige a informação paramétrica descodificada para o misturador ascendente 702a. O misturador ascendente 702a recebe os K canais transmitidos e gera alguns L canais de saída, em que o número L é maior ou igual a K e menor ou igual a E. A informação paramétrica pode incluir diferenças de níveis entre canais, diferenças de tempo entre canais, diferenças de fase entre canais e/ou medidas de coerência entre canais, como é conhecido da técnica de BCC ou como é conhecido e é descrito pormenorizadamente no padrão de MPEG surround. 0 número de canais transmitidos pode consistir num único canal mono para aplicações de débito binário ultra-baixo ou pode incluir uma aplicação estéreo compatível ou pode incluir um sinal estéreo compatível, isto é, dois canais. Tipicamente, o número de E canais de entrada pode ser cinco ou pode mesmo ser mais elevado. Alternativamente, o número de E canais de entrada também pode consistir em E objetos de áudio, como é conhecido no contexto de codificação de objeto de áudio espacial (SAOC).
Numa implementação, o misturador descendente efetua uma adição ponderada ou não ponderada dos E canais de entrada originais ou uma adição dos E objetos de áudio de entrada. No caso de objetos de áudio como canais de entrada, o analisador de parâmetros de múltiplos canais combinado 101b irá calcular parâmetros de objetos de áudio, tais como uma matriz de correlação entre os objetos de áudio, preferencialmente para cada porção temporal e ainda mais preferencialmente para cada banda de frequência. Para esta finalidade, a gama completa de frequências pode ser dividida em pelo menos 10 e preferencialmente 32 ou 64 bandas de frequência. A Fig. 9 ilustra uma forma de realização preferencial para a implementação da etapa de extensão de largura de banda 102 na Fig. 2a e a correspondente etapa de extensão de largura de banda 701 na Fig. 2b. No lado do codificador, o bloco de extensão de largura de banda 102 inclui preferencialmente um bloco de filtragem de passa baixo 102b, um bloco de amostragem descendente, que se segue ao passa baixo ou que faz parte do QMF inverso, que atua em apenas metade das bandas de QMF, e um analisador de banda alta 102a. A entrada do sinal de áudio original no bloco de extensão de largura de banda 102 é filtrado em passa baixo para gerar o sinal de banda baixa que depois entra nas ramificações de codificação e/ou no comutador. O filtro de passa baixo tem uma frequência de corte que pode estar situada num intervalo de 3 kHz até 10 kHz. Adicionalmente, o bloco de extensão de largura de banda 102 também inclui um analisador de banda alta para calcular os parâmetros de extensão de largura de banda, tais como uma informação sobre os parâmetros do envelope espetral, uma informação sobre os parâmetros do ruído de fundo, uma informação sobre os parâmetros de filtragem inversa, informação paramétrica adicional relacionada com determinadas linhas harmónicas na banda alta e parâmetros adicionais como discutido pormenorizadamente no padrão MPEG-4 no capítulo relacionado com replicação de bandas espetrais.
No lado do descodif icador, o bloco de extensão de largura de banda 701 inclui um corretor 701a, um ajustador 701b e um combinador 701c. O combinador 701c combina o sinal de banda baixa descodificado e o sinal de banda alta reconstruído e ajustado emitido pelo ajustador 701b. A entrada no ajustador 7 01b é proporcionada por um corretor que é operado para derivar o sinal de banda alta do sinal de banda baixa tal como por replicação de banda espetral ou, genericamente, por extensão de largura de banda. A correção efetuada pelo corretor 701a pode ser uma correção efetuada de um modo harmónico ou de um modo não harmónico. Subsequentemente, o sinal gerado pelo corretor 701a é ajustado pelo ajustador 701b utilizando a informação de extensão de largura de banda paramétrica transmitida.
Como indicado na Fig. 8 e Fig. 9, os blocos descritos podem ter uma entrada de controlo de modo numa forma de realização preferencial. Esta entrada de controlo de modo é derivada do sinal de saída da etapa de decisão 300. Em tal forma de realização preferencial, uma característica de um bloco correspondente pode ser adaptada à saída da etapa de decisão, isto é, se, numa forma de realização preferencial, for tomada uma decisão de voz ou uma decisão de música para uma determinada porção de tempo do sinal de áudio. Preferencialmente, o controlo de modo refere-se apenas a uma ou mais das funcionalidades destes blocos mas não a todas as funcionalidades dos blocos. Por exemplo, a decisão pode influenciar apenas o corretor 701a mas pode não influenciar os outros blocos na Fig. 9 ou, por exemplo, pode influenciar apenas o analisador de parâmetros de múltiplos canais combinado 101b na Fig. 8 mas não os outros blocos na Fig. 8. Esta implementação é preferencialmente tal que se obtém um sinal de saída de maior flexibilidade e qualidade mais elevada e menor débito binário ao proporcionar flexibilidade na etapa de pré-processamento em comum. No entanto, por outro lado, a utilização de algoritmos na etapa de pré-processamento em comum para ambos os tipos de sinais permite implementar um esquema de codificação/descodificação eficiente. A Fig. 10a e Fig. 10b ilustram duas implementações diferentes da etapa de decisão 300. Na Fig. 10a está indicada uma decisão de ciclo aberto. Aqui, o analisador de sinal 300a na etapa de decisão tem determinadas regras para decidir se a porção de tempo determinada ou uma determinada porção de frequência do sinal de entrada tem uma caracteristica que requeira que esta porção de sinal seja codificada pela primeira ramificação de codificação 400 ou pela segunda ramificação de codificação 500. Para esta finalidade, o analisador de sinal 300a pode analisar o sinal de entrada de áudio na etapa de pré-processamento em comum ou pode analisar a saída do sinal de áudio pela etapa de pré-processamento em comum, isto é, o sinal de áudio intermédio, ou pode analisar um sinal intermédio na etapa de pré-processamento em comum, como a saída do sinal de mistura descendente que pode ser um sinal mono ou que pode ser um sinal que tem k canais indicados na Fig. 8. No lado da saída, o analisador de sinal 300a gera a decisão de comutação para controlar o comutador 200 no lado do codificador e o comutador correspondente 600 ou o combinador 600 no lado do descodificador.
Alternativamente, a etapa de decisão 300 pode efetuar uma decisão de ciclo fechado, que significa que ambas as ramificações de codificação efetuam as suas tarefas na mesma porção do sinal de áudio e ambos os sinais codificados são descodificados por ramificações de descodificação correspondentes 300c, 300d. A saída dos dispositivos 300c e 300d entra num comparador 300b que compara a saída dos dispositivos descodificadores para colocar a porção correspondente, por exemplo, do sinal intermédio de áudio. Em seguida, dependendo de uma função de custo, tal como uma razão entre sinal e ruído por ramificação, é tomada uma decisão de comutação. Esta decisão de ciclo fechado tem uma complexidade aumentada em comparação com a decisão de ciclo aberto, mas esta complexidade só existe no lado do codificador e um descodificador não tira nenhuma desvantagem deste processo uma vez que o descodificador pode vantajosamente utilizar a saída desta decisão de codificação. Em consequência, o modo de ciclo fechado é preferencial devido a considerações de complexidade e qualidade em aplicações em que a complexidade do descodif icador não é um problema, tal como em aplicações de radiodifusão em que há apenas um pequeno número de codificadores mas um grande número de descodificadores que, adicionalmente, devem ser inteligentes e baratos. A função de custo aplicada pelo comparador 300d pode ser uma função de custo baseada em aspetos de qualidade ou pode ser uma função de custo baseada em aspetos de ruído ou pode ser uma função de custo baseada em aspetos de débito binário ou pode ser uma função de custo combinada baseada em qualquer combinação de débito binário, qualidade, ruído (introduzido por artefactos de codificação, especificamente, por quantificação), etc.
Preferencialmente, a primeira ramificação de codificação ou a segunda ramificação de codificação inclui uma funcionalidade de distorção temporal no lado do codificador e correspondentemente no lado do descodificador. Numa forma de realização, a primeira ramificação de codificação compreende um módulo de distorção temporal para calcular uma caracteristica de distorção variável dependente de uma porção do sinal de áudio, um dispositivo de reamostragem para reamostragem de acordo com a caracteristica de distorção determinada, um conversor de domínio temporal/domínio da frequência e um codificador de entropia para converter um resultado da conversão domínio temporal/domínio da frequência numa representação codificada. A caracteristica de distorção variável é incluída no sinal de áudio codificado. Esta informação é lida por uma ramificação de descodificação intensificada na distorção temporal e processada para ter, por fim, um sinal de saida numa escala de tempo sem distorção. Por exemplo, a ramificação de descodificação efetua descodificação de entropia, desquantificação e uma conversão do domínio da frequência de novo para o domínio temporal. No domínio temporal pode aplicar-se a operação inversa da distorção e pode ser seguida de uma operação de reamostragem correspondente para, por fim, obter um sinal de áudio discreto com uma escala temporal sem distorção.
Dependendo de certos requisitos de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode ser efetuada utilizando um meio de armazenamento digital, em particular, um disco, um DVD ou um CD que tenha armazenados sinais de comando que podem ser lidos eletronicamente, que cooperam com sistemas computacionais programáveis de modo que sejam implementados os métodos inventivos. Em geral, a presente invenção é consequentemente um produto de programa computacional com um código de programa armazenado num portador apto a ser lido por uma máquina, em que o código de programa é operado para implementar os métodos inventivos quando o produto de programa computacional corre num computador. Por outras palavras, os métodos inventivos consistem, consequentemente, num programa computacional que tem um código de programa para implementar pelo menos um dos métodos inventivos quando o programa computacional corre num computador. 0 sinal de áudio codificado inventivo pode ser armazenado num meio de armazenamento digital ou pode ser transmitido num meio de transmissão, como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como a Internet.
As formas de realização acima descritas são meramente ilustrativas dos princípios da presente invenção. É entendido que modificações e variações das disposições e dos pormenores descritos no presente documento serão claras para outros peritos na área. Em consequência, pretende-se que a invenção seja limitada apenas pelo âmbito das reivindicações de patente pendentes e não pelos pormenores específicos apresentados a título descrito e explicativo das formas de realização apresentadas no presente documento.
Lisboa, 29 de Setembro de 2016

Claims (19)

  1. REIVINDICAÇÕES
    1. Aparelho para codificar um sinal de áudio para obter um sinal de áudio codificado, em que o sinal de áudio está num primeiro domínio, que compreende: um primeiro conversor de domínio (510) para converter o sinal de áudio do primeiro domínio num segundo domínio; uma derivação comutável (50) para contornar o primeiro conversor de domínio (510) ou para forçar uma conversão do sinal de áudio pelo primeiro conversor de domínio (510) em resposta a um sinal de comando de comutação da derivação (51); um segundo conversor de domínio (410) para converter um sinal de áudio recebido da derivação comutável (50) ou do primeiro conversor de domínio (510) num terceiro domínio, em que o terceiro domínio é diferente do segundo domínio; um primeiro processador (420) para codificar o sinal de áudio do terceiro domínio de acordo com um primeiro algoritmo codificador para obter um primeiro sinal processado, e um segundo processador (520) para codificar o sinal de áudio recebido do primeiro conversor de domínio (510) de acordo com um segundo algoritmo codificador que é diferente do primeiro algoritmo codificador para obter um segundo sinal processado, em que o sinal codificado para uma parte do sinal de áudio inclui o primeiro sinal processado ou o segundo sinal processado.
  2. 2. Aparelho de acordo com a reivindicação 1, em que o primeiro conversor de domínio (510) compreende um filtro de análise de LPC para filtragem por LPC do sinal de áudio para obter um sinal residual de LPC e dados de parâmetros de LPC.
  3. 3. Aparelho de acordo com a reivindicação 1 ou 2, em que o segundo conversor de domínio (410) compreende um conversor tempo-frequência para converter um sinal de entrada numa sua representação espetral.
  4. 4. Aparelho de acordo com uma das reivindicações precedentes, em que o segundo processador (520) opera para gerar um sinal de saída codificado de modo que o sinal de saída codificado esteja no mesmo domínio de um sinal de entrada para o segundo processador (520).
  5. 5. Aparelho de acordo com uma das reivindicações precedentes, em que o primeiro processador (420) compreende um quantificador e um codificador de entropia e em que o segundo processador (520) compreende um codificador de fonte baseado em livro de código.
  6. 6. Aparelho de acordo com uma das reivindicações precedentes, em que o primeiro processador (420) se baseia num modelo de depósito de informação e o segundo processador (520) baseia-se num modelo de fonte de informação.
  7. 7. Aparelho de acordo com uma das reivindicações precedentes, que compreende adicionalmente uma etapa de comutação (200) conectada entre uma saída do primeiro conversor de domínio (510) e uma entrada do segundo conversor de domínio (410) e uma entrada do segundo processador (520), em que a etapa de comutação (200) está adaptada para comutar entre a entrada do segundo conversor de domínio (410) e a entrada do segundo processador (520) em resposta a um sinal de comando da etapa de comutação.
  8. 8. Aparelho de acordo com uma das reivindicações precedentes, em que uma saída da derivação comutável (50) está conectada a uma saída do primeiro conversor de domínio (510) e uma entrada da derivação comutável (50) está conectada a uma entrada para o primeiro conversor de domínio (510).
  9. 9. Aparelho de acordo com uma das reivindicações precedentes, que compreende adicionalmente um classificador de sinal para controlar a derivação comutável (50) para uma parte do sinal de áudio dependendo do resultado de uma análise para a parte do sinal de áudio.
  10. 10. Aparelho de acordo com uma das reivindicações precedentes, em que o segundo conversor de domínio (410) opera para converter um sinal de entrada de um modo baseado em bloco e em que o segundo conversor de domínio opera para realizar uma comutação baseada em bloco em resposta a uma análise de sinal de áudio de modo que o segundo conversor de domínio (410) seja comandado pelo facto de serem convertidos blocos de diferentes comprimentos dependendo do conteúdo do sinal de áudio.
  11. 11. Método de codificação de um sinal de áudio para obter um sinal de áudio codificado, em que o sinal de áudio está num primeiro domínio, que compreende: converter (510) o sinal de áudio do primeiro domínio num segundo domínio; contornar (50) a etapa de conversão (510) do sinal de áudio do primeiro domínio num segundo domínio ou forçar uma conversão do sinal de áudio do primeiro domínio num segundo domínio em resposta a um sinal de comando de comutação da derivação (51); converter (410) um sinal de áudio desviado (50) ou um sinal de áudio no segundo domínio num terceiro domínio, em que o terceiro domínio é diferente do segundo domínio; codificar (420) o sinal de áudio do terceiro domínio gerado pela etapa de conversão (410) do sinal de áudio desviado (50) ou do sinal de áudio no segundo domínio de acordo com um primeiro algoritmo codificador para obter um primeiro sinal processado, e codificar (520) o sinal de áudio no segundo domínio de acordo com um segundo algoritmo codificador que é diferente do primeiro algoritmo codificador para obter um segundo sinal processado, em que o sinal codificado para uma parte do sinal de áudio inclui o primeiro sinal processado ou o segundo sinal processado.
  12. 12. Aparelho para descodificar um sinal de áudio codificado, em que o sinal de áudio codificado compreende um primeiro sinal processado que está num terceiro domínio e um segundo sinal processado que está num segundo domínio, em que o segundo domínio e o terceiro domínio são diferentes entre si, que compreende: um primeiro processador inverso (430) para o processamento inverso do primeiro sinal processado para obter um primeiro sinal processado inverso; um segundo processador inverso (530) para o processamento inverso do segundo sinal processado para obter um segundo sinal processado inverso; um segundo conversor (440) para conversão de domínio do primeiro sinal processado inverso do terceiro domínio num domínio diferente; um primeiro conversor (540) para converter o segundo sinal processado inverso num primeiro domínio ou para converter o primeiro sinal processado inverso, que foi convertido num domínio diferente, no primeiro domínio quando o domínio diferente não é o primeiro domínio, e uma derivação (52) para contornar o primeiro conversor (540) quando o domínio diferente é o primeiro domínio.
  13. 13. Aparelho de acordo com a reivindicação 12, que compreende adicionalmente um combinador (600) para combinar uma saída do primeiro conversor (540) e uma saída da derivação (52) para obter um sinal de áudio descodificado combinado (699).
  14. 14. Aparelho para descodificar de acordo com qualquer uma das reivindicações 12 ou 13, que compreende adicionalmente uma interface de entrada (900) para extrair, de um sinal de áudio codificado, o primeiro sinal processado, o segundo sinal processado e o sinal de comando indicando se, para um determinado primeiro sinal processado inverso, o primeiro conversor (540) deve ser contornado pela derivação ou não.
  15. 15. Aparelho para descodificar de acordo com qualquer uma das reivindicações 12 até 14, em que o primeiro conversor (540) compreende uma etapa de síntese de codificação de previsão linear (LPC) e em que o segundo conversor (440) compreende um conversor espetral-temporal para converter uma representação espetral de um sinal de áudio numa representação temporal do sinal de áudio.
  16. 16. Aparelho para descodificar de acordo com qualquer uma das reivindicações 12 até 15, em que o primeiro processador inverso (430) compreende um descodificador de entropia e um desquantificador e em que o segundo processador inverso (530) compreende o descodificador de fonte baseado em livro de código.
  17. 17. Aparelho para descodificar de acordo com qualquer uma das reivindicações 12 até 16, em que o segundo conversor (440) opera para realizar uma operação de filtragem de síntese, tal como uma operação de filtragem de transformada cossinusoidal discreta modificada por distorção temporal inversa, que pode ser comandada por informação adicional (434) incluída no sinal de áudio codificado.
  18. 18. Método de descodificação de um sinal de áudio codificado, em que o sinal de áudio codificado compreende um primeiro sinal processado que está num terceiro domínio e um segundo sinal processado que está num segundo domínio, em que o segundo domínio e o terceiro domínio são diferentes entre si, que compreende: processamento inverso (430) do primeiro sinal processado para obter um primeiro sinal processado inverso; processamento inverso (530) do segundo sinal processado para obter um segundo sinal processado inverso; conversão de segundo domínio (440) do primeiro sinal processado inverso do terceiro domínio num domínio diferente; conversão de primeiro domínio (540) do segundo sinal processado inverso num primeiro domínio ou conversão do primeiro sinal processado inverso no primeiro domínio quando o domínio diferente não é o primeiro domínio, e desvio (52) da etapa de conversão de primeiro domínio (540) quando o domínio diferente é o primeiro domínio.
  19. 19. Programa computacional para implementar, quando corrido num computador, um método de codificação de um sinal de áudio de acordo com a reivindicação 11 ou um método de descodificação de um sinal de áudio codificado de acordo com a reivindicação 18. Lisboa, 29 de Setembro de 2016
PT90022708T 2008-07-17 2009-02-18 Esquema de codificação/descodificação de áudio com uma derivação comutável PT2146344T (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US8158608P 2008-07-17 2008-07-17

Publications (1)

Publication Number Publication Date
PT2146344T true PT2146344T (pt) 2016-10-13

Family

ID=40718647

Family Applications (1)

Application Number Title Priority Date Filing Date
PT90022708T PT2146344T (pt) 2008-07-17 2009-02-18 Esquema de codificação/descodificação de áudio com uma derivação comutável

Country Status (17)

Country Link
US (2) US8321210B2 (pt)
EP (2) EP2146344B1 (pt)
JP (1) JP5613157B2 (pt)
KR (1) KR101224884B1 (pt)
CN (1) CN102099856B (pt)
AR (1) AR072551A1 (pt)
AU (1) AU2009270524B2 (pt)
BR (1) BRPI0910999B1 (pt)
CA (1) CA2727883C (pt)
ES (2) ES2592416T3 (pt)
HK (2) HK1138673A1 (pt)
MX (1) MX2011000534A (pt)
PL (2) PL2146344T3 (pt)
PT (1) PT2146344T (pt)
RU (1) RU2483364C2 (pt)
TW (1) TWI441167B (pt)
WO (1) WO2010006717A1 (pt)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356127B2 (en) * 2004-12-09 2013-01-15 Rambus Inc. Memory interface with workload adaptive encode/decode
BRPI0811384A2 (pt) * 2007-06-11 2017-08-01 Fraunhofer Ges Forschung "codificador de áudio para codificar um sinal de áudio tendo uma porção tipo impulso e porção fixa, métodos de codificação, decodificador, método de decodificação, e sinal de áudio codificado"
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5551693B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
PL2311034T3 (pl) * 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
KR101797033B1 (ko) 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
BR122022013482B1 (pt) * 2009-10-20 2023-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Codificador de áudio, decodificador de áudio, método para codificar uma informação de áudio, método para decodificar uma informação de áudio que utiliza uma detecção de um grupo de valores espectrais previamente decodificados
CN102844809B (zh) 2010-01-12 2015-02-18 弗劳恩霍弗实用研究促进协会 基于先前解码频谱值的范数来获得上下文子区值的音频编码器、音频解码器、编码及解码音频信息的方法
ES2656815T3 (es) 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
CA3076786C (en) * 2010-04-09 2021-04-13 Dolby International Ab Mdct-based complex prediction stereo coding
JP5981913B2 (ja) * 2010-07-08 2016-08-31 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ フォワードエイリアシング消去を用いた符号器
EP2633521B1 (en) * 2010-10-25 2018-08-01 Voiceage Corporation Coding generic audio signals at low bitrates and low delay
TWI479160B (zh) * 2010-12-20 2015-04-01 Hon Hai Prec Ind Co Ltd 測試裝置及方法
KR20130111611A (ko) * 2011-01-25 2013-10-10 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
DK4020466T3 (da) * 2011-02-18 2023-06-26 Ntt Docomo Inc Talekoder og talekodningsfremgangsmåde
KR102105044B1 (ko) * 2011-11-03 2020-04-27 보이세지 코포레이션 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
CN104160442B (zh) * 2012-02-24 2016-10-12 杜比国际公司 音频处理
MY167474A (en) * 2012-03-29 2018-08-29 Ericsson Telefon Ab L M Bandwith extension of harmonic audio signal
JP6133413B2 (ja) * 2012-06-14 2017-05-24 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオのためのなめらかな構成切り換え
MX350690B (es) * 2012-08-03 2017-09-13 Fraunhofer Ges Forschung Método y descodificador para un concepto paramétrico de codificación de objeto de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal.
CN104704557B (zh) * 2012-08-10 2017-08-29 弗劳恩霍夫应用研究促进协会 用于在空间音频对象编码中适配音频信息的设备和方法
TWI517141B (zh) 2012-08-10 2016-01-11 弗勞恩霍夫爾協會 編碼器、解碼器、殘差信號產生器、編碼系統、解碼方法、產生殘差信號之方法、以及相關電腦可讀媒體與電腦程式
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
JP6172162B2 (ja) * 2013-01-07 2017-08-02 日本電気株式会社 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法およびプログラム
PT2951821T (pt) * 2013-01-29 2017-06-06 Fraunhofer Ges Forschung Conceito para codificar a compensação de comutação de modo
SG11201505925SA (en) * 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
MY189267A (en) 2013-01-29 2022-01-31 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9148721B2 (en) * 2013-03-14 2015-09-29 Dunlop Manufacturing, Inc. System, method and apparatus for silent true bypass switching
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
ES2934646T3 (es) * 2013-04-05 2023-02-23 Dolby Int Ab Sistema de procesamiento de audio
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
CN110299147B (zh) 2013-06-21 2023-09-19 弗朗霍夫应用科学研究促进协会 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN117037810A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN103841244A (zh) * 2013-12-03 2014-06-04 华为技术有限公司 一种终端及终端的录音方法
EP3095117B1 (en) 2014-01-13 2018-08-22 Nokia Technologies Oy Multi-channel audio signal classifier
CN110097892B (zh) * 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
US20160057463A1 (en) * 2014-08-19 2016-02-25 Gatesair, Inc. Hybrid time-divisional multiplexed modulation
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
KR20160081844A (ko) 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3345409B1 (en) * 2015-08-31 2021-11-17 Dolby International AB Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
BR112018014916A2 (pt) 2016-01-22 2018-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho e método para codificação ou decodificação de um sinal multicanal utilizando sincronização de controle de quadro
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
FR3075443A1 (fr) * 2017-12-19 2019-06-21 Orange Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
US10755721B1 (en) 2019-04-30 2020-08-25 Synaptics Incorporated Multichannel, multirate, lattice wave filter systems and methods
JP7242903B2 (ja) * 2019-05-14 2023-03-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置
CN110730408A (zh) * 2019-11-11 2020-01-24 北京达佳互联信息技术有限公司 一种音频参数切换方法、装置、电子设备及存储介质
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
JPWO2021261235A1 (pt) * 2020-06-22 2021-12-30
KR20220125026A (ko) * 2021-03-04 2022-09-14 삼성전자주식회사 오디오 처리 방법 및 이를 포함하는 전자 장치

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3211762B2 (ja) * 1997-12-12 2001-09-25 日本電気株式会社 音声及び音楽符号化方式
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
JP2002304196A (ja) * 2001-04-03 2002-10-18 Sony Corp オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
RU2319223C2 (ru) * 2001-11-30 2008-03-10 Конинклейке Филипс Электроникс Н.В. Кодирование сигнала
US7424434B2 (en) 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
TW584835B (en) 2002-12-13 2004-04-21 Univ Nat Chiao Tung Method and architecture of digital coding for transmitting and packing audio signals
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
US7418394B2 (en) 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
TWI371925B (en) 2006-09-08 2012-09-01 Via Tech Inc Apparatus for processing multiple signals with a single analog-to-digital converter and method thereof
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法
EP2052548B1 (en) * 2006-12-12 2012-02-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Also Published As

Publication number Publication date
HK1138673A1 (zh) 2010-08-27
MX2011000534A (es) 2011-04-27
BRPI0910999A2 (pt) 2019-05-14
US20130066640A1 (en) 2013-03-14
KR101224884B1 (ko) 2013-02-06
TWI441167B (zh) 2014-06-11
US20110202355A1 (en) 2011-08-18
CN102099856A (zh) 2011-06-15
EP2146344B1 (en) 2016-07-06
CN102099856B (zh) 2012-11-07
US8959017B2 (en) 2015-02-17
ES2592416T3 (es) 2016-11-30
ES2391715T3 (es) 2012-11-29
CA2727883A1 (en) 2010-04-21
KR20110055515A (ko) 2011-05-25
BRPI0910999B1 (pt) 2020-03-10
US8321210B2 (en) 2012-11-27
JP5613157B2 (ja) 2014-10-22
EP2146344A1 (en) 2010-01-20
CA2727883C (en) 2014-09-02
AU2009270524A1 (en) 2010-01-21
RU2483364C2 (ru) 2013-05-27
AR072551A1 (es) 2010-09-08
WO2010006717A1 (en) 2010-01-21
EP2301024B1 (en) 2012-07-25
RU2010154749A (ru) 2012-07-10
PL2301024T3 (pl) 2012-12-31
EP2301024A1 (en) 2011-03-30
HK1156143A1 (en) 2012-06-01
JP2011528129A (ja) 2011-11-10
TW201009814A (en) 2010-03-01
PL2146344T3 (pl) 2017-01-31
AU2009270524B2 (en) 2012-03-15

Similar Documents

Publication Publication Date Title
US11676611B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
PT2146344T (pt) Esquema de codificação/descodificação de áudio com uma derivação comutável
TWI463486B (zh) 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體
JP5325293B2 (ja) 符号化されたオーディオ信号を復号化するための装置および方法