[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

PT2676270T - Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade - Google Patents

Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade Download PDF

Info

Publication number
PT2676270T
PT2676270T PT127070480T PT12707048T PT2676270T PT 2676270 T PT2676270 T PT 2676270T PT 127070480 T PT127070480 T PT 127070480T PT 12707048 T PT12707048 T PT 12707048T PT 2676270 T PT2676270 T PT 2676270T
Authority
PT
Portugal
Prior art keywords
algorithm
audio signal
coding
encoding algorithm
encoding
Prior art date
Application number
PT127070480T
Other languages
English (en)
Inventor
Fuchs Guillaume
Helmrich Christian
Markovic Goran
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT2676270T publication Critical patent/PT2676270T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

DESCRIÇÃO
CODIFICAÇÃO DE UMA PARTE DE UM SINAL DE ÁUDIO UTILIZANDO UMA DETEÇÃO DE TRANSIENTE E UM RESULTADO DE QUALIDADE A presente invenção refere-se à codificação de áudio e, particularmente, à codificação de áudio comutado em que, para diferentes partes de tempo, o sinal codificado é gerado com o uso de diferentes algoritmos de codificação.
Codificadores de áudio comutados que determinam diferentes algoritmos de codificação para diferentes partes dos sinais de áudio são já conhecidos. Um exemplo é o chamado codec de banda larga de multitaxa adaptativa estendida ou AMR-WB+ [Adaptive Multi-Rate Wideband Codec] definido na Norma Internacional 3GPP TS 26.290 V6.1.0 2004-12. Nesta especificação técnica, o conceito de codificação é descrito, o que amplia a ACELP [Algebraic Code Excited Linear Prediction | Predição Linear Excitada de Código Algébrico] com base no codec AMR-WB pela adição do TCX [Transform Coded Excitation | Excitação Codificada Transformada], extensão de banda larga, e estereo. O codec de áudio AMR-WB+ processa os frames de entrada igual a 2048 amostras numa amostragem interna de frequência Fs. A frequência de amostragem interna é limitada a uma gama de 12.800 a 38.400 Hz. As 2048 amostras de frames são criteriosamente divididas em duas bandas de frequências amostrais iguais. Isto resulta em dois superframes de 1024 amostras, correspondendo às bandas de baixa frequência (LF | Low Frequency) e alta frequência (HF | High Frequency). Cada superframe é dividido em quatro frames de 256 amostras. A amostragem da taxa de amostras internas é obtida através do uso de um esquema de conversão de amostragem variável que faz uma nova amostragem do sinal de entrada. Os sinais de LF e HF são, então, codificados utilizando duas abordagens diferentes. O sinal de LF é codificado e descodificado utilizando o codificador/descodificador "principal", com base no ACELP e TCX comutados. No modo ACEPL, o codec AMR-WB padrão é 1 utilizado. 0 sinal de HF é codificado com relativamente poucos bits (16 bits/frame) utilizando um método de extensão de banda larga (BWE | Bandwidth Extension).
Os parâmetros transmitidos do codificador para o descodificador são os bits de seleção de modo, os parâmetros LF e os parâmetros de sinais HF. Os parâmetros para cada superframe de 1024 amostras são decompostos em quatro pacotes de tamanhos idênticos. Quando o sinal de entrada é estéreo, os canais esquerdo e direito são combinados em sinais mono para uma codificação ACELP-TCX, ao passo que a codificação estéreo recebe ambos os canais de entrada. Na estrutura de descodificação AMR-WB+, as bandas LF e HF são descodificadas separadamente.
Seguidamente, as bandas são combinadas num banco de filtro de síntese. Se a saída estiver restrita somente a mono, os parâmetros estéreo são omitidos e o descodificador opera em modo mono. O codec AMR-WB+ aplica a análise de LP [Linear Prediction \ Predição Linear] aos dois modos ACELP e TCX, ao codificar o sinal de LF. Os coeficientes LP são interpolados linearmente a cada subframe de 64 amostras. A janela de análise de LP mede meio cosseno de extensão de 384 amostras. O modo de codificação é selecionado com base no método de análise por síntese de circuito fechado. Somente 256 frames de amostras são consideradas para os framess ACELP, enquanto que frames de 256, 512 ou 1024 amostras são possíveis no modo TCX. A codificação ACELP consiste em análises e síntese de predições de longo prazo [LTP | Long-Term Prediction] e excitação de codebook [livro de códigos] algébrico. No modo TCX, um sinal perceptualmente ponderado é processado no domínio de transformação. O sinal ponderado da transformada de Fourier é quantizado utilizando quantização de ponderação múltipla dividida (quantização do vetor algébrico). A transformada é calculada em janelas de 1024, 512 ou 256 amostras. O sinal de excitação é recuperado pela filtragem inversa de um sinal ponderado quantizado através do filtro de ponderação inversa. Com o intuito de determinar se uma certa porção do sinal de áudio deverá ser codificada utilizando o modo ACELP ou o modo TCX, uma seleção de modo de circuito fechado ou uma seleção de modo de circuito aberto é utilizado. Numa seleção de modo de circuito fechado, 11 análises sucessivas são utilizadas. Subsequentemente a cada análise, uma seleção de modo é feita entre os dois modos em comparação. 0 critério de seleção é a média segmentar SNR [Signal Noise Ratio | Relação Sinal/Ruido] entre o sinal de áudio ponderado e o sinal de áudio ponderado sintetizado. Deste modo, o codificador realiza uma codificação completa utilizando ambos os algoritmos de codificação, uma descodificação completa de acordo com ambos os algoritmos de codificação e, subsequentemente, os resultados de ambas as operações de codificação/decodificação são comparados com o sinal original. Portanto, para cada algoritmo codificado, isto é, ACELP por um lado e TCX por outro lado, um valor SNR segmentar é obtido e o algoritmo de codificação que tenha o melhor valor SNR ou que tenha a melhor média de valor SNR segmentar determinados sobre um frame atravéz da média obtida para os valores SNR segmentais para os subframes individuais é utilizado.
Um esquema de codificação de áudio comutado adicional é o chamado codificador USAC [Unified Speech Áudio Coding | Codificação de Áudio de Fala Unificada]. Este algoritmo de codificação é descrito no ISO/IEC 23003-3. A estrutura geral pode ser descrita conforme se segue. Primeiro, há um sistema de pré/pós-processamento comum de uma unidade funcional Surround MPEG para lidar com o processamento estéreo ou de multicanais e uma unidade SBR melhorada que gera a representação paramétrica das frequências de áudio mais altas do sinal de entrada. Seguidamente, existem duas ramificações, uma consistindo na utilização de uma ferramenta de codificação de áudio avançada modificada (AAC | Advanced Áudio Coding) e a outra tendo por base a predição linear codificada (domínio LP ou LPC | Linear Prediction Coding), que por sua vez utiliza ou uma representação do domínio de frequência, ou uma representação do domínio de tempo do LPC residual. Todos os espectros transmitidos para ambos, AAC e LPC, são representados no domínio MDCT seguindos de quantização e codificação aritmética. A representação de domínio de tempo usa um esquema de codificação de excitação ACELP. As funções do descodificador servem para encontrar a descrição do espectro de áudio quantizado ou a representação de domínio de tempo na carga útil do fluxo de bits e para descodificar os valores quantizados e outras informações de reconstrução. Portanto, o codificador toma duas decisões. A primeira decisão é a de realizar uma classificação de sinal para o domínio de frequência versus utilizar o modo de domínio de predição linear. A segunda decisão é a de determinar, dentro do domínio de predição linear (LPD | Linear Prediction Domain) se uma parte do sinal tem que ser codificada utilizando o ACELP ou o TCX.
Para a aplicação de um esquema de codificação de áudio comutado em cenários, onde um atraso muito pequeno é necessário, deve ser dispensada uma atenção particular para as partes de codificação com base na transformação, uma vez que estas partes de codificação apresentam um determinado atraso que depende da dimensão da transformação e da definição da janela. Deste modo, o conceito de codificação USAC não é adequado para aplicações de atrasos muito pequenos dado que a ramificação que utiliza a codificação AAC modificada tem uma dimensão de transformação considerável e uma adaptação da dimensão (também conhecida como comutação de bloco) envolvendo as janelas transientes.
Por outro lado, o conceito de codificação AMR-WB+ foi considerado problemático por conta da decisão do lado do codificador se será o ACELP ou o TCX que deva ser utilizado. 0 ACELP oferece um bom ganho de codificação, mas pode resultar em problemas significativos na qualidade do áudio quando uma parte do sinal não for adequada para o modo de codificação ACELP. Portanto, por motivos de qualidade, poderá ter-se uma inclinação pelo uso do TCX sempre que o sinal de entrada não contenha fala.
No entanto, o uso excessivo do TCX em baixas taxas de bits irá resultar em problemas nestas taxas de bits, uma vez que o TCX oferece um ganho relativamente baixo de codificação. Quando, portanto, se analiza na perspectiva do ganho de codificação, poderá usar-se o ACELP sempre que possível, porém, conforme afirmado anteriormente, isso pode resultar em problemas com a qualidade do áudio por conta do fato de que o ACELP não é ideal, por exemplo, para música e sinais estacionários similares. 0 cálculo SNR segmentar é uma medida de qualidade que determina o melhor modo de codificação com base somente nos resultados, isto é, se o SNR entre o sinal original ou o sinal codificado/decodifiçado for melhor, para então o algoritmo codificado que resulte num melhor SNR ser utilizado. Este, no entanto, tem sempre que operar sob contrangimentos relativamente à taxa de bits. Deste modo, descobriu-se que o uso de unicamente uma medida de qualidade como, por exemplo, a medida SNR segmentar, nem sempre resulta no melhor equilíbrio entre a qualidade e a taxa de bits.
Mais detalhes sobre USAC podem ser encontrados em"WD7 of US Ac" 92° Encontro MPEG, 19.04.2010-23.04.2010, Dresden, ISSO/IEC JTC1/SC29/WG11 n° N11299. É o propósito da presente invenção fornecer um conceito melhorado para a codificação de uma parte de um sinal de áudio.
Este propósito é alcançado através de um aparelho para codificação de uma parte de um sinal de áudio de acordo com a reivindicação 1 ou um método para a codificação de uma parte de um sinal de áudio de acordo com a reivindicação 11. Um programa de computador correspondente é fornecido na reivindicação 12. A presente invenção baseia-se na descoberta de que uma melhor decisão entre um primeiro algoritmo de codificação adequado para partes de sinais mais transientes e um segundo algoritmo de codificação adequado para partes de sinais mais estacionários pode ser obtida quando a decisão não se basear somente numa medida de qualidade, mas, adicionalmente, num resultado de deteção de transiente. Enquanto a medida de qualidade somente visa os resultados da cadeia de codificação/decodificação com respeito ao sinal original, os resultados da deteção de transiente baseiam-se adicionalmente numa análise do sinal de entrada de áudio original isoladamente. Portanto, descobriu-se que uma combinação de ambas as medidas, isto é, o resultado de qualidade por um lado e o resultado da deteção de transiente por outro para finalmente determinar se uma parte de um sinal de áudio deva ser codificada através de que algoritmo de codificação leva a um equilíbrio melhorado entre o ganho de codificação por um lado, e a qualidade do áudio por outro.
Um aparelho para a codificação de uma parte de um sinal de áudio para obter um sinal de áudio codificado para uma parte de um sinal de áudio abrange um detetor de transiente para detectar se um sinal transiente está localizado numa parte do sinal de áudio para obter um resultado de deteção de transiente. 0 aparelho, além do mais, abrange um estágio do codificador para executar um primeiro algoritmo de codificação sobre o sinal de áudio, tendo o primeiro algoritmo de codificação uma primeira característica, e para executar um segundo algoritmo de codificação sobre o sinal de áudio, tendo o segundo algoritmo de codificação uma segunda característica que é diferente da primeira característica. Numa forma de realização, a primeira característica associada com o primeiro algoritmo de codificação é mais adequada para um sinal transiente e a segunda característica de codificação associada com o segundo algoritmo de codificação é mais adequada para sinais de áudio mais estacionários. Exemplificativamente, o primeiro algoritmo de codificação é um algoritmo de codificação ACELP e o segundo algoritmo de codificação é um algoritmo de codificação TCX que pode ter por base uma transformada de cosseno discreto modificado, uma transformação FFT ou qualquer outra transformada ou banco de filtro. Para além disso, um processador é fornecido para determinar qual o alqoritmo de codificação resulta num sinal de áudio codificado com melhor aproximação para a parte de sinal de áudio para obter um resultado de qualidade. Para além disso, um controlador é fornecido, onde o controlador é confiqurado para determinar se o sinal de áudio codificado para a parte do sinal de áudio é qerado quer pelo primeiro alqoritmo de codificação quer pelo segundo algoritmo de codificação. De acordo com a invenção, o controlador está confiqurado para a execução desta determinação não somente com base nos resultados de qualidade, mas, adicionalmente, nos resultados de deteção de transientes.
Numa forma de realização, o controlador está confiqurado para determinar o segundo algoritmo de codificação, embora o resultado de qualidade indique uma melhor qualidade para o primeiro algoritmo de codificação, quando um resultado de deteção de transiente indicar um sinal não transiente. Para além disso, o controlador está configurado para a determinação do primeiro algoritmo de codificação, apesar do resultado de qualidade indique uma melhor qualidade para o segundo algoritmo de codificação, quando um resultado de deteção de transiente indicar um sinal transiente.
Numa forma de realização adicional, esta determinação, na qual o resultado transiente pode contrariar o resultado de qualidade, é melhorada utilizando uma função de histerese de tal modo que o segundo algoritmo de codificação seja somente determinado quando um número de partes de sinais anteriores, para o qual o primeiro algoritmo de codificação tenha sido determinado, é menor que o número pré-determinado. Analogamente, o controlador é configurado para determinar somente a primeira codificação do algoritmo quando um número de partes de sinais anteriores, para o qual o segundo algoritmo de codificação tenha sido determinado no passado, é menor do que o número pré- determinado. Uma vantagem do processamento de histerese é que o número de comutações entre os modos de codificação é reduzido para certos sinais de entrada. Uma comutação muito frequente em pontos críticos no sinal pode gerar artefatos audíveis especificamente para baixas taxas de bits. A probabilidade de tais artefatos é reduzida pela implementação da histerese.
Numa forma de realização adicional, o resultado de qualidade é favorecido em relação ao resultado de deteção de transiente quando o resultado de qualidade indicar uma forte vantagem de qualidade para um algoritmo de codificação. Então, o algoritmo de codificação com o resultado de qualidade muito superior ao outro algoritmo de codificação é selecionado independente de se o sinal é ou não um sinal transiente. Por outro lado, o resultado de deteção de transiente pode tornar-se decisivo quando a diferença de qualidade entre ambos os algoritmos de codificação não for tão grande. Para tal finalidade, é preferível não determinar somente um resultado de qualidade binário, mas um resultado de qualidade quantitativo. Um resultado de qualidade binário somente indicaria que a codificação do algoritmo resulta numa qualidade melhor, enquanto que o resultado de qualidade quantitativo determina não somente se o algoritmo de codificação resulta numa qualidade melhor, mas o quão melhor é o algoritmo de codificação correspondente. Por outro lado, pode usar-se também um resultado de deteção de transiente quantitativo, mas, basicamente, um resultado de deteção de transiente binário seria suficiente igualmente.
Deste modo, a presente invenção fornece uma vantagem específica com respeito a bons equilíbrios entre as taxas de bits por um lado e a qualidade por outro lado, uma vez que, para sinais transientes, o algoritmo de codificação que resulte numa qualidade inferior seja selecionado. Quando o resultado de qualidade favorecer, por exemplo, uma decisão TCX, não obstante seja o modo ACELP o tomado, que pode resultar numa pequena redução na qualidade do áudio, mas, no final, resulta num ganho de codificação maior associado ao uso do modo ACELP.
Quando, por outro lado, o resultado de qualidade favorecer um enquadramento ACELP, uma decisão TCX, não obstante, é tomada para sinais não transientes. Consequentemente, o pouco menor ganho de codificação é aceite em favor de uma melhor qualidade de áudio.
Assim, a presente invenção resulta numa melhoria no equilíbrio entre a qualidade e a taxa de bits devido ao fato de que não somente a qualidade do sinal codificado e novamente descodificado é considerada, mas, adicionalmente, também o sinal de entrada que realmente será codificado é analisado com respeito às suas características transientes e o resultado desta análise transiente é utilizado para adicionalmente influenciar a decisão por um algoritmo mais adequado para os sinais transientes ou um algoritmo mais adequado para os sinais estacionários.
Formas de realização adicionais da presente invenção são subsequentemente ilustradas por referência para os desenhos que a acompanham, nos quais: A Fig. 1 ilustra um diagrama de bloco de um aparelho para codificação de uma parte de um sinal de áudio em conformidade com uma forma de realização; A Fig. 2 ilustra uma tabela para dois algoritmos de codificação diferentes e os sinais para os quais são adequados; A Fig. 3 ilustra uma visão geral das condições de qualidade, as condições transientes e as condições de histerese, que podem ser aplicadas independentemente umas das outras, mas que são, preferivelmente, aplicadas em conjunto. A Fig. 4 ilustra uma tabela de estados indicando se uma comutação é realizada ou não para diferentes situações; A Fig. 5 ilustra um fluxograma para a determinação de um resultado transiente numa forma de realização; A Fig. 6a ilustra um fluxograma para a determinação de um resultado de qualidade numa forma de realização; A Fig. 6b ilustra mais detalhes sobre os resultados de qualidade da Fig. 6a; e A Fig. 7 ilustra um diagrama de bloco mais detalhado de um aparelho para codificação de acordo com uma forma de realização. A Fig. 1 ilustra um aparelho para a codificação de uma parte de um sinal de áudio fornecido numa linha de entrada 10. A parte de um sinal de áudio é inserida num detetor de transiente 12 para detectar se um sinal transiente está ou não localizado numa parte do sinal de áudio para obter um resultado de deteção de transiente na linha 14. Para além disso, um estágio do codificador 16 é fornecido onde o estágio do codificador está configurado para executar um primeiro algoritmo de codificação sobre um sinal de áudio, o primeiro algoritmo de codificação tendo uma primeira característica. Para além disso, o estágio do codificador 16 está configurado para executar um segundo algoritmo de codificação sobre o sinal de áudio, em que o segundo algoritmo de codificação tem uma segunda caracteristica que é diferente da primeira caracteristica.
Adicionalmente, o aparelho compreende um processador 18 para determinar que algoritmo de codificação de entre o primeiro e segundo algoritmos de codificação resulta num sinal de áudio
codificado como uma melhor aproximação com uma parte do sinal de áudio original. O processador 18 gera um resultado de qualidade com base nesta determinação na linha 20. O resultado de qualidade na linha 20 e o resultado de deteção de transiente na linha 14 são ambos fornecidos para um controlador 22. O controlador 22 está configurado para determinar se o sinal de áudio codificado para a parte do sinal de áudio é gerado ou pelo primeiro algoritmo de codificação ou pelo segundo algoritmo de codificação. Para esta determinação, não só o resultado de qualidade 20, mas também o resultado de deteção de transiente 14 é utilizado. Para além disso, uma interface de saida 24 é opcionalmente fornecida onde a interface de saida gera um sinal de áudio codificado como, por exemplo, um fluxo continuo ou uma representação diferente de um sinal codificado na linha 26.
Numa implementação, onde um estágio do codificador 16 realiza uma análise por processamento de síntese, o estágio do codificador 16 recebe a mesma parte do sinal de áudio e codifica uma parte deste sinal de áudio através do primeiro algoritmo de codificação para obter a primeira representação codificada da parte do sinal de áudio. Para além disso, o estágio do codificador gera uma representação codificada da mesma parte do sinal de áudio utilizando o segundo algoritmo de codificação. Para além disso, o estágio do codificador 16 abrange, na análise por processamento de síntese, descodificadores para ambos primeiro algoritmo de codificação e segundo algoritmo de codificação. Um descodificador correspondente descodifica a primeira representação codificada utilizando um algoritmo de descodificação associado com o primeiro algoritmo de codificação. Além disso, um descodificador para a realização de um outro algoritmo de descodificação associado com o segundo algoritmo de descodificação é fornecido para que, no final, o estágio do codificador não somente tenha as duas representações codificadas para a mesma parte do sinal de áudio, como também os dois sinais descodificados para a mesma parte do sinal de áudio original na linha 10. Estes dois sinais descodificados são, então, fornecidos para um processador pela linha 28 e o processador compara ambas as representações descodificadas com a mesma parte do sinal de áudio original obtida pela entrada 30. Depois, um SNR segmentar para cada algoritmo de codificação é determinado. Este assim chamado resultado de qualidade fornece, numa forma de realização, não somente uma indicação do melhor algoritmo de codificação, isto é, um sinal binário de se o primeiro algoritmo de codificação ou o segundo algoritmo de codificação resulta num SNR melhor. Adicionalmente, o resultado de qualidade indica a informação quantitativa, isto é, o quão melhor, por exemplo, em dB, é o algoritmo de codificação correspondente.
Nesta situação, o controlador, quando completamente baseado no resultado de qualidade 29, acessa o estágio do codificador pela linha 23, para que o estágio do codificador transmita a representação codificada já armazenada do algoritmo de codificação correspondente com a interface de saída 24, para que estas representações codificadas representem a parte correspondente do sinal de áudio original no sinal de áudio codificado.
Alternativamente, quando o processador 18 realiza um modo de circuito aberto para a determinação do resultado de qualidade, não é necessário que ambos os algoritmos de codificação sejam aplicados a uma e à mesma parte do sinal de áudio. Em vez disso, o processador 18 determina qual algoritmo de codificação é melhor e, então, o estágio do codificador 16 é controlado pela linha 28 para somente aplicar o algoritmo de codificação indicado pelo processador e, então, esta representação codificada resultante do algoritmo de codificação selecionado é fornecida para a interface de saída 24 pela linha 34.
Dependendo da implementação específica do estágio do codificador 16, ambos os algoritmos de codificação podem operar no domínio LPC. Neste caso, tanto como para o ACELP como o primeiro algoritmo de codificação como para o TCX como segundo algoritmo de codificação, um pré-processamento LPC comum a ambos é realizado. Este pré-processamento LPC pode abranger uma análise LPC da parte do sinal de áudio, que determina os coeficientes LPC para a parte do sinal de áudio. Então, um filtro para análise LPC é ajustado utilizando os coeficientes LPC determinados, e o sinal de áudio original é filtrado por estes filtros de análise LPC. Depois, o estágio do codificador calcula a diferença ao nivel da amostra entre a saída do filtro de análise LPC e o sinal de entrada de áudio de forma a calcular o sinal residual LPC que é então submetido ao primeiro algoritmo de codificação ou o segundo algoritmo de codificação num modo de circuito aberto ou que é fornecido para ambos os algoritmos de codificação num modo de circuito fechado conforme descrito anteriormente. Alternativamente, a filtragem através do filtro LPC e a determinação ao nivel da amostra do sinal residual pode ser substituídas pela tecnologia FDNS [frequency domain noise shaping | modelação de ruído no domínio de frequência] descrita na norma USAC. A Fig. 2 ilustra uma implementação preferencial do estágio do codificador. Como primeiro algoritmo de codificação, o algoritmo de codificação ACELP com característica de codificação CELP é utilizado. Para além disso, este algoritmo de codificação é mais adequado para sinais transientes. 0 segundo algoritmo de codificação tem uma característica de codificação que torna este segundo algoritmo de codificação mais adequado para sinais não transientes. Como exemplo, um algoritmo de codificação de excitação de transformação como o TCX é utilizado e, especificamente, um algoritmo de codificação TCX 20 é preferível dado ter uma dimensão de enquadramento de 2 0 ms (a dimensão da janela pode ser maior por conta de uma sobreposição), o que torna o conceito de codificação ilustrado na Fig. 1 particularmente adequado para implementações de pouco atraso que são necessárias em cenários de tempo real, como os cenários em que ocorrem comunicações bidirecionais como em aplicações telefónicas e, especificamente, em aplicações de telefone móvel ou celular.
Contudo, a presente invenção é adicionalmente útil noutras combinações do primeiro e segundo algoritmos de codificação. Como exemplo, o primeiro algoritmo de codificação mais adequado para os sinais transientes podem abranger quaisquer codificadores de domínio de tempo bem conhecidos, como os codificadores GSM utilizados (G.729) ou quaisquer outros codificadores de domínio de tempo. O algoritmo de codificação de sinal não transiente, por sua vez, pode ser qualquer dos codificadores de domínio de transformação bem conhecidos como o MP3, AAC, AC3 ou qualquer outro alqoritmo de codificação de áudio de transformada ou banco de filtros. Para uma implementação com pouco atraso, no entanto, a combinação de ACELP por um lado e TCX por outro lado, em que, particularmente, o codificador TCX pode ser baseado num FFT ou ainda mais preferivelmente num MDCT com dimensão curta da janela é preferível. Assim, ambos os algoritmos de codificação operam em domínio LPC obtido pela transformação do sinal de áudio em domínio LPC utilizando um filtro de análise LPC. Contudo, o ACELP opera então no domínio de "tempo" LPC, enquanto que o codificador TCX opera no domínio de "frequência" LPC.
Subsequentemente, uma implementação preferida do controlador 22 da Fig. 1 é discutido no contexto da Fig. 3.
Preferivelmente, a comutação entre o primeiro algoritmo de codificação como o ACELP e o segundo algoritmo de codificação como o TCX 20 é realizada utilizando três condições. A primeira condição é a condição de qualidade representada pelo resultado de qualidade 20 da Fig.l. A segunda condição é a condição transiente representada pelo resultado de deteção de transiente na linha 14 da Fig.l. A terceira condição e a condição de histerese que se baseia na decisão tomada pelo controlador 22 no passado, isto é, para a parte anterior do sinal de áudio. A condição de qualidade é implementada de forma a que a comutação para o algoritmo de codificação de maior qualidade seja realizada quando a condição de qualidade indica uma grande distância na qualidade entre o primeiro algoritmo de codificação e o segundo algoritmo de codificação. Quando, por exemplo, é determinado que um algoritmo de codificação ultrapassa o outro algoritmo de codificação por, por exemplo, um dB SNR de diferença, então a condição de qualidade determina uma comutação ou, dito de outra maneira, o algoritmo de codificação realmente utilizado para a parte realmente considerada do sinal de áudio, independentemente de qualquer deteção de transiente ou situação de histerese.
Quando, contudo, a condição de qualidade indica somente uma pequena distância da qualidade entre ambos os algoritmos de codificação como a distância na qualidade num ou menos dB SNR de diferença, uma comutação para um algoritmo de codificação de qualidade inferior pode ocorrer, quando o resultado de deteção de transiente indica que o algoritmo de codificação de qualidade inferior se adecua à caracteristica do sinal de áudio, isto é, se o sinal de áudio é transiente ou não. Quando, contudo, o resultado de deteção de transiente indica que o algoritmo de codificação de qualidade inferior não se adecua à caracteristica do sinal de áudio, então o algoritmo de codificação de qualidade superior deverá ser usado. Neste último caso, uma vez mais, a condição de qualidade determina o resultado, mas somente quando uma correspondência especifica entre o algoritmo de codificação de qualidade inferior e a situação transiente/estacionário do sinal de áudio não se encaixam. A condição de histerese é particularmente útil numa combinação com a condição transiente, isto é, naquelas em que a comutação para o algoritmo de codificação de qualidade inferior somente é operada quando menos do que os últimos N frames foram codificados com o outro algoritmo. Em formas de realização preferidas, N é igual a cinco frames, mas outros valores preferivelmente menores ou iguais a N frames ou partes de sinal, cada uma abrangendo um número máximo de amostras acima, por exemplo 128 amostras, podem ser usados também. A Fig. 4 ilustra uma tabela de alterações de estado dependendo de certas situações. A coluna da esquerda indica a situação em que o número de frames anteriores é maior que N ou menor que N tanto para o TCX como para o ACELP. A última linha indica se há ou não uma grande diferença de qualidade para o TCX ou uma grande diferença de qualidade para o ACELP. Nestes dois casos, que são as primeiras duas colunas, uma alteração é feita onde há uma indicação com um "X", enquanto que se uma alteração não é feita tal é indicado por um "0".
Para além disso, as últimas duas colunas indicam a situação em que uma pequena diferença na qualidade para o TCX é determinada e quando um sinal transiente é detectado ou quando uma pequena diferença na qualidade para o ACELP é determinada e a parte do sinal é detectada como não transiente.
As primeiras duas linhas das últimas duas colunas ambas indicam que o resultado de qualidade é decisivo quando o número de frames anteriores é maior que 10. Desta forma, quando há uma forte indicação do passado para um algoritmo de codificação, então, igualmente aqui a deteção de transiente não desempenha um papel.
Quando, contudo, o número de frames anteriores sendo codificados num de dois algoritmos de codificação for menor que N, uma comutação é feita do TCX para o ACELP, indicada no campo 40 para sinais transientes. Adicionalmente, conforme indicado no campo 41, uma alteração do ACELP para o TCX é feita mesmo quando há uma pequena diferença na qualidade em favor do ACELP devido ao fato de termos um sinal não transiente. Quando o número dos últimos frames LCLP for menor que N, o frame subsequente também é codificado com o ACELP e, deste modo, nenhuma comutação será necessária conforme indicado no campo 42. Quando, adicionalmente, o número de frames TCX for menor que N, e quando houver uma pequena diferença de qualidade para o ACELP e o sinal não for transiente, o frame atual é codificado utilizando o TCX e nenhuma comutação será necessária conforme indicado pelo campo 43. Deste modo, a influência da histerese é claramente visível ao comparamos os campos 42, 43 com os quatro campos acima destes dois campos.
Portanto, a presente invenção influencia preferivelmente a histerese para a decisão de circuito fechado pela saida de um detetor de transiente. Deste modo, não existe, tal como no AMR-WB+, uma decisão pura de circuito fechado se o TCX ou o ACELP é o escolhido. Pelo contrário, o cálculo do circuito fechado é influenciado pelo resultado de deteção de transiente, isto é, cada parte do sinal transiente é determinada no sinal de áudio. A decisão de se um frame ACELP é calculada ou não, não depende portanto somente dos cálculos do circuito fechado, ou, em geral, do resultado de qualidade, mas depende adicionalmente se um transiente é detectado ou não.
Por outras palavras, a histerese para a determinação de qual o algoritmo de codificação que terá que ser utilizado para o frame atual pode ser expressa conforme se segue:
Quando o resultado de qualidade para o TCX for pouco menor que o resultado da qualidade para o ACELP, e quando as partes do sinal atualmente consideradas ou somente o frame atual não for transiente, então, o TCX é utilizado ao invés do ACELP.
Quando, por outro lado, o resultado de qualidade para o ACELP for um pouco menor que o resultado da qualidade para o TCX, e quando o frame atual for transiente, então, o ACELP é utilizado ao invés do TCX. De preferência, uma medida de nivelamento é calculada como o resultado de deteção de transiente, que é um número quantitativo. Quando o nivelamento é maior que ou igual a determinado valor, então, o frame é determinado como sendo transiente. Quando, por outro lado, o nivelamento for menor que este valor limiar, então, o frame é determinado como não transiente. Como um limiar, a medida de nivelamento de dois é preferível, onde o cálculo do nivelamento é descrito na Fig. 5 com maior detalhe.
Para além disso, para o resultado de qualidade, uma medida quantitativa é preferível. Quando uma medida SNR ou, especificamente, uma medida SNR segmentar é utilizada, então, o termo "pouco menor" utilizado anteriormente, pode significar um dB menor. Portanto, quando os SRNs para o TCX e o ACELP são muito diferentes um do outro ou dito de outra forma, quando a diferença absoluta entre ambos os valores SNR é maior que um dB, então, a condição de qualidade da Fig. 3 por si só determina o algoritmo de codificação para a parte atual do sinal de áudio. A decisão supracitada pode ser ainda mais elaborada, quando a deteção de transiente ou a saida de histerese ou o SNR do TCX ou do ACELP do frame passado ou de frames anteriores forem incluídos em tal condição de determinação. Deste modo, a histerese é construída tal que, para uma forma de realização, se encontra ilustrada na Fig. 3 como a condição número 3. Particularmente, a Fig. 3 ilustra a alternativa quando a saída de histerese, isto é, a determinação para a anterior é utilizada para a modificação da condição transiente.
Como alternativa, uma condição adicional de histerese sendo baseada no TCX ou ACELP-SNRs anteriores pode compreender que uma determinação para o algoritmo de codificação de qualidade inferior seja somente realizada quando uma alteração da diferença SNR em relação ao frame anterior seja menor que, por exemplo, um limiar. Uma outra forma de realização pode implicar no uso de um resultado de deteção de transiente para um ou mais frames anteriores quando o resultado da deteção de transiente é um número quantitativo. Então, uma comutação para o algoritmo de codificação de qualidade inferior pode, por exemplo, ser realizado somente quando uma alteração do resultado de deteção de transiente quantitativa do frame anterior para o frame atual estiver, igualmente, abaixo do limiar. Outras combinações destas figuras para outras modificações das condições de histerese 3 na Fig. 3 podem provar-se úteis a fim de obter um equilíbrio maior entre as taxas de bits por um lado e a qualidade do áudio por outro lado.
Para além disso, a condição de histerese conforme ilustrado no contexto da Fig. 3 e conforme descrita anteriormente pode ser utilizada no lugar de, ou adicional a outra histerese que, por exemplo, é baseada nos dados de análise interna dos algoritmos de codificação ACELP e TCX.
Subsequentemente, uma referência é feita à Fig. 5 para ilustrar a determinação preferida do resultado de deteção de transiente na linha 14 da Fig.l.
Na etapa 50, o sinal de áudio de domínio de tempo como o sinal de entrada PCM na linha 10 é filtrado com um filtro passa- alto para obter um sinal de áudio filtrado a passa-alta. Depois, na etapa 52, o frame do sinal filtrado a passa-alto que pode ser igual à parte do sinal de áudio é subdividida numa pluralidade de, por exemplo, oito sub-blocos. Posteriormente, na etapa 54, um valor de energia para cada sub-bloco é calculado. Este cálculo de energia pode compreender o quadrado de cada valor de amostra no sub-bloco e uma adição subsequente das amostras ao quadrado com ou sem cáculo da média. Depois, na etapa 56, os pares de sub-blocos adjacentes são formados. Os pares podem compreender um primeiro par consistindo de um primeiro e um segundo sub-bloco, um segundo par consistindo de um segundo e um terceiro sub-bloco, um terceiro par consistindo de um terceiro e um quarto sub-bloco, etc. Adicionalmente, um par consistindo do último sub-bloco do frame anterior e o primeiro sub-bloco do frame atual podem também ser utilizados. Alternativamente, outras maneiras de formação de pares podem ser realizadas como, por exemplo, somente a formação de pares do primeiro e do segundo sub-blocos, do terceiro e do quarto sub-bloco, etc. Então, como destacado também no bloco 56 da Fig. 5, o maior valor de energia de cada par de sub-bloco é selecionado e, conforme destacado na etapa 58, dividido pelo menor valor de energia do par do sub-bloco. Depois, como destacado no bloco 60 da Fig. 5, todos os resultados da etapa 58 para o frame são combinados. Esta combinação pode consistir de uma adição dos resultados do bloco 58 e uma média onde o resultado da adição é dividido pelo número de pares como oito, quando oito pares por sub-blocos foram determinados no bloco 56. 0 resultado do bloco 60 é a medida de nivelamento que é utilizada pelo controlador 22 com o intuito de determinar se uma parte do sinal é transiente ou não. Quando a medida de nivelamento é maior que ou igual a 2, uma parte do sinal transiente é detectada, enquanto que quando a medida de nivelamento é menor que 2, é determinado que um sinal é não transiente ou estacionário. Contudo, outros limiares entre 1.5 e 3 podem ser usados também, mas tem que ser indicado que o limiar de dois fornece os melhores resultados. É de notar que outros detetores transientes podem também ser utilizados. Os sinais transientes podem adicionalmente abranger os sinais de áudio de discurso vocal. Tradicionalmente, os sinais transientes compreendem os sinais do tipo aplausos ou castagnets ou sons plosivos compreendendo sinais obtidos pela verbalização dos caracteres "p" ou "t" ou parecidos. Entretanto, vogais como "a", "e", "i", "o", "u" não são interpretadas como sinais transientes na abordagem clássica, uma vez que as mesmas são caracterizadas pelos pulsos glotais periódicos ou agudos. No entanto, uma vez que as vogais também representam sinais de fala, as vogais também são consideradas como sinais transientes para a presente invenção. A deteção daqueles sinais pode ser feita, adicionalmente ou alternativamente ao procedimento na Fig.5, pelo detetor de fala distinguindo os discursos vocal do discurso não vocal ou pela avaliação dos metadados associados ao sinal de áudio e indicando, para um avaliador de metadados, se a parte correspondente é uma parte transiente ou não transiente.
Subsequentemente, a Fig. 6a é descrita a fim de ilustrar o terceiro modo de calcular o resultado de qualidade na linha 20 da Fig. 1, isto é, como o processador 18 de preferencialmente configurado.
No bloco 61, um procedimento de circuito fechado é descrito onde, para cada uma das pluralidades das possibilidades, a parte é codificada e descodificada utilizando o primeiro e o segundo algoritmos de codificação. Seguidamente, na etapa 63, uma medida como o SNR segmentar é calculada dependendo da diferença do sinal de áudio codificado e descodificado e o sinal original. Esta medida é calculada para ambos os algoritmos de codificação.
Depois, uma média do SNR segmentar utilizando os SNRs segmentais individualmente é calculada na etapa 65, e este cálculo é novamente realizado para ambos os algoritmos de codificação para que, no final, a etapa 65 resulte em dois valores médios SNR diferentes para a mesma parte do sinal de áudio. A diferença entre estes valores SNR segmentares para um frame é utilizado como resultado de qualidade quantitativa na linha 20 da Fig. 1. A Fig. 6b ilustra duas equações, onde a equação superior é utilizada no bloco 63 e a equação inferior é utilizada no bloco 65. -?» representa o sinal de áudio ponderado e ^representa o sinal ponderado codificado e novamente o sinal ponderado descodificado. A média feita no bloco 65 é uma média sobre um frame, onde cada frame consiste num número de subframes NSF, e onde quatro destes frames formam juntos um superframe. Assim, um superframe compreende 1024 amostras, um frame individual compreende 2056 amostras, e cada subframe, para os quais a equação superior na Fig. 6b ou a etapa 63 é realizada, compreende a 64 amostras. Na equação superior utilizada no bloco 63, n é o índice do número de amostras e N é o número máximo de amostras no subframe igual a 63 indicando que uma subframe possui 64 amostras. A Fig. 7 ilustra uma forma de realização adicional do aparelho inventivo para a codificação, similar à aplicação da Fig. 1, e os mesmos numerais de referência indicam elementos similares. Contudo, a Fig.7 ilustra uma representação mais detalhada do estágio do codificador 16, que abrange um pré-processador 16a para a realização de uma ponderação e análise/filtragem LPC, e o pré-processador do bloco 16a fornece os dados LPC na linha 70 para a interface de saída 24. Para além disso, o codificador do estágio 16 da Fig.l compreende o primeiro algoritmo de codificação no 16a e no segundo algoritmo de codificação no 16c que são o algoritmo de codificação ACELP e o algoritmo de codificação TCX, respectivamente.
Além do mais, o estágio do codificador 16 pode abranger ou o comutador 16d ligado antes dos blocos 16d, 16c ou um comutador 16e ligado subsequentemente aos blocos 16b, 16c, onde "antes" e "subsequentemente" se referem à direção do fluxo de sinal que se refere ao menos ao bloco 16a e 16e desde a parte superior até à inferior na Fig. 7. O bloco 16d não estará presente na decisão de circuito fechado. Neste caso, somente o comutador 16e estará presente, uma vez que ambos os algoritmos de codificação 16b, 16c operam numa e na mesma parte do sinal de áudio e o resultado do algoritmo de codificação selecionado será retirado e transmitido para a interface de saída 24.
Se, no entanto, uma decisão de circuito aberto ou qualquer outra decisão for tomada antes de ambos os algoritmos de codificação operarem num e no mesmo sinal, então o comutador 16e não estará presente, mas o comutador 16d estará presente, e cada parte do sinal de áudio será codificada utilizando somente um dos blocos 16b, 16c.
Para além disso, particularmente para o modo de circuito fechado, as saídas de ambos os blocos estão conectadas com o processador e o controlador do bloco 18, 22 conforme indicado pelas linhas 71, 72. O controlo da comutação acontece através das linhas 73, 74 a partir do bloco 18, 22 do processador e do controlador para os comutadores 16d e 16e correspondentes. Novamente, dependendo da implementação, somente uma das linhas 73, 74 tipicamente estarão presente. 0 sinal de áudio codificado 26 portanto, abrange, entre outros dados, o resultado de um ACELP ou TCX que será tipicamente codificado em redundância adicionalmente com a codificação Huffman ou a codificação aritmética antes de ser inserido na interface de saida 24. Adicionalmente, os dados LPC 70 são fornecidos para a interface de saida 24 a fim de serem incluídos no sinal de áudio codificado. Para além disso, prefere-se incluir adicionalmente uma decisão do modo de codificação no sinal de áudio codificado indicado para um descodificador que a parte atual do sinal de áudio é uma parte ACELP ou uma parte TCX.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou um dispositivo corresponde a uma etapa do método ou de uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
Dependendo dos requisitos de certas implementações, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio digital de armazenamento, por exemplo, um Disquete, um DVD, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, possuindo sinais de controlo eletronicamente legíveis nela armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
Algumas formas de realização de acordo com a invenção compreendem um suporte de dados não transitório com sinais de controlo legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal forma que um dos métodos aqui descritos seja realizado.
De forma geral, as formas de realização da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para a realização de um dos métodos quando o produto de programa de computador operar num computador. 0 código de programa pode, por exemplo, ser armazenado num suporte mecanicamente legivel.
Outras formas de realização incluem o programa de computador para executar um dos métodos aqui descritos, armazenado num suporte mecanicamente legível.
Por outras palavras, uma forma de realização do método da invenção é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador for executado num computador.
Uma forma de realização adicional do método da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para a realização de um dos métodos aqui descritos.
Uma forma de realização adicional do método da invenção é, portanto, um fluxo de dados ou de uma sequência de sinais que representam o programa de computador para a realização de um dos métodos aqui descritos. 0 fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma conexão para comunicação de dados, por exemplo, através da Internet.
Uma forma de realização adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para executar um dos métodos aqui descritos.
Uma forma de realização adicional compreende um computador, tendo instalado nele o programa de computador para a execução de um dos métodos aqui descritos.
Nalgumas formas de realização, um dispositivo lógico programável (por exemplo, uma rede de portas lógicas programáveis) pode ser utilizado para executar uma parte ou todas as funcionalidades dos métodos aqui descritos. Nalgumas formas de realização, uma rede de portas lógicas programáveis pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. De forma geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
As formas de realização acima descritas são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e detalhes aqui descritos serão evidentes para outros elementos versados na técnica. É intenção, portanto, ser limitada apenas pelo âmbito das reivindicações de patente pendente e não pelos detalhes específicos apresentados a título de descrição e explicação das formas de realização da presente invenção.
Referências citadas na descrição A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.
Literatura, que não patentes, citada na descrição WD7 of USAc. 92nd MPEG Meeting (0009)

Claims (12)

REIVINDICAÇÕES
1. Aparelho para a codificação de uma parte do sinal de áudio (10) para obter um sinal de áudio codificado (26) para a parte do sinal de áudio, caracterizado por compreender: um detetor de transiente (12) para detectar se um sinal transiente está localizado na parte do sinal de áudio para obter um resultado de deteção de transiente (14); um estágio do codificador (16) para executar um primeiro algoritmo de codificação sobre o sinal de áudio, tendo o primeiro algoritmo de codificação uma primeira característica, e para executar um segundo algoritmo de codificação sobre o sinal de áudio, tendo o segundo algoritmo de codificação uma segunda característica que é diferente da primeira característica; um processador (18) para determinar qual algoritmo de codificação resulta num sinal de áudio codificado com melhor aproximação para a parte de sinal de áudio em comparação ao outro algoritmo de codificação para obter um resultado de qualidade (20); e um controlador (22) para determinar se o sinal de áudio codificado para a parte do sinal de áudio deverá ser gerado utilizando ou o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base no resultado de deteção de transiente (14) e no resultado de qualidade (20), caracterizado por o controlador (22) ser configurado para a determinação do segundo algoritmo de codificação, apesar do resultado da qualidade (20) indicar uma qualidade melhor para o primeiro algoritmo de codificação, quando um resultado de deteção de transiente (14) indicar um sinal não transiente, ou caracterizado por o controlador (22) ser configurado para a determinação do primeiro algoritmo de codificação, apesar do resultado da qualidade indicar uma qualidade melhor para o segundo algoritmo de codificação, quando um resultado de deteção de transiente indicar um sinal transiente, ou caracterizado por o controlador (22) ser configurado para a aplicação do processamento de histerese para que o segundo algoritmo de codificação ou o primeiro algoritmo de codificação seja determinado somente quando o resultado de qualidade mais baixo indicar uma qualidade inferior para o segundo algoritmo de codificação ou o para o primeiro algoritmo de codificação quando um número de partes do sinal anteriores tendo utilizado o primeiro algoritmo de codificação ou o segundo algoritmo de codificação, respectivamente, for igual ou inferior a um número pré-determinado, e quando o resultado da deteção de transientes indicar um estado pré-definido dos dois estados possíveis compreendendo os não transientes e os transientes.
2. 0 aparelho em conformidade com a reivindicação 1, caracterizado por o estágio do codificador (16) ser configurado para a utilização de um primeiro algoritmo de codificação que é mais adequado para sinais transientes do que o segundo algoritmo de codificação.
3. 0 aparelho da reivindicação 2, caracterizado por o primeiro algoritmo ser um algoritmo de codificação ACELP, e em que o segundo algoritmo de codificação é um algoritmo de codificação de transformada.
4. 0 aparelho de acordo com a reivindicação 1, caracterizado por o controlador (22) ser configurado para a determinação do segundo algoritmo de codificação ou do primeiro algoritmo de codificação somente quando o resultado de qualidade indicar uma distância de qualidade entre os algoritmos de codificação, que seja menor que um valor de distância limiar.
5. 0 aparelho de acordo com a reivindicação 4, caracterizado por o valor de distância limiar ser igual ou menor que 3 dB, e em que o resultado de qualidade para ambos os algoritmos de codificação são calculados utilizando um cálculo SNR entre o sinal de áudio (10) e uma versão codificada e posteriormente descodificada do sinal de áudio.
6. 0 aparelho de acordo com uma das reivindicações de 1 a 5, caracterizado por o controlador (22) ser configurado para determinar somente o segundo algoritmo de codificação ou o primeiro algoritmo de codificação, guando um número de partes de sinal anteriores para o qual o primeiro ou o segundo algoritmo tenha sido determinado for menor que um número pré-determinado.
7. 0 aparelho de acordo com a reivindicação 6, caracterizado por o controlador (22) ser configurado para usar um número pré-determinado sendo menor que 10.
8. O aparelho de acordo com uma das reivindicações precedentes, caracterizado por o detetor de transiente (12) ser configurado para executar as seguintes etapas: filtragem passa-alto (50) do sinal de áudio para obter um bloco de sinal filtrado em passa-alto; subdivisão (52) do bloco de sinal de filtragem passa-alto numa pluralidade de sub-blocos; cálcular (54) uma energia para cada sub-bloco; combinar (58) os valores de energia para cada par de sub-blocos adjacentes para obter um resultado para cada par; e combinar (60) os resultados para os pares para obter o resultado de deteção de transiente (14).
9. O aparelho de acordo com uma das reivindicações precedentes, caracterizado por o estágio do codificador (16) compreender também um estágio de filtragem LPC para determinar os coeficientes LPC a partir do sinal de áudio para a filtragem do sinal de áudio utilizando um filtro de análise LPC determinado pelos coeficientes LPC para a determinação de um sinal residual, em que o primeiro algoritmo de codificação ou o segundo algoritmo de codificação é aplicado ao sinal residual, e em que o sinal de áudio codificado compreenderá também informações (70) sobre os coeficientes LPC.
10. O aparelho em conformidade com uma das reivindicações precedentes, caracterizado por o estágio de codificação (16) compreender tanto um comutador (16d) ligado ao primeiro algoritmo de codificação (16b) e ao segundo algoritmo de codificação (16c) quanto um comutador (16e) ligado subsequentemente ao primeiro algoritmo de codificação (16b) e ao segundo algoritmo de codificação (16c), em que o comutador (16d, 16e) é controlado pelo controlador (22).
11. Método de codificação de uma parte do sinal de áudio (10) para obter um sinal de áudio codificado (26) para a parte do sinal de áudio, caracterizado por: detectar (12) se um sinal transiente está localizado na parte do sinal de áudio para obter um resultado de deteção de transiente (14) ; executar (16) um primeiro algoritmo de codificação sobre o sinal de áudio, tendo o primeiro algoritmo de codificação uma primeira caracteristica, e para executar um segundo algoritmo de codificação sobre o sinal de áudio, tendo o segundo algoritmo de codificação uma segunda caracteristica que é diferente da primeira caracteristica; determinar (18) qual algoritmo de codificação resulta num sinal de áudio codificado com melhor aproximação para a parte de sinal de áudio relativamente a outro algoritmo de codificação para obter um resultado de qualidade (20); e determinar (22) se o sinal de áudio codificado para a parte do sinal de áudio é gerado ou pelo primeiro algoritmo de codificação ou pelo segundo algoritmo de codificação com base no resultado de deteção de transiente (14) e no resultado de qualidade (20), caracterizado por o segundo algoritmo de codificação ser determinado, apesar do resultado de qualidade (20) indicar uma qualidade melhor para o primeiro algoritmo de codificação, quando o resultado de deteção de transiente (14) indicar um sinal não-transiente, ou caracterizado por o primeiro algorito de codificação ser determinado, apesar do resultado de qualidade indicar uma qualidade melhor para o segundo algoritmo de codificação, quando o resultado de deteção de transiente indicar um sinal transiente, ou caracterizado por a determinação (22) compreender a aplicação do processamento de histerese para que o segundo algoritmo de codificação ou o primeiro algoritmo de codificação seja determinado somente quando o resultado de qualidade mais baixo indicar uma qualidade inferior para o segundo algoritmo de codificação ou o para o primeiro algoritmo de codificação quando um número de partes do sinal anteriores tendo utilizado o primeiro algoritmo de codificação ou o segundo algoritmo de codificação, respectivamente, for igual ou inferior a um número pré-determinado, e quando o resultado da deteção de transientes indicar um estado pré-definido dos dois estados possíveis compreendendo os não transientes e os transientes.
12. Programa de computador com um código de programa adaptado para executar, quando executado num computador, o método de codificação de uma parte de um sinal de áudio de acordo com a reivindicação 11.
PT127070480T 2011-02-14 2012-02-13 Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade PT2676270T (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
PCT/EP2012/052396 WO2012110448A1 (en) 2011-02-14 2012-02-13 Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Publications (1)

Publication Number Publication Date
PT2676270T true PT2676270T (pt) 2017-05-02

Family

ID=71943603

Family Applications (1)

Application Number Title Priority Date Filing Date
PT127070480T PT2676270T (pt) 2011-02-14 2012-02-13 Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade

Country Status (19)

Country Link
US (1) US9620129B2 (pt)
EP (1) EP2676270B1 (pt)
JP (1) JP5914527B2 (pt)
KR (2) KR101525185B1 (pt)
CN (1) CN103493129B (pt)
AR (2) AR085217A1 (pt)
AU (1) AU2012217216B2 (pt)
BR (1) BR112013020588B1 (pt)
CA (2) CA2920964C (pt)
ES (1) ES2623291T3 (pt)
MX (1) MX2013009304A (pt)
MY (1) MY166006A (pt)
PL (1) PL2676270T3 (pt)
PT (1) PT2676270T (pt)
RU (1) RU2573231C2 (pt)
SG (1) SG192714A1 (pt)
TW (1) TWI476760B (pt)
WO (1) WO2012110448A1 (pt)
ZA (1) ZA201306842B (pt)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY189267A (en) 2013-01-29 2022-01-31 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
TWI671734B (zh) * 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US11232804B2 (en) 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
CN109389986B (zh) 2017-08-10 2023-08-22 华为技术有限公司 时域立体声参数的编码方法和相关产品
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
CN110767243A (zh) * 2019-11-04 2020-02-07 重庆百瑞互联电子技术有限公司 一种音频编码方法、装置及设备
CN115881139A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
WO2024110562A1 (en) * 2022-11-23 2024-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive encoding of transient audio signals
CN118800251A (zh) * 2023-04-13 2024-10-18 华为技术有限公司 场景音频信号的编码方法和装置

Family Cites Families (245)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135754A (en) 1980-03-26 1981-10-23 Nippon Denso Co Ltd Method of controlling current feeding time period at the time of acceleration
US4711212A (en) 1985-11-26 1987-12-08 Nippondenso Co., Ltd. Anti-knocking in internal combustion engine
ATE272883T1 (de) 1991-06-11 2004-08-15 Qualcomm Inc Vorrichtung und methode zur maskierung von fehlern in datenrahmen
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5568588A (en) 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
KR100419545B1 (ko) 1994-10-06 2004-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 다른코딩원리들을이용한전송시스템
JP3304717B2 (ja) 1994-10-28 2002-07-22 ソニー株式会社 ディジタル信号圧縮方法及び装置
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
US5659622A (en) 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5890106A (en) 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP3622365B2 (ja) 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JPH10276095A (ja) 1997-03-28 1998-10-13 Toshiba Corp 符号化器及び復号化器
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
DE19827704C2 (de) 1998-06-22 2000-05-11 Siemens Ag Verfahren zur zylinderselektiven Klopfregelung einer Brennkraftmaschine
US6173257B1 (en) 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6439967B2 (en) 1998-09-01 2002-08-27 Micron Technology, Inc. Microelectronic substrate assembly planarizing machines and methods of mechanical and chemical-mechanical planarization of microelectronic substrate assemblies
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
FI114833B (fi) 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
AU5032000A (en) 1999-06-07 2000-12-28 Ericsson Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
ATE341074T1 (de) 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE10012956A1 (de) 2000-03-16 2001-09-20 Bosch Gmbh Robert Vorrichtung und Verfahren zur Regelung des Energieangebots für die Zündung einer Brennkraftmaschine
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6636830B1 (en) 2000-11-22 2003-10-21 Vialta Inc. System and method for noise reduction using bi-orthogonal modified discrete cosine transform
US7901873B2 (en) 2001-04-23 2011-03-08 Tcp Innovations Limited Methods for the diagnosis and treatment of bone disorders
US7136418B2 (en) 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
KR100464369B1 (ko) 2001-05-23 2005-01-03 삼성전자주식회사 음성 부호화 시스템의 여기 코드북 탐색 방법
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
DE10129240A1 (de) 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
DE10140507A1 (de) 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
US7711563B2 (en) 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP3815323B2 (ja) 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
DE10200653B4 (de) 2002-01-10 2004-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
US6646332B2 (en) 2002-01-18 2003-11-11 Terence Quintin Collier Semiconductor package device
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388358A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7302387B2 (en) 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US20040010329A1 (en) 2002-07-09 2004-01-15 Silicon Integrated Systems Corp. Method for reducing buffer requirements in a digital audio decoder
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
BRPI0306434B1 (pt) 2002-09-19 2018-06-12 Nec Corporation Aparelho e método de decodificação de áudio
KR100711280B1 (ko) 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
US7343283B2 (en) 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100463559B1 (ko) 2002-11-11 2004-12-29 한국전자통신연구원 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법
KR100463419B1 (ko) 2002-11-11 2004-12-23 한국전자통신연구원 적은 복잡도를 가진 고정 코드북 검색방법 및 장치
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
KR20040058855A (ko) 2002-12-27 2004-07-05 엘지전자 주식회사 음성 변조 장치 및 방법
JP4191503B2 (ja) 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US7249014B2 (en) 2003-03-13 2007-07-24 Intel Corporation Apparatus, methods and articles incorporating a fast algebraic codebook search technique
US20050021338A1 (en) 2003-03-17 2005-01-27 Dan Graboi Recognition device and system
KR100556831B1 (ko) 2003-03-25 2006-03-10 한국전자통신연구원 전역 펄스 교체를 통한 고정 코드북 검색 방법
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
DE10321983A1 (de) 2003-05-15 2004-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
DE10331803A1 (de) 2003-07-14 2005-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung
CA2475283A1 (en) 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7418396B2 (en) 2003-10-14 2008-08-26 Broadcom Corporation Reduced memory implementation technique of filterbank and block switching for real-time audio applications
US20050091041A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
EP1683133B1 (en) 2003-10-30 2007-02-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
KR20070001115A (ko) 2004-01-28 2007-01-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 복소수 값 데이터를 이용하는 오디오 신호 디코딩
EP2770694A1 (en) * 2004-02-12 2014-08-27 Core Wireless Licensing S.a.r.l. Classified media quality of experience
DE102004007200B3 (de) 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
CN1930607B (zh) 2004-03-05 2010-11-10 松下电器产业株式会社 差错隐藏装置以及差错隐藏方法
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
CN1954364B (zh) 2004-05-17 2011-06-01 诺基亚公司 带有不同编码帧长度的音频编码
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) * 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
KR101407429B1 (ko) * 2004-09-17 2014-06-17 코닌클리케 필립스 엔.브이. 지각적 왜곡을 최소화하는 복합 오디오 코딩
KR100656788B1 (ko) 2004-11-26 2006-12-12 한국전자통신연구원 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
TWI253057B (en) 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
CN101120400B (zh) 2005-01-31 2013-03-27 斯凯普有限公司 在通信系统中生成隐藏帧的方法
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
EP1845520A4 (en) 2005-02-02 2011-08-10 Fujitsu Ltd SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
CA2603246C (en) 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
JP4767069B2 (ja) 2005-05-02 2011-09-07 ヤマハ発動機株式会社 鞍乗型車両のエンジン制御装置及びそのエンジン制御方法
WO2006126844A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
RU2296377C2 (ru) 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
JP2008546341A (ja) 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
EP1895511B1 (en) 2005-06-23 2011-09-07 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
RU2312405C2 (ru) 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
US20070174047A1 (en) 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US20110057818A1 (en) 2006-01-18 2011-03-10 Lg Electronics, Inc. Apparatus and Method for Encoding and Decoding Signal
CN101371296B (zh) 2006-01-18 2012-08-29 Lg电子株式会社 用于编码和解码信号的设备和方法
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US7668304B2 (en) 2006-01-25 2010-02-23 Avaya Inc. Display hierarchy of participants during phone call
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
FR2897977A1 (fr) 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US7556670B2 (en) 2006-03-16 2009-07-07 Aylsworth Alonzo C Method and system of coordinating an intensifier and sieve beds
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
EP2040251B1 (en) 2006-07-12 2019-10-09 III Holdings 12, LLC Audio decoding device and audio encoding device
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
WO2008013788A2 (en) 2006-07-24 2008-01-31 Sony Corporation A hair motion compositor system and optimization techniques for use in a hair/fur pipeline
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
EP2054879B1 (en) 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US8041578B2 (en) 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
WO2008049590A1 (en) 2006-10-25 2008-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
DE102006051673A1 (de) 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP2052548B1 (en) 2006-12-12 2012-02-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US7873064B1 (en) 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
JP5241701B2 (ja) 2007-03-02 2013-07-17 パナソニック株式会社 符号化装置および符号化方法
US8364472B2 (en) 2007-03-02 2013-01-29 Panasonic Corporation Voice encoding device and voice encoding method
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
DE102007063635A1 (de) * 2007-03-22 2009-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion
JP2008261904A (ja) 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
EP2827327B1 (en) 2007-04-29 2020-07-29 Huawei Technologies Co., Ltd. Method for Excitation Pulse Coding
BRPI0811384A2 (pt) 2007-06-11 2017-08-01 Fraunhofer Ges Forschung "codificador de áudio para codificar um sinal de áudio tendo uma porção tipo impulso e porção fixa, métodos de codificação, decodificador, método de decodificação, e sinal de áudio codificado"
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101513028B1 (ko) 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
MX2010001763A (es) 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
JP4886715B2 (ja) 2007-08-28 2012-02-29 日本電信電話株式会社 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP5264913B2 (ja) 2007-09-11 2013-08-14 ヴォイスエイジ・コーポレーション 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
KR101373004B1 (ko) 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
CN101425292B (zh) 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) * 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
WO2009109373A2 (en) 2008-03-04 2009-09-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for mixing a plurality of input data streams
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
JP2009224850A (ja) 2008-03-13 2009-10-01 Toshiba Corp 無線通信装置
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8423852B2 (en) 2008-04-15 2013-04-16 Qualcomm Incorporated Channel decoding-based error detection
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144171B1 (en) 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
JP5551693B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
MY159110A (en) 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
CN103000177B (zh) * 2008-07-11 2015-03-25 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8380498B2 (en) 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
DE102008042579B4 (de) 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
JP5555707B2 (ja) 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
EP3992966B1 (en) 2009-01-16 2022-11-23 Dolby International AB Cross product enhanced harmonic transposition
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102334160B (zh) 2009-01-28 2014-05-07 弗劳恩霍夫应用研究促进协会 音频编码器,音频解码器,编码和解码音频信号的方法
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
WO2010093224A2 (ko) 2009-02-16 2010-08-19 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
ES2374486T3 (es) * 2009-03-26 2012-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dispositivo y método para manipular una señal de audio.
US8363597B2 (en) 2009-04-09 2013-01-29 Qualcomm Incorporated MAC architectures for wireless communications using multiple physical layers
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
JP5699141B2 (ja) * 2009-06-23 2015-04-08 ヴォイスエイジ・コーポレーション 重み付けされた信号領域またはオリジナルの信号領域で適用される順方向時間領域エイリアシング取り消し
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
US8635357B2 (en) * 2009-09-08 2014-01-21 Google Inc. Dynamic selection of parameter sets for transcoding media data
BR122020024243B1 (pt) 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
WO2011048094A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec and celp coding adapted therefore
KR101411759B1 (ko) 2009-10-20 2014-06-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CN103069484B (zh) 2010-04-14 2014-10-08 华为技术有限公司 时/频二维后处理
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
FR2963254B1 (fr) 2010-07-27 2012-08-24 Maurice Guerin Dispositif et procede pour laver des surfaces internes d?une enceinte
AU2012217269B2 (en) 2011-02-14 2015-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
EP3373296A1 (en) 2011-02-14 2018-09-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise generation in audio codecs
WO2013023046A1 (en) 2011-08-10 2013-02-14 Thompson Automotive Labs Llc Methods and apparatus for engine analysis and remote engine analysis
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
KR20130134193A (ko) 2012-05-30 2013-12-10 삼성전자주식회사 컨커런트 서비스를 제공하기 위한 전자 장치 및 방법

Also Published As

Publication number Publication date
CA2920964C (en) 2017-08-29
PL2676270T3 (pl) 2017-07-31
WO2012110448A1 (en) 2012-08-23
US20130332177A1 (en) 2013-12-12
CA2827266C (en) 2017-02-28
EP2676270A1 (en) 2013-12-25
AR085217A1 (es) 2013-09-18
CN103493129B (zh) 2016-08-10
ES2623291T3 (es) 2017-07-10
BR112013020588B1 (pt) 2021-07-13
MX2013009304A (es) 2013-10-03
CA2920964A1 (en) 2012-08-23
JP2014510303A (ja) 2014-04-24
RU2573231C2 (ru) 2016-01-20
SG192714A1 (en) 2013-09-30
MY166006A (en) 2018-05-21
CA2827266A1 (en) 2012-08-23
KR20130126708A (ko) 2013-11-20
US9620129B2 (en) 2017-04-11
BR112013020588A2 (pt) 2018-07-10
RU2013142072A (ru) 2015-03-27
AU2012217216B2 (en) 2015-09-17
TWI476760B (zh) 2015-03-11
JP5914527B2 (ja) 2016-05-11
KR101525185B1 (ko) 2015-06-02
ZA201306842B (en) 2014-05-28
AR098480A2 (es) 2016-06-01
CN103493129A (zh) 2014-01-01
KR20140139630A (ko) 2014-12-05
KR101562281B1 (ko) 2015-10-22
EP2676270B1 (en) 2017-02-01
AU2012217216A1 (en) 2013-09-26
TW201301265A (zh) 2013-01-01

Similar Documents

Publication Publication Date Title
PT2676270T (pt) Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
US20230402045A1 (en) Low bitrate audio encoding/decoding scheme having cascaded switches
ES2768179T3 (es) Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
KR101853352B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
KR102007972B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
PT2146344T (pt) Esquema de codificação/descodificação de áudio com uma derivação comutável
BRPI0910527B1 (pt) codificador e decodificador de áudio para estruturas de codificação e decodificação de sinal de áudio testado
JP6148810B2 (ja) 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法
CN111105807B (zh) 对线性预测编码系数进行量化的加权函数确定装置和方法
ZA200609478B (en) Audio encoding with different coding frame lengths