[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5162588B2 - 音声符号化システム - Google Patents

音声符号化システム Download PDF

Info

Publication number
JP5162588B2
JP5162588B2 JP2009524877A JP2009524877A JP5162588B2 JP 5162588 B2 JP5162588 B2 JP 5162588B2 JP 2009524877 A JP2009524877 A JP 2009524877A JP 2009524877 A JP2009524877 A JP 2009524877A JP 5162588 B2 JP5162588 B2 JP 5162588B2
Authority
JP
Japan
Prior art keywords
transient
codebook
data
frames
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009524877A
Other languages
English (en)
Other versions
JP2010501089A (ja
Inventor
ヨウ、ユリ
Original Assignee
デジタル ライズ テクノロジー シーオー.,エルティーディー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/558,917 external-priority patent/US8744862B2/en
Application filed by デジタル ライズ テクノロジー シーオー.,エルティーディー. filed Critical デジタル ライズ テクノロジー シーオー.,エルティーディー.
Publication of JP2010501089A publication Critical patent/JP2010501089A/ja
Application granted granted Critical
Publication of JP5162588B2 publication Critical patent/JP5162588B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Amplifiers (AREA)

Description

[関連出願のクロスリファレンス]
本願は、2006年8月18日提出の米国仮特許出願60/822,760号、名称"Variable-Resolution Filtering"(‘760出願)の権利を主張した、2006年11月12日提出の米国特許出願第11/558,917号、名称"Variable-Resolution Processing of Frame-Based Data"(‘917出願)の一部継続出願であり、2004年9月17日提出の米国仮特許出願第60/610,674号、名称"Apparatus and Methods for Multichannel Digital Audio Coding"の権利を主張した、2005年1月4日提出の米国特許出願第11/029,722号、名称"Apparatus and Methods for Multichannel Digital Audio Coding"(‘722出願)の一部継続出願であり、さらに前記‘760出願の権利を直接的に主張している。前記各出願は、この参照により、その全内容が記載されたものとして本明細書に包含される。
[技術分野]
本発明は、音声信号を符号化するためのシステム、方法、及び技術に関する。
音声信号を符号化するための多種多様な技術が存在している。しかしながら、性能、品質、及び圧縮の向上が継続的に求められている。
本発明は、数ある技術の中でも、トランジェントフレーム内で可変分解能を使用し、量子化データの大きさに基づいて可変長コードブックセグメントを生成する総合的な音声符号化技術を提供することにより、前記の要求に対処する。
このように、一つの態様において、本発明は、音声信号を符号化するためのシステム、方法、及び技術に関する。サンプル音声信号を、いくつかのフレームに分割し、採取する。前記フレームの一つの内部におけるトランジェントの位置を識別し、前記トランジェントを含むフレームの異なる部分について異なる分解能でフィルタリングするなどの、多分解能フィルタバンク分析をフレームデータに行うことによって、変換データサンプルを生成する。心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することにより量子化データを生成し、前記量子化データの大きさに基づいて量子化データを可変長セグメントにグループ化する。コードブックを各可変長セグメントに割り当て、かかる可変長セグメントを設定するために割り当てられたコードブックを用いて各可変長セグメントの量子化データを符号化する。
上述の構成によって、多くの場合は音声データのより正確な符号化と、より少ないビット数を用いたかかるデータの表示とが同時に実現可能となる。
上述の概要は、本発明の特定の一態様を簡単に説明したに過ぎない。クレーム及び好適な実施形態に関する下記の詳述を、添付の図面とともに参照することにより、本発明のより完全な理解を得ることができる。
図1は、本発明の代表的な実施形態に係る、音声信号符号化のブロック図である。 図2は、本発明の代表的な実施形態に係る、コードブックセグメント及び対応するコードブックの初期セットを識別する処理を示したフローチャートである。 図3は、本発明の代表的な実施形態において、対応するコードブックが識別されたコードブックセグメントに分割された量子化インデックスのシーケンスの一例を示す図である。 図4は、本発明の代表的な実施形態において、図3に示すセグメント化からセグメントを削除後、量子化インデックスがコードブックセグメントにセグメント化された結果を示す。 図5は、量子化セグメントが直接的に量子化ユニットに対応する従来の量子化インデックスセグメント化の結果を示す。 図6は、量子化インデックスが効率的な方法でグループ化される、本発明の代表的な実施形態に係る量子化インデックスセグメント化の結果を示す。
本発明は、例えばシーケンス格納や送信などのための、音声信号を符号化するためのシステム、方法、及び技術に関する。本発明が使用され得るアプリケーションとしては、デジタルオーディオ放送、デジタルテレビ(衛星、地上波及び/またはケーブル放送)、ホームシアター、デジタルシアター、レーザービデオディスクプレイヤー、インターネット及びパーソナルオーディオプレイヤーのコンテントストリーミングが挙げられるが、これに限定されない。
図1は、本発明の代表的な実施形態に係る音声信号符号化システム10のブロック図である。代表的な副実施形態では、図1に示す個々のセクションやコンポーネントは、下記に記述するように、すべてコンピュータ実行可能コードで実施される。ただし、別の実施形態では、かかるセクションあるいはコンポーネントのいずれか、もしくは全てが、ここで論じられる以外の方法で実施されてもよい。
初めに、原音声信号の時間サンプルに対応するパルス符号変調(PCM)信号12は、フレームセグメント化セクション14に入力される。ここで、原音声信号は、一般的には複数のチャンネル、例えば一般のステレオ用左右チャンネル、またはサラウンドサウンド用の5〜7つの標準チャンネルと1つの低周波数効果(LFE)チャンネルから構成される。LFEチャンネルは、一般的に限られた帯域幅(例えば、120Hz未満)であり、標準チャンネルよりも音量(volume)が大きい。この明細書全体において、所定チャンネルの構成はx.yで表され、xは標準チャンネル数、yはLFEチャンネル数を表す。このように、一般のステレオは2.0、また一般的な従来型サラウンドサウンドは5.1、6.1または7.1で表される。
本発明の好適な実施形態では、少なくとも24ビットの精度で、64.3までのチャンネル構成と、44.1キロヘルツ(kHz)や48kHzなど、8kHzから192kHzまでのサンプル周波数とをサポートする。概して、特段の指定がない限り、各チャンネルは他チャンネルから独立して処理される。
PCM信号12は、外部ソースからシステム10へ入力されてもよいし、または、例えば原音声信号をサンプリングすることによって、前記システム10により内部で生成されてもよい。
フレームセグメント化セクション14では、各チャンネル用のPCMサンプル12は、時間領域において一連の連続したフレームに分割される。ここで、本発明の技術において、フレームが処理のための基準データ単位とみなされる。好ましくは、各フレームは各種フレームサイズの比較的小さい組から選択された一定数のサンプルを有し、ある特定の時間間隔用の選択されたフレームサイズは、例えばサンプリング率やフレーム間に許容される遅延量などに応じて決まる。さらに好ましくは、各フレームは128個、256個、512個、または1,024個のサンプルを含み、遅延減少が重要となる場合を除いて、フレームは長い方が好まれる。以下に記載するほぼ全ての例について、各フレームは、1,024個のサンプルで構成されるものとする。ただし、かかる例は本発明を限定するものと解釈されるべきではない。
フレームセグメント化セクション14から出力されたデータサンプルの各フレームは、トランジェント分析セクション16に入力される。トランジェント分析セクション16はPCMサンプルの入力フレームが信号トランジェントを含んでいるかを判断する。信号トランジェントとは、好ましくは、信号エネルギーの突然かつ急激な増加(アタック)または減少と定義される。このような検出にもとづいて、各フレームが、トランジェントフレーム(すなわち、トランジェントを含むフレーム)もしくは準定常フレーム(すなわち、トランジェントを含まないフレーム)に分類される。さらにトランジェント分析セクション16は、各トランジェント信号の位置及び持続時間を識別し、次にその情報を用いて「トランジェントセグメント」を識別する。前記‘722出願に記載したトランジェント検出技術のいずれかなど、公知のトランジェント検出方法であればどれでも使用できる。
ここで言う「トランジェントセグメント」とは、同一または類似した統計的特性を持つ信号の部分を指す。このように、準定常フレームは、一般的には単独のトランジェントセグメントからなり、トランジェントフレームは、通常は2〜3つのトランジェントセグメントからなる。例えば、1つのフレーム内にトランジェントのアタックまたは減少のいずれかが生じた場合、このトランジェントフレームは通常は2つのトランジェントセグメントを持つことになり、1つは増加または減少前のフレーム部分をカバーし、もう1つは増加または減少後のフレーム部分をカバーする。1つのトランジェントフレーム内に増加及び減少の両方が生じた場合、通常は3つのトランジェントセグメントが存在することになり、それぞれ、増加と減少によってセグメント化されたフレーム部分をカバーする。その後、フレーム式データ及びトランジェント検出情報がフィルタバンク18に提供される。
可変分解能分析フィルタバンク18は、各チャンネル音声の音声PCMサンプルをサブバンド信号へと分解するが、前記サブバンドの性質は用いられる変換技術に応じて決まる。その際、フィルタバンク18では、数ある中からいずれの変換技術を使用してもよいが、好適な実施形態では、前記変換はユニタリー変換や正弦変換である。さらに好適には、前記‘722出願に詳しく記載されているように、フィルタバンク18は離散コサイン変換(DCT)もしくは変形離散コサイン変換(MDCT)を用いる。ここに記載する例のほとんどでは、MDCTを用いるものとする。従って、好適な実施形態では、サブバンド信号は、各MDCTブロックに対して、サブバンドの異なる周波数にそれぞれ対応する多数のサブバンドサンプルを構成する。さらに、変換のユニタリー性のため、サブバンドサンプルの数はMDCTで処理される時間領域サンプルの数と等しくなる。
さらに、好適な実施形態では、フィルタバンク18の時間・周波数分解能は、トランジェント分析セクション16から受領したトランジェント検出結果に基づいて制御される。さらに好ましくは、フィルタバンク18は、前記‘917出願に記載の技術を用いる。
一般的に言うと、その技術は、各準定常フレームをカバーする単一の長い変換ブロック及び各トランジェントフレームをカバーする複数で同一の短い変換ブロックを使用する。代表的な例において、フレームサイズは1,024個のサンプル分で、各準定常フレームは単一のプライマリーブロック(1,024個のサンプル)から構成され、各トランジェントフレームは8つのプライマリーブロック(128個のサンプルをそれぞれ有する)から構成されると考えられる。境界効果を防ぐため、MDCTブロックはプライマリーブロックよりも大きく、さらに好適には、プライマリーブロックの2倍である。その場合、長いMDCTブロックは2,048個のサンプルから構成され、短いMDCTブロックは256個のサンプルから構成される。
MDCT適用前に、個々のフィルタの周波数応答を整形することを目的として、各MDCTブロックにウィンドウ関数が適用される。準定常フレームには単一の長いMDCTブロックのみが使用されるため単一のウィンドウ関数が用いられるが、ただし、その特定の形状は隣接するフレームで用いられるウィンドウ関数によることが好ましく、それにより完全再構成条件を満たす。一方、従来の技術とは違って、好適な実施形態の技術では、単一のトランジェントフレーム内で異なるウィンドウ関数を用いる。より好ましくは、そのようなウィンドウ関数は、フレーム内で単一の変換(例えば、MDCT)ブロックサイズを使用しつつ、トランジェントフレーム内で少なくとも2段階の分解能を提供できるように選択される。
その結果、例えば、トランジェント信号付近ではより高い時間領域分解能(周波数領域分解能が低下することを代償とする)を得ることができ、トランジェントフレームのその他の部分(すなわち、より定常な部分)ではより高い周波数領域分解能(時間領域分解能が低下することを代償とする)を得ることができる。さらに、前記利点は概して、変換ブロックの大きさを一定に保つことによって、処理構造を複雑化することなく、達成できる。
好適な実施形態では、従来のウィンドウ関数に加え、下記の新しい「ブリーフ(brief、簡潔な)」ウィンドウ関数WIN_SHORT_BRIEF2BRIEFが導入される。
Figure 0005162588
ここで、Sは短いプライマリーブロックサイズ(例えば、128個のサンプル)、Bはブリーフブロックサイズ(例えば、B=32)を表す。前記‘917出願に詳しく記載するように、完全再構成条件を満たすため、追加のトランジションウィンドウ関数も使用することが好ましい。
なお、前記‘917出願にも詳しく記載されるように、他の特定の形式の「ブリーフ」ウィンドウ関数を代わりに用いてもよい。しかしながら、本発明の好適な実施形態では、使用される「ブリーフ」ウィンドウ関数が、トランジェントフレームの他の部分(例えば、より定常な部分)に用いられる他のウィンドウ関数と比較して、変換ブロックのより小さな部分により多くのエネルギーを集中させる。実際、ある実施形態では、多くの関数値が0で、これによって中央のサンプル値、すなわちサンプル値のプライマリーブロックが保存される。
再結合クロスオーバーセクション20においては、カレントチャンネルのカレントフレーム用のサブバンドサンプルは、同サブバンドに対応する同トランジェントセグメント内でサンプルをグループ化するよう、再配置されることが好ましい。長いMDCTを含むフレーム(すなわち、準定常フレーム)では、サブバンドサンプルは、周波数が上昇する順序で、例えば、サブバンド0からサブバンド1023への順序で、すでに配置されている。MDCTのサブバンドサンプルは自然順序で配置されているため、再結合クロスオーバーは長いMDCTを含むフレームには適用されない。
しかしながら、フレームが1フレーム当たりのブロック数(nNumBlocksPerFrm)が短いMDCTブロック(すなわち、トランジェントフレーム)で構成されている場合、各短いMDCT用サブバンドサンプルは、周波数が上昇する順序で、例えば、サブバンド0からサブバンド127への順序、で配置される。そのようなサブバンドサンプルのグループは時間順序で配置されているため、0から1023までのサブバンドサンプルの自然順序が形成される。
再結合クロスオーバーセクション20では、再結合クロスオーバーがこれらサブバンドサンプルに適用されるが、これは各トランジェントセグメント内に同じ周波数をもつサンプルを配置し、続いて周波数が上昇する順序にそれらを配置することによってである。これにより、変換に必要なビットの数を低減するという結果が得られることが多い。
3つのトランジェントセグメントと8つの短いMDCTブロックを有するフレームの自然順序の一例は、下記の通りである。
Figure 0005162588
自然順序におけるサブバンドサンプルの線形シーケンスは[0…1023]である。再結合クロスオーバー適用後の対応するデータ配列は下記の通りである。
Figure 0005162588
再結合クロスオーバー順序におけるサブバンドサンプルの線形シーケンスは
[0,2,4,…,…254,1,3,5,…,255,256,259,302,…,637,…]である。
ここで用いられるように、「臨界帯域」とは、人間の耳の周波数分解能、すなわち、その中で人間の耳が異なる周波数を区別できないような帯域幅Δfを指す。帯域幅Δfは、周波数fと共に上昇し、fとΔfとの関係は、ほぼ級数的である。各臨界帯域は、フィルタバンクの隣接するサブバンドサンプルの数として表すことができる。例えば、短い(128個のサンプルの)MDCTの臨界帯域は、一般的に最低周波数で4個のサブバンドサンプルという幅から最高周波数で42個のサブバンドサンプルという幅までとなる。
心理音響モデル32は、人間の耳のノイズマスキング閾を提供する。心理音響モデル32の根底にある基本概念は、人間の聴覚システムには閾があるということである。これらの値(マスキング閾)未満では、音声信号を聞き取ることができない。従って、情報のこの部分をデコーダに伝送する必要はない。心理音響モデル32の目的は、これらの閾値を提供することである。
既存の一般的な心理音響モデル、例えばMPGEからの二つの心理音響モデルを使用することができる。本発明の好適な実施形態では、心理音響モデル32は、各量子化ユニットのマスク閾(下記に定義する)を出力する。
任意の和/差エンコーダ22では、特定の結合チャンネル符号化技術が使用される。好ましくは、エンコーダ22は、左/右チャンネル対のサブバンドサンプルを、次のように和/差チャンネル対に変換する。
和チャンネル=0.5 * (左チャンネル+右チャンネル)
差チャンネル=0.5 * (左チャンネル−右チャンネル)
従って、復号中は、左/右チャンネルにおけるサブバンドサンプルの再構成は次の通りとなる。
左チャンネル=和チャンネル+差チャンネル
右チャンネル=和チャンネル−差チャンネル
任意の結合強度エンコーダ24は、人間の耳の高周波数における音像定位特性を利用して、結合チャンネルの高周波数成分を符号化する。心理音響モデルは、高周波数における空間音像に対する人間の耳の感覚が、左/右音声信号の相対的な強さによって大部分が限定され、それぞれの周波数成分によってはそれほど限定されないことを示している。これは、結合強度符号化の理論的な基礎である。以下は結合強度符号化用の簡単な技術である。
2つ以上のチャンネルが結合されるためには、対応するサブバンドサンプルがチャンネルを越えて足し合わされ、その合計が元のソースチャンネルの一つ(たとえば、左チャンネル)のサブバンドサンプルと取って代わり、それが結合サブバンドサンプルと称される。その後、各量子化ユニットでは、元のソースチャンネルのパワーと一致するようパワーが調整され、各チャンネルの各量子化ユニットのスケール係数が保持される。最後に、各チャンネル内の量子化ユニットの、パワーが調整された結合サブバンドサンプルとスケーリング係数とのみが保持され、伝送される。例えば、Esがソースチャンネルの結合量子化ユニットのパワーで、Ejが結合チャンネルの結合量子化ユニットのパワーの場合、スケール係数は下記のように算出することができる。
Figure 0005162588
グローバルビット割当セクション34は、多数のビットを各量子化ユニットに割り当てる。ここで、「量子化ユニット」は、周波数領域の臨界帯域によって、かつ、時間領域のトランジェントセグメントによって境界を定められたサブバンドサンプルの四角形から構成されることが好ましい。この四角形内の全てのサブバンドサンプルは、同じ量子化ユニットに属する。
これらサンプルのシリアル番号は、本発明の好適な実施形態では2種類のサブバンドサンプル配列順序(すなわち、自然順序及びクロスオーバー順序)があるので、例えば異なっていてもよいが、しかし、同一グループのサブバンドサンプルを表すことが好ましい。一例では、第一の量子化ユニットは、サブバンドサンプル0,1,2,3,128,129,130及び131から構成される。しかしながら、第一の量子化ユニットのサブバンドサンプルのシリアル番号は、0,1,2,3,4,5,6及び7となる。異なるシリアル番号を持つ2つのグループは、同一のサブバンドサンプルを表している。
量子化ノイズパワーをそれぞれのマスキング閾値以下にまで低減するために、グローバルビット割当セクション34は、各フレームに対して利用可能な全てのビットを当該フレーム内の量子化ユニットに分配する。好ましくは、各量子化ユニットの量子化ノイズパワーと、前記量子化ユニットに割り当てられたビット数は、量子化ユニットの量子化ステップサイズを調整することにより制御される。
様々な既存のビット割当技術中で、例えば注水など、いずれの技術を用いてもよい。注水技術では、(1)NMR(ノイズ対マスク比)が最も高い量子化ユニットを識別し、(2)その量子化ユニットに割り当てられた量子化ステップサイズを減少させて量子化ノイズを低減させ、そして(3)全ての量子化ユニットのNMRが1未満(もしくは予め定められた他の閾)となるか、もしくはカレントフレームに与えられているビットがなくなるまで、前述の2つのステップが繰り返される。
量子化セクション26では、サブバンドサンプルを量子化するが、この量子化は、好適には上述のように、グローバルビット割当器34によって設けられた均等な量子化ステップサイズを用いて、各量子化ユニットのサンプルを直接的に量子化することによる。ただし、他の量子化技術を代用してもよく、それにはグローバルビット割当セクション34への対応する調整を伴う。
コードブックセレクタ36は、量子化インデックスの局所統計的特性によって量子化インデックスをグループ化またはセグメント化し、コードブックライブラリからコードブックを選択して量子化インデックスの各グループに割り当てる。本発明の好適な実施形態では、セグメント化とコードブックの選択がほぼ同時に行われる。
本発明の好適な実施形態では、量子化インデックスエンコーダ28(下記に追加詳細を記載)は、コードブックセレクタ36がセグメントごとに選択したコードブックを用いることにより、量子化インデックスにハフマン符号化を実施する。より好ましくは、各チャンネルのサブバンドサンプル量子化インデックスに対してもハフマン符号化を実施する。さらに好ましくは、サブバンドサンプル量子化インデックスについてハフマン符号化を行うために、2グループのコードブック(一つは準定常フレーム用、もう一つはトランジェントフレーム用)を用いるが、その際にコードブックの各グループは9つのハフマンコードブックからなる。従って、好適な実施形態では、任意のフレームの量子化インデックスの符号化を実施するために、9つまでのハフマンコードブックを用いることができる。かかるコードブックの特性は、好適には下記の通りである。
Figure 0005162588
他のタイプのエントロピーコーディング(演算符号等)は、本発明の別の実施形態で実施される。しかし本例では、ハフマン符号化が用いられるものとする。ここで使用される「ハフマン」符号化とは、想定されたシンボル出現確率を用いるプレフィックス2進コードを含むものであって、コーディング技術が元来のハフマンアルゴリズムと同一であるか否かに関わらず、あまり一般的でないソースシンボルよりも短いビット列を使用することによって、より一般的なソースシンボルを用いて表現するものである。
量子化インデックスエンコーダ28で行われると予測された符号化を鑑み、本発明の好適な実施形態におけるコードブックセレクタ36の目標は、各チャンネルの分類インデックスのセグメントを選択し、それぞれのセグメントにあてはまるコードブックを決定することである。第一段階は、トランジェント分析セクション16で識別されたフレームタイプ(準定常またはトランジェント)に基づいて、使用すべきコードブックのグループを識別することである。前記特定のコードブックとセグメントは、下記の方法によって選択されることが好ましい。
従来の音声信号処理アルゴリズムでは、エントロピーコードブックの適用範囲は量子化ユニットと同じであるため、エントロピーコードブックは量子化ユニット内の最大量子化インデックスによって決定される。従って、さらなる最適化の余地はない。
一方、本発明の好適な実施形態において、コードブックの選択では、量子化ユニットの境界は無視され、その代わり、適切なコードブックと、そのコードブックが適用されるセグメントとが同時に選択される。さらに好ましくは、量子化インデックスは、その局所統計的特性に応じてセグメントに分割される。コードブックの適用範囲は、これらセグメントの境界によって画定される。図2のフロー図を参照しながら、コードブックセグメントと対応するコードブックとを識別する一技術例を説明する。
初めにステップ82では、コードブックセグメントと対応するコードブックとの初期セットが選択される。このステップは、多種多様な方法、例えばクラスタリング技法を用いたり、量子化インデックスを所定サイズのコードブックに収容される連続した区間内で単純にグループ化したりすることによって実施され得る。後者については、適用可能なコードブック(例えば、9つの異なるコードブック)のグループの中で主な違いは、収容できる最大量子化インデックスである。従って、コードブックの選択においては、第一に、検討中の量子化インデックスの全部の量を収容できるコードブックを選択する必要がある。従って、ステップ82の一つのアプローチのとして、最初の量子化インデックスを収容する最小のコードブックから開始し、さらに大きなコードブックが必要となったり、さらに小さなコードブックを用いることが可能となるまでそれを使用し続けたりすることである。
いずれにしても、このステップ82の結果により、コードブックセグメントの最初のシーケンスと、対応するコードブックとが提供される。図3は、101〜113のセグメントを含む一例を示している。ここでは、各コードセグメント101〜113は、垂直方向の高さによって表された、割り当てられたコードブック内に、水平方向の長さによって示された長さを持つ。
次にステップ83では、コードブックセグメントは、必要に応じて結合され、また好ましくは、量子化インデックスの大きさに基づいて結合される。その際、コードブックセグメントは好適には任意の境界を持つことが可能であり、それらの境界の位置は通常デコーダに伝送される必要がある。従って、ステップ82後のコードブックセグメント数が多すぎる場合は、規定の基準85を満たすまで小さなコードブックセグメントのいくつかを削除することが好ましい。
好適な実施形態では、削除方法は、小さいコードブックセグメント(たとえば、最短のコードブックセグメント)を、その検討中のコードブックセグメントの左右側で、最小のコードブックインデックス(最小のコードブックに対応)を持つコードブックセグメントと結合させることである。図4は、図3に示されるコードブックセグメント化にステップ83を適用した一結果例を提示している。この場合、セグメント102はセグメント101及び103(同一のコードブックを使用)と結合されてセグメント121を提供し、セグメント104及び106はセグメント105と結合されてセグメント122を提供し、セグメント110及び111はセグメント109と結合されてセグメント125を提供し、セグメント113はセグメント112と結合されてセグメント126を提供する。コードブックインデックスが0の場合(例えば、セグメント108)、量子化インデックスを伝送する必要がないので、そのような孤立したコードブックセグメントは削除(reject)されないことが好ましい。従って、本例では、コードブックセグメント108は削除(reject)されない
図2に示すように、ステップ83は、最終基準85を満たすまで繰り返し適用されることが望ましい。最終基準は、特定の実施形態に応じて、例えばセグメントの総数は規定最大数を超えない、各セグメントは最小限の長さを持つ、及び/または参照されるコードブックの総数は規定最大数を超えない等であればよい。この反復プロセスでは、次に削除するセグメントの選択は、例えば、最短既存セグメント、最小量でコードブックインデックスが増加する可能性のあるセグメント、ビット数における最初の予測増加、または得られる正味の利得(例えば、セグメントの長さとそのコードブックインデックスにおける必須増加率との関数)等、多種多様な基準に基づいて実施されてもよい。
この技術の利点は、図5に示すような従来のセグメント化と、図6に示すような本発明によるセグメント化とを比較することによって、理解することができる。図5では、量子化インデックスは、151〜154までの4つの量子化セグメントに分割され、右側の対応する境界161〜163を有する。従来のアプローチに基づいて、量子化セグメント151〜154は、量子化ユニットと直接的に対応している。本例では、最大量子化インデックス171は、量子化ユニット154に属している。従って、量子化ユニット154には大きいコードブック(例えば、コードブックc)が選択される必要がある。量子化ユニット154の量子化インデックスのほとんどは小さいので、賢い選択とは言えない。
一方、本発明の技術が適用される場合、同じ量子化インデックスが、上記の技術を用いることによってコードブックセグメント181〜184にセグメント化される。その結果、最大量子化インデックス171は、コードブックセグメント183(このコードブックセグメント183には、その中のその他の量子化インデックスの大きさに基づいて、既にコードブックセグメントcが割り当てられている)内の量子化インデックスとグループ化される。この量子化インデックス171は、なおも同じサイズのコードブック(例えば、コードブックc)を必要とするが、このコードブックを他の大きな量子化インデックスと共有する。すなわち、この大きなコードブックは、このコードブックセグメント183の量子化インデックスの統計的特性と対応する。さらに、コードブックセグメント184内の全ての量子化インデックスは小さいため、そのセグメントにはより小さいコードブック(例えば、コードブックa)が選択される。すなわち、コードブックをセグメント内の量子化インデックスの統計的特性と対応させるのである。このコードブックの選択技術により、多くの場合、量子化インデックスの伝送に用いられるビットの数を低減できることが容易に理解されよう。
しかしながら上述のように、本技術の使用に関連していくらかの「追加コスト」がかかる。従来技術では、通常は、コードブックインデックスのサイド情報のみを復号器に伝送すればよい。なぜなら、その適用範囲が量子化ユニットと同一であるからである。しかしながら本発明の技術では、概して、コードブックインデックスのサイド情報を伝送するだけでなく、デコーダの適用範囲も伝送する必要がある。なぜなら、前記適用範囲と量子化ユニットが通常は、独立しているからである。この問題に対処するため、ある実施形態では、そのような「追加コスト」が補償されない場合、本技術を従来型アプローチにデフォルトする(すなわち、単純に量子化ユニットを量子化セグメントとして使用する)。ただし、このような事態は生じたとしてもごくまれであろう。上述のように、この問題に対処する一つのアプローチは、許容される統計的特性の条件下において、できる限り大きなコードブックセグメントに分割することである。
コードブックセレクタ36による処理が完了した際、好ましくは、セグメント数、各セグメントの長さ(各コードブックの適用範囲)、それぞれのセグメントに選択されたコードブックインデックスがマルチプレクサ45に提供され、ビットストリームに含まれる。
量子化インデックスエンコーダ28は、前記セグメントと、コードブックセレクタ36によって選択された対応するコードブックとを用いることにより、量子化インデックスを圧縮符号化する。コードブックHuffDec18_256x1及びコードブックHuffDec27_256x1(コードブックインデックス9に対応)内の最大量子化インデックス、すなわち255はESCAPEを表す。量子化インデックスは二つのコードテーブルの最大範囲を超える可能性があることから、かかる大きなインデックスは、「q」が以下のように表される、再帰的符号化によって符号化される。
q = m * 255 + r
ここで、mはqの商であり、rはqの剰余である。剰余rは、コードブックインデックス9に対応するハフマンコードブックを用いて符号化され、商qは直接ビットストリームに組み込まれる。ハフマンコードブックは、好ましくは商qを組み込むために使用されるビットの数を符号化するために用いられる。
コードブックHuffDec18_256x1及びコードブックHuffDec27_256x1はミッドトレッド型ではないため、絶対値が伝送されたときは、その絶対値記号(the sign)を表すための追加ビットが伝送される。コードブックインデックス1から8までに対応するコードブックはミッドトレッド型であるため、ハフマン復号化後に量子化インデックスの絶対値記号(the sign)を再構成するためのオフセットが追加される。
マルチプレクサ45は、上述の全ての追加情報や任意のユーザー定義補助情報も含め、全てのハフマンコードを単一のビットストリーム60に組み込む。加えて、エラーコードは、音声データのカレントフレームに挿入されることが好ましい。エンコーダ10が全ての音声データを組み込んだ後、ラストワード(32ビット)の全ての空きビットが「1」に設定されるとさらに好ましい。デコーダ側では、全ての空きビットが1と等しいわけではない場合、カレントフレームにエラーが宣言され、エラー処理手続きが開始される。
本発明の好適な実施形態では、補助データはエラー検出コードの後ろに配置されているため、デコーダはコードエラー検出終了後に停止して次の音声フレームを待機することが可能である。言い換えると、補助データは復号に何ら影響を与えず、またデコーダによって処理される必要もない。その結果、補助データの定義及び理解はユーザーによってすべてが決定可能となり、これにより相当な自由度がユーザーにもたらされる。
各フレームの出力構造は、好適には下記の通りである。
Figure 0005162588
各標準チャンネルのデータ構造は、好適には下記の通りである。
Figure 0005162588
各LFEチャンネルのデータ構造は、好適には下記の通りである。
Figure 0005162588
システム環境
一般的に、特に明示される場合を除いて、ここに記述した全てのシステム、方法、及び技術は、一つ以上のプログラム可能な汎用のコンピュータデバイスを用いて実行可能である。そのようなデバイスは、通常、例えば共通バスを経由して相互に接続する次のコンポーネントを少なくともいくつか含んでいる。例えば、一つ以上の中央処理装置(CPU);リードオンリーメモリ(ROM);ランダムアクセスメモリ(RAM);(例えば、シリアルポート、パラレルポート、USB接続、またはファイヤーワイヤー接続等のハードワイヤード接続を使用、もしくはブルートゥースまたは802.11プロコトル等の無線プロコトルを使用して)他のデバイスと接続する入力/出力ソフトウェア及び回路;(例えば、イーサネットカードのようなハードワイヤード接続を使用、もしくは符号分割多重アクセス(CDMA)、GSM(Global system for mobile communication)、ブルートゥース、802.11プロコトル、またはその他のセルラー式システムあるいは非セルラー式システム等の無線プロトコルを使用して)一つ以上のネットワークと接続するためのソフトウェア及び回路であって、本発明の多くの実施形態において、前記ネットワークは、インターネットあるいは他のネットワークを接続する;ディスプレイ(ブラウン管ディスプレイ、液晶ディスプレイ、有機発光ディスプレイ、高分子発光ディスプレイ、または他の薄膜ディスプレイ等);他の出力デバイス(一つ以上のスピーカー、ヘッドフォンセット及びプリンタなど);一つ以上の入力デバイス(マウス、タッチパッド、タブレット、タッチセンサー式ディスプレイ、またはその他ポインティングデバイス、キーボード、キーパッド、マイク及びスキャナー等);大容量記憶装置(ハードディスクドライブ等);リアルタイムクロック;リムーバブル記憶読取/書込デバイス(RAM、磁気ディスク、磁気テープ、光磁気ディスク、光ディスク等の読取/書込用のデバイス);及びモデム(例えば、ファックスの送信またはダイアルアップ接続によるインターネットやその他コンピュータネットワークの接続用のモデム)を含んでいる。操作時には、かかる汎用コンピュータで実行される範囲において、上記の方法及び機能を実行する処理ステップが、一般的に初めは大容量記憶装置(例えば、ハードディスク)に記憶され、RAMにダウンロードされ、RAMから取り出されてCPUにより実行される。しかしながら、場合によっては、前記処理ステップは初めからRAMまたはROMに記憶されている。
本発明の実施において使用されるのに適したデバイスは、ベンダー各社から入手されたものでもよい。様々な実施形態において、サイズやタスクの複雑さに応じて多様なデバイスが用いられる。適切なデバイスとしては、独立型、ネットワークに配線で接続、またはワイヤレスで接続されている、メインフレームコンピュータ、マルチプロセッサコンピュータ、ワークステーション、パーソナルコンピュータ、PDAなどのより小型のコンピュータ、無線電話、もしくはその他の機器やデバイス等がある。
さらに、プログラム可能な汎用のデバイスを上述したが、別の実施形態では一つ以上の専用プロセッサ、またはコンピュータが代わりに(もしくは追加で)使用される。一般的に、特に明示される場合を除いて、上記いずれの機能も、ソフトウェア、ハードウェア、ファームウェア、もしくはこれらの任意の組み合わせることによって実施されることが可能であるが、特定の実施は、公知の工学的トレードオフに基づいて選択される。より具体的には、上記機能が固定、所定、あるいは論理的な方法によって実施される場合、プログラミング(例えば、ソフトウェアまたはファームウェア)や、ロジックコンポーネント(ハードウェア)の適切な構成、あるいは前記2つの組み合わせにより達成することができるが、これは当業者であれば容易に理解されるであろう。
本発明はまた、本発明の方法及び機能を実行するプログラム命令が記憶された機械読取可能な記録媒体にも関すると理解されるべきである。そのような記録媒体の例としては、磁気ディスク、磁気テープ、CD−ROMやDVD−ROM等の光学的読取可能な記録媒体、あるいはPCMCIAカード、各種メモリカード、USBメモリデバイス等の半導体メモリなどがある。いずれの場合にも、記録媒体はミニチュアディスクドライブまたは小型ディスク、ディスケット、カセット、カートリッジ、カード、スティック等の携帯型アイテムの形をとるか、もしくはコンピュータまたはその他デバイスに設けられたハードディスクドライブ、ROMやRAM等の比較的大きな、もしくは固定式アイテムの形を取り得る。
先の記載では、主に電子計算機及びデバイスに重点を置いている。しかしながら、その他コンピュータや他種デバイス、例えば電子的、光学的、生物学的、及び化学的な処理の任意の組み合わせを使用したデバイス等を代わりに使用してもよいと理解されるべきである。
追加的な考察
本発明のいくつかの異なる実施形態が上述され、各実施形態は特定の特徴を有するものとして記載されている。しかしながら、いずれか一つの実施形態の説明に関連して記載された特徴は、当該実施形態に限定されるものではなく、他の実施形態においても多様な組み合わせで含まれ、および/または構成されてもよいことは、当業者によって理解されるであろう。
同様に、上記説明において、機能は特定のモジュールまたはコンポーネントに属するものとみなされている場合がある。しかしながら、機能は、一般的には異なるモジュールまたはコンポーネントに必要に応じて再分配され、場合によっては、特定のモジュールまたはコンポーネントを不要としたり、及び/または、新たなモジュールまたはコンポーネントの追加を必要としたりする。機能の正確な分配は、好ましくは本発明の特定の実施形態を参照しながら公知の工学的トレードオフにより行われることは、当業者によって理解されるであろう。
このように、本発明は、例示的実施形態及び添付図面に関して詳しく記載されているが、本発明の精神及び範囲から逸脱することなく、本発明を多様に調整及び変更し得ることは当業者には明らかであろう。従って、本発明は、図面に示され、上記に記載された実施形態そのものに限定されるものではない。むしろ、本発明の精神から逸脱しないそれら全ての変形は、添付の請求の範囲によってのみ限定される本発明の範囲内に入るものとみなされる。

Claims (14)

  1. 音声信号を符号化する方法であって、
    (a)フレームに分割されたサンプル音声信号を取得するステップと、
    (b)前記フレームの一つに存在するトランジェントの位置を識別するステップと、
    (c)前記フレームデータに多分解能フィルタバンク分析を行うことによって変換データサンプルを生成するステップであって、前記トランジェントを含む前記フレームの一つにおける異なる部分については異なる分解能でフィルタリングすることを含むステップと、
    (d)心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することにより量子化データを生成するステップと、
    (e)前記量子化データの大きさに基づいて前記量子化データを可変長セグメントにグループ化するステップと、
    (f)コードブックを前記可変長セグメントの各々に割り当てるステップと、
    (g)前記可変長セグメントを設定するために割り当てられた前記コードブックを用いて前記可変長セグメントの各々の前記量子化データを符号化するステップとを含み、
    前記変換データサンプルは、(i)二つの異なるチャンネルの対応するデータ値の和と、(ii)二つの異なるチャンネルのデータ値の差とのうちの、少なくとも一つを含み、
    前記トランジェントを含む前記フレームの一つに対するフィルタリングは、
    同じ大きさの隣接する複数の変換ブロックの各々にフィルタバンクを適用することと、
    前記トランジェントを含む前記変換ブロックの一つに対して、前記トランジェントを含まない前記変換ブロックとは異なるウィンドウ関数を適用することと、
    を含むことを特徴とする方法。
  2. 前記変換データサンプルの少なくとも一部は、結合強度符号化されている、請求項1に記載の方法。
  3. 前記変換データサンプルは、変形離散コサイン変換を行うことによって生成される、請求項1に記載の方法。
  4. 前記ステップ(g)における符号化は、検出されたトランジェント信号を含まないフレーム用の9つのコードブックを含む第一のコードブックグループと、検出されたトランジェント信号を含むフレーム用の9つのコードブックを含む第二のコードブックグループとを使用するハフマン符号化を含む、請求項1に記載の方法。
  5. 前記ステップ(e)は、量子化データの短いセグメントを隣接したセグメントに結合する反復技法を含む、請求項1に記載の方法。
  6. 前記量子化データは、複数の量子化ユニットの各々の中の各サンプルに固定数のビットを割り当てることにより生成され、異なる量子化ユニットはサンプルごとのビットの数が異なり、かつ、前記可変長セグメントは前記量子化ユニットから独立している、請求項1に記載の方法。
  7. 前記ステップ(e)と前記ステップ(f)は同時に行われる、請求項1に記載の方法。
  8. 音声信号符号化のためのコンピュータ実行可能なプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、
    (a)フレームに分割されたサンプル音声信号を取得するステップと、
    (b)前記フレームの一つに存在するトランジェントの位置を識別するステップと、
    (c)前記フレームデータに多分解能フィルタバンク分析を行うことによって変換データサンプルを生成するステップであって、当該ステップは、前記トランジェントを含む前記フレームの一つにおける異なる部分については異なる分解能でフィルタリングすることを含むステップと、
    (d)心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することによって量子化データを生成するステップと、
    (e)前記量子化データの大きさに基づいて前記量子化データを可変長セグメントにグループ化するステップと、
    (f)コードブックを前記可変長セグメントの各々に割り当てるステップと、
    (g)前記可変長セグメントを設定するために割り当てられた前記コードブックを用いて前記可変長セグメントの各々の前記量子化データを符号化するステップとを前記コンピュータに実行させるためのプログラムを含み、
    前記変換データサンプルは、(i)二つの異なるチャンネルの対応するデータ値の和と、(ii)二つの異なるチャンネルのデータ値の差とのうちの、少なくとも一つを含み、
    前記トランジェントを含む前記フレームの一つに対するフィルタリングは、
    同じ大きさの隣接する複数の変換ブロックの各々にフィルタバンクを適用することと、
    前記トランジェントを含む前記変換ブロックの一つに対して、前記トランジェントを含まない前記変換ブロックとは異なるウィンドウ関数を適用することと、
    を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
  9. 前記変換データサンプルの少なくとも一部は、結合強度符号化されている、請求項に記載のコンピュータ読み取り可能な記録媒体。
  10. 前記変換データサンプルは、変形離散コサイン変換を行うことによって生成される、請求項に記載のコンピュータ読み取り可能な記録媒体。
  11. 前記ステップ(g)における符号化は、検出されたトランジェント信号を含まないフレーム用の9つのコードブックを含む第一のコードブックグループと、検出されたトランジェント信号を含むフレーム用の9つのコードブックを含む第二のコードブックグループとを使用するハフマン符号化を含む、請求項に記載のコンピュータ読み取り可能な記録媒体。
  12. 前記ステップ(e)は、量子化データの短いセグメントを隣接したセグメントに結合する反復技法を含む、請求項に記載のコンピュータ読み取り可能な記録媒体。
  13. 前記量子化データは、複数の量子化ユニットの各々の中の各サンプルに固定数のビットを割り当てることにより生成され、異なる量子化ユニットはサンプルごとのビットの数が異なり、かつ、前記可変長セグメントは前記量子化ユニットから独立している、請求項に記載のコンピュータ読み取り可能な記録媒体。
  14. 前記ステップ(e)と前記ステップ(f)は同時に実行される、請求項に記載のコンピュータ読み取り可能な記録媒体。
JP2009524877A 2006-08-18 2007-08-17 音声符号化システム Expired - Fee Related JP5162588B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US82276006P 2006-08-18 2006-08-18
US60/822,760 2006-08-18
US11/558,917 2006-11-12
US11/558,917 US8744862B2 (en) 2006-08-18 2006-11-12 Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US11/669,346 US7895034B2 (en) 2004-09-17 2007-01-31 Audio encoding system
US11/669,346 2007-01-31
PCT/CN2007/002489 WO2008022564A1 (en) 2006-08-18 2007-08-17 Audio encoding system

Publications (2)

Publication Number Publication Date
JP2010501089A JP2010501089A (ja) 2010-01-14
JP5162588B2 true JP5162588B2 (ja) 2013-03-13

Family

ID=39110402

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009524877A Expired - Fee Related JP5162588B2 (ja) 2006-08-18 2007-08-17 音声符号化システム
JP2009524878A Expired - Fee Related JP5162589B2 (ja) 2006-08-18 2007-08-17 音声復号化

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009524878A Expired - Fee Related JP5162589B2 (ja) 2006-08-18 2007-08-17 音声復号化

Country Status (7)

Country Link
US (1) US7895034B2 (ja)
EP (2) EP2054883B1 (ja)
JP (2) JP5162588B2 (ja)
KR (3) KR101168473B1 (ja)
AT (2) ATE486346T1 (ja)
DE (2) DE602007010158D1 (ja)
WO (1) WO2008022564A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US8369972B2 (en) 2007-11-12 2013-02-05 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
CN101903945B (zh) * 2007-12-21 2014-01-01 松下电器产业株式会社 编码装置、解码装置以及编码方法
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN102419977B (zh) * 2011-01-14 2013-10-02 展讯通信(上海)有限公司 瞬态音频信号的判别方法
WO2012137617A1 (ja) 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
CN105190748B (zh) 2013-01-29 2019-11-01 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、系统、方法及存储介质
CA3163664A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Audio encoder and decoder
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
CN107924683B (zh) 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US9762382B1 (en) * 2016-02-18 2017-09-12 Teradyne, Inc. Time-aligning a signal
CN105790854B (zh) * 2016-03-01 2018-11-20 济南中维世纪科技有限公司 一种基于声波的短距离数据传输方法及装置
CN114499690B (zh) * 2021-12-27 2023-09-29 北京遥测技术研究所 一种星载激光通信终端地面模拟装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3902948A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals
DE4020656A1 (de) 1990-06-29 1992-01-02 Thomson Brandt Gmbh Verfahren zur uebertragung eines signals
GB9103777D0 (en) 1991-02-22 1991-04-10 B & W Loudspeakers Analogue and digital convertors
JP3413691B2 (ja) * 1994-08-16 2003-06-03 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報送信方法
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3318824B2 (ja) * 1996-07-15 2002-08-26 ソニー株式会社 デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6357029B1 (en) * 1999-01-27 2002-03-12 Agere Systems Guardian Corp. Joint multiple program error concealment for digital audio broadcasting and other applications
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
JP3518737B2 (ja) * 1999-10-25 2004-04-12 日本ビクター株式会社 オーディオ符号化装置、オーディオ符号化方法、及びオーディオ符号化信号記録媒体
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US6983017B2 (en) 2001-08-20 2006-01-03 Broadcom Corporation Method and apparatus for implementing reduced memory mode for high-definition television
JP3815323B2 (ja) * 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
JP2003216188A (ja) * 2002-01-25 2003-07-30 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法、符号化装置、及び記憶媒体
JP2003233397A (ja) * 2002-02-12 2003-08-22 Victor Co Of Japan Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
US7328150B2 (en) 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7548819B2 (en) 2004-02-27 2009-06-16 Ultra Electronics Limited Signal measurement and processing method and apparatus
JP4271602B2 (ja) * 2004-03-04 2009-06-03 富士通株式会社 転送データの正当性を判定する装置および方法
JP2005268912A (ja) * 2004-03-16 2005-09-29 Sharp Corp フレーム補間のための画像処理装置およびそれを備えた表示装置
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges

Also Published As

Publication number Publication date
ATE486347T1 (de) 2010-11-15
DE602007010158D1 (de) 2010-12-09
JP2010501089A (ja) 2010-01-14
EP2054881A1 (en) 2009-05-06
DE602007010160D1 (de) 2010-12-09
KR20090041439A (ko) 2009-04-28
KR101401224B1 (ko) 2014-05-28
EP2054883A1 (en) 2009-05-06
JP5162589B2 (ja) 2013-03-13
KR20120032039A (ko) 2012-04-04
EP2054881B1 (en) 2010-10-27
EP2054883A4 (en) 2009-09-09
EP2054883B1 (en) 2010-10-27
ATE486346T1 (de) 2010-11-15
WO2008022564A1 (en) 2008-02-28
US20070124141A1 (en) 2007-05-31
KR101168473B1 (ko) 2012-07-26
KR101161921B1 (ko) 2012-07-03
KR20090042972A (ko) 2009-05-04
JP2010501090A (ja) 2010-01-14
EP2054881A4 (en) 2009-09-09
US7895034B2 (en) 2011-02-22

Similar Documents

Publication Publication Date Title
JP5162588B2 (ja) 音声符号化システム
ES2334934T3 (es) Codificacion de entropia por adaptacion de codificacion entre modalidades de nivel y de longitud de sucesion y nivel.
US7689427B2 (en) Methods and apparatus for implementing embedded scalable encoding and decoding of companded and vector quantized audio data
CN100367348C (zh) 低比特速率音频编码
CN1153191C (zh) 高质量音频的可缩放编码方法
US8271293B2 (en) Audio decoding using variable-length codebook application ranges
NZ552644A (en) Methods and apparatus for mixing compressed digital bit streams
MX2014004797A (es) Método y aparato de codificación sin perdida de energia, método y aparato de codificación de audio, método y aparato de decodificación sin perdida de energia y método y aparato de decodificación de audio.
CN100489965C (zh) 音频编码系统
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
JP4728568B2 (ja) レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化
JP3964860B2 (ja) ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体
CN113192517B (zh) 一种音频编解码方法和音频编解码设备
KR101381602B1 (ko) 계층적 부호화 및 복호화 방법 및 장치
JP3466507B2 (ja) 音声符号化方式、音声符号化装置、及びデータ記録媒体
RU2797457C1 (ru) Определение кодирования параметров пространственного звука и соответствующего декодирования
GB2574873A (en) Determination of spatial audio parameter encoding and associated decoding
JP2002157000A (ja) 符号化装置及び復号化装置、符号化処理プログラム及び復号化処理プログラム、符号化処理プログラム又は復号化処理プログラムを記録した記録媒体、並びに符号化装置又は復号化装置を用いた放送システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111130

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5162588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees