JP3996213B2 - 入力標本列処理方法 - Google Patents
入力標本列処理方法 Download PDFInfo
- Publication number
- JP3996213B2 JP3996213B2 JP15812993A JP15812993A JP3996213B2 JP 3996213 B2 JP3996213 B2 JP 3996213B2 JP 15812993 A JP15812993 A JP 15812993A JP 15812993 A JP15812993 A JP 15812993A JP 3996213 B2 JP3996213 B2 JP 3996213B2
- Authority
- JP
- Japan
- Prior art keywords
- input sample
- sample sequence
- vector
- predictor
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000003672 processing method Methods 0.000 title claims 3
- 239000013598 vector Substances 0.000 claims description 223
- 238000000034 method Methods 0.000 claims description 69
- 230000015572 biosynthetic process Effects 0.000 claims description 57
- 238000003786 synthesis reaction Methods 0.000 claims description 57
- 230000015654 memory Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 30
- 230000007774 longterm Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 description 98
- 230000005540 biological transmission Effects 0.000 description 73
- 238000013139 quantization Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 19
- 239000000872 buffer Substances 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 18
- 230000007704 transition Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 9
- 239000000047 product Substances 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000001934 delay Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004071 soot Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Description
【産業上の利用分野】
本発明は、音声の符号化および復号化に関し、特に、蓄積伝送のための音声信号のデジタル符号化、および、音声信号を再生するためのデジタル信号の復号化に関する。
【0002】
【従来の技術】
デジタル信号プロセッサ(DSP)素子の性能対価格比の劇的上昇と結びついた音声符号化における最近の進歩は、音声蓄積交換システム、または、音声メッセージ送信システムのような音声処理システムにおける圧縮音声の聴覚品質を著しく改善した。このような音声処理システムの典型的な適用は、AT&Tテクノロジー、1990年、5巻4号に掲載されたエス・ラングネカー(S.Rangnekar)およびエム・ホッサイン(M.Hossain)の「AT&T音声メールサービス」、および、ニューヨーク・タイムズ、1992年5月3日付のエイ・ラミレッツ(A.Ramirez)の「音声メールの果実から、依然伸びつづけるオーク」に記載されている。
【0003】
音声メッセージ送信システムに使用される音声符号化器は、音声波形を表現するのに必要なビット数を減らすための音声圧縮を行う。音声符号化は、遠い場所に音声メッセージを伝送するのに使用しなければならないビットの数を減らすことにより、または、将来、音声メッセージを回復するのに蓄積しなければならないビットの数を減らすことにより、音声メッセージ送信に適用されている。このようなシステム内の復号化器は、原音声信号の再生を可能とするような方法で蓄積され、または、伝送された符号化音声信号を伸張する相補的機能を与える。伝送に最適な音声符号化器の顕著な性質は、低ビット速度、高聴覚品質、低遅延、多重符号化(タンデム化)に対する堅牢さ、ビット誤りに対する堅牢さ、実施の低コストであることである。他方、音声メッセージ送信に最適な符号化器は、同一低ビット速度、高聴覚品質、多重符号化(タンデム化)に対する堅牢さ、および、実施の低コストを強調するが、耐混合符号化(変換符号化)性も有する。
【0004】
これらの相違は、音声メッセージ送信において、音声が後の回復のために大量記憶媒体を使用することにより、符号化され蓄積されるために生じる。符号化または復号化における数100ミリ秒までの遅延は、音声メッセージ送信システムの使用者には、識別されえない。しかし、伝送業務におけるこのような大きな遅延は、エコー消去に対して多大の困難を引起すとともに、双方向実時間会話の自然なやりとりを中断する虞がある。また、信頼性の高い大量記憶媒体は、多くの現代伝送施設において見られるビット誤りよりも数倍低いビット誤り率を達成する。このため、ビット誤りに対する堅牢さは、音声メッセージ送信システムにとって第一の関心事ではない。
【0005】
従来技術にかかる音声蓄積システムは、一般的に、国際電信電話諮問委員会(CCITT)G.721標準32kb/s適応差分パルス符号変調方式音声符号化器またはAT&T技術ジャーナル65巻、5号1986年9月/10月、65巻、5号23〜33ページに掲載された、ジェイ・ジー・ジョーセンハンス(J.G.Josenhans)、ジェイ・エフ・リンチ(J.F.Lynch)、ジュニア,エム・アール・ロジャーズ(Jr.,M.R.Rogers)、アール・アール・ロシンスキー(R.R.Rosinski)、および、ダブリュー・ピー・ヴァンダーメ(W.P.VanDame)の「報告:音声処理適用業務標準」に記載された16kb/sサブバンド符号化器(SBC)を使用している。サブバンド符号化器のより一般化された諸点は、例えば、エヌ・エス・ジェイヤント(N.S.Jayant)およびピー・ノル(P.Noll)の「波形基準デジタル符号化と音声および画像への適用」、および、1977年9月13日付で、アール・イー・クロシーレ(R.E.Crochiere)その他の者に対して発行された米国特許第4,048,443号に記載されている。
【0006】
32kb/s適応差分パルス符号変調方式(ADPCM)は、非常に良い音声品質を生じるが、そのビット速度は、望ましい速度より大きい。他方、16kb/sサブバンド符号化器は、上記ビット速度の1/2の速度を有し、従来システムにおいて、コストと性能との間の理由のあるトレードオフを提供しているが、音声符号化およびデジタル信号プロセッサ技術の最近の進歩は、サブバンド符号化器を多くの現適用業務に適さないものとした。特に、新しい音声符号化器は、聴覚品質およびタンデム化/変換符号化性能に関連して、サブバンド符号化器よりも優れていることが多い。この様な新しい符号化器の典型は、いわゆる符号励振形線形予測符号化器(CELP)であり、これは、例えば、ジェイ−エッチ チェン(J−H Chen)により1989年1月17日付で出願され、現在放棄されている米国特許出願第07/298451号、ジェイ−エッチ チェンにより1991年9月10日付で出願され本件出願人に譲渡された米国特許出願第07/757,168号、ジェイ−エッチ チェンその他の者により1992年2月18日付で出願され本件出願人に譲渡された米国特許出願第07/837,509号、および、ジェイ−エッチ チェンその他の者により1992年2月18日付で出願され本件出願人に譲渡された米国特許出願第07/837,522号に開示されている。関連する符号化器および復号化器は、プロク グローベコム(Proc.GLOBECOM)の1237〜1241頁(1989年11月)に掲載されたジェイ−エッチ チェンの「16kb/sの堅牢な低遅延符号励振形線形音声符号化器、プロク イカッスプ(Proc.ICASSP)の453〜456頁(1990年4月)に掲載されたジェイ−エッチ チェンの「2ミリ秒未満の一方向遅延を伴う高品質16kb/s音声符号化」、プロク イカッスプの181〜184頁(1990年4月)に掲載されたジェイ−エッチ チェン、エム・ジェイ・メルヒナ−(M.J.Melchner)、アール・ブイ・コックス(R.V.Cox)およびディ・オー・ボウカー(D.O.Bowker)の「16kb/s低遅延符号励振形線形音声符号化器の実時間実施形態」に記載されている。16kb/s低遅延符号励振形線形予測標準システム候補のこれ以上の説明は、1991年11月11〜22日のスイス、ジュネーブでの会議において国際電信電話諮問委員会研究グルームXVに提出された標題「16kb/s音声符号化に関する勧告案」の書類(以下、国際電信電話諮問委員会標準案という)に掲載されている。上記国際電信電話諮問委員会標準案に記載された型のシステムは、以下、低遅延符号励振形線形予測システムという。
【0007】
【発明が解決しようとする課題】
本発明の目的は、複雑な計算が軽減された高品質な音声メッセージ符号化および復号化方法を提供することである。
【0008】
【課題を解決するための手段】
複数個の標本順列のそれぞれを処理する音声メッセージ符号化および復号化方法において、複数個のコードベクトルのそれぞれを後向き適応利得制御器内で利得制御し、上記コードベクトルのそれぞれが対応する指標によって識別される利得調整ステップと、複数個のフィルタパラメタにより特徴付けられた合成フィルタ内で、上記利得調整されたコードベクトルのそれぞれをろ波することにより、対応するコードベクトル候補を生成するステップと、上記入力標本順列に応答して、上記合成フィルタのパラメタを調整するステップと、逐次標本順列を上記コードベクトル候補のそれぞれと比較するステップと、(i)上記順列のそれぞれに対して最短距離を有するコードベクトル候補の指標と、(ii)上記合成フィルタのパラメタを出力するステップとからなることを特徴とする。
【0009】
音声メッセージ送信システムを含めて、本発明の代表的実施例にかかる音声蓄積伝送システムは、従来の音声処理システムに対して、聴覚品質とコストとにおいて顕著な利得を達成する。本発明にかかる幾つかの実施例は、特に、音声蓄積適用業務に適しており、国際電信電話諮問委員会(伝送用)標準に一致した用途に主として適するシステムと対照されるべきであるが、本発明の実施例では、適切な伝送業務にも用いられる。
【0010】
本発明の代表的実施例は、音声メッセージ送信符号化器として公知である。16kb/sの実施例によれば、音声メッセージ送信符号化器は、16kb/s 低遅延符号励振形線形予測または32kb/s ADPCM(国際電信電話諮問委員会 G.721)に比すべき音声品質を生じ、タンデム符号化中に良好な性能を発揮する。また、音声メッセージ送信符号化器は、音声メッセージ送信産業または音声メール産業において使用される他の音声符号化器による混合符号化(変換符号化)(例えば、ADPCM,CVSD等)の品質低下を最小限とする。重要なことは、16kb/s音声メッセージ送信符号化器アルゴリズムの複数の符号化器・復号化器実施対は、プログラム制御に基づく1個のみのAT&Tデジタル信号プロセッ32Cを使用して実施できることである。
【0011】
音声メッセージ送信符号化器は、最近採用され国際電信電話諮問委員会標準案に記載された国際電信電話諮問委員会標準16kb/s低遅延符号励振形線形予測符号化器(国際電信電話諮問委員会勧告G.728)と共通する多くの特徴を有する。しかし、所期の目標を達成するためには、音声メッセージ送信符号化器は、代表的には低遅延符号励振形線形予測で使用される後向き適応線形予測符号化(線形予測符号化)分析法と対立する前向き適応線形予測符号化分析法を使用するのが有利である。また、音声メッセージ送信符号化器の代表的実施例は、低遅延符号励振形線形予測用50次モデルより低い次式(代表的な場合10次)の線形予測符号化モデルを使用するのが有利である。代表的な場合、音声メッセージ送信符号化器は、従来の符号励振形線形予測に使用される1タップ予測器よりも3タップピッチ予測器を組込む。音声メッセージ送信符号化器は、低遅延符号励振形線形予測用10次予測器と対立する1次後向き適応利得予測器を使用する。
【0012】
また、音声メッセージ送信符号化器は、安定度および種々のハードウェアプラットフォーム上に設けられた手段との操作互換性を高めるために、利得予測器を量子化する。本発明の実施例によれば、音声メッセージ送信符号化器は、低遅延符号励振形線形予測で使用される5次元励振ベクトルより4次元励振ベクトルを使用する。これにより、重要で複雑な計算を達成できる効果がある。また、5ビットが形状に割当てられ1ビットが利得に割当てられた6ビット利得・形状励振コードブックを説明のため使用する。他方、低遅延符号励振形線形予測は、7ビットが形状に割当てられ3ビットが利得に割当てられる10ビット利得形状コードブックを使用する。
【0013】
【実施例】
1.音声メッセージ送信符号化器の概要
図1の実施例において示された音声メッセージ送信符号化器は、符号化器の複雑さを軽減し16kb/sで高音声品質を達成するように特別に設計された予測符号化器である。この予測符号化器は、励振コードブック101から励振列を利得基準化器102を通し、ついで、長期合成フィルタ103および短期合成フィルタ104を通すことにより、図1中のリード100に合成音声を生じる。両合成フィルタは、図1に示されているように、それぞれ、帰還ループ内において長期予測器または短期予測器を含む適応全極フィルタである。音声メッセージ送信符号化器は、入力音声標本が110の入力であるときに、これら入力音声標本をフレーム毎に符号化する。各フレームについて、音声メッセージ送信符号化器は、リード110の入力音声と合成音声との聴覚重み付き2乗平均誤差が最小化される最良予測器、最良利得および最良励振を発見しようと、上記誤差は、比較器115内で確定され、聴覚重み付けフィルタ120内で重み付けされる。最小化は、励振コードブック101内の励振ベクトルに対する結果に基づいて、ブロック125により表示される通りに決定される。
【0014】
長期合成フィルタ103は、説明の便宜のため、発声音声のため、基本ピッチ周期またはその倍数に対応する長大遅延を伴う3タイプ予測器である。このために、上記長大遅延は、ピッチ遅れといわれることもある。上記のような長期予測器は、その主要機能が発声音声におけるピッチ周期性を利用することであるので、ピッチ予測器といわれることも多い。短期合成フィルタ104は、説明のため、10次予測器である。短期合成フィルタ104は、代表的な場合として、2.4kb/s以下で動作する周知の線形予測符号化ボコーダ内で最初に使用されたので、線形予測符号化予測器いわれることがある。
【0015】
長期予測器および短期予測器は、それぞれ、分析量子化要素130および135内で一定速度で更新される。各更新時に、新しい予測器パラメタが符号化され、要素137内で多重化され符号化された後、チャネル/蓄積要素140へ伝送される。説明を容易とするため、伝送の用語は、(1)通信チャネルを通じて復号化器へビットストリームを伝送するか、(2)復号化器による後の回復のため記憶媒体(例えば、コンピュータディスク)内にビットストリームを蓄積することを意味するのに使用される。長期合成フィルタ103および短期合成フィルタ104のパラメタの更新に対して、利得基準化器102により与えられた励振利得は、予め量子化された励振に埋込まれた利得情報を使用することにより、後向き利得アダプタ145内で更新される。
【0016】
上記励振ベクトル量子化(VQ)コードブック101は、説明のため、32個の線形独立コードブックベクトル(すなわち、コードベクトル)からなる表を格納している。上記32個の励振コードベクトルのうち各ベクトルの正負符号を決定する追加ビットにより、コードブック101は、各4標本励振ベクトルの候補として機能する64個のコードベクトルからなる等価物を与える。したがって、総数6ビットは、量子化された各励振ベクトルを特定するのに使用される。したがって、励振情報は、6/4=1.5ビット/標本=12kbit/s(例示として、8kHz標本化が仮定される)で符号化される。長期予測器情報および短期予測器情報(副情報ともいう)は、0.5ビット/標本すなわち4kbit/sの速度で符号化される。
【0017】
以下、図1に示された符号化器の例示としてのデータ編成について説明する。
【0018】
必要により、μ則パルス符号変調(PCM)から均一パルス符号変調へ変換した後、入力音声標本は、適宜、緩衝装置に入れられ、192個の連続した入力音声標本(8kHz標本化率で24ミリ秒の音声に対応する)からなるフレームに区分される。各入力音声フレームについて、符号化器は、まず、図1に示された分析量子化要素135内で入力音声に線形予測分析(すなわち、線形予測符号化分析)を行うことにより、新しい反射係数集合を生じる。これらの反射係数は、以下に詳述するように、適宜、量子化され、44ビットに符号化される。ついで、192標本音声フレームは、さらに、各48個の音声フレーム(6ミリ秒)からなる4個のサブフレームに分割される。量子化された反射係数は、各サブフレームについて線形補間され、線形予測符号化予測器係数に変換される。ついで、10次極零重み付けフィルタが、各サブフレームについて、補間された線形予測符号化予測器係数に基づいて生成される。
【0019】
各サブフレームについて、補間された線形予測符号化予測器が線形予測符号化予測残差を生じるために使用される。線形予測符号化予測残差は、ピッチ推定器により、ピッチ予測器の大容量遅延(すなわち、ピッチ遅れ)を決定するために使用されるとともに、ピッチ予測器の3個のタップ重みを決定するため、ピッチ予測器係数ベクトル量子化器により使用される。ピッチ遅れは、例示として、7ビットに符号化され、3個のタップは、例示として、6ビットにベクトル量子化される。線形予測符号化予測器(1フレーム毎に符号化し伝送する)と異なり、ピッチ予測器は、サブフレーム毎に量子化され、符号化され、伝送される。したがって、各192標本フレームについて、図1に示された実施例中の副情報に対して総数44+4×(7+6)=96ビットが割当てられる。
【0020】
2個の予測器が量子化され符号化されると、各48標本サブフレームは、さらに、各4標本長さの12個の音声ベクトルに分割される。各4標本音声ベクトルについて、符号化器は、64個の可能励振ベクトルのそれぞれを図1に示された利得基準化器および2個の合成フィルタ(予測器長期合成フィルタ103および短期合成フィルタ104、それぞれ加算器を有する)に通す。結果として生じた64個の合成音声ベクトル候補から、および、聴覚重み付けフィルタ120の助けにより、符号化器は、入力信号ベクトルに関連して、周波数重み付き2乗平均誤差を最小にする合成音声ベクトルを識別する。最良合成音声ベクトル候補を生じる最良コードベクトルの6ビットコードブック指標が復号化器へ伝送される。ついで、最良コードベクトルは、次の信号ベクトルの符号化の準備において、正しいフィルタメモリを設定するため、利得基準化器および合成フィルタに通される。励振利得は、予め量子化され利得基準化された励振ベクトルに埋め込まれた利得情報に基づく後向き適応アルゴリズムにより、ベクトル毎に1回更新される。励振励振ベクトル量子化出力ビットストリームと副情報ビットストリームとは、5節で詳述されるように、図1に示された要素137内で一緒に多重化され、出力138(記憶媒体を介して直接または間接に)により、チヤネル/蓄積要素140により示された音声メッセージ送信符号化復号化器へ伝送される。
【0021】
2.音声メッセージ送信符号化復号化器の概要
符号化の階段と同様に、復号化もフレーム毎基準で行われる。音声メッセージ送信符号化復号化器は、入力150に音声メッセージ送信符号化されたビットからなる完全なフレームを受信または回復すると、まず、副情報ビットと励振ビットとを図1に示された分離化復号化要素155内で分離する。ついで、分離化復号化要素155は、反射係数を復号化し、線形補間することにより、各サブフレームについて補間された線形予測符号化予測器を得る。ついで、得られた予測器情報は、短期予測器175に供給される。ピッチ遅れ、および、ピッチ予測器の3個のタップも、各サブフレームについて復号化され長期予測器170に供給される。ついで、復号化器は、表探索を使用して励振コードブック160から、伝送された励振コードベクトルを抽出する。ついで、抽出された励振コードベクトル(順に配列された)は、図1に示された利得調整ユニット165と2個の合成フィレタ170および175とに通されることにより、リード180に復号化された音声標本を生じる。ついで、復号化された音声標本は、線形パルス符号変調書式からμ則パルス符号変調符号復号化器(CODEC)内でのD/A変換に適したμ則パルス符号変調書式に変換される。
【0022】
3.音声メッセージ送信符号化器の動作
図2は、音声メッセージ送信符号化器の詳細なブロック線図である。図2に示された符号化器は、論理的に、図1に示された符号化器と同等のものであるが、図2に示されたシステム構成は、幾つかの適用業務のための実施形態において、計算効率が高いことを示す。
【0023】
以下の詳細な説明において、
1. 記載される各変数について、kは、標本化指標であり、標本は、125μsの時間間隔で採られる。
2. 定められた信号内の4個の連続した標本からなる群は、信号のベクトルと呼ばれる。
3. nは、標本指標kと異なるベクトル指標を指すのに使用される。
4. fは、フレーム指標を指すのに使用される。
【0024】
音声メッセージ送信符号化器は、主として音声を符号化するのに使用されるので、以下の記載において、入力信号は、例えば、デュアルトーン多周波(DTMF)トーンを信号として伝送する通信に使用される多周波トーンのような非音声信号を含めて、音声である(非音声信号であることができるが)と仮定される。図2に示されたシステム内の種々の機能ブロックは、その機能が符号化プロセスにおいて行われる順序とほぼ同一の順序で以下記載される。
【0025】
3.1 入力パルス符号変調書式変換1
この入力ブロック1は、入力64kbit/s μ則パルス符号変調信号SO (k)を、当業者に周知の均一パルス符号変調信号SU (k)に変換する。
【0026】
3.2 フレーム緩衝記憶装置2
本ブロックは、sU (192f+1),sU (192f+2),sU (192f+3),…,sU (192f+264)(ただし、fは、フレーム指標)と名づけられた264個の連続した音声標本を含む緩衝装置である。フレーム緩衝装置内の最初の192個の音声標本は、現フレームと呼ばれる。フレーム緩衝装置内の後の72個の標本は、次フレームの最初の72個の標本(または、最初の1個と1/2サブフレーム)である。これら72個の標本は、線形予測符号化分析のために使用されるハミング窓が現フレームの中央に置かれていないが、現フレームの4番目のサブフレームの中央に置かれるのが有利なので、現フレームの符号化に必要である。これは、反射係数が現フレームの最初の3個のサブフレームのために線形補間されうるように、なされる。
【0027】
符号化器が一のフレームの符号化を完了し、次フレームの符号化の準備が整う毎に、フレーム緩衝装置は、緩衝装置内容を192個の標本(最古の標本は、装置外へ移動される)づつ移動し、ついで、空位置を次フレームの192個の新線形パルス符号変調音声標本によって充填する。例えば、符号化器の始動後の最初のフレームは、フレーム0(f=0)と指定される。フレーム緩衝装置2は、フレーム0を符号化する一方、sU (1),sU (2),…sU (264)を格納する。次フレームは、フレーム1と指定され、フレーム緩衝装置は、フレーム1を符号化する一方、sU (193),sU (194),…sU (456)を格納する。以下、同様。
【0028】
3.3 線形予測符号化予測器分析、量子化および補間3
本ブロックは、現フレームの反射係数を導出し、量子化し、符号化する。また、サブフレーム毎に1回、反射係数は、前フレームの反射係数により補間され、線形予測符号化予測器係数に変換される。符号化器初期化(リセット)に続く最初のフレームについての補間は、補間を行うための前フレームの反射係数が存在しないので、禁止される。線形予測符号化ブロック(図2中のブロック3)は、図4において展開されている。以下、図4を参照して、上記線形予測符号化ブロックを詳細に説明する。
【0029】
ハミング窓モジュール(図4中のブロック61)は、192ポイントのハミング窓をフレーム緩衝装置に蓄積された最後の192標本に適用する。換言すれば、ハミング窓の出力(すなわち、窓重み付き音声)は、ws(1),ws(2),…ws(192)と名付けられる。ついで、重み付き標本は、以下の等式(1)にしたがって、計算される。
【数1】
【0030】
自己相関算出モジュール(ブロック62)は、以下の等式(2)に基づいて自己相関係数R(0),R(1),R(2),…,R(10)を算出するために、上記窓重み付き音声標本を使用する。
【数2】
【0031】
後のレビンソン−ダービィン(Levinson−Durbin)再帰での潜在的に間違った条件付けを避けるために、R(0),R(1),R(2),…R(10)に基づくパワースペクトル密度のスペクトルダイナミックレンジが制御される。これを達成する容易な方法は、白色雑音訂正による方法である。原則として、少量の白色雑音は、自己相関係数を算出する前に、{ws(k)}順列に加えられる。これは、白色雑音でスペクトルの谷を満し、それによって、スペクトルダイナミックレンジを狭め、不適当な条件付けを軽減する。しかし、このような演算は実際には、僅かな%だけR(0)の値を増加することと数学的に等価である。白色雑音モジュール(ブロック63)は、係数WだけR(0)を僅かに増加することにより、上記機能を行う。
【数3】
【0032】
この演算は、符号化器内でのみ行われるので、音声メッセージ符号化器の種々の実施形態には、符号化器の実施形態の操作互換性に影響を与えることなく、種々の白色雑音係数を使用することができる。したがって、固定少数点実施形態は、例えば、より良い条件付けのため、より大きな白色雑音係数を使用してもよい。他方、浮動小数点実施形態は、白色雑音訂正から生じるスペクトル歪みを少なくするため、より小さい白色雑音係数を使用してもよい。32ビット浮動小数点実施形態のために提案される白色雑音係数値は、1+1/256である。この(1+1/256)の値は、平均音声パワーより低い24dBレベルで白色雑音を加えることに対応する。これは、多過ぎる白色雑音訂正は、線形予測符号化器合成フィルタ(線形予測符号化器スペクトルと呼ばれることもある)の周波数応答を顕著に歪め、そのため、符号化器性能は低下するので、最大の妥当の白色雑音係数値と考えられる。
【0033】
周知のレビンソン−ダービィン再帰モジュール(ブロック64)は、1次から10次まで、予測器係数を再帰的に算出する。i次予測器のj番目の係数をaj (i) とし、i番目の反射係数をki とする。これにより、再帰手順は、以下の式(4a)〜式(4e)の通りに特定されうる。
【数4】
【0034】
等式(4b)〜(4e)は、i=1,2,…,10に対して再帰的に値が決定され、最終解は、式(4f)で与えられる。
波記号付a0 =1と定義すると、10次予測器誤差フィルタ(逆フィルタと呼ばれることもある)は、上記の伝達関式(4g)を有する。
また、対応する10次線形予測器は、上記の伝達関式(4h)で定義される。
【0035】
帯域幅拡大モジュール(ブロック65)は、対応する線形予測符号化器合成フィルタの10個の極がγ=0.9941の一定の定数だけ原点の方へ径方向へ基準化されるように、量器化されていない線形予測符号化器予測器係式(数4(f)内の波記号付きai )を基準化する。これは、線形予測符号化器スペクトルのピークの帯域幅を約15Hzだけ拡大することに対応する。このような演算は、線形予測符号化器スペクトル内の極めて鋭いピークによって引起される符号化音声内の時たまの甲高い音を避けるのに有用である。帯域幅拡大演算は、以下の式(5)で定義される。
【数5】
【0036】
式(5)中、γ=0.9941である。次のステップは、帯域幅が拡大された線形予測符号化器予測器係数を量子化のため反射係数へ変換することである(ブロック66で行われる)。これは、標準再帰手順により行われ、10次から1次へ戻る。山記号付kmをm番目の反射係数とし、山記号付ai (m) をm次予測器のi番目の係数とする。再帰は、以下の様になる。m=10,9,8,…,1について、以下の2個の式(6a)および(6b)の数値を求める。
【数6】
【0037】
ついで、結果として生じた10個の反射係数は、反射係数量子化モジュール(ブロック67)により量子化され、44ビットに符号化される。ビット割当ては、第1から第10までの反射係数について、6,6,5,5,4,4,4,4,3,3ビットとなる(10個のスカラー量子化器を使用して)。10個のスカラー量子化器の各スカラー量子化器は、これと関連する予め算出され格納された2個の表を有する。第1表は、量子化器出力レベルを格納し、第2表は、隣合う量子化器出力レベル(すなわち、隣合う量子化器セル間の境界値)を格納する。10個の量子化器のそれぞれについて、2個の表は、アークサイン変換された反射係数を指図データとして使用する最適不均一量子化器をまず設計し、ついで、サイン関数を適用して、アークサイン定義域量子化器出力レベルとセル境界とを正規反射係数定義域に逆変換することにより、有利な方法で得られる。2個の反射係数量子化器データ群のそれぞれのための、例示としての、表は、表2および3に与えられている。
【0038】
表の使用は、各反射係数について通常のアークサイン変換計算と対照して理解されるはずである。したがって、目標とする値に対して最小値を有する量子化レベルを決定するため、反射係数が量子化器レベルと比較されるアークサイン変換定義域へ反射係数を変換することは、本発明の実施態様によれば回避される。同様に、サイン変換を使用して、選択された量子化レベルを反射係数定義域へ逆変換することも回避される。
【0039】
代りに、使用された量子化技術は、表2および3に現われたタイプの表(量子化器出力レベルと、隣合う量子化器レベル間の境界レベル(すなわち、しきい値)とを表わす)の創製を準備する。
【0040】
符号化期間中、10個の反射係数のそれぞれは、その個別の量子化器セル境界表の全要素と直接比較されることにより、量子化器セルへ写像される。最適セルが識別されると、セル指標は、出力レベル表内の対応する量子化器出力レベルを探索するのに使用される。また、量子化器セル境界表内の各項目との逐次比較よりも、量子化過程を加速するため2進樹探索を使用することができる。
【0041】
例えば、6ビット量子化器は、64個の表示レベルと63個の量子化器セル境界を有する。セル境界を逐次探索するよりも、反射係数が上半部に存在するか下半部に存在するかを決定するため、まず、32個の境界を比較することができる。反射係数が下半部に存在すると仮定すると、続いて、下半部の中間境界(16番目の境界)と比較し、6番目の比較が終了するまで、このユニットと同様に続行する。これにより、反射係数が存在するセルを告知するはずである。これは、逐次探索における63個の最悪の場合よりも相当速い。
【0042】
上述された量子化方法は、アークサイン量子化器と同一の最適性を達成するため、厳格に遂行されるべきである。一般的に、量子化器出力レベル表のみを使用し、より一般的な、距離算出および最小化方法を使用するときは、他の量子化器出力が得られるはずである。これは、量子化器セル境界内の項目が隣合う量子化器出力レベル間の中点でないためである。
【0043】
全10個の反射係数が量子化され、44ビットに符号化されると、結果として生じた44ビットは、44ビットが符号化されたピッチ予測器と励振情報とにより多重化される出力ビットストリームマルチプレクサに送給される。48個の音声標本からなる各サブフレーム(6ms)について、反射係数補間モジュール(ブロック68)は、現フレームの量子化された反射係数と前フレームの量子化された反射係数との間で線形補間を行う。反射係数は、4番目のサブフレームの中央に配置されたハミング窓を使用して得られるので、各フレームの最初の3個のサブフレームについて、反射係数を補間するだけでよい。バー記号付km と波記号付km とを前フレームと現フレームのm番目の量子化された反射係数とし、km (j)をj番目のサブフレームのための補間されたm番目の反射係数とする。このとき、km (j)は、以下の式(7)の通り算出される。
【数7】
【0044】
補間は、符号化器初期化(リセット)に続く最初のフレームについては禁止される。最終ステップは、各サブフレームについて補間された反射係数を対応する線形予測符号化器予測器係数に変換するため、ブロック69を使用することである。これも、公知の再帰手順により行われる。が、このとき、再帰は、1次から10次の方へ行われる。表記を簡単にするため、サブフレーム指標jを落し、m番目の反射係数をkm と名づける。また、ai (m) をm次線形予測符号化器予測器のi番目の係数とする。これにより、再帰は、以下の様になる。a0 (0) を1と定義したとき、m=1,2,…,10について、以下の等式に従うai (m) の数値を求める。
【数8】
【0045】
最終解は、式(9)で与えられる。
【数9】
【0046】
結果として生じたai は、現サブフレームについて、量子化され補間された線形予測符号化器予測器係数である。これらの係数は、ピッチ予測器分析量子化モジュール、聴覚重み付けフィルタ更新モジュール、線形予測符号化器合成フィルタおよびインパルス応答ベクトル計算器に送給される。
【0047】
量子化され補間された線形予測符号化器係数に基づいて、線形予測符号化器逆フィルタの伝達関数を以下の式(10)の通り定義しうる。
【数10】
【0048】
また、対応する線形予測符号化器は、以下の式(11)の伝達関数により定義される。
【数11】
【0049】
線形予測符号化器合成フィルタは、以下の式(12)で示された伝達関数を有する。
【数12】
【0050】
3.4 ピッチ分析量子化、4
図2にピッチ予測器分析量子化ブロック4は、ピッチ遅れを抽出し、これを7ビットに符号化する。ついで、ベクトルは、3個のピッチ予測器タップを量子化し6ビットに符号化する。このブロックの動作は、各サブフレームについて1回行われる。このブロック(図2中のブロック4)は、図5で詳細に説明されている。以下、図5中の各ブロックについて、詳しく説明する。
【0051】
現サブフレームの48個の入力音声標本(フレーム緩衝装置から出力された)は、まず、等式(10)で定義された線形予測符号化器逆フィルタ(ブロック72)に通される。これにより、48個の線形予測符号化器予測残差標本からなるサブフレームが生じる。
【数13】
【0052】
ついで、これら48個の残差標本は、線形予測符号化器予測残差緩衝装置73内のサブフレームを占有する。
【0053】
線形予測符号化器予測残差緩衝装置(ブロック73)は、169個の標本を格納する。最後の48個の標本は、上記のようにして得られた(量子化されていない)線形予測符号化器予測残差標本からなる現サブフレームである。しかし、最初の121個の標本d(−120),d(−119),…,d(0)は、図5中の1サブフレーム遅延ブロック71により表示されている通り、前サブフレームの量子化された線形予測符号化器予測残差標本により占有される(量子化された線形予測符号化器予測残差は、線形予測符号化器合成フィルタへの入力として定義される)。前サブフレームを占有するために量子化された線形予測符号化器残差を使用する理由は、この占有が符号化過程中にピッチ予測器が見るものであることである。したがって、量子化された線形予測符号化器残差を使用してピッチ遅れ、および、3個のピッチ予測器タップを生じることが意味あるものとなる。他方、量子化された線形予測符号化器残差は、現サブフレームについて今だ入手不能なので、容易に理解できるように、線形予測符号化器残差緩衝装置の現サブフレームを占有するために、上記量子化された線形予測符号化器残差を使用することができない。したがって、現サブフレームについて量子化されていない線形予測符号化器残差を使用しなければならない。
【0054】
この混合線形予測符号化器残差緩衝装置がロードされると、ピッチ遅れ抽出符号化モジュール(ブロック74)は、ピッチ予測器のピッチ遅れを決定するため、量子化されていない線形予測符号化器残差を使用する。妥当な性能を有する種々のピッチ抽出アルゴリズムが使用できるが、以下、有利なことが判明し、実施が複雑でない効率的なピッチ抽出アルゴリズムについて説明する。
【0055】
この効率的なピッチ抽出アルゴリズムは、以下の通り動作する。まず、線形予測符号化器残差の現サブフレームは、上記の式(13a)で表わされる形を有する3次楕円フィルタによって低域通過ろ波される(例えば、1kHzしゃ断周波数)。
【0056】
ついで、4対1で間引き標本化される(すなわち、係数4によりダウン標本化される)。これにより、バー記号付d(1),d(2),…,d(12)と名付けられた12個の低域通過ろ波され間引き標本化された線形予測符号化器残差標本が生じる。これらの線形予測符号化器残差標本は、間引き標本化された線形予測符号化器残差標本の現サブフレーム(12個の標本からなる)内に格納される。これら12個の標本の前に、緩衝装置内に間引き標本化された複数の線形予測符号化器残差標本からなる前サブフレームを移動させることにより得られる30個の標本、バー記号付d(−29),d(−28),…,d(0)が存在する。これにより、間引き標本化された線形予測符号化器残差標本のi番目の相互相関は、(20〜120個の標本から生じるピッチ遅れに対応する)時間遅れi=5,6,7,…,30に対して、以下の式(14)の通り算出される。
【数14】
【0057】
ついで、26個の算出相互相関値からなる最大値を与える遅れτが定義される。この遅れτは、間引き標本化された残差定義域内の遅れなので、初期未間引き標本化残差定義域内に最大相関を生じる対応する遅れは、4τ−3と4τ+3との間に存在するべきである。ついで、初期時間分解能を得るため、未間引き標本化線形予測符号化器残差が使用され、7個の遅れi=4τ−3,4τ−2,…4τ+3について未間引き標本化線形予測符号化器残差の相互相関を以下の式(15)の通り算出する。
【数15】
【0058】
7個の可能な遅れのうち、最大相互相関C(p)を生じる遅れpは、ピッチ予測器で使用される出力ピッチ遅れである。このようにして得られたピッチ遅れは、真基本ピッチ周期の倍数となり得るが、これは、ピッチ予測器がピッチ遅れとしてのピッチ周期の倍数を伴って好調に動作し続けるので、重要ではない。
【0059】
例示の具体例によれば、101個の可能なピッチ周期(20〜120個)しか存在しないので、このピッチ遅れを歪みなしに符号化するのに7ビットで十分である。7個のピッチ遅れ符号化ビットは、サブフレーム毎に1回、出力ビットストリームマルチプレクサに送給される。
【0060】
ピッチ遅れ(20〜120)は、ピッチ予測器タップベクトル量子化モジュール(ブロック75)に送給される。このモジュールは、3個のピッチ予測器タップを量子化し、64項目を含む励振ベクトル量子化コードブックを使用して、6ビットに符号化される。励振ベクトル量子化コードブック探索の歪み基準は、3個のタップ自体のより完全な2乗平均誤差よりも開ループピッチ予測残差のエネルギである。残差エネルギ基準は、係数の2乗平均誤差(MSE)基準よりも優れたピッチ予測利得を与える。しかし、高速探索法が使用されなければ、残差エネルギ基準は、正常な場合、励振ベクトル量子化コードブック探索よりも、はるかに複雑となる。以下、音声メッセージ符号化器で使用される高速探索法の原理について説明する。
【0061】
b1 ,b2 およびb3 を3個のピッチ予測器タップとし、pを上記の方法で決定されたピッチ遅れとする。これにより、3タップピッチ予測器は、以下の式(16)で表わされる伝達関数を有する。
【数16】
【0062】
開ループチップ予測残差のエネルギは、以下の式(17)で表わされる。
【数17】
【0063】
Dは、以下の式(21)のように表現することができる。
【数18】
【0064】
(肩字Tは、ベクトルまたは行列式の転置行列を示す)したがって、Dを最小化することは、CT y(すなわち、2個の9次元ベクトルの内積)を最大化することと同等である。6ビットコードブック内の64個のピッチ予測器タップ集合候補のそれぞれについて、これと関連する9次元ベクトルyが存在する。64個の有りうる9次元yベクトルを予め算出し格納することができる。これにより、ピッチ予測器タップのためのコードブック探索において、まず、9次元ベクトルCが算出される。ついで、64個の格納yベクトルについて64個の内積が算出され、最大内積を有するyベクトルが識別される。ついで、yベクトルの最初の3個の元に0.5を乗じることにより、量子化された3個の予測器タップが得られる。このコードベクトルyの6ビット指標は、サブフレーム毎に1回、出力ビットストリームマルチプレクサに送給される。
【0065】
3.5 聴覚重み付けフィルタ係数更新モジュール
図2中の聴覚重み付け行進ブロック5は、以下の3個の等式(24)〜(26)に従って、サブフレーム毎に1回、聴覚重み付けフィルタ係数を算出し更新する。
【数19】
【0066】
式(25)および(26)中、ai は、量子化され補間された線形予測符号化器予測器係数である。聴覚重み付けフィルタは、例示として、等式(24)中の伝達関数W(z)で定義された10次の極零フィルタである。分器分母多項式の係数は、等式(25)および式(26)に定義されているように、線形予測符号化器予測器係数について帯域幅拡大を行うことにより得られる。γ1 およびγ2 の代表的値は、それぞれ、0.9および0.4である。算出された係数は、3個の聴覚重み付けフィルタ(ブロック6,10および24)およびインパルス応答ベクトル計算器(ブロック12)に送給される。
【0067】
線形予測符号化器、ピッチ予測器および聴覚重み付けフィルタのフレーム毎更新またはサブフレーム毎更新までは、全て説明した。次のステップで、各サブフレーム内の12個の4次元励振ベクトルのベクトル毎符号化を説明する。
【0068】
3.6 聴覚重み付けフィルタ
同一係数を有するが他と異なるフィルタメモリを備えた図2中の3個の聴覚重み付けフィルタ(ブロック6,10および24)が存在する。まず、ブロック6について説明する。図2によれば、現入力音声ベクトルs(n)は、聴覚重み付けフィルタ(ブロック6)に通され、重み付き音声ベクトルv(n)となる。聴覚重み付けフィルタの係数は、時間的に変動するので、直接形IIデジタルフィルタ構成は、もはや、直接Ιデジタルフィルタ構成と等価ではない。したがって、入力音声ベクトルs(n)は、まず、聴覚重み付けフィルタの有限長インパルス応答(IIR)部によってろ波されるべきである。また、初期化(リセット)時を除いて、ブロック6のフィルタメモリ(すなわち、内部状態変数、または、フィルタの遅延ユニット内に保持された値)は、いずれの時にも0にリセットされるべきでない。他方、他の2個の聴覚重み付けフィルタ(ブロック10および24)のメモリは、後述する特殊な取扱いを必要とする。
【0069】
3.7 ピッチ合成フィルタ
図2には、同一の係数を有し他と異なるフィルタメモリを備えた2個のピッチ合成フィルタ(ブロック8および22)が示されている。これらは、帰還分岐内に3タップピッチ予測器を備えた帰還ループからなる、可変次数全極フィルタである。このフィルタの伝達関数は、以下の式(27)で表わされる。
【数20】
【0070】
式(27)中、P1 (Z)は、等式(16)で定義された3タップピッチ予測器の伝達関数である。ろ波およびフィルタメモリ更新は、後述する特殊な取扱いを必要とする。
【0071】
3.8 線形予測符号化器合成フィルタ
図2に示されているように、同一係数を有し他と異なるフィルタメモリを備えた2個の線形予測符号化器合成フィルタ(ブロック9および23)が設けられている。これらの線形予測符号化器合成フィルタは、帰還分岐(図1参照)内に10次線形予測符号化器を備えた帰還ループからなる10次全極フィルタである。これらのフィルタの伝達関数は、以下の式(28)により定義される。
【数21】
【0072】
式(28)中、P2 (Z)およびA(Z)は、それぞれ、等式(10)および(11)で定義された線形予測符号化器および線形予測符号化器逆フィルタの伝達関数である。ろ波およびフィルタメモリ更新は、以下に述べる特殊な取扱いを必要とする。
【0073】
3.9 零入力応答ベクトル算出
計算効率の高い励起励振ベクトル量子化コードブック探索を行うために、重み付け合成フィルタ(ピッチ合成フィルタ、線形予測符号化器合成フィルタおよび聴覚重み付けフィルタからなる縦続フィルタ)の出力ベクトルを2個の成分(すなわち、零入力応答(ZIR)ベクトルと零状態応答(ZSR)ベクトル)に分解することが必要である。零入力応答ベクトルは、ブロック8(非零フィルタメモリを有しない)の入力端に零信号が入力される下方一のフィルタ分岐(ブロック8、9,および10)により算出される。零状態応答ベクトルは、零フィルタ状態(フィルタメモリ)を有し、励振がブロック22の入力端に入力された量子化され利得基準化される上方位置のフィルタ分岐(ブロック22,23および24)により算出される。2個のフィルタ分岐間の3個のフィルタメモリ制御ユニットは、そこで、上方位置(零状態応答)分岐のフィルタメモリを0にリセットし、下方位置(零入力応答)分岐のフィルタメモリを更新する。零入力応答ベクトルおよび零状態応答ベクトルの輪は、上方位置フィルタ分岐がフィルタメモリリセット端子を有しないときは、上方位置フィルタ分岐の出力ベクトルと同一となる。
【0074】
符号化過程において、零入力応答ベクトルがまず算出され、ついで、励振ベクトル量子化コードブック探索が行われ、ついで、零状態応答ベクトル算出とフィルタメモリ更新とが行われる。この順序で、上記タスクを説明するのが自然の手順である。したがって、本節では、零入力応答ベクトル算出のみを説明し、零状態応答ベクトル算出およびフィルタメモリ更新の説明は、以下の節に延期する。
【0075】
現零入力応答ベクトルr(n)を算出するため、ノード7において零入力信号を入力する。また、零入力応答分岐内の3個のフィルタ(ブロック8,9および10)をして、いずれの標本についても、前ベクトルについてなされたメモリ更新の後のフィルタメモリが残されている4標本(1個のベクトル)についてリングを形成させる。これは、零信号がノード7において入力された4標本についてのろ波を継続することを意味する。結果として生じたブロック10の出力は、所望の零入力応答ベクトルr(n)である。
【0076】
フィルタ9および10のメモリは、一般的非零である(初期化後を除いて)。したがって、ノード7からのフィルタ入力が0であっても、出力ベクトルr(n)も、一般的に、非零である。見掛け上、このベクトルr(n)は、利得基準化された前励振ベクトルe(n−1),e(n−2),….に対する3個のフィルタの応答である。このベクトルは、時刻(n−1)までのフィルタメモリと関連する非強制的応答を表わす。
【0077】
3.10 励振ベクトル量子化目標ベクトル算出11
本ブロックは、励振ベクトル量子化コードブック探索目標ベクトルx(n)を得るため、重み付き音声ベクトルv(n)から零入力応答ベクトルr(n)を減算する。
【0078】
後向き利得アダプタ20は、全ベクトル時間指標nについて、励振利得σ(n)を更新する。励振利得σ(n)は、選択された励振ベクトルy(n)を基準化するために使用される基準化係数である。本ブロックは、選択された励振コードブック指標を入力とみなし、出力として励振利得σ(n)を生じる。本機能ブロックは、対数利得定義域内で適応1次線形予測を使用することにより、利得e(n−1)に基づいて利得e(n)を予測しようとする。明細書中、ベクトルの利得は、ベクトルの2乗平均平方根値(RMS)として定義され、対数利得は、2乗平均平方根値のdBレベルである。後向きベクトル利得アダプタ20の詳細は、図6に示されている。
【0079】
図6を参照すれば判るように、j(n)は、時刻nについて選択された勝利の5ビット励振形状コードブック指標を示すとする。この場合、1ベクトル遅延ユニット81は、前励振ベクトルy(n−1)の指標であるj(n−1)を利用できるものとする。この指標j(n−1)により、励振形状コードブック対数利得表(ブロック82)は、y(n−1)の2乗平均平方根値のdB値を探索するのに表探索を行う。この表は、便宜上、まず、32個の形状コードベクトルのそれぞれの2乗平均平方根値を算出することにより得られる。ついで、底が10の対数をとり、その結果に20を乗ずる。
【0080】
σe (n−1)およびσy (n−1)をそれぞれe(n−1)およびy(n−1)の2乗平均平方根値とする。また、これらσe (n−1)およびσy (n−1)のdB値を以下の式(29)および式(30)で表わすものとする。
【0081】
【数22】
【0082】
また、以下の式(31)で表わされるように定義する。
【数23】
【0083】
定義により、利得基準化された励振ベクトル(n−1)は、以下の式(32)で与えられる。
【数24】
【0084】
したがって、以下の式(33)または式(34)が得られる。
【数25】
【0085】
したがって、e(n−1)の2乗平均平方根のdB値(または、対数利得)は、前対数利得g(n−1)および前励振コードベクトルy(n−1)の対数利得gy (n−1)の和である。
【0086】
形状コードベクトル対数利得表82は、gy (n−1)を発生させ、1ベクトル遅延ユニット83は、前対数利得g(n−1)を利用可能とする。ついで、加算器84は、2個の期間を加算してge (n−1)、すなわち、前利得基準化励振ベクトルe(n−1)の対数利得を得る。
【0087】
図6によれば、32dBの対数利得オフセット値は、対数利得オフセット値保持器85に格納されている。この値は、入力音声がμ則符号化されており、飽和値より小さい−22dBのレベルを有すると仮定すると、発声された音声の期間中のdB単位の平均励振利得レベルとほぼ等しいことを意味する。加算器86は、上記32dB対数オフセット値を減算する。ついで、結果として生じたオフセット除去対数利得δ(n−1)は、対数線形予測器91に送給される。オフセット除去対数利得δ(n−1)は、再帰形窓付けモジュール87にも送給され、対数利得線形予測器91の係数を更新する。
【0088】
再帰形窓付けモジュール87は、標本毎に動作する。再帰形窓付けモジュール87は、一連の遅延ユニットを経てδ(n−1)を供給し、i=0,1について、積δ(n−1)δ(n−1−i)を算出する。ついで、結果として生じた複数の積項は、2個の固定係数フィルタ(各項について1個のフィルタ)に供給され、i番目のフィルタの出力は、i番目の自己相関係数Rg (i)である。上記2個の固定係数フィルタは、その出力として、自己相関係数を算出するので、再帰形自己相関フィルタと呼ぶ。
【0089】
これら2個の再帰形自己相関フィルタのそれぞれは、3個の縦続接続された1次フィルタからなる。最初の2段は、以下の数式で表わされる伝達関数を有する同一の全極フィルタである。
1/[1ーα2zー1]、ただし、α=0.94
【0090】
また、第3段は、下記数式で表わされる伝達関数を有する極零フィルタである。[B(0,1)+B(1,1)zー1]/[1ーα2zー1]
ただし、
B(0,i)=(i+1)αi
B(1,i)=ー(iー1)αi+2
【0091】
Mij(k)を時刻tにおけるi番目の再帰形自己相関フィルタのj番目の1次部のフィルタ状態変式(メモリ)とする。また、ar =α2 を全極部の係数とする。2個の再帰形自己相関フィルタの全状態変数は、符号化器始動(リセット)において0に初期化される。再帰形窓付けモジュールは、以下の式(35a)〜(35d)に示す再帰に従って、i番目の自己相関係数R(i)を算出する。
【数26】
【0092】
初期化に続く最初のサブフレームを除いて、サブフレーム毎に1回、利得予測器係数が更新される。最初のサブフレームについて、予測器係数の初期値(1)が使用される。各サブフレームは、12個のベクトルを含むので、サブフレーム内の最初値を処理するとき(自己関連係数が必要とされるとき)を除いて、2個のフィルタの全零部と関連する2個の乗加算を行わないことにより、計算を節約することができる。換言すれば、等式(35d)は、12個の音声ベクトル毎に1回、値が求められる。しかし、等式(35a)〜(35c)を使用して、各音声ベクトルの3個の全極部のフィルタメモリを更新する必要は、ない。
【0093】
2個の自己相関係数Rg(i),i=0,1が算出されると、図6中のブロック88,89および90を使用して、1次対数利得予測器係数が算出され、量子化される。音声メッセージ符号化器の実時間実施形態によれば、後述する単一の動作により、3個のブロック88,89および90が実行される。これら3個のブロックは、それぞれ、図6に示されており、理解を容易とするため、以下、それぞれ検討される。
【0094】
対数利得係数を算出する前に、対数利得予測器係数計算器(ブロック88)は、まず、(1+1/256)の白色雑音係数をRg (0)に適用する。すなわち、以下の式(36)によって表わされる。
【数27】
【0095】
浮動小数点実施形態でさえも、操作互換性、(インタオペラビリティ)を確保するために257/256の白色雑音相関係数を使用する必要がある。これにより、1次対数予測器係数は、以下の式(37)の通り算出される。
【数28】
【0096】
ついで、帯域幅拡大モジュール89は、以下の式(38)の値を求める。
【数29】
【0097】
帯域幅拡大は、後向きベクトル利得アダプタ(図2中のブロック20)がチャネル誤りに対する符号化器堅牢性を増強するのに重要なステップである。乗数値0.9は、単なる例示である。他の具体例においては、他の値が有用であった。
【0098】
ついで、対数利得予測器係数量子化モジュール90は、代表的な場合として、標準的な方法で対数利得予測量子化器レベル表を使用して、波記号付α1 を量子化する。量子化は、符号化および伝送が第1目的でなく、むしろ、符号化器と復号化器との間の利得予測器の誤追跡が起きる確率を減らし、デジタル信号プロセッサの実施形態を簡単にするのが目的である。
【0099】
ブロック88,89および90の機能を上述したので、以下、一の動作において、これらのブロックを具体化する具体化手続について説明する。代表的デジタル信号プロセッサ内での除算の具体化は、乗算よりも、多くの命令サイクルを必要とするので、等式(37)に明記された除算は、最良の方法で回避される。これは、等式(36)〜(38)を組合わせることによりなされ、以下の等式(39)を得る。
【数30】
【0100】
Bi を対数利得予測器係数量子化器のi番目の量子化器セル境界(すなわち、決定しきい値)とする。波記号付α1 (数39の左の記号を表す)の量子化は、標準的な場合、いずれの波記号付量子化器セルα1 が内在するかを決定するため、波記号付α1 を複数のBi と比較することにより行われる。しかし、波記号付α1 とBi との比較は、Rg (1)を1.115Bi Rg (0)と直接比較することと同等である。したがって、ブロック88,89および90の機能を一の動作で行うことができ、等式(37)中の除算は、回避される。この手順により、効率は、(基準化された)係数量子化器セル境界表として、Bi よりも1.115Bi を格納することにより、最良の方法で達成される。
【0101】
波記号付α1 の量子化版(α1 と名付けられる)は、各サブフレームについて1回、対数利得線形予測器91の係数を更新する。また、この係数更新は、全てのサブフレームの最初の音声ベクトルについて生じる。更新は、符号化器初期化(リセット)後の最初のサブフレームの間、禁止されされる。1次対数利得線形予測器91は、δ(n−1)に基づいてδ(n)を予測しようとする。δ(n)の予測版(山記号付δ(n)と名付けられる)は、以下の式(40)で与えられる。
【数31】
【0102】
山記号付δ(n)が対数利得線形予測器91によって生成された後、ブロック85内に格納された32dBの対数オフセット値が加算される。ついで、対数利得リミッタは、生じた対数利得値を検査し、この値が不合理なほど大きいか小さいときは、この値の切落しを行う。切落しの下限および上限は、それぞれ、0dBおよび60dBに設定される。利得リミッタは、線形定義域内の利得が1〜1000であるのを保証する。
【0103】
対数線形出力は、現対数利得g(n)である。この対数利得値は、遅延ユニット83に供給される。ついで、逆対数計算器94は、以下の等式(40a)を使用して、対数利得g(n)を線形利得σ(n)に逆変換する。
σ(n)=10g(n)/20
【0104】
3.12 励振コードブック探索モジュール
図2に示されているように、ブロック12〜ブロック18は、共動してコードブック探索モジュール100を形成する。このモジュールは、励振ベクトル量子化ベクトルコードブック(ブロック19)内の64個のコードベクトル候補を探索し、聴覚重み付き2乗平均誤差距離に関連して入力音声ベクトルに最も近い量子化音声ベクトルを生成するコードベクトルの指標を識別する。
【0105】
励振コードブックは、64個の4次元コードベクトルを格納する。6個のコードブック指標ビットは、1個の符号ビットと5個の形状ビットとからなる。換言すれば、32個の線形独立形状コードベクトルを格納する5ビット形状コードブックと、正負符号ビットが0か1かによって、+1か−1の正負符号乗数が存在する。この正負符号ビットは、コードブック探索の複雑さを倍加することなく、コードブックサイズを効果的に倍加する。正負符号ビットは、6ビットコードブックを4次元ベクトル空間の原点に対して対称とする。したがって、6ビット励振コードブック内の各コードベクトルは、コードブック内の一のコードベクトルでもある原点に対して鏡像を有する。5ビット形状コードブックは、例えば、指図過程において記録音声資料を使用する指図形コードブックであるのが効果的である。
【0106】
コードブック探索手順を詳細に説明する前に、まず、有利なコードブック探索法の一般的面を簡単に説明する。
【0107】
3.12.1 励振コードブック探索の概要
原則として、コードブック探索モジュールは、現励振利得σ(n)によって64個の候補コードベクトルのそれぞれを基準化し、ついで、結果として生じた64個のベクトルを一時に1個づつピッチ合成フィルタF1 (z)、LPC合成フィルタF2 (z)および聴覚重み付けフィルタW(z)からなる縦続フィルタに通す。フィルタメモリは、コードブック探索モジュールが縦続フィルタ(伝達関数H(z)=F1 (z)F2 (z)W(z))に新しいコードベクトルを供給する毎に、0にリセットされる。
【0108】
励振ベクトル量子化コードベクトルのこのタイプの零状態ろ波は、行列ベクトル乗算との関係で表現されうる。yj を5ビット形状コードブック内のj番目のコードベクトルとし、gi を1ビット正負符号乗数コードブック(g0 =+1およびg1 =−1)内のi番目の正負符号乗数とする。{h(k)}は、縦続フィルタH(z)のインパルス応答順列を示すとする。この場合、コードブック指標iおよびjで特定されたコードベクトルが縦続フィルタH(z)に供給されたときは、フィルタ出力は、以下の式(41)および(42)のように表現することができる。
【数32】
【0109】
コードブック探索モジュールは、以下の式(43)で表わされるように、以下の2乗平均誤差(MSE)歪みを最小にする指標iおよびjの最良の組合わせを探索する。
【数33】
【0110】
式(43)中、山記号付x(n)=x(n)/σ(n)は、利得正規化されたベクトル量子化目標ベクトルであり、記号式‖x‖は、ベクトルxのユークリッドノルムを意味する。項を展開すると式(44)が得られる。
【数34】
【0111】
gi 2 =1並びに‖山記号付x(n)‖2 およびσ2 (n)の値は、コードブック探索中一定なので、Dを最小とすることは、以下の式(45)で表わされる最小化と同等である。
【数35】
【0112】
Ej は、実際には、j番目のろ波された形状コードベクトルのエネルギであって、励振ベクトル量子化目標ベクトル、波記号付x(n)に依存しない。また、形状コードベクトルyj は一定であり、行列Hは、縦続フィルタH(z)(各サブフレームについて一定である)のみに依存する。したがって、Ej も各サブフレームについて一定である。この観察に基づいて全フィルタが各サブフレームの始めに更新されたときは、32個のエネルギ項Ej ,j=0,1,2,…,31(32個の形状コードベクトルに対応する)を算出し格納することができる。ついで、サブフレーム内の12個の励振ベクトルのコードブック探索のため、これらのエネルギ項を使用することができる。エネルギ項Ej を予め算出することによりコードブック探索の複雑さを軽減する。
【0113】
与えられた形状コードブック指標jについて、等式(45)で定義された歪み項は、正負符号項gi が内積項pT (n)yj と同一正負符号を有するように選択されたとき、最小となる。したがって、各形状コードブック探索のための最良正負符号ビットは、内積pT (n)yj の正負符号により決定される。したがって、コードブック探索において、j=0,1,2,…,31について等式(45)の数値を求め、形状指標j(n)と山記号付Dを最小とする、対応する正負指標i(n)を選択する。最良指標iとjとが識別されると、これらの指標は、連結され、コードブック探索モジュールの出力(単一の6ビット励振コードブック指標)を形成する。
【0114】
3.12.2 励振コードブック探索モジュールの動作
コードブック探索の原理について上述したので、以下、コードブックモジュール100の動作について説明する。図2を参照のこと。LPC合成フィルタと聴覚重み付けフィルタの係数が各サブフレームの始めにおいて更新される毎に、インパルス応答ベクトル計算器12は、縦続フィルタF2 (z)W(z)のインパルスの最初の4個の標本を計算する。ただし、ピッチ合成フィルタのピッチ遅れは、少なくとも20標本となり、そのため、F1 (z)は、20番目の標本の前ではH(z)のインパルス応答に影響を及ぼすことができないので、ここでは、省略される。インパルス応答ベクトルを算出するため、まず、縦続フィルタF2 (z)W(z)のメモリは、0に設定され、ついで、縦続フィルタは、入力列{1,0,0,0}により励振される。縦続フィルタの対応する4個の出力標本は、h(0),h(1),…,h(3)となり、所望のインパルス応答ベクトルを構成する。インパルス応答ベクトルは、サブフレーム毎に1回、算出される。
【0115】
ついで、形状コードベクトル繰込みモジュール13は、32個のベクトルHyj (ただし、j=0,1,2,…,31)を算出する。換言すれば、モジュール13は、各形状コードベクトルyj (ただし、j=0,1,2,…,31)にインパルス応答順列h(0),h(1),…,h(3)を繰込む。繰込みは、最初の4個の標本についてのみ行われる。ついで、結果として生じた32個のベクトルのエネルギは、等式(47)に従って、エネルギ表計算器14により算出され格納される。ベクトルのエネルギは、ベクトルの全ての元の2乗の合計として定義される。
【0116】
ブロック12,13および14内の計算は、サブフレーム毎に1回のみ行われる。他方、コードブック探索モジュール100内の他のブロックは、各4次元音声ベクトルについて計算を行う。
【0117】
励振ベクトル量子化目標ベクトル正規化モジュール15は、利得正規化された励振ベクトル量子化目標ベクトル山記号付x(n)=x(n)/σ(n)を計算する。デジタル信号プロセッサの具体化においては、まず、1/σ(n)を算出し、ついで、x(n)の各元に1/σ(n)を乗じるのが、より効率的である。
【0118】
ついで、時間反転繰込みモジュール16は、ベクトルp(n)=2HT ・山記号付x(n)を算出する。この演算は、まず、山記号付x(n)の全ての元の順序を逆転し、ついで、生じたベクトルにインパルス応答ベクトルを繰込み、ついで、再び、出力の元の順序を逆転することと同等である(これにより、時間反転繰込みと名付けられる)。
【0119】
Ej 表が予め算出され格納され、ベクトルp(n)が算出されると、誤差計算器17およびコードブック指標選択器18は、共動して、以下の効率的なコードブック探索アルゴリズムを実行する。
【0120】
1. 山記号付Dminを、音声メッセージ送信符号化器を具体化した目標機械によって表わされうる最大数に初期化する。
2. 形状コードブック指標j=0を設定する。
3. 内積Pj =pT (n)yj を算出する。
4. Pj <0のときは、ステップ6に進む。その他の場合は、山記号付D=−Pj +Ej を算出し、ステップ5へ進む。
5. 山記号付D≧山記号付Dminのときは、ステップ8に進む。その他の場合は、山記号付Dmin=山記号付D,i(n)=0,およびj(n)=jと設定する。
6. 山記号付D=Pj +Ej を算出し、ステップ7へ進む。
7. 山記号付D≧山記号付Dminのときは、ステップ8に進む。その他の場合は、山記号付Dmin=山記号付D,i(n)=1,およびj(n)=jと設定する。
8. j<31のときは、j=j+1と設定し、ステップ3へ進む。その他の場合は、ステップ9へ進む。
9. 最適形状指標i(n)と最適利得指標j(n)とを結合し、結果として生じた出力を出力ビットストリームマルチプレクサに送給する。
【0121】
3.13 零状態応答ベクトル計算とフィルタメモリ更新
現ベクトルについて励振コードベクトル探索がなされた後、選択されたコードベクトルは、零状態応答ベクトル(図2中のブロック8,9および10内のフィルタメモリを更新するのに使用される)を得るのに使用される。
【0122】
まず、以下の式(48)で表わされる、対応する量子化された励振コードベクトルを抽出するため、励振ベクトル量子化コードベクトル(ブロック19)に供給される。
【数36】
【0123】
ついで、利得基準化ユニット(ブロック21)は、上記量子化された励振コードベクトルを現励振利得σ(n)によって基準化する。結果として生じた量子化利得基準化励振ベクトルは、e(n)=σ(n)y(n)(等式(32))として算出される。零状態応答ベクトルを算出するため、3個のフィルタメモリ制御ユニット(ブロック25,26および27)は、まず、ブロック22,23および24内のフィルタメモリを0にリセットする。ついで、縦続フィルタ(ブロック22,23および24)が量子化利得基準化励振ベクトルe(n)をろ波するため使用される。e(n)は、4標本だけの長さであり、フィルタは、零メモリを有するので、ブロック22のろ波動作のみがそのフィルタメモリ内へe(n)の元の移動を含む。また、フィルタ23および24の乗加算の数は、それぞれ、4標本期間において0〜3回となる。これは、フィルタメモリが0でないとすれば、必要となるはずの標本毎に30回の乗加算という複雑さと比較して、かなり簡単である。
【0124】
フィルタ22,23および24によるe(n)のろ波は、これら3個のフィルタのそれぞれのフィルタメモリの最初に4個の非零元を生成する。ついで、フィルタメモリ制御ユニット(ブロック25)は、ブロック22の最初の4個の非零フィルタメモリ元を受入れ、これらの元を1個づつブロック8の対応する4個のフィルタメモリ元に加える。この点で、ブロック8,9および10のフィルタメモリは、零入力応答ベクトルr(n)を生じるため以前に行われたろ波動作の後まで残されたものである。同様に、フィルタメモリ制御ユニット(ブロック26)は、ブロック23の最初の4個の非零フィルタメモリ元を受入れ、これらの元をブロック9の対応するフィルタメモリ元に加える。また、フィルタメモリ制御ユニット3(ブロック27)は、ブロック24の最初の4個の非零フィルタメモリ元を受入れ、これらの元をブロック10の対応するフィルタメモリ元に加える。これにより、効果として、零状態応答がフィルタ8,9および10の零入力応答に加えられ、フィルタメモリ更新動作が完了する。フィルタ8,9および10内に結果として生じたフィルタメモリは、次の音声ベクトル符号化時に零入力応答ベクトルを算出するのに使用される。
【0125】
フィルタメモリ更新後は、線形予測符号化器合成フィルタ(ブロック9)のメモリの最初の4個の元は、復号化器出力(量子化された)音声ベクトルsq (n)の元と正確に同一である。したがって、符号化器内で、フィルタメモリ更新動作の副産物として、量子化された音声が得られる。
【0126】
これにより、ベクトル毎符号化過程の最後のステップが完了する。ついで、符号化器は、フレーム緩衝装置から次の音声ベクトルs(n+1)を受入れ、これを同一の方法で符号化する。これにより、ベクトル毎符号化過程は、現フレーム内の全48個の音声ベクトルが符号化されるまで、繰返される。ついで、符号化器は、後続のフレームの期間中、全フレーム毎符号化過程を繰返す。
【0127】
3.14 出力ビットストリームマルチプレクサ
各192標本フレームの期間中、出力ビットストリームマルチプレクサブロック28は、5節でより完全に記載されるように、44個の反射係数符号化ビット、(13×4)個のピッチ予測器符号化ビットおよび(4×48)個の励振符号化ビットを特別フレーム書式に多重化する。
【0128】
4.音声メッセージ送信符号化復号化器の動作
図3は、音声メッセージ送信符号化復号化器の詳細なブロック線図である。各ブロックの機能に関する説明は、以下の分節において与えられる。
【0129】
4.1 入力ビットストリームデマルチプレクサ41
本ブロックは、入力40に現われた入力ビットストリームを緩衝し、ビットフレーム境界を見出し、符号化された3種のデータ(すなわち、反射係数、ピッチ予測器パラメタ、および、5節に記載されたビットフレーム書式に従う励振ベクトル)を分離する。
【0130】
4.2 反射係数復号化器42
本ブロックは、入力ビットストリームデマルチプレクサから44個の反射係数符号化ビットを受入れ、10個の反射係数について、10個のビット群に分離し、ついで、量子化反射係数を得るため、表2に示されたタイプの反射係数量子化器出力レベル表を使用して、表探索を実行する。
【0131】
4.3 反射係数補間モジュール43
このブロックは、節3.3において説明されている(等式(7)参照)。
【0132】
4.4 線形予測符号化予測器係数変換モジュール44
本ブロックの機能は、節3.3に記載されている(等式(8)および(9)参照)。結果として生じた線形予測符号化予測器係数は、2個の線形予測符号化合成フィルタ(ブロック50および52)に送給され、サブフレーム毎に1回、これらフィルタの係数を更新する。
【0133】
4.5 ピッチ予測器復号化器45
本ブロックは、入力ビットストリームデマルチプレクサから13個のピッチ予測器符号化ビットからなる4個の集合(各フレームの4個のサブフレームについて)を受入れる。ついで、本ブロックは、各サブフレームについて、7個のピッチ遅れ符号化ビットと6個のピッチ予測器タップ符号化ビットに分離し、各サブフレームについて、ピッチ遅れを算出し、3個のピッチ予測器タップを復号化する。3個のピッチ予測器タップは、ピッチ予測器タップ励振ベクトル量子化コードブック表での番地において対応する9次元コードベクトルの最初の3個の元を抽出するため、上記の番地として6個のピッチ予測器タップ符号化ビットを使用して復号化され、ついで、一の実施例によれば、上記3個の元に0.5を乗じる。復号化ピッチ遅れと復号化ピッチ予測器タップとは、2個のピッチ合成フィルタ(ブロック49および51)に送給される。
【0134】
4.6 後向きベクトル利得アダプタ46
本ブロックは、節3.11に記載されている。
【0135】
4.7 励振ベクトル量子化コードブック47
本ブロックは、音声メッセージ送信符号化器内のコードブック19と同一の励振ベクトル量子化コードブック(形状コードブックおよび正負符号乗数コードブックを含む)を格納する。現フレーム内の48個のベクトルのそれぞれについて、本ブロックは、入力ビットストリームデマルチプレクサ41から、対応する6ビット励振コードブック指標を得て、この6ビット励振コードブック指標を使用して、表検索を行うことにより、音声メッセージ送信符号化器内で選択された励振コードベクトルy(n)を抽出する。
【0136】
4.8 利得基準化ユニット48
本ブロックの機能は、3.13節において記載されたブロック21と同一のものである。本ブロックは、e(n)=σ(n)y(n)として利得基準化励振ベクトルを算出する。
【0137】
4.9 ピッチ合成フィルタおよび線形予測符号化合成フィルタ
ピッチ合成フィルタ49および51と線形予測符号化合成フィルタ50および52とは、音声メッセージ送信符号化器内の相補物と同一の伝達関数を有する(無誤り伝送と仮定して)。上記フィルタ49,50,51,52は、利得基準化励振ベクトルe(n)をろ波することにより、復号化音声ベクトルsd(n)を生成する。切捨て数値誤差が重要でないときは、理論的に言えば、e(n)を、ピッチ合成フィルタと線形予測符号化合成フィルタとからなる簡単な縦続フィルタに通すことにより、復号化された音声ベクトルを生成することができる。数学的に同等であるが算術的に他と異なる方法で復号化器ろ波動作を実行すれば、有限精度効果のため、復号化された音声が摂動されることになる虞がある。復号化時の切捨て誤差の累積を回避するため、復号化器がsq(n)を得るため符号化器内で使用される手続を正確に繰返すことが強く勧められる。換言すれば、復号化器も、符号化器内で行われたように、零入力応答と零状態応答の和としてsd(n)を算出すべきである。
【0138】
これは、図3中の復号化器に示されている。図3に示されているように、ブロック49〜54は、符号化器内のブロック8,9,22,23,25および26の正確なコピーであることが有利である。これらのブロックの機能は、3節に記載されている。
【0139】
4.10 出力パルス符号変調書式変換
本ブロックは、復号化音声ベクトルsd(n)の4個の元を、対応する4個のμ則パルス符号変調標本に変換し、これら4個のμ則パルス符号変調標本を125μs時間間隔で逐次出力する。これにより、復号化過程が完了する。
【0140】
5.圧縮データ書式
5.1 フレーム構成
音声メッセージ送信符号化器は、例示として、192個のμ則標本(192バイト)を圧縮データフレーム(48バイト)に圧縮するブロック符号化器である。192個の入力標本からなる各ブロックについて、音声メッセージ送信符号化器は、12バイトの副情報と36バイトの励振情報とを生成する。本節において、圧縮データフレームを生成するために副情報と励振情報とが組立てられる方法を説明する。
【0141】
副情報は、長期予測フィルタおよび短期予測フィルタのパラメタを制御する。音声メッセージ送信符号化器において、長期予測器は、ブロック毎(48標本毎)に4回更新され、短期予測器は、ブロック毎(192標本毎)に1回更新される。長期予測器のパラメタは、ピッチ遅れ(期間)と3個のフィルタ係式(タップ重み)からなる集合からなる。フィルタタップは、ベクトルとして符号化される。音声メッセージ送信符号化器は、ピッチ遅れを20と120との間の整数に制限する。圧縮データフレーム内に蓄積するため、ピッチ遅れは、正負符号なし7ビット2進整数に写像される。音声メッセージ送信符号化器によりピッチ遅れに課された制限は、0×0から0×13(0〜19)に至るおよび、0×79から0×7f(120〜127)に至る符号化された遅れが許容されないことを意味する。音声メッセージ送信符号化器は、各48標本サブフレームのピッチフィルタを特定するため、6ビットを割当てている。したがって、総計26=64個の項目がピッチフィルタ励振ベクトル量子化コードブック内に存在する。ピッチフィルタ係数は、コードブック内の、選択されたフィルタの指標と等価の6ビット正負符号なし2進数として符号化される。この議論のため、4個のサブフレームについて算出されたピッチ遅れは、PL [0],PL [1],…,PL [3]と名付けられ、ピッチフィルタ指標は、PF [0],PF [1],…,PF [3]と名付けられる。
【0142】
短期予測器によって生成された副情報は、量子化された10個の反射係数からなる。各反射係数は、該係数に対して最適化された特有の非均一スカラーコードブックを使用して量子化される。短期予測器副情報は、10個のスカラーコードブックのそれぞれの出力レベルを正負符号なし2進整数に写像することにより、符号化される。B個のビットが割当てられたスカラーコードブックについて、コードブックの項目は、最小から最大へと配列され、正負符号なし2進整数がコードブック指標として、各項目に関連付けられる。したがって、整数0は、最低量子化器レベルとして写像され、整数2B −1は、最大量子化器レベルとして写像される。以下の議論において、符号化された10個の反射係数は、rc[1]、rc[2],…,rc[10]と名付けられる。各反射係数の量子化のために割当てられたビットの数は、表1に列挙されている。
【表1】
【0143】
例示としての各音声メッセージ送信符号化器フレームは、48個の励振ベクトルを定義する36バイトの励振情報を含む。励振ベクトルは、音声メッセージを再構成するため、逆長期予測器フィルタと逆短期予測器フィルタとに入力される。6ビットが各励振ベクトルに割当てられ、5ビットが形状に割当てられ、1ビットが利得に割当てられる。形状成分は、32個の項目を含む形状コードブックに索引を付ける0〜31の範囲の正負符号なし整数である。1ビットが利得に割当てられるので、利得元は、励振ベクトルの代数符号を簡単に特定する。2進法の0は、正の代数符号を指示し、2進法の1は、負の代数符号を指示する。各励振ベクトルは、6ビットの正負符号なし2進数によって特定される。
【0144】
フレーム内の励振ベクトル順列をv[0],v[1],…,v[47]と名付ける。音声メッセージ送信符号化器により生成された2進データは、伝送と蓄積とのために、図8に示された順序でバイト順列としてパックされる。符号化された2進化量の最下位ビットがまずパックされる。
【0145】
音声メッセージ送信符号化器符号化されたデータは、図9に示されている。図9に示されているように、48バイトの2進データは、12個の3バイト語が後続する3個の4バイト語からなる順列に配列されている。副情報は、最初の3個の4バイト語(プリアンブル)を占有し、励振情報は、残りの12個の3バイト語(本体)を占有する。符号化された副情報量のそれぞれは、プリアンブル内の1個の4バイト語内に格納されている(すなわち、いずれのビットフィールドも一の語から次の語へ折返さない)。また、フレーム本体内の3バイト語のそれぞれは、3個の符号化励振ベクトルを含む。
【0146】
フレーム境界は、同期ヘッダにより確定される。一の現存の標準メッセージ書式は、以下の形式の同期ヘッダを特定する。すなわち、0×AA 0×FF NL(Nは、データ書式を一つ特定する8ビットのタグを示す。L(これも、8ビットの量である)は、ヘッダに後続する制御フィールドの長さである。
【0147】
音声メッセージ送信符号化器の符号化されたデータフレームは、励振情報と副情報との混合情報を含む。フレームの復号化は、フレーム内のデータの正しい解釈による。復号化器内で、フレーム境界の誤追跡は、音声品質のいずれかの測度に悪影響を及ぼし、メッセージを理解できなくする虞がある。したがって、本発明を適用したシステムに使用される同期プロトコルの主目的は、フレーム境界の不明瞭でない識別を行うことである。基本構成において考慮された他の目的を以下に列挙する。
【0148】
1) 現行標準との互換性を維持すること。
2) 同期ヘッダにより消費されるオーバヘッドを最小にすること。
3) 符号化音声メッセージ内のランダム点で開始する復号化器の同期に必要な最長時間を最小にすること。
5) 符号化器または復号化器に不必要な処理タスクを負担させるのを回避するため、同期プロトコルの複雑さを最小にすること。
6) 記憶媒体の信頼性が高く、いずれの誤り訂正方法も蓄積伝送に使用されると仮定して、復号化時の誤追跡の確率を最小とすること。
【0149】
現行標準との互換性は、音声メール網のような適用業務での操作互換性にとって重要である。このような互換性(少なくとも一つの広く使用されている適用業務に対して)は、オーバヘッド情報(同期ヘッダ)が符号化データストリーム内に注入されること、および、これらのヘッダが形式0×AA 0×FF N L(ただし、Nは、符号化書式を特定する唯一の符号であり、Lは、任意制御フィールドの長さ(2バイト語単位で)である。
【0150】
一のヘッダを挿入することにより4バイトのオーバヘッドを負荷する。ヘッダが各音声メッセージ送信符号化器フレームの始まりに挿入されたときは、オーバヘッドは、圧縮データ率を2.2kB/s増大させる。オーバヘッド率は、各フレームよりもヘッダ挿入回数を減らすことにより最小とすることができる。しかし、ヘッダ間のフレームの数を増大させることは、圧縮音声メッセージ内のランダム点からの同期に必要な時間間隔を長くすることになる。したがって、オーバヘッドを最小にする必要と同期遅れとの間の均衡が達成されなければならない。同様に、目的(4)と(5)との間で均衡を取らなければならない。ヘッダが音声メッセージ送信符号化器フレーム内に生じるのを禁止されたときは、フレーム境界の誤識別の確率は、0である(ビット誤りのない音声メッセージについて)。しかし、データフレーム内のヘッダの禁止は、必ずしも常に可能でない強制を必要とする。ビット操作戦略(例えば、ビット詰め)は、重要な処理用資源を消費し、バイト境界を乱して、後縁孤立ビットなしにディスクにメッセージを格納するのに困難を生じる。幾つかのシステムに使用されるデータ操作戦略は、ヘッダのランダム生起を予防するため、符号化されたデータを変更する。このような予防戦略は、音声メッセージ送信符号化器内では魅力的でない。種々のクラスの符号化されたデータ(励振情報に対する副情報等)における摂動効果は、種々の条件下で数値が求められる必要がある。また、隣合う2進パターンが最近接−近接サブバンド励振に対応する帯域分割符号化(SBC)と違って、上記のような特性は、いずれも、音声メッセージ送信符号化器内の励振コードブックまたはピッチコードブックによって禁止されない。したがって、再構成された音声波形に及ぼす効果を最小とするため、圧縮データを乱す方法は、明らかでない。
【0151】
上述した目的と考察とに基づいて、以下の同期化ヘッダ構成が音声メッセージ送信符号化器について選択された。
1) 同期ヘッダは、0×AA 0×FF 0×40{0×00,0×01}である。
2) ヘッダ0×AA 0×FF 0×40 0×01には、2バイトの長さの制御フィールドが後続する。制御フィールド内の0×00 0×01の値は、符号化器状態のリセットを特定する。制御フィールドの他の値は、当業者であれば、気づくように、他の制御関数のために留保される。
3) 制御語0×00 0×01が後続するリセットヘッダ0×AA 0×FF0×40 0×01は、符号化器初期(またはリセット)状態から開始することによって生成された圧縮メッセージに先行しなければならない。
4) 0×AA 0×FF 0×40 0×00の形式の後続のヘッダは、4番目のフレーム毎の終りにおいてよりも以上の回数で音声メッセージ送信符号化器フレーム間に導入されなければならない。
5) 制限なしに、複数のヘッダが音声メッセージ送信符号化器フレーム間に導入されうる。しかし、いずれのヘッダも音声メッセージ送信符号化器フレーム内に導入されえない。
6) いずれのビット操作またはデータ摂動も、音声メッセージ送信符号化器フレーム内にヘッダが生じるのを防止するためには実行されない。
【0152】
音声メッセージ送信符号化器フレーム内でのヘッダの生起の防止が欠けているが、ヘッダパターン(0×AA 0×FF 0×40 0×00および0×AA0×FF 0×40 0×01)がいずれか可能な音声メッセージ送信符号化器フレームの始め(最初の4バイト)から区別できることは、不可欠である。これは、プロトコルのみがヘッダ間の最長時間間隔を特定し、隣合う音声メッセージ送信符号化器フレーム間に複数のヘッダが出現することを防止しないので特に重要である。ヘッダ密度のあいまいさの受入れは、音声メッセージが伝送または蓄積前に編集されうる音声メール産業においては、重要である。代表的シナリオによれば、電話加入者は、メッセージを録音し、ついで、このメッセージを編集のため再戻し、メッセージ内の一のランダム点において元メッセージの始まり全部を再録音する。メッセージ内へのヘッダの導入に関する厳格な仕様は、重要なオーバヘッドロードとなる、全フレームの前に1個のヘッダまたは厳密接点(編集の開始にかかわらず、符号化器/復号化器またはファイルの後処理により、ヘッダ密度が調整される不必要な複雑さを追加的に生じる点)を必要とする。フレームプリアンブルは、音声メッセージ送信符号化器フレームの始めにおけるヘッダの生起を防止するため、ピッチ遅れ情報の公称冗長性を利用する。圧縮データフレームがヘッダ0×AA 0×FF 0×40 {0×00,0×01}から始まるときは、最初のピッチ遅れPL [0]は、126の非許容値を有することになる。したがって、ビット誤り、または、フレーム指示誤りによってなまることのない圧縮データフレームは、ヘッダパターンから始まることがない。この結果、復号化器は、ヘッダとデータフレームとを区別することができる。
【0153】
5.2 同期プロトコル
本節において、音声メッセージ送信符号化器および音声メッセージ送信符号化復号化器を同期するのに必要なプロトコルを定義する。プロトコルの簡単な記載は、以下の定義によって容易となる。圧縮データストリーム(符号化器出力/復号化器入力)内のバイト順列を以下の式(49)で表わす。
【数37】
【0154】
式(49)中、圧縮メッセージの長さは、Nバイトである。同期プロトコルを説明するのに使用される状態図において、kは、圧縮バイト順列の指標として使用される。すなわち、kは、処理されるべき、ストリーム内の次のバイトを指示する。
【0155】
指標iは、圧縮バイト順列内のデータフレームF[i]を計数する。バイト順列bkは、以下の数式で表わされ、Hで指示されたヘッダによって区切られたデータフレーム集合からなる。
F[i]i=0 M-1
【0156】
リセット制御語0×00 0×01が後続する0×AA 0×FF 0×400×01の形式のヘッダは、リセットヘッダと称せられ、Hrで表わす。他のヘッダ(0×AA 0×FF 0×40 0×00)は、Hcで表わされ、続きヘッダと称せられる。符号Lhは、制御フィールドを含む圧縮バイトストリーム内で検出された最近のヘッダが存在するときは、そのバイト長さを示す。リセットヘッダ(Hr)について、Lh=6であり、続きヘッダ(Hc)についてLh=4である。
【0157】
i番目のデータフレームF[i]は、以下の式(50)で示された48バイトの配列と見ることができる。
【数38】
【0158】
同期プロトコルの説明の便宜上、他の2個の作用ベクトルを定義する。最初の作用ベクトルは、圧縮データストリームとして以下の式(51)で示された6バイトを含む。
【数39】
【0159】
次の作用ベクトルは、圧縮データストリームとして以下の式(52)で示された48バイトを含む。
【数40】
【0160】
ベクトルV[k]は、ヘッダ候補(任意の制御フィールドを含む)である。以下の式(61)で示される論理命題は、ベクトルがいずれかのタイプのヘッダを含むときは、真である。
【数41】
【0161】
より正式には、式(53)または式(54)が成立するときは、上記論理命題は、真である。
【数42】
【0162】
最後に、符号Iは、集合{1,2,3,4}内の整数を指示する。
【0163】
6.2.1 同期プロトコル−−符号化器用規則
符号化器について、同期プロトコルは、2,3の要求を行う。
1) 各圧縮音声メッセージの始めにリセットヘッダHrを導入すること。
2) 4番目毎の圧縮データフレームの終りに続きヘッダHcを導入すること。符号化器の動作は、図10に示された状態機械によってより完全に説明される。状態図によれば、状態遷移を刺激する条件は、定幅フォントで書かれる。他方、状態遷移の結果として実行される演算は、イタリック体で書かれる。
【0164】
符号化器は、遊び、初期および稼動の3個の状態を有する。休止状態の符号化器は、符号化を開始するように命令されるまで、遊び状態にある。遊び状態から初期状態への遷移は、コマンドに基づいて実行され、以下の動作を行う。
・ 符号化器がリセットされる。
・ リセットヘッダが圧縮バイトストリームに付加される。
・ フレーム(i)指標とバイトストリーム(k)指標とが初期化される。
初期状態中に1回、符号化器は、最初の圧縮フレーム(F[0])を出力する。初期状態中に、平均を取るべき前係数が存在しないので反射係数の補間が禁止される。符号化がコマンドによって終了されない限り、初期状態から稼動状態への無条件遷移が行われる。初期から稼働への状態遷移は、以下の演算により達成される。
・ 出力バイトストリームにF[0]を追加する。
・ フレーム指標を増分する(i=i+1)。
・ バイト指標を更新する(k=k+48)。
【0165】
符号化器は、コマンドにより遊び状態へ戻るように命令されない限り、稼働状態のままである。稼働状態にある符号化器の動作は、以下の通り要約される。
・ 出力バイトストリームに現フレームを追加する。
・ フレーム指標を増分する(i=i+1)。
・ バイト指標を更新する(k=k+48)。
・ iが4で割切れるときは、続きヘッダHcを出力バイトストリームに追加し、これにより、バイトの計数を更新する。
【0166】
6.2.2 同期プロトコル…復号化器のための規則
復号化器は、フレーム境界を画定するのでなく検出しなければならないので、同期プロトコルは、符号化器よりも復号化器に多く要求する。復号化器の動作は、図11に示された状態機械によって制御される。圧縮バイトストリームを復号する状態制御器の動作は以下の様に行われる。まず、復号化器は、2個のヘッダが整数(2と4との間)個の圧縮データフレームによって分離された状態で見出されるまで、バイトストリームの始めのヘッダを見出すことにより、または、バイトストリーム全体を走査することにより、同期を達成する。同期が達成されると、圧縮データフレームは、復号化器により展開される。状態制御器は、各フレーム間に1個以上のヘッダを捜索する。そして、ヘッダを検出することなく、4個のフレームが復号されたときは、状態制御器は、同期が失われたものと仮定し、同期を再度獲得するため、走査手順に戻る。
【0167】
復号化器の動作は、遊びとして開始される。復号化器は、動作開始のコマンドを受けると遊び状態から抜ける。圧縮データストリームの最初の4バイトは、ヘッダとして検査される。ヘッダが見出されたときは、復号化器は、(同期−1)状態へ遷移する。その他のときは、復号化器は、(探索−1)状態に入る。バイト指標kとフレーム指標iとは、いずれの初期遷移が生じたかにかかわらず初期化され、復号化器は、ファイルの始めで検出されるヘッダの型式にかかわらず(同期−1)状態へ入ったことにより、リセットされる。正常動作によれば、圧縮データストリームは、リセットヘッダ(Hr)から始まるべきである。したがって、復号化器をリセットすることにより、該復号化器の初期状態は、圧縮メッセージを生じた復号化器の初期状態に強制的に一致させられる。他方、データストリームが続きヘッダ(Hc)ではじまったきは、符号化器の初期状態は、認められない。また、符号化器状態に関する優先順位情報が存在しないときは、妥当なフォールバックがリセット状態から復号を開始することになる。
【0168】
ヘッダが圧縮データストリームの始めに見出されないときは、復号化器入力端内でのデータフレームとの同期は、保証されえない。そのため、復号化器は、整数個の圧縮データフレームによって分離された入力ファイル内に2個のヘッダを配置することにより同期を達成するように求める。復号化器は、ヘッダが入力ストリーム内で検出されるまで、(探索−1)状態のままである。ヘッダが入力ストリーム内で検出されることにより、(探索−2)状態に強制的に遷移される。バイトカウンタdは、この遷移が行われると、クリアされる。バイト計数kは、復号化器が入力ストリームを走査して最初のヘッダを探索するにつれて、増分されなければならない。(探索−2)状態において、復号化器は、次のヘッダが見出されるまで、入力ストリーム全体を走査する。走査時に、バイト指標kとバイト計数dとは、増分される。次のヘッダが見出されると、バイト計数kは、検査される。バイト計数dが48,49,144または192に等しいときは、入力ストリーム内に見出された最後の2個のヘッダは、整数個のデータフレームによって分離され、同期が達成される。復号化器は、(探索−2)から(探索−1)へ遷移し、それにより、復号化器状態をリセットし、バイト指標kを更新する。次のヘッダが前ヘッダに対して許容オフセットで見出されないときは、復号化器は、(探索−2)状態のままであり、それにより、バイト計数dをリセットし、バイト指標kを更新する。
【0169】
復号化器は、データフレームが検出されるまで、(同期−1)状態のままである。プロトコルは、入力ストリーム内に隣合うヘッダを受入れるので、上記状態への遷移は、ヘッダが検出されたことを意味するにもかかわらず、復号化器は、ヘッダを検査し続ける。連続したヘッダが検出されたときは、復号化器は、(同期−1)状態のままであり、これにより、バイト指標kを更新する。データフレームが見出されると、復号化器は、このデータフレームを処理し、(同期−2)状態へ遷移する。(同期−1)状態にあるとき、反射係数の補間は、禁止される。同期障害が存在しないときは、復号化器は、遊び状態から(同期−1)状態へ、ついで、(同期−2)状態へ遷移し、補間が禁止された状態で処理された第1フレームは、同様に補間が禁止された状態で復号化器により生成された第1フレームと対応する。バイト指標kとフレーム指標iとは、この遷移により更新される。
【0170】
正常動作状態の復号化器は、復号が終了するまで、(同期−2)状態のままである。この状態において、復号化器は、データフレーム間でヘッダを検査する。ヘッダが検出されないとき、および、ヘッダカウンタjが4より小さいときは、復号化器は、入力ストリームから新しいフレームを抽出し、バイト指標k、フレーム指標iおよびヘッダカウンタjを更新する。ヘッダカウンタが4に等しいときは、ヘッダは、最長の特定時間間隔内で検出されていず、同期は、すでに、失われている。これにより、復号化器は、(探索−1)状態へ遷移し、バイト指標kを増分する。続きヘッダが見出されたときは、復号化器は、バイト指標kを更新し、ヘッダカウンタjをリセットする。リセットカウンタが検出されたときは、復号化器は、(同期−1)状態へ戻り、バイト指標kを更新する。いずれかの復号化器状態から遊び状態への遷移は、コマンドにより生じうる。これらの遷移は、一層明瞭とするため、状態図から省略されている。
【0171】
正常動作によれば、復号化器は、遊び状態から(同期−1)へ、ついで、(同期−2)へ遷移し、復号化器動作が完了するまで、(同期−2)状態のままである。しかし、復号化器が圧縮音声メッセージ内のランダム点から圧縮音声メッセージを処理しなければならない実際的応用業務が存在する。このような場合、同期は、整数個のフレームによって分割された入力ストリーム内に2個のヘッダを配置することにより達成されなければならない。同期は、入力ファイル内に1個のヘッダを配置することにより達成されうる。しかし、プロトコルは、データフレーム内に複数個のヘッダが生じることを排除しないので、1個のヘッダによる同期は、はるかに高い誤同期の機会を防止する。また、圧縮されたファイルは、蓄積時または伝送中分割してもよい。したがって、復号化器は、ヘッダが同期障害損失を迅速に検出するよう常時監視するべきである。
【0172】
詳述された例示としての実施例は、本発明の及ぶ多くの特徴および技術の単なる1個の適用例と理解されるべきである。同様に、上述された多くのシステム要素および方法のステップは、例示として記載されたシステムおよび方法での使用と異なる有用性(個別に、および、組合わせて)を有する。特に、当業者であれば、気づくように、標本化率およびコードベクトル長さのような種々のシステムパラメタ値は、本発明の適用例において変化する。
【表2】
【表3】
【0173】
【発明の効果】
本発明によれば、複雑な計算が軽減された高品質な音声メッセージ送信符号化および復号化が行われる。
【図面の簡単な説明】
【図1】本発明の一実施例にかかる符号化器・復号化器対の代表的実施例の全体ブロック線図である。
【図2】図1に示されたタイプの符号化器の詳細ブロック線図の一部であり、同符号化器の詳細ブロック線図の他の部分である図12と図13のように組み合わせることにより、符号化器の全体が構成される。
【図3】図2に示されたタイプの復号化器の詳細ブロック線図である。
【図4】図1に示されたシステム内で行われる動作のフローチャートである。
【図5】図1に示されたシステムの予測器分析および量子化要素の詳細ブロック線図である。
【図6】図1に示された代表的実施例に使用される後向き利得アダプタのブロック線図である。
【図7】図1に示された実施例に使用された符号化励振情報の代表的書式の模式図である。
【図8】図1に示されたシステムでの符号化および復号に使用された圧縮データフレームの代表的パッキング順序を示す模式図である。
【図9】図1に示されたシステムにおいて説明のため使用された一のデータフレームの模式図である。
【図10】図1に示されたシステム内の符号化器の動作の諸相を理解するのに有用な符号化器状態制御線図である。
【図11】図1に示されたシステム内の復号化器の動作の諸相を理解するのに有用な復号化器状態制御線図である。
【図12】図1に示されたタイプの符号化器の詳細ブロック線図の一部であり、同符号化器の詳細ブロック線図の他の一部である図2と図13のように組み合わせることにより、符号化器の全体が構成される。
【図13】図2と図12との組み合わせ方法を示す図である。
【符号の説明】
101: 励振ベクトル量子化コードブック
102: 利得基準化器
103: 長期合成フィルタ
104: 短期合成フィルタ
115: 比較器
120: 聴覚重み付けフィルタ
130: ピッチ予測分析量子化器
135: 線形予測分析量子化器
140: チャネル/蓄積要素
145: 後向き利得アダプタ
155: 分離化復号化器
160: 励振ベクトルコードブック
165: 利得基準化器
170: 長期予測器
175: 短期予測器
Claims (28)
- a.後向き適応利得制御器内で、それぞれが対応する指標によって識別される複数のコードベクトルを利得調整して、各コードベクトルに対応する利得調整済みコードベクトルを生成するステップと、
b.短期合成フィルタと、前向き適応型の長期合成フィルタとを有し、複数のフィルタパラメタにより特徴付けられる合成フィルタ内で、各利得調整済みコードベクトルをフィルタリングして、複数の候補コードベクトルを生成するステップと、
c.入力標本列を各候補コードベクトルと比較して、該入力標本列を近似する1つの候補コードベクトルを決定するステップと、
d.前記1つの候補コードベクトルに対応する指標と、前記長期合成フィルタのパラメタとを出力するステップとを有する入力標本列処理方法であって、
前記後向き適応利得制御器は、前記ステップdで出力された指標に対応するコードベクトルに関係した利得情報によって適応調整され、該適応調整された後向き適応利得制御器がその後に続く入力標本列に用いられている入力標本列処理方法。 - 前記合成フィルタの複数のパラメタの調整は、前記入力標本列の線形予測分析に基づいて、各フィルタのフィルタパラメタを調整することを含むことを特徴とする請求項1に記載の方法。
- 前記入力標本列は、連続する複数の入力標本列における現入力標本列であり、該複数の入力標本列は、現入力標本列に先行する少なくとも1つの入力標本列を含み、
前記入力標本列の線形予測分析は、
各入力標本列がそれぞれ1つのサブフレームとなるように前記複数の入力標本列を1つの入力標本フレームに群化するステップと、
前記入力標本フレームに対応するN個の予測器係数からなるN次予測器係数集合を決定するステップとを有することを特徴とする請求項2に記載の方法。 - 前記N次予測器係数集合を決定するステップは、
前記入力標本フレームの自己相関分析を行うことにより、自己相関係数集合を生成するステップと、
前記自己相関係数に基づいて、前記予測器係数を再帰的に形成するステップとを有することを特徴とする請求項3に記載の方法。 - 前記N次予測器係数集合を決定するステップの前に、前記入力標本フレームを重み付けすることにより、重み付き入力標本フレームを形成するステップをさらに有し、
前記N次予測器係数集合を決定するステップは、
前記重み付き入力標本フレームの自己相関分析を行うことにより、自己相関係数の順序集合を生成するステップと、
前記自己相関係数に基づいてレビンソン−ダービン再帰を行うことにより、前記予測器係数集合を決定するステップとを含むことを特徴とする請求項3に記載の方法。 - 前記自己相関係数を修正することにより、少量の白色雑音の追加を反映させるステップをさらに有することを特徴とする請求項5に記載の方法。
- 前記修正は、小さい因数により前記自己相関係数のうち第1自己相関係数を変化させるステップを含むことを特徴とする請求項6に記載の方法。
- 前記予測器係数集合の帯域幅を修正することにより、前記合成フィルタのスペクトルピークを拡大するステップをさらに有することを特徴とする請求項7に記載の方法。
- 各入力標本フレームはS個のサブフレームを含み、
前記N次予測器係数集合を決定するステップの前に、前記入力標本フレームを重み付けすることにより、重み付き入力標本列を形成する重み付けステップと、
現入力標本フレームについて決定された反射係数と直前の入力標本フレームの反射係数との補間に基づいて、重み付きされたサブフレームの各々について予測器係数を決定するステップとをさらに有することを特徴とする請求項9に記載の方法。 - さらに、前記反射係数集合を量子化するステップを有し、該反射係数集合を量子化するステップは、
量子化器セル境界を識別するしきい値の指標付元と、各反射係数とを比較することにより、量子化器セルを識別する指標を決定する比較ステップと、
各反射係数について識別された指標に基づいて、量子化器セルに対応する量子化器出力値を割り当てるステップとを有することを特徴とする請求項9に記載の方法。 - 各しきい値は、量子化器セル境界値の、変換定義域の値からの逆変換値であることを特徴とする請求項12に記載の方法。
- 前記しきい値の指標付元は、しきい値の順序付表に格納され、各しきい値は、1つの指標に一意的に対応し、
前記ステップcは、前記表内で値を探索することにより、所定基準を満たす値を見出す探索ステップを含むことを特徴とする請求項12に記載の方法。 - 前記探索ステップは、前記反射係数の値に基づく、前記表の2分木探索を含むことを特徴とする請求項14に記載の方法。
- 前記長期合成フィルタのフィルタパラメタの調整は、さらに、
各入力標本列の前記線形予測分析に基づいて、ピッチ遅れパラメタを抽出するステップを含み、
前記長期合成フィルタのパラメタの出力は、各入力標本列について前記ピッチ遅れパラメタの符号化された表現を出力するステップを含むことを特徴とする請求項2に記載の方法。 - 前記長期合成フィルタのフィルタパラメタの調整は、
各入力標本列がそれぞれ1つのサブフレームとなるように前記複数の入力標本列を1つの入力標本フレームに群化するステップと、
サブフレームの前記線形予測分析に基づいて、ピッチ遅れパラメタを抽出するステップとを含み、
前記長期合成フィルタのフィルタパラメタの出力は、各サブフレームについて前記ピッチ遅れパラメタの符号化された表現と複数のピッチ予測器タップ重みとを出力するステップを含むことを特徴とする請求項2に記載の方法。 - 前記ピッチ遅れパラメタの抽出は、
現サブフレームについて、線形予測符号化残差を表現する信号集合を生成するステップと、
現サブフレームの前記線形予測符号化残差と、複数の前サブフレームの線形予測符号化残差とに基づいて、遅れ値の範囲のそれぞれについて相互相関を形成するステップと、
最大値を有する前記相互相関の遅れ値に基づいて、ピッチ遅れパラメタを選択するステップとを含むことを特徴とする請求項17に記載の方法。 - 前記相互相関を形成する前に、現サブフレームおよび前サブフレームの前記線形予測符号化残差は、時間間引きされ、
さらに、前記遅れパラメタの選択値を調整することにより、前記時間間引きを反映させることを特徴とする請求項18に記載の方法。 - 前記入力標本列は、連続する複数の入力標本列における現入力標本列であり、該複数の入力標本列は、現入力標本列に先行する少なくとも1つの入力標本列を含み、前記合成フィルタはメモリを有し、該メモリは、現入力標本列に先行する少なくとも1つの入力標本列の少なくとも一部に対応するコードベクトル情報を反映する残差信号を格納し、該残差信号は前記候補コードベクトルに寄与し、
前記ステップcの前に、入力標本列から前記候補コードベクトルへの寄与を除去するステップをさらに有することを特徴とする請求項1に記載の方法。 - 前記ステップcは、該比較の前に、前記入力標本列および前記候補コードベクトルを聴覚的に重み付けするステップを含むことを特徴とする請求項1に記載の方法。
- 前記入力標本列は、連続する複数の入力標本列における現入力標本列であり、該複数の入力標本列は、現入力標本列に先行する少なくとも1つの入力標本列を含み、前記合成フィルタはメモリを有し、該メモリは、現入力標本列に先行する少なくとも1つの入力標本列の少なくとも一部に対応するコードベクトル情報を反映する残差信号を格納し、該残差信号は前記候補コードベクトルに寄与し、
前記ステップcの前に、入力標本列から前記候補コードベクトルへの寄与を除去するステップをさらに有することを特徴とする請求項22に記載の方法。 - 利得調整済コードベクトルの個数をMとして、前記複数のコードベクトルは、M/2個の線形独立コードベクトルを含み、
前記ステップcは、M個のコードベクトルを比較するステップを含み、該M個のコードベクトルは、前記M/2個の線形独立コードベクトルと、該コードベクトルの2個の正負符号値とに基づくことを特徴とする請求項1に記載の方法。 - 出力される指標およびフィルタパラメタを格納するステップをさらに有することを特徴とする請求項1に記載の方法。
- 出力される指標およびフィルタパラメタを通信媒体へ伝送するステップをさらに有することを特徴とする請求項1に記載の方法。
- 前記方法は、既に処理された入力標本列の後に続く追加入力標本列の集合を処理し、
e.前の入力標本列に応答して、前記合成フィルタのフィルタパラメタを調整するステップと、
f.前記追加入力標本列の集合内の次の入力標本列について前記ステップa〜dを繰り返すステップと、
g.前記追加入力標本列の集合内の各列が処理されるまで前記ステップeおよびfを繰り返すステップとを有することを特徴とする請求項1に記載の方法。 - 前記ステップcは、入力標本列との差が最小の候補コードベクトルを決定するステップを含むことを特徴とする請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/893,296 US5327520A (en) | 1992-06-04 | 1992-06-04 | Method of use of voice message coder/decoder |
US893296 | 1992-06-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0683400A JPH0683400A (ja) | 1994-03-25 |
JP3996213B2 true JP3996213B2 (ja) | 2007-10-24 |
Family
ID=25401353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15812993A Expired - Lifetime JP3996213B2 (ja) | 1992-06-04 | 1993-06-04 | 入力標本列処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5327520A (ja) |
EP (1) | EP0573216B1 (ja) |
JP (1) | JP3996213B2 (ja) |
CA (1) | CA2095883C (ja) |
DE (1) | DE69331079T2 (ja) |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006174A (en) * | 1990-10-03 | 1999-12-21 | Interdigital Technology Coporation | Multiple impulse excitation speech encoder and decoder |
KR100228688B1 (ko) * | 1991-01-08 | 1999-11-01 | 쥬더 에드 에이. | 다차원 음장용 인코우더/디코우더 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5539818A (en) * | 1992-08-07 | 1996-07-23 | Rockwell Internaional Corporation | Telephonic console with prerecorded voice message and method |
CA2105269C (en) * | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP2947685B2 (ja) * | 1992-12-17 | 1999-09-13 | シャープ株式会社 | 音声コーデック装置 |
US5546395A (en) | 1993-01-08 | 1996-08-13 | Multi-Tech Systems, Inc. | Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem |
US5617423A (en) | 1993-01-08 | 1997-04-01 | Multi-Tech Systems, Inc. | Voice over data modem with selectable voice compression |
US5535204A (en) | 1993-01-08 | 1996-07-09 | Multi-Tech Systems, Inc. | Ringdown and ringback signalling for a computer-based multifunction personal communications system |
US5864560A (en) | 1993-01-08 | 1999-01-26 | Multi-Tech Systems, Inc. | Method and apparatus for mode switching in a voice over data computer-based personal communications system |
US5812534A (en) | 1993-01-08 | 1998-09-22 | Multi-Tech Systems, Inc. | Voice over data conferencing for a computer-based personal communications system |
US5452289A (en) | 1993-01-08 | 1995-09-19 | Multi-Tech Systems, Inc. | Computer-based multifunction personal communications system |
US6009082A (en) | 1993-01-08 | 1999-12-28 | Multi-Tech Systems, Inc. | Computer-based multifunction personal communication system with caller ID |
US5453986A (en) | 1993-01-08 | 1995-09-26 | Multi-Tech Systems, Inc. | Dual port interface for a computer-based multifunction personal communication system |
JPH06232826A (ja) * | 1993-02-08 | 1994-08-19 | Hitachi Ltd | 音声差分pcmデータ伸長方法 |
US5657423A (en) * | 1993-02-22 | 1997-08-12 | Texas Instruments Incorporated | Hardware filter circuit and address circuitry for MPEG encoded data |
JPH06250697A (ja) * | 1993-02-26 | 1994-09-09 | Fujitsu Ltd | 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置 |
US5526464A (en) * | 1993-04-29 | 1996-06-11 | Northern Telecom Limited | Reducing search complexity for code-excited linear prediction (CELP) coding |
DE4315313C2 (de) * | 1993-05-07 | 2001-11-08 | Bosch Gmbh Robert | Vektorcodierverfahren insbesondere für Sprachsignale |
CA2124713C (en) * | 1993-06-18 | 1998-09-22 | Willem Bastiaan Kleijn | Long term predictor |
US5590338A (en) * | 1993-07-23 | 1996-12-31 | Dell Usa, L.P. | Combined multiprocessor interrupt controller and interprocessor communication mechanism |
DE4328252C2 (de) * | 1993-08-23 | 1996-02-01 | Sennheiser Electronic | Verfahren und Vorrichtung zur drahtlosen Übertragung digitaler Audiodaten |
US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
CA2136891A1 (en) * | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
US5450449A (en) * | 1994-03-14 | 1995-09-12 | At&T Ipm Corp. | Linear prediction coefficient generation during frame erasure or packet loss |
CA2142391C (en) * | 1994-03-14 | 2001-05-29 | Juin-Hwey Chen | Computational complexity reduction during frame erasure or packet loss |
US5715009A (en) | 1994-03-29 | 1998-02-03 | Sony Corporation | Picture signal transmitting method and apparatus |
US5757801A (en) | 1994-04-19 | 1998-05-26 | Multi-Tech Systems, Inc. | Advanced priority statistical multiplexer |
US5682386A (en) | 1994-04-19 | 1997-10-28 | Multi-Tech Systems, Inc. | Data/voice/fax compression multiplexer |
US5706282A (en) * | 1994-11-28 | 1998-01-06 | Lucent Technologies Inc. | Asymmetric speech coding for a digital cellular communications system |
US5680506A (en) * | 1994-12-29 | 1997-10-21 | Lucent Technologies Inc. | Apparatus and method for speech signal analysis |
EP0944037B1 (en) * | 1995-01-17 | 2001-10-10 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US5708756A (en) * | 1995-02-24 | 1998-01-13 | Industrial Technology Research Institute | Low delay, middle bit rate speech coder |
US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
US5917943A (en) * | 1995-03-31 | 1999-06-29 | Canon Kabushiki Kaisha | Image processing apparatus and method |
US5717819A (en) * | 1995-04-28 | 1998-02-10 | Motorola, Inc. | Methods and apparatus for encoding/decoding speech signals at low bit rates |
US5675701A (en) * | 1995-04-28 | 1997-10-07 | Lucent Technologies Inc. | Speech coding parameter smoothing method |
SE504397C2 (sv) * | 1995-05-03 | 1997-01-27 | Ericsson Telefon Ab L M | Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering |
FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
US5822724A (en) * | 1995-06-14 | 1998-10-13 | Nahumi; Dror | Optimized pulse location in codebook searching techniques for speech processing |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
US5781882A (en) * | 1995-09-14 | 1998-07-14 | Motorola, Inc. | Very low bit rate voice messaging system using asymmetric voice compression processing |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
DE69620967T2 (de) * | 1995-09-19 | 2002-11-07 | At & T Corp., New York | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter |
US5724561A (en) * | 1995-11-03 | 1998-03-03 | 3Dfx Interactive, Incorporated | System and method for efficiently determining a fog blend value in processing graphical images |
EP0773533B1 (en) * | 1995-11-09 | 2000-04-26 | Nokia Mobile Phones Ltd. | Method of synthesizing a block of a speech signal in a CELP-type coder |
US7664263B2 (en) | 1998-03-24 | 2010-02-16 | Moskowitz Scott A | Method for combining transfer functions with predetermined key creation |
US6205249B1 (en) | 1998-04-02 | 2001-03-20 | Scott A. Moskowitz | Multiple transform utilization and applications for secure digital watermarking |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
TW317051B (ja) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
TW307960B (en) * | 1996-02-15 | 1997-06-11 | Philips Electronics Nv | Reduced complexity signal transmission system |
US5708757A (en) * | 1996-04-22 | 1998-01-13 | France Telecom | Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method |
JPH09319397A (ja) * | 1996-05-28 | 1997-12-12 | Sony Corp | ディジタル信号処理装置 |
US7177429B2 (en) | 2000-12-07 | 2007-02-13 | Blue Spike, Inc. | System and methods for permitting open access to data objects and for securing data within the data objects |
US7346472B1 (en) * | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US7159116B2 (en) | 1999-12-07 | 2007-01-02 | Blue Spike, Inc. | Systems, methods and devices for trusted transactions |
US7457962B2 (en) | 1996-07-02 | 2008-11-25 | Wistaria Trading, Inc | Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data |
FI964975A (fi) * | 1996-12-12 | 1998-06-13 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen koodaamiseksi |
KR100447152B1 (ko) * | 1996-12-31 | 2004-11-03 | 엘지전자 주식회사 | 디코더필터의연산처리방법 |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
JP3064947B2 (ja) * | 1997-03-26 | 2000-07-12 | 日本電気株式会社 | 音声・楽音符号化及び復号化装置 |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
DE19729494C2 (de) * | 1997-07-10 | 1999-11-04 | Grundig Ag | Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte |
US6044339A (en) * | 1997-12-02 | 2000-03-28 | Dspc Israel Ltd. | Reduced real-time processing in stochastic celp encoding |
JP3553356B2 (ja) * | 1998-02-23 | 2004-08-11 | パイオニア株式会社 | 線形予測パラメータのコードブック設計方法及び線形予測パラメータ符号化装置並びにコードブック設計プログラムが記録された記録媒体 |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
CA2265089C (en) * | 1998-03-10 | 2007-07-10 | Sony Corporation | Transcoding system using encoding history information |
US6064955A (en) | 1998-04-13 | 2000-05-16 | Motorola | Low complexity MBE synthesizer for very low bit rate voice messaging |
US6141639A (en) * | 1998-06-05 | 2000-10-31 | Conexant Systems, Inc. | Method and apparatus for coding of signals containing speech and background noise |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP3912913B2 (ja) | 1998-08-31 | 2007-05-09 | キヤノン株式会社 | 音声合成方法及び装置 |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
US6182030B1 (en) | 1998-12-18 | 2001-01-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced coding to improve coded communication signals |
EP1069779B1 (en) | 1999-02-09 | 2016-04-13 | Sony Corporation | Coding system and its method |
US7664264B2 (en) | 1999-03-24 | 2010-02-16 | Blue Spike, Inc. | Utilizing data reduction in steganographic and cryptographic systems |
EP1088304A1 (en) | 1999-04-05 | 2001-04-04 | Hughes Electronics Corporation | A frequency domain interpolative speech codec system |
IL129752A (en) | 1999-05-04 | 2003-01-12 | Eci Telecom Ltd | Telecommunication method and system for using same |
WO2001018628A2 (en) | 1999-08-04 | 2001-03-15 | Blue Spike, Inc. | A secure personal content server |
CN1296888C (zh) * | 1999-08-23 | 2007-01-24 | 松下电器产业株式会社 | 音频编码装置以及音频编码方法 |
US6546241B2 (en) * | 1999-11-02 | 2003-04-08 | Agere Systems Inc. | Handset access of message in digital cordless telephone |
KR100474833B1 (ko) * | 1999-11-17 | 2005-03-08 | 삼성전자주식회사 | 예측 및 멜-스케일 이진 벡터를 이용한 가변 차원스펙트럼 진폭 양자화 방법 및 그 장치 |
JP2002062899A (ja) * | 2000-08-23 | 2002-02-28 | Sony Corp | データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体 |
EP1944759B1 (en) * | 2000-08-09 | 2010-10-20 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP4517262B2 (ja) * | 2000-11-14 | 2010-08-04 | ソニー株式会社 | 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体 |
US7127615B2 (en) | 2000-09-20 | 2006-10-24 | Blue Spike, Inc. | Security based on subliminal and supraliminal channels for data objects |
EP1334486B1 (en) * | 2000-10-25 | 2013-06-05 | Broadcom Corporation | System for vector quantization search for noise feedback based coding of speech |
US7171355B1 (en) | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
FI118067B (fi) * | 2001-05-04 | 2007-06-15 | Nokia Corp | Menetelmä audiosignaalin pakkauksen purkamisessa, pakkauksen purkulaite, ja elektroniikkalaite |
WO2002103683A1 (fr) * | 2001-06-15 | 2002-12-27 | Sony Corporation | Appareil et procede de codage |
US7110942B2 (en) * | 2001-08-14 | 2006-09-19 | Broadcom Corporation | Efficient excitation quantization in a noise feedback coding system using correlation techniques |
US7617096B2 (en) | 2001-08-16 | 2009-11-10 | Broadcom Corporation | Robust quantization and inverse quantization using illegal space |
US7647223B2 (en) | 2001-08-16 | 2010-01-12 | Broadcom Corporation | Robust composite quantization with sub-quantizers and inverse sub-quantizers using illegal space |
US7610198B2 (en) | 2001-08-16 | 2009-10-27 | Broadcom Corporation | Robust quantization with efficient WMSE search of a sign-shape codebook using illegal space |
DE60229702D1 (de) * | 2001-08-16 | 2008-12-18 | Broadcom Corp | Robuste Quantisierung mit WMSE Suche in einem Vorzeichen-Form Kodebuch unter Verwendung von illegalem Raum |
WO2003017255A1 (en) * | 2001-08-17 | 2003-02-27 | Broadcom Corporation | Bit error concealment methods for speech coding |
US7143032B2 (en) * | 2001-08-17 | 2006-11-28 | Broadcom Corporation | Method and system for an overlap-add technique for predictive decoding based on extrapolation of speech and ringinig waveform |
US20030105627A1 (en) * | 2001-11-26 | 2003-06-05 | Shih-Chien Lin | Method and apparatus for converting linear predictive coding coefficient to reflection coefficient |
US7460654B1 (en) | 2001-12-28 | 2008-12-02 | Vocada, Inc. | Processing of enterprise messages integrating voice messaging and data systems |
US6778644B1 (en) * | 2001-12-28 | 2004-08-17 | Vocada, Inc. | Integration of voice messaging and data systems |
US6751587B2 (en) * | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7287275B2 (en) | 2002-04-17 | 2007-10-23 | Moskowitz Scott A | Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth |
DE60218135T2 (de) * | 2002-05-21 | 2007-11-22 | Alcatel Lucent | Punkt-zu-Mehrpunkt Telekommunikationssystem mit Abwärtsrahmenstruktur |
US7003461B2 (en) * | 2002-07-09 | 2006-02-21 | Renesas Technology Corporation | Method and apparatus for an adaptive codebook search in a speech processing system |
US7133521B2 (en) * | 2002-10-25 | 2006-11-07 | Dilithium Networks Pty Ltd. | Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain |
JP4196726B2 (ja) * | 2003-05-14 | 2008-12-17 | ソニー株式会社 | 画像処理装置および画像処理方法、記録媒体、並びに、プログラム |
US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
US7792670B2 (en) * | 2003-12-19 | 2010-09-07 | Motorola, Inc. | Method and apparatus for speech coding |
US8473286B2 (en) | 2004-02-26 | 2013-06-25 | Broadcom Corporation | Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure |
JP4937746B2 (ja) * | 2004-07-20 | 2012-05-23 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
US8543388B2 (en) * | 2005-11-30 | 2013-09-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Efficient speech stream conversion |
US20100161323A1 (en) * | 2006-04-27 | 2010-06-24 | Panasonic Corporation | Audio encoding device, audio decoding device, and their method |
JP4598877B2 (ja) * | 2007-12-04 | 2010-12-15 | 日本電信電話株式会社 | 符号化方法、この方法を用いた装置、プログラム、記録媒体 |
JP2010060989A (ja) * | 2008-09-05 | 2010-03-18 | Sony Corp | 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム |
JP2010078965A (ja) * | 2008-09-26 | 2010-04-08 | Sony Corp | 演算装置および方法、量子化装置および方法、並びにプログラム |
JP4702645B2 (ja) * | 2008-09-26 | 2011-06-15 | ソニー株式会社 | 演算装置および方法、量子化装置および方法、並びにプログラム |
US8154815B2 (en) * | 2008-12-18 | 2012-04-10 | Lsi Corporation | Systems and methods for generating equalization data using shift register architecture |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
JP5326051B2 (ja) * | 2009-10-15 | 2013-10-30 | ヴェーデクス・アクティーセルスカプ | 音声コーデックを備えた補聴器および方法 |
US20110276882A1 (en) | 2010-05-04 | 2011-11-10 | Kai Buehler | Automatic grouping for users experiencing a specific broadcast media |
EP2466580A1 (en) | 2010-12-14 | 2012-06-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
US8732739B2 (en) | 2011-07-18 | 2014-05-20 | Viggle Inc. | System and method for tracking and rewarding media and entertainment usage including substantially real time rewards |
US20130211846A1 (en) * | 2012-02-14 | 2013-08-15 | Motorola Mobility, Inc. | All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec |
CN107945813B (zh) * | 2012-08-29 | 2021-10-26 | 日本电信电话株式会社 | 解码方法、解码装置、和计算机可读取的记录介质 |
KR102302012B1 (ko) | 2012-11-15 | 2021-09-13 | 가부시키가이샤 엔.티.티.도코모 | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US9640185B2 (en) * | 2013-12-12 | 2017-05-02 | Motorola Solutions, Inc. | Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder |
CN106815090B (zh) * | 2017-01-19 | 2019-11-08 | 深圳星忆存储科技有限公司 | 一种数据处理方法及装置 |
US20230046788A1 (en) * | 2021-08-16 | 2023-02-16 | Capital One Services, Llc | Systems and methods for resetting an authentication counter |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4048443A (en) * | 1975-12-12 | 1977-09-13 | Bell Telephone Laboratories, Incorporated | Digital speech communication system for minimizing quantizing noise |
US4720865A (en) * | 1983-06-27 | 1988-01-19 | Nec Corporation | Multi-pulse type vocoder |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
US4963034A (en) * | 1989-06-01 | 1990-10-16 | Simon Fraser University | Low-delay vector backward predictive coding of speech |
EP0401452B1 (en) * | 1989-06-07 | 1994-03-23 | International Business Machines Corporation | Low-delay low-bit-rate speech coder |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
ES2145737T5 (es) * | 1989-09-01 | 2007-03-01 | Motorola, Inc. | Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos. |
CA2054849C (en) * | 1990-11-02 | 1996-03-12 | Kazunori Ozawa | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
US5173941A (en) * | 1991-05-31 | 1992-12-22 | Motorola, Inc. | Reduced codebook search arrangement for CELP vocoders |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
-
1992
- 1992-06-04 US US07/893,296 patent/US5327520A/en not_active Expired - Lifetime
-
1993
- 1993-05-10 CA CA002095883A patent/CA2095883C/en not_active Expired - Fee Related
- 1993-05-27 DE DE69331079T patent/DE69331079T2/de not_active Expired - Lifetime
- 1993-05-27 EP EP93304126A patent/EP0573216B1/en not_active Expired - Lifetime
- 1993-06-04 JP JP15812993A patent/JP3996213B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5327520A (en) | 1994-07-05 |
EP0573216A3 (en) | 1994-07-13 |
JPH0683400A (ja) | 1994-03-25 |
EP0573216A2 (en) | 1993-12-08 |
CA2095883C (en) | 1998-11-03 |
EP0573216B1 (en) | 2001-11-07 |
CA2095883A1 (en) | 1993-12-05 |
DE69331079T2 (de) | 2002-07-11 |
DE69331079D1 (de) | 2001-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3996213B2 (ja) | 入力標本列処理方法 | |
EP1202251B1 (en) | Transcoder for prevention of tandem coding of speech | |
US5717824A (en) | Adaptive speech coder having code excited linear predictor with multiple codebook searches | |
EP1222659B1 (en) | Lpc-harmonic vocoder with superframe structure | |
US5966688A (en) | Speech mode based multi-stage vector quantizer | |
EP0409239B1 (en) | Speech coding/decoding method | |
US6510407B1 (en) | Method and apparatus for variable rate coding of speech | |
US6594626B2 (en) | Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook | |
US5457783A (en) | Adaptive speech coder having code excited linear prediction | |
EP1062661B1 (en) | Speech coding | |
EP1131816B1 (en) | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation | |
EP1595248B1 (en) | System and method for enhancing bit error tolerance over a bandwith limited channel | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
US5642368A (en) | Error protection for multimode speech coders | |
JPH0771045B2 (ja) | 音声符号化方法、音声復号方法、およびこれらを使用した通信方法 | |
US5822721A (en) | Method and apparatus for fractal-excited linear predictive coding of digital signals | |
Gersho et al. | Vector quantization techniques in speech coding | |
JPH0651799A (ja) | 音声メッセージ符号化装置と復号化装置とを同期化させる方法 | |
US5708756A (en) | Low delay, middle bit rate speech coder | |
WO1995006310A1 (en) | Adaptive speech coder having code excited linear prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070316 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070802 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130810 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |