JP3747492B2 - 音声信号の再生方法及び再生装置 - Google Patents
音声信号の再生方法及び再生装置 Download PDFInfo
- Publication number
- JP3747492B2 JP3747492B2 JP15372395A JP15372395A JP3747492B2 JP 3747492 B2 JP3747492 B2 JP 3747492B2 JP 15372395 A JP15372395 A JP 15372395A JP 15372395 A JP15372395 A JP 15372395A JP 3747492 B2 JP3747492 B2 JP 3747492B2
- Authority
- JP
- Japan
- Prior art keywords
- encoding parameter
- unit
- audio signal
- encoding
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims description 64
- 238000000034 method Methods 0.000 title claims description 45
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 15
- 239000002131 composite material Substances 0.000 claims 4
- 230000003595 spectral effect Effects 0.000 abstract description 8
- 239000011295 pitch Substances 0.000 description 69
- 239000013598 vector Substances 0.000 description 61
- 238000012545 processing Methods 0.000 description 43
- 238000013139 quantization Methods 0.000 description 38
- 230000015572 biosynthetic process Effects 0.000 description 34
- 238000003786 synthesis reaction Methods 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 33
- 238000006243 chemical reaction Methods 0.000 description 25
- 230000008859 change Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 230000005284 excitation Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Telephone Function (AREA)
Description
【産業上の利用分野】
本発明は、入力音声信号をフレーム単位で区分し、符号化して求めた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法及び再生装置に関する。
【0002】
【従来の技術】
オーディオ信号(音声信号や音響信号を含む)の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。
【0003】
【発明が解決しようとする課題】
ところで、符号励起線形予測(CELP:Code Excited Linear Prediction )符号化に代表されるような上記時間軸上の処理による音声高能率符号化方法では、時間軸のスピード変換(Modify)処理が困難であった。これは、デコーダ出力の後にかなりの演算を行う必要があったためである。
【0004】
また、デコードした線形領域でスピードコントロールを行うため、例えばビットレートの変換などには使えなかった。
【0005】
本発明は、上記実情に鑑みてなされたものであり、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える音声信号の再生方法及び再生装置の提供を目的とする。
【0006】
【課題を解決するための手段】
本発明に係る音声信号の再生方法は、上記課題を解決するために、入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法において、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める工程と、この変更符号化パラメータに基づいて、少なくともサイン波を合成する工程とを有し、上記変更符号化パラメータを求める工程は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする。
【0007】
本発明に係る音声信号の再生装置は、上記課題を解決するために、入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生装置において、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める手段と、この変更符号化パラメータに基づいて、少なくともサイン波を合成する手段とを有し、上記変更符号化パラメータを求める手段は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする。
【0009】
【作用】
入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化して求めた符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求め、この変更符号化パラメータに基づいて少なくともサイン波を合成して音声信号を再生するので、任意のレートのスピードコントロールを可能とする。
【0010】
【実施例】
以下、本発明に係る音声信号の再生方法、再生装置を適用できるいくつかの実施例について図面を参照しながら説明する。
【0011】
先ず、本発明に係る音声信号の再生方法、再生装置に関する実施例を第1実施例として図1に示す。この第1実施例は、入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化して求めた符号化パラメータに基づいて、サイン波及びノイズを合成することにより音声信号を再生する音声信号再生装置1である。
【0012】
特に、この音声信号再生装置1は、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求め、この変更符号化パラメータに基づいて、サイン波及びノイズを合成している。なお、ここでは、上記変更符号化パラメータに基づいてサイン波及びノイズを合成しているが、少なくともサイン波を合成するだけでもよい。
【0013】
この音声信号再生装置1は、入力端子10から入力された音声信号をフレーム単位で区分しこのフレーム単位で符号化して線スペクトル対(LSP)パラメータや、ピッチや、有声音(V)/無声音(UV)や、スペクトル振幅Amのような符号化パラメータを出力する符号化部2と、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める変更符号化パラメータ算出部3と、上記変更符号化パラメータに基づいてサイン波及びノイズを合成し、出力端子37から合成音声信号を出力する復号化部6とを備えてなる。ここで、符号化部2と、変更符号化パラメータ算出部3と、復号化部6は、図示しない制御部により、制御される。
【0014】
特に、この音声信号再生装置1の変更符号化パラメータ算出部3は、図2に示すように、所定フレーム毎に得られる上記符号化パラメータの時間軸を圧縮伸張して上記パラメータの出力周期を変更する周期変更回路4と、この周期変更されたパラメータを補間処理して上記所定フレーム毎の時刻に対応する変更符号化パラメータとする補間処理回路5とからなる。なお、この変更符号化パラメータ算出部3については後述する。
【0015】
先ず、符号化部2について説明するが、この符号化部2と復号化部6では、短期予測残差、例えばLPC残差(線形予測残差)を、ハーモニクスコーディングとノイズで表現する、あるいはマルチバンド励起(MBE)符号化あるいはMBE分析する。
【0016】
従来の符号励起線形予測(CELP)符号化においては、LPC残差を直接時間波形としてベクトル量子化していたが、符号化部2では、残差をハーモニクスコーディングやMBE分析で符号化するため、少ないビット数でハーモニクスのスペクトルエンベロープの振幅をベクトル量子化しても比較的滑らかな合成波形が得られ、LPC合成波形フィルタ出力も非常に聴きやすい音質となる。なお、上記スペクトルエンベロープの振幅の量子化には、本件発明者等が先に提案した特開平6−51800号公報に記載の次元変換あるいはデータ数変換の技術を用い、一定の次元数にしてベクトル量子化を行っている。
【0017】
図3に示す符号化部において、入力端子10に供給された音声信号は、フィルタ11にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析回路12及び逆フィルタリング回路21に送られる。
【0018】
LPC分析回路12は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fsが例えば8kHzのとき、1フレーム間隔は160サンプルで20msec となる。
【0019】
LPC分析回路12からのαパラメータは、α→LSP変換回路13に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0020】
α→LSP変換回路13からのLSPパラメータは、LSPベクトル量子化器14によりベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよい。あるいは、複数フレーム分をまとめてマトリクス量子化してもよい。ここでの量子化では、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータをベクトル量子化している。
【0021】
このLSPベクトル量子化器14からの量子化出力、すなわちLSPベクトル量子化のインデクスは、端子15を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路16に送られる。
【0022】
LSP補間回路16は、上記20msec 毎にベクトル量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をMBE符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると、異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0023】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路17により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路17からの出力は、上記逆フィルタリング回路21に送られ、この逆フィルタリング回路21では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。この逆フィルタリング回路21からの出力は、ハーモニクス/ノイズ符号化回路22、具体的には例えばマルチバンド励起(MBE)分析回路、に送られる。
【0024】
ハーモニクス/ノイズ符号化回路あるいはMBE分析回路22では、逆フィルタリング回路21からの出力を、例えばMBE分析と同様の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスの振幅Amの個数を次元変換して一定数にしている。なお、ピッチ検出には、後述するように、入力されるLPC残差の自己相関を用いている。
【0025】
この回路22として、マルチバンドエクサイテイション(MBE)符号化の分析回路の具体例について、図4を参照しながら説明する。
【0026】
この図4に示すMBE分析回路においては、同時刻(同じブロックあるいはフレーム内)の周波数軸領域に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化している。
【0027】
図4の入力端子111には、上記逆フィルタリング回路21からのLPC残差あるいは線形予測残差が供給されており、このLPC残差の入力に対してMBE分析符号化処理を施すわけである。
【0028】
入力端子111から入力されたLPC残差は、ピッチ抽出部113、窓かけ処理部114、及び後述するサブブロックパワー計算部126にそれぞれ送られる。
【0029】
ピッチ抽出部113では、入力がすでにLPC残差となっているので、この残差の自己相関の最大値を検出することにより、ピッチ検出が行える。このピッチ抽出部113ではオープンループによる比較的ラフなピッチのサーチが行われ、抽出されたピッチデータは高精度(ファイン)ピッチサーチ部116に送られて、クローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。
【0030】
窓かけ処理部114では、1ブロックNサンプルに対して所定の窓関数、例えばハミング窓をかけ、この窓かけブロックを1フレームLサンプルの間隔で時間軸方向に順次移動させている。窓かけ処理部114からの時間軸データ列に対して、直交変換部115により例えばFFT(高速フーリエ変換)等の直交変換処理が施される。
【0031】
サブブロックパワー計算部126では、ブロック内の全バンドが無声音(UV)と判別されたときに、該ブロックの無声音信号の時間波形のエンベロープを示す特徴量を抽出する処理が行われる。
【0032】
高精度(ファイン)ピッチサーチ部116には、ピッチ抽出部113で抽出された整数(インテジャー)値の粗(ラフ)ピッチデータと、直交変換部115により例えばFFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部116では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。
【0033】
すなわち、上記ピッチ抽出部113で求められたラフピッチを中心として、例えば0.25きざみで上下に数種類ずつ用意する。これらの複数種類の微小に異なるピッチの各ピッチに対してそれぞれエラー総和値Σεm を求める。この場合、ピッチが定まるとバンド幅が決まり、周波数軸上データのパワースペクトルと励起信号スペクトルとを用いて上記エラーεm を求め、その全バンドの総和値Σεm を求めることができる。このエラー総和値Σεm を各ピッチ毎に求め、最小となるエラー総和値に対応するピッチを最適のピッチとして決定するわけである。以上のようにして高精度ピッチサーチ部で最適のファイン(例えば 0.25 きざみ)ピッチが求められ、この最適ピッチに対応する振幅|Am |が決定される。このときの振幅値の計算は、有声音の振幅評価部118Vにおいて行われる。
【0034】
以上ピッチのファインサーチの説明においては、全バンドが有声音(Voiced)の場合を想定しているが、上述したようにMBE分析合成系においては、同時刻の周波数軸上に無声音(Unvoiced)領域が存在するというモデルを採用していることから、上記各バンド毎に有声音/無声音の判別を行うことが必要とされる。
【0035】
上記高精度ピッチサーチ部116からの最適ピッチ及び振幅評価部(有声音)118Vからの振幅|Am |のデータは、有声音/無声音判別部117に送られ、上記各バンド毎に有声音/無声音の判別が行われる。この判別のためにNSR(ノイズtoシグナル比)を利用する。
【0036】
ところで、上述したように基本ピッチ周波数で分割されたバンドの数(ハーモニックスの数)は、声の高低(ピッチの大小)によって約8〜63程度の範囲で変動するため、各バンド毎のV/UVフラグの個数も同様に変動してしまう。そこで、本実施例においては、固定的な周波数帯域で分割した一定個数のバンド毎にV/UV判別結果をまとめる(あるいは縮退させる)ようにしている。具体的には、音声帯域を含む所定帯域(例えば0〜4000Hz)をNB 個(例えば12個)のバンドに分割し、各バンド内の上記NSR値に従って、例えば重み付き平均値を所定の閾値Th2 で弁別して、当該バンドのV/UVを判断している。
【0037】
次に、無声音の振幅評価部118Uには、直交変換部115からの周波数軸上データ、ピッチサーチ部116からのファインピッチデータ、有声音振幅評価部118Vからの振幅|Am |のデータ、及び上記有声音/無声音判別部117からのV/UV(有声音/無声音)判別データが供給されている。この振幅評価部(無声音)118Uでは、有声音/無声音判別部117において無声音(UV)と判別されたバンドに関して、再度振幅を求めている。すなわち振幅再評価を行っている。なお、振幅評価部118Uでは、有声音(V)と判別されたバンドに関しては、有声音の振幅評価部118Vから入力された値をそのまま出力している。
【0038】
この振幅評価部(無声音)118Uからのデータは、データ数変換(一種のサンプリングレート変換)部119に送られる。このデータ数変換部119は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数(特に振幅データの数)が異なることを考慮して、一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅|Am |(UVバンドの振幅|Am |UVも含む)データの個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M(例えば44個)のデータに変換している。
【0039】
ここで、データ数変換部119においては、例えば、周波数軸上の有効帯域1ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータを付加してデータ個数をNF 個に拡大した後、帯域制限型のOS 倍(例えば8倍)のオーバーサンプリングを施すことによりOS 倍の個数の振幅データを求め、このOS 倍の個数((mMX+1)×OS 個)の振幅データを直線補間してさらに多くのNM 個(例えば2048個)に拡張し、このNM 個のデータを間引いて上記一定個数M(例えば44個)のデータに変換している。
【0040】
このデータ数変換部119からのデータ(上記一定個数M個の振幅データ)が上記ベクトル量子化器23に送られて、M個のデータから成るベクトルとされるか、あるいは所定個数のデータ毎にまとめられてベクトルとされ、ベクトル量子化が施される。
【0041】
高精度のピッチサーチ部116からのピッチデータについては、上記切換スイッチ27の被選択端子aを介して出力端子28に送っている。これは、ブロック内の全バンドがUV(無声音)となってピッチ情報が不要となる場合に、無声音信号の時間波形を示す特徴量の情報をピッチ情報と切り換えて送っているものであり、本件発明者等が特願平5−185325号の明細書及び図面において開示した技術である。
【0042】
なお、これらの各データは、上記Nサンプル(例えば256サンプル)のブロック内のデータに対して処理を施すことにより得られるものであるが、ブロックは時間軸上を上記Lサンプルのフレームを単位として前進することから、伝送するデータは上記フレーム単位で得られる。すなわち、上記フレーム周期でピッチデータ、V/UV判別データ、振幅データが更新されることになる。また、上記有声音/無声音判別部117からのV/UV判別データについては、上述したように、必要に応じて12バンド程度に低減(縮退)したデータを用いてもよく、全バンド中で1箇所以下の有声音(V)領域と無声音(UV)領域との区分位置を表すデータを用いるようにしてもよい。あるいは、全バンドをV又はUVのどちらかで表現してもよく、また、フレーム単位のV/UV判別としてもよい。
【0043】
ここで、ブロック全体がUV(無声音)と判別された場合には、ブロック内の時間波形を表す特徴量を抽出するために、1ブロック(例えば256サンプル)を、複数個(8個)の小ブロック(サブブロック、例えば32サンプル)に分割して、サブブロックパワー計算部126に送っている。
【0044】
サブブロックパワー計算部126においては、各サブブロック毎の1サンプル当りの平均パワー、あるいはいわゆる平均RMS(Root Mean Square)値についての、ブロック内全サンプル(例えば256サンプル)の平均パワーあるいは平均RMS値に対する割合(比率、レシオ)を算出している。
【0045】
すなわち、例えばk番目のサブブロックの平均パワーを求め、次に1ブロック全体の平均パワーを求めた後、この1ブロックの平均パワーと上記k番目のサブブロックの平均パワーp(k) との比の平方根を算出する。
【0046】
このようにして得られた平方根値を、所定次元のベクトルとみなし、次のベクトル量子化部127においてベクトル量子化を行う。
【0047】
このベクトル量子化部127では、例えば、8次元8ビット(コードブックサイズ=256)のストレートベクトル量子化を行う。このベクトル量子化の出力インデクス(代表ベクトルのコード)UV_Eを、切換スイッチ27の被選択端子bに送っている。この切換スイッチ27の被選択端子aには、上記高精度ピッチサーチ部116からのピッチデータが送られており、切換スイッチ27からの出力は、出力端子28に送られている。
【0048】
切換スイッチ27は、有声音/無声音判別部117からの判別出力信号により切換制御されるようになっており、通常の有声音伝送時、すなわち上記ブロック内の全バンドの内の1つでもV(有声音)と判別されたときには被選択端子aに、ブロック内の全バンドがUV(無声音)と判別されたときには被選択端子bに、それぞれ切換接続される。
【0049】
従って、上記サブブロック毎の正規化された平均RMS値のベクトル量子化出力は、本来はピッチ情報を伝送していたスロットに入れ込んで伝送されることになる。すなわち、ブロック内の全バンドがUV(無声音)と判別されたときにはピッチ情報は不要であり、上記有声音/無声音判別部117からのV/UV判別フラグを見て、全てUVのときに限って、ベクトル量子化出力インデクスUV_Eをピッチ情報の代わりに伝送するようにしている。
【0050】
次に、図3に戻って、ベクトル量子化器23におけるスペクトルエンベロープ(Am)の重み付けベクトル量子化について説明する。
【0051】
ベクトル量子化器23は、L次元、例えば44次元の2ステージ構成とする。
【0052】
すなわち、44次元でコードブックサイズが32のベクトル量子化コードブックからの出力ベクトルの和に、ゲインgi を乗じたものを、44次元のスペクトルエンベロープベクトルxの量子化値として使用する。これは、図5に示すように、2つのシェイプコードブックをCB0、CB1とし、その出力ベクトルをs 0i、s 1j、ただし0≦i,j≦31、とする。また、ゲインコードブックCBgの出力をgl 、ただし0≦l≦31、とする。gl はスカラ値である。この最終出力は、gi(s 0i+s 1j) となる。
【0053】
LPC残差について上記MBE分析によって得られたスペクトルエンベロープAmを一定次元に変換したものをxとする。このとき、xをいかに効率的に量子化するかが重要である。
【0054】
ここで、量子化誤差エネルギEを、
と定義する。この(1)式において、HはLPCの合成フィルタの周波数軸上での特性であり、Wは聴覚重み付けの周波数軸上での特性を表す重み付けのための行列である。
【0055】
現フレームのLPC分析結果によるαパラメータを、αi (1≦i≦P)として、
【0056】
【数1】
【0057】
の周波数特性からL次元、例えば44次元の各対応する点の値をサンプルしたものである。
【0058】
算出手順としては、一例として、1、α1、α2、・・・、αp に0詰めして、すなわち、1、α1、α2、・・・、αp 、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、(re 2+Im 2)1/2 を0〜πに対応する点に対して算出して、その逆数をとる。それをL点、すなわち例えば44点に間引いたものを対角要素とする行列を、
【0059】
【数2】
【0060】
とする。
【0061】
聴覚重み付け行列Wは、
【0062】
【数3】
【0063】
とする。この(3)式で、αi は入力のLPC分析結果である。また、λa、λbは定数であり、一例として、λa=0.4、λb=0.9が挙げられる。
【0064】
行列あるいはマトリクスWは、上記(3)式の周波数特性から算出できる。一例として、1、α1λb、α2λb2、・・・、αpλbp、0、0、・・・、0として256点のデータとしてFFTを行い、0以上π以下の区間に対して(re 2[i]+Im 2[i])1/2 、0≦i≦128、を求める。次に、1、α1λa、α2λa2 、・・・、αpλap 、0、0、・・・、0として分母の周波数特性を256点FFTで0〜πの区間を128点で算出する。これを(re'2[i]+Im'2[i])1/2 、0≦i≦128、とする。
【0065】
【数4】
【0066】
として、上記(3)式の周波数特性が求められる。
【0067】
これをL次元、例えば44次元ベクトルの対応する点について、以下の方法で求める。より正確には、直線補間を用いるべきであるが、以下の例では最も近い点の値で代用している。
【0068】
すなわち、
ω[i]=ω0[nint(128i/L)] 1≦i≦L
ただし、nint(x)は、xに最も近い整数を返す関数
である。
【0069】
また、上記Hに関しても同様の方法で、h(1)、h(2)、・・・、h(L)を求めている。すなわち、
【0070】
【数5】
【0071】
となる。
【0072】
ここで、他の例として、FFTの回数を減らすのに、H(z)W(z)を先に求めてから、周波数特性を求めてもよい。すなわち、
【0073】
【数6】
【0074】
この(5)式の分母を展開した結果を、
【0075】
【数7】
【0076】
とする。ここで、1、β1、β2、・・・、β2p、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、振幅の周波数特性を、
【0077】
【数8】
【0078】
とする。これより、
【0079】
【数9】
【0080】
これをL次元ベクトルの対応する点について求める。上記FFTのポイント数が少ない場合は、直線補間で求めるべきであるが、ここでは最寄りの値を使用している。すなわち、
【0081】
【数10】
【0082】
である。これを対角要素とする行列をW’とすると、
【0083】
【数11】
【0084】
となる。(6)式は上記(4)式と同一のマトリクスとなる。
【0085】
このマトリクス、すなわち重み付き合成フィルタの周波数特性を用いて、上記(1)を書き直すと、
【0086】
【数12】
【0087】
となる。
【0088】
ここで、シェイプコードブックとゲインコードブックの学習法について説明する。
【0089】
先ず、CB0に関しコードベクトルs 0cを選択する全てのフレームkに関して歪の期待値を最小化する。そのようなフレームがM個あるとして、
【0090】
【数13】
【0091】
を最小化すればよい。この(8)式中で、W'kはk番目のフレームに対する重み、x k はk番目のフレームの入力、gk はk番目のフレームのゲイン、s 1kはk番目のフレームについてのコードブックCB1からの出力、をそれぞれ示す。
【0092】
この(8)式を最小化するには、
【0093】
【数14】
【0094】
【数15】
【0095】
次に、ゲインに関しての最適化を考える。
【0096】
ゲインのコードワードgc を選択するk番目のフレームに関しての歪の期待値Jg は、
【0097】
【数16】
【0098】
上記(11)式及び(12)式は、シェイプs 0i、s 1i及びゲインgi 、0≦i≦31の最適なセントロイドコンディション(Centroid Condition)、すなわち最適なデコーダ出力を与えるものである。なお、s 1iに関してもs 0iと同様に求めることができる。
【0099】
次に、最適エンコード条件(Nearest Neighbour Condition )を考える。
【0100】
歪尺度の上記(7)式、すなわち、E=‖W'(x−gl(s 0i+s 1j))‖2 を最小化するs 0i、s 1jを、入力x、重みマトリクスW' が与えられる毎に、すなわち毎フレームごとに決定する。
【0101】
本来は、総当り的に全てのgl (0≦l≦31)、s 0i (0≦i≦31)、s 1j (0≦j≦31)の組み合せの、32×32×32=32768通りについてEを求めて、最小のEを与えるgl 、s 0i、s 1jの組を求めるべきであるが、膨大な演算量となるので、この符号化部2では、シェイプとゲインのシーケンシャルサーチを行っている。なお、s 0iとs 1jとの組み合せについては、総当りサーチを行うものとする。これは、32×32=1024通りである。以下の説明では、簡単化のため、s 0i+s 1jをs m と記す。
【0102】
上記(7)式は、E=‖W'(x−glsm)‖2 となる。さらに簡単のため、x w=W'x、s w=W's m とすると、
【0103】
【数17】
【0104】
となる。従って、gl の精度が充分にとれると仮定すると、
【0105】
【数18】
【0106】
という2つのステップに分けてサーチすることができる。元の表記を用いて書き直すと、
【0107】
【数19】
【0108】
となる。この(15)式が最適エンコード条件(Nearest Neighbour Condition) である。
【0109】
ここで上記(11)、(12)式の条件(Centroid Condition)と、(15)式の条件を用いて、一般化ロイドアルゴリズム(Generalized Lloyd Algorithm:GLA)によりコードブック(CB0、CB1、CBg)を同時にトレーニングできる。
【0110】
ところで、図3において、ベクトル量子化器23は、切換スイッチ24を介して、有声音用コードブック25Vと、無声音用コードブック25Uとに接続されており、回路22からのV/UV判別出力に応じて切換スイッチ24が切換制御されることにより、有声音時には有声音用コードブック25Vを用いたベクトル量子化が、無声音時には無声音用コードブック25Uを用いたベクトル量子化がそれぞれ施されるようになっている。
【0111】
このように有声音(V)/無声音(UV)の判断によってコードブックを切り換える意味は、上記(11)、(12)式の新たなセントロイドの算出において、W'kとgl とによる重み付き平均を行っているため、著しく異なるW'kとgl とを同時に平均化してしまうのは好ましくないからである。
【0112】
なお、この符号化部2では、W’として、入力xのノルムで割り込んだW’を使用している。すなわち、上記(11)、(12)、(15)式において、事前にW’にW'/‖x‖ を代入して使用している。
【0113】
V/UVでコードブックを切り換える場合は、同様の方法でトレーニングデータを振り分けて各々のトレーニングデータからV(有声音)用、UV(無声音)用のコードブックを作ればよい。
【0114】
また、この符号化部2では、V/UVのビット数を減らすため、単一バンド励起(SBE)とし、Vの含有率が5割を越える場合は有声音(V)フレーム、それ以外は無声音(UV)フレームとしている。
【0115】
なお、図6、図7に入力x及び重みW'/‖x‖ の平均値を、V(有声音)のみ、UV(無声音)のみでまとめたものと、VとUVとを区別せずにひとまとめにしたものとを示す。
【0116】
図6より、x自体のf軸上のエネルギ分布は、V、UVで大きく差はなく、ゲインの(‖x‖)平均値が大きく異なるのみであるように見える。しかし、図7から明らかなように、VとUVでは重みの形が異なり、VではUVに比べより低域にビットアサインを増やすような重みとなっている。これが、VとUVとを分けてトレーニングすることでより高性能なコードブックが作成される根拠である。
【0117】
次に、図8は、V(有声音)のみ、UV(無声音)のみ、VとUVとをまとめたものの3つの例について、それぞれのトレーニングの様子を示している。すなわち、図8の曲線aがVのみの場合で終値が3.72であり、曲線bがUVのみで終値が7.011であり、曲線cがVとUVとをまとめたもので終値が6.25である。
【0118】
この図8から明らかなように、VとUVとの各コードブックのトレーニングを分離することで出力の歪の期待値が減少する。曲線bのUVのみの場合で若干悪化しているが、V/UVの頻度としては、Vの区間が長いので、トータルとしては改善される。ここで、VとUVの頻度の一例として、V及びUVのトレーニングデータ長を1としたとき、実測によるとVのみの割合が0.538、UVのみの割合が0.462であり、図8の各曲線a、bの終値より、
3.72×0.538+7.011×0.462=5.24
がトータルの歪の期待値となり、VとUVとをまとめてトレーニングする場合の歪の期待値の6.25に比べて、上記値5.24は、約0.76dBの改善がなされたことになる。
【0119】
トレーニングの様子から判断すると、前述のように0.76dB程度の改善であるが、実際にトレーニングセット外の音声(男女4人ずつ)を処理し、量子化を行わないときとのSNRあるいはSN比をとると、コードブックをV、UVに分割することで平均して1.3dB程度のセグメンタルSNRの向上が確認された。これは、Vの比率がUVに比べてかなり高いためと考えられる。
【0120】
ところで、ベクトル量子化器23でのベクトル量子化の際の聴覚重み付けに用いられる重みW’については、上記(6)式で定義されているが、過去のW’も加味して現在のW’を求めることにより、テンポラルマスキングも考慮したW’が求められる。
【0121】
上記(6)式中のwh(1),wh(2),・・・,wh(L)に関して、時刻n、すなわち第nフレームで算出されたものをそれぞれwhn(1),whn(2),・・・,whn(L) とする。
【0122】
時刻nで過去の値を考慮した重みをAn(i)、1≦i≦L と定義すると、
とする。ここで、λは例えばλ=0.2とすればよい。このようにして求められたAn(i)、1≦i≦L について、これを対角要素とするマトリクスを上記重みとして用いればよい。
【0123】
次に、図1に戻り変更符号化パラメータ算出部3について説明する。音声信号再生装置1は、符号化部2が出力した上記符号化パラメータを変更符号化パラメータ算出部3によりスピード変換して変更符号化パラメータを算出し、復号化部6でデコードして、例えば固体録音した内容をリアルタイムの倍のスピードで再生する。このとき、再生スピードを高速にしてもピッチ、音韻が不変であるため、かなりの高速再生を行っても内容を聞きとることができる。
【0124】
変更符号化パラメータ算出部3は、上記符号化パラメータをスピード変換しているため、デコーダ出力後の処理が不要で、かつ同様のアルゴリズムで異なるレートでの固定レートに容易に対応することもできる。
【0125】
以下、図9及び図11のフローチャートを参照しながらこの音声信号再生装置1の変更符号化パラメータ算出部3の動作を説明する。変更符号化パラメータ算出部3は、図2を参照して上述したように、周期変更回路4と補間処理回路5からなる。
【0126】
先ず、図9のステップS1に示すように、周期変更回路4には、入力端子15,28,29,26を介してLSP,ピッチ,V/UV,Amのような符号化パラメータが供給される。ここで、ピッチをpch[n],V/UVをvuv[n],Amをam[n][l],LSPをlsp[n][i]とする。また、変更符号化パラメータ算出部3で最終的に算出される変更符号化パラメータをmod_pch[m],mod_vuv[m],mod_am[m][l],mod_lsp[m][i]とする。lはハーモニクス数、iはLSP次数である。n,mは、時間軸のインデクスに相当するフレームナンバーに対応する。nは時間軸変更前、mは時間軸変更後である。なお、0≦n<N1,0≦m<N2であり、n,mともに例えば20msecをフレームインターバルとするフレームのインデクスである。
【0127】
上述したようにlはハーモニクス数であるが、真のハーモニクスの数に対応するam[n][l]に戻してから実行しても、あるいはデータ数変換で一定の個数のam[n][l](l=0〜43)の状態で行っても良い。つまり、データ数変換をデコータで解く前でも後でもよい。
【0128】
次に、周期変更回路4は、ステップS2に示すように、オリジナルの時間長となるフレーム数をN1とし、変更後の時間長となるフレーム数をN2としてから、ステップS3に示すように、N1の音声をN2の音声に時間軸圧縮する。すなわち、周期変更回路4での時間軸圧縮の比をspdとすると、spdをN2/N1として求める。
【0129】
次に、補間処理回路5は、ステップS4に示すように、時間軸変更後の時間軸のインデクスに相当するフレームナンバーに対応するmを2とする。
【0130】
次に、補間処理回路5はステップS5に示すように、二つのフレームfr0,fr1と、該二つのフレームfr0,fr1とm/spdとの差left,rightとを求める。上記符号化パラメータのpch,vuv,am,lspを*とするときmod_*[m]は、
mod_*[m]=*[m/spd] (0≦m<N2)
という一般式で表せる。しかし、m/spdは、整数にはならないので、
fr0=L m/spd 」
fr1=f0+1
の2フレームから補間して、m/spdにおける変更符号化パラメータを作る。ここで、フレームfr0とm/spdとフレームfr1との間には、図10に示すような関係、すなわち、
left=m/spd−fr0
right=fr1−m/spd
が成立する。
【0131】
この図10におけるm/spdのときの符号化パラメータ、すなわち変更符号化パラメータをステップS6に示すように、補間処理によって作ればよい。単純に直線補間により求めると、
mod_*[m]=*[fr0]×right+*[fr1]×left
となる。
【0132】
しかし、2つのフレームfr0,fr1間での補間では、それらのフレームが有声音(V)と,無声音(UV)というように異なる場合には、上記一般式を適用できない。このため、2つのフレームfr0,fr1間における有声音(V)と,無声音(UV)との関係によって、補間処理回路5は、図11のステップS11以降に示すように、上記符号化パラメータの求め方を変える。
【0133】
先ず、ステップS11に示すように2つのフレームfr0,fr1が有声音(V),有声音(V)であるか否かを判断する。ここで、2つのフレームfr0,fr1が共に、有声音(V)であると判断すると、ステップS12に進み、全てのパラメータを線形補間して以下のように表す。
【0134】
mod_pch[m]=pch[fr0]×right+pch[fr1]×left
mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left
ただし、0≦l<Lである。ここで、Lはハーモニクスとしてとりうる最大の数である。また、am[n][l]は、ハーモニクスの存在しない位置では0を入れておく。フレームfr0とフレームfr1とで、ハーモニクスの数が異なる時には、余った方のハーモニクスは、相方を0として補間する。または、デコーダ側でデータ数変換器を通す前であれば、0≦l<LのL=43といった固定の値でもよい。
【0135】
mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left
ただし、0≦i<Iである。ここで、IはLSPの次数であり、通常は10を使用する。
【0136】
mod_vuv[m]=1
VUVの判定で1は有声音(V)を、0は無声音(UV)を意味する。
【0137】
次に、ステップS11で2つのフレームfr0,fr1が共に有声音(V)でないと判断すると、ステップS13に示すような判断、すなわち、2つのフレームfr0,fr1が共に無声音(UV)であるか否かを判断する。ここで、YES(共に無声音である。)となると、補間処理回路5は、ステップS14に示すように、pchを固定値とし、またamとlspを線形補間により以下のように求める。
【0138】
mod_pch[m]=MaxPitch
このように無声音のときは、Pitchの値を例えばMaxPitch=148のように、最大値等の固定値にはりつける。
【0139】
mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left
ただし、0≦l<MaxPitch/2である。
【0140】
mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left
ただし、0≦i<Iである。
【0141】
mod_vuv[m]=0
次に、2つのフレームfr0,fr1が共に、無声音でない場合、ステップS15に進み、フレームfr0が有声音(V)で,fr1が無声音(UV)であるか否かを判断する。ここでYES(フレームfr0が有声音(V)で,fr1が無声音(UV)である。)となると、ステップS16に進み、NO(フレームfr0が無声音(UV)であり、fr1が有声音(V)である。)となると、ステップS17に進む。
【0142】
ステップS16以降の処理では、二つのフレームfr0,fr1が、例えば有声音(V),無声音(UV)のように、異なった場合について説明している。これは、例えば有声音(V),無声音(UV)のように、異なった2つのフレームfr0,fr1間でパラメータを補間すると意味のないものになってしまうためである。この場合、補間は行わずに、時刻m/spdに近い方のフレームのパラメータの値を用いる。
【0143】
フレームfr0が有声音(V),フレームfr1が無声音(UV)である場合、ステップ16に進む。このステップS16では、図10に示す上記left(=m/spd−fr0)と上記right(=fr1−m/spd)の大きさを比較している。これにより、m/spdに対してどちらのフレームfr0またはフレームfr1が近いのかを判断している。そして、上述したように近い方のパラメータの値を用いて変更符号化パラメータを算出する。
【0144】
すなわち、ステップS16でYESを判断すると、上記rightが大きいのであるから、フレームfr1の方が遠いので、ステップS18に示すように近い方のフレームfr0側のパラメータを用いて、
mod_pch[m]=pch[fr0]
mod_am[m][l]=am[fr0][l] ,(ただし、0≦l<Lである。)
mod_lsp[m][i]=lsp[fr0][i] ,(ただし、0≦i<Iである。)
mod_vuv[m]=1
とする。
【0145】
また、ステップS16でNOを判断すると、left≧rightとなり、フレームfr1の方が近いので、ステップS19に進み、ピッチを最大値にし、他のパラメータについてはfr1側のパラメータを用いて、
mod_pch[m]=MaxPitch
mod_am[m][l]=am[fr1][l] ,(ただし、0≦l<MaxPitch/2である。)
mod_lsp[m][i]=lsp[fr1][i],(ただし、0≦i<Iである。)
mod_vuv[m]=0
とする。
【0146】
次に、ステップS17では、ステップS15で2つのフレームfr0,fr1が無声音(UV),有声音(V)であるという判断を受けて、上記ステップS16と同様の判断を行う。すなわち、この場合も、補間は行わずに、時刻m/spdに近い方のフレームのパラメータの値を用いる。
【0147】
ステップS17でYESを判断すると、ステップS20に示すように、ピッチを最大値にし、他のパラメータについては近い方のフレームfr0側のパラメータを用いて、
mod_pch[m]=MaxPitch
mod_am[m][l]=am[fr0][l],(ただし、0≦l<MaxPitch/2である。)
mod_lsp[m][i]=lsp[fr0][i],(ただし、0≦i<Iである。)
mod_vuv[m]=0
とする。
【0148】
また、ステップS17でNOを判断すると、left≧rightとなり、フレームfr1の方が近いので、ステップS21に進み、fr1側のパラメータを用いて、
mod_pch[m]=pch[fr1]
mod_am[m][l]=am[fr1][l],(ただし、0≦l<Lである。)
mod_lsp[m][i]=lsp[fr1][i] ,(ただし、0≦i<Iである。)
mod_vuv[m]=1
とする。
【0149】
このように2つのフレームfr0,fr1間における有声音(V)と,無声音(UV)との関係によって、補間処理回路5は、図9に示すステップS6の補間処理を異ならせる。このステップS6の補間処理が終了すると、ステップS7に進み、mをインクリメントする。そして、このmがN2に等しくなるまで、ステップS5,ステップS6の処理を繰り返す。
【0150】
なお、本来は、これ以外にも、UV部分の短時間rmsのシーケンスを、ノイズのゲインコントロールに用いているが、ここではこのパラメータは1で固定する。
【0151】
以上に説明したような変更符号化パラメータ算出部3の動作をまとめると、図12に示すようになる。例えば20msecで符号化部2が抽出している符号化パラメータのモデルを図12の(A)に示す。変更符号化パラメータ算出部3の周期変更回路4は、図12の(B)に示すように、15msecとし、図12の(B)に示すように、時間圧縮する。そして、上述したように、二つのフレームfR0,fr1のV/UVの状態に応じた補間処理により、図12の(C)に示すような変更符号化パラメータを算出する。
【0152】
変更符号化パラメータ算出部3は、周期変更回路4と補間処理回路5を逆の順番として、図13の(A)に示す符号化パラメータを先ず図13の(B)に示すように補間してから、図13の(C)に示すように圧縮して変更符号化パラメータを算出してもよい。
【0153】
変更符号化パラメータ算出部3からの変更符号化パラメータは、図1に示す復号化部6に供給される。この復号化部6は、上記変更符号化パラメータに基づいてサイン波及びノイズを合成し、合成音を出力端子37から導出する。
【0154】
以下、復号化部6について図14及び図15を参照しながら説明する。先ず、復号化部6に供給されてくるパラメータが通常の符号化パラメータであるとして説明しておく。
【0155】
この図14において、端子31には、上記図3の端子15からの出力に相当するLSPのベクトル量子化出力、いわゆるインデクスが供給されている。
【0156】
この入力信号は、LSP逆ベクトル量子化器32に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、LSP補間回路33に送られてLSPの補間処理が施された後、LSP→α変換回路34でLPC(線形予測符号)のαパラメータに変換され、このαパラメータが合成フィルタ35に送られる。
【0157】
また、図14の端子41には、上記図3のエンコーダ側の端子26からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードワードのインデックスデータが供給され、端子43には、上記図3の端子28からのピッチ情報やUV時のブロック内の時間波形の特徴量を表すデータが供給され、端子46には、上記図3の端子29からのV/UV判別データが供給されている。
【0158】
端子41からのAmのベクトル量子化されたデータは、逆ベクトル量子化器42に送られて逆ベクトル量子化が施され、スペクトルエンベロープのデータとなって、ハーモニクス/ノイズ合成回路、あるいはマルチバンド励起(MBE)合成回路45に送られている。この合成回路45には、端子43からのデータが上記V/UV判別データに応じて切換スイッチ44により上記ピッチデータとUV時の波形の特徴量データとに切り換えられて供給されており、また、端子46からのV/UV判別データも供給されている。
【0159】
この合成回路45の具体例としてのMBE合成回路の構成については、図15を参照しながら後述する。
【0160】
合成回路45からは、上述した図3の逆フィルタリング回路21からの出力に相当するLPC残差データが取り出され、これが合成フィルタ回路35に送られてLPCの合成処理が施されることにより時間波形データとなり、さらにポストフィルタ36でフィルタ処理された後、出力端子37より再生された時間軸波形信号が取り出される。
【0161】
次に、上記合成回路45の一例としてのMBE合成回路構成の具体例について、図15を参照しながら説明する。
【0162】
この図15において、入力端子131には、図14のスペクトルエンベロープの逆ベクトル量子化器42からのスペクトルエンベロープデータ、実際にはLPC残差のスペクトルエンベロープデータが供給されている。各端子43、46に供給されるデータは図14と同様である。なお端子43に送られたデータは、切換スイッチ44で切換選択され、ピッチデータが有声音合成部137へ、UV波形の特徴量データが逆ベクトル量子化器152へそれぞれ送られている。
【0163】
端子131からの上記LPC残差のスペクトル振幅データは、データ数逆変換部136に送られて逆変換される。このデータ数逆変換部136では、上述した図4のデータ数変換部119と対照的な逆変換が行われ、得られた振幅データが有声音合成部137及び無声音合成部138に送られる。端子43から切換スイッチ44の被選択端子aを介して得られた上記ピッチデータは、有声音合成部137及び無声音合成部138に送られる。また端子46からの上記V/UV判別データも、有声音合成部137及び無声音合成部138に送られる。
【0164】
有声音合成部137では例えば余弦(cosine)波合成あるいは正弦(sine)波合成により時間軸上の有声音波形を合成し、無声音合成部138では例えばホワイトノイズをバンドパスフィルタでフィルタリングして時間軸上の無声音波形を合成し、これらの各有声音合成波形と無声音合成波形とを加算部141で加算合成して、出力端子142より取り出すようにしている。
【0165】
また、V/UV判別データとして上記V/UVコードが伝送された場合には、このV/UVコードに応じて全バンドを1箇所の区分位置で有声音(V)領域と無声音(UV)領域とに区分することができ、この区分に応じて、各バンド毎のV/UV判別データを得ることができる。ここで、分析側(エンコーダ側)で一定数(例えば12程度)のバンドに低減(縮退)されている場合には、これを解いて(復元して)、元のピッチに応じた間隔で可変個数のバンドとすることは勿論である。
【0166】
以下、無声音合成部138における無声音合成処理を説明する。
【0167】
ホワイトノイズ発生部143からの時間軸上のホワイトノイズ信号波形を窓かけ処理部144に送って、所定の長さ(例えば256サンプル)で適当な窓関数(例えばハミング窓)により窓かけをし、STFT処理部145によりSTFT(ショートタームフーリエ変換)処理を施すことにより、ホワイトノイズの周波数軸上のパワースペクトルを得る。このSTFT処理部145からのパワースペクトルをバンド振幅処理部146に送り、上記UV(無声音)とされたバンドについて上記振幅|Am |UVを乗算し、他のV(有声音)とされたバンドの振幅を0にする。このバンド振幅処理部146には上記振幅データ、ピッチデータ、V/UV判別データが供給されている。
【0168】
バンド振幅処理部146からの出力は、ISTFT処理部147に送られ、位相は元のホワイトノイズの位相を用いて逆STFT処理を施すことにより時間軸上の信号に変換する。ISTFT処理部147からの出力は、パワー分布整形部156を介し、後述する乗算部157を介して、オーバーラップ加算部148に送られ、時間軸上で適当な(元の連続的なノイズ波形を復元できるように)重み付けをしながらオーバーラップ及び加算を繰り返し、連続的な時間軸波形を合成する。このオーバーラップ加算部148からの出力信号が上記加算部141に送られる。
【0169】
ブロック内のバンドの少なくとも1つがV(有声音)の場合には、上述したような処理が各合成部137、138にて行われるわけであるが、ブロック内の全バンドがUV(無音声)と判別されたときには、切換スイッチ44が被選択端子b側に切換接続され、ピッチ情報の代わりに無声音信号の時間波形に関する情報が逆ベクトル量子化部152に送られる。
【0170】
すなわち、逆ベクトル量子化部152には、上記図4のベクトル量子化部127からのデータに相当するデータが供給される。これを逆ベクトル量子化することにより、上記無音声信号波形の特徴量抽出データが取り出される。
【0171】
ここで、ISTFT処理部147からの出力は、パワー分布整形部156により時間軸方向のエネルギ分布の整形処理を行った後、乗算部157に送られている。この乗算部157では、上記逆ベクトル量子化部152からスムージング部(スムージング処理部)153を介して得られた信号と乗算されている。なお、スムージング部153でスムージング処理を施すことで、耳障りな急激なゲイン変化を抑えることができる。
【0172】
以上のようにして合成された無声音信号が無声音合成部138から取り出され、上記加算部141に送られて、有声音合成部137からの信号と加算され、出力端子142よりMBE合成出力としてのLPC残差信号が取り出される。
【0173】
このLPC残差信号が、上記図14の合成フィルタ35に送られることにより、最終的な再生音声信号が得られるわけである。
【0174】
この音声信号再生装置1は、図示しない制御部の制御に応じて、上記変更符号化パラメータ算出部3に変更符号化パラメータを算出させ、この変更符号化パラメータを用いて元の音声信号の時間軸を圧縮伸長した音声を合成している。
この場合、変更符号化パラメータ算出部3からの上記mod_lsp[m][i]は、LSP逆ベクトル量子化回路32の出力の代わりに使用される。上記mod_lsp[m][i]を本来の逆ベクトル量子化値の代わりに使用する。上記mod_lsp[m][i]は、LSP補間回路33に送られてLSPの補間処理が施された後、LSP→α変換回路34でLPC(線形予測符号)のαパラメータに変換され、このαパラメータが合成フィルタ35に送られる。
【0175】
また、データ数変換回路136の出力又は入力の代わりに上記mod_am[m][l]が、端子43にはmod_pch[m]が、端子46には上記mod_vuv[m]が供給される。
【0176】
上記mod_am[m][l]は、スペクトルエンベロープのデータとして、ハーモニクス/ノイズ合成回路45に送られている。この合成回路45には、端子43からのmod_pch[m]が判別データに応じて切換スイッチ44により供給されており、また、端子46からの上記mod_vuv[m]も供給されている。
【0177】
合成回路45は、上述したような図15に示すような構成により、上記変更符号化パラメータを用いて、元の音声信号の時間軸を圧縮伸長した音声を合成し、端子37から導出している。
【0178】
このように、この音声信号再生装置1は、変更符号化パラメータmod_*[m]の配列(0≦m<N2)を本来の配列*[n](0≦n<N1)のかわりにデコードしている。デコード時のフレーム間隔は従来通り例えば20msecのように固定である。このため、N2<N1の時には、時間軸圧縮となり、スピードアップとなる。他方、N2>N1の時には、時間軸伸長となり、スピードダウンとなる。
【0179】
上記時間軸変更を行っても、瞬時スペクトル、ピッチが不変である為、0.5≦spd≦2程度以上の広い範囲の変更を行っても劣化が少ない。
【0180】
この方式では、最終的に得られたパラメータ列を本来のスペーシング(20msec)に並べてデコードするため、任意のスピードコントロール(上下)が簡単に実現できる。又、スピードアップとスピードダウンが区別なしに、同一の処理で可能である。
【0181】
このため、例えば固体録音した内容をリアルタイムの倍のスピードで再生できる。このとき、再生スピードを高速にしてもピッチ、音韻が不変であるため、かなりの高速再生を行っても内容を聞きとることができる。また、音声コーデックとして、上記符号励起線形予測(CELP)符号化を用いたときに必要とされたデコード出力後の演算処理のような付加的な処理を不要とする。
【0182】
なお、上記第1実施例では、変更符号化パラメータ算出部3を復号化部6と切り離した構成としたが、復号化部6内に設けてもよい。
【0183】
なお、上記第1実施例の音声信号再生装置1の変更符号化パラメータ算出部3が行うパラメータ算出において、amに関する補間処理は、ベクトル量子化の値、もしくはベクトル量子化された値を逆ベクトル量子化して得られた値に対して行われる。
【0184】
次に、本発明に係る音声信号の伝送方法に関する実施例を第2実施例として説明する。この第2実施例は、図16に示すように、入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化することにより符号化パラメータを求め、この符号化パラメータを補間処理して求めた変更符号化パラメータを伝送する送信側51と、上記変更符号化パラメータを受信して、サイン波及びノイズを合成する受信側56とからなる音声信号伝送装置50である。
【0185】
すなわち、この音声信号伝送装置50は、送信側51に、入力端子52から入力された入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化することにより符号化パラメータを抽出する符号化部53と、上記符号化パラメータを補間処理して変更符号化パラメータを求める補間部54と、上記変更符号化パラメータを送信する送信部55とを備え、また、受信側56に、受信部57と、上記変更符号化パラメータを補間する補間部58と、補間されたパラメータに基づいてサイン波及びノイズを合成することにより出力端子60から合成音声信号を出力する復号化部59とを備える。
【0186】
符号化部53と復号化部59の基本的な動作は、上記第1実施例の音声信号再生装置のそれと同様であるので、ここでは詳細な説明を省略する。
【0187】
送信側51の動作について図17のフローチャートを参照しながら説明する。なお、このフローチャートは、符号化部53の符号化処理と、補間部54の補間処理とをまとめて示している。
【0188】
符号化部53は、ステップS31及びステップS33に示すように、LSP、ピッチPch、V/UV、amからなる符号化パラメータを抽出している。特に、LSPについては、ステップS31に示すように補間部54で補間,リアレンジしてから、ステップS32に示すように量子化し、また、ピッチPch、V/UV、amについては、ステップS34で補間,リアレンジしてから、ステップS35に示すように量子化している。これらの量子化データは、送信部55を介して受信側56に伝送される。
【0189】
受信側56で受信部57を介して受け取った上記量子化データは、補間部58に供給され、ステップS36に示すようにパラメータの補間,リアレンジが行われた後、ステップS37に示すように復号化部59で合成される。
【0190】
このように、音声信号伝送装置50は、時間軸圧縮によるスピードアップについては、パラメータの補間を行い、伝送時におけるパラメータのフレームインターバルを変更している。なお、受信時に例えば20msecのような固定フレームインターバルにおけるパラメータを求めることによって再生処理を行っているため、スピードコントロールのためのアルゴリズムが即ビットレートの変更に使える。
【0191】
すなわち、スピードコントロールとして上記パラメータ補間を使う時は、パラメータ補間はデコード内で行われることを想定しているが、もしこの処理をエンコーダで行い時間軸圧縮した(間引いた)データをエンコードし、デコーダで時間軸伸長(補間)を行えば、spdの割合で伝送ビットレートを調節できる。
【0192】
例えば、1.975kbpsの伝送レートの場合、spd=0.5とセットして倍速にしてエンコードすると、本来10秒のスピードが5秒のものとして、エンコードされるので、伝送レートは1.975×0.5kbpsとなる。
【0193】
また、図18に示すように、符号化部53で得られた図18の(A)に示す符号化パラメータを、補間部54で図18の(B)に示すように、例えば30msecのように、任意の間隔となるように補間,リアレンジしなおしてから量子化し、受信側56の補間部58で図18の(C)に示すように20msecとなるようにパラメータの補間,リアレンジを行い、復号化部59で合成している。
【0194】
デコーダ内に同様のスキームを持っていれば、スピードを元に戻して(オリジナルのスピード)で再生することもできるし、高速(低速)のまま聞くことももちろんできる。すなわち、スピードコントロールを可変ビットレートコーデックとして使うこともできる。
【0195】
【発明の効果】
本発明に係る音声信号の再生方法は、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える。
【0196】
また、本発明に係る音声信号の再生装置は、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える。
【図面の簡単な説明】
【図1】本発明の第1実施例となる音声信号再生装置の概略構成を示すブロック図である。
【図2】上記音声信号再生装置の概略構成を示すブロック図である。
【図3】上記音声信号再生装置の符号化部を示すブロック図である。
【図4】上記符号化部のハーモニクス/ノイズ符号化回路の具体例としてのマルチバンドエクサイテイション(MBE)分析回路の構成を示すブロック図である。
【図5】ベクトル量子化器の構成を説明するための図である。
【図6】入力xの平均を有声音、無声音、有声音と無声音をまとめたものについてそれぞれ示すグラフである。
【図7】重みW’/‖x‖の平均を有声音、無声音、有声音と無声音をまとめたものについてそれぞれ示すグラフである。
【図8】ベクトル量子化に用いられるコードブックについて、有声音、無声音、有声音と無声音をまとめた場合のそれぞれのトレーニングの様子を示すグラフである。
【図9】上記音声信号再生装置に用いられる変更符号化パラメータ算出回路のおおまかな動作を示すフローチャートである。
【図10】変更符号化パラメータ算出回路で得られる変更符号化パラメータを時間軸上で表現するための模式図である。
【図11】上記音声信号再生装置に用いられる変更符号化パラメータ算出回路の詳細な動作を示すフローチャートである。
【図12】上記変更符号化パラメータ算出部の具体的動作を説明するための模式図である。
【図13】上記変更符号化パラメータ算出部の他の具体的動作を説明するための模式図である。
【図14】上記音声信号再生装置に用いる復号化部の概略構成を示すブロック図である。
【図15】上記復号化部に用いられるハーモニクス/ノイズ合成回路の具体例としてのマルチバンドエクサイテイション(MBE)合成回路の構成を示すブロック図である。
【図16】本発明の第2実施例となる音声信号伝送装置の概略構成を示すブロック図である。
【図17】上記音声信号伝送装置の送信側の動作を示すフローチャートである。
【図18】上記音声信号伝送装置の動作を説明するための模式図である。
【符号の説明】
1 音声信号再生装置
2 符号化部
3 変更符号化パラメータ算出部
4 周期変更回路
5 補間処理回路
6 復号化部
Claims (4)
- 入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法において、
上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める工程と、
この変更符号化パラメータに基づいて、少なくともサイン波を合成する工程とを有し、
上記変更符号化パラメータを求める工程は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする
ことを特徴とする音声信号の再生方法。 - 上記符号化パラメータとして、上記入力音声信号についての短期予測残差をサイン合成波とノイズとで表現し、これらのサイン合成波とノイズとのそれぞれの周波数スペクトル情報を符号化して得られたものを用いることを特徴とする請求項1記載の音声信号の再生方法。
- 入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生装置において、
上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める手段と、
この変更符号化パラメータに基づいて、少なくともサイン波を合成する手段とを有し、
上記変更符号化パラメータを求める手段は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする
ことを特徴とする音声信号の再生装置。 - 上記符号化パラメータとして、上記入力音声信号についての短期予測残差をサイン合成波とノイズとで表現し、これらのサイン合成波とノイズとのそれぞれの周波数スペクトル情報を符号化して得られたものを用いることを特徴とする請求項3記載の音声信号の再生装置。
Priority Applications (17)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15372395A JP3747492B2 (ja) | 1995-06-20 | 1995-06-20 | 音声信号の再生方法及び再生装置 |
CA002179228A CA2179228C (en) | 1995-06-20 | 1996-06-17 | Method and apparatus for reproducing speech signals and method for transmitting same |
US08/664,512 US5926788A (en) | 1995-06-20 | 1996-06-17 | Method and apparatus for reproducing speech signals and method for transmitting same |
MYPI96002452A MY116532A (en) | 1995-06-20 | 1996-06-18 | Method and apparatus for reproducing speech signals and method for transmitting same |
EP96304568A EP0751493B1 (en) | 1995-06-20 | 1996-06-19 | Method and apparatus for reproducing speech signals and method for transmitting same |
AU56054/96A AU721596B2 (en) | 1995-06-20 | 1996-06-19 | Method and apparatus for reproducing speech signals and method for transmitting the same |
DE69614782T DE69614782T2 (de) | 1995-06-20 | 1996-06-19 | Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung |
MX9602391A MX9602391A (es) | 1995-06-20 | 1996-06-19 | Metodo y aparato para reproducir señales de conversacion y metodo para transmitirlas. |
ES96304568T ES2159688T3 (es) | 1995-06-20 | 1996-06-19 | Metodo y aparato para reproducir señales de voz y metodo para transmitirlas. |
CNB961110422A CN1154976C (zh) | 1995-06-20 | 1996-06-19 | 再现语音信号的方法和装置以及传输该信号的方法 |
BRPI9602835-1A BR9602835B1 (pt) | 1995-06-20 | 1996-06-19 | processo e aparelho para reproduzir um sinal de voz, e, processo para transmitir o mesmo. |
SG1996010099A SG54343A1 (en) | 1995-06-20 | 1996-06-19 | Method and apparatus for reproducing speech signals and method for transmitting same |
AT96304568T ATE205011T1 (de) | 1995-06-20 | 1996-06-19 | Verfahren und einrichtung zur wiedergabe von sprachsignalen und verfahren zu seiner übertragung |
RU96111955/09A RU2255380C2 (ru) | 1995-06-20 | 1996-06-19 | Способ и устройство воспроизведения речевых сигналов и способ их передачи |
KR1019960022517A KR100472585B1 (ko) | 1995-06-20 | 1996-06-20 | 음성신호의재생방법및장치와그전송방법 |
TR96/00519A TR199600519A2 (tr) | 1995-06-20 | 1996-06-20 | Konusma sinyallerinin olusturulmasina mahsus yöntem ve cihaz ve sinyallerin iletilmesine mahsus yöntem. |
TW085109383A TW412719B (en) | 1995-06-20 | 1996-08-03 | Method and apparatus for reproducing speech signals and method for transmitting same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15372395A JP3747492B2 (ja) | 1995-06-20 | 1995-06-20 | 音声信号の再生方法及び再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH096397A JPH096397A (ja) | 1997-01-10 |
JP3747492B2 true JP3747492B2 (ja) | 2006-02-22 |
Family
ID=15568696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15372395A Expired - Lifetime JP3747492B2 (ja) | 1995-06-20 | 1995-06-20 | 音声信号の再生方法及び再生装置 |
Country Status (17)
Country | Link |
---|---|
US (1) | US5926788A (ja) |
EP (1) | EP0751493B1 (ja) |
JP (1) | JP3747492B2 (ja) |
KR (1) | KR100472585B1 (ja) |
CN (1) | CN1154976C (ja) |
AT (1) | ATE205011T1 (ja) |
AU (1) | AU721596B2 (ja) |
BR (1) | BR9602835B1 (ja) |
CA (1) | CA2179228C (ja) |
DE (1) | DE69614782T2 (ja) |
ES (1) | ES2159688T3 (ja) |
MX (1) | MX9602391A (ja) |
MY (1) | MY116532A (ja) |
RU (1) | RU2255380C2 (ja) |
SG (1) | SG54343A1 (ja) |
TR (1) | TR199600519A2 (ja) |
TW (1) | TW412719B (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3707153B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
US6202046B1 (en) | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
US6260009B1 (en) * | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
JP2000305599A (ja) * | 1999-04-22 | 2000-11-02 | Sony Corp | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
FR2796191B1 (fr) * | 1999-07-05 | 2001-10-05 | Matra Nortel Communications | Procedes et dispositifs de codage et de decodage audio |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
US6535843B1 (en) * | 1999-08-18 | 2003-03-18 | At&T Corp. | Automatic detection of non-stationarity in speech signals |
DE10197182B4 (de) * | 2001-01-22 | 2005-11-03 | Kanars Data Corp. | Verfahren zum Codieren und Decodieren von Digital-Audiodaten |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
WO2003003345A1 (fr) * | 2001-06-29 | 2003-01-09 | Kabushiki Kaisha Kenwood | Dispositif et procede d'interpolation des composantes de frequence d'un signal |
US6907632B2 (en) * | 2002-05-28 | 2005-06-21 | Ferno-Washington, Inc. | Tactical stretcher |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
TWI498882B (zh) * | 2004-08-25 | 2015-09-01 | Dolby Lab Licensing Corp | 音訊解碼器 |
BRPI0514940A (pt) * | 2004-09-06 | 2008-07-01 | Matsushita Electric Ind Co Ltd | dispositivo de codificação escalável e método de codificação escalável |
US7974837B2 (en) | 2005-06-23 | 2011-07-05 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus |
JP2007150737A (ja) * | 2005-11-28 | 2007-06-14 | Sony Corp | 音声信号ノイズ低減装置及び方法 |
BRPI0802613A2 (pt) | 2007-02-14 | 2011-08-30 | Lg Electronics Inc | métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto |
RU2463674C2 (ru) * | 2007-03-02 | 2012-10-10 | Панасоник Корпорэйшн | Кодирующее устройство и способ кодирования |
ES2383365T3 (es) * | 2007-03-02 | 2012-06-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Post-filtro no causal |
WO2009010831A1 (en) * | 2007-07-18 | 2009-01-22 | Nokia Corporation | Flexible parameter update in audio/speech coded signals |
MX2010009307A (es) * | 2008-03-14 | 2010-09-24 | Panasonic Corp | Dispositivo de codificacion, dispositivo de decodificacion y metodo de los mismos. |
JP4999757B2 (ja) * | 2008-03-31 | 2012-08-15 | 日本電信電話株式会社 | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
CN101582263B (zh) * | 2008-05-12 | 2012-02-01 | 华为技术有限公司 | 语音解码中噪音增强后处理的方法和装置 |
US20100191534A1 (en) * | 2009-01-23 | 2010-07-29 | Qualcomm Incorporated | Method and apparatus for compression or decompression of digital signals |
WO2010111841A1 (zh) * | 2009-04-03 | 2010-10-07 | 华为技术有限公司 | 频域脉冲解码的预测方法和预测装置及解码器 |
PL2242045T3 (pl) * | 2009-04-16 | 2013-02-28 | Univ Mons | Sposób kodowania i syntezy mowy |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
JP6366706B2 (ja) | 2013-10-18 | 2018-08-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念 |
PL3058569T3 (pl) * | 2013-10-18 | 2021-06-14 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Koncepcja kodowania sygnału audio i dekodowania sygnału audio z wykorzystaniem informacji deterministycznych i podobnych do szumu |
CN107369455B (zh) * | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN106067996B (zh) * | 2015-04-24 | 2019-09-17 | 松下知识产权经营株式会社 | 语音再现方法、语音对话装置 |
US10389994B2 (en) * | 2016-11-28 | 2019-08-20 | Sony Corporation | Decoder-centric UV codec for free-viewpoint video streaming |
JP6891662B2 (ja) * | 2017-06-23 | 2021-06-18 | 富士通株式会社 | 音声評価プログラム、音声評価方法および音声評価装置 |
CN108899008B (zh) * | 2018-06-13 | 2023-04-18 | 中国人民解放军91977部队 | 一种对空语音通信杂音模拟干扰方法和系统 |
KR101971478B1 (ko) | 2018-09-27 | 2019-04-23 | 박기석 | 차량용 차광막 장치 |
KR102150192B1 (ko) | 2019-04-04 | 2020-08-31 | 박기석 | 차량용 차광막 장치 |
KR20230114981A (ko) | 2022-01-26 | 2023-08-02 | 주식회사 스마트름뱅이 | 차량용 태양광 차단 및 발전 수행 장치 |
CN114511474B (zh) * | 2022-04-20 | 2022-07-05 | 天津恒宇医疗科技有限公司 | 血管内超声图像的降噪方法、系统、电子设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
JPH07117562B2 (ja) * | 1988-10-18 | 1995-12-18 | 株式会社ケンウッド | スペクトラムアナライザ |
JP2823023B2 (ja) * | 1990-09-10 | 1998-11-11 | 富士通株式会社 | リンク配線用マトリクスプリント板におけるコネクタ接続方法 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
US5351338A (en) * | 1992-07-06 | 1994-09-27 | Telefonaktiebolaget L M Ericsson | Time variable spectral analysis based on interpolation for speech coding |
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
FR2863874B1 (fr) * | 2003-12-18 | 2006-03-17 | Oreal | Composition demaquillante |
-
1995
- 1995-06-20 JP JP15372395A patent/JP3747492B2/ja not_active Expired - Lifetime
-
1996
- 1996-06-17 US US08/664,512 patent/US5926788A/en not_active Expired - Lifetime
- 1996-06-17 CA CA002179228A patent/CA2179228C/en not_active Expired - Fee Related
- 1996-06-18 MY MYPI96002452A patent/MY116532A/en unknown
- 1996-06-19 MX MX9602391A patent/MX9602391A/es unknown
- 1996-06-19 AT AT96304568T patent/ATE205011T1/de active
- 1996-06-19 SG SG1996010099A patent/SG54343A1/en unknown
- 1996-06-19 AU AU56054/96A patent/AU721596B2/en not_active Ceased
- 1996-06-19 RU RU96111955/09A patent/RU2255380C2/ru not_active IP Right Cessation
- 1996-06-19 DE DE69614782T patent/DE69614782T2/de not_active Expired - Lifetime
- 1996-06-19 ES ES96304568T patent/ES2159688T3/es not_active Expired - Lifetime
- 1996-06-19 BR BRPI9602835-1A patent/BR9602835B1/pt not_active IP Right Cessation
- 1996-06-19 EP EP96304568A patent/EP0751493B1/en not_active Expired - Lifetime
- 1996-06-19 CN CNB961110422A patent/CN1154976C/zh not_active Expired - Lifetime
- 1996-06-20 KR KR1019960022517A patent/KR100472585B1/ko not_active IP Right Cessation
- 1996-06-20 TR TR96/00519A patent/TR199600519A2/xx unknown
- 1996-08-03 TW TW085109383A patent/TW412719B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2179228C (en) | 2004-10-12 |
ATE205011T1 (de) | 2001-09-15 |
JPH096397A (ja) | 1997-01-10 |
AU721596B2 (en) | 2000-07-06 |
EP0751493B1 (en) | 2001-08-29 |
TW412719B (en) | 2000-11-21 |
CN1145512A (zh) | 1997-03-19 |
CN1154976C (zh) | 2004-06-23 |
MX9602391A (es) | 1997-02-28 |
US5926788A (en) | 1999-07-20 |
KR100472585B1 (ko) | 2005-06-21 |
DE69614782T2 (de) | 2002-05-02 |
BR9602835B1 (pt) | 2009-05-05 |
CA2179228A1 (en) | 1996-12-21 |
BR9602835A (pt) | 1998-04-22 |
EP0751493A3 (en) | 1998-03-04 |
MY116532A (en) | 2004-02-28 |
TR199600519A2 (tr) | 1997-01-21 |
RU2255380C2 (ru) | 2005-06-27 |
SG54343A1 (en) | 1998-11-16 |
EP0751493A2 (en) | 1997-01-02 |
ES2159688T3 (es) | 2001-10-16 |
KR970003109A (ko) | 1997-01-28 |
DE69614782D1 (de) | 2001-10-04 |
AU5605496A (en) | 1997-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3747492B2 (ja) | 音声信号の再生方法及び再生装置 | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
JP4132109B2 (ja) | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 | |
JP3680380B2 (ja) | 音声符号化方法及び装置 | |
JP4005154B2 (ja) | 音声復号化方法及び装置 | |
JP3707153B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置 | |
KR100487136B1 (ko) | 음성복호화방법및장치 | |
JP3707154B2 (ja) | 音声符号化方法及び装置 | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP4121578B2 (ja) | 音声分析方法、音声符号化方法および装置 | |
WO2004097796A1 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JPH10124092A (ja) | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 | |
US5983173A (en) | Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech | |
US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
JPH10214100A (ja) | 音声合成方法 | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
Bae et al. | On a new vocoder technique by the nonuniform sampling | |
JP3675054B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法 | |
JP3092654B2 (ja) | 信号符号化装置 | |
JPH09127997A (ja) | 音声符号化方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121209 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121209 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131209 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |