JP2658816B2 - 音声のピッチ符号化装置 - Google Patents
音声のピッチ符号化装置Info
- Publication number
- JP2658816B2 JP2658816B2 JP5211269A JP21126993A JP2658816B2 JP 2658816 B2 JP2658816 B2 JP 2658816B2 JP 5211269 A JP5211269 A JP 5211269A JP 21126993 A JP21126993 A JP 21126993A JP 2658816 B2 JP2658816 B2 JP 2658816B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- speech
- signal
- unit
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005284 excitation Effects 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
ート、特に4kbps以下で高品質に符号化するための
音声のピッチ符号化装置に関するものである。
msec)で得た特徴パラメータと前記フレームを更に
分割したサブフレーム単位(例えば8msec)で得た
特徴パラメータを用いて符号化する音声符号化装置であ
って、過去の励振信号をピッチ周期で繰り返して作った
適応コードブックと、予め作成した信号からなる音源コ
ードブックの2つの励振源を持ち、励振信号を線形予測
合成フィルタに通して合成する従来の音声符号化装置と
して、図3(A)のような装置がある。合成フィルタは
現在量子化しようとするフレームの入力音声を分析して
えたフィルタ係数(例えば線形予測フィルタ係数)を用
いて構成される。この符号化装置としては、例えば、
M.Schroeder氏とB.Atal氏による”C
ode−excited linear predic
tion : High quality spee
ch at very low bitrates”
(IEEE Proc. ICASSP−85、 pp
937−940、 1985)と題した論文)等に記載
されているCELP(Code excited LP
Ccoding)型音声符号化方式が知られている。
ピッチの予備選択により低演算量でピッチ符号化を行な
う従来方式として、開ループで残差信号の自己相関を用
いて予備選択し、選ばれた候補に対して閉ループ歪みを
用いて最終選択する2段探索方式(特開平4−3051
35号公報)、開ループで入力信号の自己相関を用いて
予備選択し、選ばれた候補に近い遅延に対して閉ループ
歪みを用いて最終選択する2段探索方式(特開平4−2
70398号公報)、開ループで残差信号の自己相関を
用いて予備選択し、更に、選ばれた候補に対して閉ルー
プで入力信号とコードベクトルの内積のみで予備選択
し、最後に、選ばれた候補に対して閉ループ歪みを用い
て最終選択する3段探索方式(電子情報通信学会信学技
報SP92−133(1993−02)の5.1.2
節)がある。
では、各サブフレームの処理において、ピッチの予備選
択を行なうため、最終選択での候補数を削減しすぎる
と、局所的に波形歪みが小さいピッチが選択され、符号
化音声の音質劣化が大きくなる。これを避けるためには
ある程度の候補数を必要とするため、演算量の低減化が
困難である。
来法より少ない演算量で、ピッチ符号化を行なうことに
ある。
チ符号化装置は、音声信号を、フレーム単位で得た特徴
パラメータと前記フレームを更に分割したサブフレーム
単位で得た特徴パラメータを用いて符号化する音声のピ
ッチ符号化装置であって、過去の励振信号をピッチ周期
で繰り返して作った適応コードブックと、予め作成した
信号からなる音源コードブックの2つの励振源を備え、
励振信号を線形予測合成フィルタに通して音声を合成す
る音声のピッチ符号化装置において、前記フレーム以上
の単位でピッチ周期を抽出するピッチトラッキング部
と、前記サブフレーム単位で前記ピッチトラッキング部
で抽出したピッチ周期近辺のピッチ周期の中で前記線形
予測合成フィルタを通して、波形歪みが最小となるピッ
チ周期を最終的に選択する最終選択部とからなることを
特徴とする。
音声信号を、フレーム単位で得た特徴パラメータと前記
フレームを更に分割したサブフレーム単位で得た特徴パ
ラメータを用いて符号化する音声のピッチ符号化装置で
あって、過去の励振信号をピッチ周期で繰り返して作っ
た適応コードブックと、予め作成した信号からなる音源
コードブックの2つの励振源を備え、励振信号を線形予
測合成フィルタに通して音声を合成する音声のピッチ符
号化装置において、前記フレーム以上の単位でピッチ周
期を抽出するピッチトラッキング部と、前記サブフレー
ム単位で前記ピッチトラッキング部で抽出したピッチ周
期近辺のピッチ周期に対してピッチ周期の候補を抽出す
るピッチ予備選択部と、前記ピッチ予備選択部で抽出し
たピッチ周期の候補の内で前記線形予測合成フィルタを
通して、波形歪みが最小となるピッチ周期を最終的に選
択する最終選択部とからなることを特徴とする。
示す。
が急激に変化しないことを利用して、フレームに渡るピ
ッチトラッキングによりピッチ周期の遷移パスを複数個
抽出し、その中からフレーム全体で平均予測ゲインが最
小の遷移パスを選出する。次に、サブフレーム処理で更
に予備選択する第2の発明では、入力音声信号とコード
ベクトルの内積を用いて、各サブフレームで選出した遷
移パスのピッチ付近から候補を複数個選出する。最後
に、各サブフレームにおいて波形歪みが最小になるよう
にピッチ周期を選出する。ピッチトラッキングで候補を
1個に絞ることにより、演算量を大幅に低減化してい
る。
ため、前のサブフレームとの差分でピッチ周期を表すこ
とにより、ピッチ周期の伝送ビットの削減もできる。
号化装置を用いることにより、従来の装置に比べて大幅
に少ない演算量で、また局所的な波形歪み最小ピッチが
選択されないことにより高音質に、ピッチを符号化する
ことができる。更に、少ない伝送ビットでピッチ符号化
を行うことができる。
て説明する。
ック図である。
ム処理部15のピッチトラッキング部10において、フ
レーム内でピッチトラッキングを行ない、その結果であ
るピッチトラッキングパスをサブフレーム処理部60に
渡す。ピッチトラッキングの方法としては、予め定めた
フレーム(例えば長さ40msec)とそれを分割した
サブフレーム(例えば長さ8msec)とした場合、各
サブフレームでのピッチの符号化ビット数をBビットと
し、サブフレームの数Nとすると、BのN乗の組み合わ
せのピッチトラッキングパスに対して、波形歪みが最小
あるいは平均ピッチ予測ゲインが最大のパスを選択する
方法がある。このままだと演算量が膨大なため、例え
ば、任意のサブフレームから順にピッチを選択し、パス
を決定していく方法を使用すると演算量は非常に少なく
て済む。
適応コードブック部20では、まず、フレーム処理部1
5で得たピッチトラッキングパスの各サブフレームに対
応するピッチの近辺(例えばインデクスの番号で前後5
個)のピッチ候補を作成する。 次に、適応コードブッ
ク部20に蓄積された適応コードベクトルのこのピッチ
候補に対応するベクトルと、音源コードブック部25に
蓄積された音源コードベクトルとの組み合わせの中で、
波形歪みが最小のものを最小歪み評価部55で選び、そ
の組み合わせのインデクスを出力端子65に出力する。
波形歪みは、各組み合わせの適応コードベクトルと音源
コードベクトルを乗算器30、35と加算器40によっ
て振幅調整して加算して作成した励振信号を合成フィル
タ45に通して作った合成音声信号と、入力音声信号と
の差分器50によって得た差分を用いて計算する。
ック図である。
において、更にピッチ予備選択部140を付加した点で
ある。ピッチトラッキング部120によって得たピッチ
トラッキングパスの近辺において、各サブフレームにお
いて更に予備選択を行なっている。予備選択法として
は、従来の技術 であげた(1)、(2)、(3)のい
ずれの方法も有用である。
ピッチ符号化において、従来の方法に比べて演算量をよ
り低減化できるという効果がある。
化装置の一構成を示すロック図であり、(B)は従来の
CELP型音声符号化装置に従来の低演算量ピッチ符号
化装置を組み込んだ構成を示すブロック図である。
0、460 乗算器 40、190、350、470 加算器 45、200、360、480 合成フィルタ 50、210、370、490 差分器 55、240、380、500 最小歪み評価部 65、240、400、520 出力端子
Claims (2)
- 【請求項1】 音声信号を、フレーム単位で得た特徴パ
ラメータと前記フレームを更に分割したサブフレーム単
位で得た特徴パラメータを用いて符号化する音声のピッ
チ符号化装置であって、過去の励振信号をピッチ周期で
繰り返して作った適応コードブックと、予め作成した信
号からなる音源コードブックの2つの励振源を備え、励
振信号を線形予測合成フィルタに通して音声を合成する
音声のピッチ符号化装置において、前記フレーム以上の
単位でピッチ周期を抽出するピッチトラッキング部と、
前記サブフレーム単位で前記ピッチトラッキング部で抽
出したピッチ周期近辺のピッチ周期の中で前記線形予測
合成フィルタを通して、波形歪みが最小となるピッチ周
期を最終的に選択する最終選択部とからなることを特徴
とする音声のピッチ符号化装置。 - 【請求項2】 音声信号を、フレーム単位で得た特徴パ
ラメータと前記フレームを更に分割したサブフレーム単
位で得た特徴パラメータを用いて符号化する音声のピッ
チ符号化装置であって、過去の励振信号をピッチ周期で
繰り返して作った適応コードブックと、予め作成した信
号からなる音源コードブックの2つの励振源を備え、励
振信号を線形予測合成フィルタに通して音声を合成する
音声のピッチ符号化装置において、前記フレーム以上の
単位でピッチ周期を抽出するピッチトラッキング部と、
前記サブフレーム単位で前記ピッチトラッキング部で抽
出したピッチ周期近辺のピッチ周期に対してピッチ周期
の候補を抽出するピッチ予備選択部と、前記ピッチ予備
選択部で抽出したピッチ周期の候補の内で前記線形予測
合成フィルタを通して、波形歪みが最小となるピッチ周
期を最終的に選択する最終選択部とからなることを特徴
とする音声のピッチ符号化装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5211269A JP2658816B2 (ja) | 1993-08-26 | 1993-08-26 | 音声のピッチ符号化装置 |
CA002130877A CA2130877C (en) | 1993-08-26 | 1994-08-25 | Speech pitch coding system |
FR9410327A FR2709367B1 (fr) | 1993-08-26 | 1994-08-26 | Système de codage de hauteur de son de parole. |
US08/296,419 US5666464A (en) | 1993-08-26 | 1994-08-26 | Speech pitch coding system |
US10/251,487 US20030018498A1 (en) | 1993-08-26 | 2002-09-20 | System and method for designing and administering survivor benefit plans |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5211269A JP2658816B2 (ja) | 1993-08-26 | 1993-08-26 | 音声のピッチ符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0764600A JPH0764600A (ja) | 1995-03-10 |
JP2658816B2 true JP2658816B2 (ja) | 1997-09-30 |
Family
ID=16603126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5211269A Expired - Fee Related JP2658816B2 (ja) | 1993-08-26 | 1993-08-26 | 音声のピッチ符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5666464A (ja) |
JP (1) | JP2658816B2 (ja) |
CA (1) | CA2130877C (ja) |
FR (1) | FR2709367B1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
JP3308764B2 (ja) * | 1995-05-31 | 2002-07-29 | 日本電気株式会社 | 音声符号化装置 |
CA2213909C (en) * | 1996-08-26 | 2002-01-22 | Nec Corporation | High quality speech coder at low bit rates |
CN1231050A (zh) * | 1997-07-11 | 1999-10-06 | 皇家菲利浦电子有限公司 | 具有改进谐波语音编码器的发射机 |
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
JP3343082B2 (ja) | 1998-10-27 | 2002-11-11 | 松下電器産業株式会社 | Celp型音声符号化装置 |
US6523002B1 (en) * | 1999-09-30 | 2003-02-18 | Conexant Systems, Inc. | Speech coding having continuous long term preprocessing without any delay |
US8379851B2 (en) * | 2008-05-12 | 2013-02-19 | Microsoft Corporation | Optimized client side rate control and indexed file layout for streaming media |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3947638A (en) * | 1975-02-18 | 1976-03-30 | The United States Of America As Represented By The Secretary Of The Army | Pitch analyzer using log-tapped delay line |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4912764A (en) * | 1985-08-28 | 1990-03-27 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder with different excitation types |
US5097508A (en) * | 1989-08-31 | 1992-03-17 | Codex Corporation | Digital speech coder having improved long term lag parameter determination |
JPH03123113A (ja) * | 1989-10-05 | 1991-05-24 | Fujitsu Ltd | ピッチ周期探索方式 |
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
JPH04115300A (ja) * | 1990-09-05 | 1992-04-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声のピッチ予測符号化法 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
JP3254687B2 (ja) * | 1991-02-26 | 2002-02-12 | 日本電気株式会社 | 音声符号化方式 |
JP3026461B2 (ja) * | 1991-04-01 | 2000-03-27 | 日本電信電話株式会社 | 音声のピッチ予測符号化法 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
-
1993
- 1993-08-26 JP JP5211269A patent/JP2658816B2/ja not_active Expired - Fee Related
-
1994
- 1994-08-25 CA CA002130877A patent/CA2130877C/en not_active Expired - Lifetime
- 1994-08-26 FR FR9410327A patent/FR2709367B1/fr not_active Expired - Lifetime
- 1994-08-26 US US08/296,419 patent/US5666464A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2130877C (en) | 1999-01-19 |
CA2130877A1 (en) | 1995-02-27 |
FR2709367B1 (fr) | 1998-03-27 |
US5666464A (en) | 1997-09-09 |
JPH0764600A (ja) | 1995-03-10 |
FR2709367A1 (fr) | 1995-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3346765B2 (ja) | 音声復号化方法及び音声復号化装置 | |
EP0409239B1 (en) | Speech coding/decoding method | |
WO2001020595A1 (en) | Voice encoder/decoder | |
JP3357795B2 (ja) | 音声符号化方法および装置 | |
JPH0612098A (ja) | 音声符号化装置 | |
JP2658816B2 (ja) | 音声のピッチ符号化装置 | |
JP3063668B2 (ja) | 音声符号化装置及び復号装置 | |
JP2002268686A (ja) | 音声符号化装置及び音声復号化装置 | |
JPH0944195A (ja) | 音声符号化装置 | |
JP3148778B2 (ja) | 音声の符号化方法 | |
JPH10143199A (ja) | 音声符号化方法および復号化方法 | |
JP3583945B2 (ja) | 音声符号化方法 | |
JP2968109B2 (ja) | コード励振線形予測符号化器及び復号化器 | |
JPH0519795A (ja) | 音声の励振信号符号化・復号化方法 | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
JP3153075B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP3026461B2 (ja) | 音声のピッチ予測符号化法 | |
JP2002073097A (ja) | Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法 | |
JP3332132B2 (ja) | 音声符号化方法および装置 | |
JP3229784B2 (ja) | 音声符号化復号化装置及び音声復号化装置 | |
JPH10149200A (ja) | 線形予測符号化装置 | |
JPH08185198A (ja) | 符号励振線形予測音声符号化方法及びその復号化方法 | |
JP2001134298A (ja) | 音声符号化装置と音声復号化装置、及び音声符号化復号化システム | |
JP3270146B2 (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19970506 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080606 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090606 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100606 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100606 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 16 |
|
LAPS | Cancellation because of no payment of annual fees |