JPH1097287A - 周期信号変換方法、音変換方法および信号分析方法 - Google Patents
周期信号変換方法、音変換方法および信号分析方法Info
- Publication number
- JPH1097287A JPH1097287A JP8344247A JP34424796A JPH1097287A JP H1097287 A JPH1097287 A JP H1097287A JP 8344247 A JP8344247 A JP 8344247A JP 34424796 A JP34424796 A JP 34424796A JP H1097287 A JPH1097287 A JP H1097287A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- spectrogram
- frequency
- function
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 160
- 238000001228 spectrum Methods 0.000 claims abstract description 371
- 230000006870 function Effects 0.000 claims description 258
- 238000006243 chemical reaction Methods 0.000 claims description 132
- 238000004458 analytical method Methods 0.000 claims description 99
- 230000000737 periodic effect Effects 0.000 claims description 71
- 230000014509 gene expression Effects 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 abstract description 79
- 230000003044 adaptive effect Effects 0.000 abstract description 68
- 238000012545 processing Methods 0.000 description 62
- 230000008569 process Effects 0.000 description 55
- 238000004364 calculation method Methods 0.000 description 51
- 238000010586 diagram Methods 0.000 description 42
- 230000000295 complement effect Effects 0.000 description 30
- 238000005070 sampling Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 8
- 230000006866 deterioration Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003930 cognitive ability Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000004904 long-term response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008825 perceptual sensitivity Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
ある。 【解決手段】 平滑化スペクトログラム計算部10で
は、信号の基本周波数についての情報に基づいて、信号
の基本周波数の2倍の周波数幅を有する三角形の補間関
数を求める。この補間関数と、適応的周波数分析部9で
求められたスペクトルを、周波数方向で畳み込む。次い
で、基本周期の2倍の時間長を有する三角形の補間関数
を用いて、先に周波数方向で補間したスペクトルを時間
方向で補間することにより、時間・周波数平面の格子点
の間を双1次関数の曲面で埋めた平滑化スペクトログラ
ムを求める。この平滑化スペクトログラムを用いて、音
声を変換する。したがって、周波数方向および時間方向
の周期性の影響を小さくできる。
Description
法、音変換方法および信号分析方法に関し、特に、音を
変換するための周期信号変換方法、音変換方法および音
を分析するための信号分析方法に関する。
イントネーションを制御する場合や音声の編集合成にお
いて自然な音声の抑揚を与えるためには、元々格納され
ている音声の音色を保ちつつ音声の基本周波数を変える
ことが必要である。また、自然の音をサンプリングして
電子楽器の音源として用いる場合も、音色を一定に保ち
つつ基本周波数を変えることが必要である。また、基本
周波数の変換においては、サンプリング周期で決定され
る分解能よりも詳細に基本周波数を設定する必要があ
る。他方、放送などにおいて情報提供者のプライバシー
を守るために、個人性がわからないように音声を変換す
る場合には、音高を変えずに音色を変えたり、音色と音
高の双方を変えたりする必要がある。
によって、実際に声優を雇わなくても新しい声優の声を
作り出すことなど、既存の音声資源の再利用が、ますま
す強く求められるようになっている。高齢化社会を迎
え、さまざまな聴覚障害や認知能力の障害などによりそ
のままでは音声や音楽の内容を聞き取ることが困難な人
々の増加が予想されている。このような人たちの劣化し
た聴覚能力や認知能力に適合するように元の情報を失う
ことなく速度や、周波数帯域、声の高さを変換する方法
は、強く要請されている。
来技術は、たとえば、今井聖,北村正,「対数振幅特性
近似フィルタを用いた音声の分析合成系」,電子通信学
会論文誌,78/6,Vol.J61−A,No.6,
pp527−534に開示されている。この先行技術文
献では、スペクトル包絡を表わすモデルを仮定して、モ
デルのパラメタを適当な評価関数の下でスペクトルのピ
ークを重視して近似するようにパラメタを最適化するこ
とでスペクトル包絡を求める方法が示されている。
ッチ周波数に影響されないホルマント抽出」,日本音響
学会誌50巻2号(1994),pp110−116に
開示されている。この先行技術文献は、周期信号である
ことを自己回帰モデルのパラメタ推定方式の中に組み込
んだものである。
に時間領域での波形の伸縮と時間を移動させた重ね合わ
せにより音声を加工する方法がある。
2の従来技術のいずれも、特定のモデルを仮定している
ためモデルを記述するパラメタの個数を適切に決定しな
ければ、正しいスペクトル包絡を推定することはできな
いという問題点がある。また、信号源の性質が想定した
モデルと異なっている場合には、推定されたスペクトル
包絡に周期性に基づく成分が混入してしまい逆に大きな
誤差を生じてしまうという脆弱さを有するという問題点
がある。
最適化の過程で収束のための繰返し演算を必要としてお
り、実時間処理のような時間的制約の大きい応用に不適
切であるという問題点がある。
て、周期性の制御について言及すると、音源をパルス
列、スペクトル包絡をフィルタとして分離してしまって
いるため、標本化周波数で決定される時間分解能よりも
高い精度で信号の周期を指定することができないという
問題点がある。
程度以上変化させると音声の自然さが失なわれてしま
い、自由に音声が変換できないという問題点がある。
ためになされたもので、スペクトルのモデルに基づか
ず、かつ、周期性の影響を小さくできる周期信号変換方
法を提供することを目的とする。
り高い分解能で精密に音程を設定できる音変換方法を提
供することである。
の影響を取除いたスペクトルおよびスペクトログラムを
求めることができる信号分析方法を提供することであ
る。
のないスペクトルおよびスペクトログラムを求めること
ができる信号分析方法を提供することである。
信号変換方法は、離散的なスペクトルで与えられる周期
信号のスペクトルを区分的多項式で表わされる連続的な
スペクトルに変換するステップと、連続的なスペクトル
を用いて、周期信号を別の信号に変換するステップとを
含む。離散的なスペクトルで与えられる周期信号のスペ
クトルを区分的多項式で表わされる連続的なスペクトル
に変換するステップでは、周波数軸上の補間関数と、離
散的なスペクトルを畳み込むことにより、連続的なスペ
クトルを得る。
周期信号のスペクトログラム上に表現される、基本周期
の間隔と基本周波数の間隔とで決まる格子点の情報を用
いて、区分的多項式で補間することで、平滑化されたス
ペクトログラムを得るステップと、平滑化されたスペク
トログラムを用いて、周期信号を別の信号に変換するス
テップとを含む。周期信号のスペクトログラム上に表現
される、基本周期の間隔と基本周波数の間隔とで決まる
格子点の情報を用いて、区分的多項式で補間すること
で、平滑化されたスペクトログラムを得るステップで
は、周波数軸上での補間関数と周期信号のスペクトログ
ラムを、周波数方向で畳み込み、さらに、時間軸上での
補間関数と畳み込みで得られたスペクトログラムを、時
間方向で畳み込むことによって、平滑化されたスペクト
ログラムを得る。
整成分と、音のスペクトルとの積を用いてインパルス応
答を求めるステップと、インパルス応答を時間軸上で、
目的とする周期ずつ移動させながら加算していくことに
より、音を別の音に変換するステップとを含む。位相調
整成分から得られる音源信号は、インパルスと同じパワ
ースペクトルを有し、時間的にエネルギが分散してい
る。
3に記載のものであって、位相調整成分Φ(ω)は、
示し、式中のωは角周波数を示し、式中のξ(ω)は連
続関数を示し、式中のΛは数字の集まりで、有限個の数
字を集めたものを示し、式中のkはΛの中から取出した
1つの数字を示し、式中のαkは係数を示し、式中のm
k はパラメタを示し、ρ(ω)は重みを表わす関数を示
す。
3に記載のものであって、位相調整成分は、周波数軸上
で、乱数と帯域制限関数を畳み込み、帯域制限された乱
数を求めるステップと、帯域制限された乱数と遅延時間
の変動の目標値とを掛け合わせて、群遅延特性を求める
ステップと、群遅延特性を周波数で積分することによ
り、位相特性を求めるステップと、位相特性と虚数単位
とを掛け合わせて、指数関数の指数とすることにより、
位相調整成分を得るステップとによって得られる。
3に記載のものであって、位相調整成分は、第1の成分
と第2の成分との積である。第1の成分Φ(ω)は、
示し、式中のωは角周波数を示し、式中のξ(ω)は連
続関数を示し、式中のΛは数字の集まりで、有限個の数
字を集めたものを示し、式中のkはΛの中から取出した
1つの数字を示し、式中のαkは係数を示し、式中のm
k はパラメタを示し、ρ(ω)は重みを表わす関数を示
す。
制限関数を畳み込み、帯域制限された乱数を求めるステ
ップと、帯域制限された乱数と遅延時間の変動の目標値
とを掛け合わせて、群遅延特性を求めるステップと、群
遅延特性を周波数で積分することにより、位相特性を求
めるステップと、位相特性と虚数単位とを掛け合わせ
て、指数関数の指数とすることにより、第2の成分を得
るステップとによって得られる。
とともに特性が変化するほぼ周期的な信号を生成する機
構を表わす時間周波数曲面が、時間の区分的多項式と、
周波数の区分的多項式との積で表わされると仮定するス
テップと、ほぼ周期的な信号から所定範囲を、窓関数を
使って取出すステップと、取出された所定範囲のほぼ周
期的な信号から第1のスペクトルを求めるステップと、
窓関数の周波数領域での表現と、周波数の区分的多項式
で表わされる空間の基底とから、周波数方向の最適な補
間関数を求めるステップと、第1のスペクトルと、周波
数方向の最適な補間関数を畳み込んで、第2のスペクト
ルを求めるステップとを含む。そして、周波数方向の最
適な補間関数は、第2のスペクトルと、時間周波数曲面
の周波数軸に沿った断面との誤差を最小にする。
項7に記載のものであって、−∞から+∞の領域を0か
ら+∞の領域に写像する単調で滑らかな関数を用いて、
第2のスペクトルを第3のスペクトルに変換するステッ
プをさらに含む。
項8に記載のものであって、第1のスペクトルから、ほ
ぼ周期的な信号の基本周波数の影響を除去して第4のス
ペクトルを求めるステップと、第1のスペクトルを、第
4のスペクトルで割算して第5のスペクトルを求めるス
テップと、第3のスペクトルと、第4のスペクトルとを
掛け合わせて、第6のスペクトルを求めるステップとを
さらに含む。そして、第2のスペクトルを求めるステッ
プでは、第1のスペクトルの代わりに第5のスペクトル
を用いて第2のスペクトルを求める。
求項7に記載のものであって、窓関数の時間領域での表
現と、時間の区分的多項式で表わされる空間の基底とか
ら、時間方向の最適な補間関数を求めるステップと、任
意の時間ごとに複数の第2のスペクトルを求めるステッ
プと、複数の第2のスペクトルを時間方向に並べて第1
のスペクトログラムを求めるステップと、第1のスペク
トログラムと、時間方向の最適な補間関数を畳み込ん
で、第2のスペクトログラムを求めるステップとをさら
に含む。そして、時間方向の最適な補間関数は、第2の
スペクトログラムと、時間周波数曲面との誤差を最小に
する。
求項7に記載のものであって、任意の時間ごとに複数の
第2のスペクトルを求めるステップと、−∞から+∞の
領域を0から+∞の領域に写像する単調で滑らかな第1
の関数を用いて、複数の第2のスペクトルを複数の第3
のスペクトルに変換するステップと、複数の第3のスペ
クトルを時間方向に並べて第1のスペクトログラムを求
めるステップと、窓関数の時間領域での表現と、時間の
区分的多項式で表わされる空間の基底とから、時間方向
の最適な補間関数を求めるステップと、第1のスペクト
ログラムと、時間方向の最適な補間関数を畳み込んで、
第2のスペクトログラムを求めるステップと、−∞から
+∞の領域を0から+∞の領域に写像する単調で滑らか
な第2の関数を用いて、第2のスペクトログラムを第3
のスペクトログラムに変換するステップとをさらに含
む。そして、時間方向の最適な補間関数は、第2のスペ
クトログラムと、時間周波数曲面との誤差を最小にす
る。
間とともに特性が変化するほぼ周期的な信号を生成する
機構を表わす時間周波数曲面が、時間の区分的多項式
と、周波数の区分的多項式との積で表わされると仮定す
るステップと、ほぼ周期的な信号から所定範囲を、窓関
数を使って取出すステップと、取出された所定範囲のほ
ぼ周期的な信号から第1のスペクトルを求めるステップ
と、任意の時間ごとに複数の第1のスペクトルを求める
ステップと、複数の第1のスペクトルから、ほぼ周期的
な信号の基本周波数の影響を除去して複数の第2のスペ
クトルを求めるステップと、各第1のスペクトルを、対
応する第2のスペクトルで割算して複数の第3のスペク
トルを求めるステップと、窓関数の周波数領域での表現
と、周波数の区分的多項式で表わされる空間の基底とか
ら、周波数方向の最適な補間関数を求めるステップと、
各第3のスペクトルと、周波数方向の最適な補間関数を
畳み込んで、複数の第4のスペクトルを求めるステップ
と、−∞から+∞の領域を0から+∞の領域に写像する
単調で滑らかな第1の関数を用いて、複数の第4のスペ
クトルを複数の第5のスペクトルに変換するステップ
と、各第5のスペクトルと、対応する第2のスペクトル
とを掛け合わせて、複数の第6のスペクトルを求めるス
テップと、複数の第6のスペクトルを時間方向に並べて
第1のスペクトログラムを求めるステップと、第1のス
ペクトログラムから、ほぼ周期的な信号の周期性に基づ
く時間的変動の影響を除去して第2のスペクトログラム
を求めるステップと、第1のスペクトログラムを、第2
のスペクトログラムで割算して第3のスペクトログラム
を求めるステップと、窓関数の時間領域の表現と、時間
の区分的多項式で表わされる空間の基底とから、時間方
向の最適な補間関数を求めるステップと、第3のスペク
トログラムと、時間方向の最適な補間関数を畳み込ん
で、第4のスペクトログラムを求めるステップと、−∞
から+∞の領域を0から+∞の領域に写像する単調で滑
らかな第2の関数を用いて、第4のスペクトログラムを
第5のスペクトログラムに変換するステップと、第5の
スペクトログラムと、第2のスペクトログラムとを掛け
合わせて、第6のスペクトログラムを求めるステップと
を含む。そして、周波数方向の最適な補間関数は、第4
のスペクトルと、時間周波数曲面の周波数軸に沿った断
面との誤差を最小にし、時間方向の最適な補間関数は、
第4のスペクトログラムと、時間周波数曲面との誤差を
最小にする。
1の窓関数を用いて、時間とともに特性が変化するほぼ
周期的な信号の第1のスペクトルを求めるステップと、
所定の窓関数を用いて、第2の窓関数を求めるステップ
と、第2の窓関数を用いて、ほぼ周期的な信号の第2の
スペクトルを求めるステップと、第1のスペクトルと、
第2のスペクトルとの平均値を、自乗あるいは単調で非
負な関数による変換を介して求め、求まった自乗あるい
は単調で非負な関数による変換を介した平均値を第3の
スペクトルとするステップとを含む。そして、第2の窓
関数を求める前記ステップは、所定の窓関数を、原点の
両側に、相互の間隔を基本周期分、離して配置するステ
ップと、配置された一方の所定の窓関数の符号を反転さ
せるステップと、符号を反転させた所定の窓関数と、配
置された他方の所定の窓関数とを加え合せて第2の窓関
数を求めるステップとを含む。
求項13に記載のものであって、任意の時間ごとに、複
数の第3のスペクトルを求めるステップと、複数の第3
のスペクトルを時間方向に並べて、スペクトログラムを
求めるステップとをさらに含む。
方法および音変換方法としての音声変換方法について、
原理、処理、具体的処理の順に説明する。
に利用することにより、繰返しと収束の判定を含む計算
を必要としない直接的な計算でスペクトル包絡を求める
ことを可能とする。また、そうして求めたスペクトル包
絡から信号を再合成する際に位相を操作することによ
り、標本化周期よりも細かな分解能での周期の制御と音
色の制御を実現する。
を仮定する。すなわち、f(t)=f(t+nτ)であ
る。ここで、tは時間であり、nは任意の整数であり、
τは周期である。この信号のフーリエ変換をF(ω)と
すると、F(ω)は、2π/τを間隔とするパルス列と
なる。これを適当な補間関数h(λ)を用いて次のよう
に平滑化する。
れたスペクトルであり、g()は適当な単調増加関数で
あり、g-1()はg()の逆関数であり、ω,λは角周
波数である。積分の範囲は−∞から∞としているが補間
関数として例えば−2π/τから2π/τの範囲外では
0となるようなものを用いることにより、−2π/τか
ら2π/τとすることができる。ここで、補間関数が以
下に示す直線復元条件を満たすことを要請する。この直
線復元条件は、音色情報を表わすスペクトル包絡が「信
号の周期性の影響を受けずしかも滑らかである」という
ことを合理的に定式化したものである。
は、隣り合う複数のインパルスの高さが同一であるとき
に補間関数により平滑化された値が一定値になることを
要請する。さらに、この条件は、インパルスの高さが一
定の割合で変化していくときに補間関数により平滑化さ
れた値が直線になることを要請する。この条件を満たす
補間関数h(λ)は、バートレット窓(Bartlett窓)と
して知られる4π/τを幅とする三角形の補間関数h2
(ω)と、時間窓関数を周波数変換して得られるような
エネルギが局在するような関数を畳み込むことにより作
られる関数である。具体的には、S(ω)のうち、
成立する。ここでa,bは任意の定数を表わし、δ
( )はデルタ関数を表わす。またΔωは信号の周期τ
に対応する周波数軸上での調波の間隔を角周波数で表わ
したものである。なお、標本化関数として知られている
sin(x)/xも、パルス列が無限に一定値で続く場
合や、一定の割合で変化し続ける場合には直線復元条件
を満たす。しかし、実際の時間的に変化する信号ではそ
のように無限に同じ傾向が続くことはなく、直線復元条
件は満たされない。
号の短時間フーリエ変換を求める場合には、何らかの窓
関数w(t)を用いて信号の一部を切出すことが必要と
なる。周期関数をこのような窓関数を用いて切出すとそ
の短時間フーリエ変換は、周波数領域でのパルス列に窓
関数のフーリエ変換であるW(ω)を畳み込んだものと
なる。この場合でも、補間関数として直線復元条件を満
たすバートレット窓関数(Bartlett窓関数)を用いれ
ば、最終的なスペクトル包絡は直線復元条件を満たす。
ついて説明する。以上のようにして、平滑化された実数
スペクトルが求まれば、直接逆フーリエ変換することに
よって要素となる時間領域での直線位相のインパルス応
答s(t)を求めることができる。具体的には、jを虚
数単位(j=√−1)とすると、次式で表わされる。
ス応答v(t)を作成することができる。
最小位相のインパルス応答v(t)を、時間軸上の上で
目的とする周期ずつ移動させながら加算していくことに
より、変換音声を作成することができる。しかし、信号
を標本化により離散化している場合には、この方法で
は、標本化周波数により決まる標本化周期よりも細かく
周期を制御することはできない。そこで、時間遅れが周
波数領域では位相の直線的な変化として表わされること
を利用して、波形の構成の際に標本化周期よりも細かな
周期の補正分を求めて復元波形を変換することにより、
この問題を解決する。具体的には、目的とする周期τ
が、標本化周期ΔTを用いると(m+r)ΔTと表わさ
れるものとする。ここで、mは整数であり、rは0≦r
<1の実数とする。このようにすると、具体的な位相調
整分の値(以下、「位相調整成分」という)Φ1 (ω)
は、次のようになる。
位相調整成分Φ1 (ω)によってS(ω)を位相調整し
てSr (ω)を作成する。具体的には、Φ1 (ω)とS
(ω)とを掛け合わせてSr (ω)を作成する。そし
て、このSr (ω)を、式(3)のS(ω)の代わりに
用いることによって、直線位相のインパルス応答s
r (t)を求める。この直線位相のインパルス応答sr
(t)を、目的とする周期の整数分mΔTの位置に加算
して波形を作成する。
は、位相調整成分Φ1 (ω)によってV(ω)を位相調
整してVr (ω)を作成する。具体的には、Φ1 (ω)
とV(ω)とを掛け合わせてVr (ω)を作成する。そ
して、式(7)のV(ω)の代わりにVr (ω)を用い
て、最小位相のインパルス応答vr (t)を求める。こ
の最小位相のインパルス応答vr (t)を、目的とする
周期の整数分mΔTの位置に加算して波形を作成する。
位相調整成分の他の例Φ2 (ω)は次式で表わされる。
ξ(ω)は−π≦ω≦πの範囲を−π≦ξ≦πの範囲に
移すような滑らかな連続な奇関数であり、範囲の両端で
ある−πとπにおいてξ(ω)=ωとなるように拘束さ
れている。また、Λは、添字の集まりで、たとえば1,
2,3,4など、有限個の数字を集めたものである。こ
のような式(9)は、Φ2 (ω)が、ξ(ω)によって
非線形に伸縮された角周波数ωの上の複数の異なった三
角関数を、係数αk により重み付けしたものの和として
表わされることを示している。なお、式(9)中のkは
Λの中から取出した1つの数字を示し、式中のmk はパ
ラメタを示している。ρ(ω)は、重みを表わす関数を
示す。連続関数ξ(ω)の具体例として、βをパラメタ
とすると、次式で表わされるものがある。ここでsgn
( )は( )内が0または正の時に1、負の場合に−
1となる符号を表わす関数である。
遅延に相当することを利用すれば、平均値が0の乱数を
積分したものを位相成分とすることによって、群遅延の
分布を乱数により制御することができる。このような高
い周波数の成分の位相の制御は、息づかいの混じった声
を作り出すなど、合成音声の自然性の向上のために、非
常に大きく貢献する。具体的には、位相調整成分Φ3
(ω)により位相調整して音声合成を行なう。この位相
調整成分Φ3 (ω)は、次のようにして作成される。第
1のステップとして乱数を発生する。第2のステップと
して、周波数軸上で、第1のステップで発生した乱数
と、帯域制限関数を畳み込む。そして、帯域制限された
乱数を求める。第3のステップとして、どの周波数領域
がどれだけの群遅延の変動を許すかを設計する。つま
り、どの周波数領域がどれだけの遅延時間の変動を許す
かを設計する。具体的には、遅延時間の変動の目標値を
設計する。そして、帯域制限された乱数(第2のステッ
プで求めたもの)と遅延時間の変動の目標値とを掛け合
わせて、群遅延特性を作成する。第4のステップとし
て、群遅延特性を周波数で積分することにより、位相特
性を作成する。第5のステップとして、位相特性と虚数
単位(j=√−1)とを掛け合わせて、指数関数の指数
とすることにより、位相調整成分Φ3 (ω)を得る。
を用いる位相の制御)と、乱数を用いた位相の制御(Φ
3 (ω)を用いた位相の制御)とは、周波数領域で表現
されているので、Φ2 (ω)とΦ3 (ω)とを掛け算す
ることにより、両方の性質を有する位相調整成分を作成
することができる。すなわち、声門の開閉のイペントに
相当する離散的なパルスの周辺で乱流や声帯振動の変動
に起因する雑音的な変動がある音源を作成できる。ま
た、Φ1 (ω)とΦ2 (ω)とΦ3 (ω)とを掛け算す
ることによっても位相調整成分を作成することができる
し、Φ1 (ω)とΦ2 (ω)とを掛け算することによっ
ても位相調整成分を作成することができるし、Φ1
(ω)とΦ3 (ω)とを掛け算することによっても位相
調整成分を作成することができる。ここで、位相調整成
分Φ2 (ω)、Φ3 (ω)、Φ1 (ω)・Φ2 (ω)・
Φ3 (ω)、Φ1 (ω)・Φ2 (ω)、Φ1 (ω)・Φ
3 (ω)およびΦ2 (ω)・Φ3 (ω)による位相調整
の仕方は、Φ1 (ω)による位相調整の仕方と同様であ
る。
得られた音源信号を示す図である。図1を参照して、横
軸は時間を示し、縦軸は音圧を示している。ここで、位
相調整成分Φ2 (ω)を構成する連続関数ξ(ω)とし
て、式(10)を用いている。重み関数としては、ρ
(ω)=1という定数値を持つものを選んでいる。ま
た、Λは1個の数字からなり、k=1、m1 =30、α
1 =0.3、β=1としている。図2は、位相調整成分
Φ3 (ω)によって得られた音源信号を示す図である。
図3は、位相調整成分Φ2 (ω)・Φ3 (ω)によって
得られる音源信号を示す図である。図2および図3を参
照して、横軸は時間を示し、縦軸は音圧を示している。
図1〜図3を参照して、音源信号が、インパルスと異な
りエネルギが時間的に分散しているのが観測できる。こ
こで、音源信号は、位相調整成分を時間の関数にしたも
のである。具体的には、音源信号は、位相調整成分を逆
フーリエ変換して、時間の関数にしたものである。
は、以下の手順によって実現される。まず、分析の対象
となる音声信号は、予め何らかの手段でデジタル化され
ているものとする。第1の処理として、音声の基本周波
数(基本周期)の抽出について説明する。実施の形態1
による音声変換方法では、分析対象とする音声信号の周
期性を積極的に利用している。これらの周期性の情報
は、式(1),(2)の中の補間関数のサイズを決定す
るために用いられる。第1の処理では、音声信号から一
部を次々と選び出しながら、その部分における基本周波
数(基本周期)を抽出する。詳しくは、デジタル化した
音声信号の標本化周期よりも精密な分解能で基本周波数
(基本周期)を抽出する。また、周期的でない信号が含
まれる部分では、その旨を何らかの形で抽出しておく。
第1の処理で基本周波数を精密に抽出しておくことが、
後述する第5の処理で重要になる。なお、このような基
本周波数(基本周期)の抽出は、既存の一般的な方法を
用いて行なう。必要があれば、音声波形を視認しながら
手作業で基本周波数を決めてもよい。
応を行なう第2の処理について説明する。第2の処理で
は、式(2)の条件を満たす1次元の補間関数を用い
て、式(1)により、周波数方向において音声信号のス
ペクトルと補間関数を畳み込むことにより、平滑化スペ
クトルを計算する。これにより、周波数方向の周期性の
影響が小さくなる。
ついて説明する。第3の処理では、発声者の声の性質を
変えるために(たとえば、女性の声を男性の声に変換す
るために)、求められた音声パラメタ(平滑化スペクト
ルと精密な基本周波数情報)の周波数軸を圧縮したり、
声の高さを変えるために、精密な基本周波数に適当な係
数を掛けたりすることを行なう。このように、音声パラ
メタを、目的に合わせて変えることが、音声パラメタの
変換である。音声パラメタ(平滑化スペクトルと精密な
基本周波数情報)に対して操作を加えるだけであらゆる
バリエーションの音声を作ることができる。
を行なう第4の処理について説明する。第4の処理で
は、平滑化スペクトルから、式(3)を用いて精密な基
本周波数から決まる周期ごとに音源波形を作成し、時間
軸をずらしながら加え合わせていくことにより、変換さ
れた音声を作成する。つまり、音声合成をする。時間軸
をずらすときには、信号がデジタル化される際の標本化
周波数で決まる標本化周期よりも細かい精度でずらすこ
とはできない。そこで、基本周期を積分して次々と得ら
れる時間を標本化周期で割算したときの余りの部分(少
数点以下の部分)については、式(8)を用いて計算し
た値Φ1 (ω)を、式(1)のS(ω)に掛け算してか
ら式(3)を用いてs(t)で表わされる音源波形を作
成することで、標本化周期により決まる分解能よりも細
かな精度で基本周波数の制御を行なうことが可能とな
る。
(5),(6),(7)を用いて精密な基本周波数から
決まる周期ごとに音源波形を作成し、時間軸をずらしな
がら加え合わせていくことにより、変換された音声を作
成することもできる。その場合には、基本周期を積分し
て次々と得られる時間を標本化周期で割算したときの余
りの部分(少数点以下の部分)については、式(8)を
用いて計算した値Φ1(ω)を、式(6)のV(ω)に
掛け算してから式(7)を用いてv(t)で表わされる
音源波形を作成することで、標本化周期により決まる分
解能よりも細かな精度で基本周波数の制御を行なうこと
が可能となる。ここで、S(ω)またはV(ω)に掛け
算する位相調整成分としては、Φ1 (ω)を用いたが、
位相調整成分としては、Φ2 (ω)、Φ3 (ω)、Φ1
(ω)・Φ2 (ω)・Φ3 (ω)、Φ1 (ω)・Φ2
(ω)、Φ1 (ω)・Φ3 (ω)またはΦ2 (ω)・Φ
3 (ω)を用いることもできる。
利用することができる。すなわち、平滑化スペクトル
は、2次元の濃淡画像であるに過ぎないし、精密な基本
周波数は、その画像の横幅と同じ幅を有する1次元の曲
線にすぎない。したがって、第4の処理を用いれば、そ
のような画像と曲線を情報を失うことなく音に変えるこ
とができる。つまり、音声信号の入力が不要で、画像と
曲線があれば、音を作ることができる。
態1による音声変換方法を実現するための音声変換装置
を示す概略ブロック図である。図4を参照して、音声変
換装置は、パワースペクトル計算部1、基本周波数計算
部2、平滑化スペクトル計算部3、インタフェース部
4、平滑化スペクトル変換部5、音源情報変換部6、位
相調整部7および波形合成部8を備える。図4の音声変
換装置を用いて、8kHz16ビットで標本化された音
声を変換する例を説明する。パワースペクトル計算部1
では、30msのHanning 窓を用いて、FFT(高速フ
ーリエ変換)により、音声波形のパワースペクトルが計
算される。このパワースペクトルには、音声の周期性に
よる調波構造が観測される。
によって求められたパワースペクトルの一例および平滑
化スペクトル計算部3によって求められた平滑化スペク
トルの一例を示す図である。横軸は、周波数を示し、縦
軸は、強度を対数表示(デシベル表示)を用いて示して
いる。図5を参照して、矢印aで示す曲線が、パワース
ペクトル計算部1で求めたパワースペクトルである。
うなパワースペクトルの調波構造の周期から、基本周波
数計算部2において、音声の基本周波数f0 を求める。
パワースペクトル計算部1および基本周波数計算部2
は、上述した第1の処理(音声の基本周波数の抽出)を
行なう部分である。平滑化スペクトル計算部3では、基
本周波数計算部2で求めた基本周波数f0 に基づいて、
平滑化のための補間関数として幅が2f0 であるような
三角形の形状の関数を選ぶ。この補間関数を用いて、周
波数軸上で円環畳み込みを実行することにより平滑化さ
れたスペクトルを得る。
が平滑化されたスペクトルである。ここでは、単調増加
関数g()として、平方根を求める関数を用いている。
人間の知覚に近づけるためにg()としてパワーの0.
6乗を計算する関数を用いることもできる。平滑化スペ
クトル計算部3は、上述した第2の処理(基本周波数の
情報を利用した補間関数の適応)を行なう部分である。
平滑化スペクトル計算部3で求めた平滑化スペクトル
は、平滑化スペクトル変換部5に渡され、基本周波数計
算部2で得られた音源情報(精密な基本周波数情報)
は、音源情報変換部6に渡される。ここで、後からの利
用のために、平滑化スペクトルおよび音源情報を格納し
ておくこともできる。インタフェース部5は、平滑化ス
ペクトルと音源情報の計算段階と、変換・合成段階との
インタフェース部分である。
のインパルス応答v(t)を作るために、平滑化スペク
トルS(ω)をV(ω)に変換しておく。また、音色を
操作したい場合には、平滑化スペクトルを目的に応じて
操作して変形し、変形した平滑化スペクトルSm(ω)
を得る。あるいは、変形した平滑化スペクトルSm
(ω)を、式(4)〜(6)を用いて、V(ω)に変換
しておく。つまり、式(4)のS(ω)の代わりに、S
m(ω)を用いて、V(ω)を求める。以下の説明で
は、平滑化されたスペクトルのみならず変形した平滑化
スペクトルSm(ω)も、「S(ω)」で表わす。音源
情報変換部6では、平滑化スペクトル変換部5での変換
と並行して、音源情報を目的に応じて変換する。平滑化
スペクトル変換部5および音源情報変換部6での処理
は、上述した第3の処理(音声パラメタの変換)を行な
う部分である。位相調整部7では、平滑化スペクトル変
換部5および音源情報変換部6で変換されたスペクトル
情報と音源情報を用いて、標本化周期よりも高い分解能
で周期を操作するための処理を行なう。つまり、目的と
する波形を置く時間位置を標本化周期ΔTを単位として
計算し、整数部分と実数部分とに分け、実数部分を用い
て位相調整成分Φ1 (ω)を求める。そして、S(ω)
あるいはV(ω)の位相を調整する。波形合成部8で
は、位相調整部7で位相調整された平滑化スペクトルお
よび音源情報変換部6で変換された音源情報を用いて、
波形を合成する。位相調整部7および波形合成部8は、
第4の処理(変換された音声パラメータによる音声合
成)を行なう部分である。
小位相のインパルス応答v(t)の例を示す図である。
図6を参照して、横軸は時間を示し、縦軸は音圧を示し
ている。図7は、V(ω)を用いて、音源を変換して合
成された信号波形を示す図である。図7を参照して、横
軸は時間を示し、縦軸は音圧を示す。図7を参照して、
標本化周期よりも細かに基本周波数が制御されているた
め、繰返される波形の形状やピークの高さが微妙に異な
っている。
換方法では、周期信号のスペクトルのピークが周波数軸
上で等間隔に並ぶ性質を利用し、等間隔のスペクトルの
ピーク値が直線状に変化する場合に直線性を保存するよ
うな補間関数と、周期信号のスペクトルを畳み込むこと
により平滑化されたスペクトルを得る。つまり、周期性
の影響が小さいスペクトルを得ることができる。このた
め、実施の形態1による音声変換方法では、これまで不
可能だった500%にも及ぶ範囲での声の高さや速度、
周波数帯域の変換を自然性を損なうことなく行なうこと
ができる。
は、信号の周期性のみを用いて直線が直線として復元さ
れるという1つの合理的な基準の下で平滑化されたスペ
クトルを抽出しているため、スペクトルのモデルに基づ
くこれまでの方法とは異なり、どのような音源から発し
た音であっても高い品質を保ちながら変換することがで
きる。
では、音声の解析などを行なう場合、周期的成分による
スペクトル形状に対する干渉を大きく削減することがで
きるため、平滑化されたスペクトルは、音声の診断に有
用である。
では、音声の解析などを行なう場合、周期的成分による
スペクトル形状に対する干渉を大きく削減することがで
きるため、平滑化されたスペクトルは、音声認識・話者
認識における標準パターンの作成の精度を大きく向上さ
せることができる。
では、電子楽器などにおいても、標本化された信号その
ものを格納するのではなく、平滑化されたスペクトル情
報と音源情報(音源の周期や強度の情報)の形に分離し
て格納しておくことによって、精密な周期の制御や位相
調整成分を用いた音色の制御によりこれまでになかった
音楽表現を生み出すことができる。
では、任意の濃淡画像を音として合成することが可能と
なるため、芸術表現、視覚障害者の情報提示、コンピュ
ータのデータの音響提示による新しいユーザインタフェ
ースなどへの応用が可能である。このような応用は、音
声研究を根本的に変革するばかりではなく、コンピュー
タグラフィックスが映像の世界にもたらしたのと同様の
インパクトを音の世界にもたらすことが予想される。
用いることによって、以下に示すようなことが実現され
る可能性もある。たとえば、猫の発声器官の寸法が人間
の発声器官の寸法の1/4程度であることを利用して、
猫の声を実施の形態1による音声変換方法により4倍の
寸法の器官から発生されたもののように変換し、また、
人間の声を実施の形態1による音声変換方法により1/
4の寸法の器官から発生されたもののように変換するこ
とにより、これまで物理的な寸法の違いによって等身大
のコミュニケーションが不可能であった異種生物間での
コミュニケーションが可能になるという可能性もある。
ム(スペクトルの時間・周波数表現)の性質について言
及する。まず、時間分解能が高い場合のスペクトログラ
ムの性質を述べる。周波数を一定にして、スペクトログ
ラムの時間方向の変化を観察する。この場合には、スペ
クトログラムの時間表現には、音声の基本周期による影
響が残っている。一方、時間を一定にして、スペクトロ
グラムの周波数方向の変化を観察する。この場合には、
スペクトログラムの周波数表現の変化が、本来のスペク
トログラムの周波数表現の変化に比べ、潰れてしまって
いるのが観察できる。次に、周波数分割能が高い場合の
スペクトログラムの性質について述べる。周波数を一定
にしてスペクトログラムの時間変化を観察する。この場
合には、スペクトログラムの時間表現の変化が、本来の
スペクトログラムの時間表現の変化に比べ、潰れてしま
っているのが観察できる。一方、時間を一定にして、ス
ペクトログラムの周波数方向の変化を観察する。この場
合には、スペクトログラムの周波数表現に、周期性の影
響が残ってしまう。なお、周波数分解能を高くすれば、
必然的に時間分解能は低くなり、時間分解能を高くすれ
ば、必然的に周波数分解能は低くなる。
トルに周期性の影響が大きく残っていたため、音声の加
工の自由度は小さかった。そこで、実施の形態1による
音声変換方法では、分析するスペクトルの周波数方向の
周期性の影響を小さくするため、周波数方向に平滑化し
たスペクトルを得た。この場合、時間方向の周期性の影
響を小さくするため、周波数分解能を高くして(時間分
解能を低くして)、スペクトルを分析した。このよう
に、周波数分解能を高くすると、スペクトルの時間方向
の細かい変化が潰れてしまうという問題が生じる。実施
の形態2による音声変換方法は、このような問題を解決
するためになされたものである。
の原理は、実施の形態1による音声変換方法の原理と同
様である。ただし、実施の形態1による音声変換方法で
は、式(1)の補間関数h(λ)は、直線復元条件を満
たすことが要請されていたが、実施の形態2による音声
変換方法では、式(11)の補間関数ht (λ,u)
は、直線復元条件に加えてさらに双1次曲面復元条件を
満たすことが要請される。
は時間に対応する積分変数を表わす。S2 (ω,t)は
式(1)のS(ω)に対応する平滑化されたスペクトロ
グラムであり、F2 (ω,t)は式(1)のF(ω)に
対応するスペクトログラムである。双1次曲面復元条件
について説明する。実施の形態1の直線復元条件は、周
波数軸上での話であった。信号の周期性は、時間方向に
も認められる。したがって、周期信号の場合には、周波
数方向には基本周波数ごと、時間方向には基本周期ごと
に格子点の情報が、信号の分析から得られることにな
る。ここで、実施の形態1で説明した1次元の条件を2
次元に拡張すると、補間関数ht (λ,u)には、
要請することが合理的である。ここでCω,Ct,CO は
双1次曲面を表わすパラメタであり、任意の定数値をと
り得る。このような双1次曲面復元条件は、周波数方向
では4π/τの幅を有する三角形の補間関数と、時間方
向では2τの幅を有する三角形の補間関数を、2次元で
畳み込んだものを補間関数ht (λ, u)として用いる
ことにより満たすことができる。
の第1の処理、第3の処理および第4の処理は、それぞ
れ、実施の形態1による音声変換方法の第1の処理、第
3の処理および第4の処理と同様である。また、実施の
形態2による音声変換方法では、実施の形態1による音
声変換方法の第1の処理と第2の処理との間に、特有の
処理を行なう。この実施の形態2による音声変換方法の
特有の処理を、「第1.5の処理」と呼ぶことにする。
さらに、実施の形態2による音声変換方法の第2の処理
は、実施の形態1による音声変換方法の第2の処理と異
なっている。また、実施の形態2による音声変換方法の
第3の処理では、実施の形態1による音声変換方法の第
3の処理を行なうことができるとともに、他の処理も行
なうことができる。
1.5の処理について説明する。第1.5の処理では、
音声信号の基本周期の情報を用いて、時間窓の周波数分
解能と基本周波数の比と、時間窓の時間分解能と基本周
期の比とが同じになるような時間窓を設計して適応的な
スペクトル分析を行なう。また、周期性の存在しない雑
音などの部分では、聴覚的な時間分解能である数msを
分析のための時間窓の長さとする。実施の形態2による
音声変換方法の効果を最大限に生かすためには、第1.
5の処理では、上述の条件を満たす時間窓を用いて、信
号の基本周期よりも細かな周期(たとえば、基本周期の
1/4以下)でスペクトル分析を行なうことが必要であ
る。なお、固定した長さの時間窓で行なっても、その時
間窓内に数個の基本周期が含まれるのであれば、後述す
る第2の処理でかなり回復することが可能である。
処理について説明する。第2の処理で、第1.5の処理
までで求められたスペクトルの時間周波数表現(たとえ
ば、横軸を時間とし、縦軸を周波数とし、その平面上に
スペクトルの強度を表わしたもの。声紋。)、すなわ
ち、スペクトログラムを用いる。また、第2の処理で
は、式(2)および式(12)の条件を満たす補間関数
を基本周波数の情報に基づいて作成する。そして、この
補間関数とスペクトログラムを、時間・周波数の2次元
方向において畳み込みを行なう。これによって、周期性
の影響が除かれた平滑化スペクトログラムを得ることが
できる。さらに、周期信号を与えることのできる時間・
周波数平面上の格子点の情報を自然な形で最も有効に抽
出した平滑化スペクトログラムを得ることができる。実
施の形態2による音声変換方法の第3の処理は、実施の
形態1による第3の処理を包含している。実施の形態2
による音声変換方法の第3の処理では、さらに、たとえ
ば、発声速度を速くするために、求められた音声パラメ
タ(平滑化スペクトログラムと精密な基本周波数情報)
の時間軸を伸縮したりする。なお、処理は、第1の処
理、第1.5の処理、第2の処理、第3の処理、第4の
処理の順に行なう。
る音声変換方法を実現するための音声変換装置である。
図8を参照して、この音声変換装置は、パワースペクト
ル計算部1、基本周波数計算部2、適応的周波数分析部
9、平滑化スペクトログラム計算部10、インタフェー
ス部4、平滑化スペクトログラム変換部11、音源情報
変換部6、位相調整部7および波形合成部8を備える。
なお、図4と同様の部分については同一の参照符号を付
しその説明は適宜省略する。
をデジタル化する。そして、デジタル化された音声信号
のうち、30msに相当する個数のデータをまとめたも
のに対して、時間窓を掛け算したものをFFT(高速フ
ーリエ変換)などの手段により短時間スペクトルに変換
し、絶対値スペクトルとして基本周波数計算部2に送
る。基本周波数計算部2では、パワースペクトル計算部
1から送られてきた絶対値スペクトルを用いて、600
Hzの幅を有する周波数領域での平滑化窓を畳み込むこ
とにより、平滑化したスペクトルを求める。このパワー
スペクトル計算部1から送られてきた絶対値スペクトル
を、この平滑化スペクトルで、対応する周波数ごとに割
算することにより、平坦化された絶対値スペクトルを求
める。つまり、(パワースペクトル計算部1から与えら
れた絶対値スペクトル)/(基本周波数計算部2で求め
た平滑化スペクトル)=(平坦化された絶対値スペクト
ル)、である。
000Hz 以下をガウス分布の形状を有する低域通過フ
ィルタ特性とかけ合わせたものを2乗したものを逆フー
リエ変換することにより、正規化され平滑化された自己
相関関数を求める。この相関関数を、パワースペクトル
計算部1で用いた時間窓の自己相関関数で正規化した正
規化相関関数の最大値を探索することにより、音声の基
本周期の初期推定値を求める。次いで、この正規化相関
関数の最大値の前後の点を合わせた3点の値に放物線を
当てはめることにより、音声信号のデジタル化のための
標本化周期よりも詳細に基本周波数を推定する。また、
パワースペクトル計算部1から与えられる絶対値スペク
トルのパワーが少なかったり、正規化相関関数の最大値
が小さいなどの理由で周期的な音声部分ではないと判定
される場合には、基本周波数の値を0としておくことに
より、その旨を記録する。パワースペクトル計算部1お
よび基本周波数計算部2は、第1の処理(音声の基本周
波数の抽出)を行なう部分である。このような第1の処
理を、1msごとに繰返し連続的に行なう。
態1で説明したように、既存の一般的な手法を用いて
も、音声波形の視認による手作業によっても良い。
算部2で求めた基本周波数の値に基づいて、時間窓の周
波数分解能と基本周波数の比と、時間窓の時間分解能と
基本周期の比とが同じになるような時間窓を設計する。
具体的には、時間窓の関数形を決めた後、時間分解能と
周波数分解能の積が一定の値になることを利用する。時
間窓の大きさは、スペクトルの分析を行なうごとに基本
周波数計算部2で求められた基本周波数を用いて更新す
る。このようにして設計された時間窓を使って、スペク
トルを求める。適応的周波数分析部9は、第1.5の処
理(基本周期に適応した周波数分析)を行なう部分であ
る。平滑化スペクトログラム計算部10では、信号の基
本周波数についての情報に基づいて、信号の基本周波数
の2倍の周波数幅を有する三角形の補間関数を求める。
そして、この補間関数と、適応的周波数分析部3で求め
られたスペクトルを周波数方向で畳み込む。次いで、基
本周期の2倍の時間長を有する三角形の補間関数を用い
て、先に周波数方向で補間したスペクトルを時間方向で
補間することにより、時間・周波数平面の格子点の間を
双1次関数の曲面で埋めた平滑化スペクトログラムを求
める。平滑化スペクトログラム計算部10は、第2の処
理(基本周波数の情報を利用した補間関数の適応)を行
なう部分である。平滑化スペクトログラム計算部10ま
での処理によって、音声信号は、平滑化スペクトログラ
ムと、精密な基本周波数情報の2つに分解される。平滑
化スペクトログラム変換部11および音源情報変換部6
は、第3の処理(音声パラメタの変換)を行なう部分で
ある。位相調整部7および波形合成部8は、第4の処理
(変換された音声パラメタによる音声合成)を行なう部
分である。
す図である。図10は、平滑化スペクトログラムを示す
図である。図9および図10を参照して、横軸は時間
(ms)を示し、縦軸は周波数を表わす指標を示す。図
11は、図9の一部を立体的に示した図である。図12
は、図10の一部を立体的に示す図である。図11およ
び図12を参照して、A軸は時間を示し、B軸は周波数
を示し、C軸は強度を示している。
の相互干渉による零点が観測できる。この零点は、図9
では、「白点」になっており、図11では、「凹み」に
なっている。図10および図12を参照して、零点が消
えているのが観測できる。すなわち、スペクトログラム
は平滑化されており、周期性の影響が除かれているのが
観測できる。
換方法では、分析するスペクトルの周波数方向だけでな
く、時間方向に対しても平滑化を行なう。つまり、分析
するスペクトログラムを平滑化する。したがって、分析
するスペクトログラムの時間方向および周波数方向の周
期性の影響を小さくできる。このため、周波数分解能を
いたずらに高くする必要がなく、分析するスペクトログ
ラムの時間方向の細かい変化が潰れることはない。つま
り、バランスよく周波数分解能および時間分解能を決定
できる。
は、実施の形態1による音声変換方法の処理をすべて含
んでいる。このため、実施の形態2による音声変換方法
は、実施の形態1による音声変換方法と同様に効果を奏
する。さらに、実施の形態2による音声変換方法では、
スペクトルを平滑化するのではなく、スペクトログラム
を平滑化している。このため、実施の形態2による音声
変換方法では、実施の形態1による音声変換方法の効果
と同様の内容の効果を奏するが、その効果は、実施の形
態1による音声変換方法に比べて顕著である。
化スペクトル計算部3における平滑化の対象とするスペ
クトルが、基本周波数計算部2での周波数分析のときに
用いる時間窓により既に平滑化されているという問題を
無視していた。このように既にある程度平滑化されてい
るスペクトルを補間関数を用いた畳み込みによりさらに
平滑化することで、平滑化が二重に行なわれることとな
り、音声の時間周波数特性を表わす曲面(音声を生成す
る機構を表わす時間周波数曲面)の周波数軸に沿った断
面(スペクトル)の微細な構造がならされてしまうとい
う問題が生じる。微細構造がなされてしまうことの影響
は、原音声との比較試聴により、音声の個人性の微妙な
ニュアンスの劣化、声の張りの劣化および音韻の明瞭性
の劣化として認められる。
めには、「中島隆之・鈴木虎三,“パワースペクトル包
絡(PSE)音声分析・合成系”,日本音響学会誌44
巻11号(1988),pp. 824−832」(以下、
「文献1」と呼ぶ)に記載されているように、節点の値
だけを用いて、スペクトルのモデルを適合させるという
方法がある。しかし、実際の音声では信号が正確には周
期的ではなくさまざまな揺らぎや雑音を含むことから必
然的に、文献1の適用範囲が限られてくるという問題が
生じる。実施の形態3による信号分析方法としての音声
分析方法は、以上のような問題を解決するために、以下
のような処理を行なう。
間周波数特性を表わす曲面(音声を生成する機構を表わ
す時間周波数曲面)が、スプライン信号空間として知ら
れる区分的多項式により構成される空間の直積として表
わされる空間の要素であると仮定する。そして、時間窓
の影響を受けたスペクトログラムから元の時間周波数特
性を表わす曲面を最適近似する曲面を計算する最適な補
間関数を求める。この最適な補間関数を用いて時間周波
数特性を計算する。以下、このような処理1について詳
しく説明する。
を生成する機構を表わす時間周波数曲面)が、時間方向
の区分的多項式により構成される空間と、周波数方向の
区分的多項式により構成される空間との積として表わさ
れる曲面であるとする。たとえば、実施の形態1では、
音声の時間周波数特性を表わす曲面が、時間方向の区分
的1次式と、周波数方向の区分的1次式との積で表わさ
れるとした。このような多項式の平行移動により、「寅
市和男・岩城護,区分的多項式からなる信号空間におけ
る周期標本化双直交基底,電子情報通信学会論文誌,9
2/6,Vol.J75−A,No.6,pp.100
3−1012」(以下、「文献2」と呼ぶ)に記載され
ているように、ある有限な観測区間の上の自乗可積分な
関数が構成する空間L2の部分空間に基底を構成するこ
とができる。以下では、説明を簡単にするために時間周
波数表現の周波数軸に沿った断面である周波数スペクト
ルについて議論する。時間軸についても同様に議論を進
めればよい。
件は、空間L2の部分空間の要素である1つの基底に相
当するスペクトルが時間窓操作に対応する周波数領域で
の平滑化操作によって平滑化されたスペクトルに変換さ
れたものに対して最適な補間関数が適用されたときに、
元の基底(空間L2の部分空間の要素である1つの基
底)に相当するスペクトルが回復されることである。文
献2に記載されているように、空間L2の部分空間の要
素は、基底による展開係数からなるベクトルと等価であ
る。したがって、最適な補間関数に要請される条件は、
最適な補間関数を元の基底(空間L2の部分空間の要素
である1つの基底)に相当するスペクトルに時間窓操作
に対応する周波数領域での平滑化操作を施して求められ
る平滑化されたスペクトルに適用した結果の節点上での
値が1箇所だけ非零となるように最適な補間関数を決め
ることと等価になる。最適な補間関数は、同じ空間内に
あるため、基底の組合せとして表現されている。すなわ
ち、最適な補間関数は、時間窓操作を施して求められた
スペクトルの節点上での値からなる係数ベクトルと畳み
込んだときに最大値に対応する係数の部分だけが非負と
なり他は0となるようなベクトルの要素を係数として基
底を組合せたものとして求められる。このようにして求
められた周波数軸上の最適な補間関数を用いることで、
過剰平滑化の影響を除去できる。
2−1と処理2−2に分けられる。処理1で求めた周波
数軸上の最適な補間関数は、負の係数を含んでいるた
め、元のスペクトルの形状によっては補間後のスペクト
ルにも負の部分が生ずることがある。スペクトルに負の
部分が生ずると、直線位相の場合には問題はないが、最
小位相のインパルスを求める際に位相の不連続による長
時間の応答を生じ異音の原因となる。また、これを避け
るために負の部分を0で置換えると正から負に移り変わ
る部分において導関数の不連続(特異点)が生じ、比較
的長い時間の応答を生じ異音の原因となる。この問題を
解決するため、処理2−1を行なう。処理2−1では、
(−∞,∞)の領域を(0,∞)の領域に写像する単調
で滑らかな関数を用いて、周波数軸上の最適な補間関数
で補間されたスペクトルを変換する。
題が生じる。音声のスペクトルは周波数帯域によってそ
の中に含まれるエネルギが大きく異なり、その比は10
000倍を超える場合もある。人間の知覚では、それぞ
れの帯域における変動は、その帯域の平均的なエネルギ
との相対的な比率に比例して知覚される。このため、エ
ネルギの小さな帯域では、近似の誤差に伴う雑音もはっ
きりと知覚されることになる。したがって、補間を行な
う際にすべての帯域において同じ精度で近似を行なう
と、エネルギの小さな帯域での近似の誤差が目立つこと
になる。このような問題を解決するために、処理2−2
を行なう。処理2−2では、元のスペクトルを平滑化し
たスペクトルで正規化する。
化したスペクトルを対象に、周波数軸上の最適な補間関
数で補間を行なう。これによって、近似の誤差は各帯域
で知覚的に一様となる。また、このような正規化により
スペクトルの平均値は1となるため、(−∞,∞)の領
域を(0,∞)の領域に写像する単調で滑らかな関数を
用いて、周波数軸上の最適な補間関数で補間されたスペ
クトルを、非負でかつスペクトル上に特異点を持たない
スペクトルに変換することができる(処理2−1)。
形態3による音声分析方法を実現するための音声分析装
置の全体構成を示す概略ブロック図である。図13を参
照して、音声分析装置は、マイク101、アナログ/デ
ジタル変換器103、基本周波数分析部105、基本周
波数適応周波数分析部107、概形スペクトル計算部1
09、正規化スペクトル計算部111、平滑化変換正規
化スペクトル計算部113および逆変換・概形スペクト
ル復元部115を備える。この音声分析装置は、図4の
パワースペクトル計算部1、基本周波数計算部2および
平滑化スペクトル計算部3からなる周波数分析装置と置
換えることができる。この場合、図4の平滑化スペクト
ル変換部5では、平滑化スペクトルの代わりに最適補間
平滑化スペクトル119を用いることになる。
により、音波に対応する電気信号に変換される。この電
気信号は、そのまま用いても、あるいは、一旦何らかの
録音装置に収録してから再生して用いてもよい。次に、
マイク101からの電気信号は、アナログ/デジタル変
換器103によって、標本化されデジタル化されて、一
連の数値の列として表わされる音声波形となる。音声波
形の標本化周波数としては、たとえば、高品質の拡声電
話の場合には、16kHz 、音楽や放送への利用を考える
場合には、32kHz ,44.1kHz ,48kHz などを用
いる。標本化に伴う量子化は、たとえば、16ビットと
する。
グ/デジタル変換器103から与えられる音声波形の基
本周波数あるいは基本周期が抽出される。基本周波数あ
るいは基本周期の抽出は、さまざまな方法を利用するこ
とができる。その一例を述べる。40msのcos2 窓
によって切り出された音声のパワースペクトルを、周波
数方向の平滑化関数との畳み込みによって平滑化したス
ペクトルで割算する。このようにして計算された概形が
平坦なパワースペクトルを、たとえば、1kHz以下に周
波数方向のガウス窓によって帯域制限した後に、フーリ
エ逆変換して得られる変形自己相関関数の最大値の位置
を求める。この最大値の位置と前後の点からなる近傍の
3点を用いた放物線補間によって詳細な最大値の位置を
求めることで、精密に基本周期を求めることができる。
この基本周期の逆数を求めれば、それが基本周波数とな
る。変形自己相関の値は、周期性が完全であれば1とな
るので、この値の大きさを周期性の確実さの指標として
用いることができる。
いは基本周期の情報(音源情報117)を利用して、ア
ナログ/デジタル変換器103からの音声波形は、基本
周波数適応周波数分析部107において、基本周波数に
適応して窓の長さが決まる時間窓により周波数分析され
る。最適補間平滑化スペクトル119だけを求めるので
あれば、窓の長さを基本周波数に適応させて変化させる
必要はないが、後で最適補間平滑化スペクトログラムを
求めることが必要な場合には、基本周波数に適応した長
さを有するガウス窓を用いることが最適となる。具体的
には、次のようにして計算される窓を用いる。この要請
を満たす窓関数w(t)は次のようなガウス関数とな
り、そのフーリエ変換W(ω)は、次式で与えられる。
あり、ω0 は基本角周波数である。ω0 =2πf0 であ
り、τ0 =1/f0 である。f0 は、基本周波数あり、
τ0は、基本周期である。
る周波数分析の結果得られたパワースペクトルは、概形
スペクトル計算部109において、たとえば、基本周波
数の6倍の幅を持つ三角形の周波数領域の窓関数との畳
み込みにより高度の平滑化を受けて、基本周波数の影響
を除去された概形スペクトルにされる。正規化スペクト
ル計算部111において、基本周波数適応周波数分析部
107で求められたパワースペクトルを、概形スペクト
ル計算部109で求められた概形スペクトルで割算する
ことにより、それぞれの帯域においての近似誤差に対す
る知覚的感度が一様となるような正規化スペクトルが求
められる。こうして求められた正規化スペクトルは、大
局的には平坦な周波数特性を有するが、音声の周期性に
基づく細かな凸凹や音韻の特徴を表わすホルマントと呼
ばれるスペクトル上の局所的な山の形が認められるもの
となる。このように、正規化スペクトル計算部111で
は、上述した処理2−2を行なう。
正規化スペクトルは、平滑化変換正規化スペクトル計算
部113において、各周波数の値に対する単調な非線形
変換を受ける。そして、非線形変換を受けた正規化スペ
クトルは、時間窓と非線形変換によって決まる下表に示
す最適な重み係数により結び付けられて構成される図1
4に示す周波数軸上での最適な平滑化関数121と畳み
込まれて平滑化変換正規化スペクトルの初期値とされ
る。この周波数軸上での最適な平滑化関数は、上述した
処理1によって求められる。つまり、周波数軸上での最
適な補間関数は、窓関数の周波数領域での表現と、周波
数方向の区分的多項式により構成される空間の基底とか
ら求められ、平滑化変換正規化スペクトルの初期値と、
音声の時間周波数特性を表わす曲面の周波数軸に沿った
断面との誤差を最小にする。なお、下表は、窓関数がガ
ウス窓である場合の最適値を示している。また、図14
および下表の例は、音声のスペクトルが2次の周期スプ
ライン信号空間の信号であることを仮定した場合の最適
な平滑化関数である。同様な係数および係数によって決
められる平滑化関数は音声のスペクトルが一般にm次の
周期スプライン信号空間の信号であることを仮定しても
求めることができる。
規化スペクトルの初期値には負の値が含まれる場合があ
る。ここで、人間の聴覚は主にスペクトルの山について
の感度が鋭いという性質を利用して、平滑化変換正規化
スペクトルの初期値を、(−∞,∞)の区間を(0,
∞)の区間に写像する単調で滑らかな関数を用いて変換
する。つまり、上述した処理2−1を行なう。具体的に
は、変換前の値をx、変換後の値をη(x)とすると、
次の式が条件を満たす。
スペクトルの初期値を適当な係数を掛けて正規化した後
に常に正の値をとるように変換する。このような変換に
よって得られたスペクトルを、正規化に用いた係数で割
ることにより、平滑化変換正規化スペクトルを得る。
換・概形スペクトル復元部115において、平滑化変換
正規化スペクトル計算部113で用いた非線形変換の逆
変換を受け、再度、概形スペクトルと掛け合せられるこ
とにより、最適補間平滑化スペクトル119にされる。
また、音源情報117に付随する情報として、有声音の
場合には、基本周波数あるいは基本周期の情報が記録さ
れ、無声音や声の存在しない区間においては、0が記録
される。最適化補間平滑化スペクトル119は、ほぼ完
全に元の音声の細かな情報まで保有し、かつ、滑らかで
ある。
音声分析・音声合成の品質改善にとって非常に効果的で
ある。また、最適補間平滑化スペクトル119を音声合
成・音声変換に利用することで、合成音声・変換音声の
品質を自然の音声と区別ができない程度に非常に高くす
ることができる。さらに、最適補間平滑化スペクトル1
19には、発声者の個人性や細かなニュアンスまでを保
存した正確な音韻情報が安定に滑らかな形で表現されて
いるので、音声の機械認識での情報表現、話者認識のた
めの情報表現として使用した場合に、大きく性能が向上
するという効果が期待される。また、音源の時間的微細
構造の影響をほぼ完全に分離しているため、最適補間平
滑化スペクトル119を逆フィルタとして用いることに
より、音源の時間的微細構造のみを高精度に抽出するこ
とができる。これは、声質の診断や状態の判定などの応
用に非常に有効である。また、実施の形態1による音声
分析方法は、駆動音源の影響をうけない高精度の音声分
析方法である。
信号の周期性を積極的に利用して時間周波数領域でのス
ペクトログラムの適応的補間により信号の時間周波数特
性を表わす曲面を求める方法に基づく音声変換方法によ
り非常に高品質の音声変換が可能となった。しかし、注
意深くヘッドホンを用いて原音声と比較試聴すると、声
の張りや音韻性の劣化が認められた。この問題の主要な
原因は、スペクトログラムの計算で必要となる時間窓に
よる必然的な平滑化と適応的補間による平滑化が重なる
ことによる過剰平滑化にある。
する。実施の形態2では、音声の時間周波数特性を表わ
す曲面が、周波数方向と時間方向それぞれにおいて基本
周波数と基本周期を格子間隔とする区分的1次関数で表
わされる双1次曲面であると仮定した。そして、格子点
の情報が与えられたときに区分的1次関数を求める演算
を時間周波数領域での補間関数を用いた平滑化として実
現することにより、実際の音声で遭遇する不完全な周期
や非周期的な信号の場合でも破綻せずに安定に曲面を求
めることを可能とした。しかし、この演算では平滑化の
対象とするスペクトログラムが分析のときに用いる時間
窓により既に平滑化されているという問題を無視してい
た。なぜなら、実施の形態2でも、大局的には元の曲面
を保存するという条件が満たされていたからである。
ある程度平滑化されているものを補間関数を用いた畳み
込みによりさらに平滑化することで、平滑化が二重に行
なわれることとなり、曲面の微細な構造がならされてし
まうという問題が生じる。微細構造がならされてしまう
ことの影響は、原音声との比較試聴により、音声の個人
性の微妙なニュアンスの劣化、声の張りの劣化、および
音韻の明瞭性の劣化として認められる。
めには、文献1に記載されているように、節点の値だけ
を用いて、スペクトルのモデルを適応させるという方法
がある。しかし、文献1の方法では、時間周波数特性を
考慮せず、ある一時刻でのスペクトルのモデルを提案し
ているにすぎない。このような方法では、時間方向の分
解能が低下し、時間的な早い変化を捉えることができな
い。また、実際の音声では信号が正確には周期的ではな
くさまざまな雑音を含むことから必然的にこのような方
法の適応範囲が限られている。また、文献1に記載され
ている方法を拡大解釈して、時間周波数分解能が音声の
基本周期とマッチするような最適なガウス窓を用いて、
時間周波数領域で等方的な格子点での値を求めたとして
も、その値には相互に隣接する格子点からの影響が含ま
れており、そのまま用いたのでは、本来の時間周波数特
性を表わす曲面を正確に復元することはできない。
滑化の影響を除いて、正しい時間周波数特性を表わす曲
面を計算する方法を提案し、実施の形態2による音声変
換方法の分析部分を改良する。さらに、実施の形態4で
は、音声の分析を必要とするさまざまな応用に対して、
駆動音源の影響を受けない高精度の分析方法を提供す
る。以下、実施の形態4による信号分析方法としての音
声分析方法について詳しく説明する。
では、処理1と同様にして時間軸上の最適な補間関数を
求める。つまり、窓関数の時間領域での表現と、時間方
向の区分的多項式により構成される空間の基底とから、
時間軸上の最適な補間関数を求める。処理4について説
明する。処理4は、処理4−1と処理4−2に分けられ
る。処理3で求めた時間軸上の最適な補間関数は、負の
係数を含んでいるため、元のスペクトログラムの形状に
よっては補間後のスペクトログラムにも負の部分が生ず
ることがある。スペクトログラムに負の部分が生ずる
と、直線位相の場合には問題がないが、最小位相のイン
パルスを求める際に位相の不連続による長時間の応答を
生じる原因となる。また、これを避けるために負の部分
を零で置換えると正から負に移り変わる部分において導
関数の不連続(特異点)が生じ、比較的長い時間の応答
を生じ異音の原因となる。この問題を解決するため、処
理4−1を行なう。処理4−1では、(−∞,∞)領域
を(0,∞)の領域に写像する単調で滑らかな関数を用
いて、時間軸上の最適な補間関数で補間されたスペクト
ログラムを変換する。しかし、処理4−1だけでは次の
ような問題が生じる。音声のスペクトルは周波数帯域に
よってその中に含まれるエネルギが大きく異なり、その
比は1万倍を超える場合もある。人間の知覚では、それ
ぞれの帯域における変動は、その帯域の平均なエネルギ
との相対的な比率に比例して知覚される。このため、エ
ネルギの小さな帯域では、近似の誤差に伴う雑音もはっ
きりと知覚されることになる。したがって、補間を行な
う際にすべての帯域において同じ精度で近似を行なう
と、エネルギの小さな帯域での近似の誤差が目立つこと
になる。このような問題を解決するために、処理4−2
を行なう。処理4−2では、元のスペクトログラムを平
滑化したスペクトログラムで正規化する。
化したスペクトログラムを対象に、時間軸上の最適な補
間関数で補間を行なう。これによって、近似の誤差は各
帯域で知覚的に一様となる。また、このような正規化に
よりスペクトログラムの平均値は1となるため、(−
∞,∞)の領域を(0,∞)の領域に写像する単調で滑
らかな関数を用いて、時間軸上の最適な補間関数で補間
されたスペクトログラムを、非負でかつスペクトログラ
ム上に特異点を持たないスペクトログラムに変換するこ
とができる(処理4−1)。
形態4による音声分析方法を実現するための音声分析装
置の全体構成を示す概略ブロック図である。なお、図1
3と同様の部分については同一の参照符号を付しその説
明を適宜省略する。図15を参照して、この音声分析装
置は、マイク101、アナログ/デジタル変換器10
3、基本周波数分析部105、基本周波数適応周波数分
析部107、概形スペクトル計算部109、正規化スペ
クトル計算部111、平滑化変換正規化スペクトル計算
部113、逆変換・概形スペクトル復元部115、概形
スペクトログラム計算部123、正規化スペクトログラ
ム計算部125、平滑化変換正規化スペクトログラム計
算部127、逆変換・概形スペクトログラム復元部12
9を備える。この音声分析装置は、図8のパワースペク
トル計算部1、基本周波数計算部2、適応的周波数分析
部9および平滑化スペクトログラム計算部10からなる
音声分析装置と置換えることができる。この場合には、
平滑化スペクトログラム変換部11では、平滑化スペク
トログラムの代わりに最適補間平滑化スペクトログラム
131を用いる。
トル119の計算は、分析周期ごとに行なわれる。音声
の基本周波数として500Hzまでを対象とするものと
すれば、1msごとに分析を行なえばよい。こうして、
たとえば、1msごとに計算される最適補間平滑化スペ
クトル119を時間の順にならべていくことにより、最
適補間平滑化スペクトルに基づいたスペクトログラムを
求めることができる。しかし、このスペクトログラム
は、時間方向での最適な補間平滑化を行なっていないの
で、最適補間平滑化スペクトログラム131ではない。
概形スペクトログラム計算部123、正規化スペクトロ
グラム計算部125、平滑化変換正規化スペクトログラ
ム計算部127および逆変換・概形スペクトログラム復
元部129は、最適補間平滑化スペクトル119に基づ
いたスペクトログラムから、最適補間平滑化スペクトロ
グラム131を計算するための部分である。
て、最適補間平滑化スペクトル119に基づいたスペク
トログラムの中から、現在の分析時点の前後3基本周期
(合計6基本周期分)の区間を選択し、現在の時点を頂
点とする三角形の加重関数を用いて加重加算を行なって
現時点での概形スペクトルの値を計算する。こうして計
算されたスペクトルを時間方向に並べることによって概
形スペクトログラムを求める。つまり、最適補間平滑化
スペクトル119に基づくスペクトログラムから、音声
信号の周期性に基づく時間的変動の影響を除去したもの
が概形スペクトログラムである。
いて、最適補間平滑化スペクトル119に基づいたスペ
クトログラムを、概形スペクトログラム計算部123に
よって得られた概形スペクトログラムで割算し、正規化
スペクトログラムを得る。このようにすることで、局所
的な変動は残るが時間方向において場所ごとのレベルに
応じて正規化が行なわれ、近似誤差の知覚的な影響が一
様になる。このように、正規化スペクトログラム計算部
125は、処理4−2を行なっている。
127において、正規化スペクトログラム計算部125
で得られた正規化スペクトログラムは適当な単調な非線
形変換を受ける。この非線形変換によって得られたスペ
クトログラムは、時間窓と非線形変換によって決まる表
(実施の形態3で示した表)に示す最適な重み係数によ
り結び付けられて構成される図16に示す時間軸上の最
適な平滑化関数133との加重計算により、平滑化変換
正規化スペクトログラムのスペクトル断面の初期値の集
合とされる。このような時間軸上の最適な平滑化関数1
33は処理3によって求められ、平滑化変換正規化スペ
クトログラムのスペクトル断面の初期値と、音声の時間
周波数特性を表わす曲面のスペクトル断面との誤差を最
小にする。
は、音声のスペクトログラムの時間変化が2次の周期ス
プライン信号空間の信号であることを仮定した場合の最
適な平滑化関数である。同様な係数および係数によって
決められる平滑化関数は音声のスペクトログラムの時間
変化が一般にm次の周期スプライン信号空間の信号であ
ることを仮定しても求めることができる。
規化スペクトログラムのスペクトル断面の初期値には負
の値が含まれる場合がある。ここで、人間の聴覚は主に
音の立上がりについての感度が鋭いという性質を利用し
て、平滑化変換正規化スペクトログラムのスペクトル断
面の初期値を、(−∞,∞)の区間を(0,∞)の区間
に写像する単調で滑らかな関数を用いて変換する。つま
り、上述した処理4−1を行なう。具体的には、変換前
の値をx、変換後の値をη(x)とすると、次の式が条
件を満たす。
スペクトログラムのスペクトル断面の初期値を適当な係
数を掛けて正規化した後に、常に正の値をとるように変
換し、この変換によって得られたスペクトルを正規化に
用いた係数で割る。この処理を、平滑化変換正規化スペ
クトログラムのスペクトル断面の初期値のすべてに対し
て行ない、複数のスペクトルを得る。この複数のスペク
トルを時間方向にならべたものを平滑化変換正規化スペ
クトログラムとする。
9において、正規化変換正規化スペクトログラムは、平
滑化変換正規化スペクトログラム計算部127で用いた
非線形変換の逆変換を受け、再度概形スペクトログラム
と掛け合せられることにより、最適補間平滑化スペクト
ログラム131にされる。
方法では、実施の形態3による音声分析方法の処理をす
べて含む。このため、実施の形態4による音声分析方法
は、実施の形態3による音声分析方法と同様の効果を奏
する。ただし、実施の形態4による音声分析方法では、
周波数方向のみならず時間方向をも考慮した処理を行な
っている。つまり、実施の形態3で説明した処理1およ
び処理2に加えて、処理3および処理4を行なってい
る。このため、実施の形態4による効果は、実施の形態
3による音声分析方法よりも顕著である。したがって、
実施の形態4による音声分析方法を用いることで、実施
の形態3による音声分析方法を用いる場合に比べ、音声
分析・音声合成の品質はさらに改善され、特に、子音の
開始部分や発声の開始部分の生々しさが向上する。
能が基本周期およびおよび基本周波数に対して同じ比率
となるような等分解能の時間窓を用いた場合、周期的信
号の調波の間の干渉により、周期的に零となる点がスペ
クトログラム上に生ずる。この零となる点は、隣り合う
調波の位相が1基本周期で一巡するために、平均的に逆
相となる部分が周期的に生ずるためである。実施の形態
2による図12の説明で、実施の形態2による音声変換
方法を用いることで、スペクトログラムの零となる点が
消えるということを示した。なお、零となる点は、振幅
が0になる点である。
ど零となる点の部分で最大の値となるようなスペクトロ
グラムを与える窓関数を設計すればよい。そのような窓
関数は無数にあるが、次のようにすれば具体的に構成で
きる。対象とする窓関数を、原点の両側に、相互の間隔
を音声信号の基本周期分、離して配置する。そして、配
置された一方の窓関数の符号を反転させる。符号を反転
させた窓関数と、配置された他方の窓関数とを加え合せ
て、新たな窓関数を作る。この新たな窓関数の振幅は元
の窓関数の半分とする。このようにして得られた新たな
窓関数を用いることにより計算されるスペクトログラム
は、元の窓関数を用いて得られたスペクトログラムの零
となる点の位置に最大値を有し、元の窓関数を用いて得
られたスペクトログラムが最大値を有する位置に零とな
る点を有するものとなる。元の窓関数を用いて計算した
パワー表示のスペクトログラムと、新しく作成した窓関
数を用いて計算したパワー表示のスペクトログラムと
を、単調で非負な関数を加えた後、加え合せ、逆変換す
ることにより、それぞれの零となる点と最大値は打消し
合い、平坦で滑らかなスペクトログラムが求められる。
以下、図面を参照しながら詳しく説明する。
声信号分析方法を実現するための音声分析装置の全体構
成を示す概略ブロック図である。図17を参照して、こ
の音声分析装置は、パワースペクトル計算部137、適
応時間窓作成部139、相補パワースペクトル計算部1
41、適応相補時間窓作成部143および非零パワース
ペクトル計算部145を備える。図13および図15の
基本周波数適応周波数分析部107は、図17の音声分
析装置と置換えることができる。この場合には、図13
の概形スペクトル計算部109および正規化スペクトル
計算部111は、基本周波数適応周波数分析部107で
得られたスペクトルの代わりに非零パワースペクトル1
47を用いることになる。なお、音源情報117は、図
13の音源情報117と同じであり、音声波形135
は、図13に示したアナログ/デジタル変換器103か
ら与えられる。
周期の情報に基づいて、適応時間窓作成部139におい
て、基本周波数および基本周期に対する時間窓の時間分
解能と周波数分解能が等しい関係になるような窓関数を
作成する。この要請を満たす窓関数(以下、「適応時間
窓」と呼ぶ)w(t)は次のようなガウス関数となり、
そのフーリエ変換W(ω)は、次式で与えられる。
基本角周波数、τ0 は基本周期である。そして、ω0 =
2πf0 、τ0 =1/f0 であり、f0 は基本周波数で
ある。適応相補時間窓作成部143において、適応時間
窓作成部139における適応時間窓の作成と同時に、適
応時間窓に対して相補的な時間窓(以下、「適応相補時
間窓」と呼ぶ)を作成する。つまり、適応時間窓と同じ
形の窓関数を、原点の両側に相互の間隔を基本周期分だ
け離して配置する。そして、配置した一方の窓関数の符
号を反転させたものと、配置した他方の窓関数とを加え
合せたものとして、適応相補時間窓wd (t)を作成す
る。振幅は元の窓関数(適応時間窓)の半分とする。適
応相補時間窓wd (t)を、ガウス窓の場合について具
体的に書けば、次のようになる。
相補時間窓wd (t)を示す図である。図19は、適応
時間窓w(t)および適応相補時間窓wd (t)に対応
する実際の音声波形を示す図である。図18および図1
9を参照して、縦軸は振幅を示し、横軸は時間(ms)
を示す。図18の適応時間窓w(t)および適応相補時
間窓wd (t)は、図19の音声波形(女性の声「オ」
の一部)135の基本周波数に対応する。
計算部137において、適応時間窓作成部139で作成
した適応時間窓を用いて、音声波形135を周波数分析
し、パワースペクトルを求める。同時に、相補パワース
ペクトル計算部141において、適応相補時間窓作成部
143によって作成した適応相補時間窓を用いて、音声
波形135を周波数分析し、相補パワースペクトルを求
める。
て、パワースペクトル計算部137で求めたパワースペ
クトルP2 (ω)と、相補パワースペクトル計算部14
1で求めた相補パワースペクトルP2 c (ω)とから次
の計算により、非零パワースペクトル147を求める。
ここで、非零パワースペクトル147を、P2 nz(ω)
とする。
トル147を時間的に並べることにより、非零パワース
ペクトログラムを求めることができる。
て、実施の形態5による音声分析方法の働きを示す。図
20は、周期的パルス列に適応時間窓を用いて求められ
るパワースペクトルP2 (ω)から構成される3次元ス
ペクトログラムP(ω)を示す図である。図21は、周
期的パルス列に適応相補時間窓を用いて求められる相補
パワースペクトルP2 c (ω)から構成される3次元相
補スペクトログラムP c (ω)を示す図である。図22
は、周期的パルス列の非零パワースペクトルP
2 nz(ω)から構成される3次元非零スペクトログラム
Pnz(ω)を示す図である。図20〜図22を参照し
て、AA軸は時間(尺度任意)を示し、BB軸は周波数
(尺度任意)を示し、CC軸は、強度(振幅)を示して
いる。図20を参照して、3次元スペクトログラム15
5は、零となる点の存在により、周期的に曲面の値が0
に落ち込んでいる。図21を参照して、図20の3次元
スペクトログラムにおいて零となる点の存在していた部
分が、3次元相補スペクトログラム157では、最大値
となっている。図22を参照して、3次元スペクトログ
ラム155および3次元相補スペクトログラム157の
平均として得られた3次元非零スペクトログラム159
は、零となる点がなく平坦に近い滑らかな形状となって
いる。
析方法では、零となる点のないスペクトルおよび零とな
る点のないスペクトログラムを作成できる。このように
して作成された零となる点のないスペクトルを、図13
の概形スペクトル計算部109および正規化スペクトル
計算部111で用いることにより、実施の形態3による
音声分析方法に比べて、音声の時間周波数特性を表わす
曲面の周波数軸に沿った断面の近似精度をさらに改善す
ることができる。また、零となる点のないスペクトログ
ラムを、図15の概形スペクトル計算部109および正
規化スペクトル計算部111で用いることにより、実施
の形態4による音声分析方法に比べて、音声の時間周波
数特性を表わす曲面の近似精度をさらに改善できる。な
お、P2 c (ω)の代わりに、P2 c (ω)に(0<C
f ≦1)なる補正量を掛けたものを用いることにより、
最終的に得られる最適補間平滑化スペクトログラムの近
似を総合的に改善することができる。ここで、Cf は、
位相の干渉を補正するための量である。
適応的な窓の長さの調整を行なっている(図13および
図15の基本周波数適応周波数分析部107ならびに図
17の適応時間窓作成部139)。実施の形態6では、
窓関数の長さの調整のための基本周波数が安定に求めら
れない場合においても安定に動作することができるよう
に、分析位置の近傍における音声波形を駆動する事象の
位置関係を用いて適応的に窓関数の長さを調整する方法
を提案する。
としての音声分析方法について簡単に説明する。実施の
形態3および実施の形態4に示したような周波数軸上で
の最適な平滑化関数および時間軸上での最適な平滑化関
数を用いて、過剰平滑化の影響を取除く場合において、
その効果を最もよく発揮させるためには、音声波形を最
初に分析する場合の窓の長さを音声の基本周波数に対し
て一定の関係に設定することが望ましい。この要請を満
たす窓関数w(t)は、式(13)や式(17)のよう
なガウス関数となり、そのフーリエ変換W(ω)は、式
(14)や式(18)のようになる。式(13)や式
(17)の窓関数w(t)の中に入って実質的に分析結
果に影響を及ぼすのは、最大で2基本周期分であり、大
部分の場合は、1つの基本周期分の波形が入るだけであ
る。したがって、実施の形態6による音声分析方法で
は、有声音のように主要な励振がはっきりとしてる場合
には、現在の分析中心を挟む2つの励振の時間間隔をτ
0 として用いる。以下、詳しく説明する。
声分析方法を実現するための音声分析装置の全体構成を
示す概略ブロック図である。図23を参照して、この音
声分析装置は、駆動点抽出部161、駆動点依存適応時
間窓作成部163および適応パワースペクトル計算部1
65を備える。図13および図15の基本周波数適応周
波数分析部107ならびに図17の適応時間窓作成部1
39は、図23に示した音声分析装置で置換えることが
できる。この場合には、図13および図15の概形スペ
クトル計算部109および正規化スペクトル計算部11
1では、基本周波数適応周波数分析部107で得られた
パワースペクトルの代わりに適応パワースペクトル16
7を用いることになる。なお、音源情報117は、図1
3の音源情報117と同様のものである。音声波形13
5は、図13および図15のアナログ/デジタル変換器
103から与えられる音声波形と同様のものである。図
24は、図23の音声波形135の一例を示す図であ
る。図23を参照して、縦軸は振幅を示し、横軸は時間
(ms)を示す。
成において基本周波数情報ではなく、分析位置の近傍に
ある音声波形から波形の駆動時点の情報を求めて、分析
位置と駆動点の相対関係に基づいて適切な窓関数の長さ
を決める音声分析方法を実現する。駆動点抽出部161
において、音源情報117から信頼できる値に基づい
て、平均的な基本周波数を求め、その基本周波数の2
倍、4倍、8倍、16倍に対応する適応相補窓関数(図
18に示した適応相補窓関数wd (t)と同じ方法によ
って作成された窓関数)を、振幅を√2倍しながら組合
せて、声門閉止検出用の関数を作成する。そして、声門
閉止検出用の関数と、音声波形(図24参照)を畳み込
むことによって、声門閉止において極大値をとる信号を
得る。この信号の極大値に基づいて駆動点を求める。駆
動点は、周期的に声門が閉じる時刻である。図25は、
声門閉止において極大値をとる信号を示す図である。縦
軸は振幅を示し、横軸は時間(ms)を示している。曲
線169は、声門閉止において極大値をとる信号を示
す。
間窓作成部163においては、駆動点抽出部161で得
られた駆動点の情報に基づいて、現在の分析時点を挟む
駆動点の間の時間間隔を基本周期τ0 とみなして、窓の
長さを適応的に決める。適応パワースペクトル計算部1
65においては、駆動点依存適応時間窓作成部163で
得られた窓を用いて周波数分析を行ない、適応パワース
ペクトル167を求める。
の形態3〜実施の形態5による音声分析方法に適応する
ことによって、適応的な窓関数の長さの調整のための基
本周波数が安定に求められない場合においても、安定し
た効果を得ることができる。つまり、適応的な窓関数の
長さの調整のための基本周波数が安定に求められない場
合においても、実施の形態3〜実施の形態5による音声
分析方法の効果が損なわれることはない。
換方法では、連続的なスペクトル、つまり、平滑化スペ
クトルを用いて周期信号を別の信号に変換している。こ
のため、周波数方向の周期性の影響が小さくなる。
方法では、平滑化スペクトログラムを用いて、周期信号
を別の信号に変換している。このため、周波数方向およ
び時間方向の周期性の影響が小さくなる。したがって、
時間分解能および周波数分解能をバランスよく決定でき
る。
は、位相調整成分から得られる音源信号は、インパルス
と同じパワースペクトルを有し、時間的にエネルギが分
散している。このため、自然な音色を与えることができ
る。しかも、このような位相調整成分を利用すること
で、音の標本化周期よりも高い分解能で、精密に音程を
設定できる。
では、最適な周波数方向の補間関数によって補間を行な
うことで、過剰平滑化の影響が取り除かれ、スペクトル
の微細な構造がならされてしまうという弊害を防止でき
る。
では、好ましくは、最適な時間方向の補間関数を用いて
補間を行なうことで、過剰な平滑化の影響を取除くこと
ができ、スペクトログラムの微細な構造がならされてし
まうという弊害を防止できる。
では、第1の窓関数を用いて得られた第1のスペクトル
と、第1の窓関数に対し相補的な第2の窓関数を用いて
得られた第2のスペクトルとの平均値を、自乗あるいは
単調で非負な関数による変換を介して求め、求まった自
乗あるいは単調で非負な関数による変換を介した平均値
を第3のスペクトルとする。こうして求まった第3のス
ペクトルには、零となる点が存在しない。
信号を示す図である。
信号を示す図である。
(ω)とを掛け合わせることによって作り出した位相調
整成分を用いて作成した音源信号を示す図である。
現するための音声変換装置を示す概略ブロック図であ
る。
ワースペクトルおよび平滑化スペクトル計算部で求めら
れた平滑化スペクトルを示す図である。
ある。
現するための音声変換装置を示す概略ブロック図であ
る。
る。
示す図である。
に示す図である。
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。
で用いる周波数軸上での最適な補間平滑化関数を示す図
である。
実現するための信号分析装置の全体構成を示す概略ブロ
ック図である。
計算部で用いる時間軸上での最適な補間平滑化関数を示
す図である。
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。
間窓w(t)および図17の適応相補時間窓作成部で得
られる適応相補時間窓wd (t)を示す図である
(t)を用いて求められるパワースペクトルP2 (ω)
から構成される3次元スペクトログラムP(ω)を示す
図である。
wd (t)を用いて求められる相補パワースペクトルP
2 c (ω)から構成される3次元相補スペクトログラム
P c (ω)を示す図である。
れた周期的パルス列の非零パワースペクトルP
2 nz(ω)から構成される3次元非零スペクトログラム
Pnz(ω)を示す図である。
実現するための音声分析装置の全体構成を示す概略ブロ
ック図である。
おいて極大値をとる信号を示す図である。
Claims (14)
- 【請求項1】 離散的なスペクトルで与えられる周期信
号のスペクトルを区分的多項式で表わされる連続的なス
ペクトルに変換するステップと、 前記連続的なスペクトルを用いて、前記周期信号を別の
信号に変換するステップとを含み、 離散的なスペクトルで与えられる周期信号のスペクトル
を区分的多項式で表わされる連続的なスペクトルに変換
する前記ステップでは、 周波数軸上の補間関数と、前記離散的なスペクトルを畳
み込むことにより、前記連続的なスペクトルを得る、周
期信号変換方法。 - 【請求項2】 周期信号のスペクトログラム上に表現さ
れる、基本周期の間隔と基本周波数の間隔とで決まる格
子点の情報を用いて、区分的多項式で補間することで、
平滑化されたスペクトログラムを得るステップと、 前記平滑化されたスペクトログラムを用いて、前記周期
信号を別の信号に変換するステップとを含み、 周期信号のスペクトログラム上に表現される、基本周期
の間隔と基本周波数の間隔とで決まる格子点の情報を用
いて、区分的多項式で補間することで、平滑化されたス
ペクトログラムを得る前記ステップでは、 周波数軸上での補間関数と前記周期信号のスペクトログ
ラムを、周波数方向で畳み込み、さらに、時間軸上での
補間関数と前記畳み込みで得られたスペクトログラム
を、時間方向で畳み込むことによって、前記平滑化され
たスペクトログラムを得る、周期信号変換方法。 - 【請求項3】 位相調整成分と音のスペクトルとの積を
用いてインパルス応答を求めるステップと、 前記インパルス応答を時間軸上で目的とする周期ずつ移
動させながら加算していくことにより、前記音を別の音
に変換するステップとを含み、 前記位相調整成分から得られる音源信号は、インパルス
と同じパワースペクトルを有し、時間的にエネルギが分
散している、音変換方法。 - 【請求項4】 前記位相調整成分Φ(ω)は、 【数1】 であり、式中のexp( )は指数関数を示し、式中の
ωは角周波数を示し、式中のξ(ω)は連続な奇関数を
示し、式中のΛは数字の集まりで、有限個の数字を集め
たものを示し、式中のkはΛの中から取出した1つの数
字を示し、式中のαk は係数を示し、式中のmk はパラ
メタを示し、式中のρ(ω)は重みを表わす関数を示
す、請求項3に記載の音変換方法。 - 【請求項5】 前記位相調整成分は、 周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制
限された乱数を求めるステップと、 前記帯域制限された乱数と遅延時間の変動の目標値とを
掛け合わせて、群遅延特性を求めるステップと、 前記群遅延特性を周波数で積分することにより、位相特
性を求めるステップと、 前記位相特性と虚数単位とを掛け合わせて、指数関数の
指数とすることにより、前記位相調整成分を得るステッ
プとによって得られる、請求項3に記載の音変換方法。 - 【請求項6】 前記位相調整成分は、第1の成分と第2
の成分との積であり、前記第1の成分Φ(ω)は、 【数2】 であり、式中のexp( )は指数関数を示し、式中の
ωは角周波数を示し、式中のξ(ω)は連続な奇関数を
示し、式中のΛは数字の集まりで、有限個の数字を集め
たものを示し、式中のkはΛの中から取出した1つの数
字を示し、式中のαk は係数を示し、式中のmk はパラ
メタを示し、式中のρ(ω)は重みを表わす関数を示
し、 前記第2の成分は、 周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制
限された乱数を求めるステップと、 前記帯域制限された乱数と遅延時間の変動の目標値とを
掛け合わせて、群遅延特性を求めるステップと、 前記群遅延特性を周波数で積分することにより、位相特
性を求めるステップと、 前記位相特性と虚数単位とを掛け合わせて、指数関数の
指数とすることにより、前記第2の成分を得るステップ
とによって得られる、請求項3に記載の音変換方法。 - 【請求項7】 時間とともに特性が変化するほぼ周期的
な信号を生成する機構を表わす時間周波数曲面が、時間
の区分的多項式と、周波数の区分的多項式との積で表わ
されると仮定するステップと、 前記ほぼ周期的な信号から所定範囲を、窓関数を使って
取出すステップと、 取出された前記所定範囲の前記ほぼ周期的な信号から第
1のスペクトルを求めるステップと、 前記窓関数の周波数領域での表現と、前記周波数の区分
的多項式で表わされる空間の基底とから、周波数方向の
最適な補間関数を求めるステップと、 前記第1のスペクトルと、前記周波数方向の最適な補間
関数を畳み込んで、第2のスペクトルを求めるステップ
とを含み、 前記周波数方向の最適な補間関数は、前記第2のスペク
トルと、前記時間周波数曲面の周波数軸に沿った断面と
の誤差を最小にする、信号分析方法。 - 【請求項8】 −∞から+∞の領域を0から+∞の領域
に写像する単調で滑らかな関数を用いて、前記第2のス
ペクトルを第3のスペクトルに変換するステップをさら
に含む、請求項7に記載の信号分析方法。 - 【請求項9】 前記第1のスペクトルから、前記ほぼ周
期的な信号の基本周波数の影響を除去して第4のスペク
トルを求めるステップと、 前記第1のスペクトルを、前記第4のスペクトルで割算
して第5のスペクトルを求めるステップと、 前記第3のスペクトルと、前記第4のスペクトルとを掛
け合わせて、第6のスペクトルを求めるステップとをさ
らに含み、 前記第2のスペクトルを求める前記ステップでは、前記
第1のスペクトルの代わりに前記第5のスペクトルを用
いて前記第2のスペクトルを求める、請求項8に記載の
信号分析方法。 - 【請求項10】 前記窓関数の時間領域での表現と、前
記時間の区分的多項式で表わされる空間の基底とから、
時間方向の最適な補間関数を求めるステップと、 任意の時間ごとに複数の前記第2のスペクトルを求める
ステップと、 前記複数の第2のスペクトルを時間方向に並べて第1の
スペクトログラムを求めるステップと、 前記第1のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第2のスペクトログラムを求め
るステップとをさらに含み、 前記時間方向の最適な補間関数は、前記第2のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、請求項7に記載の信号分析方法。 - 【請求項11】 任意の時間ごとに複数の前記第2のス
ペクトルを求めるステップと、 −∞から+∞の領域を0から+∞の領域に写像する単調
で滑らかな第1の関数を用いて、前記複数の第2のスペ
クトルを複数の第3のスペクトルに変換するステップ
と、 前記複数の第3のスペクトルを時間方向に並べて第1の
スペクトログラムを求めるステップと、 前記窓関数の時間領域での表現と、前記時間の区分的多
項式で表わされる空間の基底とから、時間方向の最適な
補間関数を求めるステップと、 前記第1のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第2のスペクトログラムを求め
るステップと、 −∞から+∞の領域を0から+∞の領域に写像する単調
で滑らかな第2の関数を用いて、前記第2のスペクトロ
グラムを第3のスペクトログラムに変換するステップと
をさらに含み、 前記時間方向の最適な補間関数は、前記第2のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、請求項7に記載の信号分析方法。 - 【請求項12】 時間とともに特性が変化するほぼ周期
的な信号を生成する機構を表わす時間周波数曲面が、時
間の区分的多項式と、周波数の区分的多項式との積で表
わされると仮定するステップと、 前記ほぼ周期的な信号から所定範囲を、窓関数を使って
取出すステップと、 取出された前記所定範囲の前記ほぼ周期的な信号から第
1のスペクトルを求めるステップと、 任意の時間ごとに複数の前記第1のスペクトルを求める
ステップと、 前記複数の第1のスペクトルから、前記ほぼ周期的な信
号の基本周波数の影響を除去して複数の第2のスペクト
ルを求めるステップと、 前記各第1のスペクトルを、対応する前記第2のスペク
トルで割算して複数の第3のスペクトルを求めるステッ
プと、 前記窓関数の周波数領域での表現と、前記周波数の区分
的多項式で表わされる空間の基底とから、周波数方向の
最適な補間関数を求めるステップと、 前記各第3のスペクトルと、前記周波数方向の最適な補
間関数を畳み込んで、複数の第4のスペクトルを求める
ステップと、 −∞から+∞の領域を0から+∞の領域に写像する単調
で滑らかな第1の関数を用いて、前記複数の第4のスペ
クトルを複数の第5のスペクトルに変換するステップ
と、 前記各第5のスペクトルと、対応する前記第2のスペク
トルとを掛け合わせて、複数の第6のスペクトルを求め
るステップと、 前記複数の第6のスペクトルを時間方向に並べて第1の
スペクトログラムを求めるステップと、 前記第1のスペクトログラムから、前記ほぼ周期的な信
号の周期性に基づく時間的変動の影響を除去して第2の
スペクトログラムを求めるステップと、 前記第1のスペクトログラムを、前記第2のスペクトロ
グラムで割算して第3のスペクトログラムを求めるステ
ップと、 前記窓関数の時間領域の表現と、前記時間の区分的多項
式で表わされる空間の基底とから、時間方向の最適な補
間関数を求めるステップと、 前記第3のスペクトログラムと、前記時間方向の最適な
補間関数を畳み込んで、第4のスペクトログラムを求め
るステップと、 −∞から+∞の領域を0から+∞の領域に写像する単調
で滑らかな第2の関数を用いて、前記第4のスペクトロ
グラムを第5のスペクトログラムに変換するステップ
と、 前記第5のスペクトログラムと、前記第2のスペクトロ
グラムとを掛け合わせて、第6のスペクトログラムを求
めるステップとを含み、 前記周波数方向の最適な補間関数は、前記第4のスペク
トルと、前記時間周波数曲面の周波数軸に沿った断面と
の誤差を最小にし、 前記時間方向の最適な補間関数は、前記第4のスペクト
ログラムと、前記時間周波数曲面との誤差を最小にす
る、信号分析方法。 - 【請求項13】 第1の窓関数を用いて、時間とともに
特性が変化するほぼ周期的な信号の第1のスペクトルを
求めるステップと、 所定の窓関数を用いて、第2の窓関数を求めるステップ
と、 前記第2の窓関数を用いて、前記ほぼ周期的な信号の第
2のスペクトルを求めるステップと、 前記第1のスペクトルと、前記第2のスペクトルとの平
均値を、自乗あるいは単調で非負な関数による変換を介
して求め、求まった自乗あるいは単調で非負な関数によ
る変換を介した平均値を第3のスペクトルとするステッ
プとを含み、 前記第2の窓関数を求める前記ステップは、 前記所定の窓関数を、原点の両側に、相互の間隔を基本
周期分、離して配置するステップと、 前記配置された一方の所定の窓関数の符号を反転させる
ステップと、 前記符号を反転させた所定の窓関数と、前記配置された
他方の所定の窓関数とを加え合せて前記第2の窓関数を
求めるステップとを含む、信号分析方法。 - 【請求項14】 任意の時間ごとに複数の前記第3のス
ペクトルを求めるステップと、 前記複数の第3のスペクトルを時間方向に並べて、スペ
クトログラムを求めるステップとをさらに含む、請求項
13に記載の信号分析方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34424796A JP3266819B2 (ja) | 1996-07-30 | 1996-12-24 | 周期信号変換方法、音変換方法および信号分析方法 |
EP97112087A EP0822538B1 (en) | 1996-07-30 | 1997-07-15 | Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function |
DE69700084T DE69700084T2 (de) | 1996-07-30 | 1997-07-15 | Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion |
CA002210826A CA2210826C (en) | 1996-07-30 | 1997-07-17 | Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function |
US08/902,546 US6115684A (en) | 1996-07-30 | 1997-07-29 | Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8-200845 | 1996-07-30 | ||
JP20084596 | 1996-07-30 | ||
JP34424796A JP3266819B2 (ja) | 1996-07-30 | 1996-12-24 | 周期信号変換方法、音変換方法および信号分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1097287A true JPH1097287A (ja) | 1998-04-14 |
JP3266819B2 JP3266819B2 (ja) | 2002-03-18 |
Family
ID=26512425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34424796A Expired - Lifetime JP3266819B2 (ja) | 1996-07-30 | 1996-12-24 | 周期信号変換方法、音変換方法および信号分析方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6115684A (ja) |
EP (1) | EP0822538B1 (ja) |
JP (1) | JP3266819B2 (ja) |
CA (1) | CA2210826C (ja) |
DE (1) | DE69700084T2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001097212A1 (fr) * | 2000-06-14 | 2001-12-20 | Kabushiki Kaisha Kenwood | Dispositif et procédé d'interpolation de fréquence |
WO2002009092A1 (fr) * | 2000-07-21 | 2002-01-31 | Kabushiki Kaisha Kenwood | Dispositif d'interpolation de frequences servant a interpoler une composante de frequence de signal et procede d'interpolation de frequences |
WO2002035517A1 (fr) * | 2000-10-24 | 2002-05-02 | Kabushiki Kaisha Kenwood | Appareil et procédé pour interpoler un signal |
JP2002524759A (ja) * | 1998-08-28 | 2002-08-06 | シグマ オーディオ リサーチ リミテッド | オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 |
WO2003003345A1 (fr) * | 2001-06-29 | 2003-01-09 | Kabushiki Kaisha Kenwood | Dispositif et procede d'interpolation des composantes de frequence d'un signal |
WO2003019530A1 (fr) * | 2001-08-31 | 2003-03-06 | Kenwood Corporation | Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme |
JP2004514178A (ja) * | 2000-11-17 | 2004-05-13 | フォルスカーパテント アイ エスワイディ アクチボラゲット | 音声の分析の方法及び装置 |
WO2009011438A1 (ja) * | 2007-07-18 | 2009-01-22 | Wakayama University | 周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法 |
WO2011118207A1 (ja) * | 2010-03-25 | 2011-09-29 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
CN102695958A (zh) * | 2009-11-12 | 2012-09-26 | 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 | 波形的精确测量 |
WO2014021318A1 (ja) | 2012-08-01 | 2014-02-06 | 独立行政法人産業技術総合研究所 | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム |
JP2017151188A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2768545B1 (fr) * | 1997-09-18 | 2000-07-13 | Matra Communication | Procede de conditionnement d'un signal de parole numerique |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
ATE369600T1 (de) * | 2000-03-15 | 2007-08-15 | Koninkl Philips Electronics Nv | Laguerre funktion für audiokodierung |
US6567777B1 (en) * | 2000-08-02 | 2003-05-20 | Motorola, Inc. | Efficient magnitude spectrum approximation |
JP2003241777A (ja) * | 2001-01-09 | 2003-08-29 | Kawai Musical Instr Mfg Co Ltd | 楽音のフォルマント抽出方法、記録媒体及び楽音のフォルマント抽出装置 |
JP4012506B2 (ja) * | 2001-08-24 | 2007-11-21 | 株式会社ケンウッド | 信号の周波数成分を適応的に補間するための装置および方法 |
CN1302555C (zh) * | 2001-11-15 | 2007-02-28 | 力晶半导体股份有限公司 | 非易失性半导体存储单元结构及其制作方法 |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
US7801244B2 (en) * | 2002-05-16 | 2010-09-21 | Rf Micro Devices, Inc. | Am to AM correction system for polar modulator |
US7991071B2 (en) * | 2002-05-16 | 2011-08-02 | Rf Micro Devices, Inc. | AM to PM correction system for polar modulator |
US7809145B2 (en) * | 2006-05-04 | 2010-10-05 | Sony Computer Entertainment Inc. | Ultra small microphone array |
US8073157B2 (en) * | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US8233642B2 (en) * | 2003-08-27 | 2012-07-31 | Sony Computer Entertainment Inc. | Methods and apparatuses for capturing an audio signal based on a location of the signal |
US8139793B2 (en) | 2003-08-27 | 2012-03-20 | Sony Computer Entertainment Inc. | Methods and apparatus for capturing audio signals based on a visual image |
US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
US7803050B2 (en) * | 2002-07-27 | 2010-09-28 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
US9174119B2 (en) | 2002-07-27 | 2015-11-03 | Sony Computer Entertainement America, LLC | Controller for providing inputs to control execution of a program when inputs are combined |
JP3660937B2 (ja) * | 2002-11-25 | 2005-06-15 | 松下電器産業株式会社 | 音声合成方法および音声合成装置 |
US20040260540A1 (en) * | 2003-06-20 | 2004-12-23 | Tong Zhang | System and method for spectrogram analysis of an audio signal |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
JP4813774B2 (ja) * | 2004-05-18 | 2011-11-09 | テクトロニクス・インターナショナル・セールス・ゲーエムベーハー | 周波数分析装置の表示方法 |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
CN1835072B (zh) * | 2005-03-17 | 2010-04-28 | 佳能株式会社 | 根据波三角变换检测语音的方法和装置 |
US7457756B1 (en) * | 2005-06-09 | 2008-11-25 | The United States Of America As Represented By The Director Of The National Security Agency | Method of generating time-frequency signal representation preserving phase information |
US8224265B1 (en) | 2005-06-13 | 2012-07-17 | Rf Micro Devices, Inc. | Method for optimizing AM/AM and AM/PM predistortion in a mobile terminal |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US7880748B1 (en) * | 2005-08-17 | 2011-02-01 | Apple Inc. | Audio view using 3-dimensional plot |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US20070118361A1 (en) * | 2005-10-07 | 2007-05-24 | Deepen Sinha | Window apparatus and method |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
US7877060B1 (en) | 2006-02-06 | 2011-01-25 | Rf Micro Devices, Inc. | Fast calibration of AM/PM pre-distortion |
US7962108B1 (en) | 2006-03-29 | 2011-06-14 | Rf Micro Devices, Inc. | Adaptive AM/PM compensation |
US20080114822A1 (en) * | 2006-11-14 | 2008-05-15 | Benjamin David Poust | Enhancement of extraction of film thickness from x-ray data |
US20080120115A1 (en) * | 2006-11-16 | 2008-05-22 | Xiao Dong Mao | Methods and apparatuses for dynamically adjusting an audio signal based on a parameter |
US8009762B1 (en) | 2007-04-17 | 2011-08-30 | Rf Micro Devices, Inc. | Method for calibrating a phase distortion compensated polar modulated radio frequency transmitter |
US8255222B2 (en) * | 2007-08-10 | 2012-08-28 | Panasonic Corporation | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus |
US8706496B2 (en) * | 2007-09-13 | 2014-04-22 | Universitat Pompeu Fabra | Audio signal transforming by utilizing a computational cost function |
US20090216535A1 (en) * | 2008-02-22 | 2009-08-27 | Avraham Entlis | Engine For Speech Recognition |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
US8489042B1 (en) | 2009-10-08 | 2013-07-16 | Rf Micro Devices, Inc. | Polar feedback linearization |
EP2518723A4 (en) * | 2009-12-21 | 2012-11-28 | Fujitsu Ltd | VOICE CONTROL DEVICE AND VOICE CONTROL METHOD |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US8462984B2 (en) * | 2011-03-03 | 2013-06-11 | Cypher, Llc | Data pattern recognition and separation engine |
WO2012119140A2 (en) * | 2011-03-03 | 2012-09-07 | Edwards Tyson Lavar | System for autononous detection and separation of common elements within data, and methods and devices associated therewith |
CN103137133B (zh) * | 2011-11-29 | 2017-06-06 | 南京中兴软件有限责任公司 | 非激活音信号参数估计方法及舒适噪声产生方法及系统 |
JP6251145B2 (ja) * | 2014-09-18 | 2017-12-20 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
DE102015110938B4 (de) * | 2015-07-07 | 2017-02-23 | Christoph Kemper | Verfahren zur Modifizierung einer Impulsantwort eines Klangwandlers |
US10431242B1 (en) * | 2017-11-02 | 2019-10-01 | Gopro, Inc. | Systems and methods for identifying speech based on spectral features |
CN112129425B (zh) * | 2020-09-04 | 2022-04-08 | 三峡大学 | 基于单调邻域均值的大坝混凝土浇筑光纤测温数据重采样方法 |
CN113723200B (zh) * | 2021-08-03 | 2024-01-12 | 同济大学 | 一种非平稳信号的时频谱结构特征提取方法 |
CN113689837B (zh) * | 2021-08-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN114267376B (zh) * | 2021-11-24 | 2022-10-18 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN116877452B (zh) * | 2023-09-07 | 2023-12-08 | 利欧集团浙江泵业有限公司 | 基于物联网数据的非变容式水泵运行状态监控系统 |
CN117705091B (zh) * | 2024-02-05 | 2024-04-16 | 中国空气动力研究与发展中心高速空气动力研究所 | 基于大量程石英挠性加速度计的高精度姿态测量方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4896285A (en) * | 1987-03-23 | 1990-01-23 | Matsushita Electric Industrial Co., Ltd. | Calculation of filter factors for digital filter |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5235534A (en) * | 1988-08-18 | 1993-08-10 | Hewlett-Packard Company | Method and apparatus for interpolating between data samples |
JP3278863B2 (ja) * | 1991-06-05 | 2002-04-30 | 株式会社日立製作所 | 音声合成装置 |
EP1107231B1 (en) * | 1991-06-11 | 2005-04-27 | QUALCOMM Incorporated | Variable rate vocoder |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5353233A (en) * | 1992-03-17 | 1994-10-04 | National Instruments, Inc. | Method and apparatus for time varying spectrum analysis |
CA2105269C (en) * | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
EP0608833B1 (en) * | 1993-01-25 | 2001-10-17 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
ES2137355T3 (es) * | 1993-02-12 | 1999-12-16 | British Telecomm | Reduccion de ruido. |
TW232116B (en) * | 1993-04-14 | 1994-10-11 | Sony Corp | Method or device and recording media for signal conversion |
JP3475446B2 (ja) * | 1993-07-27 | 2003-12-08 | ソニー株式会社 | 符号化方法 |
CA2108103C (en) * | 1993-10-08 | 2001-02-13 | Michel T. Fattouche | Method and apparatus for the compression, processing and spectral resolution of electromagnetic and acoustic signals |
WO1995016259A1 (en) * | 1993-12-06 | 1995-06-15 | Philips Electronics N.V. | A noise reduction system and device, and a mobile radio station |
US5485395A (en) * | 1994-02-14 | 1996-01-16 | Brigham Young University | Method for processing sampled data signals |
FR2717294B1 (fr) * | 1994-03-08 | 1996-05-10 | France Telecom | Procédé et dispositif de synthèse dynamique sonore musicale et vocale par distorsion non linéaire et modulation d'amplitude. |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
DE4417406C2 (de) * | 1994-05-18 | 2000-09-28 | Advantest Corp | Hochauflösender Frequenzanalysator und Vektorspektrumanalysator |
US5675701A (en) * | 1995-04-28 | 1997-10-07 | Lucent Technologies Inc. | Speech coding parameter smoothing method |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
US5686683A (en) * | 1995-10-23 | 1997-11-11 | The Regents Of The University Of California | Inverse transform narrow band/broad band sound synthesis |
-
1996
- 1996-12-24 JP JP34424796A patent/JP3266819B2/ja not_active Expired - Lifetime
-
1997
- 1997-07-15 DE DE69700084T patent/DE69700084T2/de not_active Expired - Lifetime
- 1997-07-15 EP EP97112087A patent/EP0822538B1/en not_active Expired - Lifetime
- 1997-07-17 CA CA002210826A patent/CA2210826C/en not_active Expired - Fee Related
- 1997-07-29 US US08/902,546 patent/US6115684A/en not_active Expired - Lifetime
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002524759A (ja) * | 1998-08-28 | 2002-08-06 | シグマ オーディオ リサーチ リミテッド | オーディオ信号の時間スケール及び/又は基本周波数を変更するための信号処理技術 |
WO2001097212A1 (fr) * | 2000-06-14 | 2001-12-20 | Kabushiki Kaisha Kenwood | Dispositif et procédé d'interpolation de fréquence |
US6836739B2 (en) | 2000-06-14 | 2004-12-28 | Kabushiki Kaisha Kenwood | Frequency interpolating device and frequency interpolating method |
WO2002009092A1 (fr) * | 2000-07-21 | 2002-01-31 | Kabushiki Kaisha Kenwood | Dispositif d'interpolation de frequences servant a interpoler une composante de frequence de signal et procede d'interpolation de frequences |
US6879265B2 (en) | 2000-07-21 | 2005-04-12 | Kabushiki Kaisha Kenwood | Frequency interpolating device for interpolating frequency component of signal and frequency interpolating method |
WO2002035517A1 (fr) * | 2000-10-24 | 2002-05-02 | Kabushiki Kaisha Kenwood | Appareil et procédé pour interpoler un signal |
JP2004514178A (ja) * | 2000-11-17 | 2004-05-13 | フォルスカーパテント アイ エスワイディ アクチボラゲット | 音声の分析の方法及び装置 |
WO2003003345A1 (fr) * | 2001-06-29 | 2003-01-09 | Kabushiki Kaisha Kenwood | Dispositif et procede d'interpolation des composantes de frequence d'un signal |
US7400651B2 (en) | 2001-06-29 | 2008-07-15 | Kabushiki Kaisha Kenwood | Device and method for interpolating frequency components of signal |
WO2003019530A1 (fr) * | 2001-08-31 | 2003-03-06 | Kenwood Corporation | Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme |
WO2009011438A1 (ja) * | 2007-07-18 | 2009-01-22 | Wakayama University | 周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法 |
JP2009042716A (ja) * | 2007-07-18 | 2009-02-26 | Wakayama Univ | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 |
US8781819B2 (en) | 2007-07-18 | 2014-07-15 | Wakayama University | Periodic signal processing method, periodic signal conversion method, periodic signal processing device, and periodic signal analysis method |
CN102695958A (zh) * | 2009-11-12 | 2012-09-26 | 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 | 波形的精确测量 |
WO2011118207A1 (ja) * | 2010-03-25 | 2011-09-29 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JPWO2011118207A1 (ja) * | 2010-03-25 | 2013-07-04 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
WO2014021318A1 (ja) | 2012-08-01 | 2014-02-06 | 独立行政法人産業技術総合研究所 | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム |
US9368103B2 (en) | 2012-08-01 | 2016-06-14 | National Institute Of Advanced Industrial Science And Technology | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system |
JPWO2014021318A1 (ja) * | 2012-08-01 | 2016-07-21 | 国立研究開発法人産業技術総合研究所 | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム |
JP2017151188A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
Also Published As
Publication number | Publication date |
---|---|
US6115684A (en) | 2000-09-05 |
EP0822538A1 (en) | 1998-02-04 |
CA2210826A1 (en) | 1998-01-30 |
JP3266819B2 (ja) | 2002-03-18 |
CA2210826C (en) | 2001-11-06 |
DE69700084T2 (de) | 1999-06-10 |
EP0822538B1 (en) | 1998-12-30 |
DE69700084D1 (de) | 1999-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
US5485543A (en) | Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech | |
US8121834B2 (en) | Method and device for modifying an audio signal | |
WO2011004579A1 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
JPH0677200B2 (ja) | デジタル化テキストの音声合成用デジタルプロセッサ | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
WO2018003849A1 (ja) | 音声合成装置および音声合成方法 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
Serra | Introducing the phase vocoder | |
JP2001022369A (ja) | 音源情報の抽出方法 | |
JP2018077283A (ja) | 音声合成方法 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JPH0744727A (ja) | 画像作成方法およびその装置 | |
JP2612867B2 (ja) | 音声ピッチ変換方法 | |
JP6834370B2 (ja) | 音声合成方法 | |
KR100484666B1 (ko) | 성도특성 변환을 이용한 음색변환장치 및 방법 | |
Sun | Voice quality conversion in TD-PSOLA speech synthesis | |
JP3557124B2 (ja) | 音声変形方法、その装置、及びプログラム記録媒体 | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
JPH07261798A (ja) | 音声分析合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20011211 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140111 Year of fee payment: 12 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |