[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5958866B2 - 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム - Google Patents

音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム Download PDF

Info

Publication number
JP5958866B2
JP5958866B2 JP2014528171A JP2014528171A JP5958866B2 JP 5958866 B2 JP5958866 B2 JP 5958866B2 JP 2014528171 A JP2014528171 A JP 2014528171A JP 2014528171 A JP2014528171 A JP 2014528171A JP 5958866 B2 JP5958866 B2 JP 5958866B2
Authority
JP
Japan
Prior art keywords
group delay
synthesis
envelope
spectrum
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014528171A
Other languages
English (en)
Other versions
JPWO2014021318A1 (ja
Inventor
倫靖 中野
倫靖 中野
後藤 真孝
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Publication of JPWO2014021318A1 publication Critical patent/JPWO2014021318A1/ja
Application granted granted Critical
Publication of JP5958866B2 publication Critical patent/JP5958866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び方法、音声信号の合成システム及び方法に関するものである。
従来、スペクトル包絡推定に関する研究は数多くなされてきたが、適切な包絡の推定は依然困難な課題である。また群遅延を合成に活用する研究があったが、ピッチマークと呼ばれる時刻情報が必要であった。
例えば、ソースフィルタ分析(非特許文献1)は、音声(歌声及び話声)や楽器音を扱う上で重要な信号処理の一つである。音声信号(観測信号)から適切なスペクトル包絡を得ることができれば、高性能な分析や高品質な合成、音の変形等の幅広い応用が考えられる。またスペクトル包絡に加えて位相情報(群遅延)まで適切に推定することができれば、合成音の自然性向上が期待できる。
従来、音の分析においては、スペクトルの振幅情報が重要視されていて、位相情報(群遅延)が考慮されることは少なかった。しかし、音の合成においては、位相が自然性の知覚に重要な役割を果たす。例えば、正弦波合成においては、初期位相が自然発話からπ/8よりも大きくずれると、ずれの大きさに応じて知覚的自然性が単調に減少することが知られている(非特許文献2)。また、分析合成系では、スペクトル包絡からインパルス応答を求めて単位波形(一周期分の波形)とする際に、最小位相応答が零位相応答よりも自然性が高いことが知られている(非特許文献3)。さらに、自然性向上を目的とした単位波形の位相制御を行う研究(非特許文献4)もある。
また従来、音声信号などの高品質な合成や変形操作のために、信号モデリングに関する数多くの研究がなされてきた。それらの研究では、補足情報を用いない場合、補足情報としてF0推定を伴う場合、音素ラベルを必要とする場合がある。代表的な手法として、入力信号を時間周波数平面でのパワースペクトログラムに展開して扱うPhase Vocoder(非特許文献5及び6)がある。周期信号の時間伸縮等が可能だが、非周期性やF0の変動等が原因で、品質が劣化してしまう問題がある。
また、古くから知られたスペクトル包絡推定法として、LPC分析(非特許文献7及び8)やケプストラム等があり、様々な拡張や組み合わせがなされてきた(非特許文献9乃至13)。しかし、包絡概形がLPCやケプストラムの分析次数によって決定されるため、次数によっては包絡を適切に表現できない可能性がある。
さらに、補足情報としてF0推定を伴う分析もある。すなわち時間領域の波形をピッチマークに基づいて単位波形として切り出し、それを基本周期で重畳加算するPitch Synchronized Overlap-Add(PSOLA)(非特許文献1及び14)が、F0に適応した分析として古くから知られている手法である。F0の変化にも対応可能であり、位相情報が保存されていることから合成品質が高い。しかし、ピッチマーク付与の難しさや、F0の変更や非定常部における品質劣化に関する問題がある。
音声・音楽信号における正弦波モデル(非特許文献15及び16)も、調波構造をモデル化するためにF0推定を伴う。従来、調波成分と広帯域成分(ノイズ等)のモデル化(非特許文献17及び18)、スペクトログラムからの推定(非特許文献19)、パラメータの反復推定(非特許文献20及び21)、2次補間に基づく推定(非特許文献22)、時間分解能の向上(非特許文献23)、非定常音声での推定(非特許文献24及び25)、重畳音声での推定(非特許文献26)等の数多くの拡張がなされてきた。これら正弦波モデルの多くは、位相を含めて推定することから高品質な合成が可能であり、高い時間分解能も実現されている(非特許文献23及び24)。
一方、ソースフィルタ分析に基づいたシステム(VOCODER)に、F0適応分析の考え方を取り入れたSTRAIGHT(非特許文献27)は、その分析合成品質の高さから世界中の研究コミュニティで使用されている。STRAIGHTでは、F0適応した平滑化等の処理によって入力音声信号から周期性を除去したスペクトル包絡を得るが、品質の高さに加えて、高い時間分解能も持つ。また、TANDEM窓によって時間方向の変動を除去するTANDEM-STRAIGHT(非特許文献28)や、スペクトルピークの強調(非特許文献29)、高速計算法(非特許文献30)等への拡張がある。これらの研究では、位相を陽に推定せず、非周期成分(「調波成分の和あるいは周期的パルス列により駆動された応答により記述することのできない成分」と定義されている。)をガウスノイズで畳み込む混合励振による合成方式や、高域の位相(群遅延)を乱数を用いて拡散させる方式、などで合成品質の自然性向上を図っている。しかし、位相の操作に関する基準は明確になっていない。その他、元の音声信号と推定包絡のインパルス応答波形との逆畳込みによって、励起信号を抽出して利用する方法もある(非特許文献31)が、位相を効率的に表現しているとはいえず、補間や変換操作への応用が困難である。また、群遅延を推定・平滑化して分析合成する研究がある(非特許文献32及び33)が、ピッチマークが必要であった。
以上の研究に加え、スペクトル包絡を混合ガウス分布(GMM)によってモデル化する研究もあり、STRAIGHTスペクトルをモデリングする研究(非特許文献34)や、F0と包絡の同時最適化による推定を定式化した研究(非特許文献35)がある。
これらの研究に共通する問題としては、局所的な観測からの分析である以上、調波構造(F0の整数倍の周波数に位置する成分)のみがモデル化され、調波構造間の伝達関数は補間によってしか得られないという問題がある。
さらに補足情報として音素ラベルを活用する研究もある。すなわち観測できない調波構造間の包絡成分を推定するために、分析時刻と同一の音素で、異なるF0(異なるフレーム)のスペクトルを統合することで、真の包絡を推定しようとする研究がある(非特許文献36乃至38)。単一音のみではなく、音楽音響信号中のボーカルを対象とした研究も存在し(非特許文献39)、同一の音素であれば、類似した声道形状を持つという仮定に基づく。しかし、正確な音素ラベルが必要であり、また歌声のようにコンテキストの違いによる変動が大きい場合には、過剰な平滑化につながる可能性がある。
また特開平10−97287号公報(特許文献1)には、位相調整成分を、周波数軸上で、乱数と帯域制限関数を畳み込み、帯域制限された乱数を求めるステップと、帯域制限された乱数と遅延時間の変動の目標値とを掛け合わせて、群遅延特性を求めるステップと、群遅延特性を周波数で積分することにより、位相特性を求めるステップと、位相特性と虚数単位とを掛け合わせて、指数関数の指数とすることにより、位相調整成分を得るステップとにより得る発明が開示されている。
特開平10−97287号公報
Zolzer, U. and Amatriain, X.: DAFX - Digital Audio Effects, Wiley (2002). 伊藤 仁,矢野雅文:話速変換音声の知覚的自然性に関する検討,電子情報通信学会技術研究報告EA,pp. 13-18 (2008). 松原貴司,森勢将雅,西浦敬信:高品質音声合成における有声音の位相特性が知覚に与える影響,日本音響学会聴覚研究会資料,Vol. 40, No. 8, pp. 653-658 (2010). 濱上知樹:音源波形形状を高調波位相により制御する音声合成方式,日本音響学会誌,Vol. 54, No. 9, pp. 623-631 (1998). Flanagan, J. and Golden, R.: Phase Vocoder, Bell System Technical Journal, Vol. 45, pp. 1493-1509 (1966). Griffin, D. W.: Multi-Band Excitation Vocoder, Technical report (Massachusetts Institute of Technology. Research Laboratory of Electronics) (1987). Itakura, F. and Saito, S.: Analysis Synthesis Telephony based on the Maximum Likelihood Method, Reports of the 6th Int. Cong. on Acoust., vol. 2, no. C-5-5, pp. C17-20 (1968). Atal, B. S. and Hanauer, S.: Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, J. Acoust. Soc. Am., Vol. 50, No. 4, pp. 637-655 (1971). Tokuda, K., Kobayashi, T., Masuko, T. and Imai, S.: Melgeneralized Cepstral Analysis - A Unified Approach to Speech Spectral Estimation, Proc. ICSLP1994, pp. 1043-1045 (1994). 今井 聖,阿部芳春:改良ケプストラム法によるスペクトル包絡の抽出,電子通信学会論文誌,Vol. J62-A, No. 4, pp.217-223 (1979). Robel, A. and Rodet, X.: Efficient Spectral Envelope Estimation and Its Application to Pitch Shifting and Envelope Preservation, Proc. DAFx2005, pp. 30-35 (2005). Villavicencio, F., Robel, A. and Rodet, X.: Extending Efficient Spectral Envelope Modeling to Mel-frequency Based Representation, Proc. ICASSP2008, pp. 1625-1628 (2008). Villavicencio, F., Robel, A. and Rodet, X.: Improving LPC Spectral Envelope Extraction of Voiced Speech by True-Envelope Estimation, Proc. ICASSP2006, pp. 869-872 (2006). Moulines, E. and Charpentier, F.: Pitch-synchronous Waveform Processing Techniques for Text-to-speech Synthesis Using Diphones, Speech Communication, Vol. 9, No. 5-6, pp. 453-467 (1990). McAulay, R. and T.Quatieri: Speech Analysis/Synthesis Based on A Sinusoidal Representation, IEEE Trans. ASSP, Vol. 34, No. 4, pp. 744-755 (1986). Smith, J. and Serra, X.: PARSHL: An Analysis/Synthesis Program for Non-harmonic Sounds Based on A Sinusoidal Representation, Proc. ICMC 1987, pp. 290-297 (1987). Serra, X. and Smith, J.: Spectral Modeling Synthesis: A Sound Analysis/Synthesis Based on A Deterministic Plus Stochastic Decomposition, Computer Music Journal, Vol. 14, No. 4, pp. 12-24 (1990). Stylianou, Y.: Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modification. Depalle, P. and H´elie, T.: Extraction of Spectral Peak Parameters Using a Short-time Fourier Transform Modeling and No Sidelobe Windows, Proc. WASPAA1997 (1997). George, E. and Smith, M.: Analysis-by-Synthesis/Overlap-Add Sinusoidal Modeling Applied to The Analysis and Synthesis of Musical Tones, Journal of the Audio Engineering Society, Vol. 40, No. 6, pp. 497-515 (1992). Pantazis, Y., Rosec, O. and Stylianou, Y.: Iterative Estimation of Sinusoidal Signal Parameters, IEEE Signal Processing Letters, Vol. 17, No. 5, pp. 461-464 (2010). Abe, M. and Smith III, J. O.: Design Criteria for Simple Sinusoidal Parameter Estimation based on Quadratic Interpolation of FFT Magnitude Peaks, Proc. AES 117th Convention (2004). Bonada, J.: Wide-Band Harmonic Sinusoidal Modeling, Proc. DAFx-08, pp. 265-272 (2008). Ito, M. and Yano, M.: Sinusoidal Modeling for Nonstationary Voiced Speech based on a Local Vector Transform, J. Acoust. Soc. Am., Vol. 121, No. 3, pp. 1717-1727 (2007). Pavlovets, A. and Petrovsky, A.: Robust HNR-based Closed-loop Pitch and Harmonic Parameters Estimation, Proc. INTERSPEECH2011, pp. 1981-1984 (2011). Kameoka, H., Ono, N. and Sagayama, S.: Auxiliary Function Approach to Parameter Estimation of Constrained Sinusoidal Model for Monaural Speech Separation, Proc. ICASSP 2008, pp. 29-32 (2008). Kawahara, H., Masuda-Katsuse, I. and de Cheveigne, A.: Restructuring Speech Representations Using a Pitch Adaptive Time-frequency Smoothing and an Instantaneous Frequency Based on F0 Extraction: Possible Role of a Repetitive Structure in Sounds, Speech Communication, Vol. 27, pp. 187-207 (1999). Kawahara, H., Morise, M., Takahashi, T., Nisimura, R., Irino, T. and Banno, H.: Tandem-STRAIGHT: A Temporally Stable Power Spectral Representation for Periodic Signals and Applications to Interference-free Spectrum, F0, and Aperiodicity Estimation, Proc. of ICASSP 2008, pp. 3933-3936 (2008). 赤桐隼人,森勢将雅,入野俊夫,河原英紀:スペクトルピークを強調したF0適応型スペクトル包絡抽出法の最適化と評価,電子情報通信学会論文誌,Vol. J94-A, No. 8, pp. 557-567 (2011). 森勢将雅,松原貴司,中野皓太,西浦敬信:高品質音声合成を目的とした母音の高速スペクトル包絡推定法,電子情報通信学会論文誌,Vol. J94-D, No. 7, pp. 1079-1087 (2011). Morise, M.: PLATINUM: A Method to Extract Excitation Signals for Voice Synthesis System, Acoust. Sci. & Tech., Vol. 33, No. 2, pp. 123-125 (2012). 坂野秀樹,陸 金林,中村 哲,鹿野清宏,河原英紀:時間領域平滑化群遅延を用いた短時間位相の効率的表現方法,電子情報通信学会論文誌,Vol. J84-D-II, No. 4, pp. 621-628 (2001). 坂野秀樹,陸 金林,中村 哲,鹿野清宏,河原英紀:時間領域平滑化群遅延による位相制御を用いた声質制御方式,電子情報通信学会論文誌,Vol. J83-D-II, No. 11, pp. 2276-2282 (2000). Zolfaghari, P., Watanabe, S., Nakamura, A. and Katagiri, S.: Modelling of the Speech Spectrum Using Mixture of Gaussians, Proc. ICASSP 2004, pp. 553-556 (2004). Kameoka, H., Ono, N. and Sagayama, S.: Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency, Vol. 18, No. 6, pp. 2502-2505 (2006). Akamine, M. and Kagoshima, T.: Analytic Generation of Synthesis Units by Closed Loop Training for Totally Speaker Driven Text to Tpeech System (TOS Drive TTS), Proc. ICSLP1998, pp. 1927-1930 (1998). Shiga, Y. and King, S.: Estimating the Spectral Envelope of Voiced Speech Using Multi-frame Analysis, Proc. EUROSPEECH2003, pp. 1737-1740 (2003). Toda, T. and Tokuda, K.: Statistical Approach to Vocal Tract Transfer Function Estimation Based on Factor Analyzed Trajectory HMM, Proc. ICASSP2008, pp. 3925-3928 (2008). Fujihara, H., Goto, M. and Okuno, H. G.: A Novel Framework for Recognizing Phonemes of Singing Voice in Polyphonic Music, Proc. WASPAA2009, pp. 17-20 (2009).
従来は、スペクトル包絡及び群遅延の推定に、ピッチマーク[基本周波数に同期した分析を行う際の、波形の駆動点(かつ分析時刻)を示す時刻情報。声門音源の励起時刻、もしくは基本周期中で振幅が大きい時刻が用いられる]、音素情報(音素ラベル)等の付随情報を前提とするため、分析に必要な情報量が多く、しかも推定したスペクトル包絡及び群遅延の応用可能性を高めることに限界があった。
本発明の目的は、音声(歌声及び話声)の高性能な分析と高品質な合成のために、音声信号からそのスペクトル包絡と群遅延を高い精度と時間分解能で推定する音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び方法を提供することにある。
本発明の他の目的は、従来よりも合成性能の高い音声信号の合成システム及び方法を提供することにある。
本発明の更に他の目的は、音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラム及び音声信号合成用プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。
本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システムは、少なくとも1つのプロセッサを用いて実現された基本周波数推定部と、振幅スペクトル取得部と、群遅延抽出部と、スペクトル包絡統合部と、群遅延統合部とから構成される。基本周波数推定部は、音声信号から全時刻または全サンプリング点において基本周波数F0を推定する。振幅スペクトル取得部は、全時刻または全サンプリング点における基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音響信号を複数のフレームに分割し、複数のフレーム中の音声信号についてDFT(離散フーリエ変換)分析を行うことにより、複数のフレームそれぞれにおける振幅スペクトルを取得する。群遅延抽出部は、複数のフレーム中の音声信号についてDFT(離散フーリエ変換)分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する。スペクトル包絡統合部は、所定の時間間隔で、基本周波数F0の基本周期に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求める。群遅延統合部は、所定の時間間隔で、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。本発明によれば、複数のフレームのそれぞれについて求めた振幅スペクトルから求めた重合スペクトルから音声合成のためのスペクトル包絡を順次求め、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択して、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。このようにして求めた音声合成のためのスペクトル包絡の推定性能は高く、また推定した音声合成のための群遅延は、従来の技術以上の詳細さで推定できる。
基本周波数推定部では、基本周波数F0の推定と併せて有声区間及び無声区間の判定を行い、無声区間における基本周波数F0を有声区間における値で補間するかまたは無声区間に予め定めた値を付与する。このようにすると無声区間においても、スペクトル包絡及び群遅延が有声区間と同様の枠組みで推定することができる。
またスペクトル包絡統合部では、重合スペクトルを平均化して音声合成のためのスペクトル包絡を求める方法は任意である。例えば、重合スペクトルの最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を求めることができる。また重合スペクトルの最大包絡と最小包絡の中間値を平均として、音声合成のためのスペクトル包絡を求めてもよい。このようにしてスペクトル包絡を求めると、重合スペクトルの変動幅が大きい場合でも、より適切なスペクトル包絡を求めることができる。
また平均を求める際の最小包絡として、最小包絡の谷を埋めるように最大包絡を変形して得た変形最小包絡を用いるのが好ましい。このような最小包絡を用いると、合成した音声の聴取印象がより自然なものとなる。
またスペクトル包絡統合部では、F0に対応する周波数bin以下の帯域のスペクトル包絡の値をF0に対応する周波数binのスペクトル包絡の値で置換したものを音声合成のためのスペクトル包絡として求めるのが好ましい。これはF0に対応する周波数bin以下の帯域におけるスペクトル包絡が不安定だからである。したがってこのようにすると、F0に対応する周波数bin以下の帯域におけるスペクトル包絡を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。
なお二次元ローパスフィルタにより、置換したスペクトル包絡をフィルタ処理するようにしてもよい。フィルタ処理をすると、置換したスペクトル包絡からノイズを除去することができるので、合成した音声の聴取印象を更に自然なものとすることができる。
また群遅延統合部では、重合スペクトルの周波数成分ごとの最大包絡に対応するフレームにおける群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、保存した群遅延を正規化し、正規化した群遅延を音声合成のための群遅延とするように構成するのが好ましい。これは群遅延が、基本周波数F0に対応する基本周期に応じた時間軸方向の広がり(間隔)を持つためである。このように、群遅延を時間軸方向に正規化することにより、基本周波数F0の影響を取り除くことができ、再合成時のF0に応じて変形可能な群遅延を得ることができる。
また群遅延統合部でも、F0に対応する周波数bin以下の帯域の前記群遅延の値をF0に対応する周波数binの群遅延の値で置換したものを音声合成のための群遅延とするのが好ましい。これはF0に対応する周波数bin以下の帯域における群遅延が不安定であることに基づいている。したがってこのようにすると、F0に対応する周波数bin以下の帯域における群遅延を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。
また群遅延統合部では、置換した群遅延を平滑化したものを音声合成のための群遅延とするのが好ましい。これは分析合成系として扱うためには、連続的に変化した値となっていると都合が良いためである。
なお平滑化では、例えば、置換した前記群遅延をsin関数及びcos関数で変換して基本周期に起因する不連続を除去する。その後二次元ローパスフィルタによりフィルタ処理した後にsin関数及びcos関数をtan-1関数により元の状態に戻したものを音声合成のための群遅延とするのが好ましい。群遅延のsin関数及びcos関数への変換は、二次元ローパスフィルタでのフィルタ処理の便宜のためである。
本発明の音声信号の合成システムは、少なくとも1つのプロセッサにより実現された読み出し部と、変換部と、単位波形生成部と、合成部とか構成される。読み出し部は、本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システムにより推定した音声分析合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、合成のためのスペクトル包絡及び群遅延を読み出す。そして変換部は、読み出した群遅延を位相スペクトルに変換する。単位波形生成部は、読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成部は、生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。本発明の合成システムによれば、全体的に群遅延を再現して合成することができ、合成品質も自然なものが得られる。
なお変換部による変換の前に、読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部を更に備えてもよい。不連続状態抑制部を設けると、合成品質が更に自然なものとなる。
なお不連続状態抑制部は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化した後、低周波数領域の群遅延を平滑化するように構成するのが好ましい。このように平滑化すると、群遅延の低周波数領域の不安定さを無くすことができる。平滑化では、読み出したフレームの群遅延をsin関数及びcos関数で変換して、その後二次元ローパスフィルタによりフィルタ処理した後にsin関数及びcos関数をtan-1関数により元の状態に戻したものを音声合成のための群遅延とするのが好ましい。このようにすれば二次元ローパスフィルタによりフィルタ処理が可能になり、平滑化を容易に実施することができる。
また変換部による変換の前または不連続状態抑制部の後に、群遅延に合成のための基本周期を係数として乗ずる補正を実施する補正部を更に備えるのが好ましい。このようにすると、基本周波数F0に対応する基本周期に応じた時間軸方向の広がり(間隔)を持つ群遅延を時間軸方向に正規化することができ、より精度の位相スペクトルを得ることができる。
また合成部は、分析窓を合成窓に変換し、合成窓を単位波形に掛けた補正単位波形を基本周期で重畳加算するように構成するのが好ましい。このよう合成窓で補正した補正単位波形を用いると、より自然な合成音声を聴取することができる。
本発明のスペクトル包絡及び群遅延の推定方法は、少なくとも1つのプロセッサを用いて実行する基本周波数推定ステップと、振幅スペクトル取得ステップと、群遅延抽出ステップと、スペクトル包絡統合ステップと、群遅延統合ステップとを実行する。基本周波数推定ステップは、音声信号から全時刻または全サンプリング点において基本周波数F0を推定する。振幅スペクトル取得ステップは、全時刻または全サンプリング点における基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割し、複数のフレーム中の音声信号についてDFT分析を行うことにより、複数のフレームそれぞれにおける振幅スペクトルを取得する。群遅延抽出ステップは、複数のフレーム中の音声信号についてDFT分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する。スペクトル包絡統合ステップは、所定の時間間隔で、基本周波数F0の基本周期に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求める。群遅延統合ステップは、所定の時間間隔で、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。
上記方法をコンピュータで実施することを可能にするように構成された音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録される。
本発明の音声信号の合成方法では、少なくとも1つのプロセッサを用いて、読み出しステップと、変換ステップと、単位波形生成ステップと、合成ステップとを実行する。読み出しステップでは、本発明のスペクトル包絡及び群遅延の推定方法により推定した音声分析合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、合成のためのスペクトル包絡及び群遅延を読み出す。変換ステップは、読み出した群遅延を位相スペクトルに変換する。単位波形生成ステップは、読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成ステップは、生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。
上記音声信号の合成方法をコンピュータで実施することを可能にするように構成された音声信号の合成用プログラムは、コンピュータ読み取り可能な記録媒体に記録される。
本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声合成システムの実施の形態の一例の基本構成を示すブロック図である。 (A)は歌声信号の波形、(B)はそのスペクトル包絡、(C)は(正規化された)群遅延の関係を示す図である。 本実施の形態をコンピュータを用いて実施する場合に用いるコンピュータプログラムの基本アルゴリズムを示すフローチャートである。 音声合成のためのスペクトル包絡の推定工程を説明するために用いる図である。 音声合成のための群遅延の推定工程を説明するために用いる図である。 F0に応じた時定数を持つガウス窓を掛けた複数フレームの重畳表示(上図)と、それらに対応するスペクトル(中図)と群遅延(下図)を示す図である。 F0適応多重フレーム統合分析によるスペクトル包絡と存在範囲の推定結果を示す図である。 歌声波形とそのF0適応スペクトル(上図)とその拡大図(中図)、周波数645:9961 Hz における時間方向の軌跡(下図)を示す図である。 図3の多重フレーム統合分析ST5においてスペクトル包絡SEを得るためのステップST50乃至ST57を示す図である。 統合の工程を説明するために用いる図である。 (A)乃至(C)は、最大包絡と最小包絡の平均として推定されたスペクトル包絡を説明するために用いる図である。 多重フレーム統合分析によるスペクトルとその2次元ローパスフィルタをかけた時間方向の軌跡を示す図である。 (A)は最大包絡を示し、(B)は最大包絡に対応する群遅延を示す図である。 (A)は歌声波形、(B)はそのF0適応スペクトル及び最大包絡に対応する群遅延を示す図である。 複数の基本周波数適応群遅延から音声合成のための群遅延GDをコンピュータを利用して求める際に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 正規化を実施するためのアルゴリズムを示す図である。 (A)乃至(D)は、正規化処理のステップにおける群遅延の状態を示す図である。 平滑化を実施するためのアルゴリズムを示す図である。 合成システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。 音声信号の合成の過程を説明するために用いる波形図の一部である。 音声信号の合成の過程を説明するために用いる波形図の残部である。 低域の時間方向の不連続状態の発生を抑制するプログラムのアルゴリズムを示す図である。 群遅延の更新を行うために用いるプログラムのアルゴリズムを示す図である。 群遅延の更新の説明に用いる図である。 群遅延の更新の説明に用いる図である。 低周波数領域の平滑化についてのアルゴリズムの一例のフローチャートである。 (A)乃至(C)は、ステップST102Bの平滑化の状況の一例の一部を示す図である。 (D)乃至(F)は、ステップST102Bの平滑化の状況の一例の残部を示す図である。 ステップST104の詳細なアルゴリズムを示すフローチャートである。 スペクトログラムの比較を示すための図であり、本実施の形態のスペクトログラム(上図)、STRAIGHTスペクトログラム(中図)、そして0.4秒におけるそれぞれのスペクトル包絡(下図)を示す。 cascade-type Klatt 合成器によって生成した包絡と、それに基づいて合成した音声から、本手法及び従来手法によって推定されたスペクトル包絡との比較を示す図である。 本実施の形態によって再合成された音の分析結果を示す図である。 (A)は歌声波形、(B)はそのF0適応スペクトル及び最大包絡のピークに対応する群遅延の関係を示す図である。
以下図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声合成システムの実施の形態の一例の基本構成を示すブロック図である。本実施の形態のスペクトル包絡及び群遅延の推定システム1は、少なくとも1つのプロセッサを備えたコンピュータにプログラムをインストールして実現した基本周波数推定部3と、振幅スペクトル取得部5と、群遅延抽出部7と、スペクトル包絡統合部9と、群遅延統合部11と、メモリ13から構成される。音声信号の合成システム2は、少なくとも1つのプロセッサを備えたコンピュータに音声信号の合成用プログラムをインストールして実現した読み出し部15と、変換部17と、単位波形生成部19と、合成部21と、不連続状態抑制部23と、補正部25から構成される。
スペクトル包絡及び群遅延の推定システム1は、図2(A)に示すような音声信号(歌声波形)から図2(B)に示すような合成のためのスペクトル包絡と図2(C)に示すような位相情報としての合成のための群遅延を推定する。図2(B)及び図2(C)は横軸が時間で、縦軸が周波数であり、ある時刻の有る周波数におけるスペクトル包絡の振幅の大きさと群遅延の相対的な大きさは色やグレースケールの相違により表示している。図3には、本実施の形態をコンピュータを用いて実施する場合に用いるコンピュータプログラムの基本アルゴリズムを示すフローチャートである。図4は、音声合成のためのスペクトル包絡の推定工程を説明するために用いる図である。図5は、音声合成のための群遅延の推定工程を説明するために用いる図である。
[スペクトル包絡と群遅延の推定]
まず本実施の形態において、音声合成のためのスペクトル包絡と群遅延を求める方法を簡単に説明する。図6に複数フレームの波形とそれに対応する短時間フーリエ変換(STFT)によるスペクトルと群遅延を示す。図6に示すように、それぞれのスペクトルには谷があり、別のフレームではその谷が埋まっているため、これらを統合することで定常なスペクトル包絡が得られる可能性がある。ここで、群遅延のピーク(分析時刻から離れていることを意味する)とスペクトルの谷が対応付いていることから、単一の窓を使っただけでは、滑らかな包絡が得られないことが分かる。そこで本実施の形態では、全時刻または全サンプリング点における基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。そして本実施の形態において、推定すべき音声合成のためのスペクトル包絡は、後述する重合スペクトルの最大包絡と最小包絡の間にあると考え、まず最大値(最大包絡)と最小値(最小包絡)を計算する。ただし、最大・最小の操作では、時間方向に滑らかな包絡を得られず、基本周波数F0に応じたステップ状の軌跡を描くため、それを平滑化して滑らかにする。最後に、最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を得る。同時に、最大から最小の範囲をスペクトル包絡の存在範囲として保存する(図7)。また、推定すべき群遅延としては、最も共振する時刻を表現するために、最大包絡に対応する値を用いる。
本発明の方法を実施する本実施の形態のスペクトル包絡及び群遅延の推定システム1(図1)において、基本周波数推定部3は、音声信号(伴奏や大きなノイズを含まない歌声及び話声の音響信号)を入力として(図3のステップST1)、音声信号から全時刻または全サンプリング点において音高(基本周波数F0)を推定する。本実施の形態では、この推定を1/44100秒の時間単位で実施する。推定と同時に、有声区間と無声区間の判定を行う(図3のステップST2)。この判定では、例えば有声らしい閾値を設定し、その閾値より音高が大きい区間を有声区間として、有声区間と無声区間とを判定する。そして無声区間については、適宜の音高の値を付与するか、隣り合う有声区間をつなぐように線形補間を行って、基本周波数が不連続にならないようにしている。なお、例えば音高の推定は[非特許文献27]等に記載されているような方法を用いることができる。基本周波数F0の推定精度はできるだけ高いことが好ましい。
振幅スペクトル取得部5は、図3のステップST3で示したF0適応分析を行い且つ図3のステップST4のF0適応スペクトル(振幅スペクトル)の取得を行う。振幅スペクトル取得部5は、全時刻または全サンプリング点における基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。
具体的に、本実施の形態では、図4に示すように基本周波数F0に応じて窓幅を変えた下記の式(1)で示されるガウス窓ω(τ)を用いて窓掛けを行って、時間単位毎に音声信号の波形を分割したフレームX1〜Xnを作成する。ここで、σ(t)は分析時刻tにおける基本周波数F0(t)によって決まる標準偏差であり、ガウス窓はFFT長をNとしてRMS値で正規化する。
ガウス窓のσ(t)=1/(3×F0(t))は分析窓長が基本周期の2倍の長さに相当することを意味する(2×3σ(t)=2/F0(t))。この窓長はPSOLA分析などでも用いられ、局所的なスペクトル包絡を近似するための適切な長さであることが知られている(非特許文献1)。
次に振幅スペクトル取得部5は、複数のフレームX1〜Xn中の分割した音声信号についてFFT(高速フーリエ変換)分析を含むDFT(離散フーリエ変換)を行うことにより、複数のフレームそれぞれにおける振幅スペクトルY1〜Ynを取得する。図8にF0適応分析の結果例を示す。このようにして得られた振幅スペクトルは、F0に起因する時間方向の変動を含み、周波数帯域に応じてピークが時間方向に少しずつずれて出現する。本明細書中では、これをF0適応スペクトルと呼ぶ。なお図8の上から一番上の図は歌声波形であり、2番目の図がF0適応スペクトルであり、3番目乃至5番目の図がその上の図の一部の拡大図、周波数645.9961Hzにおける時間方向の軌跡である。
基本周波数推定部3は、図3のステップST3で示したF0適応分析を行い且つ図3のステップST4のF0適応スペクトル(振幅スペクトル)の取得を行う。振幅スペクトル取得部5は、全時刻または全サンプリング点における基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として音声信号を複数のフレームに分割する。本実施の形態では、図4及び図5に示すように基本周波数F0に応じて窓幅を変えたガウス窓を用いて窓掛けを行って、時間単位毎に音声信号の波形を分割したフレームX1〜Xnを作成する。なお振幅スペクトル取得部5と群遅延抽出部7におけるF0適応分析は、共通に実施されていてもよいのは勿論である。群遅延抽出部7は、複数のフレームX1〜Xn中の音声信号についてDFT(離散フーリエ変換)分析を伴う群遅延抽出アルゴリズムを実施して複数のフレームX1〜Xnのそれぞれにおける位相の周波数微分としての群遅延Z1〜Znを抽出する。群遅延抽出アルゴリズムの一例については、非特許文献32及び33に詳しく説明されている。
スペクトル包絡統合部9は、所定の時間間隔すなわちスペクトル包絡の離散時間(本実施の形態では1ms間隔)で、基本周波数F0の基本周期(1/F0)に基づいて定められた所定の期間内に含まれる複数のフレームに対応する複数の振幅スペクトルを重合して重合スペクトルを求める。そして重合スペクトルを平均化して音声合成のためのスペクトル包絡SEを順次求める。図9は、図3の多重フレーム統合分析ステップST5においてスペクトル包絡SEを得るためのステップST50乃至ST57を示している。ステップST50に含まれるステップST51乃至ST56は1msごとに実施される。なおステップST52は、後述する音声合成のための群遅延GDを求めるために実施されるステップである。ステップST51では、分析時刻t前後の−1/(2×F0)〜1/(2×F0)の範囲の複数フレーム分の振幅スペクトル(F0適応スペクトル)を重合して得た重合スペクトルから最大包絡を選定する。図10には、−1/(2×F0)〜1/(2×F0)の範囲の複数フレーム分の振幅スペクトルを重合して得た重合スペクトルから最大包絡を得るために、分析時刻t前後の−1/(2×F0)〜1/(2×F0)の範囲内の複数フレームにおける振幅スペクトルの各周波数において、最大となる振幅部分を濃い色で示している。最大包絡とは、各周波数ごとの最大となる振幅部分をつなげたものである。そしてステップST52では、ステップST52で取得した最大包絡として選定された振幅スペクトルを得たフレームに対応する群遅延を周波数ごとに保存する。すなわち図10に示すように、最大となる振幅値を取得した振幅スペクトルに対応する群遅延から、最大となる振幅値を得た周波数に対応する群遅延の値(時間)を、その周波数に対応する群遅延として保存する。次にステップST53では、分析時刻t前後の−1/(2×F0)〜1/(2×F0)の範囲の複数フレーム分の振幅スペクトル(F0適応スペクトル)を重合して得た重合スペクトルから最小包絡を選定する。すなわち−1/(2×F0)〜1/(2×F0)の範囲の複数フレーム分の振幅スペクトルを重合して得た重合スペクトルとし、最小包絡を得るということは、分析時刻t前後の−1/(2×F0)〜1/(2×F0)の範囲の複数フレーム分の振幅スペクトルの各周波数成分において、最小となる振幅部分をつなげたものが重合スペクトルの最小包絡である。
重合スペクトルを平均化して「音声合成のためのスペクトル包絡」を求める方法は任意である。本実施の形態では、重合スペクトルの最大包絡と最小包絡の平均として音声合成のためのスペクトル包絡を求める(ステップST55)。なお重合スペクトルの最大包絡と最小包絡の中間値を平均として、音声合成のためのスペクトル包絡を求めてもよい。このようにしてスペクトル包絡を求めると、重合スペクトルの変動幅が大きい場合でも、より適切なスペクトル包絡を求めることができる。
なお本実施の形態では、ステップST54で、平均を求める際の最小包絡として、最小包絡の谷を埋めるように最大包絡を変形して得た変形最小包絡を用いている。このような最小包絡を用いると、合成した音声の聴取印象がより自然なものとなる。
またスペクトル包絡統合部9では、ステップST56で、基本周波数F0に対応する周波数bin以下の帯域のスペクトル包絡の値を基本周波数F0に対応する周波数binのスペクトル包絡の値で置換したものを音声合成のためのスペクトル包絡としてを求めている。これは基本周波数F0に対応する周波数bin以下の帯域におけるスペクトル包絡が不安定だからである。したがってこのようにすると、基本周波数F0に対応する周波数bin以下の帯域におけるスペクトル包絡を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。
前述のように、上記ステップST50(ステップST51〜ST56)は、所定の時間単位(1ms)ごとに実施され、時間単位(1ms)ごとのスペクトル包絡が推定される。そして本実施の形態では、ステップST57で、二次元ローパスフィルタにより、置換したスペクトル包絡をフィルタ処理する。フィルタ処理をすると、置換したスペクトル包絡からノイズを除去することができるので、合成した音声の聴取印象を更に自然なものとすることができる。
本実施の形態では、スペクトル包絡を、統合範囲のスペクトルにおける最大値(最大包絡)と最小値(最小包絡)の平均として定義する(ステップST55)。スペクトル包絡として、単に最大包絡を用いないのは、分析窓のサイドローブの影響等が含まれている可能性を考慮するためである。ここで、最小包絡にはF0に起因する多数の谷が残っており、スペクトル包絡として扱いづらい。そこで本実施の形態では、最大包絡を最小包絡にかぶせるように変形することで、包絡概形を保持しながらこれらの谷を除去する(ステップST54)。図11にこれらの例と、算出の流れを示す。具体的には、ステップST54を実施するため、図11(A)に示すように、まず最小包絡のピーク(○印)を算出し、その周波数における最小包絡と最大包絡の振幅の比率を計算する(↓印)。次に図11(B)に示すように、この変換比率を周波数軸上で線形補間する(↓印)ことで、全帯域の変換比率を得る。新しい最小包絡は、最大包絡にこの変換比率を乗じた後、古い最小包絡以上となるように変形して求める。図11(C)に示すように、基本周波数F0以下の成分が、多くの場合に安定して推定できないため、基本周波数F0幅の窓による平滑化に相当する処理として基本周波数F0以下の包絡をF0における振幅値で置き換える(ステップST56)。また、最大・最小操作によって得られた包絡は、時間方向のステップ状の不連続性が残るため、時間−周波数軸上の2次元ローパスフィルタによってこれを除去して(ステップST57)、時間方向に滑らかなスペクトル包絡を得る(図12)。
図1に示した群遅延統合部11は、所定の時間間隔で、複数の群遅延からスペクトル包絡SEの周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延GDを順次求める。すなわち複数のフレームのそれぞれについて求めた振幅スペクトルから求めた重合スペクトルから音声合成のためのスペクトル包絡を順次求め、複数の群遅延からスペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択して、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める。ここで音声合成のための群遅延とは、統合範囲の中で最も共振する時刻を表現するために、最大包絡[図13(A)]に対応する群遅延の値として定義される[図13(B)]。このようにして求めた群遅延GDを、図9(A)に示した歌声波形に関して、推定時刻に対応付けてF0適応スペクトル(振幅スペクトル)上に重ねて描画した図を図9(B)に示す。図9(B)から分かるように、最大包絡に対応する群遅延は、F0適応スペクトルのピーク時刻にほぼ相当する。
このようにして得られた群遅延は、基本周波数F0に対応する基本周期に応じた時間軸方向の広がり(間隔)を持つため、時間軸方向に正規化して扱う。時刻t、周波数fにおける最大包絡に対応する群遅延を
とすると、基本周期(1/F0(t))と、n×F0(t)に対応する周波数binの値
を用いて、正規化された群遅延g(f,t)を得る。
ここでmod(x,y)は、xをyで割った剰余を意味する。
また、
は、分析時刻の違いにおけるオフセットを除去する操作であり、n=1もしくはn=1.5とした。(n=1付近では不安定になる場合があり、その場合、調波構造の間の値を基準とした方が、安定した結果を得ることができる。)
以上の操作によって、群遅延g(f,t)は(0,1)の範囲で正規化された値となる。しかし、基本周期による剰余処理と、基本周期を範囲として統合していることが原因で、次の問題が残る。
(問題1)周波数方向に不連続性が発生する。
(問題2)時間方向にステップ状の不連続性が発生する。
以下、それぞれの解決法を述べる。
まず問題1は、図12のF0=318.6284Hz付近、1.25kHz付近、1.7kHz付近等に見られるような基本周期に起因する不連続の存在である。この群遅延情報を変形するなど、柔軟に扱いたい場合に、このままでは都合が悪い。そこで、群遅延の値を(−π,π)の範囲に正規化しなおし、sinとcosで展開すると、この不連続性が連続的に扱える。具体的には、次のように計算する。
続いて問題2は、スペクトル包絡の推定と同様の問題であり、そもそも波形の駆動が基本周期毎に起こることが原因である。ここで、分析合成系として扱うためには、周期間も連続的に変化した値となっていると都合が良いため、gx(f,t)とgy(f,t)をそれぞれ平滑化しておく。
最後に、スペクトル包絡同様、基本周波数F0以下の成分が多くの場合に安定して推定できないため、基本周波数F0以下の正規化群遅延を基本周波数F0における値で置き換える。
上記動作を行う群遅延統合部11を、コンピュータにインストールしたプログラムを用いて実現する場合について説明する。図15は、複数の基本周波数適応群遅延(図6のZ1〜Znで示す群遅延)から音声合成のための群遅延GDをコンピュータを利用して求める際に用いるプログラムのアルゴリズムの一例を示すフローチャートである。このアルゴリズムでは、1msごとに実施されるステップST150に図9のステップST52を含んでいる。すなわちステップST52では、最大包絡として選定された重合スペクトルに対応する群遅延を周波数ごとに保存する。そしてステップST521で、分析時刻のずれを補正する(図5参照)。すなわち群遅延統合部11では、重合スペクトルの周波数成分ごとの最大包絡に対応するフレームにおける群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正する。これは群遅延が、基本周波数F0に対応する基本周期に応じた時間軸方向の広がり(間隔)を持つためである。次にステップST522で、分析時刻のずれを補正した群遅延を0〜1の範囲に正規化する。この正規化は、図16に詳細を示すステップで実施される。なお図17には、正規化処理のステップにおける群遅延の状態を示してある。まずn×F0に対応する周波数binの群遅延の値を保存する[ステップST522A及び図17(A)]。次に群遅延から上記保存した値を引く[ステップST522B及び図17(B)]。そして群遅延から上記保存した値を引いた値から群遅延の基本周期での剰余を算出する[ステップST522C及び図17(C)]。次に上記値(剰余の算出結果)を基本周期で正規化して(割って)正規化された群遅延を得る[ステップST522D及び図17(D)]。このように、群遅延を時間軸方向に正規化することにより、基本周波数F0の影響を取り除くことができ、再合成時のF0に応じて変形可能な群遅延を得ることができる。正規化した群遅延については、図15のステップST523において、F0に対応する周波数bin以下の帯域の群遅延の値をF0に対応する周波数binの群遅延の値で置換したものを音声合成のための群遅延の基礎とする。これはF0に対応する周波数bin以下の帯域における群遅延が不安定であることに基づいている。したがってこのようにすると、F0に対応する周波数bin以下の帯域における群遅延を安定したものとして、合成した音声の聴取印象をより自然なものとすることができる。置換した群遅延をそのまま音声合成のための群遅延としてもよいが、本実施の形態では、ステップST524で、1msごとに求めた置換した群遅延を平滑化する。これは分析合成系として扱うためには、群遅延が連続的に変化した値となっていると都合が良いためである。
なお平滑化では、図18に示すように、ステップST524Aで、フレームごとに置換した群遅延をsin関数及びcos関数で変換して、基本周期に起因する不連続を除去する。次にステップST524Bで、全フレームに対して、二次元ローパスフィルタによりフィルタ処理した後に、ステップST524Cで群遅延のsin関数及びcos関数をtan-1関数により元の状態に戻したものを音声合成のための群遅延とする。群遅延のsin関数及びcos関数への変換は、二次元ローパスフィルタでのフィルタ処理の便宜のためである。なおこの演算に用いる式は、後に説明する合成の際に使用する式と同じである。
上記のようにして推定された音声合成のためのスペクトル包絡及び群遅延は、図1のメモリ13に保存される。
[スペクトル包絡と群遅延からの音声合成]
上述のようにして得られたスペクトル包絡と、正規化された群遅延を用いて合成するためには、従来の分析合成システムと同様、時間軸伸縮や振幅の制御を行い、合成のための基本周波数F0を指定する。そして指定した合成のための基本周波数F0とスペクトル包絡と、正規化された群遅延とに基づいて単位波形を順次生成し、生成した複数の単位波形を重畳加算することで音声を合成する。図1に示した音声信号の合成システム2は、読み出し部15と、変換部17と、単位波形生成部19と、合成部21とを基本構成要素とし、不連続状態抑制部23および補正部25を付随要素として構成される。図19は、合成システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。また図20及び図21は、音声信号の合成の過程を説明するために用いる波形図である。
読み出し部15は、図20に示すように、音声分析合成のためのスペクトル包絡及び群遅延の推定システム1により推定した音声合成のためのスペクトル包絡及び群遅延を所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数F0の逆数からなる合成のための基本周期1/F0で、合成のためのスペクトル包絡及び群遅延をメモリ13から読み出す。そして変換部17は、図20に示すように読み出した群遅延を位相スペクトルに変換する。単位波形生成部19は、図20に示すように読み出したスペクトル包絡と位相スペクトルとから単位波形を生成する。そして合成部21は、図21に示すように生成した複数の単位波形を合成のための基本周期で重畳加算して合成された音声信号を出力する。この合成システムによれば、全体的に群遅延を再現して合成することができ、合成品質も自然なものが得られる。
なお図1の例では、変換部17による変換の前に、読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部23と補正部25とを備えている。不連続状態抑制部23は図19のステップST102により実現される。ステップ102では、図22に示すようにステップST102Aにおいて有声区間ごとに最適なオフセットを探索して群遅延を更新した後、ステップST102Bにおいて低域群遅延の平滑化を実施する。ステップST102Aにおける群遅延の更新は、図23に示すステップにより実行される。図24及び25は、群遅延の更新の説明に用いる図である。まず不連続状態抑制部23は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化する更新を行った後(図23のステップST102A)、低周波数領域の群遅延を平滑化する(図23のステップST102B)。最初のステップST102Aでは、図23に示すように、合成のための基本周波数F0に対応する周波数binの値を抽出する[ステップST102a及び図23]。次に周期性を考慮した混合ガウス関数において中央のガウス関数の平均を0から1まで変化させ、それぞれとのフィッティング(適合)を計算する(ステップST102b及び図23]。ここで周期性を考慮したガウス関数は、平均が0.9で標準偏差が0.1/3のガウス関数である。フィッティングの結果は、図24に示すように基本周波数F0に対応する周波数binの群遅延を考慮した分布で表すことができる。そしてこの分布の中心(最終値)が0.5となるように群遅延のオフセットを決定する(図23のステップST102c)。次に群遅延にオフセットを足して1で剰余を取る(図23のステップST102d)。図25は、群遅延にオフセットを足して1で剰余を取ったときの群遅延の例を示している。このようにするとオフセットを反映した基本周波数F0に対応する周波数binの群遅延は図24に示すようになる。
このようにして不連続状態抑制部23は、有声区間ごとに群遅延へ最適なオフセットを加算して再度正規化する。そしてそのステップST102Bで、低周波数領域の群遅延を平滑化する。図26は、低周波数領域の平滑化についてのアルゴリズムの一例のフローチャートを示している。図27(A)乃至(C)及び図28(D)乃至(F)は、ステップST102Bの平滑化の状況の一例を順番に示している。平滑化では、図26のステップST102eにおいて、読み出した後不連続状態を抑制したフレームの群遅延をsin関数及びcos関数で変換する[図27(B)及び(C)]。その後図26のステップST102fにおいて、全フレームの1〜4300Hz以下の周波数帯域に対して二次元ローパスフィルタによりフィルタ処理を実施する。例えば、二次元ローパスフィルタとしては、時間方向0.6ms、周波数方向48.4497Hzの二次元三角窓フィルタを用いることができる。フィルタ処理を終了したらステップST102gで、sin関数及びcos関数をtan-1関数により元の状態に戻す[図28(D)乃至(F)及び式(9)参照]。この動作によって、急峻な時間方向の不連続が発生している場合でも、急峻な不連続が解消される。本実施の形態のように、不連続状態抑制部23で平滑化すると、群遅延の低周波数領域の不安定さを無くすことができる。
また本実施の形態では、図1に示す変換部17による変換の前または不連続状態抑制部23の後に、群遅延に合成のための基本周期を係数として乗ずる補正を実施する補正部25を更に備えている。この補正部25を設けると、基本周波数F0に対応する基本周期に応じた時間軸方向の広がり(間隔)を持つ群遅延を時間軸方向に正規化することができ、変換部17からはより精度の高い位相スペクトルを得ることができる。
本実施の形態の単位波形生成部19は、分析窓を合成窓に変換し、合成窓を単位波形に掛けて補正単位波形を生成する。そして合成部21は補正単位波形を基本周期で重畳加算する。図29は、図19のステップST104の詳細なアルゴリズムを示すフローチャートである。まずステップ104Aにおいて、上記平滑化を実施した群遅延とスペクトル包絡を基本周期(合成のための基本周波数F0)で取り出す。次にステップ104Bで、群遅延に基本周期を係数として乗ずる。このステップ104Bにより、補正部25が実現されている。次にステップST104Cで、群遅延を位相スペクトルに変換する。このステップST104Cにより変換部17が構成されている。次にステップST104Dにおいてスペクトル包絡(振幅スペクトル)と位相スペクトルとから、単位波形(インパルス応答)を生成する。そしてステップ104Eで、ガウス窓(分析窓)を足して振幅が1になる窓であるハニング窓(合成窓)に変換するための「窓」を単位波形に掛けて、合成窓を単位波形に掛けた状態として、補正単位波形を生成する。具体的には、基本周期の長さのハニング窓(合成窓)から分析に用いたガウス窓(分析窓)を割って、変換するための「窓」を生成する。但し、この「窓」はガウス窓の値が0でない時刻にのみ値を持つものとする。ステップ104Fでは、基本周期(基本周波数F0の逆数)で、複数の補正単位波形を重畳加算して合成の音声信号を作成する。なおステップST104Fでは、無声音の場合、ガウスノイズを畳み込んでから重畳を実施するのが好ましい。なお分析窓としてハニング窓を用いる場合、窓掛けの影響で原音声が変形されることはないが、時間・周波数分解能の向上と、サイドローブの影響(ハニング窓は低次のサイドローブの減衰が少ない)を減らすために、本実施の形態では分析にガウス窓を用いている。
このよう合成窓で補正した補正単位波形を用いると、より自然な合成音声を聴取することができる
ここで上述のステップST102Bにおける演算について詳しく説明する。sinとcosで展開された群遅延gx(f,t)とgy(f,t)から、最終的に以下の計算によって群遅延g(f,t)に戻してから扱う。
ただし、フォルマント周波数が変動する箇所などで、推定された群遅延の形状が急に変わり、特に低域でパワーが大きい場合に合成品質に多大な影響を及ぼすことがある。これは、前述したF0に起因する変動(図8)が、ある周波数帯域において、F0以上の速さで変動することが原因と考えられる。例えば図14(B)において、500Hz付近の方が1500Hz付近よりも変動が速い。これによって、図14(B)の中央の前後で、群遅延の形が変わってしまい、単位波形の形も変わる。そこで本実施の形態では、前述のように同一の有声区間中では、群遅延g(f,t)の低域で時間方向の不連続がなるべく発生しないように、新たな共通のオフセットを足して1で剰余(正規化されているため)を取った。そして群遅延の低域に長い時定数の二次元ローパスフィルタをかけて、このような瞬間的な変動を除去した。
[試験]
上記実施の形態によるスペクトル包絡の推定精度は、従来、特に性能が高いSTRAIGHT(非特許文献27)、TANDEM-STRAIGHT(非特許文献28)と比較する。実験には男性の無伴奏歌唱(ソロ)をRWC研究用音楽データベース(後藤真孝,橋口博樹,西村拓一,岡 隆一:RWC 研究用音楽データベース:研究目的で利用可能な著作権処理済み楽曲・楽器音データベース,情報処理学会論文誌,Vol. 45, No. 3, pp.728-738 (2004).)(音楽ジャンル:RWC-MDB-G-2001 No.91)から、女性の話声をAISTハミングデータベース(E008)(後藤真孝,西村拓一:AIST ハミングデータベース:歌声研究用音楽データベース,情報処理学会研究報告,2005-MUS-61,pp. 7-12 (2005).)から、楽器音としてピアノとバイオリンの音を前術のRWC研究用音楽データベース[楽器音:ピアノ(RWC-MDB-I-2001,No.01,011PFNOM)とバイオリン(RWC-MDB-I-2001,No.16,161VLGLM)]からそれぞれ用いた。スペクトル包絡の推定精度の比較では、周波数bin数を、STRAIGHTで良く用いられる値である2049bins(FFT長が4096)、分析の時間単位を1msとした。上記実施の形態においては、多重フレーム統合分析における統合処理を1msごとに実行する時間単位を意味する。
また、群遅延の推定に関しては、自然音声の分析結果と、群遅延を反映させた合成結果を更に分析した結果を比較する。ここで、群遅延の推定精度を確保するために、スペクトル包絡の推定実験とは異なり、周波数bin数を4097bins(FFT長が8192)と設定して試験をした。
[試験A:スペクトル包絡の比較]
本試験では、自然音声を対象としてSTRAIGHTスペクトルと分析結果を比較する。
図30にSTRAIGHTスペクトログラムと提案スペクトログラムを並べて表示し、0.4秒におけるスペクトル包絡を重ねて表示している。提案した最大・最小包絡の間にSTRAIGHTスペクトルがあり、それは提案スペクトル包絡とほぼ類似していた。さらに、STRAIGHTによって推定した非周期成分を用いて、提案スペクトログラムから音をSTRAIGHTで合成した聴取印象は、STRAIGHTスペクトログラムからの再合成と比べて劣るものではなかった。
[試験B:スペクトル包絡の再現]
本試験では、スペクトル包絡とF0が既知である合成音を用いて、その推定精度を評価する。具体的には、前述した自然音声及び楽器音をSTRAIGHTで分析再合成した音と、cascade-type Klatt 合成器(Klatt, D. H.: Software for A Cascade/parallel Formant Synthesizer, J. Acoust. Soc. Am., Vol. 67, pp. 971-995 (1980).)によってスペクトル包絡をパラメータ制御した合成音を用いた。
Klatt 合成器に与えたパラメータ一覧を表1に示す。
ここで、第1,第2フォルマント周波数(F1とF2)の値を、表2に示すように設定してスペクトル包絡を生成し、これらのスペクトル包絡からF0を125Hzとして正弦波を重畳して、6種類の音を合成した。
推定精度の評価には以下に示す対数スペクトル距離LSDを用いた。ここでTは有声フレーム数、Fは周波数bin数(=FH−FL+1)、(FL,FH)は評価における周波数範囲であり、Sg(t,f)とSe(t,f)がそれぞれ正解のスペクトル包絡と推定されたスペクトル包絡である。対数スペクトル距離を計算する際には、その形状を評価するために正規化係数α(t)をSg(t,f)とα(t)Se(t,f)の二乗誤差ε2 が最小になるように算出した。
表3に評価結果を、図31に推定の一例を示す。上記実施の形態によって推定されたスペクトル包絡の対数スペクトル距離は、14サンプル中13サンプルにおいてSTRAIGHTとTANDEM-STRAIGHTのいずれかよりも低く、どちらよりも低かったのは8サンプルで最も多かった。この結果から、本実施の形態によれば、高品質な合成と高精度な分析に活用できる可能性があることが確認できた。
[試験C:群遅延の再現]
男性の無伴奏歌唱を入力として、本実施の形態によってスペクトル包絡と群遅延を推定し、それを再合成した結果を図32に示す。再合成音における群遅延では、低域や全体にかけたローパスフィルタの結果が見られるが、全体的に群遅延を再現して合成できており、合成品質も自然であった。
[その他]
上記実施の形態で推定したスペクトル包絡は存在可能範囲を同時に推定しており、声質変換やスペクトル形状の変形、素片接続合成等において活用できる可能性がある。
また、上記実施の形態では、群遅延を保存して合成できる可能性もある。さらに従来の群遅延を用いた技術(非特許文献32及び33)では、群遅延を平滑化しても(谷を削っても)合成品質に影響がない。それに対して、上記実施の形態によれば、複数フレームを統合することで谷を適切に埋めることができる。また本実施の形態によれば、群遅延が周波数帯域毎に、異なる時刻で共振していること(図14)から、単一のピッチマーキングによる分析を超えて、より詳細に分析できる。また上記実施の形態によれば、図33に示すようなF0適応スペクトルと最大包絡のピークに対応する群遅延との関係が得られる。図33と前述の図14とを比較すると判るように、上記実施の形態によれば、最大包絡の算出時にピーク検出を行うことで、フォルマント周波数の変動等が原因で発生する余分なノイズ(誤り)を除去できることが判る。
本発明の上記実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲にいて変形または変更された実施の形態も本発明に含まれる。
本発明によれば、音声や楽器音からスペクトル包絡と位相情報を高い精度と時間分解能で分析し、それを保存したままの高品質な合成を実現することができる。また本発明によれば、ピッチマーク[基本周波数に同期した分析を行う際の、波形の駆動点(かつ分析時刻)を示す時刻情報、声門音源の励起時刻、もしくは基本周期中で振幅が大きい時刻が用いられる]や音素情報等の付随情報を前提とせずに、音の種類の違いによらず安定して音声信号を分析できる。
1 推定システム
2 合成システム
3 基本周波数推定部
5 振幅スペクトル取得部
7 群遅延抽出部
9 スペクトル包絡統合部
11 群遅延統合部
13 メモリ
15 読み出し部
17 変換部
19 単位波形生成部
21 合成部
23 不連続状態抑制部
25 補正部

Claims (33)

  1. 音声信号から全時刻または全サンプリング点において基本周波数F0を推定する基本周波数推定部と、
    前記全時刻または全サンプリング点における前記基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてDFT分析を行うことにより、前記複数のフレームそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得部と、
    前記複数のフレーム中の音声信号についてDFT分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出部と、
    所定の時間間隔で、前記基本周波数F0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合部と、
    所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合部とを少なくとも1つのプロセッサを用いて実現し、
    前記スペクトル包絡統合部では、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
    前記群遅延統合部では、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とすることを音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  2. 前記基本周波数推定部では、基本周波数F0の推定と併せて有声区間及び無声区間の判定を行い、前記無声区間における基本周波数F0を前記有声区間における値で補間するかまたは前記無声区間に予め定めた値を付与する請求項1に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  3. 前記スペクトル包絡統合部では、前記重合スペクトルの前記最大包絡と最小包絡の中間値を平均として前記音声合成のためのスペクトル包絡を求める請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  4. 平均を求める際の最小包絡として、前記最小包絡の谷を埋めるように前記最大包絡を変形して得た変形最小包絡を用いる請求項1または3に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  5. 前記スペクトル包絡統合部では、F0に対応する周波数bin以下の帯域のスペクトル包絡の値をF0に対応する周波数binのスペクトル包絡の値で置換したものを前記音声合成のためのスペクトル包絡として求める請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  6. 置換した前記スペクトル包絡をフィルタ処理する二次元ローパスフィルタを更に備えている請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  7. 前記群遅延統合部では、F0に対応する周波数bin以下の帯域の前記群遅延の値をF0に対応する周波数binの群遅延の値で置換したものを前記音声合成のための群遅延とする請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  8. 前記群遅延統合部では、置換した前記群遅延を平滑化したものを前記音声合成のための群遅延とする請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  9. 前記平滑化では、置換した前記群遅延をsin関数及びcos関数で変換して基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記sin関数及びcos関数をtan-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  10. 請求項1乃至の各部をコンピュータを用いて実現することを特徴とする音声分析合成のためのスペクトル包絡及び群遅延の推定システム。
  11. 請求項1乃至のいずれか1項に記載のシステムにより推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出し部と、
    読み出した前記群遅延を位相スペクトルに変換する変換部と、
    読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成部と、
    生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成部とを少なくとも1つのプロセッサを用いて実現してなる音声信号の合成システム。
  12. 前記変換部による変換の前に、前記読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制部を更に備えた請求項11に記載の音声信号の合成システム。
  13. 前記不連続状態抑制部では、有声区間ごとに最適なオフセットを加算した後、低周波数領域の群遅延を平滑化する請求項12に記載の音声信号の合成システム。
  14. 前記平滑化では、読み出したフレームの前記群遅延をsin関数及びcos関数で変換して前記合成のための基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記sin関数及びcos関数をtan-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項13に記載の音声信号の合成システム。
  15. 前記変換部による変換の前または前記不連続状態抑制部の後に、前記群遅延に前記合成のための基本周期を係数として乗ずる補正を実施する補正部を更に備える請求項12または13に記載の音声信号の合成システム。
  16. 前記合成部は、分析窓を合成窓に変換し、前記合成窓を前記単位波形に掛けた補正単位波形を基本周期で重畳加算することを特徴とする請求項11に記載の音声信号の合成システム。
  17. 音声信号から全時刻または全サンプリング点において基本周波数F0を推定する基本周波数推定ステップと、
    前記全時刻または全サンプリング点における前記基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてDFT分析を行うことにより、前記複数のフレームそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得ステップと、
    前記複数のフレーム中の音声信号についてDFT分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出ステップと、
    所定の時間間隔で、前記基本周波数F0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数の振幅スペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合ステップと、
    所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合ステップとを少なくとも1つのプロセッサを用いて実行し、
    前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
    前記群遅延統合ステップでは、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とする音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  18. 前記基本周波数推定ステップでは、基本周波数F0の推定と併せて有声区間及び無声区間の判定を行い、前記無声区間における基本周波数F0を前記有声区間における値で補間するかまたは前記無声区間に予め定めた値を付与する請求項17に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  19. 前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の中間値を平均として前記音声合成のためのスペクトル包絡を求める請求項17に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  20. 平均を求める際の最小包絡として、前記最小包絡の谷を埋めるように前記最大包絡を変形して得た変形最小包絡を用いる請求項17または19に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  21. F0に対応する周波数bin以下の帯域のスペクトル包絡の値をF0に対応する周波数binのスペクトル包絡の値で置換したものを前記音声合成のためのスペクトル包絡を求める請求項17に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  22. 置換した前記スペクトル包絡を二次元ローパスフィルタによりフィルタ処理する請求項21に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  23. 前記群遅延統合ステップでは、F0に対応する周波数bin以下の帯域の前記群遅延の値をF0に対応する周波数binの群遅延の値で置換したものを前記音声合成のための群遅延とする請求項18に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  24. 前記群遅延統合ステップでは、置換した前記群遅延を平滑化したものを前記音声合成のための群遅延とする請求項23に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  25. 前記平滑化では、置換した前記群遅延をsin関数及びcos関数で変換して基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記sin関数及びcos関数をtan-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項24に記載の音声分析合成のためのスペクトル包絡及び群遅延の推定方法。
  26. 請求項17乃至25のいずれか1項に記載の方法により推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出しステップと、
    読み出した前記群遅延を位相スペクトルに変換する変換ステップと、
    読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成ステップと、
    生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成ステップとを少なくとも1つのプロセッサを用いて実行する音声信号の合成方法。
  27. 前記変換ステップの前に、前記読み出した群遅延の低域における時間方向の不連続状態の発生を抑制する不連続状態抑制ステップを実施する請求項26に記載の音声信号の合成方法。
  28. 前記不連続状態抑制ステップでは、有声区間ごとに最適なオフセットを加算した後、低周波数領域の群遅延を平滑化する請求項27に記載の音声信号の合成方法。
  29. 前記平滑化では、読み出したフレームの前記群遅延をsin関数及びcos関数で変換して前記合成のための基本周期に起因する不連続を除去し、その後二次元ローパスフィルタによりフィルタ処理した後に前記sin関数及びcos関数をtan-1関数により元の状態に戻したものを前記音声合成のための群遅延とする請求項28に記載の音声信号の合成方法。
  30. 前記変換ステップの前または前記平滑化の後に、前記群遅延に前記合成のための基本周期を係数として乗ずる補正ステップを実施する請求項26または28に記載の音声信号の合成方法。
  31. 前記合成ステップでは、分析窓を合成窓に変換し、前記合成窓を前記単位波形に掛けた補正単位波形を基本周期で重畳加算することを特徴とする請求項26に記載の音声信号の合成方法。
  32. 音声信号から全時刻または全サンプリング点において基本周波数F0を推定する基本周波数推定ステップと、
    前記全時刻または全サンプリング点における前記基本周波数F0に応じて窓幅を変えた窓を用いて、各時刻または各サンプリング点を中心として前記音声信号を複数のフレームに分割し、前記複数のフレーム中の音声信号についてDFT分析を行うことにより、前記複数のフレームにそれぞれにおける振幅スペクトルを取得する振幅スペクトル取得ステップと、
    前記複数のフレーム中の音声信号についてDFT分析を伴う群遅延抽出アルゴリズムを実施して前記複数のフレームのそれぞれにおける位相の周波数微分としての群遅延を抽出する群遅延抽出ステップと、
    所定の時間間隔で、前記基本周波数F0の基本周期に基づいて定められた所定の期間内に含まれる前記複数のフレームに対応する前記複数のスペクトルを重合して重合スペクトルを求め、該重合スペクトルを平均化して音声合成のためのスペクトル包絡を順次求めるスペクトル包絡統合ステップと、
    所定の時間間隔で、前記複数の群遅延から前記スペクトル包絡の周波数成分ごとの最大包絡に対応する群遅延を選択し、選択した複数の群遅延を統合して音声合成のための群遅延を順次求める群遅延統合ステップとをコンピュータで実施することを可能にするように構成された音声分析合成のためのスペクトル包絡及び群遅延の推定用プログラムを記録してなる非一時的なコンピュータ読み取り可能な記録媒体であって、
    前記スペクトル包絡統合ステップでは、前記重合スペクトルの前記最大包絡と最小包絡の平均として前記音声合成のためのスペクトル包絡を求め、
    前記群遅延統合ステップでは、前記重合スペクトルの周波数成分ごとの前記最大包絡に対応する前記フレームにおける前記群遅延を周波数ごとに保存し、保存した群遅延の分析時刻のずれを補正し、前記保存した群遅延を正規化し、正規化した群遅延を前記音声合成のための群遅延とすることを特徴とするコンピュータ読み取り可能な記録媒体。
  33. 請求項17乃至25のいずれか1項に記載の方法により推定した前記音声分析合成のためのスペクトル包絡及び群遅延を前記所定の時間間隔ごとに保存して作成したスペクトル包絡及び群遅延データファイルから、合成のための基本周波数の逆数からなる合成のための基本周期で、前記合成のためのスペクトル包絡及び群遅延を読み出す読み出しステップと、
    読み出した前記群遅延を位相スペクトルに変換する変換ステップと、
    読み出した前記スペクトル包絡と前記位相スペクトルとから単位波形を生成する単位波形生成ステップと、
    生成した複数の前記単位波形を前記合成のための基本周期で重畳加算して合成された音声信号を出力する合成ステップとをコンピュータで実施することを可能にするように構成された音声信号の合成用プログラムを記録してなる非一時的なコンピュータ読み取り可能な記録媒体。
JP2014528171A 2012-08-01 2013-07-30 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム Active JP5958866B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012171513 2012-08-01
JP2012171513 2012-08-01
PCT/JP2013/070609 WO2014021318A1 (ja) 2012-08-01 2013-07-30 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム

Publications (2)

Publication Number Publication Date
JPWO2014021318A1 JPWO2014021318A1 (ja) 2016-07-21
JP5958866B2 true JP5958866B2 (ja) 2016-08-02

Family

ID=50027991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014528171A Active JP5958866B2 (ja) 2012-08-01 2013-07-30 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム

Country Status (4)

Country Link
US (1) US9368103B2 (ja)
EP (1) EP2881947B1 (ja)
JP (1) JP5958866B2 (ja)
WO (1) WO2014021318A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
US9865247B2 (en) 2014-07-03 2018-01-09 Google Inc. Devices and methods for use of phase information in speech synthesis systems
WO2016135132A1 (en) * 2015-02-26 2016-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
US9564140B2 (en) * 2015-04-07 2017-02-07 Nuance Communications, Inc. Systems and methods for encoding audio signals
EP3270376B1 (en) * 2015-04-13 2020-03-18 Nippon Telegraph and Telephone Corporation Sound signal linear predictive coding
CA2991913C (en) * 2015-06-11 2020-06-02 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN114694632A (zh) 2015-09-16 2022-07-01 株式会社东芝 语音处理装置
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US10345339B2 (en) 2015-12-09 2019-07-09 Tektronix, Inc. Group delay based averaging
WO2017116961A1 (en) * 2015-12-30 2017-07-06 Baxter Corporation Englewood Measurement of syringe graduation marks using a vision system
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
WO2020044362A2 (en) * 2018-09-01 2020-03-05 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope
US11694708B2 (en) * 2018-09-23 2023-07-04 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
US11264014B1 (en) * 2018-09-23 2022-03-01 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
US11031909B2 (en) * 2018-12-04 2021-06-08 Qorvo Us, Inc. Group delay optimization circuit and related apparatus
DE102019220091A1 (de) * 2019-12-18 2021-06-24 GiaX GmbH Vorrichtung und verfahren zum erfassen von gruppenlaufzeitinformationen und vorrichtung und verfahren zum senden eines messsignals über ein übertragungsmedium
CN111179973B (zh) * 2020-01-06 2022-04-05 思必驰科技股份有限公司 语音合成质量评价方法及系统
CN111341294B (zh) * 2020-02-28 2023-04-18 电子科技大学 将文本转换为指定风格语音的方法
CN111863028B (zh) * 2020-07-20 2023-05-09 江门职业技术学院 一种发动机声音合成方法及系统
CN112652315B (zh) * 2020-08-03 2024-08-16 昆山杜克大学 基于深度学习的汽车引擎声实时合成系统及方法
CN112309425B (zh) * 2020-10-14 2024-08-30 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
US11545172B1 (en) * 2021-03-09 2023-01-03 Amazon Technologies, Inc. Sound source localization using reflection classification
US12126305B2 (en) 2021-05-27 2024-10-22 Qorvo Us, Inc. Radio frequency (RF) equalizer in an envelope tracking (ET) circuit
CN113938749B (zh) * 2021-11-30 2023-05-05 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
JP3358139B2 (ja) * 1995-12-22 2002-12-16 沖電気工業株式会社 音声ピッチマーク設定方法
JP3266819B2 (ja) 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JPH11219200A (ja) * 1998-01-30 1999-08-10 Sony Corp 遅延検出装置及び方法、並びに音声符号化装置及び方法
JP4166405B2 (ja) * 2000-03-06 2008-10-15 独立行政法人科学技術振興機構 駆動信号分析装置
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8767978B2 (en) * 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform

Also Published As

Publication number Publication date
JPWO2014021318A1 (ja) 2016-07-21
EP2881947A1 (en) 2015-06-10
EP2881947A4 (en) 2016-03-16
US20150302845A1 (en) 2015-10-22
EP2881947B1 (en) 2018-06-27
WO2014021318A1 (ja) 2014-02-06
US9368103B2 (en) 2016-06-14

Similar Documents

Publication Publication Date Title
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
Yegnanarayana et al. An iterative algorithm for decomposition of speech signals into periodic and aperiodic components
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP5961950B2 (ja) 音声処理装置
Degottex et al. A log domain pulse model for parametric speech synthesis
Abe et al. Sinusoidal model based on instantaneous frequency attractors
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Al-Radhi et al. Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis.
Al-Radhi et al. A continuous vocoder for statistical parametric speech synthesis and its evaluation using an audio-visual phonetically annotated Arabic corpus
Nakano et al. A spectral envelope estimation method based on F0-adaptive multi-frame integration analysis.
Kafentzis et al. Time-scale modifications based on a full-band adaptive harmonic model
JP2018077283A (ja) 音声合成方法
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
US7822599B2 (en) Method for synthesizing speech
Drugman et al. Fast inter-harmonic reconstruction for spectral envelope estimation in high-pitched voices
Hasan et al. An approach to voice conversion using feature statistical mapping
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
JP6834370B2 (ja) 音声合成方法
Lehana et al. Harmonic plus noise model based speech synthesis in Hindi and pitch modification
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
JP6822075B2 (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
Louw A straightforward method for calculating the voicing cut-off frequency for streaming HNM TTS

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160610

R150 Certificate of patent or registration of utility model

Ref document number: 5958866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250