JP3660937B2

JP3660937B2 - 音声合成方法および音声合成装置

Info

Publication number: JP3660937B2
Application number: JP2004555020A
Authority: JP
Inventors: 孝浩釜井; 弓子加藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2002-11-25
Filing date: 2003-11-25
Publication date: 2005-06-15
Anticipated expiration: 2023-11-25
Also published as: US20050125227A1; JPWO2004049304A1; CN1692402A; WO2004049304A1; CN100365704C; AU2003284654A1; US7562018B2

Description

【技術分野】
【０００１】
この発明は、音声を人工的に生成する方法および装置に関する。
【背景技術】
【０００２】
近年、デジタル技術を応用した情報機器の高機能化・複雑化が急速に進んでいる。このようなデジタル情報機器を利用者が簡易に扱えるようにするためのユーザ・インタフェースの１つに音声対話型インタフェースがある。音声対話型インタフェースは、利用者との間で音声による情報のやりとり（対話）を行うことによって所望の機器操作を実現するものであり、カーナビゲーションシステムやデジタルテレビなどに搭載され始めている。
【０００３】
音声対話型インタフェースにより実現される対話は、感情を持っている利用者（人間）と感情を持っていないシステム（機械）との間の対話である。ゆえに、いかなる状況においてもいわゆる棒読み調の合成音声で対応したのでは利用者が違和感や不快感を感じてしまう。音声対話型インタフェースを使い心地のよいものにするためには、利用者に違和感や不快感を感じさせない自然な合成音声で対応しなければならない。そのためには、それぞれの状況にふさわしい感情が入った合成音声を生成する必要がある。
【０００４】
現在までのところ、音声による感情表現の研究はピッチの変化パターンに注目するものが中心である。喜怒哀楽を表すイントネーションの研究がたくさんなされている。図２９に示すように、同じ文面（この例では「お早いお帰りですね。」という文面）でピッチパターンを変えた場合に聞いた人がどのように感じるかを調べる研究が多い。
【特許文献１】
特許第２６７４２８０号公報
【特許文献２】
特開平１０−９７２８７号公報
【特許文献３】
特公平２−８３２０号公報
【非特許文献１】
Takahiro Ohtsuka, Hideki Kasuya, "AN IMPROVED SPEECH ANALYSIS-SYNTHESIS ALGORITH BASED ON THE AUTOREGRESSIVE WITH EXOGENOUS INPUTSPEECH PRODUCTION MODEL", ICSLP2000, Paper Number 01329, Oct. 16-20, 2000, BEIJING, CHINA
【発明の開示】
【発明が解決しようとする課題】
【０００５】
この発明の目的は、合成音声の自然さを向上させることができる音声合成方法および音声合成装置を提供することである。
【課題を解決するための手段】
【０００６】
この発明による音声合成方法はステップ（ａ）〜（ｃ）を備える。ステップ（ａ）では、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。ステップ（ｂ）では、ステップ（ａ）によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。ステップ（ｃ）では、ステップ（ｂ）によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
【０００８】
好ましくは、上記ステップ（ｂ）では、ステップ（ｃ）によって生成される合成音声において表現すべき感情に応じたタイミングおよび／または重み付けで高域の位相揺らぎ成分を付与する。
【０００９】
この発明による音声合成装置は手段（ａ）〜（ｃ）を備える。手段（ａ）は、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。手段（ｂ）は、手段（ａ）によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。手段（ｃ）は、手段（ｂ）によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
【００１１】
好ましくは、上記音声合成装置は手段（ｄ）をさらに備える。手段（ｄ）は、高域の位相揺らぎ成分を付与するタイミングおよび／または重み付けを制御する。
【発明の効果】
【００１２】
上記音声合成方法および音声合成装置では、高域の位相揺らぎ成分のみを付与することによりささやき声を効果的に実現することができる。これにより、合成音声の自然さを向上させることができる。
【００１３】
また、音声波形に含まれている位相揺らぎ成分のみを除去した後にあらためて高域の位相揺らぎ成分のみを与えるため、合成音声のピッチ変更時に発生するざらつき感を抑制することができ、合成音声のブザー音的音質を低減することができる。
【発明を実施するための最良の形態】
【００１４】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
【００１５】
（第１の実施形態）
＜音声対話型インタフェースの構成＞
第１の実施形態による音声対話型インタフェースの構成を図１に示す。このインタフェースはデジタル情報機器（たとえばデジタルテレビやカーナビゲーションシステムなど）と利用者との間に介在し、利用者との間で音声による情報のやりとり（対話）を行うことによって利用者の機器操作を支援する。このインタフェースは、音声認識部１０と、対話処理部２０と、音声合成部３０とを備える。
【００１６】
音声認識部１０は、利用者が発声した音声を認識する。
【００１７】
対話処理部２０は、音声認識部１０による認識結果に応じた制御信号をデジタル情報機器に与える。また、音声認識部１０による認識結果および／またはデジタル情報機器からの制御信号に応じた応答文（テキスト）とその応答文に与える感情を制御する信号とを音声合成部３０に与える。
【００１８】
音声合成部３０は、対話処理部２０からのテキストおよび制御信号に基づいて規則合成方式により合成音声を生成する。音声合成部３０は、言語処理部３１と、韻律生成部３２と、波形切り出し部３３と、波形データベース（ＤＢ）３４と、位相操作部３５と、波形重畳部３６とを備える。
【００１９】
言語処理部３１は、対話処理部２０からのテキストを解析して発音およびアクセントの情報に変換する。
【００２０】
韻律生成部３２は、対話処理部２０からの制御信号に応じた抑揚パターンを生成する。
【００２１】
波形ＤＢ３４には、あらかじめ録音された波形データとそれに対し付与されたピッチマークのデータとが記憶されている。その波形とピッチマークの例を図２に示す。
【００２２】
波形切り出し部３３は、波形ＤＢ３４から所望のピッチ波形を切り出す。このとき典型的にはHanning窓関数（中央でのゲインが１で両端に向けて滑らかに０近傍に収束する関数）を用いて切り出す。その様子を図２に示す。
【００２３】
位相操作部３５は、波形切り出し部３３によって切り出されたピッチ波形の位相スペクトルを定型化し、その後、対話処理部２０からの制御信号に応じて高域の位相成分のみをランダムに拡散させることによって位相揺らぎを付与する。次に、位相操作部３５の動作について詳しく述べる。
【００２４】
まず、位相操作部３５は波形切り出し部３３から入力されたピッチ波形をＤＦＴ(Discrete Fourier Transform)し、周波数領域の信号に変換する。入力されるピッチ波形をベクトルｓｉで数１のように表す。
【００２５】
【数１】
【００２６】
数１において添え字iはピッチ波形の番号、ｓｉ（ｎ）はピッチ波形先頭からn番目のサンプル値である。これをDFTにより周波数領域のベクトルＳｉに変換する。周波数領域のベクトルＳｉを数２で表す。
【００２７】
【数２】
【００２８】
ここで、Si(0)からSi(N/2-1)までは正の周波数成分を表し、Si(N/2)からSi(N-1)は負の周波数成分を表す。また、Si(0)は０Hzすなわち直流成分を表す。各周波数成分Si(k)は複素数であるので数３のように表すことができる。
【００２９】
【数３】
【００３０】
ここで、Re(c)は複素数cの実数部を、Im(c)はcの虚数部を表す。位相操作部３５は前半の処理として数３のSi(k)を数４により＾Si(k)に変換する。
【００３１】
【数４】
【００３２】
ここでρ(k)は周波数kにおける位相スペクトルの値で、ピッチ番号iとは独立なkのみの関数である。すなわち、ρ(k)は全てのピッチ波形に対して同じものを用いる。これにより全てのピッチ波形の位相スペクトルは同一のものとなるため、位相揺らぎは除去される。典型的にはρ(k)は定数０でよい。このようにすれば位相成分が完全に除去される。
次に、位相操作部３５は後半の処理として対話処理部２０からの制御信号に応じて適当な境界周波数ωkを決め、ωkよりも高い周波数の成分に位相の揺らぎを与える。たとえば数５のように位相成分をランダマイズすることにより位相を拡散する。
【００３３】
【数５】
【００３４】
ここで、φはランダムな値である。また、kは境界周波数ωkに対応する周波数成分の番号である。
【００３５】
こうして得られた｀Si(h)からなるベクトル｀Siを数６のように定義する。
【００３６】
【数６】
【００３７】
このベクトル｀SiをＩＤＦＴ(Inverse Discrete Fourier Transform)により時間領域信号に変換することにより数７のベクトル｀siを得る。
【００３８】
【数７】
【００３９】
数７のベクトル｀siは位相が定型化された上に高域にのみ位相揺らぎが与えられた位相操作済みピッチ波形である。数４のρ(k)が定数０の場合は数７のベクトル｀siは準対称波形となる。その様子を図３に示す。
【００４０】
位相操作部３５の内部構成を図４に示す。すなわちDFT部３５１が設けられ、その出力は位相定型化部３５２に接続されている。位相定型化部３５２の出力は位相拡散部３５３に接続されており、その出力はIDFT部３５４に接続されている。DFT部３５１は数１から数２への変換、位相定型化部３５２は数３から数４への変換、位相拡散部３５３は数５の変換、IDFT部３５４は数６から数７への変換を行う。
【００４１】
こうしてできた位相操作済みピッチ波形は波形重畳部３６によって所望の間隔で並べられ、重ね合わせて配置される。この時、所望の振幅になるように振幅調整を行うこともある。
【００４２】
以上に説明した波形の切り出しから重ね合わせまでの様子を図５および図６に示す。図５はピッチを変えないケース、図６はピッチを変えるケースを示す。また図７〜図９には、文面「お前たちがねぇ」について、原音、揺らぎが付与されていない合成音声、「お前」の「え」の箇所に揺らぎが付与された合成音声のスペクトル表示を示す。
【００４３】
＜位相揺らぎを付与するタイミングおよび周波数領域の例＞
図１に示したインタフェースでは、位相操作部３５により揺らぎを付与するタイミングおよび周波数領域を対話処理部２０において制御することによりさまざまな感情が合成音声に与えられる。合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を図１０に示す。また、図１１には、「すみません、おっしゃっていることがわかりません。」という合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す。
【００４４】
＜対話の例＞
このように図１に示した対話処理部２０は、合成音声に与える感情の種類を状況に応じて決定し、その感情の種類に応じたタイミングおよび周波数領域で位相揺らぎを付与するように位相操作部３５を制御する。これにより、利用者との間で行われる対話が円滑になる。
【００４５】
図１に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を図１２に示す。番組の選択を利用者に促す場合には、楽しそうな感情（中くらいの喜び）を込めた合成音声「見たい番組をどうぞ」を生成する。これに対して利用者は、希望する番組を機嫌良く発声する（「じゃあ、スポーツがいいな」）。この利用者の発声を音声認識部１０で認識し、その結果を利用者に確認するための合成音声「ニュースですね」を生成する。この合成音声にも楽しそうな感情（中くらいの喜び）を込める。認識結果が誤っているため利用者は、希望する番組を再度発声する（「いや、スポーツだよ」）。ここでは１回目の誤認識であるため利用者の感情は特に変化しない。この利用者の発声を音声認識部１０で認識し、その結果から、前回の認識結果が誤りであったと対話処理部２０が判断する。そして、再度の認識結果を利用者に確認するための合成音声「すみません、経済番組でしょうか」を音声合成部３０に生成させる。ここでは２度目の確認となるため、申し訳なさそうな感情（中くらいの謝罪）を合成音声に込める。またもや認識結果が誤っているけれども、申し訳なさそうな合成音声であるため利用者は不快感を感じることなく普通の感情で三たび希望の番組を発声する（「いやいや、スポーツ」）。この発声に対して音声認識部１０において適切な認識ができなかったと対話処理部２０が判断する。２回続けて認識に失敗したため対話処理部２０は、音声ではなくリモコンのボタン操作で番組を選択するよう利用者を促すための合成音声「すみません、おっしゃっていることが分かりませんのでボタンで選んでいただけませんか」を音声合成部３０に生成させる。ここでは前回よりもさらに申し訳なさそうな感情（強い謝罪）を合成音声に込める。すると利用者は不快感を感じることなくリモコンのボタンで番組を選択する。
【００４６】
状況に応じて適切な感情を合成音声に持たせた場合の利用者との対話の流れは以上のようになる。これに対して、いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れは図１３に示すようになる。このように無表情・無感情な合成音声で対応した場合、誤認識を繰り返すにつれ利用者は不快感を強く感じるようになる。不快感が強まるにつれ利用者の声も変化し、その結果、音声認識部１０での認識精度も低くなる。
【００４７】
＜効果＞
感情を表現するために人間が使う方法は多種多様である。たとえば顔の表情や身振り手振りがそうであり、音声においては抑揚パターンやスピード、間の取り方などありとあらゆる方法がある。しかも、人間はそれら全てを駆使して表現力を発揮しているのであって、ピッチパターンの変化だけで感情を表現しているのではない。したがって、効果的な感情表現を音声合成で行うためには、ピッチパターン以外にも様々な表現方法を利用することが必要である。感情を込めて話された音声を観察するとささやき声が実に効果的に使われている。ささやき声は雑音成分を多く含んでいる。雑音を生成するための方法として大きく次の２つの方法がある。
１．雑音を足しあわせる方法
２．位相をランダムに変調する（揺らぎを与える）方法
１の方法は簡単だが音質が良くない。一方、２の方法は音質が良く最近脚光をあびている。そこで第１の実施形態では２の方法を用いてささやき声（雑音を含んだ合成音声）を効果的に実現し、合成音声の自然さを向上させている。
【００４８】
また、自然の音声波形から切り出されたピッチ波形を用いているため、自然音声が持つスペクトルの微細構造を再現できる。さらに、ピッチ変更時に発生するざらつき感は、位相定型化部３５２によって自然の音声波形が本来持つ揺らぎ成分を除去することによって抑制することができ、その一方で揺らぎの除去によって発生するブザー音的音質に関しては、位相拡散部３５３で改めて高域成分に位相揺らぎを与えることによって低減できる。
【００４９】
＜変形例＞
ここでは位相操作部３５において、１）ＤＦＴ、２）位相定型化、３）高域位相拡散、４）ＩＤＦＴという手順で処理を行った。しかし、位相定型化と高域位相拡散を同時に行う必要はなく、諸条件によりＩＤＦＴを行ってから高域位相拡散に相当する処理を改めて施す方が便利な場合がある。このような場合には位相操作部３５での処理を、１）ＤＦＴ、２）位相定型化、３）ＩＤＦＴ、４）位相揺らぎ付与という手順に置き換える。この場合における位相操作部３５の内部構成を図１４（ａ）に示す。この構成の場合、位相拡散部３５３は省略され、代わりに時間領域の処理を行う位相揺らぎ付与部３５５がＩＤＦＴ部３５４の後に接続されている。位相揺らぎ付与部３５５は図１４（ｂ）のように構成することにより実現できる。また、完全な時間領域での処理として図１５に示す構成で実現しても構わない。この実現例での動作を以下に説明する。
【００５０】
数８は２次のオールパス回路の伝達関数である。
【００５１】
【数８】
【００５２】
この回路を用いるとωcを中心に数９のピークを持った群遅延特性を得ることができる。
【００５３】
【数９】
【００５４】
そこで、ωcを適当に高い周波数範囲に設定し、ピッチ波形毎にrの値を0<r<1の範囲でランダムに変えることによって位相特性に揺らぎを与えることができる。数８および数９においてTはサンプリング周期である。
【００５５】
（第２の実施形態）
第１の実施形態では位相定型化と高域位相拡散を別々のステップで行った。このことを応用すると、一旦位相定型化により整形されたピッチ波形に何らかの別の操作を加えることが可能となる。第２の実施形態では、一旦整形されたピッチ波形をクラスタリングすることによりデータ記憶容量の削減を行うことを特徴とする。
【００５６】
第２の実施形態によるインタフェースは、図１に示した音声合成部３０に代えて図１６に示す音声合成部４０を備える。その他の構成要素は図１に示したものと同様である。図１６に示す音声合成部４０は、言語処理部３１と、韻律生成部３２と、ピッチ波形選択部４１と、代表ピッチ波形データベース（ＤＢ）４２と、位相揺らぎ付与部３５５と、波形重畳部３６とを備える。
【００５７】
代表ピッチ波形ＤＢ４２には、図１７（ａ）に示す装置（音声対話型インタフェースとは別個独立の装置）によって得られた代表ピッチ波形があらかじめ蓄積される。図１７（ａ）に示す装置では、波形ＤＢ３４が設けられ、その出力は波形切り出し部３３に接続されている。この両者の動作は第1の実施形態とまったく同じである。次に、その出力は位相揺らぎ除去部４３に接続されており、この段階でピッチ波形は変形される。位相揺らぎ除去部４３の構成を図１７（ｂ）に示す。こうして整形された全てのピッチ波形はピッチ波形ＤＢ４４に一旦蓄積される。全てのピッチ波形の整形が行われると、ピッチ波形ＤＢ４４に蓄積されたピッチ波形はクラスタリング部４５によって似た波形のクラスタに分けられ、各クラスタの代表波形（例えば、クラスタの重心に最も近い波形）のみが代表ピッチ波形ＤＢ４２に蓄積される。
【００５８】
そして、ピッチ波形選択部４１によって所望のピッチ波形形状に最も近い代表ピッチ波形が選択され、位相揺らぎ付与部３５５に入力され、高域の位相に揺らぎが付与された上で波形重畳部３６において合成音声に変換される。
【００５９】
以上のように位相揺らぎ除去によるピッチ波形整形処理を行うことにより、ピッチ波形同士が似た波形になる確率が上がり、結果としてクラスタリングによる記憶容量の削減効果が大きくなると考えられる。すなわち、ピッチ波形データを蓄積するために必要な記憶容量（ＤＢ４２の記憶容量）を削減することができる。典型的には位相成分を全て0にすることによりピッチ波形は対称化し、波形が似たものになる確率が上がることが直感的に理解できる。
【００６０】
クラスタリングの手法は数多く存在するが、一般にクラスタリングはデータ間の距離尺度を定義して、距離が近いデータ同士を一つのクラスタにまとめる操作であるため、ここではその手法は限定されない。距離尺度としてはピッチ波形同士のユークリッド距離などを利用すればよい。クラスタリング手法の例としては文献「Classification and Regression Trees」（Leo Breiman著、CRC Press、ISBN: 0412048418）に記載されているものがある。
【００６１】
（第３の実施形態）
クラスタリングによる記憶容量の削減効果、すなわちクラスタリング効率を上げるには、位相揺らぎ除去によるピッチ波形整形以外に振幅および時間長の正規化を行うことが効果的である。第３の実施形態では、ピッチ波形を蓄積する際に、振幅および時間長を正規化するステップを設ける。また、ピッチ波形を読み出す際に振幅および時間長を合成音に合わせて適当に変換する構成とする。
【００６２】
第３の実施形態によるインタフェースは、図１に示した音声合成部３０に代えて図１８（ａ）に示す音声合成部５０を備える。その他の構成要素は図１に示したものと同様である。図１８（ａ）に示す音声合成部５０は、図１６に示した音声合成部４０の構成要素に加えて変形部５１をさらに備える。変形部５１はピッチ波形選択部４１と位相揺らぎ付与部３５５との間に設けられる。
【００６３】
代表ピッチ波形ＤＢ４２には、図１８（ｂ）に示す装置（音声対話型インタフェースとは別個独立の装置）によって得られた代表ピッチ波形があらかじめ蓄積される。図１８（ｂ）に示す装置は、図１７（ａ）に示した装置の構成要素に加えて正規化部５２をさらに備える。正規化部５２は位相揺らぎ除去部４３とピッチ波形ＤＢ４４との間に設けられる。正規化部５２は、入力された整形済みピッチ波形を強制的に特定の長さ（例えば２００サンプル）および特定の振幅（例えば３００００）に変換する。したがって、正規化部５２に入力されるあらゆる整形済みピッチ波形は、正規化部５２から出力される時にはすべて同じ長さおよび同じ振幅にそろえられる。このため、代表ピッチ波形ＤＢ４２に蓄積される波形も全て同じ長さおよび同じ振幅である。
【００６４】
ピッチ波形選択部４１によって選択されたピッチ波形も当然同じ長さ同じ振幅であるので、変形部５１において音声合成の目的に応じた長さおよび振幅に変形される。
【００６５】
正規化部５２および変形部５１においては、例えば時間長の変形に対しては図１９に示すように線形補間を用いればよく、振幅の変形には各サンプルの値に定数を乗算すればよい。
【００６６】
第３の実施形態によれば、ピッチ波形のクラスタリング効率が上がり、第２の実施形態に比べて同じ音質であればより記憶容量が削減でき、同じ記憶容量であればより音質が向上する。
【００６７】
（第４の実施形態）
第３の実施形態ではクラスタリング効率を上げるためにピッチ波形に対して整形処理、振幅および時間調の正規化を実施する方法を示した。第４の実施形態ではさらに異なる方法でのクラスタリング効率向上方法を示す。
【００６８】
ここまでの実施形態ではクラスタリングの対象は時間領域でのピッチ波形であった。すなわち、位相揺らぎ除去部４３は、ステップ１）ピッチ波形をＤＦＴにより周波数領域の信号表現に変換、ステップ２）周波数領域上での位相揺らぎを除去、ステップ３）ＩＤＦＴにより再び時間領域の信号表現に戻す、という方法で波形整形を行う。この後、クラスタリング部４５が整形されたピッチ波形をクラスタリングする。
【００６９】
一方、音声合成時処理では位相揺らぎ付与部３５５の図１４（ｂ）での実現形態では、ステップ１）ピッチ波形をＤＦＴにより周波数領域の信号表現に経間、ステップ２）周波数領域上で高域の位相を拡散、ステップ３）ＩＤＦＴにより再び時間領域の信号表現に戻す、という処理を行っている。
【００７０】
ここで明らかなように、位相揺らぎ除去部４３のステップ３と位相揺らぎ付与部３５５のステップ１は互いに逆の変換であり、クラスタリングを周波数領域で実施することにより省略することができる。
【００７１】
このようなアイデアに基づき構成した第４の実施形態を図２０に示す。図１８で位相揺らぎ除去部４３が設けられていた部分はＤＦＴ部３５１、位相定型化部３５２に置き換えられている。その出力は正規化部へと接続されている。図１８での正規化部５２、ピッチ波形ＤＢ４４、クラスタリング部４５、代表ピッチ波形ＤＢ４２、選択部４１、変形部５１はそれぞれ正規化部５２ｂ、ピッチ波形ＤＢ４４ｂ、クラスタリング部４５ｂ、代表ピッチ波形ＤＢ４２ｂ、選択部４１ｂ、変形部５１ｂに置き換えられている。また、やはり図１８で位相揺らぎ付与部３５５が設けられていた部分は位相拡散部３５３とＩＤＦＴ部３５４に置き換えられている。
【００７２】
正規化部５２ｂのように添え字にｂが付けられた構成要素は図１８の構成で行っていたことを周波数領域での処理に置き換えることを意味している。その具体的な処理を以下に説明する。
【００７３】
正規化部５２ｂはピッチ波形を周波数領域で振幅正規化する。すなわち、正規化部５２ｂから出力されるピッチ波形は周波数領域で全て同じ振幅に揃えられる。例えば、ピッチ波形を数２のように周波数領域で表現した場合、数１０で表される値が同じになるように揃える処理を行う。
【００７４】
【数１０】
【００７５】
ピッチ波形ＤＢ４４ｂはＤＦＴされたピッチ波形を周波数領域の表現のままで記憶する。クラスタリング部４５ｂはやはりピッチ波形を周波数領域の表現のままでクラスタリングする。クラスタリングのためにはピッチ波形間の距離D(i,j)を定義する必要があるが、例えば数１１のように定義すればよい。
【００７６】
【数１１】
【００７７】
ここで、w(k)は周波数重み付け関数である。周波数重み付けを行うことにより、周波数による聴覚の感度の差を距離計算に反映させることができ、より音質を高めることが可能になる。例えば、聴覚の感度が非常に低い周波数帯での差異は知覚されないため、この周波数帯でのレベル差は距離の計算に含めなくても良い。さらに、文献「新版聴覚と音声」（社団法人電子通信学会1970年）の第２部聴覚の心理、2.8.2等ノイジネス曲線、図2.55（147ページ）に紹介されている聴感補正曲線などを用いるとさらに良い。同書に掲載されている聴感補正曲線の例を図２１に示す。
【００７８】
また、第３の実施形態と比べＤＦＴ、ＩＤＦＴのステップが一回ずつ削減されるため、計算コストが軽減するというメリットがある。
【００７９】
（第５の実施形態）
音声を合成する場合、音声波形に何らかの変形を加えることが必要である。すなわち、元の音声とは異なる韻律に変換する必要がある。第１〜第３の実施形態では音声波形を直接変形している。その手段として、ピッチ波形切り出しと波形重畳を用いている。しかし、音声を一旦分析し、パラメータに置き換えてから再び合成しなおすという、いわゆるパラメトリックな音声合成法を用いることによって、韻律の変形を行った時に発生する劣化を小さくすることができる。第５の実施形態では、一旦音声波形を分析し、パラメータと音源波形に分離する方法を提供する。
【００８０】
第５の実施形態によるインタフェースは、図１に示した音声合成部３０に代えて図２２に示す音声合成部６０を備える。その他の構成要素は図１に示したものと同様である。図２２に示す音声合成部６０は、言語処理部３１と、韻律生成部３２と、分析部６１と、パラメータメモリ６２と、波形ＤＢ３４と、波形切り出し部３３と、位相操作部３５と、波形重畳部３６と、合成部６３とを備える。
【００８１】
分析部６１は、波形ＤＢ３４からの音声波形を声道と声帯の二つの成分すなわち声道パラメータと音源波形とに分離する。分析部６１によって分けられた二つの成分のうち、声道パラメータはパラメータメモリ６２に記憶され、音源波形は波形切り出し部３３に入力される。波形切り出し部３３の出力は位相操作部３５を介して波形重畳部３６に入力される。位相操作部３５の構成は図４と同様である。波形重畳部３６の出力は、位相定型化および位相拡散された音源波形を目的の韻律に変形したものである。この波形が合成部６３に入力される。合成部６３は、それにパラメータ記憶部６２から出力されたパラメータを適用して音声波形に変換する。
【００８２】
分析部６１および合成部６３はいわゆるＬＰＣ分析合成系等でよいが、声道と声帯の特性を精度良く分離できるものがよく、好ましくは文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に示されたＡＲＸ分析合成系の利用が適している。
【００８３】
このような構成にすることで、韻律の変形量を大きくしても音質の劣化が少なく、さらに自然な揺らぎを持った良好な音声を合成できる。
【００８４】
なお、位相操作部３５に第１の実施形態におけるのと同様の変形を施してもよい。
【００８５】
（第６の実施形態）
第２の実施形態では、整形された波形をクラスタリングすることでデータ記憶容量を削減する方法を示した。第５の実施形態に対しても同様のアイデアが適用できる。
【００８６】
第６の実施形態によるインタフェースは、図１に示した音声合成部３０に代えて図２３に示す音声合成部７０を備える。その他の構成要素は図１に示したものと同様である。また、図２３に示す代表ピッチ波形ＤＢ７１には、図２４に示す装置（音声対話型インタフェースとは別個独立の装置）によって得られた代表ピッチ波形があらかじめ蓄積される。図２３および図２４に示す構成では、図１６および図１７（ａ）に示した構成に対して分析部６１とパラメータメモリ６２と合成部６３が追加されている。このような構成にすることで、第５の実施形態に比べてデータ記憶容量が削減でき、さらに分析と合成を行うことにより第２の実施形態に比べて韻律変形による音質劣化を少なくすることが可能となる。
【００８７】
また、この構成の利点として、音声波形を分析することにより音源波形に変換、すなわち音声から音韻情報を除去しているため、クラスタリングの効率は音声波形の場合よりも数段優れている。すなわち、クラスタリング効率の面からも第２の実施形態に比べて少ないデータ記憶容量あるいは高い音質が期待できる。
【００８８】
（第７の実施形態）
第３の実施形態では、ピッチ波形の時間長および振幅を正規化することによりクラスタリング効率を上げ、これによりデータ記憶容量を削減する方法を示した。第６の実施形態に対しても同様のアイデアが適用できる。
【００８９】
第７の実施形態によるインタフェースは、図１に示した音声合成部３０に代えて図２５に示す音声合成部８０を備える。その他の構成要素は図１に示したものと同様である。また、図２５に示す代表ピッチ波形ＤＢ７１には、図２６に示す装置（音声対話型インタフェースとは別個独立の装置）によって得られた代表ピッチ波形があらかじめ蓄積される。図２５および図２６に示す構成では、図２３および図２４に示した構成に対して正規化部５２と変形部５１が追加されている。このような構成にすることで、第６の実施形態に比べてクラスタリング効率が向上し、同程度の音質でも少ないデータ記憶容量にすることが可能であり、また、同じ記憶容量であればより良い音質の合成音声が生成できる。
【００９０】
また、第６の実施形態と同様、音声から音韻情報を除去することにより、クラスタリング効率がより一層高まり、さらに高音質あるいは小さい記憶容量を実現することができる。
【００９１】
（第８の実施形態）
第４の実施形態ではピッチ波形を周波数領域でクラスタリングすることによりクラスタリング効率を向上する方法を示した。第７の実施形態に対しても同様のアイデアが適用できる。
【００９２】
第８の実施形態によるインタフェースは、図２５に示した位相揺らぎ付与部３５５に代えて図２７に示す位相拡散部３５３およびＩＤＦＴ部３５４を備える。また、代表ピッチ波形ＤＢ７１、選択部４１、変形部５１はそれぞれ代表ピッチ波形ＤＢ７１ｂ、選択部４１ｂ、変形部５１ｂに置き換えられる。また、代表ピッチ波形ＤＢ７１ｂには図２８に示す装置（音声対話型インタフェースとは別個独立の装置）によって得られた代表ピッチ波形があらかじめ蓄積される。図２８の装置は図２６に示した装置の位相揺らぎ除去部４３に代えてＤＦＴ部３５１と位相定型化部３５２を備える。また、正規化部５２、ピッチ波形ＤＢ７２、クラスタリング部４５、代表ピッチ波形ＤＢ７１はそれぞれ正規化部５２ｂ、ピッチ波形ＤＢ７２ｂ、クラスタリング部４５ｂ、代表ピッチ波形ＤＢ７１ｂに置き換えられる。添え字ｂが付けられた構成要素は第４の実施形態で説明したのと同様に周波数領域での処理を行うことを意味している。
【００９３】
このように構成することで第７の実施形態に以下の新たな効果を加えた効果が発揮される。すなわち、周波数領域でのクラスタリングによって第４の実施形態で説明したのと同様、周波数重み付けを行うことにより聴覚の感度の差を距離計算に反映させることが可能となり、より音質を高めることが可能になる。また、第７の実施形態と比べＤＦＴ、ＩＤＦＴのステップが一回ずつ削減されるための計算コストが軽減する。
【００９４】
なお、以上に説明した第１〜第８の実施形態では、位相拡散の方法として数１〜数７に示した方法および数８〜数９に示した方法を用いたが、これ以外の方法、たえば特開平１０−９７２８７号公報に開示された方法、文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に開示された方法などを用いても構わない。
【００９５】
また、波形切り出し部３３ではHanning窓関数を用いると記したが、他の窓関数（例えばHamming窓関数、Blackman窓関数など）を用いてもよい。
【００９６】
また、ピッチ波形を周波数領域と時間領域の相互に変換する方法としてＤＦＴおよびＩＤＦＴを用いたが、ＦＦＴ(Fast Fourier Transform)およびＩＦＦＴ(Inverse Fast Fourier Transform)を用いてもよい。
【００９７】
また、正規化部５２および変形部５１の時間長変形として線形補間を用いたが、他の方法（たとえば２次補間、スプライン補間など）を用いてもよい。
【００９８】
また、位相揺らぎ除去部４３と正規化部５２の接続順序、および変形部５１と位相揺らぎ付与部３５５の接続順序はいずれも逆にしてもよい。
【００９９】
なお、第５から第７の実施の形態において、分析対象となる原音声の性質については特に触れなかったが、原音声の質によっては分析手法毎に様々な音質劣化が発生する。例えば、上記で例示したARX分析合成系においては、分析対象音声がささやき成分を強く持っている場合に分析精度が低下し、ゲロゲロと言った滑らかではない合成音を生む問題がある。ここに、本発明を適用することでゲロゲロ感が軽減し、滑らかな音質になることを発明者は発見した。この理由は明らかではないが、ささやき成分が強い音声の場合、分析誤差が音源波形に集約され、その結果ランダムな位相成分が音源波形に過度に付加されているのではないかと考えられる。すなわち、本発明により音源波形から位相揺らぎ成分を一旦除去することにより、分析誤差を効果的に除去できたのではないかと考えられる。もちろんこの場合でも改めてランダムな位相成分を付与することにより、原音に含まれていたささやき成分を再現することが可能である。
【０１００】
また、数４におけるρ(k)に関して、具体例は定数０を用いた場合を中心に説明したが、定数０に限る必要はない。ρ(k)は全てのピッチ波形に対して同じものであれば何でも良く、例えばkの１次関数や２次関数、その他のどんなkの関数でも良い。
【図面の簡単な説明】
【０１０１】
【図１】第１の実施形態による音声対話型インタフェースの構成を示すブロック図である。
【図２】音声波形データ、ピッチマーク、ピッチ波形を示す図である。
【図３】ピッチ波形が準対称波形に変換される様子を示す図である。
【図４】位相操作部の内部構成を示すブロック図である。
【図５】ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
【図６】ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
【図７】文面「お前たちがねぇ」についてのサウンドスペクトログラムである。（ａ）は原音、（ｂ）は揺らぎが付与されていない合成音声、（ｃ）は「お前たち」の「え」の箇所に揺らぎが付与された合成音声のサウンドスペクトログラムである。
【図８】「お前たち」の「え」の部分のスペクトルを示す図である（原音）。
【図９】「お前たち」の「え」の部分のスペクトルを示す図である。（ａ）は揺らぎが付与された合成音声、（ｂ）は揺らぎが付与されていない合成音声である。
【図１０】合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を示す図である。
【図１１】合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す図である。
【図１２】図１に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を示す図である。
【図１３】いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れを示す図である。
【図１４】（ａ）は、位相操作部の変形例を示すブロック図である。（ｂ）は、位相揺らぎ付与部の実現例を示すブロック図である。
【図１５】位相揺らぎ付与部の別の実現例である回路のブロック図である。
【図１６】第２の実施形態における音声合成部の構成を示す図である。
【図１７】（ａ）は、代表ピッチ波形ＤＢに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。（ｂ）は、（ａ）に示した位相揺らぎ除去部の内部構成を示すブロック図である
【図１８】（ａ）は、第３の実施形態における音声合成部の構成を示すブロック図である。（ｂ）は、代表ピッチ波形ＤＢに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
【図１９】正規化部および変形部における時間長変形の様子を示す図である。
【図２０】（ａ）は、第４の実施形態における音声合成部の構成を示すブロック図である。（ｂ）は、代表ピッチ波形ＤＢに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
【図２１】聴感補正曲線の一例を示す図である。
【図２２】第５の実施形態における音声合成部の構成を示すブロック図である。
【図２３】第６の実施形態における音声合成部の構成を示すブロック図である。
【図２４】代表ピッチ波形ＤＢに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図２５】第７の実施形態における音声合成部の構成を示すブロック図である。
【図２６】代表ピッチ波形ＤＢに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図２７】第８の実施形態における音声合成部の構成を示すブロック図である。
【図２８】代表ピッチ波形ＤＢに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図２９】（ａ）は、通常の音声合成規則で生成したピッチパターンを示す図である。（ｂ）は、皮肉に聞こえるように変化させたピッチパターンを示す図である。

Claims

位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去するステップ（ａ）と、
前記ステップ（ａ）によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与するステップ（ｂ）と、
前記ステップ（ｂ）によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成するステップ（ｃ）とを備える
ことを特徴とする音声合成方法。
請求項１において、
前記ステップ（ｂ）では、
前記ステップ（ｃ）によって生成される合成音声において表現すべき感情に応じたタイミングおよび／または重み付けで前記高域の位相揺らぎ成分を付与する
ことを特徴とする音声合成方法。
請求項１において、
前記ステップ（ａ）では、
前記音声波形をピッチ周期単位で所定の窓関数で切り出し、
前記切り出された音声波形である第１のピッチ波形の第１のＤＦＴ(Discrete Fourier Transform)を求め、
前記第１のＤＦＴの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第２のＤＦＴに変換することで、
位相揺らぎ成分のみを除去する、
ことを特徴とする音声合成方法。
請求項３において、
前記ステップ（ｂ）では、
前記第２のＤＦＴを、所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第３のＤＦＴに変換することで、高域の位相揺らぎ成分のみを付与する、
または、前記第２のＤＦＴをＩＤＦＴにより第２のピッチ波形に変換し、前記第２のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第３のピッチ波形に変換することで、高域の位相揺らぎ成分のみを付与する、
ことを特徴とする音声合成方法。
請求項１において、
前記ステップ（ａ）では、
前記音声波形を声道モデルおよび声帯音源モデルによって分析し、
前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
前記切り出された声帯音源波形である第１のピッチ波形の第１のＤＦＴを求め、
前記第１のＤＦＴの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第２のＤＦＴに変換することで、
位相揺らぎ成分のみを除去する、
ことを特徴とする音声合成方法。
請求項５において、
前記ステップ（ｂ）では、
前記第２のＤＦＴの所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第３のＤＦＴに変換することで、高域の位相揺らぎ成分のみを付与する、
または、前記第２のＤＦＴをＩＤＦＴにより第２のピッチ波形に変換し、前記第２のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第３のピッチ波形に変換することで、高域の位相揺らぎ成分のみを付与する、
ことを特徴とする音声合成方法。
位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する手段（ａ）と、
前記手段（ａ）によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する手段（ｂ）と、
前記手段（ｂ）によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する手段（ｃ）とを備える
ことを特徴とする音声合成装置。
請求項７において、
前記高域の位相揺らぎ成分を付与するタイミングおよび／または重み付けを制御する手段（ｄ）をさらに備える
ことを特徴とする音声合成装置。