WO2014017024A1

WO2014017024A1 - 音声合成装置、音声合成方法、及び音声合成プログラム

Info

Publication number: WO2014017024A1
Application number: PCT/JP2013/004023
Authority: WO
Inventors: 正徳加藤; 玲史近藤; 康行三井
Original assignee: 日本電気株式会社
Priority date: 2012-07-27
Filing date: 2013-06-27
Publication date: 2014-01-30
Also published as: JPWO2014017024A1

Abstract

　収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかである合成音声を生成できる音声合成装置を提供する。音声合成装置は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる音声素片を選択する素片選択部３と、音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部５０を含み、選択された波形生成パラメータを用いて合成音声を生成する波形生成部４とを備え、波形生成パラメータ選択部５０は、音声素片の時間軸上の波形生成パラメータを合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する。

Description

音声合成装置、音声合成方法、及び音声合成プログラム

　本発明は、音声合成技術に関し、特に、入力されたテキストに基づいて音声を合成するための音声合成装置、音声合成方法及び音声合成プログラムに関する。

　入力された文字列を解析し、その文字列が示す音声情報から合成音声を生成する音声合成装置が知られている。このような音声合成装置は、先ず入力された文字列を解析して得られた言語処理結果を基に、合成音声の韻律情報（音の高さ（ピッチ）、音の長さ（音韻継続時間長）、及び、音の大きさ（パワー）等に関する情報）を生成する。

　次に、音声合成装置は、言語処理結果や生成された韻律情報（「目標韻律情報」と呼ぶ）を基に、最適な素片を素片辞書の中から複数選択し、一つの最適素片系列を作成する。なお、素片は、音声素片と呼ばれることもあり、収録された音声に基づいて例えば半音節程度毎に予め生成されている。また、一般的に、１つの音声（ここでは、半音節程度の音声）に対して、種々の収録音声から複数種類の素片が生成される。そして、最適素片系列から波形生成パラメータ系列を形成し、その系列から音声波形を生成することで合成音声が得られる。素片辞書に蓄積されている素片は、多量の自然音声から様々な手法を用いて抽出、生成される。

　このような音声合成装置は、選択された素片から合成音声波形を生成する際に、高い音質を確保する目的で、生成された韻律情報に近い韻律を有する音声波形を素片から作り出す。そこで、合成音声波形と、その合成音声の生成に用いる素片の両者を生成する方法として、例えば非特許文献１に記載された方法が用いられる。

　図１１は、非特許文献１における波形生成パラメータの割り当てを示す説明図である。図１１に示す通り、非特許文献１に記載された方法により生成される波形生成パラメータは、収録音声のピッチから算出されたピッチ同期位置を中心に、ピッチから算出された時間幅を有する窓関数が用いられ、音声波形から切り出された波形（ピッチ波形）である。そして、非特許文献１に記載の方法により合成音声波形を生成する場合、言語処理結果から生成されたピッチ、つまり合成音声のピッチに基づいて、波形生成パラメータ（ピッチ波形）が波形生成パラメータ系列の中から選択される。そして、選択されたピッチ波形の連結により合成音声波形が生成される。ピッチ波形の選択は、基本的には収録音声と合成音声のピッチ同期位置の対応関係に基づいて行われる。

　なお、非特許文献７には、波形パラメータとして、ピッチ波形の他にパワースペクトル、線形予測係数、ケプストラム、メルケプストラム、ＬＳＰ（Ｌｉｎｅ　Ｓｐｅｃｔｒｕｍ　Ｐａｉｒ）などが用いられることが記載されている。

Moulines, Charapentier: "Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones",Speech Communication,1990年, vol. 9, pp.435-467. 阿部匡伸: "音声合成のための合成単位の基礎", 電子情報通信学会技術研究報告,2000年, Vol. 100, No. 392, pp.35-42. 石川泰，「音声合成のための韻律制御の基礎」，社団法人電子情報通信学会，電子情報通信学会技術研究報告, 2000年, Vol.100，No.392，pp.27-34 R.Suzuki and M. Misaki, "Time-scale modification of speech signals using cross-correlation functions", IEEE Trans. Consum. Electron., 1992, vol.38, pp.357-363. 清山ほか: "高品質リアルタイム話速変換システムの開発", 電子情報通信学会論文誌, 2001年6月, Vol.J84-D-II, No.6, pp.918-926. Huang, Acero, Hon: "Spoken Language Processing", 2001, Prentice Hall, pp.689-836. 古井　貞煕、"新音響・音声工学"、近代科学社、2006年9月、p98-p143

　しかし、非特許文献１に記載された波形生成方法では、適切な波形生成パラメータが選択されず合成音声の音質が低下する問題点がある。

　非特許文献１によれば、予め定めた素片の境界位置に基づいて、個々の音声素片毎に目標韻律情報が忠実に再現されるよう波形生成パラメータが選択される。このため、波形生成パラメータの間引き、挿入が多く繰り返されるので、合成音声のスペクトルの時間変化に偏りが生じてしまい、滑らかなスペクトル変化を実現することが困難となる。よって、上記問題点が生じる。

　そこで、本発明は、収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかである合成音声を生成できる音声合成装置、音声合成方法及び音声合成プログラムを提供することを目的とする。

　本発明による音声合成装置は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択部と、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成部とを備え、前記波形生成パラメータ選択部は、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択することを特徴とする。

　本発明による音声合成方法は、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択し、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択し、選択された前記波形生成パラメータを用いて合成音声を生成することを特徴とする。

　本発明による音声合成プログラムは、コンピュータに、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択処理と、前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択処理を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成処理とを実行させることを特徴とする。

　本発明によれば、収録音声上で連続している素片が選択されている区間において、スペクトル変化が滑らかな合成音声を生成できる。

本発明による音声合成装置の第１実施形態の構成を示すブロック図である。波形生成パラメータ選択部の動作を示すフローチャートである。波形生成パラメータの割り当てを示す説明図である。図３に示した割り当てに基づきＦｕ２（ｔ）をプロットした例を示す説明図である。波形生成パラメータ選択関数の第１の例を示す説明図である。波形生成パラメータ選択関数の第２の例を示す説明図である。波形生成パラメータ選択関数の第３の例を示す説明図である。９つの波形生成パラメータから構成される２つの音声素片から、有声音波形を生成する様子を示した説明図である。本発明による音声合成装置の第２の実施形態の構成を示すブロック図である。本発明による音声合成装置の主要部の構成を示すブロック図である。非特許文献１における波形生成パラメータの割り当てを示す説明図である。

　以下、本発明の実施の形態について図面を参照して詳細に説明する。

実施形態１．
　図１は、本発明による音声合成装置の第１の実施形態（実施形態１）の構成を示すブロック図である。図１に示すように本実施形態の音声合成装置は、言語処理部１と、韻律生成部２と、素片選択部３と、波形生成部４と、素片情報記憶部１０とを備える。波形生成部４は、有声音生成部５と、無声音生成部６と、波形連結部７とを含む。また、有声音生成部５は、波形生成パラメータ選択部５０と、有声音波形生成部５１とを含む。

　素片情報記憶部１０は、音声素片を表す音声素片情報と、各音声素片の属性を表す属性情報とを記憶する。音声素片は、音声を合成する音声合成処理の基となる基礎音声（人間が発した音声（自然音声））の一部であり、基礎音声を音声合成単位毎に分割することにより生成される。

　本実施形態では、音声素片情報は、音声素片から抽出され且つ合成音声波形の生成に用いられる波形生成パラメータの時系列データを含む。波形生成パラメータには、以下の説明ではピッチ波形を用いるが、例えば、パワースペクトル、線形予測係数、ケプストラム、メルケプストラム、ＬＳＰなどであってもよい（非特許文献７参照）。また、波形生成パラメータには、特に素片のデータ量削減が必要な場合には、線形予測係数やＬＳＰなどを波形生成パラメータとして利用することが好ましい。また、音声合成単位は、音節である。なお、音声合成単位は、特許文献２に示されているとおり、音素、半音素、ＣＶ（Ｃｏｎｓｏｎａｎｔ（子音）　Ｖｏｗｅｌ（母音））等の半音節、ＣＶＣ、又はＶＣＶ等であってもよい。

　属性情報は、基礎音声に対応する文字列（収録文）を表す情報を含む言語情報と、基礎音声の韻律情報を含む。言語情報は、例えば、漢字かな混じり文で表される情報である。さらに、言語情報は、読み、音節列、音素列、アクセント位置、アクセント句区切り、形態素の品詞等の情報を含んでいてもよい。また、韻律情報は、ピッチ（基本周波数）、振幅、短時間パワーの時系列、及び、自然音声に含まれる各音節、音素、ポーズの継続時間長等を含む。

　言語処理部１は、入力されたテキスト文の文字列を分析する。具体的には、言語処理部１は、形態素解析、構文解析、または読み付け等の分析を行う。そして、言語処理部１は分析結果に基づいて、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、およびアクセント型等を表す情報とを言語解析処理結果として韻律生成部２と素片選択部３とに出力する。

　韻律生成部２は、言語処理部１によって出力された言語解析処理結果に基づいて、合成音声の韻律を生成し、生成した韻律を示す韻律情報を目標韻律情報として素片選択部３および波形生成部４に出力する。韻律の生成には、例えば、特許文献３に記載された方法が用いられる。

　素片選択部３は、言語解析処理結果と目標韻律情報とに基づいて、素片情報記憶部１０に記憶されている素片のうち、所定の要件を満たす素片を選択し、選択した素片とその素片の属性情報とを波形生成部４に出力する。

　素片選択部３の動作の詳細を説明する。素片選択部３は、入力された言語解析処理結果と目標韻律情報とに基づいて、合成音声の特徴を示す情報（以下、これを「目標素片環境」と呼ぶ。）を音声合成単位毎に生成する。

　目標素片環境は、当該目標素片環境の生成対象の合成音声を構成する該当音素、該当音素の前の音素である先行音素、該当音素の後の音素である後続音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、音声合成単位の継続時間長、ケプストラム、ＭＦＣＣ（Ｍｅｌ　Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）、およびこれらの単位時間あたりの変化量等を含む情報である。

　次に、素片選択部３は、生成した目標素片環境に含まれる情報に基づいて、合成音声単位毎に、連続する音素に対応する素片を素片情報記憶部１０からそれぞれ複数取得する。つまり、素片選択部３は、目標素片環境に含まれる情報に基づいて、該当音素、先行音素、および後続音素のそれぞれに対応する素片をそれぞれ複数取得する。取得された素片は、合成音声を生成するために用いられる素片の候補であり、以下、候補素片という。

　そして、素片選択部３は、取得した複数の隣接する候補素片の組み合わせ（例えば、該当音素に対応する候補素片と先行音素に対応する候補素片との組み合わせ）毎に、音声を合成するために用いる素片としての適切度を示す指標であるコストを算出する。コストは、目標素片環境と候補素片の属性情報との差異、および隣接する候補素片の属性情報の差異の算出結果である。

　算出結果の値であるコストは、目標素片環境によって示される合成音声の特徴と候補素片との類似度が高いほど、つまり音声を合成するための適切度が高くなるほど小さくなる。また、隣接する候補素片の属性情報の差異が小さいほど、つまり素片接続時のギャップが小さいほど、コストは小さくなる。そして、コストが小さい素片を用いるほど、合成された音声は、人間が発した音声と類似している程度を示す自然度が高くなる。従って、素片選択部３は、算出したコストが最も小さい素片を選択する。

　素片選択部３で計算されるコストは、具体的には、単位コストと接続コストとがある。単位コストによって、候補素片が目標素片環境によって示される環境で用いられた場合に生じると推定される音質劣化度が示される。単位コストは、候補素片の属性情報と目標素片環境との類似度にもとづいて算出される。また、接続コストによって、接続する音声素片間の素片環境が不連続であることによって生じると推定される音質劣化度が示される。接続コストは、隣接する候補素片同士の素片環境の親和度にもとづいて算出される。単位コストおよび接続コストの算出方法には、各種提案されている一般的な方法が用いられる。

　素片選択部３は、候補素片の中から音声の合成に最も適した素片として、算出したコストが最小となる組み合わせの素片を選択する。なお、素片選択部３によって選択された素片を「最適素片」と呼ぶ。

　波形生成部４は、韻律生成部２から供給された目標韻律情報と、素片選択部３から供給された選択素片及びその属性情報を基に、目標韻律に一致若しくは類似する韻律を有する音声波形を生成し、生成した音声波形を接続して合成音声を生成する。

　ところで、素片選択部３から供給される素片情報が表す素片は、有声音からなる素片と、無声音からなる素片と、に分類される。有声音に対する韻律制御を行うために用いられる方法と、無声音に対する韻律制御を行うために用いられる方法と、は互いに異なる。従って、波形生成部４は、有声音生成部５と無声音生成部６と、有声音と無声音を連結する波形連結部７とを含む。

　無声音生成部６は、素片選択部３から供給された素片を基に、韻律生成部２から供給された韻律情報に一致若しくは類似する韻律を有する無声音波形を生成する。本実施形態では、素片選択部３から供給された無声音の素片は切り出された音声波形であるので、無声音生成部６は、非特許文献４に記載された方法を用いて無声音波形を生成することができる。また、非特許文献５に記載の方法を用いてもよい。

　有声音生成部５は、波形生成パラメータ選択部５０と有声音波形生成部５１を備える。波形生成パラメータ選択部５０は、素片選択部３から供給された素片情報と、韻律生成部２から供給された韻律情報に基づき、有声音波形の生成に用いる波形生成パラメータの選択を行う。

　図２は、波形生成パラメータ選択部５０の動作を示すフローチャートである。波形生成パラメータ選択部５０は、はじめに、最適素片の時間長と目標時間長から、どの波形生成パラメータを合成音声の時間軸上のどこに配置するかを決定する関数を生成する（ステップＳ１）。この関数は、波形生成パラメータの選択に用いる関数であることから、本実施形態では、この関数のことを「波形生成パラメータ選択関数」と呼ぶ。

　例えば最適素片の時間長をＴ_ｕ、目標時間長をＴ_ｏとすると、波形生成パラメータ選択部５０は、以下の式（１）のような直線関数を波形生成パラメータ選択関数として各最適素片に対して生成する。

　次に、波形生成パラメータ選択部５０は、全ての選択素片に対して、後続素片と連続しているか否かをチェックする（ステップＳ２）。ここで、後続素片と連続しているとは、素片情報記憶部１０に記憶された選択元の収録音声上で連続していることを意味する。例えば、素片の単位が音節であり、チェック対象の素片（ここでは「先行素片」と呼ぶことにする）の音節が「う」、チェック対象の後続素片の音節が「ま」のとき、先行素片と後続素片がそれぞれ「うし」と「まり」のような別々の収録音声から選択されたならば、先行素片と後続素片は不連続であると言える。一方、「うまい」や「しまうま」のように同一の収録音声上の連続した区間から選択されたならば、先行素片と後続素片は連続していると言える。

　素片選択部３が選択した素片がもし連続していた場合、その連続性を考慮して滑らかなスペクトル変化を実現することが好ましい。そのため、波形生成パラメータ選択部５０は、先行と後続のそれぞれの素片に対する波形生成パラメータ選択関数を用いて、両者が用いる共通の波形生成パラメータ選択関数を求める。例えば先行と後続の最適素片の時間長をＴ_ｕ１及びＴ_ｕ２、目標時間長をＴ_ｏ１及びＴ_ｏ２、とすると、以下の式（２）に示すような折れ線関数が求められる。

　図３は、波形生成パラメータの割り当てを示す説明図である。図３は、素片が連続しているときに、目標時間長に合わせて波形生成パラメータを割り当てる例を示している状況示している。「Ｎ番目の素片」が先行素片、「Ｎ＋１番目の素片」が後続素片を表す。図４は、図３に示した割り当てに基づきＦｕ２（ｔ）をプロットした例を示す説明図である。

　次に、波形生成パラメータ選択部５０は、先行と後続の最適素片から適切な波形生成パラメータを選択するのに用いられる波形生成パラメータ選択関数を補正し、連続性を考慮した波形生成パラメータ選択関数を求める（ステップＳ３）。この補正された波形生成パラメータ選択関数の求め方には、以下に説明するいくつの方法がある。

　図５は、波形生成パラメータ選択関数の第１の例を示す説明図である。図５に示すように、波形生成パラメータ選択関数の第１の例は、先行及び後続のそれぞれ素片の中点を通過する直線を導入することにより生成される。このとき、波形生成パラメータ選択関数には、以下の式（３）のような折れ線関数が用いられる。

　図６は、波形生成パラメータ選択関数の第２の例を示す説明図である。図６に示す、波形生成パラメータ選択関数の第２の例は、先行素片の始端と後続素片の終端を結ぶ直線関数に基づき求められる。例えば、図６に示すように、素片接続境界線と直線関数の交点（Ｔ_ｏ１，Ｑ）と、先行素片の終端（Ｔ_ｏ１，Ｔ_ｕ１）の中点を通過する折れ線関数が波形生成パラメータ選択関数として用いられる。このとき、（Ｔ_ｏ１，Ｑ）と（Ｔ_ｏ１，Ｔ_ｕ１）の中点を（Ｔ_ｏ１，Ｔ_ｕｍ）とすると、以下の式（４）で表される折れ線関数が波形生成パラメータ選択関数として用いられる。

　式（４）において、Ｔ_ｕｍは以下の式（５）のように表される。

　図７は、波形生成パラメータ選択関数の第３の例を示す説明図である。図７に示す波形生成パラメータ選択関数の第３の例は、折れ線関数Ｆｕ２（ｔ）を平滑化することにより求められる。平滑化方法として、例えば、折れ線関数を時系列と見なし、移動平均や一次リーク積分で平滑化する方法が用いられる。

　波形生成パラメータ選択部５０は、第１の例から第３の例の方法を用いることで、波形生成パラメータ選択関数の傾きの変化を滑らかにする。これにより、本実施形態の音声合成装置は、スペクトル変化が滑らかな合成音声を生成できる。

　以上の補正方法は、補正対象の波形生成パラメータ選択関数が折れ線関数であることを前提に説明したが、曲線などの折れ線関数以外の関数についても同様の方法を用いることが可能である。また、図５に示した第１の例に関して、補正した波形生成パラメータ選択関数が、先行や後続の素片の中点を通過する例を説明したが、波形生成パラメータ選択関数は、中点以外の点を通過する関数でもよい。また、図６に示した第２の例に関して、補正した波形生成パラメータ選択関数が、素片接続境界線と直線関数の交点（Ｔ_ｏ１，Ｑ）と、先行素片の終端（Ｔ_ｏ１，Ｔ_ｕ１）の中点を通過する例を説明したが、波形生成パラメータ選択関数は、こちらも中点以外の点を通過する関数でもよい。

　次に、波形生成パラメータ選択部５０は、韻律生成部２で生成されたピッチ時系列からピッチ同期時刻（ピッチマークとも呼ばれる）を算出する（ステップＳ４）。ピッチ時系列からピッチ同期位置を算出する方法は、例えば、非特許文献６に記載されている。波形生成部４は、例えば、非特許文献６に記載された方法でピッチ同期位置を算出すればよい。

　そして、波形生成パラメータ選択部５０は、波形生成パラメータ選択関数を用いて、ピッチ同期時刻に最も近い波形生成パラメータを選択する（ステップＳ５）。選択方法は、連続性を考慮しない場合と同様に、先ず合成音声のピッチ同期位置から波形生成パラメータ選択関数を利用して、理想的な波形生成パラメータ位置の時刻を算出する。次に、波形生成パラメータ選択部５０は、その時刻に最も近い波形生成パラメータを採用する。例えば、第ｎ番目の波形生成パラメータ位置の時刻が１００ミリ秒、第ｎ＋１番目の波形生成パラメータ位置の時刻が１８０ミリ秒であり、波形生成パラメータ選択関数で求まった時刻が１６０ミリ秒であった場合、第ｎ＋１番目の波形生成パラメータが選択される。

　図８は、９つの波形生成パラメータから構成される２つの音声素片から、有声音波形を生成する様子を示した説明図である。図８に示す例では、波形生成パラメータ選択関数としては、図５に示した関数を用いている。また、図８に示す例では、ピッチ同期時刻に該当する波形生成パラメータは、第１，３，４，５，６，７，８，８，９の波形生成パラメータとなっているので、波形生成部４は、これらの波形生成パラメータを使って波形を生成する。

　有声音波形生成部５１は、波形生成パラメータ選択部５０から供給された波形生成パラメータと、韻律生成部２から供給された韻律情報に基づき、有声音波形の生成を行う。有声音波形生成部５１は、選択された各波形生成パラメータの中心をピッチ同期時刻に配置することで有声音波形を生成する。波形生成パラメータがピッチ波形である場合、有声音波形生成部５１は、ピッチ波形をピッチ同期時刻に配置することで有声音波形を生成する。

　波形連結部７は、有声音生成部５から供給された有声音波形と無声音生成部６から供給された無声音波形を連結し、合成音声波形として出力する。具体的には、例えば、波形連結部７は、有声音生成部５が生成した有声音の波形がｖ（ｔ）であり（ただし、ｔ＝１，２，３，・・・，ｔ＿ｖ）、無声音生成部６が生成した無声音の波形がｕ（ｔ）である（ただし、ｔ＝１，２，３，・・・，ｔ＿ｕ）場合に、有声音の波形ｖ（ｔ）と無声音の波形ｕ（ｔ）とを連結して、以下に示す合成音声の波形ｘ（ｔ）を生成して出力する。

ｔ＝１～ｔ＿ｖのとき：ｘ（ｔ）＝ｖ（ｔ）
ｔ＝ｔ＿ｖ＋１～ｔ＿ｖ＋ｔ＿ｕのとき：ｘ（ｔ）＝ｕ（ｔ－ｔ＿ｖ）

　以上のように、本実施形態の音声合成装置は、連続性を考慮して波形生成パラメータ選択関数を補正する。このため、本実施形態の音声合成装置によれば、収録音声上で連続している素片が選択されている区間において、非特許文献１等に開示された一般的な方法と比べてスペクトル変化が滑らかである合成音声を生成できる。

実施形態２．
　次に、本発明の第２の実施形態の音声合成装置について説明する。第２の実施形態に係る音声合成装置は、音声素片の属性情報に応じてスペクトル変化度を推定し、推定したスペクトル変化度に基づいて波形生成パラメータ選択関数を制御する点において第１の実施形態に係る音声合成装置と相違している。従って、以下、かかる相違点を中心に説明する。

　図９は、本発明による音声合成装置の第２の実施形態の構成を示すブロック図である。図９に示す本実施形態の音声合成装置の構成は、図１に示す第１の実施形態の音声合成装置の構成と対比すると、波形生成パラメータ選択部５０が波形生成パラメータ選択部６０に置換され、スペクトル形状変化度推定部６２を新たに備えている。

　スペクトル形状変化度推定部６２は、素片情報記憶部１０から供給された素片の属性情報に基づいて、素片接続境界におけるスペクトル形状の変化度を推定する。スペクトル形状変化度推定部６２は、スペクトル形状の変化度の推定に、属性情報に含まれる言語情報や韻律情報を利用する。言語情報の中で音素や音節の種別を利用する場合は、該当する種別ごとに音声スペクトルの形状変化速度を推定する方法が有効である。例えば、先行と後続の素片を合わせた素片が長母音の音節であれば、素片接続境界におけるスペクトル形状の変化は小さいので、スペクトル形状変化度の推定量は小さくする。先行と後続の素片が同一の音素である場合も同様である。また、先行又は後続の素片が有声子音であれば、素片接続境界におけるスペクトル形状の変化は大きいので、スペクトル形状変化度の推定量は大きくする。

　波形生成パラメータ選択部６０は、素片選択部３から供給された素片情報と、韻律生成部２から供給された韻律情報と、スペクトル形状変化度推定部６２から供給されたスペクトル形状変化度に基づき、有声音波形の生成に用いる波形生成パラメータの選択を行う。波形生成パラメータ選択部６０は、スペクトル形状変化度の推定量に基づき波形生成パラメータ選択関数を生成する。

　波形生成パラメータ選択部６０は、例えば、図５に示した選択関数を利用する場合、補正区間の長さを調整する。波形生成パラメータ選択部６０は、もしスペクトル形状変化度が小さい場合に補正区間を長くすることで、より滑らかなスペクトル形状とする。スペクトル形状変化度が大きい場合、補正区間を長くすると補正量が多くなり音声素片と合成素片との韻律の差が大きくなるため好ましくない。よって、波形生成パラメータ選択部６０は、スペクトル形状変化度の大きさに応じて補正区間の長さを調節する。また、波形生成パラメータ選択部６０は、図６に示した選択関数を利用する場合、同様に素片境界上における先行素片の終端と補正後の選択関数の距離を調整する。波形生成パラメータ選択部６０は、もしスペクトル形状変化度が小さければ、素片境界上において先行素片の終端と補正後の選択関数の距離を長くする。

　本実施形態の音声合成装置によれば、音声素片の属性情報に応じて波形生成パラメータ選択関数を制御する。この結果、本実施形態の音声合成装置は、特にスペクトル形状変化度が小さい区間において、スペクトル変化が滑らかである合成音声を生成することができる。

　本発明は、各実施形態で説明した音声合成装置に限定されるものではなく、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。

　図１０は、本発明による音声合成装置の主要部の構成を示すブロック図である。図１０に示すように、本発明による音声合成装置は、主要な構成として、入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる音声素片を選択する素片選択部３と、音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部５０を含み、選択された波形生成パラメータを用いて合成音声を生成する波形生成部４とを備える。また、波形生成パラメータ選択部５０は、音声素片の時間軸上の波形生成パラメータを合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する。

　また、上記の実施形態には、以下の（１）～（４）に示すような音声合成装置も開示されている。

（１）波形生成パラメータ選択部が、選択された複数の音声素片のうちの一つである先行素片の始端と終端とを結ぶ第一の関数と、先行素片に続く音声素片である後続素片の始端と終端とを結ぶ第二の関数とを接続した波形生成パラメータ選択関数を生成し、先行素片と後続素片とが連続していた場合、波形生成パラメータ選択関数の傾きの変化を滑らかにする補正をする音声合成装置。

（２）波形生成パラメータ選択部は、波形生成パラメータ選択関数が、先行素片の始端と後続素片の終端とを結ぶ直線上であって合成音声の時間軸上の先行素片の終端の時刻における点と、先行素片の終端とを結ぶ直線の内分点を通過するように補正することにより傾きの変化を滑らかにするように構成されていてもよい。

（３）音声合成装置は、波形生成パラメータ選択部が、第一の関数の内分点と第二の関数の内分点とを結ぶ線を用いて補正することにより傾きの変化を滑らかにした波形生成パラメータ選択関数を生成するように構成されていてもよい。

（４）音声合成装置は、音声素片の属性情報に基づいて、音声素片の接続境界におけるスペクトル変化度を推定するスペクトル形状変化度推定部（例えば、スペクトル形状変化度推定部６２）を備え、波形生成パラメータ選択部は、推定されたスペクトル変化度に基づいて波形生成パラメータ選択関数を生成するように構成されていてもよい。

　この出願は、２０１２年７月２７日に出願された日本出願特願２０１２－１６７２２０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、合成音声を用いた情報提供サービス等に適用できる。

　１　言語処理部
　２　韻律生成部
　３　素片選択部
　４　波形生成部
　５　有声音生成部
　６　無声音生成部
　７　波形連結部
　１０　素片情報記憶部
　５０，６０　波形生成パラメータ選択部
　５１　有声音波形生成部
　６２　スペクトル形状変化度推定部

Claims

　入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択部と、
　前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択部を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成部とを備え、
　前記波形生成パラメータ選択部は、
　前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて波形生成パラメータを選択する
　ことを特徴とする音声合成装置。
　波形生成パラメータ選択部は、
　選択された複数の音声素片のうちの一つである先行素片の始端と終端とを結ぶ第一の関数と、前記先行素片に続く音声素片である後続素片の始端と終端とを結ぶ第二の関数とを接続した波形生成パラメータ選択関数を生成し、
　前記先行素片と前記後続素片とが連続していた場合、前記波形生成パラメータ選択関数の傾きの変化を滑らかにする補正をする
　請求項１記載の音声合成装置。
　波形生成パラメータ選択部は、
　波形生成パラメータ選択関数が、先行素片の始端と後続素片の終端とを結ぶ直線上であって合成音声の時間軸上の前記先行素片の終端の時刻における点と、前記先行素片の終端とを結ぶ直線の内分点を通過するように補正することにより傾きの変化を滑らかにする
　請求項２記載の音声合成装置。
　前記波形生成パラメータ選択部は、
　第一の関数の内分点と第二の関数の内分点とを結ぶ線を用いて補正することにより傾きの変化を滑らかにした波形生成パラメータ選択関数を生成する
　ことを特徴とする請求項２記載の音声合成装置。
　音声素片の属性情報に基づいて、前記音声素片の接続境界におけるスペクトル変化度を推定するスペクトル形状変化度推定部を備え、
　波形生成パラメータ選択部は、
　推定された前記スペクトル変化度に基づいて波形生成パラメータ選択関数を生成する
　請求項１から請求項４のいずれか１項に記載の音声合成装置。
　入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択し、
　前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択し、
　選択された前記波形生成パラメータを用いて合成音声を生成する
　ことを特徴とする音声合成方法。
　コンピュータに、
　入力文字列に基づいて、予め記憶された複数の音声素片から合成に用いる前記音声素片を選択する素片選択処理と、
　前記音声素片の時間軸上の波形生成パラメータを前記合成音声の時間軸上のどこに配置するかを示す関数である波形生成パラメータ選択関数を、選択された前記音声素片の連続性を考慮して生成し、当該波形生成パラメータ選択関数に基づいて、前記音声素片から抽出された波形生成パラメータを選択する波形生成パラメータ選択処理を含み、選択された前記波形生成パラメータを用いて合成音声を生成する波形生成処理とを
　実行させるための音声合成プログラム。