JP2008033133A

JP2008033133A - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP2008033133A
Application number: JP2006208421A
Authority: JP
Inventors: Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-07-31
Filing date: 2006-07-31
Publication date: 2008-02-14
Also published as: EP1884922A1; CN101131818A; US20080027727A1

Abstract

【課題】各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる音声合成装置、音声合成方法および音声合成プログラムを提供する。
【解決手段】音声素片融合歪み推定部４５は、各合成単位に対する音声素片の組み合わせ候補を融合した際に生じる歪みの度合いとして合成単位コストを算出する。素片選択部４４は、合成単位ごとに音声素片の組み合わせ候補を複数列挙し、この組み合わせ候補の中から、音声素片融合歪み推定部４５が算出した合成単位コストの合計が音声素片系列で最小となる候補を選択し、素片融合部４６へ出力する。
【選択図】図２

Description

本発明は、テキスト音声合成装置、音声合成方法および音声合成プログラムに関する。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に入力されたテキストの形態素解析や構文解析を行う言語処理部、アクセントやイントネーションの処理を行い、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）を出力する韻律処理部および音韻系列・韻律情報から音声信号を合成する音声合成部の３つによって行われる。この中の音声合成部で行われる音声合成方法は、韻律処理部で生成される任意の音韻系列を任意の韻律で音声合成することが可能な方法でなければならない。

このような音声合成方法として、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から複数の音声素片を選択して合成する素片選択型の音声合成方法が知られている（例えば、特許文献１参照。）。特許文献１に記載される音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを表すコストをコスト関数として定義して、このコストが小さくなるように音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪みおよび接続歪みをコストを用いて数値化し、このコストに基づいて音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて合成音声を生成する。

特許文献１に記載される音声合成方法のように音声を合成することで生じる音声合成の劣化の度合いを考慮して、大量の音声素片の中から適切な音声素片系列を選択することによって、素片の編集および接続による音質の劣化を抑えた合成音声を生成することができる。

しかしながら、特許文献１に記載される素片選択型の音声合成方法には、部分的に合成音の音質が劣化する問題がある。この理由として、あらかじめ記憶された音声素片が非常に多い場合であっても、様々な音韻・韻律環境に対して適切な音声素片が存在するとは限らないことや、人が実際に感じる合成音声の劣化の度合いをコスト関数が完全に表現できないため、必ずしも最適な素片系列が選ばれない場合があること、さらに音声素片が非常に多いためにあらかじめ不良な音声素片を排除しておくことが困難であり、また不良な音声素片を取り除くためのコスト関数の設計も難しいため、選択された音声素片系列中に、突発的に不良な音声素片が混入する場合があることなどがあげられる。

そこで、合成単位あたり１つずつの音声素片を選ぶのではなく、合成単位あたり複数個の音声素片を選択し、これを融合することによって新たな音声素片を生成し、こうして生成された音声素片を使って音声を合成する方法が開示されている（特許文献２参照。）。以下、この方法を複数素片選択融合型の音声合成方法と呼ぶ。

特許文献２に記載される複数素片選択融合型の音声合成方法では、合成単位ごとに複数の音声素片を融合することによって、目標とする音韻・韻律環境に合う適切な音声素片が存在しない場合や、最適な音声素片が選択されない場合、不良素片が選択されてしまった場合でも、高品質な音声素片を新たに生成することができ、さらにこの新たに生成した音声素片を使用して音声合成を行うことで、前述した素片選択型の音声合成方法の問題点を改善することができ、より安定性を増した高音質の音声合成を実現することができる。

ここで、特許文献２では、合成単位あたり複数個の音声素片を選択する方法として、（１）音声素片系列トータルでのコストが最小となるよう音声素片を合成単位ごとに１つずつ求め（以下、求めた音声素片の系列を最適素片系列と称する。）、（２）最適素片系列中の１つの音声素片を別の音声素片に置き換えてコストを算出し、このコストが小さいものから複数の音声素片を選択する、という方法が開示されている。
特開２００１−２８２２７８公報特開２００５−１６４７４９公報

しかしながら、特許文献２では、開示されている方法によって選択される複数の音声素片を融合することによる効果が明には考慮されていない。また、この方法では、目標音声の音韻・韻律環境に近い音韻・韻律環境を持つ音声素片を持つ複数個の音声素片がそれぞれ独立に選択されるため、選択された音声素片の音韻・韻律環境が偏る場合がある。その結果、融合して生成された新たな音声素片は、目標音声からずれたものになり、融合による効果が十分に得られない場合がある。

また、融合する音声素片の個数の最適値は、合成単位によって異なると考えられ、この個数を合成単位ごとに適切に制御することにより、音質が向上すると考えられるが、特許文献２には、その方法が開示されていない。

本発明は、上記従来技術の問題点を解決するためになされたものであって、各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる音声合成装置、音声合成方法および音声合成プログラムの提供を目的とする。

上記目的を達成するために、本発明の音声合成装置は、音声素片群を記憶する記憶手段と、少なくとも１つの音声素片を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定手段と、前記目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記目標音声に対応する音韻・韻律情報、および前記第１の推定手段によって推定される前記セグメントごとの前記歪みの度合いを基に、少なくとも１つの音声素片を含む音声素片の組を前記音声素片群から選択する第１の選択手段と、前記複数のセグメントのそれぞれに対して、前記第１の選択手段によって選択された前記音声素片の組に含まれる音声素片を融合することによって、前記第１の音声素片を生成する第１の生成手段と、前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成手段とを備えることを特徴とする。

また、本発明の音声合成方法は、目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも１つの音声素片を含む音声素片の組を音声素片群から複数通り選択する第１の選択ステップと、前記音声素片の組に含まれる音声素片を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定ステップと、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し前記複数通りの音声素片の組の中から１つを選択する第２の選択ステップと、前記第２のステップで選択した音声素片の組に含まれる音声素片を融合することによって、前記第１の音声素片を生成する第１の生成ステップと、前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成ステップとを有することを特徴とする。

また、本発明の音声合成プログラムは、コンピュータに、目標音声に対する音韻系列および音韻・韻律情報から音声波形を生成する機能を実現させるための音声合成プログラムであって、音声素片群を記憶する記憶機能と、前記音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも１つの音声素片を含む音声素片の組を前記音声素片群から複数通り選択する第１の選択機能と、前記音声素片の組に含まれる音声素片を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定機能と、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し、前記複数通りの音声素片の組の中から１つを選択する第２の選択機能と、前記音声素片の組に含まれる音声素片を融合することによって前記第１の音声素片を生成する第１の生成機能と、前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成機能とを有することを特徴とする。

本発明の音声合成装置、音声合成方法および音声合成プログラムによれば、各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる。

以下、本発明の実施例を、図面を参照して説明する。

まず、図１を用いて、本発明の第１の実施例に係るテキスト音声合成装置の構成について説明する。

本実施例に係るテキスト音声合成装置は、テキスト入力部１と、テキスト入力部１から入力されるテキストの形態素解析・構文解析を行い、これらの言語解析結果を韻律処理部３へ出力する言語処理部２と、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列・及び韻律情報を生成し、音声合成部へ出力する韻律制御部３と、音韻系列及び韻律情報から音声波形を生成して出力する音声合成部４を備えている。

本発明は、上述した音声合成部４に関する。そこで、以下、音声合成部４を中心にその構成および動作について詳細に説明する。

図２は、本実施例に係る音声合成部４の構成を示すブロック図である。
図２に示す音声合成部４は、韻律制御部３から音韻系列・韻律情報が入力される音韻系列・韻律情報入力部４１と、大量の音声素片が蓄積された音声素片記憶部４２と、音声素片記憶部に蓄積された音声素片に対応する音韻・韻律環境が蓄積された音声素片環境記憶部４３と、音声素片記憶部４２に蓄積された音声素片の中から複数の音声素片を選択する素片選択部４４と、素片選択部４４が選択した複数の音声素片を融合したときに発生する歪みを推定する融合素片歪み推定部４５と、素片選択部４４が選択した複数の音声素片を融合し新たな音声素片を生成する素片融合部４６と、素片融合部４６が融合して生成した音声素片を変形及び接続し、合成音声の音声波形を生成する素片編集・接続部４７と、素片編集・接続部４７で生成した音声波形を出力する音声波形出力部４８を備えている。

次に、図２乃至図５を用いて、各部の詳細を説明する。
まず、音韻系列・韻律情報入力部４１は、韻律制御部３から入力された音韻系列・韻律情報を素片選択部４４へ出力する。ここで、音韻系列は、例えば音韻記号の系列であり、また韻律情報は、例えば基本周波数、音韻継続時間長、パワーなどである。以下、音韻系列・韻律情報入力部４１に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。

次に、音声素片記憶部４２は、合成音声を生成する際に用いる音声の単位（以下、合成単位と称する。）の音声素片が大量に蓄積されている。ここで、合成単位とは、音素あるいは音素を分割したもの（例えば、半音素など）の組み合わせ、例えば半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。

図３に、音声素片記憶部４２に蓄積される音声素片の例を示す。図３に示すように、音声素片記憶部４２には、各音素の音声信号の波形である音声素片が、当該音声素片を識別するための素片番号とともに記憶されている。これらの音声素片は、別途収録された多数の音声データに対して音素ごとにラベル付けし、ラベルにしたがって音素ごとに音声波形を切り出したものである。

続いて、音声素片環境記憶部４３には、音声素片記憶部４２に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。ここで、音韻・韻律環境とは、対応する音声素片にとって環境となる要因の組み合わせである。要因としては、例えば当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。また、音声素片環境記憶部４３には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いるものも蓄積されている。音声素片環境記憶部４３に蓄積される音声素片の音韻・韻律環境および音響特徴量を総称して、以下素片環境と呼ぶ。

図４に、音声素片環境記憶部４３に蓄積される素片環境の例を示す。図４に示す音声素片環境記憶部４３には、音声素片記憶部４２に蓄積される各音声素片の素片番号に対応して素片環境が記憶されている。ここでは、音韻・韻律環境として、音声素片に対応した音韻（音素名）、隣接音韻（ここでは当該音韻の前後それぞれ２音素ずつ）、基本周波数、音韻継続時間長が、音響特徴量として音声素片始終端のケプストラム係数が記憶されている。

なお、これらの素片環境は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。また、図４では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。

図５は、融合素片歪み推定部４５の構成を示すブロック図である。融合素片歪み推定部４５は、素片選択部４４から入力される１つ以上の素片を融合した場合に新たに生成される素片の素片環境を推定する融合素片環境推定部４５１と、融合素片環境推定部４５１によって推定された素片環境と素片選択部４４から入力される目標の音韻・韻律情報を基に、複数の素片を融合した際に生じる歪み度合いを推定する歪み推定部４５２を備えている。

融合素片環境推定部４５１には、素片選択部４４から、歪み度合いを推定したいセグメントに対して選択した音声素片の素片番号、および当該候補に隣接するセグメントに対して選択した音声素片の素片番号が入力される。融合素片環境推定部４５１は、入力された素片番号を基に、音声素片環境記憶部４３を参照し、音声素片の組み合わせ候補を融合した音声素片の素片環境、および隣接する音声素片の組み合わせ候補を融合した音声素片の素片環境を推定し、歪み推定部４５２へ出力する。

歪み推定部４５２は、融合素片環境推定部４５１から入力された推定素片環境と、素片選択部から入力された目標の音韻・韻律情報を基に、音声素片の組み合わせ候補を融合した際に生じる歪み度合いを推定し、結果を素片選択部４４へ出力する。この歪み度合いの推定方法は後述する。

次に、図２乃至図１４を用いて、本実施例に係る音声合成部４の動作を説明する。

図２に示す音韻系列・韻律情報入力部４１を介して素片選択部４４に入力された音韻系列は、合成単位ごとに区切られる。以下、この区切られた合成単位をセグメントと称する。素片選択部４４は、音声素片記憶部４２を参照し、各セグメントに対して、融合する音声素片の組み合わせ候補を複数選択する。素片選択部４４は、ｉ番目のセグメントに対して選択した音声素片の組み合わせ候補（以下、ｉ番目の音声素片組み合わせ候補と称する。）、および目標の音韻・韻律情報を融合素片推定部４５へ入力する。ここでは、目標の音韻・韻律情報として入力音韻系列・入力韻律情報を入力する。

ｉ−１，ｉ番目の音声素片組み合わせ候補は、融合素片歪み推定部４５の融合素片環境推定部４５１（図５参照）へ入力される。融合素片環境推定部４５１は、音声素片環境記憶部４３を参照し、入力されたｉ−１，ｉ番目の音声素片組み合わせ候補それぞれを融合した場合に新たに生成されるｉ−１，ｉ番目の音声素片の素片環境（以下、ｉ−１，ｉ番目の推定素片環境と称する。）を推定し、結果を歪み推定部に出力する。

歪み推定部４５２には、融合素片環境推定部４５１からｉ−１，ｉ番目の推定素片環境が入力され、素片選択部４４から目標の音韻・韻律環境情報が入力される。歪み推定部４５２は、これらの入力を基に、素片選択部４４より入力された音声素片を用いて音声を合成した場合の合成音声と目標音声との歪み（以下、融合音声素片の推定歪みと称する。）を推定する。この融合音声素片の推定歪みは、素片選択部４４へ入力される。素片選択部４４は、各セグメントの音声素片組み合わせ候補に対する融合音声素片の推定歪みを基に、全セグメントに対してこの歪みが最小になるように音声素片組み合わせ候補を再度選択し、素片融合部４６へ出力する。

素片融合部４６は、素片選択部４４から入力された音声素片組み合わせ候補を融合して新たな音声素片を生成し、素片編集・接続部４７へ出力する。素片編集・接続部４７には、素片融合部４６から新たな音声素片が入力されるとともに、音韻系列・韻律情報入力部から、入力韻律情報が入力される。素片編集・接続部４７は、この入力韻律情報に基づき、新たな音声素片を変形、接続し合成音声の音声波形を生成する。こうして生成された音声波形は音声波形出力部４８から出力される。

続いて、図５を用いて融合素片歪み推定部４５の動作を詳細に説明する。
融合素片歪み推定部４５の歪み推定部４５２では、融合素片環境推定部４５１から入力されるｉ−１，ｉ番目の推定素片環境および素片選択部４４から入力される目標の音韻・韻律情報を基に、ｉ番目の素片組み合わせ候補の融合音声素片の推定歪みを算出する。このとき、この歪みの度合いを表す尺度として、一般の素片選択型音声合成方法や従来の複数素片選択融合型音声合成方法と同様に、コストを用いる。このコストは、コスト関数を定義して、これを用いることにより求める。

そこで、まずコストおよびコスト関数の詳細について説明する。

このコストは、目標コストと接続コストの大きく２種類のコストに分けられる。目標コストは、コストの算出対象である音声素片（以下、対象素片と称する。）を目標の音韻・韻律環境で使用することによって生じる合成音声の目標音声に対する歪みの度合いを表すコストである。接続コストは、対象素片を隣接する音声素片と接続したときに生じる合成音声の目標音声に対する歪みの度合いを表すコストである。

目標コストおよび接続コストには、生じる歪みの要因ごとにサブコストが存在し、それぞれのサブコストに対してサブコスト関数Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（ｎ＝１，・・・，Ｎ、Ｎはサブコストの個数）を定義する。

ここで、ｔ_ｉは、目標の音韻・韻律環境をｔ＝（ｔ_１，・・・，ｔ_Ｉ）（Ｉ：セグメントの個数）としたときのｉ番目のセグメントに対応する音韻・韻律環境を表し、ｕ_ｉは、ｉ番目のセグメントに対応する音素の音声素片を現す。

目標コストのサブコストには、音声素片がもつ基本周波数と目標の基本周波数の違い（差）によって生じる歪みを表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長の違い（差）によって生じる歪みを表す音韻継続時間長コスト、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪みを表す音韻環境コストなどがある。

各コストの具体的な算出方法を以下に示す。まず、基本周波数コストは、以下の式によって算出する。

ここで、ｖ_ｉは、音声素片ｕ_ｉの素片環境を表し、ｆは、素片環境ｖ_ｉから平均基本周波数を取り出す関数を表す。

次に、音韻継続時間長コストは、以下の式によって算出する。

ここでｇは、素片環境ｖ_ｉから音声継続時間長を取り出す関数を表す。音韻環境コストは、以下の式によって算出する。

ここで、ｊは対象音素に対する音素の相対位置を表し、ｐは、素片環境ｖ_ｉから相対位置ｊの隣接音素を取り出す関数、ｄは、２つの音素間の距離（音素間の特徴の違い）を算出する関数、ｒ_ｊは、相対位置ｊに対する音素間距離の重みを表す。ｄは、「０」から「１」の値を返し、同一の音素間では「０」、全く特徴の異なる音素間では「１」を返す。

一方、接続コストのサブコストには、音声素片境界でのスペクトルの違い（差）を表すスペクトル接続コストなどがある。

スペクトル接続コストは、以下の式によって算出する。

ここで、ｈ_ｐｒｅは音声素片ｕ_ｉの前側の接続境界でのケプストラム係数を、ｈ_ｐｏｓｔは音声素片ｕ_ｉ後側の接続境界でのケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を合成単位コスト関数として、以下のように定義する。

ここでは、ｗ_ｎは、サブコスト間の重みを表す。上記式（５）は、ある音声素片をある合成単位に用いた場合のコストである合成コストを算出する式である。

歪み推定部４５２では、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントに対し、上記式（５）によって合成単位コストを算出する。素片選択部４４は、歪み推定部４５２が算出した合成単位コストを全セグメントについて足し合わせたトータルコストを以下の式によって算出する。

ここでは簡単のため、ｐ＝１とする。すなわち、トータルコストは、各合成単位コストの単純な和を表す。トータルコストは、入力音韻系列に対して選択された音声素片系列を用いて生成される合成音声の、目標音声に対する歪みを表し、トータルコストが小さくなるように音声素片系列を選択することによって、音声素片に対する歪みの少ない王音質の合成音声が生成できる。

ただし、上記式（６）中のｐは１以外でもよく、例えばｐを１より大きくすると、局所的に合成単位コストが大きい音声素片系列がより強調されることになり、局所的に合成単位コストが大きくなるような音声素片が選ばれにくくなる。

次に、上述したコスト関数を用いて融合素片歪み推定部４５の動作を説明する。

まず、融合素片歪み推定部４５の融合素片環境推定部４５１には、素片選択部４４からｉ−１，ｉ番目のセグメントに対する音声素片組み合わせ候補の素片番号が入力される。なお、素片選択部４４から入力される音声素片組み合わせ候補の素片番号は、それぞれ１つずつであっても複数であってもよい。また、コストとして接続コストは考慮せず、目標コストのみを考慮する場合は、ｉ−１番目のセグメントに対する音声素片組み合わせ候補の素片番号を入力する必要はない。

融合素片環境推定部４５１は、音声素片環境記憶部４３を参照し、入力されたｉ−１，ｉ番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片の持つ素片環境を推定し、推定結果を歪み推定部４５２へ出力する。このとき、入力された素片番号が持つ素片環境を音声素片環境記憶部４３から取り出し、そのままｉ−１，ｉ番目の推定素片として歪み推定部４５２へ出力する。

本実施例では、融合素片環境推定部４５１は、音声素片環境記憶部４３から取り出されたそれぞれの音声素片が持つ素片環境を融合する場合、素片環境の平均的なものをｉ−１，ｉ番目の推定素片環境として出力するものとする。

具体的には、素片環境の要因ごとに、音声素片組み合わせ候補の音声素片それぞれが持つ値の平均的な値を計算する。例えば、基本周波数について、それぞれの音声素片が２００Ｈｚ，２５０Ｈｚ，１８０Ｈｚという値を持っていた場合、融合音声素片の基本周波数として、３つの値の平均値である２１０Ｈｚを算出する。また、音韻継続時間長およびケプストラム係数といった連続量を持つ要因についても同様に平均値を算出する。

隣接音韻のような離散シンボルについては、単純に平均を取ることはできないが、与えられた音声素片の隣接音韻のうち最も多く出現した音韻や最も影響の強い音韻を選ぶことによって代表的な値を得ることは可能であるが、ここでは、隣接音韻については、代表値を１つ得るのではなく、それぞれの音声素片に対する隣接音韻の組み合わせをそのまま融合音声素片の隣接音韻とする。

次に、歪み推定部４５２には、融合素片環境推定部４５１からｉ−１，ｉ番目の推定素片環境が入力され、素片選択部４４から目標の音韻・韻律情報が入力される。歪み推定部４５２は、これらの入力を用いて上記式（５）を計算することで、ｉ番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片合成単位とした場合の合成単位コストを算出する。

この場合、上記式（１）〜（５）におけるｕ_ｉは、ｉ番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片であり、ｖ_ｉは、ｉ番目の推定素片環境である。

ここで、推定素片環境のうち、隣接音韻は、上述したように複数の音声素片に対する隣接音韻をそのまま組み合わせたものであるため、上記式（３）でのｐ（ｖ_ｉ，ｊ）は、ｐ_{ｉ＿ｊ＿１}，・・・，ｐ_{ｉ＿ｊ＿Ｍ}（Ｍは、融合する音声素片の個数。）のように複数の値を取る。一方、目標の音韻環境のｐ（ｔ_ｉ，ｊ）は、１つの値（これをｐ_{ｔ＿ｉ＿ｊ}とする。）であるため、上記式（３）でのｄ（ｐ（ｖ_ｉ，ｊ），ｐ（ｔ_ｉ，ｊ））の計算は、具体的には以下のように行う。

歪み推定部４５２にて算出されたｉ番目のセグメントに対する音声素片組み合わせ候補の合成単位コストは、ｉ番目の融合音声素片の推定歪みとして、融合素片歪み推定部４５から出力される。

次に、素片選択部４４の動作を説明する。素片選択部４４は、入力された入力音韻系列を、合成単位ごとの複数のセグメントに区切り、各セグメントに対する音声素片を複数選択する。セグメントごとに選択した複数の音声素片を音声素片組み合わせ候補と呼ぶ。

ここでは、図６乃至図１１を用いて、１セグメントあたり複数個ずつ（最大Ｍ個）の音声素片を選択する方法を説明する。図６は、各セグメントに対する音声素片の選択方法を示すフローチャートである。図７乃至図１１は、図６に示すフローチャートの各ステップに対応して選択した音声素片組み合わせ候補を示す図である。

まず、素片選択部４４は、各セグメントに対する音声素片の候補を、音声素片記憶部４２に蓄積されている音声素片の中から抽出する（ステップＳ１０１）。

図７には、「おんせん」というテキストに対する入力音韻系列「ｏＮｓｅＮ」に対して音声素片の候補が抽出された例を示している。ここで、各音素記号の下に並んでいる白丸は、それぞれのセグメントに対する音声素片の候補を表し、白丸内の数字は、各素片番号を表しているものとする。

次に、素片選択部４４は、カウンタｍに初期値「１」をセットする（ステップＳ１０２）。続いて、カウンタｍが「１」であるか否かを判断する（ステップＳ１０３）。カウンタｍが「１」でない場合は、次のステップＳ１０４に進み（ステップＳ１０３のｎｏ）、「１」である場合は、ステップＳ１０５に進む（ステップＳ１０３のｙｅｓ）。

ステップＳ１０２の後にステップＳ１０３に進む場合、カウンタｍは「１」であるため、ステップＳ１０４をスキップしてステップＳ１０５に進む。そこで、まずステップＳ１０５の説明を行い、ステップＳ１０４については後述する。

素片選択部４４は、列挙されている音声素片の候補の中から、上記式（６）によって算出するトータルコストが最小になるような音声素片の系列を探索する（ステップＳ１０５）。ここでは、このようなトータルコストが最小となる音声素片系列のことを最適素片系列と呼ぶ。

図８は、図７で列挙した音声素片の候補の中から最適素片系列が選択された例を示す図である。選択された音声素片を斜線で示している。トータルコストの算出に必要な合成単位コストは、上述したように、融合素片歪み推定部４５を用いて算出する。例えば、図９の最適素片系列中の音声素片５１の合成単位コストを算出する場合、素片選択部４４は、音声素片５１の素片番号４０１と、その直前の音声素片５２の素片番号３０４と、目標の音韻・韻律情報を融合素片歪み推定部４５へ出力する。音声素片５１の素片番号４０１などが入力された融合素片歪み推定部４５は、入力された音声素片５１の合成単位コストを算出し、素片選択部４４へ出力する。素片選択部４４は、各音声素片の合成単位コストを求め、トータルコストを算出し、最適素片系列を探索する。なお、最適素片系列の探索には、動的計画（ＤＰ：Ｄｙｎａｍｉｃｐｒｏｇｒａｍｉｎｇ）法を用いて効率的に行ってもよい。

次に、カウンタｍの値が、融合する音声素片の個数の最大数Ｍ未満であるか否かを判定する（ステップＳ１０６）。カウンタｍの値がＭ以上の場合は、素片選択を終了する（ステップＳ１０６のｎｏ）。一方、Ｍ未満の場合は（ステップＳ１０６のｙｅｓ）、カウンタｍの値を１つ増やし（ステップＳ１０７）、ステップＳ１０３に戻る。

ステップＳ１０３では、カウンタｍの値が「１」であるか否かを判断するが、ここでは、ステップＳ１０７にてカウンタｍの値を１つ増やしているため、カウンタｍの値は、１以上となり、ステップＳ１０４へ進む（ステップＳ１０３のｎｏ）。

ステップＳ１０４では、１つ前のループのステップＳ１０５で探索した最適素片系列に含まれる音声素片（または音声素片の組み合わせ）と、この系列に含まれない残りの音声素片から、各セグメントに対する音声素片の組み合わせの候補（素片組み合わせ候補に相当。）を生成する。具体的には、最適素片系列中の音声素片、およびこの音声素片と残りの音声素片それぞれを組み合わせたものを素片組み合わせ候補として生成する。

図９に、素片組み合わせ候補を生成した例を示す。これは、図８で選択した最適素片系列中の音声素片と、この音声素片と残りの音声素片それぞれを組み合わせたものを素片組み合わせ候補として生成したものである。例えば、図９中の素片組み合わせ候補５３は、最適素片系列中の音声素片５１（素片番号４０１）と素片番号４０２の音声素片を組み合わせたものである。

ただし、後述するように本実施例においては、素片融合部４６での音声素片の融合は、有声音についてのみ行い、無声音については行わないため、無声音「ｓ」のセグメントに対しては、最適素片系列中の音声素片と残りの音声素片それぞれを組み合わせず、１回目のループで得た最適素片系列中の音声素片のみを素片組み合わせ候補とする。

次に、ステップＳ１０５に進み、素片組み合わせ候補の中から最適素片組み合わせの系列（以下、最適素片組み合わせ系列と称する。）を探索する。上述したように、各素片組み合わせ候補の合成単位コストは、融合素片歪み推定部４５を用いて算出し、最適素片組み合わせ系列の探索には、動的計画手法を用いる。

図１０に、図９の素片組み合わせ候補の中から最適素片組み合わせ系列を選択した例を示す。選択された音声素片を斜線で示している。

なお、以下、カウンタｍが融合する音声素片の個数の最大数Ｍ以上になるまでステップＳ１０３乃至ステップＳ１０７を繰り返す。

図１１に、Ｍ＝３の場合に選択された最適素片組み合わせ系列の例を示している。この例では、最初のセグメントの音素「ｏ」に対しては、図８における素片番号１０３，１０１，１０４の３つの音声素片が選択され、次のセグメントの音素「Ｎ」に対しては、素片番号２０４の音声素片１つが選択されたことを表している。

ただし、素片選択部４４における合成単位あたり複数個の音声素片を選択する方法は、上述した方法に限定されるものではない。例えば、各セグメントに対して、最大Ｍ個の音声素片を含むあらゆる組み合わせをまず列挙し、列挙した音声素片の組み合わせの中から最適素片組み合わせ系列を探索することによって、各セグメントあたり複数個の音声素片を選択してもよい。この方法では、音声素片候補の数が多い場合には、セグメントごとに列挙される音声素片の組み合わせの数が非常に多くなるため、莫大な計算量とメモリサイズを必要とするが、最適な音声素片の組み合わせを選択することが可能な方法であるため、莫大な計算量とメモリサイズが許される場合には、前述の方法よりも良い結果が得られる。

素片融合部４６は、それぞれのセグメントごとに、素片選択部４４で選択された素片組み合わせ候補を融合して新たな音声素片を生成する。本実施例では、音声素片を融合することによる効果が顕著な有声音のセグメントのみ音声素片の融合を行い、無声音のセグメントは、選択された１つの音声素片をそのまま用いることとする。

有声音の音声素片を融合する方法については、特許文献２に詳細が記載されているため、ここでは、図１２および図１３を用いて概略を説明する。

図１２は、有声音の音声波形を融合して新たな音声波形を生成する方法のフローチャートである。また図１３は、あるセグメントに対して選択された３つの音声素片からなる素片組み合わせ候補６０を融合して新たな音声素片６３を生成する例を示す図である。

まず、選択されたそれぞれの音声素片からピッチ波形を切り出す（ステップＳ２０１）。ピッチ波形とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。このようなピッチ波形を抽出する１つの方法として、基本周期同期窓を用いる方法があり、ここではこの方法を用いることとする。具体的には、それぞれの音声素片の音声波形に対して基本周期間隔ごとにマーク（ピッチマーク）を付し、このピッチマークを中心にして、窓長が基本周期の２倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。図１３のピッチ波形系列６１は、素片組み合わせ候補６０の各音声素片から切り出して得られたピッチ波形の系列の例を示している。

次に、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるようにピッチ波形の数を揃える。この際、揃える対象となるピッチ波形の数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数とするが、例えば最もピッチ波形数の多いものに揃えてもよい。ピッチ波形の少ない系列は、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列は、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。図１３のピッチ波形系列６２は、ピッチ波形の数を６つに揃えた例を示している。

ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形をその位置ごとに融合することによって、新たなピッチ波形系列を生成する。例えば、図１３で生成された新たなピッチ波形６３に含まれるピッチ波形６３ａは、ピッチ波形系列６２のうち、６番目のピッチ波形６２ａ，６２ｂ，６２ｃを融合することによって得られる。このようにして生成された新たなピッチ波形系列６３を、融合された音声素片とする。

ここで、ピッチ波形を融合する方法としては、単純にピッチ波形の平均を計算する方法や、ピッチ波形間の相関が最大になるよう時間方向に各ピッチ波形の位置を補正してから平均化する方法、ピッチ波形を帯域分割して、帯域ごとにピッチ波形間の相関が最大になるようピッチ波形の位置を補正して平均化した結果を、帯域間で足し合わせる方法などがあり、いずれの方法を用いても良い。本実施例では、最後に説明した帯域分割して平均化する方法を用いる。

素片融合部４６は、上述した方法を用いて、入力音韻系列に対応する複数のセグメントそれぞれについて、素片組み合わせ候補に含まれる複数の音声素片を融合して新たな音声素片（以下、融合音声素片と称する。）を生成し、素片編集・接続部４７に出力する。

素片編集・接続部４７は、素片融合部４６から渡されたセグメントごとの融合音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。素片融合部４６で生成された融合音声素片は、実際にはピッチ波形になっているので、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図１４は、素片編集・接続部４７での処理を説明するための図である。図１５には、素片融合部４６で生成された、音素「ｏ」「Ｎ」「ｓ」「ｅ」「Ｎ」の各合成単位に対する融合音声素片を、変形・接続して「おんせん」とう音声波形を生成する場合を示している。図１４の点線は、目標の音韻継続時間長に従って分割した音素ごとのセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置（ピッチマーク）を示している。図１４のように、有声音については融合音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については音声素片の波形をセグメントの長さに合うよう伸縮したものをセグメントに重畳することによって、所望の韻律（ここでは、基本周波数、音韻継続時間長）を持った音声波形を生成する。

以上のように第１の実施例によれば、素片組み合わせ候補を融合した場合に発生する歪みの度合いを、融合音声素片歪み推定部４５にて推定し、この推定結果を基に、素片選択部４４が新たな素片組み合わせ候補を生成することによって、音声素片を融合した際に高い融合効果が得られる音声素片を選択することができる。これを、図１５および図１６を用いて説明する。

図１５は、融合素片歪み推定部４５にて融合音声素片の歪みを推定しない場合の素片選択の概念を示す図である。ここでは、音声素片を選択する場合、単純に目標音声の音韻・韻律環境に近い音声素片を選択する。図１５では、複数の音声素片７０１が音声空間７０に分布する様子、およびそれぞれの音声素片７０１に対応した音韻・韻律環境７１１が素片環境空間７１に分布する様子を白丸および黒丸で表している。また、各音声素片７０１と音韻・韻律環境７１１の対応関係を破線あるいは実線で示している。なお黒丸は、素片選択部４４にて選択された音声素片７０２を示しており、これらを融合すると新たな音声素片７１２となる。さらに、音声空間７０には、目標音声７０３が存在し、目標音声７０３に対応する目標音韻・韻律環境７１３が素片環境空間７１内に存在する。

ここでは、融合音声素片の歪みを推定せず、単純に目標音韻・韻律環境７１３に近い音韻・韻律環境を持つ音声素片７０２を選択するため、選択された素片が融合されて生成された新たな音声素片７１２は、目標音声７１３からずれたものになり、１つだけ選択した音声素片を融合せずにそのまま使う場合と同様に、音質の劣化が生じると考えられる。

一方、図１６に、本実施例に示すように融合素片歪み推定部４５にて融合音声素片の歪みを推定した場合の素片選択の概念を示す。図１６に示す概念図は、図１６中に黒丸で示す選択した音声素片をのぞき、図１５に示す概念図と同じであるため、同一符号を付し説明を省略する。

図１６では、歪み推定部４５２が推定した融合音声素片の推定歪みが最も小さくなるように、すなわち選択した音声素片を融合した融合音声素片の推定素片環境が目標音声の音韻・韻律環境に最も近くなるよう素片選択部４４が音声素片を選択する。その結果、素片選択部４４によって黒丸で示す音声素片７０２が選択され、素片融合部４６にて融合されて生成される新たな音声素片７１２は、目標音声７０３に近いものとなる。

このように、融合音声素片歪み推定部４５にて推定した融合音声素片の歪みの度合いを基に、素片選択部４４が素片組み合わせ候補を選択することによって、音声素片を融合した際に高い融合効果が得られる音声素片を選択することができる。

また、素片選択部４４が素片組み合わせ候補を選択する場合に、候補とする音声素片の個数を予め定めるのではなく、個数を増加させながら融合音声素片歪み推定部４５にて融合音声素片の歪みを推定し、推定結果を基に素片選択部４４が素片組み合わせ候補を選択するため、融合する音声素片の個数を合成単位ごとに適切に制御することができる。

さらに、本実施例によると、上述したように、素片選択部４４が音声素片を融合した際に高い融合効果が得られる音声素片を適切な個数選択するため、より自然で高品質な合成音声を生成することができる。

次に図１７および図１８を用いて、本発明の第２の実施例に係る音声合成装置について説明する。

図１７に、本実施例に係る音声合成装置の融合素片歪み推定部４９の構成を示す。本実施例に係る融合歪み推定部４９は、図５に示す融合素片歪み推定部４５に対し、新たに重み最適化部４９１を備えており、素片選択部４４から、ｉ−１，ｉ番目のセグメントに対する素片組み合わせ候補の素片番号および目標の音韻、韻律環境が入力された場合に、融合音声素片の推定歪みに加えて、融合音声素片を生成する際の各音声素片に対する重み（以下、融合重みと称する。）も出力する。なお、これ以外の構成および動作は、図２に示す音声合成部４と同じであるため同一符号を付し説明を省略する。

続いて、図１７および図１８を用いて融合素片歪み推定部４９の動作を説明する。図１８は、融合素片歪み推定部４９の動作を示すフローチャートである。

まず、素片選択部４４からｉ−１，ｉ番目のセグメントに対する素片組み合わせ候補の素片番号および目標の音韻、韻律環境が入力された場合、融合素片歪み推定部４９の重み最適化部４９１は、ｉ番目のセグメントに対する素片組み合わせ候補に含まれる音声素片を融合する際の各音声素片に対する融合重みをすべて１／Ｌで初期化する（ステップＳ３０１）。初期化した融合重みは、融合素片環境推定部４５１に入力される。なお、Ｌは、ｉ番目のセグメントに対する素片組み合わせ候補に含まれる音声素片の個数である。

次に、融合素片環境推定部４５１には、重み最適化部４９１から融合重みが入力され、素片選択部４４からｉ−１，ｉ番目のセグメントに対する素片組み合わせ候補の素片番号が入力される。そこで、融合素片環境推定部４５１は、各音声素片に与えられた融合重みを考慮してｉ番目の融合音声素片の推定素片環境を算出する（ステップＳ３０２）。具体的には、連続量を持つ素片環境要因（例えば、基本周波数、音韻継続時間長、ケプストラム係数など）について、各要因の平均値を算出する代わりに、融合重みで重み付けして平均化することによって融合音声素片の推定素片環境を得る。例えば、上記式（２）における融合音声素片の音韻継続時間長ｇ（ｖ_ｉ）は、ｉ番目のセグメントのｍ番目の音声素片に与えられた融合重みをω_ｉ＿ｍ（ただし、ω_ｉ＿１＋・・・＋ω_ｉ＿Ｍ＝１）、この音声素片の素片環境をｖ_ｉ＿ｍとすると、以下のように表せる。

一方、離散シンボルである隣接音韻については、第１の実施例と同様に、それぞれの音声素片に対する隣接音韻の組み合わせを融合音声素片の隣接音韻とする。

次に、歪み推定部４５２は、融合素片環境推定部４５１から入力されたｉ−１，ｉ番目の融合音声素片の推定素片環境を基に、ｉ番目の融合音声素片を用いた場合の目標音声に対する歪みの度合い（融合音声素片の推定歪み）を推定する（ステップＳ３０３）。すなわち、素片組み合わせ候補に含まれる音声素片を融合重みで重み付けして融合することで生成される融合音声素片を用いた場合の合成単位コストを、上記式（５）によって算出する。ただし、音韻環境コストの計算における上記式（３）でのｄ（ｐ（ｖ_ｉ，ｊ），ｐ（ｔ_ｉ，ｊ））の計算では、上記式（７）の代わりに以下の式を用いることで融合重みを反映した音素間距離を得る。

歪み推定部４５２は、算出した融合音声素片の推定歪みの値が収束しているか否かを判定する（ステップＳ３０４）。収束しているか否かの判定は、今回のループで算出した融合音声素片の推定歪みの値をＣ_ｊ、１つ前のループで算出した融合音声素片の推定歪みの値をＣ_ｊ−１としたとき、｜Ｃ_ｊ−Ｃ_ｊ−１｜≦ε（εは、「０」に近い固定値）を満たすか否かによって判定する。収束している場合は、算出した融合音声の推定歪みの値および算出に使用した融合重みを素片選択部４４に出力する（ステップＳ３０４のｙｅｓ）。

一方、融合音声の推定歪みの値が収束していない場合（ステップＳ３０４のｎｏ）は、融合音声素片の推定歪みの値、すなわち上記式（５）を用いて算出した合成単位コストＣ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）が最小になるように、重み最適化部４９１において、融合重み（ω_ｉ＿１，・・・，ω_ｉ＿Ｍ）をω_ｉ＿１＋・・・＋ω_ｉ＿Ｍ≧０の条件下で最適化する（ステップＳ３０５）。

具体的に、融合重みの最適化は、

を代入したＣ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）をω_ｉ＿ｍ（ｍ＝１，・・・，Ｍ−１）のそれぞれで偏微分したものを「０」とした次の連立方程式を解くことによって得る。

式（１１）が解析的に解けない場合には、公知の最適化手法を用いて上記式（５）を最小とする融合重みを探索することによって、融合重みを最適化すればよい。重み最適化部４９１で融合重みが最適化された後は、ステップＳ３０２に戻り、融合素片環境推定部４５１が、融合音声素片の推定素片環境を算出する。

上述したようにして融合素片歪み推定部４９にて算出した融合音声素片の推定歪みおよび融合重みは、素片選択部４４へ入力される。素片選択部４４は、融合音声素片の推定歪みを基に、全セグメントに対する素片組み合わせ候補のトータルコストが最小になるよう、素片組み合わせ候補を生成する。この素片組み合わせ候補の生成方法は、図６に示す方法と同じであるため、説明を省略する。

次に、素片選択部４４で生成した素片組み合わせ候補およびこの素片組み合わせ候補に含まれる複数の音声素片の融合重みは、素片融合部４６に入力される。素片融合部４６では、セグメントごとに、入力された融合重みに応じた音声素片の融合を行う。この素片組み合わせ候補に含まれる音声素片の融合方法は、図１３に示す方法とほぼ同じであるが、ピッチ波形を位置ごとに融合する処理（図１２のステップＳ２０３）において、ピッチ波形を帯域ごとに平均化する際に、入力された融合重みを対応するそれぞれのピッチ波形に付して平均化する点が異なる。それ以外の処理および複数の音声素片を融合した後の動作は、第１の実施例と同じであるため説明を省略する。

以上のように第２の実施例によれば、第１の実施例と同様の効果が得られるとともに、重み最適化部４９１において融合音声素片の歪みを最小とする融合重みを求め、これを素片組み合わせ候補の音声素片を融合する際に反映させることで、目標音声により近い音声素片がセグメントごとに生成でき、より高音質の合成音声が生成できる。

なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施例に係るテキスト音声合成装置の構成を示すブロック図。本発明の第１の実施例に係る音声合成部４の構成を示すブロック図。本発明の第１の実施例に係る音声素片記憶部４２に蓄積される音声素片の例を示す図。本発明の第１の実施例に係る音声素片環境記憶部４３に蓄積される素片環境の例を示す図。本発明の第１の実施例に係る融合素片歪み推定部４５の構成を示すブロック図。本発明の第１の実施例に係る音声素片の選択方法を示すフローチャート。本発明の第１の実施例に係る選択された音声素片の候補の例を示す図。図７の音声素片の候補から最適素片系列が選択された例を示す図。図８の音声素片の候補から素片組み合わせ候補を生成した例を示す図。図９の素片組み合わせ候補の中から最適素片組み合わせ系列を選択した例。Ｍ＝３の場合に選択された最適素片組み合わせ系列の例を示す図。本発明の第１の実施例に係る有声音の音声波形を融合して新たな音声波形を生成する方法のフローチャート。選択された３つの音声素片からなる素片組み合わせ候補６０を融合して新たな音声素片６３を生成する例を示す図。本発明の第１の実施例に係る素片編集・接続部４７での処理を説明するための図。融合音声素片の歪みを推定しない場合の素片選択の概念を示す図。融合音声素片の歪みを推定した場合の素片選択の概念を示す図。本発明の第２の実施例に係る音声合成装置の融合素片歪み推定部４９の構成を示すブロック図。本発明の第２の実施例に係る融合素片歪み推定部４９の動作を示すフローチャート。

符号の説明

１・・・テキスト入力部
２・・・言語処理部
３・・・韻律制御部
４・・・音声合成部
４１・・・音韻系列・韻律情報入力部
４２・・・音声素片記憶部
４３・・・音声素片環境記憶部
４４・・・素片選択部
４５，４９・・・融合素片歪み推定部
４５１・・・融合素片環境推定部
４５２・・・歪み推定部
４６・・・素片融合部
４７・・・素片編集・接続部
４８・・・音声波形出力部
４９１・・・重み最適化部
７０・・・音声空間
７０１・・・音声素片
７０２・・・選択された音声素片
７０３・・・目標音声
７１・・・素片環境空間
７１１・・・音声素片の音韻・韻律環境
７１２・・・融合されてできた音声素片
７１３・・・目標音声の音韻・韻律環境

Claims

音声素片群を記憶する記憶手段と、
音声素片の組を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定手段と、
前記目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記目標音声に対応する音韻・韻律情報、および前記第１の推定手段によって推定される前記セグメントごとの前記歪みの度合いを基に、音声素片の組を前記音声素片群から選択する第１の選択手段と、
前記複数のセグメントのそれぞれに対して、前記第１の選択手段によって選択された前記音声素片の組を融合することによって、前記第１の音声素片を生成する第１の生成手段と、
前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成手段と
を備えることを特徴とする音声合成装置。
前記第１の選択手段は、前記第１の推定手段によって推定される前記歪みの度合いに基づいて、前記音声素片の組に含まれる音声素片の個数を前記セグメントごとに変更することを特徴とする請求項１に記載の音声合成装置。
前記第１の推定手段は、前記第１の選択手段により選択された音声素片の音韻・韻律環境を基に、前記第１の音声素片の音韻・韻律環境を推定する第２の推定手段を備え、前記第２の推定手段によって推定される前記第１の音声素片の音韻・韻律環境を基に、前記歪みの度合いを推定することを特徴とする請求項１または請求項２のいずれか１項に記載の音声合成装置。
前記第１の選択手段は、前記複数のセグメントのそれぞれに対して、前記音声素片の組を前記音声素片群から複数通り選択し、前記複数通り選択した音声素片の組の中から、前記複数のセグメントのそれぞれに対して、前記第１の推定手段によって推定される前記歪みの度合いが最小となる前記音声素片の組を選択することを特徴とする請求項１乃至請求項３のいずれか１項に記載の音声合成装置。
前記第１の選択手段は、前記歪みの度合いが最小となる前記音声素片の組を選択した後に、当該選択された音声素片の組、および当該選択された音声素片の組に、前記音声素片群に含まれる音声素片であって、当該選択された音声素片の組に含まれない音声素片を加えたものを新たな音声素片の組として複数通り選択し、前記複数通りの新たな音声素片の組の中から、前記第１の推定手段によって推定される歪みの度合いを基に、前記複数のセグメントそれぞれに対して前記音声素片の組を１つ選択することを特徴とする請求項４に記載の音声合成装置。
前記第１の選択手段は、前記新たな音声素片の組を複数回選択することを特徴とする請求項５に記載の音声合成装置。
前記第１の推定手段は、前記歪みの度合いが小さくなるよう、前記少なくとも１つの音声素片を融合する際の前記音声素片間の融合重みを決定する最適化手段を備え、前記第１の生成手段は、前記最適化手段で決定される前記融合重みに従い、前記音声素片の組に含まれる音声素片を融合することを特徴とする請求項１乃至請求項６のいずれか１項に記載の音声合成装置。
前記第１の推定手段は、前記セグメントに対する前記音声素片の組の歪みの度合いを、前記目標音声と当該セグメントに対する前記第１の音声素片を用いて生成した合成音声との歪みの度合いを表す第１のコストと、当該セグメントに対する前記第１の音声素片と当該セグメントに隣接するセグメントに対する前記第１の音声素片を接続したときに生じる歪みの度合いを表す第２のコストとに基づいて推定することを特徴とする請求項１乃至請求項７のいずれか１項に記載の音声合成装置。
前記第１のコストは、基本周波数、音韻継続時間長、パワー、音韻環境、スペクトルのうち、少なくとも１つを用いて算出することを特徴とする請求項８に記載の音声合成装置。
前記第２のコストは、スペクトル、基本周波数、パワーのうち少なくとも１つを用いて算出することを特徴とする請求項８に記載の音声合成装置。
目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、音声素片の組を音声素片群から複数通り選択する第１の選択ステップと、
前記音声素片の組に含まれる音声素片を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定ステップと、
前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し前記複数通りの音声素片の組の中から１つを選択する第２の選択ステップと、
前記第２のステップで選択した音声素片の組に含まれる音声素片を融合することによって、前記第１の音声素片を生成する第１の生成ステップと、
前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成ステップと
を有することを特徴とする音声合成方法。
前記第１の推定ステップは、前記音声素片の組に含まれる音声素片の音韻・韻律環境を基に、前記第１の音声素片の音韻・韻律環境を推定する第２の推定ステップと、前記第１の音声素片の音韻・韻律環境と前記目標音声に対する音韻・韻律情報を基に、前記第１の音声素片を用いて生成した合成音声の前記目標音声に対する歪みの度合いを推定する第３の推定ステップとを有することを特徴とする請求項１１に記載の音声合成方法。
前記第２の選択ステップは、前記複数のセグメントのそれぞれに対する前記歪みの度合いが最小となるよう前記音声素片の組を選択することを特徴とする請求項１１に記載の音声合成方法。
前記第１の選択ステップ、前記第１の推定ステップおよび前記第２の選択ステップを複数回実行し、前記第１の選択ステップは、２回以上処理を行う場合に、前記第２の選択ステップで選択された音声素片の組、および当該音声素片の組に、前記音声素片群に含まれる音声素片であって、当該音声素片の組に含まれない音声素片を加えたものを新たな音声素片の組として選択することを特徴とする請求項１１乃至請求項１３のいずれか１項に記載の音声合成方法。
前記第１の選択ステップは、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対する前記音声素片の組に含まれる音声素片の個数を変更することを特徴とする請求項１４に記載の音声合成方法。
前記第１の推定ステップは、前記歪みの度合いが小さくなるよう、前記音声素片の組に含まれる音声素片を融合する際の前記音声素片間の融合重みを決定する重み算出ステップを有し、前記第１の生成ステップは、前記融合重みに従い前記音声素片の組に含まれる音声素片を融合することを特徴とする請求項１１乃至請求項１４に記載の音声合成方法。
コンピュータに、目標音声に対する音韻系列および音韻・韻律情報から音声波形を生成する機能を実現させるための音声合成プログラムであって、
音声素片群を記憶する記憶機能と、
前記音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも１つの音声素片を含む音声素片の組を前記音声素片群から複数通り選択する第１の選択機能と、
前記音声素片の組に含まれる音声素片を融合することによって生成される第１の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第１の推定機能と、
前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し、前記複数通りの音声素片の組の中から１つを選択する第２の選択機能と、
前記音声素片の組に含まれる音声素片を融合することによって前記第１の音声素片を生成する第１の生成機能と、
前記第１の音声素片を接続することによって前記合成音声を生成する第２の生成機能と
を有することを特徴とする音声合成プログラム。
前記第１の推定機能は、前記音声素片の組に含まれる音声素片の音韻・韻律環境を基に、前記第１の音声素片の音韻・韻律環境を推定する第２の推定手段と、前記第１の音声素片の音韻・韻律環境と前記音韻・韻律情報を基に、前記第１の音声素片を用いて生成した前記合成音声の前記目標音声に対する歪みの度合いを推定する第３の推定機能とを有することを特徴とする請求項１７に記載の音声合成プログラム。
前記第２の選択機能は、前記複数のセグメントそれぞれに対する前記歪みの度合いが最小となるよう前記音声素片の組を選択することを特徴とする請求項１７に記載の音声合成プログラム。