JP2009237015A

JP2009237015A - 音声素片接続装置及びプログラム

Info

Publication number: JP2009237015A
Application number: JP2008079930A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Hiroyuki Segi; 寛之世木; Reiko Tako; 礼子田高; Nobumasa Seiyama; 信正清山; Hiroyuki Hamada; 浩行浜田; Yukio Iwahana; 幸男岩鼻
Original assignee: Nippon Hoso Kyokai NHK; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2009-10-15

Abstract

【課題】音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現する。
【解決手段】音声素片接続装置１は、音声素片どうしを接続する際に、周波数特性算出部１７が、接続する音声素片間における接続部分の周波数特性を算出し、スペクトル包絡算出部１８が、そのスペクトル包絡を算出し、スペクトル包絡算出部１９が、接続する音声素片に適合した音素環境のスペクトル包絡を算出する。そして、スペクトル包絡補正部２０が、接続部分の周波数特性をスペクトル包絡によって補正する。音声波形重複加算部２２は、接続する音声素片に対し、スペクトル包絡補正部２０により補正された周波数特性を重複加算し、音声素片接続部２３が音声波形重複加算部２２により得られた音声素片どうしを接続する。
【選択図】図１

Description

本発明は、入力されたテキストデータに基づいて、予め録音及び構築した音声データベースに蓄積された音声素片データを接続する音声素片接続装置及びプログラムに関する。

従来、音声合成装置として、自然発話の音声波形データのセグメントを連結することにより、任意の音声素片列を合成するものが知られている（例えば、特許文献１を参照）。この音声合成装置は、音声素片の発声時間を記録した音声合成用データベースを備えており、入力された文章（テキストデータ）を音素列に分解した後、音素単位で音声合成用データベースを探索し、韻律コスト及び連結コストの和が最小となる音素列の音声素片を接続して音声合成を行うものである。また、良好な音質を確保するために、音素単独ではなく、先行音素及び後続音素のうちのいずれかの音素（ダイフォン）、または両音素（トライフォン）の音素環境を考慮した単位や、さらに長い可変長の音素列を単位とした音声素片を使用することにより音声合成を行う。

しかし、前述した特許文献１の音声合成装置では、トライフォンや可変長の音素列を考慮すると、その組み合わせは膨大な数（例えば、音素数を４２とすると、トライフォンでは４２^３）となる。また、音素単位のピッチ（周波数）、パワー（振幅）、時間長等の多様性も考慮すると、音声合成用データベースの規模を非常に大きくしなければならず、大規模な記録容量が必要なことに加えて、音声合成用データベースの探索の仕方を工夫しなければ、音声合成の処理速度を向上させることができないという問題があり、現実的ではなかった。

一方、前述した特許文献１の音声合成装置による方法を、現実的な音声合成用データベースの規模で実現した場合には、音素の多様性を確保することが困難となるという問題があった。

そこで、理想的なピッチ、パワー、時間長及び音素環境の音素が存在しない部分を、音素環境が異なる音素で代用する方法が用いられている。例えば、トライフォンを用いる場合、同じ音素に対して先行音素または後続音素が異なるものを、有声、無声、摩擦、破裂等の予め用意した分類条件に基づいてクラスタリングを行い、同一のクラスタに分類されたトライフォンを相互活用することにより、個々のトライフォンの多様性不足をカバーすることができる（例えば、特許文献２を参照）。しかし、特許文献２の音声合成装置では、音素環境が異なる音素を代用しているため、音声素片接続部において不自然な音質になる場合がある。

一方、接続する２つの原音声の周波数特性や基本周波数が異なっていても、不連続感を知覚させない音声接続を実現する音声接続装置が知られている（例えば、特許文献３を参照）。

従来の音声接続装置は、音声信号の接続部分において単純に波形を接続したり、接続部分に窓関数を乗じて重複加算したりすることから、音声に不連続感が知覚され音質が劣化するという問題があった。特許文献３の音声接続装置はこの問題を解決するものである。すなわち、音声接続区間において、有声ではピッチ波形単位で、無声では一定時間単位で、接続する２つの信号をモデル化してパラメータ推定を行うと共に対応付けを行い、先行する音声から後続する音声へ漸次的に変化するようにパラメータを変化させ、そのパラメータによって合成した音声波形を接続するものである。

特許第３０５０８３２号公報特開２００４−１３９０３３号公報特開２００４−１０２１１８号公報

前述したように、特許文献２の音声合成装置では、現実的なデータベース規模で、適切に選んだトライフォンや可変長の音素列を音素として接続し音声を合成する場合に、クラスタリングされたトライフォン等を利用する。このため、本来目標としている音素環境とは異なる環境の音素が利用されることにより、接続部において異なる音韻に聞こえる場合がある。

一方、音声素片どうしの接続部において、先行音素の終点の部分と後続音素の始点の部分に窓関数を乗じて重複加算することにより、音声波形を時間領域で円滑に変化するように接続したとしても、周波数領域では円滑に変化するように接続されるわけではない。このため、不連続感を生じる場合がある。

この問題を解決するために、特許文献３の音声接続装置では、モデルで推定したパラメータを用いて音声波形を合成することにより音声素片どうしを接続する。これにより、接続部における不連続感を減じることができるが、本来目標としている音素環境とは異なる音素を利用しているため、接続部において異なる音韻に聞こえることに変わりはない。

このように、現実的なデータベース規模でクラスタリングされたトライフォン等を利用して波形接続を行い音声合成する場合に、これまで、接続部において異なる音韻に聞こえるという問題を確実に解決することができなかった。

そこで、これらの問題を鑑み、本発明の目的は、音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現可能な音声素片接続装置及びプログラムを提供することにある。

このような課題を解決するために、請求項１の発明は、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる２つの音声素片を接続して音声合成を行う音声素片接続装置において、予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースと、前記音声素片接続情報から、音声合成される２つの音声素片間の接続点情報を抽出する音声素片接続点抽出部と、少なくとも前記接続点情報における２つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する接続点音素環境検索部と、前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における２つの音声素片との間の適合度合いを示す適合コストを算出する音素環境適合度算出部と、前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する補正用音素環境決定部と、前記音声合成用データベースを用いて、前記接続点情報における２つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における２つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記２つの音声素片の補正用音声波形を切り出す音声波形切り出し部と、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する周波数特性算出部と、前記接続点情報における２つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する第１のスペクトル包絡算出部と、前記補正用音素環境に含まれる前記２つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する第２のスペクトル包絡算出部と、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正するスペクトル包絡補正部と、前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における２つの音声素片間の接続点付近の音声波形を算出する音声波形算出部と、前記音声波形切り出し部により切り出された２つの接続用音声素片に対し、前記音声波形算出部により算出された、接続点情報における２つの音声素片間の接続点付近の音声波形を重複加算し、新たな２つの接続用音声素片を算出する音声波形重複加算部と、前記新たな２つの接続用音声素片を接続する音声素片接続部と、を備えたことを特徴とする。

また、請求項２の発明は、請求項１に記載の音声素片接続装置において、前記音素環境適合度算出部が、前記補正用音素環境候補の音響特徴量情報、及び前記接続点情報における２つの音声素片の音響特徴量情報をそれぞれ前記音声合成用データベースから読み出し、前記補正用音素環境候補毎に、前記接続点情報における２つの音声素片との間の適合コストを算出することを特徴とする。

また、請求項３の発明は、請求項２に記載の音声素片接続装置において、前記音響特徴量情報が、音素数、ピッチ周波数及びスペクトル情報の３つのパラメータのうちの少なくとも１つ以上のパラメータを用いて、前記補正用音素環境候補毎に、前記接続点情報における２つの音声素片との間の適合コストを算出することを特徴とする。

また、請求項４の発明は、請求項１から３までのいずれか一項に記載の音声素片接続装置において、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出する接続コスト算出部と、前記接続点情報毎の接続コストに基づいて、前記スペクトル包絡補正部における補正処理が不要となる接続点情報を決定する補正適用部分決定部と、を備え、前記音声素片接続部が、前記補正処理が不要であると決定した接続点情報に対し、前記音声波形切り出し部により切り出された２つの接続用音声素片を接続することを特徴とする。

また、請求項５の発明は、請求項４に記載の音声素片接続装置において、前記接続コスト算出部が、前記接続点情報における２つの音声素片の音響特徴量情報を前記音声合成用データベースから読み出し、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする。

また、請求項６の発明は、請求項５に記載の音声素片接続装置において、前記音響特徴量情報は、ピッチ周波数及びスペクトル情報の２つのパラメータのうちの少なくとも１つ以上のパラメータを用いて、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする。

また、請求項７の発明は、予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースを備え、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる２つの音声素片を接続して音声合成を行う音声素片接続装置にかかわるプログラムであって、前記音声素片接続装置を構成するコンピュータに、前記音声素片接続情報から、音声合成される２つの音声素片間の接続点情報を抽出する処理と、少なくとも前記接続点情報における２つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する処理と、前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における２つの音声素片との間の適合度合いを示す適合コストを算出する処理と、前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する処理と、前記音声合成用データベースを用いて、前記接続点情報における２つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における２つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記２つの音声素片の補正用音声波形を切り出す処理と、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する処理と、前記接続点情報における２つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する処理と、前記補正用音素環境に含まれる前記２つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する処理と、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正する処理と、前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における２つの音声素片間の接続点付近の音声波形を算出する処理と、前記２つの接続用音声素片に対し、前記接続点情報における２つの音声素片間の接続点付近の音声波形を重複加算し、新たな２つの接続用音声素片を算出する処理と、前記新たな２つの接続用音声素片を接続する処理と、を実行させることを特徴とする。

また、請求項８の発明は、請求項７に記載の音声素片接続プログラムにおいて、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出する処理と、前記接続点情報毎の接続コストに基づいて、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を補正する処理が不要となる接続点情報を決定する処理と、を実行させ、前記補正処理が不要であると決定した接続点情報に対して、前記接続用音声波形及び補正された周波数特性を用いて、前記新たな２つの接続用音声素片を接続する処理の代わりに、前記音声波形切り出し部により切り出された２つの接続用音声素片を接続する処理を実行させることを特徴とする。

以上のように、本発明によれば、音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができる。つまり、聴感上自然な音韻となる音声合成を実現することが可能となる。

以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔実施例１〕
図１は、本発明の実施例１による音声素片接続装置の構成及び処理の流れを示す図である。この音声素片接続装置１は、テキストデータを入力し、テキストデータに基づいて音声素片接続情報を生成し、入力したテキストデータに対する合成音声情報を生成して出力する装置である。音声素片接続装置１は、音声合成用データベース１０、音声素片接続点抽出部１１、接続点音素環境検索部１２、音素環境適合度算出部１３、補正用音素環境決定部１４、音声波形切り出し部１５，１６、周波数特性算出部１７、スペクトル包絡算出部１８，１９、スペクトル包絡補正部２０、音声波形算出部２１、音声波形重複加算部２２及び音声素片接続部２３を備えている。尚、音声合成されるべきテキストデータを入力し、テキストデータを音声素片に分解し、音声素片接続情報を生成する音素接続情報生成部は省略してある。音声素片接続情報を生成する手法は既知の技術であるから、ここでは説明を省略する。詳細については、前述した特許文献２を参照されたい。

音声合成用データベース１０には、サンプリング周波数１６ｋＨｚ、量子化ビット数１６ビットでＡＤ変換された音声波形データが、ファイル番号毎に格納されているものとする。また、図３に示す音素区切り情報、及び、図４に示す音響特徴量情報も格納されているものとする。図３及び図４の詳細については後述する。すなわち、音声合成用データベース１０は、ファイル番号毎の音声波形データ、音素区切り情報、音響特徴量情報等により構成される。

音声素片接続点抽出部１１は、図示しない音素接続情報生成部により生成された音声素片接続情報を入力し、音声素片間の接続点情報を抽出する。具体的には、テキストデータに対応する音声素片情報の並びにおいて、音声素片情報を構成するファイル番号が連続していない切り替わり箇所を特定し、その切り替わり箇所における直前の音声素片情報と、切り替わり箇所における直後の音声素片情報との組み合わせを接続点情報として抽出する。

図２は、音声素片接続情報の例を示す図である。音声素片接続情報とは、音素接続情報生成部が、音声合成されるべきテキストデータを音声素片に分解し、音声合成用データベース１０を参照して生成したものである。図２に示すように、各行が音声素片情報であり、音声素片接続情報は、テキストデータに対応した複数の音声素片情報から構成される。具体的には、各行の音声素片情報において、その音声素片の音響特徴量情報が格納されている番号を示すラベル、その音声素片を含む音声波形データが格納されている番号を示すファイル番号、音声波形データにおいてその音声素片が格納されている始点位置（始点）、終点位置（終点）、及び、その音声素片の音量倍率により構成される。以下、各行の音声素片情報を音声素片接続情報として説明する。

図２の例では、音声素片接続点抽出部１１は、１行目及び２行目の音声素片接続情報のファイル番号が「７１２」であり、３行目から５行目までの音声素片接続情報のファイル番号が「１４０」であるから、第１番目の切り替わり箇所として２行目及び３行目を特定し、以下のように、第１番目の接続点情報を抽出する。第２番目以降の接続点情報の抽出についても同様である。
ry-o+f(47) 712 4896 8787 1.23 ・・・（１）
b-h+sh(42) 140 101805 107424 0.78 ・・・（２）

ここで、異なるファイル番号となっているその前後の音声素片は、異なる環境によって生成されたものであるから、これらの２つの音声素片を単に接続しても、接続点で音韻の異聴感が生じてしまう。従って、音声素片接続装置１は、この接続点の音声を、以下に説明するように補正する。

接続点音素環境検索部１２は、図示しない音素接続情報生成部により生成された音声素片接続情報、及び、音声素片接続点抽出部１１により抽出された接続点情報をそれぞれ入力し、音声合成用データベース１０から、各接続点（接続点情報の示す２つの音声素片）における理想的な音素環境を持つ音声素片を検索し、補正用音素環境候補情報を生成する。

例えば、接続点音素環境検索部１２は、図２に示した音声素片接続情報における第１番目の接続点については、以下のように、接続点（１）（２）前後の２つの音声素片情報（０）（３）も含めた音声素片接続情報を生成する。
Q-sil+u:(33) 712 0 4896 1.23 ・・・（０）
ry-o+f(47) 712 4896 8787 1.23 ・・・（１）
b-h+sh(42) 140 101805 107424 0.78 ・・・（２）
h-a+ny(62) 140 107424 109728 0.78 ・・・（３）

接続点音素環境検索部１２は、合計４つの音声素片（０）〜（３）が適合するsil-oh+a、前の３つの音声素片（０）〜（２）のみ適合するsil-oh+?（すなわち３音素sil-o+hと等価）、後ろの３つの音声素片（１）〜（３）のみ適合する?-oh+a（すなわち３音素o-h+aと等価）、接続点である２つの音声素片（１）（２）のみ適合する?-o+h、o-h+?を構成する。そして、接続点音素環境検索部１２は、音声合成用データベース１０を構成する音素区切り情報（音声波形データに対応する音素表記を記述したテキスト情報、図３を参照）から、これらを含む音声素片を検索し、検索結果を適合音素数が長いものから順に補正用音素環境候補情報として生成する。

図３は、音声合成用データベース１０に含まれる音素区切り情報の例を示す図である。この音素区切り情報は、ファイル番号毎の情報であり、音声波形データを音素に区切った場合における個々の音素が格納されている始点（音声波形データにおいてその音素が格納されている始点位置）、終点（音声波形データにおいてその音素が格納されている終点位置）及びラベルから構成される。このように、接続点音素環境検索部１２は、図３に示した音声合成用データベース１０に含まれる音素区切り情報から、接続点前後の２つの音声素片情報も含めた音声素片接続情報（０）〜（３）における４音素、前３音素、後３音素及び２音素のいずれかを含む音声素片を検索し、補正用音素環境候補情報を生成する。ここでは、候補数Ｊ個の補正用音素環境候補情報を生成するものとする。尚、補正用音素環境候補情報は、以下に示す例のように、音素ラベル、適合した音素数、ファイル番号、接続点と適合した音素境界位置の情報により構成される。
sil-oh+a 4 136 3223
sil-o+h 3 138 2445
sil-o+h 3 254 234
o-h+a 3 74 1566

音素環境適合度算出部１３は、接続点音素環境検索部１２により生成された補正用音素環境候補情報及び接続情報を入力し、音声合成用データベース１０から、接続に用いる音声素片における音響特徴量及び補正用音素環境候補の音声素片における音響特徴量をそれぞれ読み出し、補正用音素環境候補毎に、接続に用いる音声素片と補正用音素環境候補の音声素片との間の距離を求める。

図４は、音声合成用データベース１０に含まれる、音声素片の音響特徴量情報を示す図である。図４に示すように、音声素片の音響特徴量情報は、音声波形データから抽出された情報であり、クラスタリングされたラベル、ファイル番号、平均ピッチ周波数、始点、終点、始点におけるスペクトル情報、始点におけるピッチ周波数、終点におけるスペクトル情報、及び、終点におけるピッチ周波数により構成される。

具体的には、図４を参照して、音素環境適合度算出部１３は、音声合成用データベース１０を構成する音響特徴量情報から、補正用音素環境候補の該当する音素の始点、終点、それぞれのスペクトル情報Ｓ及びピッチ周波数ｆを読み出す。音素環境適合度算出部１３は、これらの情報を用いて、次式で定義する接続音素Ｐと補正用音素環境候補の音素Ｒｊ（ｊ＝１，・・・，Ｊ）との間の適合コストＣｍ（Ｐ，Ｒｊ）を、補正用音素環境候補毎に算出する。

ここで、Ｍｊ（ｊ＝１，・・・，Ｊ）は、補正用音素環境候補の音素Ｒｊと接続音素Ｐとの間で適合した音素数であり、ｆ^ｅ _ＰＡ，ｆ^ｂ _ＰＢ，Ｓ^ｅ _ＰＡ（ｉ），Ｓ^ｂ _ＰＢ（ｉ）は、それぞれ接続音素Ｐについての先行音素Ａの終点におけるピッチ周波数、後続音素Ｂの始点におけるピッチ周波数、先行音素Ａの終点におけるスペクトル情報、後続音素Ｂの始点におけるスペクトル情報である。また、ｆ^ｅ _ＲｊＡ，ｆ^ｂ _ＲｊＢ，Ｓ^ｅ _ＲｊＡ（ｉ），Ｓ^ｂ _ＲｊＢ（ｉ）は、それぞれ補正用音素環境候補の音素Ｒｊについての先行音素Ａの終点におけるピッチ周波数、後続音素Ｂの始点におけるピッチ周波数、先行音素Ａの終点におけるスペクトル情報、後続音素Ｂの始点におけるスペクトル情報である。また、Ｉはスペクトル情報の総次元数であり、ｗ_０，ｗ_１，ｗ_２は正の重みである。

図５は、図１に示した音素環境適合度算出部１３による適合コストの算出処理を説明する図である。図５に示すように、音素環境適合度算出部１３は、接続点情報から、接続に用いる音声素片である接続用音素ＰＡ，ＰＢを特定し、音声合成用データベース１０から、接続用音素ＰＡの終点におけるピッチ周波数ｆ^ｅ _ＰＡ及びスペクトル情報Ｓ^ｅ _ＰＡを読み出し、接続用音素ＰＢの始点におけるピッチ周波数ｆ^ｂ _ＰＢ及びスペクトル情報Ｓ^ｂ _ＰＢを読み出す。同様に、音素環境適合度算出部１３は、補正用音素環境候補情報から、補正用音素環境候補における音声素片である音素環境Ｒ１，Ｒ２を特定し、音声合成用データベース１０から、音素環境Ｒ１の終点におけるピッチ周波数ｆ^ｅ _ＲｊＡ及びスペクトル情報Ｓ^ｅ _ＲｊＡを読み出し、音素環境Ｒ２の始点におけるピッチ周波数ｆ^ｂ _ＲｊＢ及びスペクトル情報Ｓ^ｂ _ＲｊＢを読み出す。そして、音素環境適合度算出部１３は、これらの情報を用いて適合コストを算出する。

また、数式（１）において、その第１項は音素環境の一致度合いを表し、第２項は各音素どうしのピッチ周波数の距離を表し、第３項はスペクトル情報の距離を表す。尚、図４に示したように、各スペクトル情報にはパワー項が含まれている。

図１に戻って、補正用音素環境決定部１４は、音素環境適合度算出部１３により算出された補正用音素環境候補毎の適合コストを入力し、適合コストが最も小さい（最も適合している）補正用音素環境候補を補正用音素環境情報として決定する。

音声波形切り出し部１５は、音声素片接続点抽出部１１により抽出された接続点情報を入力し、接続点情報に含まれるファイル番号における始点及び終点により、音声合成用データベース１０の音声波形データから、接続用音声素片及び接続用音声波形を切り出す。切り出された接続用音声素片は音声波形重複加算部２２に出力され、接続用音声波形は周波数特性算出部１７及びスペクトル包絡算出部１８に出力される。

図６は、図１に示した音声波形切り出し部１５による接続用音声素片及び接続用音声波形の切り出し処理を説明する図である。図６を参照して、音声波形データＸは‘ａ’及び‘ｉ’の音を含み、‘ａ’に相当する音声素片が先行音声素片Ａである。また、音声波形データＹは‘ｕ’及び‘ｅ’の音を含み、‘ｅ’に相当する音声素片が後続音声素片Ｂである。音声波形切り出し部１５は、音声合成用データベース１０から、入力した接続点情報に含まれるファイル番号（前記例では、７１２及び１４０）が示す音声波形データＸ及び音声波形データＹにおける各始点，終点（前記例では（４８９６，８７８７）及び（１０１８０５，１０７４２４））で指定された先行音声素片Ａ及び後続音声素片Ｂの音声波形データを読み出す。先行音声素片Ａの後ろ部分には、音声波形データα１及びα２が含まれる。また、後続音声素片Ｂの先頭部分には、音声波形データβ１及びβ２が含まれる。つまり、音声波形切り出し部１５は、音声合成用データベース１０から、入力した接続点情報の示す音声データＸのうちの先行音声素片Ａ、及び音声データＹのうちの後続音声素片Ｂを切り出す。ここで、先行音声素片Ａに含まれる後ろ部分α１及びα２の時間長を、音声素片接続区間長（例えば２０ｍｓの時間長）とする。同様に、後続音声素片Ｂの先頭部分β１及びβ２の時間長を、音声素片接続区間長とする。音声波形切り出し部１５は、切り出した音声波形データを、それぞれ接続用音声素片Ａ，Ｂとして音声波形重複加算部２２に出力する。

また、音声波形切り出し部１５は、先行音声素片Ａ及び後続音声素片Ｂの接続点前後の部分については、音声素片どうしを接続する音声素片接続区間を含むように、適当な（予め設定された）長さの分析窓（例えば１０ｍｓ）を適当なシフト幅（例えば５ｍｓ）でシフトしながら音声波形を切り出し、接続用音声波形として周波数特性算出部１７及びスペクトル包絡算出部１８に出力する。図６では、先行音声素片Ａの分析窓Ａ１〜Ａ４、後続音声素片Ｂの分析窓Ｂ１〜Ｂ４が示されており、分析窓数はそれぞれ４個である。ここで、先行音声素片Ａ及び後続音声素片Ｂに対し各分析窓で切り出された波形を、それぞれｘ_Ａｌ（ｎ），ｘ_Ｂｌ（ｎ）、（ｎ＝１〜Ｎ，ｌ＝１〜４）で表す。Ｎは、窓幅のポイント数を表す。

音声波形切り出し部１６は、補正用音素環境決定部１４により決定された補正用音素環境情報を入力し、補正用音素環境情報に含まれるファイル番号における音素境界位置により、音声合成用データベース１０の音声波形データから、補正用音声波形を切り出す。切り出された補正用音声波形はスペクトル包絡算出部１９に出力される。

図７は、図１に示した音声波形切り出し部１６による補正用音声波形の切り出し処理を説明する図である。図７を参照して、音声波形データＺは‘ａ’及び‘ｅ’の音を含み、その境界が音素境界位置である。音声波形切り出し部１６は、音声合成用データベース１０から、入力した補正用音素環境情報に含まれるファイル番号が示す音声波形データＺにおける音素境界位置の前後の部分について、所定の長さの分析窓毎に音声波形データを読み出す。ここで、音素境界位置の前後の部分を含む時間長を、音声素片接続区間長（例えば２０ｍｓの時間長）とする。つまり、音声波形切り出し部１６は、音素境界位置の前後の部分である音声素片接続区間長を含むように、適当な長さの分析窓（例えば１０ｍｓ）を適当なシフト幅（例えば５ｍｓ）でシフトしながら音声波形を切り出し、補正用音声波形としてスペクトル包絡算出部１９に出力する。図７では、図６に示した接続用音声波形を切り出すときの分析窓Ａ１〜Ａ４，Ｂ１〜Ｂ４に対応して、補正用音声波形を切り出すときの分析窓Ｃ１〜Ｃ５が示されており、分析窓数は５個である。ここで、補正用音声波形に対し各分析窓で切り出された波形を、ｘ_Ｃｍ（ｎ）、（ｎ＝１〜Ｎ，ｍ＝１〜５）で表す。

図１に戻って、周波数特性算出部１７は、音声波形切り出し部１５により切り出された分析窓毎の接続用音声波形を入力し、分析窓毎（接続用音声波形毎）の周波数特性を算出する。算出された分析窓毎の周波数特性は、スペクトル包絡補正部２０に出力される。具体的には、周波数特性算出部１７は、分析窓としてハミング窓を用いた後、高速フーリエ変換（ＦＦＴ）により周波数特性を求める。ここで、接続用音声素片Ａ，Ｂに対し各分析窓で切り出された接続用音声波形ｘ_Ａｌ（ｎ），ｘ_Ｂｌ（ｎ）、（ｎ＝１〜Ｎ，ｌ＝１〜４）に対応する周波数特性を、Ｘ_Ａｌ（ｋ），Ｘ_Ｂｌ（ｋ）、（ｋ＝１〜Ｋ，ｌ＝１〜４）で表す。Ｋは、ＦＦＴのポイント数を表す。

スペクトル包絡算出部１８は、音声波形切り出し部１５により切り出された分析窓毎の接続用音声波形を入力し、分析窓毎（接続用音声波形毎）のスペクトル包絡を算出する。算出されたスペクトル包絡は、スペクトル包絡補正部２０に出力される。具体的には、スペクトル包絡算出部１８は、入力した接続用音声波形にプリエンファシスを施し、分析窓としてハミング窓を用いた後、線形予測分析にて算出した線形予測係数からスペクトル包絡を求める。例えば、線形予測分析の次数ｐは１２を用いる。線形予測係数から、数式（２）に示すように、全極型音声生成システム関数としてＬＰＣパワースペクトルを求め、これをスペクトル包絡として扱う。ここで、接続用音声波形ｘ_Ａｌ（ｎ），ｘ_Ｂｌ（ｎ）、（ｎ＝１〜Ｎ，ｌ＝１〜４）に対応する線形予測係数を、それぞれａ_Ａｌ（ｉ），ａ_Ｂｌ（ｉ）、（ｉ＝１〜ｐ，ｌ＝１〜４）で表し、スペクトル包絡をＨ_Ａｌ（ｋ），Ｈ_Ｂｌ（ｋ）、（ｋ＝１〜Ｋ，ｌ＝１〜４）で表す。

スペクトル包絡算出部１９は、音声波形切り出し部１６により切り出された分析窓毎の補正用音声波形を入力し、スペクトル包絡算出部１８と同様に、分析窓毎（補正用音声波形毎）のスペクトル包絡を算出する。算出されたスペクトル包絡は、スペクトル包絡補正部２０に出力される。ここで、補正用音声波形ｘ_Ｃｌ（ｎ）、（ｎ＝１〜Ｎ，ｌ＝１〜５）に対応する線形予測係数をａ_Ｃｍ（ｉ＝１〜ｐ，ｍ＝１〜５）で表し、スペクトル包絡をＨ_Ｃｍ（ｋ）、（ｋ＝１〜Ｋ，ｍ＝１〜５）で表す。ＫはＦＦＴのポイント数を表す。

スペクトル包絡補正部２０は、周波数特性算出部１７により算出された接続用音声波形の周波数特性（分析窓毎（接続用音声波形毎）の周波数特性）、スペクトル包絡算出部１８により算出された接続用音声波形のスペクトル包絡（分析窓毎（接続用音声波形毎）のスペクトル包絡）、及び、スペクトル包絡算出部１９により算出された補正用音声波形のスペクトル包絡（分析窓毎（補正用音声波形毎）のスペクトル包絡）をそれぞれ入力する。そして、接続用音声波形の周波数特性及びスペクトル包絡と、補正用音声波形のスペクトル包絡とを用いて、接続用音声波形の周波数特性を補正する。この場合、接続用音声波形のスペクトル包絡が補正されたことになる。ここで、接続用音声波形の周波数特性Ｘ_Ａｌ（ｋ），Ｘ_Ｂｌ（ｋ）、（ｋ＝１〜Ｋ，ｌ＝１〜４）に対応する補正された周波数特性を、それぞれＸ’_Ａｌ（ｋ），Ｘ’_Ｂｌ（ｋ）、（ｋ＝１〜Ｋ，ｌ＝１〜４）で表す。

音声波形算出部２１は、スペクトル包絡補正部２０により補正された分析窓毎（接続用音声波形毎）の周波数特性を入力し、分析窓毎（接続用音声波形毎）の音声波形を算出する。算出された音声波形は、音声波形重複加算部２２に出力される。具体的には、音声波形算出部２１は、入力した周波数特性に対し、高速フーリエ変換（ＦＦＴ）の逆変換を用いて音声波形を求める。ここで、補正されたＸ’_Ａｌ（ｋ），Ｘ’_Ｂｌ（ｋ）、（ｋ＝１〜Ｋ，ｌ＝１〜４）に対応する音声波形を、それぞれｘ’_Ａｌ（ｎ），ｘ’_Ｂｌ（ｎ）、（ｎ＝１〜Ｎ，ｌ＝１〜４）で表す。

音声波形重複加算部２２は、音声波形算出部２１により算出された分析窓毎（接続用音声波形毎）の音声波形、及び、音声波形切り出し部１５により切り出された接続用音声素片Ａ，Ｂをそれぞれ入力し、接続点前後の対応する部分において円滑に移行するように、窓関数を乗じて重複加算して接続し、接続部が補正された接続用音声素片Ａ’，Ｂ’を生成する。生成された接続用音声素片Ａ’，Ｂ’は、音声素片接続部２３に出力される。

具体的には、音声波形重複加算部２２は、音声波形算出部２１により算出された音声波形（スペクトル包絡が補正された接続用音声波形）に対し、それぞれ周波数特性算出部１７において乗じたハミング窓を除算し、ハニング窓を乗算する。これにより、補正された接続用音声波形Ａ１’〜Ａ４’，Ｂ１’〜Ｂ４’を得ることができる。尚、スペクトル包絡算出部１８，１９において乗じたハミング窓については、スペクトル包絡補正部２０におけるスペクトル包絡どうしの除算にて相殺されている。一方、音声波形重複加算部２２は、接続用音声素片Ａ，Ｂに対し、補正された接続用音声波形Ａ１’〜Ａ４’，Ｂ１’〜Ｂ４’との接続部分に窓関数を乗算し、重複加算により対応する部分に、補正された接続用音声波形Ａ１’〜Ａ４’，Ｂ１’〜Ｂ４’を埋め込む。これにより、接続部が補正された接続用音声素片Ａ’，Ｂ’を得ることができる。

図８は、音声波形重複加算部２２による重複加算処理を説明する図である。図８を参照して、音声波形重複加算部２２は、接続用音声素片Ａとスペクトル包絡が補正された接続用音声波形Ａ１’〜Ａ４’との間で重複加算を行い、接続用音声素片Ａの対応する部分に接続用音声波形Ａ１’〜Ａ４’を埋め込み、接続部が補正された接続用音声素片Ａ’を生成する。同様に、音声波形重複加算部２２は、接続用音声素片Ｂとスペクトル包絡が補正された接続用音声波形Ｂ１’〜Ｂ４’との間で重複加算を行い、接続用音声素片Ｂの対応する部分に接続用音声波形Ｂ１’〜Ｂ４’を埋め込み、接続部が補正された接続用音声素片Ｂ’を生成する。

音声素片接続部２３は、音声波形重複加算部２２により重複加算されて接続部が補正された接続用音声素片Ａ’，Ｂ’を入力し、音声素片接続区間にそれぞれ窓関数を乗算し、重複加算により接続用音声素片Ａ’と接続用音声素片Ｂ’とを接続し、合成音声として出力する。

図９は、音声素片接続部２３による重複加算処理を説明する図である。図９を参照して、音声素片接続部２３は、入力した接続用音声素片Ａ’，Ｂ’の音声素片接続区間について、窓関数を乗算して重複加算により接続する。これにより、接続用音声素片Ａ’，Ｂ’が接続された合成音声を得ることができる。

このように、音声素片接続装置１は、図１に示した一連の処理を接続点情報毎に繰り返して行い、全ての接続点情報の処理が終了するまで、接続点における音声素片を接続することにより、接続部分の音韻が補正された合成音声を得ることができる。

以上のように、本発明による実施例１の音声素片接続装置１によれば、音声素片接続点抽出部１１が、音声素片接続情報から、音声素片が接続される接続点情報を抽出し、接続点音素環境検索部１２が、音声合成用データベース１０から各接続点における理想的な音素環境を持つ音声素片を検索して補正用音素環境候補情報を生成し、補正用音素環境決定部１４が、補正用音素環境候補毎の適合コストのうちの最も適合コストの小さい補正用音素環境候補を決定し、音声波形切り出し部１５が、接続点情報から接続用音声素片Ａ，Ｂ及び分析窓毎（接続点付近の分析窓毎）の接続用音声波形を切り出し、スペクトル包絡補正部２０が、分析窓毎の周波数特性を、そのスペクトル包絡と補正用音素環境情報の補正用音声波形におけるスペクトル包絡とを用いて補正し、音声波形算出部２１が、補正された周波数特性を用いて分析窓毎の音声波形を算出し、音声波形重複加算部２２が、補正された周波数特性による分析窓毎の音声波形と、切り出された接続用音声素片Ａ，Ｂとを用いて、接続部が補正された接続用音声素片Ａ’，Ｂ’を生成し、音声素片接続部２３が、接続用音声素片Ａ’，Ｂ’を合成するようにした。すなわち、音声素片接続装置１は、入力テキストデータ内の音声素片どうしを接続する際に、２つの音声素片の接続点付近の周波数特性を、そのスペクトル包絡と、入力テキストデータに適合した音素環境のスペクトル包絡とを用いて補正し、補正した周波数特性の音声素片に対して、窓関数を乗じて重複加算することにより接続するようにした。これにより、その接続部において、音韻の異聴感を減ずることができる。つまり、聴感上自然な音韻となる音声合成を実現することが可能となる。

また、本発明による実施例１の音声素片接続装置１によれば、音素環境適合度算出部１３が、音声合成用データベース１０から、接続に用いる音声素片及び補正用音素環境候補の音声素片における音響特徴量を読み出し、数式（１）を用いて補正用音素環境候補毎に適合コストを算出し、補正用音素環境決定部１４が、補正用音素環境候補毎の適合コストのうち最も適合コストの小さい補正用音素環境候補を決定するようにした。ここで、適合コストは、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離により算出される。これにより、複数の補正用音素環境候補の中から、最適な補正用音素環境を決定することができる。

〔実施例２〕
図１０は、本発明の実施例２による音声素片接続装置の構成及び処理の流れを示す図である。この音声素片接続装置２は、音声素片接続装置１と同様に、テキストデータを入力し、テキストデータに基づいて音声素片接続情報を生成し、入力したテキストデータに対する合成音声情報を生成して出力する装置である。音声素片接続装置１は、音声合成用データベース１０、音声素片接続点抽出部１１、接続点音素環境検索部１２、音素環境適合度算出部１３、補正用音素環境決定部１４、音声波形切り出し部１５，１６、周波数特性算出部１７、スペクトル包絡算出部１８，１９、スペクトル包絡補正部２０、音声波形算出部２１、音声波形重複加算部２２、音声素片接続部２３、接続コスト算出部３１及び補正適用部分決定部３２を備えている。

図１に示した実施例１の音声素片接続装置１と図１０に示す実施例２の音声素片接続装置２とを比較すると、両装置とも、音声合成用データベース１０、音声素片接続点抽出部１１、接続点音素環境検索部１２、音素環境適合度算出部１３、補正用音素環境決定部１４、音声波形切り出し部１５，１６、周波数特性算出部１７、スペクトル包絡算出部１８，１９、スペクトル包絡補正部２０、音声波形算出部２１、音声波形重複加算部２２及び音声素片接続部２３を備えている点で同一である。これに対し、音声素片接続装置２は、音声素片接続装置１の各構成要素に加えて、接続コスト算出部３１及び補正適用部分決定部３２を備えている点で相違する。以下、音声素片接続装置１，２の共通部分については説明を省略する。

音声素片接続点抽出部１１により抽出された接続点情報は、接続コスト算出部３１及び補正適用部分決定部３２に出力される。

接続コスト算出部３１は、音声素片接続点抽出部１１により抽出された接続点情報を入力し、音声合成用データベース１０から、接続に用いる音声素片における音響特徴量を読み出し、距離を求める。具体的には、接続コスト算出部３１は、音声合成用データベース１０から図４に示すような音響特徴量情報、すなわち、接続に用いる先行音声素片Ａの終点及び後続音声素片Ｂの始点それぞれにおけるスペクトル情報Ｓ及びピッチ周波数ｆを読み出す。接続コスト算出部３１は、これらの情報を用いて、次式で定義する先行音声素片Ａと後続音声素片Ｂとの間の接続コストＣ_ｃ（Ａ，Ｂ）を算出する。

ここで、ｆ^ｅ _Ａ，Ｓ^ｅ _Ａ（ｉ）は、それぞれ先行音声素片Ａの終点におけるピッチ周波数及びスペクトル情報であり、ｆ^ｅ _Ｂ，Ｓ^ｅ _Ｂ（ｉ）は、それぞれ後続音声素片Ｂの始点におけるピッチ周波数及びスペクトル情報である。また、Ｉはスペクトル情報の総次元数、ｗ_３，ｗ_４は正の重みである。また、数式（５）において、その第１項は先行音声素片Ａと後続音声素片Ｂとの間のピッチ周波数の距離、第２項はスペクトル情報の距離を表す。

補正適用部分決定部３２は、音声素片接続点抽出部１１により抽出された接続点情報、及び、接続コスト算出部３１により算出された接続コストをそれぞれ入力し、各接続点における接続コストと、予め設定された閾値とを比較し、接続コストが閾値を超える場合は補正適用フラグを１に設定し、それ以外の場合は０に設定する。尚、補正適用フラグは接続点情報に含めるものとする。

以下、補正適用フラグが１に設定されている場合は、実施例１と同様に、その接続点について、接続点音素環境検索部１２、音素環境適合度算出部１３、補正用音素環境決定部１４、音声波形切り出し部１６、スペクトル包絡算出部１９及びスペクトル包絡補正部２０による処理が行われる。一方、補正適用フラグが０に設定されている場合は、前述した接続点音素環境検索部１２等による処理は行われない。

すなわち、接続点音素環境検索部１２は、図示しない音素接続情報生成部により生成された音声素片接続情報を入力すると共に、補正適用部分決定部３２から補正適用フラグを含む接続点情報を入力し、補正適用フラグが１に設定されている場合に、実施例１と同様に接続点音素環境検索の処理を行い、補正用音素環境候補情報を生成して出力する。一方、補正適用フラグが０に設定されている場合に、接続点音素環境検索の処理を行わず、補正用音素環境候補情報を生成しない。この場合、音素環境適合度算出部１３、補正用音素環境決定部１４、音声波形切り出し部１６及びスペクトル包絡算出部１９も処理を行わない。つまり、スペクトル包絡算出部１９は、スペクトル包絡を算出する処理を行わず、スペクトル包絡を出力しない。

同様に、接続点情報に含まれる補正適用フラグが０に設定されている場合に、周波数特性算出部１７及びスペクトル包絡算出部１８も処理を行わず、スペクトル包絡補正部２０は、スペクトル包絡算出部１９からスペクトル包絡を入力しないから、スペクトル包絡補正の処理を行わない。この場合、音声波形算出部２１及び音声波形重複加算部２２も処理を行わない。つまり、接続点情報に含まれる補正適用フラグが０に設定されている場合には、音声素片接続部２３は、音声波形切り出し部１５から出力された接続用音声素片を接続して出力する。

このように、音声素片接続装置２は、図１０に示した一連の処理を、接続コストに基づいて補正適用部分を決定しながら接続点情報毎に繰り返して行い、全ての接続点情報の処理が終了するまで、接続点における音声素片を接続することにより、接続部分の音韻が補正された合成音声を得ることができる。

以上のように、本発明による実施例２の音声素片接続装置２によれば、接続コスト算出部３１が、音声合成用データベース１０から、接続に用いる音声素片における音響特徴量を読み出し、数式（５）を用いて接続点情報毎に接続コストを算出し、補正適用部分決定部３２が、接続点情報毎の接続コストのうち所定の閾値を超えない接続点情報を決定し、これにより決定された接続点については、ペクトル包絡補正部２０においてスペクトル包絡補正の処理を行わないようにした。すなわち、音声素片接続装置２は、入力テキストデータ内の音声素片どうしを接続する際に、接続点のうち補正を行う接続点を決定し、決定した接続点に対してのみ、２つの音声素片の接続点付近の周波数特性を、そのスペクトル包絡と、入力テキストデータに適合した音素環境のスペクトル包絡とを用いて補正するようにした。そして、補正を行う接続点については、補正した周波数特性の音声素片に対して、窓関数を乗じて重複加算することにより接続し、補正を行わない接続点については、音声素片接続部分に対して、窓関数を乗じて重複加算することにより接続するようにした。これにより、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現することが可能となると共に、補正を行う接続点を限定するようにしたから、接続処理時間を短縮することが可能となる。

また、本発明による実施例２の音声素片接続装置２によれば、接続コスト算出部３１により算出される接続コストは、先行音声素片Ａと後続音声素片Ｂとの間のピッチ周波数の距離、及びスペクトル情報の距離によるものである。これにより、複数の接続点情報の中から補正を行うべき接続点情報を、的確に決定することができる。

尚、音声素片接続装置１，２は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声素片接続装置１，２に備えた音声素片接続点抽出部１１等の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもできる。

以上、実施例を挙げて本発明を説明したが、本発明は前記実施例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施例１では、音素環境適合度算出部１３は、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離の３つのパラメータにより適合コストを算出するようにしたが、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離のうちの１つのパラメータにより適合コストを算出するようにしてもよいし、２つのパラメータにより適合コストを算出するようにしてもよい。

また、前記実施例２では、接続コスト算出部３１は、先行音声素片Ａと後続音声素片Ｂとの間のピッチ周波数の距離、及びスペクトル情報の距離の２つのパラメータにより接続コストを算出するようにしたが、いずれかの１つのパラメータにより接続コストを算出するようにしてもよい。

本発明の実施例１による音声素片接続装置の構成及び処理の流れを示すブロック図である。音声素片接続情報の例を示す図である。音声合成用データベースに含まれる音素区切り情報の例を示す図である。音声合成用データベースに含まれる、音素の音響特徴量情報の例を示す図である。音素環境適合度算出部による適合コストの算出処理を説明する図である。音声波形切り出し部による接続用音声素片及び接続用音声波形の切り出し処理を説明する図である。音声波形切り出し部による補正用音声波形の切り出し処理を説明する図である。音声波形重複加算部による重複加算処理を説明する図である。音声素片接続部による重複加算処理を説明する図である。本発明の実施例２による音声素片接続装置の構成及び処理の流れを示すブロック図である。

符号の説明

１，２音声素片接続装置
１０音声合成用データベース
１１音声素片接続点抽出部
１２接続点音素環境検索部
１３音素環境適合度算出部
１４補正用音素環境決定部
１５，１６音声波形切り出し部
１７周波数特性算出部
１８，１９スペクトル包絡算出部
２０スペクトル包絡補正部
２１音声波形算出部
２２音声波形重複加算部
２３音声素片接続部
３１接続コスト算出部
３２補正適用部分決定部

Claims

音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる２つの音声素片を接続して音声合成を行う音声素片接続装置において、
予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースと、
前記音声素片接続情報から、音声合成される２つの音声素片間の接続点情報を抽出する音声素片接続点抽出部と、
少なくとも前記接続点情報における２つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する接続点音素環境検索部と、
前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における２つの音声素片との間の適合度合いを示す適合コストを算出する音素環境適合度算出部と、
前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する補正用音素環境決定部と、
前記音声合成用データベースを用いて、前記接続点情報における２つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における２つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記２つの音声素片の補正用音声波形を切り出す音声波形切り出し部と、
前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する周波数特性算出部と、
前記接続点情報における２つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する第１のスペクトル包絡算出部と、
前記補正用音素環境に含まれる前記２つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する第２のスペクトル包絡算出部と、
前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正するスペクトル包絡補正部と、
前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における２つの音声素片間の接続点付近の音声波形を算出する音声波形算出部と、
前記音声波形切り出し部により切り出された２つの接続用音声素片に対し、前記音声波形算出部により算出された、接続点情報における２つの音声素片間の接続点付近の音声波形を重複加算し、新たな２つの接続用音声素片を算出する音声波形重複加算部と、
前記新たな２つの接続用音声素片を接続する音声素片接続部と、
を備えたことを特徴とする音声素片接続装置。
請求項１に記載の音声素片接続装置において、
前記音素環境適合度算出部は、前記補正用音素環境候補の音響特徴量情報、及び前記接続点情報における２つの音声素片の音響特徴量情報をそれぞれ前記音声合成用データベースから読み出し、前記補正用音素環境候補毎に、前記接続点情報における２つの音声素片との間の適合コストを算出することを特徴とする音声素片接続装置。
請求項２に記載の音声素片接続装置において、
前記音響特徴量情報は、音素数、ピッチ周波数及びスペクトル情報の３つのパラメータのうちの少なくとも１つ以上のパラメータを用いて、前記補正用音素環境候補毎に、前記接続点情報における２つの音声素片との間の適合コストを算出することを特徴とする音声素片接続装置。
請求項１から３までのいずれか一項に記載の音声素片接続装置において、
前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出する接続コスト算出部と、
前記接続点情報毎の接続コストに基づいて、前記スペクトル包絡補正部における補正処理が不要となる接続点情報を決定する補正適用部分決定部と、を備え、
前記音声素片接続部は、前記補正処理が不要であると決定した接続点情報に対し、前記音声波形切り出し部により切り出された２つの接続用音声素片を接続することを特徴とする音声素片接続装置。
請求項４に記載の音声素片接続装置において、
前記接続コスト算出部は、前記接続点情報における２つの音声素片の音響特徴量情報を前記音声合成用データベースから読み出し、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする音声素片接続装置。
請求項５に記載の音声素片接続装置において、
前記音響特徴量情報は、ピッチ周波数及びスペクトル情報の２つのパラメータのうちの少なくとも１つ以上のパラメータを用いて、前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする音声素片接続装置。
予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースを備え、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる２つの音声素片を接続して音声合成を行う音声素片接続装置にかかわるプログラムであって、前記音声素片接続装置を構成するコンピュータに、
前記音声素片接続情報から、音声合成される２つの音声素片間の接続点情報を抽出する処理と、
少なくとも前記接続点情報における２つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する処理と、
前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における２つの音声素片との間の適合度合いを示す適合コストを算出する処理と、
前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する処理と、
前記音声合成用データベースを用いて、前記接続点情報における２つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における２つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記２つの音声素片の補正用音声波形を切り出す処理と、
前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する処理と、
前記接続点情報における２つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する処理と、
前記補正用音素環境に含まれる前記２つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する処理と、
前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正する処理と、
前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における２つの音声素片間の接続点付近の音声波形を算出する処理と、
前記２つの接続用音声素片に対し、前記接続点情報における２つの音声素片間の接続点付近の音声波形を重複加算し、新たな２つの接続用音声素片を算出する処理と、
前記新たな２つの接続用音声素片を接続する処理と、
を実行させる音声素片接続プログラム。
請求項７に記載の音声素片接続プログラムにおいて、
前記接続点情報毎に、接続点情報における２つの音声素片間の接続度合いを示す接続コストを算出する処理と、
前記接続点情報毎の接続コストに基づいて、前記接続点情報における２つの音声素片間の接続点付近についての周波数特性を補正する処理が不要となる接続点情報を決定する処理と、を実行させ、
前記補正処理が不要であると決定した接続点情報に対して、
前記新たな２つの接続用音声素片を接続する処理の代わりに、前記音声波形切り出し部により切り出された２つの接続用音声素片を接続する処理を実行させる音声素片接続プログラム。