[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2009237015A - 音声素片接続装置及びプログラム - Google Patents

音声素片接続装置及びプログラム Download PDF

Info

Publication number
JP2009237015A
JP2009237015A JP2008079930A JP2008079930A JP2009237015A JP 2009237015 A JP2009237015 A JP 2009237015A JP 2008079930 A JP2008079930 A JP 2008079930A JP 2008079930 A JP2008079930 A JP 2008079930A JP 2009237015 A JP2009237015 A JP 2009237015A
Authority
JP
Japan
Prior art keywords
speech
connection
unit
connection point
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008079930A
Other languages
English (en)
Inventor
Toru Tsugi
徹 都木
Hiroyuki Segi
寛之 世木
Reiko Tako
礼子 田高
Nobumasa Seiyama
信正 清山
Hiroyuki Hamada
浩行 浜田
Yukio Iwahana
幸男 岩鼻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008079930A priority Critical patent/JP2009237015A/ja
Publication of JP2009237015A publication Critical patent/JP2009237015A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現する。
【解決手段】音声素片接続装置1は、音声素片どうしを接続する際に、周波数特性算出部17が、接続する音声素片間における接続部分の周波数特性を算出し、スペクトル包絡算出部18が、そのスペクトル包絡を算出し、スペクトル包絡算出部19が、接続する音声素片に適合した音素環境のスペクトル包絡を算出する。そして、スペクトル包絡補正部20が、接続部分の周波数特性をスペクトル包絡によって補正する。音声波形重複加算部22は、接続する音声素片に対し、スペクトル包絡補正部20により補正された周波数特性を重複加算し、音声素片接続部23が音声波形重複加算部22により得られた音声素片どうしを接続する。
【選択図】図1

Description

本発明は、入力されたテキストデータに基づいて、予め録音及び構築した音声データベースに蓄積された音声素片データを接続する音声素片接続装置及びプログラムに関する。
従来、音声合成装置として、自然発話の音声波形データのセグメントを連結することにより、任意の音声素片列を合成するものが知られている(例えば、特許文献1を参照)。この音声合成装置は、音声素片の発声時間を記録した音声合成用データベースを備えており、入力された文章(テキストデータ)を音素列に分解した後、音素単位で音声合成用データベースを探索し、韻律コスト及び連結コストの和が最小となる音素列の音声素片を接続して音声合成を行うものである。また、良好な音質を確保するために、音素単独ではなく、先行音素及び後続音素のうちのいずれかの音素(ダイフォン)、または両音素(トライフォン)の音素環境を考慮した単位や、さらに長い可変長の音素列を単位とした音声素片を使用することにより音声合成を行う。
しかし、前述した特許文献1の音声合成装置では、トライフォンや可変長の音素列を考慮すると、その組み合わせは膨大な数(例えば、音素数を42とすると、トライフォンでは42)となる。また、音素単位のピッチ(周波数)、パワー(振幅)、時間長等の多様性も考慮すると、音声合成用データベースの規模を非常に大きくしなければならず、大規模な記録容量が必要なことに加えて、音声合成用データベースの探索の仕方を工夫しなければ、音声合成の処理速度を向上させることができないという問題があり、現実的ではなかった。
一方、前述した特許文献1の音声合成装置による方法を、現実的な音声合成用データベースの規模で実現した場合には、音素の多様性を確保することが困難となるという問題があった。
そこで、理想的なピッチ、パワー、時間長及び音素環境の音素が存在しない部分を、音素環境が異なる音素で代用する方法が用いられている。例えば、トライフォンを用いる場合、同じ音素に対して先行音素または後続音素が異なるものを、有声、無声、摩擦、破裂等の予め用意した分類条件に基づいてクラスタリングを行い、同一のクラスタに分類されたトライフォンを相互活用することにより、個々のトライフォンの多様性不足をカバーすることができる(例えば、特許文献2を参照)。しかし、特許文献2の音声合成装置では、音素環境が異なる音素を代用しているため、音声素片接続部において不自然な音質になる場合がある。
一方、接続する2つの原音声の周波数特性や基本周波数が異なっていても、不連続感を知覚させない音声接続を実現する音声接続装置が知られている(例えば、特許文献3を参照)。
従来の音声接続装置は、音声信号の接続部分において単純に波形を接続したり、接続部分に窓関数を乗じて重複加算したりすることから、音声に不連続感が知覚され音質が劣化するという問題があった。特許文献3の音声接続装置はこの問題を解決するものである。すなわち、音声接続区間において、有声ではピッチ波形単位で、無声では一定時間単位で、接続する2つの信号をモデル化してパラメータ推定を行うと共に対応付けを行い、先行する音声から後続する音声へ漸次的に変化するようにパラメータを変化させ、そのパラメータによって合成した音声波形を接続するものである。
特許第3050832号公報 特開2004−139033号公報 特開2004−102118号公報
前述したように、特許文献2の音声合成装置では、現実的なデータベース規模で、適切に選んだトライフォンや可変長の音素列を音素として接続し音声を合成する場合に、クラスタリングされたトライフォン等を利用する。このため、本来目標としている音素環境とは異なる環境の音素が利用されることにより、接続部において異なる音韻に聞こえる場合がある。
一方、音声素片どうしの接続部において、先行音素の終点の部分と後続音素の始点の部分に窓関数を乗じて重複加算することにより、音声波形を時間領域で円滑に変化するように接続したとしても、周波数領域では円滑に変化するように接続されるわけではない。このため、不連続感を生じる場合がある。
この問題を解決するために、特許文献3の音声接続装置では、モデルで推定したパラメータを用いて音声波形を合成することにより音声素片どうしを接続する。これにより、接続部における不連続感を減じることができるが、本来目標としている音素環境とは異なる音素を利用しているため、接続部において異なる音韻に聞こえることに変わりはない。
このように、現実的なデータベース規模でクラスタリングされたトライフォン等を利用して波形接続を行い音声合成する場合に、これまで、接続部において異なる音韻に聞こえるという問題を確実に解決することができなかった。
そこで、これらの問題を鑑み、本発明の目的は、音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現可能な音声素片接続装置及びプログラムを提供することにある。
このような課題を解決するために、請求項1の発明は、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる2つの音声素片を接続して音声合成を行う音声素片接続装置において、予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースと、前記音声素片接続情報から、音声合成される2つの音声素片間の接続点情報を抽出する音声素片接続点抽出部と、少なくとも前記接続点情報における2つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する接続点音素環境検索部と、前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における2つの音声素片との間の適合度合いを示す適合コストを算出する音素環境適合度算出部と、前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する補正用音素環境決定部と、前記音声合成用データベースを用いて、前記接続点情報における2つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における2つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記2つの音声素片の補正用音声波形を切り出す音声波形切り出し部と、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する周波数特性算出部と、前記接続点情報における2つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する第1のスペクトル包絡算出部と、前記補正用音素環境に含まれる前記2つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する第2のスペクトル包絡算出部と、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正するスペクトル包絡補正部と、前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における2つの音声素片間の接続点付近の音声波形を算出する音声波形算出部と、前記音声波形切り出し部により切り出された2つの接続用音声素片に対し、前記音声波形算出部により算出された、接続点情報における2つの音声素片間の接続点付近の音声波形を重複加算し、新たな2つの接続用音声素片を算出する音声波形重複加算部と、前記新たな2つの接続用音声素片を接続する音声素片接続部と、を備えたことを特徴とする。
また、請求項2の発明は、請求項1に記載の音声素片接続装置において、前記音素環境適合度算出部が、前記補正用音素環境候補の音響特徴量情報、及び前記接続点情報における2つの音声素片の音響特徴量情報をそれぞれ前記音声合成用データベースから読み出し、前記補正用音素環境候補毎に、前記接続点情報における2つの音声素片との間の適合コストを算出することを特徴とする。
また、請求項3の発明は、請求項2に記載の音声素片接続装置において、前記音響特徴量情報が、音素数、ピッチ周波数及びスペクトル情報の3つのパラメータのうちの少なくとも1つ以上のパラメータを用いて、前記補正用音素環境候補毎に、前記接続点情報における2つの音声素片との間の適合コストを算出することを特徴とする。
また、請求項4の発明は、請求項1から3までのいずれか一項に記載の音声素片接続装置において、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出する接続コスト算出部と、前記接続点情報毎の接続コストに基づいて、前記スペクトル包絡補正部における補正処理が不要となる接続点情報を決定する補正適用部分決定部と、を備え、前記音声素片接続部が、前記補正処理が不要であると決定した接続点情報に対し、前記音声波形切り出し部により切り出された2つの接続用音声素片を接続することを特徴とする。
また、請求項5の発明は、請求項4に記載の音声素片接続装置において、前記接続コスト算出部が、前記接続点情報における2つの音声素片の音響特徴量情報を前記音声合成用データベースから読み出し、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする。
また、請求項6の発明は、請求項5に記載の音声素片接続装置において、前記音響特徴量情報は、ピッチ周波数及びスペクトル情報の2つのパラメータのうちの少なくとも1つ以上のパラメータを用いて、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする。
また、請求項7の発明は、予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースを備え、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる2つの音声素片を接続して音声合成を行う音声素片接続装置にかかわるプログラムであって、前記音声素片接続装置を構成するコンピュータに、前記音声素片接続情報から、音声合成される2つの音声素片間の接続点情報を抽出する処理と、少なくとも前記接続点情報における2つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する処理と、前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における2つの音声素片との間の適合度合いを示す適合コストを算出する処理と、前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する処理と、前記音声合成用データベースを用いて、前記接続点情報における2つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における2つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記2つの音声素片の補正用音声波形を切り出す処理と、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する処理と、前記接続点情報における2つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する処理と、前記補正用音素環境に含まれる前記2つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する処理と、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正する処理と、前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における2つの音声素片間の接続点付近の音声波形を算出する処理と、前記2つの接続用音声素片に対し、前記接続点情報における2つの音声素片間の接続点付近の音声波形を重複加算し、新たな2つの接続用音声素片を算出する処理と、前記新たな2つの接続用音声素片を接続する処理と、を実行させることを特徴とする。
また、請求項8の発明は、請求項7に記載の音声素片接続プログラムにおいて、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出する処理と、前記接続点情報毎の接続コストに基づいて、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を補正する処理が不要となる接続点情報を決定する処理と、を実行させ、前記補正処理が不要であると決定した接続点情報に対して、前記接続用音声波形及び補正された周波数特性を用いて、前記新たな2つの接続用音声素片を接続する処理の代わりに、前記音声波形切り出し部により切り出された2つの接続用音声素片を接続する処理を実行させることを特徴とする。
以上のように、本発明によれば、音声素片データを接続する際に、その接続部において、音韻の異聴感を減ずることができる。つまり、聴感上自然な音韻となる音声合成を実現することが可能となる。
以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔実施例1〕
図1は、本発明の実施例1による音声素片接続装置の構成及び処理の流れを示す図である。この音声素片接続装置1は、テキストデータを入力し、テキストデータに基づいて音声素片接続情報を生成し、入力したテキストデータに対する合成音声情報を生成して出力する装置である。音声素片接続装置1は、音声合成用データベース10、音声素片接続点抽出部11、接続点音素環境検索部12、音素環境適合度算出部13、補正用音素環境決定部14、音声波形切り出し部15,16、周波数特性算出部17、スペクトル包絡算出部18,19、スペクトル包絡補正部20、音声波形算出部21、音声波形重複加算部22及び音声素片接続部23を備えている。尚、音声合成されるべきテキストデータを入力し、テキストデータを音声素片に分解し、音声素片接続情報を生成する音素接続情報生成部は省略してある。音声素片接続情報を生成する手法は既知の技術であるから、ここでは説明を省略する。詳細については、前述した特許文献2を参照されたい。
音声合成用データベース10には、サンプリング周波数16kHz、量子化ビット数16ビットでAD変換された音声波形データが、ファイル番号毎に格納されているものとする。また、図3に示す音素区切り情報、及び、図4に示す音響特徴量情報も格納されているものとする。図3及び図4の詳細については後述する。すなわち、音声合成用データベース10は、ファイル番号毎の音声波形データ、音素区切り情報、音響特徴量情報等により構成される。
音声素片接続点抽出部11は、図示しない音素接続情報生成部により生成された音声素片接続情報を入力し、音声素片間の接続点情報を抽出する。具体的には、テキストデータに対応する音声素片情報の並びにおいて、音声素片情報を構成するファイル番号が連続していない切り替わり箇所を特定し、その切り替わり箇所における直前の音声素片情報と、切り替わり箇所における直後の音声素片情報との組み合わせを接続点情報として抽出する。
図2は、音声素片接続情報の例を示す図である。音声素片接続情報とは、音素接続情報生成部が、音声合成されるべきテキストデータを音声素片に分解し、音声合成用データベース10を参照して生成したものである。図2に示すように、各行が音声素片情報であり、音声素片接続情報は、テキストデータに対応した複数の音声素片情報から構成される。具体的には、各行の音声素片情報において、その音声素片の音響特徴量情報が格納されている番号を示すラベル、その音声素片を含む音声波形データが格納されている番号を示すファイル番号、音声波形データにおいてその音声素片が格納されている始点位置(始点)、終点位置(終点)、及び、その音声素片の音量倍率により構成される。以下、各行の音声素片情報を音声素片接続情報として説明する。
図2の例では、音声素片接続点抽出部11は、1行目及び2行目の音声素片接続情報のファイル番号が「712」であり、3行目から5行目までの音声素片接続情報のファイル番号が「140」であるから、第1番目の切り替わり箇所として2行目及び3行目を特定し、以下のように、第1番目の接続点情報を抽出する。第2番目以降の接続点情報の抽出についても同様である。
ry-o+f(47) 712 4896 8787 1.23 ・・・(1)
b-h+sh(42) 140 101805 107424 0.78 ・・・(2)
ここで、異なるファイル番号となっているその前後の音声素片は、異なる環境によって生成されたものであるから、これらの2つの音声素片を単に接続しても、接続点で音韻の異聴感が生じてしまう。従って、音声素片接続装置1は、この接続点の音声を、以下に説明するように補正する。
接続点音素環境検索部12は、図示しない音素接続情報生成部により生成された音声素片接続情報、及び、音声素片接続点抽出部11により抽出された接続点情報をそれぞれ入力し、音声合成用データベース10から、各接続点(接続点情報の示す2つの音声素片)における理想的な音素環境を持つ音声素片を検索し、補正用音素環境候補情報を生成する。
例えば、接続点音素環境検索部12は、図2に示した音声素片接続情報における第1番目の接続点については、以下のように、接続点(1)(2)前後の2つの音声素片情報(0)(3)も含めた音声素片接続情報を生成する。
Q-sil+u:(33) 712 0 4896 1.23 ・・・(0)
ry-o+f(47) 712 4896 8787 1.23 ・・・(1)
b-h+sh(42) 140 101805 107424 0.78 ・・・(2)
h-a+ny(62) 140 107424 109728 0.78 ・・・(3)
接続点音素環境検索部12は、合計4つの音声素片(0)〜(3)が適合するsil-oh+a、前の3つの音声素片(0)〜(2)のみ適合するsil-oh+?(すなわち3音素sil-o+hと等価)、後ろの3つの音声素片(1)〜(3)のみ適合する?-oh+a(すなわち3音素o-h+aと等価)、接続点である2つの音声素片(1)(2)のみ適合する?-o+h、o-h+?を構成する。そして、接続点音素環境検索部12は、音声合成用データベース10を構成する音素区切り情報(音声波形データに対応する音素表記を記述したテキスト情報、図3を参照)から、これらを含む音声素片を検索し、検索結果を適合音素数が長いものから順に補正用音素環境候補情報として生成する。
図3は、音声合成用データベース10に含まれる音素区切り情報の例を示す図である。この音素区切り情報は、ファイル番号毎の情報であり、音声波形データを音素に区切った場合における個々の音素が格納されている始点(音声波形データにおいてその音素が格納されている始点位置)、終点(音声波形データにおいてその音素が格納されている終点位置)及びラベルから構成される。このように、接続点音素環境検索部12は、図3に示した音声合成用データベース10に含まれる音素区切り情報から、接続点前後の2つの音声素片情報も含めた音声素片接続情報(0)〜(3)における4音素、前3音素、後3音素及び2音素のいずれかを含む音声素片を検索し、補正用音素環境候補情報を生成する。ここでは、候補数J個の補正用音素環境候補情報を生成するものとする。尚、補正用音素環境候補情報は、以下に示す例のように、音素ラベル、適合した音素数、ファイル番号、接続点と適合した音素境界位置の情報により構成される。
sil-oh+a 4 136 3223
sil-o+h 3 138 2445
sil-o+h 3 254 234
o-h+a 3 74 1566
音素環境適合度算出部13は、接続点音素環境検索部12により生成された補正用音素環境候補情報及び接続情報を入力し、音声合成用データベース10から、接続に用いる音声素片における音響特徴量及び補正用音素環境候補の音声素片における音響特徴量をそれぞれ読み出し、補正用音素環境候補毎に、接続に用いる音声素片と補正用音素環境候補の音声素片との間の距離を求める。
図4は、音声合成用データベース10に含まれる、音声素片の音響特徴量情報を示す図である。図4に示すように、音声素片の音響特徴量情報は、音声波形データから抽出された情報であり、クラスタリングされたラベル、ファイル番号、平均ピッチ周波数、始点、終点、始点におけるスペクトル情報、始点におけるピッチ周波数、終点におけるスペクトル情報、及び、終点におけるピッチ周波数により構成される。
具体的には、図4を参照して、音素環境適合度算出部13は、音声合成用データベース10を構成する音響特徴量情報から、補正用音素環境候補の該当する音素の始点、終点、それぞれのスペクトル情報S及びピッチ周波数fを読み出す。音素環境適合度算出部13は、これらの情報を用いて、次式で定義する接続音素Pと補正用音素環境候補の音素Rj(j=1,・・・,J)との間の適合コストCm(P,Rj)を、補正用音素環境候補毎に算出する。
Figure 2009237015
ここで、Mj(j=1,・・・,J)は、補正用音素環境候補の音素Rjと接続音素Pとの間で適合した音素数であり、f PA,f PB,S PA(i),S PB(i)は、それぞれ接続音素Pについての先行音素Aの終点におけるピッチ周波数、後続音素Bの始点におけるピッチ周波数、先行音素Aの終点におけるスペクトル情報、後続音素Bの始点におけるスペクトル情報である。また、f RjA,f RjB,S RjA(i),S RjB(i)は、それぞれ補正用音素環境候補の音素Rjについての先行音素Aの終点におけるピッチ周波数、後続音素Bの始点におけるピッチ周波数、先行音素Aの終点におけるスペクトル情報、後続音素Bの始点におけるスペクトル情報である。また、Iはスペクトル情報の総次元数であり、w,w,wは正の重みである。
図5は、図1に示した音素環境適合度算出部13による適合コストの算出処理を説明する図である。図5に示すように、音素環境適合度算出部13は、接続点情報から、接続に用いる音声素片である接続用音素PA,PBを特定し、音声合成用データベース10から、接続用音素PAの終点におけるピッチ周波数f PA及びスペクトル情報S PAを読み出し、接続用音素PBの始点におけるピッチ周波数f PB及びスペクトル情報S PBを読み出す。同様に、音素環境適合度算出部13は、補正用音素環境候補情報から、補正用音素環境候補における音声素片である音素環境R1,R2を特定し、音声合成用データベース10から、音素環境R1の終点におけるピッチ周波数f RjA及びスペクトル情報S RjAを読み出し、音素環境R2の始点におけるピッチ周波数f RjB及びスペクトル情報S RjBを読み出す。そして、音素環境適合度算出部13は、これらの情報を用いて適合コストを算出する。
また、数式(1)において、その第1項は音素環境の一致度合いを表し、第2項は各音素どうしのピッチ周波数の距離を表し、第3項はスペクトル情報の距離を表す。尚、図4に示したように、各スペクトル情報にはパワー項が含まれている。
図1に戻って、補正用音素環境決定部14は、音素環境適合度算出部13により算出された補正用音素環境候補毎の適合コストを入力し、適合コストが最も小さい(最も適合している)補正用音素環境候補を補正用音素環境情報として決定する。
音声波形切り出し部15は、音声素片接続点抽出部11により抽出された接続点情報を入力し、接続点情報に含まれるファイル番号における始点及び終点により、音声合成用データベース10の音声波形データから、接続用音声素片及び接続用音声波形を切り出す。切り出された接続用音声素片は音声波形重複加算部22に出力され、接続用音声波形は周波数特性算出部17及びスペクトル包絡算出部18に出力される。
図6は、図1に示した音声波形切り出し部15による接続用音声素片及び接続用音声波形の切り出し処理を説明する図である。図6を参照して、音声波形データXは‘a’及び‘i’の音を含み、‘a’に相当する音声素片が先行音声素片Aである。また、音声波形データYは‘u’及び‘e’の音を含み、‘e’に相当する音声素片が後続音声素片Bである。音声波形切り出し部15は、音声合成用データベース10から、入力した接続点情報に含まれるファイル番号(前記例では、712及び140)が示す音声波形データX及び音声波形データYにおける各始点,終点(前記例では(4896,8787)及び(101805,107424))で指定された先行音声素片A及び後続音声素片Bの音声波形データを読み出す。先行音声素片Aの後ろ部分には、音声波形データα1及びα2が含まれる。また、後続音声素片Bの先頭部分には、音声波形データβ1及びβ2が含まれる。つまり、音声波形切り出し部15は、音声合成用データベース10から、入力した接続点情報の示す音声データXのうちの先行音声素片A、及び音声データYのうちの後続音声素片Bを切り出す。ここで、先行音声素片Aに含まれる後ろ部分α1及びα2の時間長を、音声素片接続区間長(例えば20msの時間長)とする。同様に、後続音声素片Bの先頭部分β1及びβ2の時間長を、音声素片接続区間長とする。音声波形切り出し部15は、切り出した音声波形データを、それぞれ接続用音声素片A,Bとして音声波形重複加算部22に出力する。
また、音声波形切り出し部15は、先行音声素片A及び後続音声素片Bの接続点前後の部分については、音声素片どうしを接続する音声素片接続区間を含むように、適当な(予め設定された)長さの分析窓(例えば10ms)を適当なシフト幅(例えば5ms)でシフトしながら音声波形を切り出し、接続用音声波形として周波数特性算出部17及びスペクトル包絡算出部18に出力する。図6では、先行音声素片Aの分析窓A1〜A4、後続音声素片Bの分析窓B1〜B4が示されており、分析窓数はそれぞれ4個である。ここで、先行音声素片A及び後続音声素片Bに対し各分析窓で切り出された波形を、それぞれxAl(n),xBl(n)、(n=1〜N,l=1〜4)で表す。Nは、窓幅のポイント数を表す。
音声波形切り出し部16は、補正用音素環境決定部14により決定された補正用音素環境情報を入力し、補正用音素環境情報に含まれるファイル番号における音素境界位置により、音声合成用データベース10の音声波形データから、補正用音声波形を切り出す。切り出された補正用音声波形はスペクトル包絡算出部19に出力される。
図7は、図1に示した音声波形切り出し部16による補正用音声波形の切り出し処理を説明する図である。図7を参照して、音声波形データZは‘a’及び‘e’の音を含み、その境界が音素境界位置である。音声波形切り出し部16は、音声合成用データベース10から、入力した補正用音素環境情報に含まれるファイル番号が示す音声波形データZにおける音素境界位置の前後の部分について、所定の長さの分析窓毎に音声波形データを読み出す。ここで、音素境界位置の前後の部分を含む時間長を、音声素片接続区間長(例えば20msの時間長)とする。つまり、音声波形切り出し部16は、音素境界位置の前後の部分である音声素片接続区間長を含むように、適当な長さの分析窓(例えば10ms)を適当なシフト幅(例えば5ms)でシフトしながら音声波形を切り出し、補正用音声波形としてスペクトル包絡算出部19に出力する。図7では、図6に示した接続用音声波形を切り出すときの分析窓A1〜A4,B1〜B4に対応して、補正用音声波形を切り出すときの分析窓C1〜C5が示されており、分析窓数は5個である。ここで、補正用音声波形に対し各分析窓で切り出された波形を、xCm(n)、(n=1〜N,m=1〜5)で表す。
図1に戻って、周波数特性算出部17は、音声波形切り出し部15により切り出された分析窓毎の接続用音声波形を入力し、分析窓毎(接続用音声波形毎)の周波数特性を算出する。算出された分析窓毎の周波数特性は、スペクトル包絡補正部20に出力される。具体的には、周波数特性算出部17は、分析窓としてハミング窓を用いた後、高速フーリエ変換(FFT)により周波数特性を求める。ここで、接続用音声素片A,Bに対し各分析窓で切り出された接続用音声波形xAl(n),xBl(n)、(n=1〜N,l=1〜4)に対応する周波数特性を、XAl(k),XBl(k)、(k=1〜K,l=1〜4)で表す。Kは、FFTのポイント数を表す。
スペクトル包絡算出部18は、音声波形切り出し部15により切り出された分析窓毎の接続用音声波形を入力し、分析窓毎(接続用音声波形毎)のスペクトル包絡を算出する。算出されたスペクトル包絡は、スペクトル包絡補正部20に出力される。具体的には、スペクトル包絡算出部18は、入力した接続用音声波形にプリエンファシスを施し、分析窓としてハミング窓を用いた後、線形予測分析にて算出した線形予測係数からスペクトル包絡を求める。例えば、線形予測分析の次数pは12を用いる。線形予測係数から、数式(2)に示すように、全極型音声生成システム関数としてLPCパワースペクトルを求め、これをスペクトル包絡として扱う。ここで、接続用音声波形xAl(n),xBl(n)、(n=1〜N,l=1〜4)に対応する線形予測係数を、それぞれaAl(i),aBl(i)、(i=1〜p,l=1〜4)で表し、スペクトル包絡をHAl(k),HBl(k)、(k=1〜K,l=1〜4)で表す。
Figure 2009237015
スペクトル包絡算出部19は、音声波形切り出し部16により切り出された分析窓毎の補正用音声波形を入力し、スペクトル包絡算出部18と同様に、分析窓毎(補正用音声波形毎)のスペクトル包絡を算出する。算出されたスペクトル包絡は、スペクトル包絡補正部20に出力される。ここで、補正用音声波形xCl(n)、(n=1〜N,l=1〜5)に対応する線形予測係数をaCm(i=1〜p,m=1〜5)で表し、スペクトル包絡をHCm(k)、(k=1〜K,m=1〜5)で表す。KはFFTのポイント数を表す。
Figure 2009237015
スペクトル包絡補正部20は、周波数特性算出部17により算出された接続用音声波形の周波数特性(分析窓毎(接続用音声波形毎)の周波数特性)、スペクトル包絡算出部18により算出された接続用音声波形のスペクトル包絡(分析窓毎(接続用音声波形毎)のスペクトル包絡)、及び、スペクトル包絡算出部19により算出された補正用音声波形のスペクトル包絡(分析窓毎(補正用音声波形毎)のスペクトル包絡)をそれぞれ入力する。そして、接続用音声波形の周波数特性及びスペクトル包絡と、補正用音声波形のスペクトル包絡とを用いて、接続用音声波形の周波数特性を補正する。この場合、接続用音声波形のスペクトル包絡が補正されたことになる。ここで、接続用音声波形の周波数特性XAl(k),XBl(k)、(k=1〜K,l=1〜4)に対応する補正された周波数特性を、それぞれX’Al(k),X’Bl(k)、(k=1〜K,l=1〜4)で表す。
Figure 2009237015
音声波形算出部21は、スペクトル包絡補正部20により補正された分析窓毎(接続用音声波形毎)の周波数特性を入力し、分析窓毎(接続用音声波形毎)の音声波形を算出する。算出された音声波形は、音声波形重複加算部22に出力される。具体的には、音声波形算出部21は、入力した周波数特性に対し、高速フーリエ変換(FFT)の逆変換を用いて音声波形を求める。ここで、補正されたX’Al(k),X’Bl(k)、(k=1〜K,l=1〜4)に対応する音声波形を、それぞれx’Al(n),x’Bl(n)、(n=1〜N,l=1〜4)で表す。
音声波形重複加算部22は、音声波形算出部21により算出された分析窓毎(接続用音声波形毎)の音声波形、及び、音声波形切り出し部15により切り出された接続用音声素片A,Bをそれぞれ入力し、接続点前後の対応する部分において円滑に移行するように、窓関数を乗じて重複加算して接続し、接続部が補正された接続用音声素片A’,B’を生成する。生成された接続用音声素片A’,B’は、音声素片接続部23に出力される。
具体的には、音声波形重複加算部22は、音声波形算出部21により算出された音声波形(スペクトル包絡が補正された接続用音声波形)に対し、それぞれ周波数特性算出部17において乗じたハミング窓を除算し、ハニング窓を乗算する。これにより、補正された接続用音声波形A1’〜A4’,B1’〜B4’を得ることができる。尚、スペクトル包絡算出部18,19において乗じたハミング窓については、スペクトル包絡補正部20におけるスペクトル包絡どうしの除算にて相殺されている。一方、音声波形重複加算部22は、接続用音声素片A,Bに対し、補正された接続用音声波形A1’〜A4’,B1’〜B4’との接続部分に窓関数を乗算し、重複加算により対応する部分に、補正された接続用音声波形A1’〜A4’,B1’〜B4’を埋め込む。これにより、接続部が補正された接続用音声素片A’,B’を得ることができる。
図8は、音声波形重複加算部22による重複加算処理を説明する図である。図8を参照して、音声波形重複加算部22は、接続用音声素片Aとスペクトル包絡が補正された接続用音声波形A1’〜A4’との間で重複加算を行い、接続用音声素片Aの対応する部分に接続用音声波形A1’〜A4’を埋め込み、接続部が補正された接続用音声素片A’を生成する。同様に、音声波形重複加算部22は、接続用音声素片Bとスペクトル包絡が補正された接続用音声波形B1’〜B4’との間で重複加算を行い、接続用音声素片Bの対応する部分に接続用音声波形B1’〜B4’を埋め込み、接続部が補正された接続用音声素片B’を生成する。
音声素片接続部23は、音声波形重複加算部22により重複加算されて接続部が補正された接続用音声素片A’,B’を入力し、音声素片接続区間にそれぞれ窓関数を乗算し、重複加算により接続用音声素片A’と接続用音声素片B’とを接続し、合成音声として出力する。
図9は、音声素片接続部23による重複加算処理を説明する図である。図9を参照して、音声素片接続部23は、入力した接続用音声素片A’,B’の音声素片接続区間について、窓関数を乗算して重複加算により接続する。これにより、接続用音声素片A’,B’が接続された合成音声を得ることができる。
このように、音声素片接続装置1は、図1に示した一連の処理を接続点情報毎に繰り返して行い、全ての接続点情報の処理が終了するまで、接続点における音声素片を接続することにより、接続部分の音韻が補正された合成音声を得ることができる。
以上のように、本発明による実施例1の音声素片接続装置1によれば、音声素片接続点抽出部11が、音声素片接続情報から、音声素片が接続される接続点情報を抽出し、接続点音素環境検索部12が、音声合成用データベース10から各接続点における理想的な音素環境を持つ音声素片を検索して補正用音素環境候補情報を生成し、補正用音素環境決定部14が、補正用音素環境候補毎の適合コストのうちの最も適合コストの小さい補正用音素環境候補を決定し、音声波形切り出し部15が、接続点情報から接続用音声素片A,B及び分析窓毎(接続点付近の分析窓毎)の接続用音声波形を切り出し、スペクトル包絡補正部20が、分析窓毎の周波数特性を、そのスペクトル包絡と補正用音素環境情報の補正用音声波形におけるスペクトル包絡とを用いて補正し、音声波形算出部21が、補正された周波数特性を用いて分析窓毎の音声波形を算出し、音声波形重複加算部22が、補正された周波数特性による分析窓毎の音声波形と、切り出された接続用音声素片A,Bとを用いて、接続部が補正された接続用音声素片A’,B’を生成し、音声素片接続部23が、接続用音声素片A’,B’を合成するようにした。すなわち、音声素片接続装置1は、入力テキストデータ内の音声素片どうしを接続する際に、2つの音声素片の接続点付近の周波数特性を、そのスペクトル包絡と、入力テキストデータに適合した音素環境のスペクトル包絡とを用いて補正し、補正した周波数特性の音声素片に対して、窓関数を乗じて重複加算することにより接続するようにした。これにより、その接続部において、音韻の異聴感を減ずることができる。つまり、聴感上自然な音韻となる音声合成を実現することが可能となる。
また、本発明による実施例1の音声素片接続装置1によれば、音素環境適合度算出部13が、音声合成用データベース10から、接続に用いる音声素片及び補正用音素環境候補の音声素片における音響特徴量を読み出し、数式(1)を用いて補正用音素環境候補毎に適合コストを算出し、補正用音素環境決定部14が、補正用音素環境候補毎の適合コストのうち最も適合コストの小さい補正用音素環境候補を決定するようにした。ここで、適合コストは、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離により算出される。これにより、複数の補正用音素環境候補の中から、最適な補正用音素環境を決定することができる。
〔実施例2〕
図10は、本発明の実施例2による音声素片接続装置の構成及び処理の流れを示す図である。この音声素片接続装置2は、音声素片接続装置1と同様に、テキストデータを入力し、テキストデータに基づいて音声素片接続情報を生成し、入力したテキストデータに対する合成音声情報を生成して出力する装置である。音声素片接続装置1は、音声合成用データベース10、音声素片接続点抽出部11、接続点音素環境検索部12、音素環境適合度算出部13、補正用音素環境決定部14、音声波形切り出し部15,16、周波数特性算出部17、スペクトル包絡算出部18,19、スペクトル包絡補正部20、音声波形算出部21、音声波形重複加算部22、音声素片接続部23、接続コスト算出部31及び補正適用部分決定部32を備えている。
図1に示した実施例1の音声素片接続装置1と図10に示す実施例2の音声素片接続装置2とを比較すると、両装置とも、音声合成用データベース10、音声素片接続点抽出部11、接続点音素環境検索部12、音素環境適合度算出部13、補正用音素環境決定部14、音声波形切り出し部15,16、周波数特性算出部17、スペクトル包絡算出部18,19、スペクトル包絡補正部20、音声波形算出部21、音声波形重複加算部22及び音声素片接続部23を備えている点で同一である。これに対し、音声素片接続装置2は、音声素片接続装置1の各構成要素に加えて、接続コスト算出部31及び補正適用部分決定部32を備えている点で相違する。以下、音声素片接続装置1,2の共通部分については説明を省略する。
音声素片接続点抽出部11により抽出された接続点情報は、接続コスト算出部31及び補正適用部分決定部32に出力される。
接続コスト算出部31は、音声素片接続点抽出部11により抽出された接続点情報を入力し、音声合成用データベース10から、接続に用いる音声素片における音響特徴量を読み出し、距離を求める。具体的には、接続コスト算出部31は、音声合成用データベース10から図4に示すような音響特徴量情報、すなわち、接続に用いる先行音声素片Aの終点及び後続音声素片Bの始点それぞれにおけるスペクトル情報S及びピッチ周波数fを読み出す。接続コスト算出部31は、これらの情報を用いて、次式で定義する先行音声素片Aと後続音声素片Bとの間の接続コストC(A,B)を算出する。
Figure 2009237015
ここで、f ,S (i)は、それぞれ先行音声素片Aの終点におけるピッチ周波数及びスペクトル情報であり、f ,S (i)は、それぞれ後続音声素片Bの始点におけるピッチ周波数及びスペクトル情報である。また、Iはスペクトル情報の総次元数、w,wは正の重みである。また、数式(5)において、その第1項は先行音声素片Aと後続音声素片Bとの間のピッチ周波数の距離、第2項はスペクトル情報の距離を表す。
補正適用部分決定部32は、音声素片接続点抽出部11により抽出された接続点情報、及び、接続コスト算出部31により算出された接続コストをそれぞれ入力し、各接続点における接続コストと、予め設定された閾値とを比較し、接続コストが閾値を超える場合は補正適用フラグを1に設定し、それ以外の場合は0に設定する。尚、補正適用フラグは接続点情報に含めるものとする。
以下、補正適用フラグが1に設定されている場合は、実施例1と同様に、その接続点について、接続点音素環境検索部12、音素環境適合度算出部13、補正用音素環境決定部14、音声波形切り出し部16、スペクトル包絡算出部19及びスペクトル包絡補正部20による処理が行われる。一方、補正適用フラグが0に設定されている場合は、前述した接続点音素環境検索部12等による処理は行われない。
すなわち、接続点音素環境検索部12は、図示しない音素接続情報生成部により生成された音声素片接続情報を入力すると共に、補正適用部分決定部32から補正適用フラグを含む接続点情報を入力し、補正適用フラグが1に設定されている場合に、実施例1と同様に接続点音素環境検索の処理を行い、補正用音素環境候補情報を生成して出力する。一方、補正適用フラグが0に設定されている場合に、接続点音素環境検索の処理を行わず、補正用音素環境候補情報を生成しない。この場合、音素環境適合度算出部13、補正用音素環境決定部14、音声波形切り出し部16及びスペクトル包絡算出部19も処理を行わない。つまり、スペクトル包絡算出部19は、スペクトル包絡を算出する処理を行わず、スペクトル包絡を出力しない。
同様に、接続点情報に含まれる補正適用フラグが0に設定されている場合に、周波数特性算出部17及びスペクトル包絡算出部18も処理を行わず、スペクトル包絡補正部20は、スペクトル包絡算出部19からスペクトル包絡を入力しないから、スペクトル包絡補正の処理を行わない。この場合、音声波形算出部21及び音声波形重複加算部22も処理を行わない。つまり、接続点情報に含まれる補正適用フラグが0に設定されている場合には、音声素片接続部23は、音声波形切り出し部15から出力された接続用音声素片を接続して出力する。
このように、音声素片接続装置2は、図10に示した一連の処理を、接続コストに基づいて補正適用部分を決定しながら接続点情報毎に繰り返して行い、全ての接続点情報の処理が終了するまで、接続点における音声素片を接続することにより、接続部分の音韻が補正された合成音声を得ることができる。
以上のように、本発明による実施例2の音声素片接続装置2によれば、接続コスト算出部31が、音声合成用データベース10から、接続に用いる音声素片における音響特徴量を読み出し、数式(5)を用いて接続点情報毎に接続コストを算出し、補正適用部分決定部32が、接続点情報毎の接続コストのうち所定の閾値を超えない接続点情報を決定し、これにより決定された接続点については、ペクトル包絡補正部20においてスペクトル包絡補正の処理を行わないようにした。すなわち、音声素片接続装置2は、入力テキストデータ内の音声素片どうしを接続する際に、接続点のうち補正を行う接続点を決定し、決定した接続点に対してのみ、2つの音声素片の接続点付近の周波数特性を、そのスペクトル包絡と、入力テキストデータに適合した音素環境のスペクトル包絡とを用いて補正するようにした。そして、補正を行う接続点については、補正した周波数特性の音声素片に対して、窓関数を乗じて重複加算することにより接続し、補正を行わない接続点については、音声素片接続部分に対して、窓関数を乗じて重複加算することにより接続するようにした。これにより、その接続部において、音韻の異聴感を減ずることができ、聴感上自然な音韻となる音声合成を実現することが可能となると共に、補正を行う接続点を限定するようにしたから、接続処理時間を短縮することが可能となる。
また、本発明による実施例2の音声素片接続装置2によれば、接続コスト算出部31により算出される接続コストは、先行音声素片Aと後続音声素片Bとの間のピッチ周波数の距離、及びスペクトル情報の距離によるものである。これにより、複数の接続点情報の中から補正を行うべき接続点情報を、的確に決定することができる。
尚、音声素片接続装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声素片接続装置1,2に備えた音声素片接続点抽出部11等の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
以上、実施例を挙げて本発明を説明したが、本発明は前記実施例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施例1では、音素環境適合度算出部13は、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離の3つのパラメータにより適合コストを算出するようにしたが、音素環境の一致度合い、各音素どうしのピッチ周波数の距離及びスペクトル情報の距離のうちの1つのパラメータにより適合コストを算出するようにしてもよいし、2つのパラメータにより適合コストを算出するようにしてもよい。
また、前記実施例2では、接続コスト算出部31は、先行音声素片Aと後続音声素片Bとの間のピッチ周波数の距離、及びスペクトル情報の距離の2つのパラメータにより接続コストを算出するようにしたが、いずれかの1つのパラメータにより接続コストを算出するようにしてもよい。
本発明の実施例1による音声素片接続装置の構成及び処理の流れを示すブロック図である。 音声素片接続情報の例を示す図である。 音声合成用データベースに含まれる音素区切り情報の例を示す図である。 音声合成用データベースに含まれる、音素の音響特徴量情報の例を示す図である。 音素環境適合度算出部による適合コストの算出処理を説明する図である。 音声波形切り出し部による接続用音声素片及び接続用音声波形の切り出し処理を説明する図である。 音声波形切り出し部による補正用音声波形の切り出し処理を説明する図である。 音声波形重複加算部による重複加算処理を説明する図である。 音声素片接続部による重複加算処理を説明する図である。 本発明の実施例2による音声素片接続装置の構成及び処理の流れを示すブロック図である。
符号の説明
1,2 音声素片接続装置
10 音声合成用データベース
11 音声素片接続点抽出部
12 接続点音素環境検索部
13 音素環境適合度算出部
14 補正用音素環境決定部
15,16 音声波形切り出し部
17 周波数特性算出部
18,19 スペクトル包絡算出部
20 スペクトル包絡補正部
21 音声波形算出部
22 音声波形重複加算部
23 音声素片接続部
31 接続コスト算出部
32 補正適用部分決定部

Claims (8)

  1. 音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる2つの音声素片を接続して音声合成を行う音声素片接続装置において、
    予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースと、
    前記音声素片接続情報から、音声合成される2つの音声素片間の接続点情報を抽出する音声素片接続点抽出部と、
    少なくとも前記接続点情報における2つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する接続点音素環境検索部と、
    前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における2つの音声素片との間の適合度合いを示す適合コストを算出する音素環境適合度算出部と、
    前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する補正用音素環境決定部と、
    前記音声合成用データベースを用いて、前記接続点情報における2つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における2つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記2つの音声素片の補正用音声波形を切り出す音声波形切り出し部と、
    前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する周波数特性算出部と、
    前記接続点情報における2つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する第1のスペクトル包絡算出部と、
    前記補正用音素環境に含まれる前記2つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する第2のスペクトル包絡算出部と、
    前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正するスペクトル包絡補正部と、
    前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における2つの音声素片間の接続点付近の音声波形を算出する音声波形算出部と、
    前記音声波形切り出し部により切り出された2つの接続用音声素片に対し、前記音声波形算出部により算出された、接続点情報における2つの音声素片間の接続点付近の音声波形を重複加算し、新たな2つの接続用音声素片を算出する音声波形重複加算部と、
    前記新たな2つの接続用音声素片を接続する音声素片接続部と、
    を備えたことを特徴とする音声素片接続装置。
  2. 請求項1に記載の音声素片接続装置において、
    前記音素環境適合度算出部は、前記補正用音素環境候補の音響特徴量情報、及び前記接続点情報における2つの音声素片の音響特徴量情報をそれぞれ前記音声合成用データベースから読み出し、前記補正用音素環境候補毎に、前記接続点情報における2つの音声素片との間の適合コストを算出することを特徴とする音声素片接続装置。
  3. 請求項2に記載の音声素片接続装置において、
    前記音響特徴量情報は、音素数、ピッチ周波数及びスペクトル情報の3つのパラメータのうちの少なくとも1つ以上のパラメータを用いて、前記補正用音素環境候補毎に、前記接続点情報における2つの音声素片との間の適合コストを算出することを特徴とする音声素片接続装置。
  4. 請求項1から3までのいずれか一項に記載の音声素片接続装置において、
    前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出する接続コスト算出部と、
    前記接続点情報毎の接続コストに基づいて、前記スペクトル包絡補正部における補正処理が不要となる接続点情報を決定する補正適用部分決定部と、を備え、
    前記音声素片接続部は、前記補正処理が不要であると決定した接続点情報に対し、前記音声波形切り出し部により切り出された2つの接続用音声素片を接続することを特徴とする音声素片接続装置。
  5. 請求項4に記載の音声素片接続装置において、
    前記接続コスト算出部は、前記接続点情報における2つの音声素片の音響特徴量情報を前記音声合成用データベースから読み出し、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする音声素片接続装置。
  6. 請求項5に記載の音声素片接続装置において、
    前記音響特徴量情報は、ピッチ周波数及びスペクトル情報の2つのパラメータのうちの少なくとも1つ以上のパラメータを用いて、前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出することを特徴とする音声素片接続装置。
  7. 予め録音された音声の音声波形データ、前記音声波形データにおける音素区切り情報、及び音声素片の音響特徴量情報が格納された音声合成用データベースを備え、音声合成における音声素片選択及び接続位置決定処理により出力されるテキストデータに対応する音声素片群を音声素片接続情報とし、前記音声素片接続情報に含まれる2つの音声素片を接続して音声合成を行う音声素片接続装置にかかわるプログラムであって、前記音声素片接続装置を構成するコンピュータに、
    前記音声素片接続情報から、音声合成される2つの音声素片間の接続点情報を抽出する処理と、
    少なくとも前記接続点情報における2つの音声素片を含む補正用音素環境候補を、前記音声合成用データベースに格納された音素区切り情報から検索する処理と、
    前記補正用音素環境候補毎に、補正用音素環境候補と前記接続点情報における2つの音声素片との間の適合度合いを示す適合コストを算出する処理と、
    前記補正用音素環境候補毎の適合コストに基づいて、最も適合している補正用音素環境候補を補正用音素環境として決定する処理と、
    前記音声合成用データベースを用いて、前記接続点情報における2つの音声素片をそれぞれ接続用音声素片として切り出すと共に、前記接続点情報における2つの音声素片間の接続点付近についての接続用音声波形、及び前記補正用音素環境に含まれる前記2つの音声素片の補正用音声波形を切り出す処理と、
    前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用音声波形から算出する処理と、
    前記接続点情報における2つの音声素片間の接続点付近についての接続用スペクトル包絡を、前記接続用音声波形から算出する処理と、
    前記補正用音素環境に含まれる前記2つの音声素片の音素境界位置付近についての補正用スペクトル包絡を、前記補正用音声波形から算出する処理と、
    前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を、前記接続用スペクトル包絡及び補正用スペクトル包絡により補正する処理と、
    前記接続用音声波形及び補正された周波数特性を用いて、前記接続点情報における2つの音声素片間の接続点付近の音声波形を算出する処理と、
    前記2つの接続用音声素片に対し、前記接続点情報における2つの音声素片間の接続点付近の音声波形を重複加算し、新たな2つの接続用音声素片を算出する処理と、
    前記新たな2つの接続用音声素片を接続する処理と、
    を実行させる音声素片接続プログラム。
  8. 請求項7に記載の音声素片接続プログラムにおいて、
    前記接続点情報毎に、接続点情報における2つの音声素片間の接続度合いを示す接続コストを算出する処理と、
    前記接続点情報毎の接続コストに基づいて、前記接続点情報における2つの音声素片間の接続点付近についての周波数特性を補正する処理が不要となる接続点情報を決定する処理と、を実行させ、
    前記補正処理が不要であると決定した接続点情報に対して、
    前記新たな2つの接続用音声素片を接続する処理の代わりに、前記音声波形切り出し部により切り出された2つの接続用音声素片を接続する処理を実行させる音声素片接続プログラム。
JP2008079930A 2008-03-26 2008-03-26 音声素片接続装置及びプログラム Pending JP2009237015A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008079930A JP2009237015A (ja) 2008-03-26 2008-03-26 音声素片接続装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008079930A JP2009237015A (ja) 2008-03-26 2008-03-26 音声素片接続装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2009237015A true JP2009237015A (ja) 2009-10-15

Family

ID=41251079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008079930A Pending JP2009237015A (ja) 2008-03-26 2008-03-26 音声素片接続装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2009237015A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015152789A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6117199A (ja) * 1984-07-04 1986-01-25 三菱電機株式会社 音声合成装置
JPH0498298A (ja) * 1990-08-17 1992-03-30 Meidensha Corp 音声合成装置の波形混合方法
JPH0772897A (ja) * 1993-09-01 1995-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法および装置
JPH0836397A (ja) * 1994-07-21 1996-02-06 Matsushita Electric Ind Co Ltd 音声合成装置
JPH09230893A (ja) * 1996-02-22 1997-09-05 N T T Data Tsushin Kk 規則音声合成方法及び音声合成装置
JPH1185193A (ja) * 1997-09-12 1999-03-30 Sanyo Electric Co Ltd 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JP2004347994A (ja) * 2003-05-23 2004-12-09 Sharp Corp 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JP2005004104A (ja) * 2003-06-13 2005-01-06 Sony Corp 規則音声合成装置及び規則音声合成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6117199A (ja) * 1984-07-04 1986-01-25 三菱電機株式会社 音声合成装置
JPH0498298A (ja) * 1990-08-17 1992-03-30 Meidensha Corp 音声合成装置の波形混合方法
JPH0772897A (ja) * 1993-09-01 1995-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法および装置
JPH0836397A (ja) * 1994-07-21 1996-02-06 Matsushita Electric Ind Co Ltd 音声合成装置
JPH09230893A (ja) * 1996-02-22 1997-09-05 N T T Data Tsushin Kk 規則音声合成方法及び音声合成装置
JPH1185193A (ja) * 1997-09-12 1999-03-30 Sanyo Electric Co Ltd 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JP2004347994A (ja) * 2003-05-23 2004-12-09 Sharp Corp 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JP2005004104A (ja) * 2003-06-13 2005-01-06 Sony Corp 規則音声合成装置及び規則音声合成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015152789A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US20090144053A1 (en) Speech processing apparatus and speech synthesis apparatus
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
JP5961950B2 (ja) 音声処理装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
JP5131904B2 (ja) 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
US8909518B2 (en) Frequency axis warping factor estimation apparatus, system, method and program
JP2009237015A (ja) 音声素片接続装置及びプログラム
Bellegarda A global, boundary-centric framework for unit selection text-to-speech synthesis
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
JP5275470B2 (ja) 音声合成装置およびプログラム
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
Demenko et al. Prosody annotation for corpus based speech synthesis
EP1589524B1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120529