JP4574333B2 - 音声合成装置、音声合成方法及びプログラム - Google Patents
音声合成装置、音声合成方法及びプログラム Download PDFInfo
- Publication number
- JP4574333B2 JP4574333B2 JP2004333431A JP2004333431A JP4574333B2 JP 4574333 B2 JP4574333 B2 JP 4574333B2 JP 2004333431 A JP2004333431 A JP 2004333431A JP 2004333431 A JP2004333431 A JP 2004333431A JP 4574333 B2 JP4574333 B2 JP 4574333B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- piece
- sound
- sound piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。
複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶する音片記憶手段と、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析手段と、
前記文章の韻律を予測する韻律予測手段と、
前記音片記憶手段に記憶された音片データの中から音片データを読み出して選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成手段と、を備え、
前記選択手段は、
(a)前記形態素解析手段によって特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を前記音片記憶手段より連続して読み出し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測手段が予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測手段は、前記文章のうち、前記音片記憶手段より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外するものである、
ことを特徴とする。
前記音片合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成するものであってもよい。
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記文言を表す音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備えるものであってもよい。
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成するものであってもよい。
複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶装置に記憶する音片記憶ステップと、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析ステップと、
前記文章の韻律を予測する韻律予測ステップと、
前記記憶装置に記憶された音片データの中から音片データを読み出して選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成ステップと、より構成され、
前記選択ステップでは、
(a)前記形態素解析ステップで特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を前記記憶装置から連続して読み出して選択し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測ステップで予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測ステップでは、前記文章のうち、前記記憶装置より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外する、
ことを特徴とする。
コンピュータを、
複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶する音片記憶手段と、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析手段と、
前記文章の韻律を予測する韻律予測手段と、
前記音片記憶手段に記憶された音片データの中から音片データを読み出して選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成手段と、して機能させるためのプログラムであって、
前記選択手段は、
(a)前記形態素解析手段によって特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を連続して読み出して選択し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測手段が予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測手段は、前記文章のうち、前記音片記憶手段より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外するものである、
ことを特徴とする。
図1は、この発明の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットMと、音片登録ユニットRとにより構成されている。
このうち、規則合成処理部4は、音響処理部41と、検索部42と、伸長部43と、波形データベース44とより構成されている。
また、音片編集部5は、形態素解析部51と、一致音片決定部52と、韻律予測部53と、出力合成部54とより構成されている。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
音片データベース7には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース7に格納されているデータは、ヘッダ部HDR、ディレクトリ部DIR及びデータ部DATの3種に分かれている。
また、連続音声データは、個々の音片データの先頭(開始)の論理的位置を示すマークデータを含んでいる。また、個々の音片データの後端(終了)の論理的位置を示すマークデータを更に含んでいてもよい。
(A) この音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) 連続音声データ内でこの音片データが占める論理的位置の先頭及び後端のアドレスを表すデータ、
(C) この音片データのデータ長を表すデータ、
(D) この音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース7の記憶領域にはアドレスが付されているものとする。)
また、ピッチ成分データには更に、音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
収録音片データセット記憶部10には、表意文字列と、この表意文字列を人が実際に読み上げた音声を集音して得た波形を表す上述の連続音声データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。
まず、音片登録ユニットRの動作を説明する。
音片データベース7に音片を登録する場合、まず、音片データベース作成部11は、収録音片データセット記憶部10より、互いに対応付けられている表意文字列及び連続音声データを読み出す。そして、読み出した表意文字列に公知の手法による形態素解析を施すことにより、この表意文字列を表音文字列へと変換し、また、この表音文字列内での文節の区切りを特定する。
また、この連続音声データが表す音声の韻律を特徴付ける情報として、この連続音声データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。
(a) 当該音片データが表す音片の読みとして特定した読みを表す表音文字列を、連続音声データに付けられた表意文字列を変換して得た上述の表音文字列より抽出し、抽出した表音文字列を、音片読みデータとして音片データベース7の記憶領域に書き込む。
(b) 連続音声データ内での当該音片データの先頭及び後端の論理的位置として決定した値を、上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
(c) 当該音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
(d) 当該音片データが表す音片の発声スピード、及び、ピッチ成分の周波数の時間変化を、連続音声データが表す音声の発声スピード及びピッチ成分の周波数の時間変化に基づいて特定し、特定した結果を示すデータを生成して、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
次に、本体ユニットMの動作を説明する。以下では、まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の発話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
なお、定型メッセージデータは、定型メッセージを表意文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。照合レベルデータは、検索部6が行う後述の検索処理における検索条件を指定するデータであり、以下では「1」、「2」又は「3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。
なお、形態素解析部51は、定型メッセージ内で連続する複数の単語を表す表意文字列を、一つの音片の読みを表す表音文字列として変換する場合もある。具体的には、例えば「きれいな花束をもらいました」という表意文字列が形態素解析部51に供給されたとき、形態素解析部51は、形態素解析の結果として、読みがそれぞれ「きれいな」「花束を」「もらいました」である3個の音片を特定し、これらに相当する3個の表音文字列「キレイナ」「ハナタバヲ」「モライマシタ」を生成する。この場合、形態素解析部51は、例えば表音文字列「ハナタバヲ」を、名詞である「花束(ハナタバ)」と助詞である「を(ヲ)」とを含む1個の音片の読みを示すものとして扱っている。
そして一致音片決定部52は、形態素解析部51が出力した表音文字列を取得し、この表音文字列に合致する表音文字列が対応付けられている音片データをすべて索出するよう、検索部6に指示する。
検索部6による音片データの索出は、音片データベース7が記憶する連続音声データ内での個々の音片データの先頭(開始)アドレス及び終端(終了)アドレスを特定することにより行われる。従って、それぞれの音片データが互いに別個のファイルとして管理されている場合に比べ、本実施の形態では、連続音声データ内のアドレスに基づいて音片データの索出を行うことによって、音声データの索出に係る処理工程が大幅に削減される。
また、定形メッセージデータ内にある複数の表意文字列の連続が、音片データベース7における連続音声データ内にある複数の音片データの連続の読みに全体として一致していれば、これらの音片データの先頭(開始)アドレスと終端(終了)アドレスとを特定した後、これら連続する音片データをまとめて索出することができる。
たとえば、音片データベース7が記憶する連続音声データ内に、読みがそれぞれ「キレイナ」「「ハナタバヲ」「モライマシタ」である3個の音片データが、この順で連続して含まれている場合を想定する。(これらの音片データのそれぞれには、上述したように、当該音片データの先頭アドレスと終端アドレスとが対応付けている。)
この場合において、例えば定形メッセージデータとして、「きれいな花束を買いました」という表意文字列が形態素解析部51に供給されたとすると、形態素解析部51は、例えば「キレイナ」「ハナタバヲ」「カイマシタ」という3個の表音文字列を生成し、一致音片決定部52へと出力する。一致音片決定部52は、これら3個の表音文字列のいずれかに読みが一致する音片データの索出を検索部6に指示する。
このとき検索部6は、これら3個の表音文字列のうちの前二者「キレイナ」「ハナタバヲ」に読みが全体として一致する連続した2個の音片データが、音片データベース7の記憶する連続音声データ内に含まれていることを検出する。連続性の有無の検出は、例えば、各音片データの先頭及び終端アドレスに基づいて行うことができる。
そして、索出すべき音片データの連続が存在することが検出されると、検索部6は、この連続全体の先頭及び後端のアドレス(この例では、読みが「キレイナ」である音片データの先頭アドレス、及び、読みが「ハナタバヲ」である音片データの後端アドレス)を特定し、特定した範囲にある連続した音片データを音片データベース7から読み出して、話速変換部8を介し、一致音片決定部51に出力する。
連続して索出された各音片データが全体として表す音声は、人が実際に発話された音声の連続した一部をなすものであり、これらの音片データ相互のつながりも自然なものであるといえる。
なお、検索部6は、これら連続した音片データが、連続音声データより連続して索出されたものであることを示す識別データを、当該連続した音片データに付加して出力してもよい。そして、一致音片決定部52は、得られた検索結果のうち、連続する音片データとして索出された音片データ(例えば上述の識別データにより識別される音片データ)が存在する場合には、韻律予測部53による後述の韻律予測の結果に拘らず、これらの連続する音片データを優先的に選択してもよい。(従って一致音片決定部52は、定型メッセージデータのうち、これらの連続する音片データが表す音片に相当する部分については、韻律予測部53に韻律予測を行わせなくてもよい。)
一方、検索部6は、圧縮音片データを索出できなかった音片があった場合、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成し、話速変換部8へと供給する。
次に、一致音片決定部52は、例えば定型メッセージデータのうち、連続音声データより連続して索出されたものとして検出された音片データの読みに相当する部分を除いた部分を形態素解析部51より取得して韻律予測部53に供給し(または、形態素解析部51より供給された表音文字列のうち、連続音声データより連続して索出されたものとして検出された音片データの読みに相当する部分を除いた部分を韻律予測部53に供給し)、、供給した部分が表す定型メッセージの韻律を予測するよう、韻律予測部53に指示する。(この結果、検出された音片データの読みに相当する部分は、韻律予測の対象から除外される。)
韻律予測部53はこの指示に従い、上述した韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測し、予測結果を表す韻律予測データを生成して、一致音片決定部52に返送する。
(1) 照合レベルデータの値が「1」である場合は、話速変換部8より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)をすべて、定型メッセージ内の音片の波形に近いものとして選択する。
ただし、一致音片決定部52は、連続音声データより連続して索出されたものとして検出した音片データ(定型メッセージのうち韻律予測の対象から除外した部分に相当する音片データ)は、照合レベルデータの値にかかわらず優先的に選択する。
ただし、一致音片決定部52は、話速変換部8より供給された音片データのうちから、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合、該当する音片を、検索部6が音片データを索出できなかった音片(つまり、上述の欠落部分識別データが示す音片)とみなして扱うことを決定するものとする。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。
更に、音声合成しようとする対象の複数の連続する音片を表す複数の音片データが、音片データベース7が記憶する連続音声データ内に連続して含まれているものである場合、この音声合成システムは、これらの音片データを個々に抽出するのではなく、これらの音片データの連続全体の先頭及び後端のアドレスを特定した上、連続して抽出する。このため、音片データの読み出しが迅速になり、音声合成が円滑に行われる。
また、この音声合成システムは、連続して抽出された音片データと読みが同一な他の音片データを抽出した場合であっても、連続して抽出された音片データを優先的に選択して音声合成に用いることにより、自然な合成音声を生成できる。また、定型メッセージのうち、連続して抽出された音片データに相当する部分の韻律予測処理を行わないこととすることにより、音声合成の処理を効率的にすることができる。
例えば、素片波形データはPCM形式のデータである必要はなく、データ形式は任意である。また、波形データベース44は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース44が素片波形データをデータ圧縮されていない状態で記憶している場合、本体ユニットMは伸長部43を備えている必要はない。
また、一致音片決定部52は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
この場合、音響処理部41は、一致音片決定部52が選択した音片については、この音片の素片の波形を表す圧縮波形データを検索部42に索出させなくてもよい。なお、一致音片決定部52は、音響処理部41が合成しなくてよい音片を音響処理部41に通知し、音響処理部41はこの通知に応答して、この音片を構成する単位音声の素片の波形の検索を中止するようにすればよい。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部10を備えている必要はない。
図3は、音片登録ユニットRの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。
また、ピッチ成分の周波数の時間変化は、例えば、この連続音声データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、この連続音声データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分のケプストラムを求め、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定すればよい。なお、ピッチ成分の周波数の時間変化は、上述したように、例えば特開2003−108172号公報に開示された手法に従って連続音声データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。
そして、連続音声データ内での音節の区切りの位置の特定結果に基づいて、この連続音声データ内のどの区間を個々の音片データとして扱うべきかを決定し、決定された音片データの先頭の論理的位置を特定して、特定した論理的位置を示すマークデータを、音片データベース7の記憶領域に書き込む(ステップS005)。なお、ステップS005でこのパーソナルコンピュータは、具体的には、例えば連続音声データ内での音節の区切りをそのまま音片の区切りとして決定すればよい。
また、ステップS007でこのパーソナルコンピュータは、連続音声データ内での当該音片データの先頭の論理的位置として決定した値を、上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、ステップS007でこのパーソナルコンピュータは、当該音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、ステップS007でこのパーソナルコンピュータは、当該音片データが表す音片の発声スピード、及び、ピッチ成分の周波数の時間変化を、連続音声データが表す音声の発声スピード及びピッチ成分の周波数の時間変化に基づいて特定し、特定した結果を示すデータを生成して、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
図4は、本体ユニットMの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図5は、本体ユニットMの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図6は、本体ユニットMの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
そして、このパーソナルコンピュータは、音片の時間長が変換された音片データのうちから、定型メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部52が行う処理と同様の処理を行うことにより、外部より取得した照合レベルデータが示す基準に従って、音片1個につき1個ずつ選択する(ステップS305)。
なお、照合レベルデータが示す基準に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。また、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合は、該当する音片を、音片データを索出できなかった音片として扱うことと決定し、例えば欠落部分識別データを生成するものとする。
また、連続音声データより連続して索出されたものとして検出した音片データ(定型メッセージのうち韻律予測の対象から除外した部分に相当する音片データ)は、照合レベルデータの値にかかわらず優先的に選択するものとする。
ただし、ステップS306でこのパーソナルコンピュータは、ステップS203の処理に相当する処理を行う代わりに、ステップS304における韻律予測の結果を用いて音声波形データを生成するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
41 音響処理部
42 検索部
43 伸長部
44 波形データベース
5 音片編集部
51 形態素解析部
52 一致音片決定部
53 韻律予測部
54 出力合成部
6 検索部
7 音片データベース
8 話速変換部
R 音片登録ユニット
10 収録音片データセット記憶部
11 音片データベース作成部
HDR ヘッダ部
DIR ディレクトリ部
DAT データ部
Claims (7)
- 複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶する音片記憶手段と、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析手段と、
前記文章の韻律を予測する韻律予測手段と、
前記音片記憶手段に記憶された音片データの中から音片データを読み出して選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成手段と、を備え、
前記選択手段は、
(a)前記形態素解析手段によって特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を前記音片記憶手段より連続して読み出し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測手段が予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測手段は、前記文章のうち、前記音片記憶手段より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外するものである、
ことを特徴とする音声合成装置。 - 前記文章を構成する文言のうち、前記選択手段が音片データを選択できなかった文言について、当該文言を表す音声の波形を表す音声データを合成する欠落部分合成手段を更に備え、
前記音片合成手段は、前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする請求項1に記載の音声合成装置。 - 前記欠落部分合成手段は、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記文言を表す音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備える、
ことを特徴とする請求項2に記載の音声合成装置。 - 前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備え、
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成する、
ことを特徴とする請求項3に記載の音声合成装置。 - 前記欠落部分合成手段は、前記韻律予測手段が予測した韻律に基づいて、前記選択手段が音片データを選択できなかった音声について、当該音片の波形を表す音声データを合成する、
ことを特徴とする請求項1に記載の音声合成装置。 - 複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶装置に記憶する音片記憶ステップと、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析ステップと、
前記文章の韻律を予測する韻律予測ステップと、
前記記憶装置に記憶された音片データの中から音片データを読み出して選択する選択ステップと、
前記選択ステップで選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成ステップと、より構成され、
前記選択ステップでは、
(a)前記形態素解析ステップで特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を前記記憶装置から連続して読み出して選択し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測ステップで予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測ステップでは、前記文章のうち、前記記憶装置より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外する、
ことを特徴とする音声合成方法。 - コンピュータを、
複数の音片が連続して発話されて得られる音声を表す連続音声データを記憶しており、当該連続音声データ内で個々の音片を表す部分をなす個々の音片データの開始位置及び終了位置を、それぞれの当該音片データが表す音片の読みと対応付けて記憶する音片記憶手段と、
文章をなす表意文字列を入力し、当該表意文字列に形態素解析を施して当該表意文字列に対応する表音文字列を特定する形態素解析手段と、
前記文章の韻律を予測する韻律予測手段と、
前記音片記憶手段に記憶された音片データの中から音片データを読み出して選択する選択手段と、
前記選択手段が選択した音片データを互いに結合することにより、合成音声を表すデータを生成する音片合成手段と、して機能させるためのプログラムであって、
前記選択手段は、
(a)前記形態素解析手段によって特定された複数の音片データの開始位置と終了位置が、前記連続音声データ内で互いに連続しているものであり、当該複数の音片データの連続全体の読みが、前記表意文字列内の文言の連続と一致する場合、当該複数の音片データの連続全体の開始位置及び終了位置を特定し、当該複数の音片データの連続全体を連続して読み出して選択し、当該連続して読み出した音片データを、前記韻律の予測の結果に拘わらず選択し、
(b)それ以外の場合、前記韻律予測手段が予測した韻律に基づいて、前記形態素解析手段が特定した表音文字列と共通する読みに対応付けられている音片データを選択し、
前記韻律予測手段は、前記文章のうち、前記音片記憶手段より互いに連続して読み出した複数の音片データが表す音声と共通する読みを示す連続した部分を、前記韻律の予測の対象から除外するものである、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004333431A JP4574333B2 (ja) | 2004-11-17 | 2004-11-17 | 音声合成装置、音声合成方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004333431A JP4574333B2 (ja) | 2004-11-17 | 2004-11-17 | 音声合成装置、音声合成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006145691A JP2006145691A (ja) | 2006-06-08 |
JP4574333B2 true JP4574333B2 (ja) | 2010-11-04 |
Family
ID=36625498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004333431A Expired - Fee Related JP4574333B2 (ja) | 2004-11-17 | 2004-11-17 | 音声合成装置、音声合成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4574333B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112556835A (zh) * | 2020-12-17 | 2021-03-26 | 武汉光庭信息技术股份有限公司 | 车载仪表声音自动化测试装置及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63264800A (ja) * | 1987-04-21 | 1988-11-01 | 日本電気株式会社 | 音声編集合成装置 |
JPH04167749A (ja) * | 1990-10-31 | 1992-06-15 | Toshiba Corp | 音声応答装置 |
JPH0887297A (ja) * | 1994-09-20 | 1996-04-02 | Fujitsu Ltd | 音声合成システム |
JPH08234793A (ja) * | 1995-02-28 | 1996-09-13 | Matsushita Electric Ind Co Ltd | Vcv連鎖波形を接続する音声合成方法およびその装置 |
JPH0944191A (ja) * | 1995-05-25 | 1997-02-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
JP2001100776A (ja) * | 1999-09-30 | 2001-04-13 | Arcadia:Kk | 音声合成装置 |
JP2001134283A (ja) * | 1999-11-04 | 2001-05-18 | Mitsubishi Electric Corp | 音声合成装置および音声合成方法 |
JP2001249678A (ja) * | 2000-03-03 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 |
JP2002156987A (ja) * | 2000-11-20 | 2002-05-31 | Fujitsu General Ltd | 音声合成システム |
WO2004097792A1 (ja) * | 2003-04-28 | 2004-11-11 | Fujitsu Limited | 音声合成システム |
-
2004
- 2004-11-17 JP JP2004333431A patent/JP4574333B2/ja not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63264800A (ja) * | 1987-04-21 | 1988-11-01 | 日本電気株式会社 | 音声編集合成装置 |
JPH04167749A (ja) * | 1990-10-31 | 1992-06-15 | Toshiba Corp | 音声応答装置 |
JPH0887297A (ja) * | 1994-09-20 | 1996-04-02 | Fujitsu Ltd | 音声合成システム |
JPH08234793A (ja) * | 1995-02-28 | 1996-09-13 | Matsushita Electric Ind Co Ltd | Vcv連鎖波形を接続する音声合成方法およびその装置 |
JPH0944191A (ja) * | 1995-05-25 | 1997-02-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
JP2001100776A (ja) * | 1999-09-30 | 2001-04-13 | Arcadia:Kk | 音声合成装置 |
JP2001134283A (ja) * | 1999-11-04 | 2001-05-18 | Mitsubishi Electric Corp | 音声合成装置および音声合成方法 |
JP2001249678A (ja) * | 2000-03-03 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 |
JP2002156987A (ja) * | 2000-11-20 | 2002-05-31 | Fujitsu General Ltd | 音声合成システム |
WO2004097792A1 (ja) * | 2003-04-28 | 2004-11-11 | Fujitsu Limited | 音声合成システム |
Also Published As
Publication number | Publication date |
---|---|
JP2006145691A (ja) | 2006-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080109225A1 (en) | Speech Synthesis Device, Speech Synthesis Method, and Program | |
KR101076202B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP5819147B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4264030B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP4620518B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP4411017B2 (ja) | 話速変換装置、話速変換方法及びプログラム | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4407305B2 (ja) | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム | |
JP4209811B2 (ja) | 音声選択装置、音声選択方法及びプログラム | |
JP2006145690A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2006145848A (ja) | 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム | |
JP4620517B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP4184157B2 (ja) | 音声データ管理装置、音声データ管理方法及びプログラム | |
JP2006195207A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4816067B2 (ja) | 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP2007108450A (ja) | 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム | |
JP4780188B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2007240987A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240989A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240988A (ja) | 音声合成装置、データベース、音声合成方法及びプログラム | |
JP2004361944A (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2007240990A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2000322075A (ja) | 音声合成装置および自然言語処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100818 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |