[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5158567B2 - 音声合成装置、音声合成方法及び音声合成プログラム - Google Patents

音声合成装置、音声合成方法及び音声合成プログラム Download PDF

Info

Publication number
JP5158567B2
JP5158567B2 JP2008092126A JP2008092126A JP5158567B2 JP 5158567 B2 JP5158567 B2 JP 5158567B2 JP 2008092126 A JP2008092126 A JP 2008092126A JP 2008092126 A JP2008092126 A JP 2008092126A JP 5158567 B2 JP5158567 B2 JP 5158567B2
Authority
JP
Japan
Prior art keywords
segment
unit
speech
candidate
improvement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008092126A
Other languages
English (en)
Other versions
JP2009244661A (ja
Inventor
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008092126A priority Critical patent/JP5158567B2/ja
Publication of JP2009244661A publication Critical patent/JP2009244661A/ja
Application granted granted Critical
Publication of JP5158567B2 publication Critical patent/JP5158567B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置、音声合成方法及び音声合成プログラムに関する。
従来から、テキスト文を解析し、その文が示す音声情報から規則合成により合成音声を生成する音声合成装置が、種々開発されてきた。図11は、一般的な規則合成型の音声合成装置の構成を示したブロック図である。このような構成を有する音声合成装置の構成と動作の詳細については、例えば非特許文献1乃至3と、特許文献1及び2に記載されている。
図11に示した音声合成装置は、言語処理部1と、韻律生成部2と、候補素片取得部3と、素片選択部4と、素片情報記憶部5と、波形生成部6とを備えている。
素片情報記憶部5は、音声合成単位ごとに生成された音声素片と、各音声素片の属性情報を記憶している。ここで、音声素片とは、合成音声の波形を生成するために使われる情報で、収録された自然音声波形から抽出されることが多い。音声素片の例としては、合成単位毎に切り出された音声波形そのものや、線形予測分析パラメータ、ケプストラム係数などが挙げられる。
又、音声素片の属性情報とは、各音声素片の抽出元である自然音声の音素環境や、ピッチ周波数、振幅、継続時間情報等の音韻情報や韻律情報のことである。
音声合成単位としては、音素、CV、CVC、VCV(Vは母音、Cは子音)などが用いられることが多い。この音声素片の長さや合成単位の詳細については、非特許文献1と非特許文献3と非特許文献5とに記述されている。
言語処理部1は、入力されたテキスト文に対して形態素解析、構文解析及びテキスト文の読みやアクセントを分析する読み付け等の言語処理を行い、音素記号などの「読み」を表す記号列と、形態素の品詞、活用、アクセント型などを言語処理結果として韻律生成部2と、候補素片取得部3と、素片選択部4とに出力する。
韻律生成部2は、言語処理部1から出力された言語処理結果を基に、合成音声の韻律情報(ピッチ、時間長、パワー等に関する情報であって、音の強弱、長短及び高低等によって作り出される言葉のリズムに係る情報)を生成し、素片選択部4と波形生成部6とに出力する。
候補素片取得部3は、言語処理結果を参照して、素片情報記憶部5に記憶されている音声素片の中から合成音声に用いられる可能性がある音声素片を選び出し、素片選択部4へ伝達する。
素片選択部4は、言語処理結果と生成された韻律情報に関して適合度が高い音声素片を、候補素片取得部3から供給される素片の中から選択し、選択した音声素片の付属情報と併せて波形生成部6に出力する。
波形生成部6は、選択された音声素片から、韻律生成部2で生成した韻律に近い韻律を有する波形を生成し、それらの波形を接続して、合成音声として出力する。なお、波形合成については、非特許文献4に記載されている。
以上の処理において、素片選択部4は、入力された言語処理結果と韻律情報から、目標合成音声の特徴を表す情報(以下、これを「目標素片環境」と呼ぶ。)を所定の合成単位ごとに求める。目標素片環境に含まれる情報には、該当・先行・後続の各音素名、ストレスの有無、アクセント核からの距離、合成単位のピッチ周波数やパワー、単位の継続時間長、ケプストラム、MFCC(Mel Frequency Cepstral Coefficients)、及びこれらのΔ量(単位時間あたりの変化量)などが挙げられる。
次に、目標素片環境が与えられると、素片選択部4は、素片情報記憶部5の中から目標素片環境により指定される特定の情報(主に該当音素)に合致する音声素片を複数選択する。選択された音声素片は、合成に用いる音声素片の候補となる。そして、選択された候補素片に対して、合成に用いる音声素片としての適切度を示す指標である「スコア(又はコスト)」を計算する。高音質な合成音声を生成することを目標としているため、スコアが高い(又はコストが小さい)、即ち適切度が高いと、合成音の音質は高くなる。従って、スコアは、合成音声の音質の劣化度を推定するための指標であると言える。非特許文献6では、音声素片の選択にコストを用いている。
ここで、素片選択部4で計算されるスコアには、単位スコアと接続スコアがある。単位スコアは、候補素片を目標素片環境の下で用いることにより生じる推定音質劣化度を表すもので、候補素片の素片環境と目標素片環境との類似度を基に算出される。一方、接続スコアは、接続する音声素片間の素片環境が不連続であることによって生じる推定音質劣化度を表すもので、隣接候補素片同士の素片環境の親和度を基に算出される。
この単位スコア及び接続スコアの計算方法は、これまで各種提案されている。一般に、単位スコアの計算には、目標素片環境に含まれる情報が用いられ、接続スコアには、素片の接続境界におけるピッチ周波数、ケプストラム、MFCC、短時間自己相関、パワー、及びこれらの△量などが用いられる。
以上の通り、単位スコア及び接続スコアは、素片に関する各種情報(ピッチ周波数、ケプストラム、パワー等)を複数用いて算出される。単位スコアと接続スコアを素片ごとに計算したのちに、接続スコアと単位スコアの両者が最大となる音声素片を各合成単位に対して一意に求める。
スコア最大化により求めた素片を、候補素片の中から音声の合成に最も適した素片として選択されたことから最適素片と呼ぶ。素片選択部4は、全合成単位を対象にそれぞれの最適素片を求めると、最終的に最適素片の系列(最適素片系列)を選択結果として波形生成部6に出力する。
素片選択部4では、スコアを計算して最適な素片を選択しているが、最適素片を選択するために用いられる計算式やパラメータなどが不適切なために、必ずしも最良の音質を達成する素片が選択されるとは限らない。
又、予め用意したスコアでは判別できない劣化が含まれている素片が選択される可能性がある。例えば、突発性のノイズが混入した素片は、最適素片としては不適切であり、素片選択時に除外すべきである。ところが、前記の単位スコアや接続スコアでは突発性ノイズを考慮していないため、スコアの低下により最適素片から遠ざかることは無く、最適素片に選択される可能性もある。
そこで、特許文献3では、上記のような問題を解決する目的で、生成された合成音声を聞いて、音質的に不良であると思われる素片を見つけて削除する、すなわち使用禁止素片に指定する合成音声編集方法がある。
この特許文献3では、素片削除の指定は単位ごとに実施する。例えば、合成単位を音節と仮定し、発声内容が「こんにちわ」という合成音声に対して素片削除を行う場合、「こ」の音質が悪いと判断したら「こ」の単位で使用されている素片を使用禁止素片に指定する。使用禁止素片は合成音声には使用されなくなるので、これまで使用禁止となった素片が使われていた箇所の音質が改善する。この使用禁止素片を効率よく見つけるために、特許文献3では、音質が悪いと考えられる、すなわち素片選択スコアが低い素片を合成音声編集者に提示する方法を提案している。
又、特許文献4は、周波数毎に、各合成単位での最適な音声素片を評価値に基づいて選択し、その周波数における総評価値を求めて記憶し、最も総評価値の良い周波数でのピッチパターンを合成時に用いるというものである。
特開2005−091551号公報 特開2006−084854号公報 特開2006−313176号公報 特開2004−138728号公報 Huang, Acero, Hon: "Spoken Language Processing", Prentice Hall, pp. 689-836, 2001. 石川: "音声合成のための韻律制御の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 27-34, 2000. 阿部: "音声合成のための合成単位の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 35-42, 2000. Moulines, Charapentier: "Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones", Speech Communication 9, pp. 435-467, 1990. Segi, Takagi, Ito: "A CONCATENATIVE SPEECH SYNTHESIS METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WITH VARIABLE LENGTH AS SEARCH UNITS", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 115-120, 2004 Kawai, Toda, Ni, Tsuzaki, Tokuda: "XIMERA: A NEW TTS FROM ATR BASED ON CORPUS-BASED TECHNOLOGIES", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 179-184, 2004
しかしながら、上記した特許文献3に記載された従来の音声合成装置は、下記記載の問題点を有している。
素片選択スコアが低い箇所は、必ずしも改善見込みの可能性が高い箇所では無いという問題である。基本的にスコアが最も高い素片が最適素片として選択されているため、スコアが低い箇所で最適素片の削除を行うことにより、スコアが大幅に高まる可能性は小さい。即ちスコアが低い箇所ならば、音質の良い素片が出現する可能性は低いといえる。
又、スコアでは除外が難しい音質劣化を含む素片を削除しても、スコアが低く低音質であれば素片を削除したことによる音質改善効果は小さい。従って、スコアの低い箇所を集中的に探索することは、使用禁止素片を見つけて合成音声の品質を効率良く改善する方法としては適切ではない。
特許文献4に記載された発明は、音声素片の数が十分でない状況での対応が不十分で、音質の悪い部分が突然生じやすいという問題点がある。
本発明は、上記問題点に鑑みてなされたものであり、使用を禁止すべき削除対象の音声素片を効率良く見つけることが可能になる音声合成装置、音声合成方法及び音声合成プログラムを実現することを目的とする。
上述の課題を解決するため、本発明に係る音声合成装置は、入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理を行う言語処理部と、該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成部と、前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得部と、前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択部と、該最適素片に基づいて合成音声波形を生成する波形生成部と、を有し、前記候補素片取得部は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成部は合成音声波形を再生成する音声合成装置において、前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算部と、前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得部と、を備え、前記改善見込指標計算部は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする。
上述の課題を解決するため、本発明に係る音声合成方法は、入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理を行う言語処理手順と、該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成手順と、前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得手順と、前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択手順と、該最適素片に基づいて合成音声波形を生成する波形生成手順と、を有し、前記候補素片取得手順は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成手順は合成音声波形を再生成する音声合成方法において、前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算手順と、前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得手順と、を更に有し、前記改善見込指標計算手順は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする。
上述の課題を解決するため、本発明に係る音声合成プログラムは、入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理と、該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成処理と、前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得処理と、前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択処理と、該最適素片に基づいて合成音声波形を生成する波形生成処理と、をコンピュータに実行させ、前記候補素片取得処理は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成処理は合成音声波形を再生成する音声合成プログラムにおいて、前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算処理と、前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得処理と、を更にコンピュータに実行させ、前記改善見込指標計算処理は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする。
本発明によれば、削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、この改善見込指標の計算時に素片選択スコアが大きければ改善見込指標を大きくすることにより、使用を禁止すべき削除対象の音声素片を効率良く見つけることが可能になる音声合成装置、音声合成方法及び音声合成プログラムを実現することができる。
次に、本発明の実施の形態の構成について図面を参照して詳細に説明する。
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る音声合成装置の構成を示すブロック図である。図1に示す本実施の形態による構成では、言語処理部1、韻律生成部2、候補素片取得部3、素片選択部4、素片情報記憶部5、波形生成部6、削除対象の素片を指定する素片削除指令が入力される使用禁止素片情報取得部11、使用禁止素片情報記憶部12、最適素片情報記憶部13及び改善見込指標計算部140を備えている。
素片情報記憶部5は、音声合成単位ごとに生成された音声素片と、各音声素片の属性情報を記憶している。
使用禁止素片情報記憶部12は、素片情報記憶部5に登録されている素片の中で、合成音声として使用不可と指定された素片、即ち候補素片から除外すべき素片を記録している。
初期状態の使用禁止素片情報記憶部12には記憶されている素片が一切無く、合成音声編集者が素片削除の指定を行うと記録が蓄積されていき、合成音声編集完了後に記録内容が全て消去されることが一般的である。しかし、恒久的に使用を禁止したい素片を初期段階から記録しておく利用方法や、合成音声編集後も記録内容を消去することなく累積的に使用禁止素片を登録する利用方法もあり得る。
最適情報素片記憶部13は、素片選択部4で選択された素片情報を記憶している。従って、初期状態では記録内容が無く、合成音声の編集が完了後には記録内容が消去される。又、素片選択が実行されるたびに、最適情報素片記憶部13の内容は更新される。
次に、図1のブロック図を参照しながら、第1の実施の形態による音声合成装置の詳細な動作について説明する。
図2は、本発明の第1の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。
図2において、言語処理部1は、入力されたテキスト文に対して形態素解析や構文解析、読み付け等の分析を行い、言語処理結果として韻律生成部2と、候補素片取得部3と、素片選択部4と、に出力する(ステップS101)。
韻律生成部2は、言語処理部1から出力された言語処理結果を基に、合成音声の韻律情報を生成し、素片選択部4と波形生成部6に出力する(ステップS102)。
候補素片取得部3は、言語処理部1から供給された言語処理結果と、使用禁止素片情報記憶部12に記憶された使用禁止素片情報と、を参照して、素片情報記憶部5に登録されている音声素片の中から合成音声に用いられる可能性がある音声素片を選び出し、素片選択部4へ伝達する。この時に、使用禁止素片として登録されている素片や、読みの異なる素片は、候補対象から除外する。又、言語処理結果と比較して言語的特徴(アクセント句境界の相対関係、アクセント核からの距離など)が著しく異なる素片も候補から除外することもある(ステップS103)。
素片選択部4は、言語処理部1から供給された言語処理結果と韻律生成部2で生成された韻律情報に関して適合度が高い音声素片を、候補素片取得部3から供給される素片の中から選択し、選択した音声素片の付属情報と併せて最適素片情報記憶部13及び波形生成部6に伝達する。又、最適素片を選択する際に算出した各候補素片、及び各素片の素片選択スコア(単位スコアや接続スコアなど)を、素片選択情報として改善見込指標計算部140に伝達する(ステップS104)。
波形生成部6は、素片選択部4で選択された音声素片から、韻律生成部2で生成された韻律に近い韻律を有する波形を生成し、それらの波形を接続して、合成音声として出力する(ステップS105)。生成される波形の韻律は、韻律生成部2で生成された韻律を忠実に再現する場合もあれば、生成された韻律をほぼ無視して選択された素片の韻律のみを基に合成音声の韻律を生成する場合もある。
最適情報素片記憶部13は、素片選択部4から供給された素片選択情報を基に素片選択部で選択された素片情報を更新する(ステップS106)。
改善見込指標計算部140は、素片選択部4から供給された素片選択情報を基に、単位ごとに素片削除により音質が改善する可能性を推定し、改善見込指標として出力する(ステップS107)。
素片選択情報を用いて改善見込指標を計算する場合、主に素片選択スコアが利用される。そして、素片選択スコアが高ければ、素片削除を行った際に音質が改善する見込みが高いことから、改善見込指標を高くする。改善見込指標の計算に利用される素片選択スコアとしては、単位スコア、接続スコア、及び両者を基に算出したスコア(例えば両者の和)が主に挙げられる。
素片選択スコアを基に改善見込指標を導出するには、素片削除後の素片選択スコアの推定が要求される。理想的と考えられる方法としては、素片削除後の素片選択スコアを削除前に求める方法、即ち、現在の最適素片を削除したときに得られる素片選択スコアを単位ごとに求める方法が挙げられる。
但し、算出するには、最適素片の削除と素片の再選択処理を各単位において逐一実行する必要があることが一般的であるため、多大な計算量を要することが多い。
従って、改善見込指標計算部等が素片削除後の素片選択スコアを推定する方法としては、現在の最適素片の素片選択スコアを推定値として用いる方法や、スコアが高い複数の素片のスコアを基に推定値を計算する方法が有望である。
スコアが高い複数の素片のスコアを基に推定値を計算する方法では、スコアの平均値や重みつき和などを単位ごとに計算して、素片削除後の素片選択スコアの推定値とする。例えば、スコアの上位N位をS1からSN(S1>S2>…>SN>0)とし、重みつき和により推定値Tを計算する場合、計算式は以下の式(1)で与えられる。
Figure 0005158567
但し、a1, a2, …, aN は正の実数である。素片削除後に選択される可能性が高い素片は高スコアの素片であることから、a1>a2>...>aNという関係を満足することが望ましい。又、最適素片のスコアを除いて推定値を計算する方法も有望である。これは、最適素片のみが大幅にスコアが高く、準最適な素片のスコアが低い場合には、最適素片を削除するとスコア及び音質が大幅に低下する可能性が高いためである。
素片削除後の素片選択スコアの推定値から改善見込指標を求める方法としては、例えば以下に示すように推定スコアの一次関数を用いて改善見込指標を計算する方法が挙げられる。このとき、推定スコアをx(>0)、改善見込指標をF(x)とした場合、両者の関係は以下の式(2)で与えられる。
Figure 0005158567
但し、a、bは実数で、a>0である。
又、図3に示すように推定スコアと改善見込指標の関係を示す表を事前に用意し、その表を参照して指標値を決定する方法もある。その他にも、関数F(x)として指数関数や二次以上の多次元関数、多項式関数を用いる方法や、素片選択スコアの推定値そのものを出力する方法もある。いずれの方法でも、推定スコアが高ければ改善見込みが高くなる傾向にあることが、改善見込指標の計算で満足すべき条件となる。
ステップS108では、使用禁止素片情報取得部11は、入力された素片削除指令と最適素片情報記憶部13に記憶された最適素片情報を参照し、削除対象、つまり使用禁止とすべき素片の情報を求め、素片削除指令を取得した場合(YES)、使用禁止とすべき素片の情報を使用禁止素片情報記憶部12に伝達すると共に、使用禁止素片情報記憶部12が更新されたこと通知する信号を候補素片取得部3に伝達する(ステップS109)。又、使用禁止素片情報記憶部12は、伝達された使用禁止とすべき素片の情報に基づいて、使用禁止素片情報を更新する(ステップS110)。
素片削除指令は合成単位毎に取得する。例えば、合成単位が音節で、合成音声の発声内容が「こんにちわ」であった場合、素片削除は、「こ」、「ん」、「に」、「ち」、「わ」の中から指定される。指定箇所は、「こ」のひとつだけでも良いし、「こ」と「ち」の2箇所でも良い。指定された箇所の素片は、最適素片情報から一意に特定される。
素片削除が行われると、削除対象の素片を除いて合成音声を再生成する必要があるため、使用禁止素片情報記憶部12が更新されたこと通知する信号を候補素片取得部3に伝達することで、候補素片の取得から合成音声の波形生成までを再度実行する。
候補素片取得部3は、使用禁止素片情報記憶部12が更新されたことを通知する信号を受信すると、再び言語処理結果と、使用禁止素片情報記憶部12に記憶された使用禁止素片情報を参照して、合成音声に用いられる可能性がある音声素片を選び出し、素片選択部4へ伝達する(ステップS103)。
その後、ステップS104以降の手順を再度実行し、ステップS108において、素片削除指令を取得しなかった場合(NO)、本実施の形態に係る一連の処理は終了する。
以上説明したように、本実施の形態によれば、音声合成装置は、素片選択スコアが高ければ素片削除による音質改善の見込が高くなる性質を利用して、素片選択スコアを基に改善見込指標を計算する。その際、単位ごとに最適素片や複数の高スコア素片のスコアから素片削除後の素片選択スコアを推定し、各単位の改善見込指標の計算に反映する。このため、素片削除により変化するスコア及び音質が推測可能となり、従来よりも信頼性の高い改善見込指標を求めることができる。
その理由は、素片選択スコアが低い箇所よりも改善見込みの高い箇所を優先して探索するほうが効率は良く、改善見込みの高い箇所はスコアの低い箇所では無く、スコアは高いが音質が悪い箇所だからである。
スコアが高い箇所では、素片削除によりスコアが若干低下しても高水準のスコアを有する素片が再び選択されることが多い。従って、素片削除を行ったときにスコアも音質も高い代替素片が選択される可能性が高いため、合成音声の品質を効率良く改善することが可能になる。
[第2の実施の形態]
第1の実施の形態では素片選択スコアを利用して改善見込指標を計算しているが、素片選択スコアは、音質の指標としては完全に信頼することは困難であるという問題がある。仮に、素片選択スコアが削除対象とすべき使用禁止素片の発見に関して十分に信頼可能な指標であるならば、素片選択時に高品質な素片が最適素片として選択されるはずであり、使用禁止素片を発見・指定する作業自体が不要になると言える。
従って、素片選択スコア以外の情報も用いれば、より信頼性の高い改善見込指標を求めることが可能になる。そこで、第2と第3の実施の形態では、素片選択スコア以外の情報を用いて改善見込指標を計算する例について説明する。
ここで、図4は、本発明の第2の実施の形態に係る音声合成装置の構成を示すブロック図である。
図4に示す本実施の形態に係る構成では、図1に示した第1の実施の形態と比較して、候補素片取得部31及び改善見込指標計算部141を備えていることを特徴とする。以下、図4のブロック図を参照しながら、第2の実施の形態による音声合成装置の詳細な動作について説明する。
図5は、本発明の第2の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。この図5は、第1の実施の形態の動作を説明するためのフローチャートである図2と比較して、ステップS101、ステップS102、ステップS104、ステップS105、ステップS106、ステップS108、ステップS109及びステップS110は共通であり、図2のステップS103に代えてステップS203と、図2のステップS107に代えてステップS207と、を有する。
このステップS203において、候補素片取得部31は、言語処理部1から供給された言語処理結果と、使用禁止素片情報記憶部12に記憶された使用禁止素片情報を参照して、素片情報記憶部5に登録されている音声素片の中から合成音声に用いられる可能性がある音声素片を選び出し、素片選択部4へ伝達する。又、単位ごとの候補素片の数を改善見込指標計算部141に伝達する。
改善見込指標計算部141は、候補素片取得部31から供給された候補素片数を基に、単位ごとに素片削除により音質が改善する可能性を推定し、改善見込指標として出力する(ステップS207)。
候補素片数を用いて改善見込指標を計算する場合、候補素片数が少なければ素片削除の指定を行っても代替素片が高音質を達成する可能性が低いので、基本的には改善見込指標の値を小さくする。素片情報記憶部5に登録されている素片及び候補素片取得部31で取得される素片の数は、単位ごとに異なることが多い。つまり、代替が可能な素片の数は、単位種別に応じて異なる。例えば、合成単位を音節とした場合、「わ」や「お」などの素片数は多いが、「ヴぁ」の素片数は少ないことがある。
又、候補素片数が多いということは、様々な特徴量(ピッチ周波数、継続時間長、ケプストラムなど)を持つ素片が多く存在する傾向にあることを意味する。このため、候補素片数の多い箇所では、素片選択スコアが高くなる最適素片が出現する可能性が高い。従って、候補素片数が多ければ、素片選択スコアが高い代替素片が出現する可能性も高くなるので、改善見込みは高くなると言える。
候補素片数から改善見込指標を計算する方法としては、素片選択スコアを用いて改善見込指標を求める際に、推定スコアから改善見込指標の算出に用いた方法が同様に利用される。いずれの方法でも、候補数が多ければ改善見込みが大きくなる傾向にあることが、改善見込指標の計算で満足すべき条件となる。
以上説明したように、本実施の形態によれば、候補数が多ければ素片選択スコアが高い素片が出現する確率が高くなる性質を利用して、候補数が多ければ改善見込指標を高くする。特に、第1の実施の形態と比較して、素片選択スコアを利用せずに改善見込指標を計算するため、素片選択スコアが十分信頼できない状況では、第1の実施の形態よりも有効な改善見込指標を求めることが可能になる。
[第3の実施の形態]
続いて、本発明の第3の実施の形態に係る音声合成装置について説明する。ここで、図6は、本発明の第3の実施の形態に係る音声合成装置の構成を示すブロック図である。
図6に示す本実施の形態に係る構成では、図1に示した第1の実施の形態と比較して、使用禁止素片情報取得部112、改善見込指標計算部142及び使用禁止素片取得回数計算部152を備えていることを特徴とする。
以下、図6のブロック図を参照しながら、第3の実施の形態による音声合成装置の詳細な動作について説明する。
図7は、本発明の第3の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。この図7は、第1の実施の形態の動作を説明するためのフローチャートである図2と比較して、ステップS101、ステップS102、ステップS103、ステップS104、ステップS105、ステップS106、ステップS108及びステップS110は共通であり、図2のステップS107に代えてステップS307と、図2のステップS109に代えてステップS309と、を有し、別途ステップS311を備える。
このステップS307において、改善見込指標計算部142は、使用禁止素片取得回数計算部152から供給された使用禁止素片取得回数を基に、単位ごとに素片削除により音質が改善する可能性を推定し、改善見込指標として出力する。
使用禁止素片取得回数を用いて改善見込指標を計算する場合、使用禁止素片取得回数が多ければ素片削除の指定を行っても代替素片が高音質を達成する可能性が低いので、基本的には改善見込指標の値を小さくする。素片削除を同一単位に対して複数回実施する場合、スコアの高い素片から順番に削除されることになる。したがって、削除が多く行われた箇所では、その箇所の候補素片の中でも比較的スコアの低い素片の中から音質の高い素片の出現を待つことになるため、その箇所での音質改善の見込みは低下する。
使用禁止素片取得回数から改善見込指標を計算する方法としては、素片選択スコアを用いて改善見込指標を求める際に、推定スコアから改善見込指標の算出に用いた方法が同様に利用される。いずれの方法でも、使用禁止素片取得回数が少なければ改善見込みが大きくなる傾向にあることが、改善見込指標の計算で満足すべき条件となる。従って、式(2)を用いる場合には、aは負の実数であることが条件となる。
ステップS108では、使用禁止素片情報取得部112は、入力された素片削除指令と最適素片情報記憶部13に記憶された最適素片情報を参照し、削除対象、つまり使用禁止とすべき素片の情報を求め、素片削除指令を取得した場合(YES)、使用禁止とすべき素片の情報を使用禁止素片情報記憶部12と使用禁止素片取得回数計算部152とに伝達すると共に、使用禁止素片情報記憶部12が更新されたこと通知する信号を候補素片取得部3及び使用禁止素片取得回数計算部152に伝達する(ステップS309)。
ステップS311では、使用禁止素片取得回数計算部152は、使用禁止素片情報記憶部12が更新されたことを通知する信号を使用禁止素片情報取得部112から受信するたびに、使用禁止素片情報を取得した回数を更新し、改善見込指標計算部142に伝達する。
使用禁止素片取得回数計算部152の初期値は、ゼロに設定しているので、使用禁止素片情報記憶部12が更新されたことを通知する信号を全く受信しなければ、使用禁止素片取得回数計算部152はゼロを出力する。
又、使用禁止素片取得回数は、単位ごとに(合成単位が音節であれば、各音節に対して)削除回数をカウントする。
以上説明したように、本実施の形態によれば、使用禁止素片取得回数が少なければ素片選択スコアが高い素片が出現する確率が高くなる性質を利用して、使用禁止素片取得回数が少なければ改善見込指標を高くする。
第1の実施の形態と比較して、素片選択スコアを利用せずに改善見込指標を計算するため、素片選択スコアが十分信頼できない状況では、第1の実施の形態よりも有効な改善見込指標を求めることが可能になる。
又、複数個所において削除が複数回繰り返されている状況で、合成音声の全般的な音質改善のために、削除があまり行われていない箇所を優先的に削除対象として検討したい場合に効果的な方法である。
[第4の実施の形態]
続いて、本発明の第4の実施の形態に係る音声合成装置について説明する。ここで、図8は、本発明の第4の実施の形態に係る音声合成装置の構成を示すブロック図である。
図8に示す本実施の形態に係る構成では、図1に示した第1の実施の形態と比較して、候補素片取得部31、使用禁止素片情報取得部112、改善見込指標計算部143及び使用禁止素片取得回数計算部152を備えていることを特徴とする。
候補素片取得部31は、図4の第2の実施の形態のブロック図にある候補素片取得部31と等価であり、使用禁止素片情報取得部112及び使用禁止素片取得回数計算部152は、図6の第3の実施の形態のブロック図にある使用禁止素片情報取得部112及び使用禁止素片取得回数計算部152と等価である。
以下、図8のブロック図を参照しながら、第4の実施の形態による音声合成装置の詳細な動作について説明する。
図9は、本発明の第4の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。この図9は、第1の実施の形態の動作を説明するためのフローチャートである図2と比較して、ステップS101、ステップS102、ステップS104、ステップS105、ステップS106、ステップS108及びステップS110は共通である。
但し、図2のステップS103に代えて図5のステップS203と等価なステップS203と、図2のステップS109に代えて図7のステップS309と等価なステップS309と、図2のステップS107に代えてステップS407とを有し、別途図7のステップS311と等価なステップS311を備える。
このステップS407において、改善見込指標計算部143は、素片選択部4から供給された素片選択情報と、候補素片取得部31から供給された候補素片数と、使用禁止素片取得回数計算部152から供給された使用禁止素片取得回数を基に、単位ごとに素片削除により音質が改善する可能性を推定し、改善見込指標として出力する。
素片選択情報、候補素片数、及び使用禁止素片取得回数をそれぞれ独立に用いた例は、第1の実施の形態、第2の実施の形態及び第3の実施の形態において説明しており、本実施の形態ではこれらを組み合わせて利用する方法について説明する。
本実施の形態では、素片選択情報から推定スコアを求めた後、推定スコアが高ければ、候補素片数が多ければ、使用禁止素片取得回数が少なければ、改善見込指標の値を大きくする。改善見込指標の計算方法としては、推定スコア、候補素片数及び使用禁止素片取得回数の重みつき和を計算する方法がある。この場合、推定スコアS1、候補素片数S2、使用禁止素片取得回数S3に対して、改善見込指標Tは以下の式(3)で与えられる。
Figure 0005158567
但し、a1, a2, a3, bは実数であり、a1>0, a2>0, a3<0 を満たす。又、図10に示すように、推定スコア、候補素片数、使用禁止素片取得回数と改善見込指標の関係を示す表を事前に用意し、その表を参照して指標値を決定する方法もある。
その他にも、式(3)の代わりに指数関数や二次以上の多次元関数、多項式関数を用いる方法や、推定スコア、候補素片数、使用禁止素片取得回数をそのまま出力する方法もある。
以上は、推定スコア、候補素片数、及び使用禁止素片取得回数から改善見込指標を直接計算する方法であるが、第1の実施の形態、第2の実施の形態及び第3の実施の形態において説明した方法でそれぞれ個別に改善見込指標を計算し、各改善見込指標から1つの改善見込指標を計算する方法を用いても良い。
以上説明したように、本実施の形態によれば、素片選択スコア、候補素片数、使用禁止素片取得回数を用いて改善見込指標を計算する。このため、第1の実施の形態よりも信頼性の高い改善見込指標を求めることが可能になる。
特に、ある情報(例えば素片選択スコア)が同等であった場合に、他の情報(候補素片数や使用禁止素片取得回数)を基に改善見込の補正が可能になるため、各情報を単独で利用する場合に比べて改善見込指標の改善が期待できる。
本発明は、各実施の形態で説明した音声合成装置に限定されるものではなく、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。
なお、本発明は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。
本発明は、テキストを高音質で音声に変換する音声合成装置、音声合成方法及び音声合成プログラムに利用することができる。
本発明の第1の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第1の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。 図1の改善見込指標計算部が改善見込指標計算の算出に使用する表の例である。 本発明の第2の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第2の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。 本発明の第3の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。 本発明の第4の実施の形態に係る音声合成装置の構成を示すブロック図である。 本発明の第4の実施の形態に係る音声合成装置の動作を説明するためのフローチャートである。 図8の改善見込指標計算部が改善見込指標計算に使用する表の例である。 一般的な音声合成装置の一構成例を示すブロック図である。
符号の説明
1 言語処理部
2 韻律生成部
3、31 候補素片取得部
4 素片選択部
5 素片情報記憶部
6 波形生成部
11、112 使用禁止素片情報取得部
12 使用禁止素片情報記憶部
13 最適素片情報記憶部
140、141、142、143 改善見込指標計算部
152 使用禁止素片取得回数計算部

Claims (15)

  1. 入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理を行う言語処理部と、
    該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成部と、
    前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得部と、
    前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択部と、
    該最適素片に基づいて合成音声波形を生成する波形生成部と、
    を有し、
    前記候補素片取得部は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成部は合成音声波形を再生成する音声合成装置において、
    前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算部と、
    前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得部と、
    を備え、
    前記改善見込指標計算部は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする音声合成装置。
  2. 前記削除対象の素片を指定する削除指定の回数を計算する削除指定回数計算部を更に有し、
    前記改善見込指標計算部は、前記削除指定の回数が少なければ前記改善見込指標を大きくすることを特徴とする請求項1に記載の音声合成装置。
  3. 前記改善見込指標計算部は、前記候補素片取得部で取得した候補素片の数が多ければ、前記改善見込指標を大きくすることを特徴とする請求項1又は2に記載の音声合成装置。
  4. 前記改善見込指標計算部は、前記素片選択スコアのうち、高い数値を示すものの重みつき和を、前記改善見込指標計算部で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項1乃至3の何れか1項に記載の音声合成装置。
  5. 前記改善見込指標計算部は、前記素片選択スコアのうち、高い数値を示すものの平均値を、前記改善見込指標計算部で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項1乃至3の何れか1項に記載の音声合成装置。
  6. 入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理を行う言語処理手順と、
    該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成手順と、
    前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得手順と、
    前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択手順と、
    該最適素片に基づいて合成音声波形を生成する波形生成手順と、
    を有し、前記候補素片取得手順は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成手順は合成音声波形を再生成する音声合成方法において、
    前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算手順と、
    前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得手順と、
    を更に有し、
    前記改善見込指標計算手順は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする音声合成方法。
  7. 前記削除対象の素片を指定する削除指定の回数を計算する削除指定回数計算手順を更に有し、
    前記改善見込指標計算手順は、前記削除指定の回数が少なければ前記改善見込指標を大きくすることを特徴とする請求項に記載の音声合成方法。
  8. 前記改善見込指標計算手順は、前記候補素片取得手順で取得した候補素片の数が多ければ、前記改善見込指標を大きくすることを特徴とする請求項又はに記載の音声合成方法。
  9. 前記改善見込指標計算手順は、前記素片選択スコアのうち、高い数値を示すものの重みつき和を、前記改善見込指標計算手順で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項6乃至8の何れか1項に記載の音声合成方法。
  10. 前記改善見込指標計算手順は、前記素片選択スコアのうち、高い数値を示すものの平均値を、前記改善見込指標計算手順で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項6乃至8の何れか1項に記載の音声合成方法。
  11. 入力テキストに対し、該入力テキストの読み及びアクセントの分析、形態素解析並びに構文解析、の一部或いは全部を含む言語処理と、
    該言語処理の結果に基づいて少なくとも、音の強弱、長短及び高低、の一部或いは全部に係る韻律情報を生成する韻律生成処理と、
    前記言語処理の結果に基づいて合成音声に用いられる可能性がある音声素片を候補素片として取得する候補素片取得処理と、
    前記韻律情報及び前記言語処理の結果に基づいて前記候補素片の音声合成における適切度を示す指標である素片選択スコアを計算し、前記候補素片の中から合成音声に最適な音声素片を最適素片として選択する素片選択処理と、
    該最適素片に基づいて合成音声波形を生成する波形生成処理と、
    をコンピュータに実行させ、前記候補素片取得処理は、前記最適素片に削除対象の素片が含まれる場合、該素片を除いて候補素片の取得を再度実行し、前記波形生成処理は合成音声波形を再生成する音声合成プログラムにおいて、
    前記削除対象の素片を削除した際に音質が改善する可能性の高さを表す改善見込指標を計算し、該計算した改善見込指標を出力する改善見込指標計算処理と、
    前記出力された改善見込指標を参照した合成音声編集者によって使用禁止素片として指定された素片を前記削除対象の素片として前記候補素片取得部に伝達する使用禁止素片情報取得処理と、
    を更にコンピュータに実行させ、
    前記改善見込指標計算処理は、前記素片選択スコアに基づいて、前記削除対象の素片を削除した後の素片選択スコアを推定し、該推定された素片選択スコアければ前記改善見込指標をくすることを特徴とする音声合成プログラム。
  12. 前記削除対象の素片を指定する削除指定の回数を計算する削除指定回数計算処理を更にコンピュータに実行させ、
    前記改善見込指標計算処理は、前記削除指定の回数が少なければ前記改善見込指標を大きくすることを特徴とする請求項1記載の音声合成プログラム。
  13. 前記改善見込指標計算処理は、前記候補素片取得処理で取得した候補素片の数が多ければ、前記改善見込指標を大きくすることを特徴とする請求項1又は1に記載の音声合成プログラム。
  14. 前記改善見込指標計算処理は、前記素片選択スコアのうち、高い数値を示すものの重みつき和を、前記改善見込指標計算処理で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項11乃至13の何れか1項に記載の音声合成プログラム。
  15. 前記改善見込指標計算処理は、前記素片選択スコアのうち、高い数値を示すものの平均値を、前記改善見込指標計算処理で用いられる前記削除対象の素片を削除した後の素片選択スコアとして推定することを特徴とする請求項11乃至13の何れか1項に記載の音声合成プログラム。
JP2008092126A 2008-03-31 2008-03-31 音声合成装置、音声合成方法及び音声合成プログラム Expired - Fee Related JP5158567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008092126A JP5158567B2 (ja) 2008-03-31 2008-03-31 音声合成装置、音声合成方法及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008092126A JP5158567B2 (ja) 2008-03-31 2008-03-31 音声合成装置、音声合成方法及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2009244661A JP2009244661A (ja) 2009-10-22
JP5158567B2 true JP5158567B2 (ja) 2013-03-06

Family

ID=41306602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008092126A Expired - Fee Related JP5158567B2 (ja) 2008-03-31 2008-03-31 音声合成装置、音声合成方法及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5158567B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5123347B2 (ja) 2010-03-31 2013-01-23 株式会社東芝 音声合成装置
JP5712818B2 (ja) * 2011-06-30 2015-05-07 富士通株式会社 音声合成装置、音質修正方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4639932B2 (ja) * 2005-05-06 2011-02-23 株式会社日立製作所 音声合成装置

Also Published As

Publication number Publication date
JP2009244661A (ja) 2009-10-22

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US8321208B2 (en) Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2013171196A (ja) 音声合成装置、方法およびプログラム
CN101131818A (zh) 语音合成装置与方法
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP5158567B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
US20110196680A1 (en) Speech synthesis system
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4639932B2 (ja) 音声合成装置
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
KR101227716B1 (ko) 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2010224053A (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP2011013534A (ja) 音声合成装置およびプログラム
Natvig et al. Prosodic unit selection for text-to-speech synthesis

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100728

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121202

R150 Certificate of patent or registration of utility model

Ref document number: 5158567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees