JP2018041116A - Voice synthesis device, voice synthesis method, and program - Google Patents
Voice synthesis device, voice synthesis method, and program Download PDFInfo
- Publication number
- JP2018041116A JP2018041116A JP2017241425A JP2017241425A JP2018041116A JP 2018041116 A JP2018041116 A JP 2018041116A JP 2017241425 A JP2017241425 A JP 2017241425A JP 2017241425 A JP2017241425 A JP 2017241425A JP 2018041116 A JP2018041116 A JP 2018041116A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- level
- target speaker
- target
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明の実施形態は、音声合成辞書生成装置、音声合成辞書生成方法およびプログラムに関する。 Embodiments described herein relate generally to a speech synthesis dictionary generation apparatus, a speech synthesis dictionary generation method, and a program.
音声合成では、事前に用意された少数の候補から声を選んで読ませるだけではなく、有名人や身近な人など、特定の話者の声の音声合成辞書を新たに生成し、様々なテキストコンテンツを読ませたいというニーズが高まっている。こうしたニーズに応えるため、辞書生成の対象となる対象話者の音声データから音声合成辞書を自動で生成する技術が提案されている。また、対象話者の少量の音声データから音声合成辞書を生成する技術として、予め用意された複数話者の平均的な特徴を表すモデルを、対象話者の特徴に近づけるように変換することで対象話者のモデルを生成する話者適応の技術がある。 Speech synthesis not only allows you to select and read voices from a small number of candidates prepared in advance, but also creates a new speech synthesis dictionary of voices of specific speakers such as celebrities and familiar people, and various text contents There is a growing need to read In order to meet these needs, a technique has been proposed in which a speech synthesis dictionary is automatically generated from speech data of a target speaker for which a dictionary is to be generated. In addition, as a technology for generating a speech synthesis dictionary from a small amount of speech data of the target speaker, a model representing the average characteristics of a plurality of speakers prepared in advance is converted so as to approach the characteristics of the target speaker. There is a speaker adaptation technique that generates a model of the target speaker.
音声合成辞書を自動で生成する従来の技術は、対象話者の声や話し方にできるだけ似せることを主目的としている。しかし、辞書生成の対象となる対象話者は、プロのナレータや声優だけではなく、発声のトレーニングを全く受けていない一般の話者も含まれる。このため、対象話者の発話スキルが低いと、そのスキルの低さが忠実に再現されて、用途によっては使いづらい音声合成辞書になってしまう。 A conventional technique for automatically generating a speech synthesis dictionary is mainly intended to resemble a target speaker's voice and speech as much as possible. However, the target speakers for which the dictionary is created include not only professional narrators and voice actors, but also general speakers who have not received any utterance training. For this reason, if the speech skill of the target speaker is low, the low skill is faithfully reproduced, resulting in a speech synthesis dictionary that is difficult to use depending on the application.
また、対象話者の母国語だけではなく、外国語の音声合成辞書をその対象話者の声で生成したいというニーズもある。このニーズに対しては、対象話者に外国語を読ませた音声が録音できれば、この録音音声からその言語の音声合成辞書を生成することが可能である。しかし、その言語の発声として正しくない発声や訛りのある不自然な発声の録音音声から音声合成辞書を生成すると、その発声の特徴が反映され、ネイティブが聞いても理解できない音声合成辞書になってしまう。 There is also a need to generate a speech synthesis dictionary for a foreign language in addition to the target speaker's native language using the voice of the target speaker. In response to this need, if a voice in which a target speaker reads a foreign language can be recorded, a speech synthesis dictionary for the language can be generated from the recorded voice. However, if a speech synthesis dictionary is created from a recorded speech of an unspoken or unnatural utterance as an utterance of the language, the speech synthesis characteristics are reflected and the speech synthesis dictionary cannot be understood even by native speakers. End up.
本発明が解決しようとする課題は、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成できる音声合成辞書生成装置、音声合成辞書生成方法およびプログラムを提供することである。 The problems to be solved by the present invention include a speech synthesis dictionary generation device, a speech synthesis dictionary generation method, and a program that can generate a speech synthesis dictionary in which the similarity of speaker characteristics is adjusted according to a target speech skill and native level. Is to provide.
実施形態の音声合成辞書生成装置は、任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部と、を備える。音声分析部は、前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する。話者適応部は、前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する。目標話者レベル指定部は、話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。そして、前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行う。 A speech synthesis dictionary generation device according to an embodiment is a speech synthesis dictionary generation device that generates a speech synthesis dictionary including a model of a target speaker based on speech data of an arbitrary target speaker. A speaker adaptation unit, a target speaker level designation unit, and a determination unit. The voice analysis unit analyzes the voice data and generates a voice database including data representing the characteristics of the speech of the target speaker. The speaker adaptation unit performs speaker adaptation for converting a predetermined base model to be close to the characteristics of the target speaker based on the speech database, and generates a model of the target speaker. The target speaker level designating unit is a target speaker level that is the target speaker level with respect to a speaker level that represents at least one of the speaker's speech skill and the speaker's native level with respect to the language of the speech synthesis dictionary. The specification of is accepted. The determination unit determines the fidelity of speaker character reproduction in the speaker adaptation according to the relationship between the designated target speaker level and the target speaker level that is the speaker level of the target speaker. Determine the value of the parameter involved. When the specified target speaker level is higher than the target speaker level, the determining unit determines the fidelity compared to the case where the specified target speaker level is equal to or lower than the target speaker level. The parameter value is determined so as to be low, and the speaker adaptation unit performs the speaker adaptation according to the parameter value determined by the determination unit.
(第1の実施形態)
図1は、本実施形態の音声合成辞書生成装置100の構成例を示すブロック図である。図1に示すように、本実施形態の音声合成辞書生成装置100は、音声分析部101と、話者適応部102と、対象話者レベル指定部103と、目標話者レベル指定部104と、決定部105とを備える。音声合成辞書生成装置100は、辞書生成の対象となる任意の対象話者の録音音声10とその読み上げ内容に対応したテキスト20(以下、「録音テキスト」と呼ぶ)が入力されると、その対象話者の声質・話し方をモデル化した対象話者のモデルを含む音声合成辞書30を生成する。
(First embodiment)
FIG. 1 is a block diagram illustrating a configuration example of the speech synthesis
上記の構成のうち、対象話者レベル指定部103、目標話者レベル指定部104、および決定部105は本実施形態に特有の構成要素であるが、それら以外については、話者適応の技術を用いる音声合成辞書生成装置に一般的な構成である。
Among the above-described configurations, the target speaker
本実施形態の音声合成辞書生成装置100により生成される音声合成辞書30は、音声合成装置に必要なデータであり、声質をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報を含む。音声合成装置は、通常、図2で示すように、言語処理部40と音声合成部50から構成されており、テキストが入力されると、それに対する音声波形を生成する。言語処理部40では、入力されたテキストを分析して、テキストの読みやアクセント、ポーズの位置、その他単語境界や品詞などの各種言語情報を取得し、音声合成部50に渡す。音声合成部50では、これらの情報を基に、音声合成辞書30に含まれる韻律モデルを用いて抑揚・リズムなどの韻律パターンを生成し、さらに音声合成辞書30に含まれる音響モデルを用いて音声波形を生成する。
The
特許文献2に記載されているようなHMM(Hidden Markov Model:隠れマルコフモデル)に基づく方式の場合、音声合成辞書30に含まれる韻律モデルや音響モデルは、テキストを言語解析して得られる音韻・言語情報と、韻律や音響などのパラメータ系列との対応関係をモデル化したものである。具体的には、各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。韻律パラメータとしては、声の高さを表すピッチパラメータや、音の長さを表す継続時間長などがある。また、音響パラメータとしては、声道の特徴を表すスペクトルパラメータや、音源信号の非周期性の程度を表す非周期性指標などがある。状態とは、各パラメータの時間変化をHMMでモデル化したときの内部状態を指す。通常、各音素区間は、後戻り無しで左から右の状態に遷移する3〜5状態のHMMでモデル化されるため、3〜5個の状態を含む。そこで、例えばピッチパラメータの第一状態に対する決定木では、音素区間内の先頭区間のピッチ値の確率分布が音韻・言語環境でクラスタリングされており、対象の音素区間に関する音韻・言語情報を基にこの決定木をたどることで、その音素の先頭区間のピッチパラメータの確率分布を得ることができる。パラメータの確率分布には正規分布が用いられることが多く、その場合、分布の中心を表す平均ベクトルと分布の広がりを表す共分散行列で表現される。
In the case of a method based on HMM (Hidden Markov Model) as described in Patent Document 2, the prosodic model and the acoustic model included in the
音声合成部50では、各パラメータの各状態に対する確率分布を上述のような決定木で選択して、これらの確率分布を基に確率が最大となるパラメータ系列をそれぞれ生成し、これらのパラメータ系列を基に音声波形を生成する。一般的なHMMに基づく方式の場合、生成されたピッチパラメータと非周期性指標を基に音源波形を生成し、この音源波形に、生成されたスペクトルパラメータに従ってフィルタ特性が時間変化する声道フィルタを畳み込むことで、音声波形を生成する。
The
音声分析部101は、音声合成辞書生成装置100に入力された録音音声10と録音テキスト20を分析し、音声データベース(以下、音声DBという)110を生成する。音声DB110には、話者適応で必要になる各種の音響・韻律データ、つまり対象話者の発話の特徴を表すデータが含まれる。具体的には、スペクトル包絡の特徴を表すスペクトルパラメータや、各周波数帯域での非周期成分の比率を表す非周期性指標、基本周波数(F0)を表すピッチパラメータなどの時系列(例えばフレーム毎)、音素などのラベルの系列とこれらの各ラベルに関する時間情報(音素の開始時刻、終了時刻など)や言語情報(音素を含む単語のアクセントや見出し、品詞、前後の単語との接続強度など)、ポーズの位置・長さの情報、などが音声DB110に含まれる。音声DB110は、少なくともこれらの情報の一部を含むが、ここに挙げたもの以外の情報を含んでもよい。また、スペクトルパラメータには、メル周波数ケプストラム(メルケプストラム)やメル周波数線スペクトル対(メルLSP)が一般的によく用いられるが、スペクトル包絡の特徴を表すパラメータであればどのようなものであってもよい。
The
音声分析部101では、音声DB110に含まれるこれらの情報を生成するため、音素ラベリング、基本周波数抽出、スペクトル包絡抽出、非周期性指標抽出、言語情報抽出などの処理が自動で行われる。これらの処理には、それぞれ既存の手法がいくつか存在し、そのいずれかを用いてもよいし、新たな別の手法を用いてもよい。例えば、音素ラベリングではHMMを用いた手法が一般的に用いられる。基本周波数抽出には、音声波形の自己相関を用いた手法やケプストラムを用いた手法、スペクトルの調波構造を用いた手法など、数多くの手法が存在する。スペクトル包絡抽出には、ピッチ同期分析を用いた手法やケプストラムを用いた手法、STRAIGHTと呼ばれる手法など多くの手法が存在する。非周期性指標抽出には、各周波数帯域の音声波形での自己相関を用いた手法や、PSHFと呼ばれる手法で音声波形を周期成分と非周期成分に分割して周波数帯域ごとのパワー比率を求める手法などが存在する。言語情報抽出では、形態素解析などの言語処理を行った結果から、アクセントの情報や、品詞、単語間の接続強度などの情報を得る。
In the
音声分析部101により生成された音声DB110は、話者適応用ベースモデル120とともに、話者適応部102において対象話者のモデルを生成するために用いられる。
The
話者適応用ベースモデル120は、音声合成辞書30に含まれるモデルと同様に、テキストを言語解析して得られる音韻・言語情報と、スペクトルパラメータやピッチパラメータ、非周期性指標などのパラメータ系列との対応関係をモデル化したものである。通常、複数人の大量音声データからこれらの話者の平均的な特徴を表すモデルが学習され、幅広い音韻・言語環境をカバーしたモデルが話者適応用ベースモデル120として用いられる。例えば、特許文献2に記載のようなHMMに基づく方式の場合、この話者適応用ベースモデル120は、各パラメータを音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。
Similar to the model included in the
この話者適応用ベースモデル120の学習方法としては、特許文献2に記載されているように、複数の話者の音声データから、HMM音声合成の一般的なモデル学習方式を用いて「不特定話者モデル」を学習する方法や、下記の参考文献1に記載されているように、話者適応学習(Speaker Adaptive Training:SAT)という方式を用いて話者間の特徴のバラつきを正規化しながら学習する方法などがある。
(参考文献1)J.Yamagishi and T.Kobayashi,“Average−Voice−Based Speech Synthesis Using HSMM−Based Speaker Adaptation and Adaptive Training”,IEICE Trans.Information and Systems,Vol.No.2,pp.533−543(2007−2)
As a learning method of the speaker
(Reference 1) J. Org. Yamagishi and T. Kobayashi, “Average-Voice-Based Speech Synthesis Usage HSMM-Based Speaker Adaptation and Adaptive Training,” IEICE Trans. Information and Systems, Vol. No. 2, pp. 533-543 (2007-2)
本実施形態では、話者適応用ベースモデル120は、原則、その言語のネイティブでかつ発声スキルの高い複数の話者の音声データから学習するものとする。
In this embodiment, it is assumed that the speaker
話者適応部102は、音声DB110を用いて、話者適応用ベースモデル120を対象話者(録音音声10の話者)の特徴に近づけるように変換する話者適応を行って、対象話者に近い声質・話し方のモデルを生成する。ここでは、最尤線形回帰(MLLR)や制約付き最尤線形回帰(cMLLR)、構造的事後確立最大線形回帰(SMAPLR)などの手法を用いて、話者適応用ベースモデル120が持つ確率分布を、音声DB110のパラメータに合わせて最適化することで、話者適応用ベースモデル120を対象話者の特徴に近づける。例えば、最尤線形回帰を用いた方法の場合、決定木中のリーフノードiに割り当てられたパラメータの確率分布の平均ベクトルμiを、下記の式(1)のように変換する。ただし、A,Wは行列、B,ξiはベクトル、ξi=[1,μi T]T(Tは転置)、W=[bA]であり、Wを回帰行列と呼ぶ。
式(1)の変換においては、対象話者のモデルのパラメータに対する、変換後の確率分布の尤度が最大になるように回帰行列Wを最適化した上で変換を行う。確率分布の平均ベクトルに加えて、共分散行列についても変換してもよいが、ここでは詳細は割愛する。 In the conversion of Expression (1), the conversion is performed after the regression matrix W is optimized so that the likelihood of the probability distribution after conversion with respect to the parameters of the model of the target speaker is maximized. In addition to the mean vector of the probability distribution, the covariance matrix may be converted, but details are omitted here.
こうした最尤線形回帰による変換では、決定木の全リーフノードの確率分布を1つの共通な回帰行列で変換してもよいが、一般的に話者性の違いは音韻などによって異なるため、この場合は非常に粗い変換になってしまい、対象話者の話者性が十分再現できなかったり、さらには音韻性も崩れてしまう場合がある。一方、対象話者の音声データが大量に存在する場合は、各リーフノードの確率分布ごとに異なる回帰行列を用意することで非常に精密な話者適応も可能であるが、話者適応を用いるケースの多くでは、対象話者の音声データは少量のため、各リーフノードに割り当てられる目標話者の音声データは非常に少ないか、全く無い場合もあり、回帰行列の計算ができないリーフノードが多数出てきてしまう。 In such conversion by maximum likelihood linear regression, the probability distribution of all leaf nodes in the decision tree may be transformed by a common regression matrix, but in general, the difference in speaker characteristics varies depending on the phoneme. Becomes a very rough conversion, and the speaker characteristics of the target speaker may not be sufficiently reproduced, and further, the phoneme may be lost. On the other hand, if there is a large amount of speech data of the target speaker, very precise speaker adaptation is possible by preparing a different regression matrix for each probability distribution of each leaf node, but speaker adaptation is used. In many cases, the target speaker's voice data is small, so the target speaker's voice data assigned to each leaf node may be very little or not at all, and there are many leaf nodes that cannot calculate the regression matrix. It will come out.
そこで通常は、変換元の確率分布を複数の回帰クラスにクラスタリングし、回帰クラスごとに変換行列を求めて確率分布の変換を行う。このような変換を区分線形回帰と呼ぶ。図3にそのイメージを示す。回帰クラスへのクラスタリングでは、通常、図3のように音韻・言語環境でクラスタリングされた話者適応用ベースモデル120の決定木(通常2分木)や、確率分布間の距離を基準に全リーフノードの確率分布を物理量でクラスタリングした結果の2分木を用いる(以下、これらの決定木や2分木を回帰クラス木と呼ぶ)。これらの方法では、回帰クラスあたりの対象話者の音声データ量に対して最小閾値を設定し、対象話者の音声データ量に応じて回帰クラスの粒度を制御する。
Therefore, normally, the probability distribution of the conversion source is clustered into a plurality of regression classes, and a conversion matrix is obtained for each regression class to convert the probability distribution. Such a transformation is called piecewise linear regression. The image is shown in FIG. In clustering to a regression class, all leaves are usually based on the decision tree (usually a binary tree) of the speaker
具体的には、まず、対象話者のパラメータの各サンプルが、回帰クラス木のどのリーフノードに割り当てられるかを調べ、各リーフノードに割り当てられたサンプル数を算出する。割り当てられたサンプル数が閾値を下回るリーフノードがある場合、その親ノードに遡って、親ノード以下のリーフノードをマージする。全てのリーフノードのサンプル数が最小閾値を上回るまでこの操作を繰り返し、最終的にできた各リーフノードが回帰クラスとなる。この結果、対象話者の音声データ量が少ない場合は各回帰クラスが大きく(すなわち変換行列の個数が少なく)なって粒度の粗い適応となり、音声データ量が多い場合は各回帰クラスが大きく(すなわち変換行列の個数が少なく)なって粒度の細かい適応となる。 Specifically, first, it is checked which leaf node each sample of the target speaker parameter is assigned to, and the number of samples assigned to each leaf node is calculated. If there is a leaf node whose assigned sample number is below the threshold, the leaf nodes below the parent node are merged back to the parent node. This operation is repeated until the number of samples of all the leaf nodes exceeds the minimum threshold value, and each leaf node finally formed becomes a regression class. As a result, when the amount of speech data of the target speaker is small, each regression class is large (that is, the number of transformation matrices is small) and coarser adaptation is performed, and when the amount of speech data is large, each regression class is large (that is, The number of transformation matrices is small), and fine-grained adaptation is achieved.
本実施形態では、話者適応部102は、上述のように、変換行列を回帰クラスごとに求めて確率分布の変換を行い、回帰クラスあたりの対象話者の音声データ量に対する最小閾値のように、回帰クラスの粒度(つまり、話者適応での話者性再現の忠実度)を外部から制御できるパラメータを持つものとする。例えば、回帰クラスあたりの対象話者の音声データ量に最小閾値を設定して回帰クラスの粒度を制御する場合、通常は、韻律・音響パラメータの種類ごとに経験的に求めた固定値を用い、変換行列が計算できる十分なデータ量の範囲で比較的小さめの値に設定することが多い。この場合、対象話者の声質や発声の特徴は、利用可能な音声データ量に応じて、できるだけ忠実に再現できる。
In the present embodiment, as described above, the
一方、このような最小閾値をより大きな値に設定すると、回帰クラスは大きくなり、粒度の粗い適応となる。この場合、全体的には対象話者の声質や発声の仕方に近づくが、細かい特徴については話者適応用ベースモデル120の特徴を反映したモデルが生成される。すなわち、この最小閾値を大きくすることで、話者適応での話者性再現の忠実度を下げることが可能である。本実施形態では、後述する決定部105において、こうしたパラメータの値が、対象話者の話者レベルと目標とする話者レベル(音声合成辞書30による合成音声に期待する話者レベル)との関係に基づいて決定され、話者適応部102に入力される。
On the other hand, when such a minimum threshold value is set to a larger value, the regression class becomes larger and the granularity is adapted. In this case, the overall approach is close to the voice quality and utterance method of the target speaker, but a model reflecting the features of the speaker
なお、本実施形態で用いる「話者レベル」の用語は、話者の発話スキルと、生成する音声合成辞書30の言語に対する話者のネイティブ度との少なくとも一方を表す。対象話者の話者レベルを「対象話者レベル」と呼び、目標とする話者レベルを「目標話者レベル」と呼ぶ。話者の発話スキルは、話者の発音やアクセントの正確さや、発声の流暢さを表す数値あるいは分類であり、例えば、非常にたどたどしい発声の話者であれば10、正確かつ流暢な発声ができるプロのアナウンサーなら100などの数値で表す。話者のネイティブ度は、その話者にとって対象言語が母語かどうか、母語でなければどの程度その言語の発声スキルがあるかを表す数値あるいは分類である。例えば、母語であれば100、学習したことさえない言語であれば0などである。話者レベルは、用途によって、発声スキルとネイティブ度のいずれか一方でもよいし、両方でもよい。また、発声スキルとネイティブ度が組み合わさったような指標を話者レベルとしてもよい。
Note that the term “speaker level” used in the present embodiment represents at least one of the speaker's speech skill and the speaker's native degree with respect to the language of the
対象話者レベル指定部103は、対象話者レベルの指定を受け付けて、指定された対象話者レベルを決定部105に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて対象話者レベルを指定する操作を行うと、対象話者レベル指定部103は、このユーザの操作による対象話者レベルの指定を受け付けて決定部105に渡す。なお、生成する音声合成辞書30の用途などによって対象話者レベルが想定できる場合は、対象話者レベルとして固定の想定値が予め設定しておいてもよい。この場合、音声合成辞書生成装置100は、対象話者レベル指定部103の代わりに、予め設定された対象話者レベルを記憶する記憶部を備える。
The target speaker
目標話者レベル指定部104は、目標話者レベルの指定を受け付けて、指定された目標話者レベルを決定部105に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて目標話者レベルを指定する操作を行うと、目標話者レベル指定部104は、このユーザの操作による目標話者レベルの指定を受け付けて決定部105に渡す。例えば、対象話者の発話スキルやネイティブ度が低い場合、対象話者本人に似た声で、対象話者本人よりもプロっぽく、またはネイティブっぽく発声させたい場合がある。このような場合、ユーザは高めの目標話者レベルを指定すればよい。
The target speaker
決定部105は、目標話者レベル指定部104から渡された目標話者レベルと、対象話者レベル指定部103から渡された対象話者レベルとの関係に応じて、上述した話者適応部102による話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。
The
決定部105がパラメータの値を決定する方法の一例を図4に示す。図4は目標話者レベルと対象話者レベルとの関係を分類する二次元平面を表しており、横軸が対象話者レベルの大きさに対応し、縦軸が目標話者レベルの大きさに対応する。図中の斜めの破線は、目標話者レベルと対象話者レベルとが等しい位置を示している。決定部105は、例えば、目標話者レベル指定部104から渡された目標話者レベルと、対象者レベル指定部103から渡された対象話者レベルとの関係が、図4の領域A〜Dのいずれに当てはまるかを判定する。そして、目標話者レベルと対象話者レベルとの関係が領域Aに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、話者性再現の忠実度が最大となる値として予め定められたデフォルト値に決定する。領域Aは、目標話者レベルが対象話者レベル以下の場合、あるいは目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合に当てはまる領域である。目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合を領域Aに含めているのは、話者レベルの不確実性を考慮して、パラメータの値をデフォルト値とする領域にマージンを持たせるためである。ただし、このようなマージンは必ずしも必要ではなく、目標話者レベルが対象話者レベル以下の場合に当てはまる領域(図の斜めの破線よりも右下の領域)のみを領域Aとしてもよい。
An example of how the
また、目標話者レベルと対象話者レベルとの関係が領域Bに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Cに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Bに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Dに当てはまる場合は、決定部105は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Cに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。
When the relationship between the target speaker level and the target speaker level applies to the region B, the
以上のように、決定部105は、目標話者レベルが対象話者レベルよりも高い場合は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定し、その差が大きくなるほど話者性再現の忠実度が低くなるように、パラメータの値を決定する。この際、話者適応により生成する対象話者のモデルのうち、音響モデルの生成に用いるパラメータと、韻律モデルの生成に用いるパラメータとで、パラメータの変更度合いを変えてもよい。
As described above, when the target speaker level is higher than the target speaker level, the
多くの話者では、その話者性は韻律よりも声質に強く表れるので、声質は忠実に再現する必要があるが、韻律は平均レベルさえその話者に合わせておけば、話者性をある程度再現できる場合が多い。また、多くの話者にとって、文中の各音節が正しく聞き取れるように発音することは比較的容易であるが、アクセントや抑揚、リズムといった韻律については、プロナレータなどのように自然で聞きやすい読み方をすることは、かなりの訓練を受けなければ難しい。外国語を読む場合も同様であり、例えば中国語を学習したことのない日本語話者が中国語を読む場合、中国語のピンインやこれをカナに変換したものを読めば、各音節はある程度正しく発音できるが、正しい声調(標準中国語の場合は四声)で読むことはほぼ不可能である。そこで、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなるように決定する際に、音響モデルの生成に用いるパラメータのデフォルト値に対する変更度合いよりも、韻律モデルの生成に用いるパラメータのデフォルト値に対する変更度合いを大きくすることで、話者性の再現と発話スキルの高さを両立した音声合成辞書30を生成しやすくすることが可能となる。
For many speakers, the speaker character appears more strongly in the voice quality than the prosody, so it is necessary to reproduce the voice quality faithfully. Can often be reproduced. In addition, it is relatively easy for many speakers to pronounce each syllable in a sentence so that it can be heard correctly. However, prosody such as accents, intonations, and rhythms should be read in a natural and easy-to-understand manner, like a pro-narrator. This is difficult without significant training. The same is true when reading foreign languages. For example, if a Japanese speaker who has never studied Chinese reads Chinese, if you read Chinese Pinyin or converted to Kana, each syllable will be somewhat Although it can be pronounced correctly, it is almost impossible to read in the correct tone (four in the case of Mandarin Chinese). Therefore, when the parameter values related to the fidelity of speaker reproduction are determined so that the fidelity of speaker reproduction is lower than the default value, the degree of change from the default value of the parameter used to generate the acoustic model In addition, by increasing the degree of change of the parameters used for generating the prosodic model with respect to the default value, it is possible to easily generate the
例えば、話者性再現の忠実度に関わるパラメータとして、上述した回帰クラスあたりの対象話者の音声データ量に対する最小閾値を用いる場合、目標話者レベルと対象話者レベルとの関係が図4の領域Bに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の10倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の10倍とする。また、目標話者レベルと対象話者レベルとの関係が図4の領域Cに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の30倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の100倍とする。また、目標話者レベルと対象話者レベルとの関係が図4の領域Dに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の100倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の1000倍とするといった方法が考えられる。 For example, when the minimum threshold for the speech data amount of the target speaker per regression class described above is used as a parameter related to the fidelity of speaker reproduction, the relationship between the target speaker level and the target speaker level is shown in FIG. In the case of region B, the parameter value used for generating the acoustic model is set to 10 times the default value, and the parameter value used for generating the prosodic model is set to 10 times the default value. If the relationship between the target speaker level and the target speaker level is applied to the region C in FIG. 4, the parameter value used for generating the acoustic model is set to 30 times the default value, and the parameter value used for generating the prosodic model is set. Is 100 times the default value. If the relationship between the target speaker level and the target speaker level is applied to the region D in FIG. 4, the parameter value used for generating the acoustic model is set to 100 times the default value, and the parameter value used for generating the prosodic model is set. It is conceivable to set the value to 1000 times the default value.
以上説明したように、本実施形態の音声合成辞書生成装置100では、対象話者レベルよりも高い目標話者レベルが指定されると、話者適応での話者再現性の忠実度が自動的に下がり、全体的には話者の声質や発声の仕方に近いが、細かい特徴については話者適応用ベースモデル120の特徴、すなわち、発話スキルやその言語のネイティブ度の高い特徴を持った音声合成辞書30が生成される。このように、本実施形態の音声合成辞書生成装置100によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
As described above, in the speech synthesis
(第2の実施形態)
第1の実施形態においては、対象話者レベルは対象話者本人などのユーザにより指定される、あるいは予め固定の想定値を設定するものとした。しかし、録音音声10での実際の発話スキルやネイティブ度に合った適切な対象話者レベルを指定・設定するのは非常に難しい。そこで、本実施形態では、音声分析部101による対象話者の音声データの分析結果を基に対象話者レベルを推定し、指定された目標話者レベルと、推定した対象話者レベルとの関係に応じて、話者性再現の忠実度に関わるパラメータの値を決定する。
(Second Embodiment)
In the first embodiment, the target speaker level is specified by a user such as the target speaker or a fixed assumed value is set in advance. However, it is very difficult to specify and set an appropriate target speaker level that matches the actual speech skill and native level of the recorded
図5は、本実施形態の音声合成辞書生成装置200の構成例を示すブロック図である。図5に示すように、本実施形態の音声合成辞書生成装置200は、図1に示した対象話者レベル指定部103に代えて、対象話者レベル推定部201を備える。それ以外の構成は第1の実施形態と同様であるため、第1の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
FIG. 5 is a block diagram illustrating a configuration example of the speech synthesis
対象話者レベル推定部201は、音声分析部101で音素ラベリングされた結果や、抽出されたピッチやポーズなどの情報を基に、対象話者の発話スキルやネイティブ度を判定する。例えば、発話スキルの低い対象話者は、ポーズの頻度が、流暢に話せる話者よりも高くなる傾向があるので、この情報を用いて対象話者の発話スキルを判定できる。また、録音された音声から話者の発話スキルを自動判定する技術は、従来にも語学学習などの目的でさまざまなものが存在し、下記の参考文献2にその一例が開示されている。
(参考文献2)特開2006−201491
この参考文献2に記載されている技術では、HMMモデルを教師データとし、これを使って話者の音声をアラインメントした結果得られる確率値から、その話者の発音レベルに関する評定値を算出する。このような既存の技術のいずれかを用いてもよい。
The target speaker
(Reference Document 2) Japanese Patent Application Laid-Open No. 2006-201491
In the technique described in the reference document 2, an evaluation value related to a speaker's pronunciation level is calculated from a probability value obtained as a result of aligning a speaker's voice using the HMM model as teacher data. Any of such existing techniques may be used.
以上のように、本実施形態の音声合成辞書生成装置200によれば、録音音声10での実際の話者レベルに合った適切な対象話者レベルが自動判定されるので、指定された目標話者レベルを適切に反映した音声合成辞書30を生成することが可能になる。
As described above, according to the speech synthesis
(第3の実施形態)
ユーザが指定する目標話者レベルは、生成される音声合成辞書30(対象話者のモデル)の発話レベルやネイティブ度に影響するだけでなく、実際には対象話者の類似度とのトレードオフを調整することになる。すなわち、対象話者の発話レベルやネイティブ度よりも高い目標話者レベルを設定すると、対象話者の話者性の類似度は多少犠牲にすることになる。しかしながら、第1、第2の実施形態においては、ユーザは目標話者レベルを指定するだけのため、最終的にどういった音声合成辞書30が生成されるかをイメージすることが難しい。また、そうしたトレードオフが実際に調整可能な範囲は、録音音声10の発話レベルやネイティブ度によってある程度制限されることになるが、これについてもユーザは事前に把握できないまま目標話者レベルを設定する必要がある。
(Third embodiment)
The target speaker level specified by the user not only affects the utterance level and nativeness of the generated speech synthesis dictionary 30 (target speaker model), but actually trades off with the similarity of the target speaker. Will be adjusted. That is, if a target speaker level that is higher than the utterance level or native level of the target speaker is set, the similarity of the target speaker's speaker characteristics is sacrificed somewhat. However, in the first and second embodiments, since the user only specifies the target speaker level, it is difficult to imagine what kind of
そこで、本実施形態では、入力された録音音声10に応じて、指定される目標話者レベルと、その結果生成される音声合成辞書30(対象話者のモデル)で想定される話者性の類似度との関係、および、目標話者レベルの指定可能な範囲を、例えばGUIによる表示などでユーザに提示し、目標話者レベルをどのように指定すると、どういった音声合成辞書30が生成されるかをユーザがイメージできるようにする。
Thus, in the present embodiment, the target speaker level designated according to the input recorded
図6は、本実施形態の音声合成辞書生成装置300の構成例を示すブロック図である。図6に示すように、本実施形態の音声合成辞書生成装置300は、図5に示した目標話者レベル指定部104に代えて、目標話者レベル提示・指定部301を備える。それ以外の構成は第1、第2の実施形態と同様であるため、第1、第2の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
FIG. 6 is a block diagram illustrating a configuration example of the speech synthesis
本実施形態の音声合成辞書生成装置300では、録音音声10が入力されると、対象話者レベル推定部201で対象話者レベルが推定され、この推定された対象話者レベルが目標話者レベル提示・指定部301に渡される。
In the speech synthesis
目標話者レベル提示・指定部301は、対象話者レベル推定部201により推定された対象話者レベルに基づいて、指定可能な目標話者レベルの範囲と、この範囲内の目標話者レベルと、音声合成辞書30で想定される話者性の類似度との関係を求めて、例えばGUI上に表示するとともに、このGUIを用いてユーザが目標話者レベルを指定する操作を受け付ける。
Based on the target speaker level estimated by the target speaker
このGUIによる表示例を図7に示す。図7(a)は対象話者レベルが比較的高いと推定された場合のGUIの表示例であり、図7(b)は対象話者レベルが低いと推定された場合のGUIの表示例である。これらのGUIには、目標話者レベルの指定可能な範囲を示すスライダSが設けられ、ユーザはこのスライダS内のポインタPを動かすことで目標話者レベルを指定する。スライダSは、GUI上で斜めに表示され、スライダS内のポインタPの位置が、指定された目標話者レベルと、生成される音声合成辞書30(対象話者のモデル)で想定される話者性の類似度との関係を表している。なお、図中の破線の丸は、話者適応用ベースモデル120をそのまま用いた場合と、録音音声10を忠実に再現した場合とのそれぞれについて、話者レベルおよび話者性の類似度を示したものである。話者適応用ベースモデル120については、話者レベルは高いが対象話者とは全く別人の声・話し方のため図の左上に位置する。一方、録音音声10については、対象話者そのもののため図の右端に位置し、対象話者レベルの高さに応じて上下の位置が変わる。スライダSは、2つの破線の丸の間に位置しているが、対象話者を忠実に再現する設定の場合は話者レベルと話者性の類似度が共に録音音声10に近くなる一方、目標話者レベルを高く設定すると、粗い粒度で話者適応をすることになって、話者性の類似度がある程度犠牲になることを示している。図7に示すように、話者適応用ベースモデル120と録音音声10の話者レベルの差が大きいほど、設定可能な目標話者レベルの範囲は広くなる。
A display example using this GUI is shown in FIG. FIG. 7A shows a GUI display example when the target speaker level is estimated to be relatively high, and FIG. 7B shows a GUI display example when the target speaker level is estimated to be low. is there. These GUIs are provided with a slider S indicating a range in which a target speaker level can be specified, and the user specifies a target speaker level by moving a pointer P in the slider S. The slider S is displayed obliquely on the GUI, and the position of the pointer P in the slider S is a story assumed in the designated target speaker level and the generated speech synthesis dictionary 30 (target speaker model). It represents the relationship with the similarity of personality. In addition, the broken-line circles in the figure indicate the speaker level and the similarity of speaker characteristics for the case where the speaker
図7に例示したGUIを用いてユーザにより指定された目標話者レベルは決定部105に渡され、対象話者レベル推定部201から渡される対象話者レベルとの関係に基づいて、話者適応での話者の忠実度に関わるパラメータの値が決定部105において決定される。話者適応部102では、決定されたパラメータの値に応じた話者適応がなされることによって、ユーザが意図した話者レベルおよび話者性の類似度を持った音声合成辞書30を生成することができる。
The target speaker level designated by the user using the GUI illustrated in FIG. 7 is passed to the
(第4の実施形態)
第1〜第3の実施形態では、HMM音声合成での一般的な話者適応方式を用いる例を説明したが、話者性再現の忠実度に関わるパラメータを持つものであれば、第1〜第3の実施形態とは異なる話者適応方式を用いてもよい。
(Fourth embodiment)
In the first to third embodiments, an example of using a general speaker adaptation method in HMM speech synthesis has been described. However, if there is a parameter related to the fidelity of speaker characteristics reproduction, A speaker adaptation method different from that of the third embodiment may be used.
異なる話者適応方式の一つとして、下記の参考文献3のように、クラスタ適応学習(Cluster Adaptive Training:CAT)で学習したモデルを用いた話者適応方式がある。本実施形態では、このクラスタ適応学習で学習したモデルを用いた話者適応方式を用いるものとする。
(参考文献3)K.Yanagisawa,J.Latorre,V.Wan,M.Gales and S.King,“Noise Robustness in HMM−TTS Speaker Adaptation” Proc.of 8th ISCA Speech Synthesis Workshop,pp.119−124,2013−9
As one of different speaker adaptation methods, there is a speaker adaptation method using a model learned by cluster adaptive training (CAT) as in Reference Document 3 below. In this embodiment, it is assumed that a speaker adaptation method using a model learned by the cluster adaptive learning is used.
(Reference 3) Yanagisawa, J. et al. Latorre, V.M. Wan, M.C. Gales and S.M. King, “Noise Robustness in HMM-TTS Speaker Adaptation” Proc. of 8th ISCA Speech Synthesis Workshop, pp. 119-124, 2013-9
クラスタ適応学習では、モデルを複数クラスタの重み付き和で表し、モデルの学習時には、各クラスタのモデルと重みをデータに合わせて同時に最適化する。本実施形態で用いる話者適応のための複数話者のモデル化では、図8に示すように、複数話者を含む大量の音声データから、それぞれのクラスタをモデル化した決定木と、クラスタの重みとを同時に最適化する。こうしてできたモデルの重みを、学習に用いた各話者に最適化された値に設定すると、それぞれの話者の特徴が再現できる。こうしてできたモデルを、以下CATモデルと呼ぶ。 In cluster adaptive learning, a model is represented by a weighted sum of a plurality of clusters, and at the time of model learning, the model and weight of each cluster are simultaneously optimized according to the data. In the modeling of a plurality of speakers for speaker adaptation used in this embodiment, as shown in FIG. 8, a decision tree in which each cluster is modeled from a large amount of speech data including a plurality of speakers, Optimize the weights at the same time. If the weight of the model thus created is set to a value optimized for each speaker used for learning, the characteristics of each speaker can be reproduced. The model thus formed is hereinafter referred to as a CAT model.
実際には、CATモデルは第1の実施形態で説明した決定木と同様に、スペクトルパラメータやピッチパラメータなどのパラメータ種別毎に学習する。各クラスタの決定木は、各パラメータを音韻・言語環境でクラスタリングしたものであり、バイアスクラスタという重みが常に1に設定されたクラスタのリーフノードには、対象のパラメータの確率分布(平均ベクトルと共分散行列)が割り当てられ、その他のクラスタのリーフノードには、バイアスクラスタからの確率分布の平均ベクトルに重み付きで加算する平均ベクトルが割り当てられている。 Actually, the CAT model is learned for each parameter type such as a spectrum parameter and a pitch parameter, like the decision tree described in the first embodiment. The decision tree of each cluster is obtained by clustering each parameter in the phonological / linguistic environment, and the probability distribution of the target parameter (shared with the average vector) is added to the leaf node of the cluster in which the weight called the bias cluster is always set to 1. (Variance matrix) is assigned, and the leaf nodes of the other clusters are assigned an average vector that is added with a weight to the average vector of the probability distribution from the bias cluster.
本実施形態では、このようにクラスタ適応学習で学習されたCATモデルを話者適応用ベースモデル120として用いる。この場合の話者適応では、対象話者の音声データに合わせて重みを最適化することによって、対象話者に近い声質・話し方のモデルを得ることができる。しかし、このCATモデルでは通常、学習に用いた話者の特徴の線形和で表現可能な空間内の特徴しか表せないので、例えば学習に用いた話者がプロのナレータばかりの場合、一般者の声質や話し方はうまく再現できない可能性がある。そこで、本実施形態では、話者レベルが様々で、様々な声質や話し方の特徴を含む複数の話者からCATモデルを学習することとする。
In the present embodiment, the CAT model learned by cluster adaptive learning is used as the speaker
この場合、対象話者の音声データに最適化した重みベクトルをWoptとすると、この重みWoptで合成される音声は対象話者に近いが、話者レベルも対象話者のレベルを再現したものになる。一方、CATモデルの学習に用いた話者のうち、話者レベルが高い話者に最適化された重みベクトルの中からWoptに最も近いものを選択してこれをWs(near)とすると、この重みWs(near)で合成される音声は対象話者に比較的近く、話者レベルの高いものとなる。なお、Ws(near)は、ここではWoptに最も近いものとしたが、必ずしも重みベクトルの距離で選択する必要はなく、話者の性別や特徴など別の情報を基に選択してもよい。 In this case, if the weight vector optimized for the speech data of the target speaker is W opt , the speech synthesized with this weight W opt is close to the target speaker, but the speaker level also reproduced the level of the target speaker. Become a thing. On the other hand, among the speakers used for learning the CAT model, if the weight vector optimized for a speaker having a high speaker level is selected and the one closest to W opt is selected, this is set as W s (near). The voice synthesized with this weight W s (near) is relatively close to the target speaker and has a high speaker level. Here, W s (near) is the closest to W opt here, but it is not always necessary to select it by the distance of the weight vector, and it may be selected based on other information such as the gender and characteristics of the speaker. Good.
本実施形態では、さらに、下記の式(2)のように、WoptとWs(near)を補間した重みベクトルWtargetを新たに定義し、Wtargetを話者適応した結果の重みベクトル(目標の重みベクトル)とすることにする。
図9は、式(2)における補間比率であるrと、これにより定まる目標の重みベクトルWtargetとの関係を示す概念図である。この場合、例えば、補間比率rが1なら対象話者を最も忠実に再現する設定となり、補間比率rが0なら最も話者レベルが高い設定にできる。つまり、この補間比率rを、話者再現性の忠実度を表すパラメータとして用いることができる。本実施形態では、決定部105において、目標話者レベルと対象話者レベルとの関係に基づいてこの補間比率rの値を決定する。これにより、第1〜第3の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
FIG. 9 is a conceptual diagram showing the relationship between r, which is the interpolation ratio in equation (2), and the target weight vector W target determined thereby. In this case, for example, if the interpolation ratio r is 1, the target speaker is set to be reproduced most faithfully, and if the interpolation ratio r is 0, the highest speaker level can be set. That is, this interpolation ratio r can be used as a parameter representing the fidelity of speaker reproducibility. In the present embodiment, the
(第5の実施形態)
第1〜第4の実施形態は、HMM音声合成のための音声合成辞書30を生成する例を説明したが、音声合成の方式はHMM音声合成に限らず、素片選択型の音声合成など、異なる音声合成方式であってもよい。例えば、素片選択型の音声合成においても、下記の参考文献4に開示されているような話者適応方法がある。
(参考文献4)特開2007−193139号公報
(Fifth embodiment)
In the first to fourth embodiments, the example of generating the
(Reference 4) Japanese Patent Application Laid-Open No. 2007-193139
参考文献4で開示されている話者適応方法では、ベースの話者の音声素片を対象話者(目標話者)の特徴に合わせて変換する。具体的には、音声素片の音声波形を音声分析してスペクトルパラメータに変換し、このスペクトルパラメータをスペクトル領域上で対象話者の特徴に変換した後、変換後のスペクトルパラメータを時間領域の音声波形に戻すことにより、対象話者の音声波形に変換する。 In the speaker adaptation method disclosed in Reference Document 4, the speech unit of the base speaker is converted in accordance with the characteristics of the target speaker (target speaker). Specifically, the speech waveform of the speech segment is analyzed and converted into spectral parameters. After the spectral parameters are converted into the characteristics of the target speaker in the spectral domain, the converted spectral parameters are converted into the time domain speech. By returning to the waveform, it is converted into the speech waveform of the target speaker.
この際の変換規則については、素片選択の手法を用いてベースの話者の音声素片と対象話者の音声素片の対を作り、これらの音声素片を音声分析してスペクトルパラメータの対に変換し、これらのスペクトルパラメータ対を基に、回帰分析やベクトル量子化、混合ガウス分布(GMM)で変換をモデル化することによって生成する。すなわち、HMM音声合成での話者適応の場合と同様に、スペクトル等のパラメータの領域で変換を行う。また、変換方式の中には、話者性再現の忠実度に関わるパラメータが存在するものもある。 For the conversion rules at this time, a pair of speech units of the base speaker and the speech unit of the target speaker is created using the unit selection method, and these speech units are subjected to speech analysis to determine the spectral parameters. It is generated by transforming into pairs and modeling the transform with regression analysis, vector quantization, and mixed Gaussian distribution (GMM) based on these spectral parameter pairs. That is, as in the case of speaker adaptation in HMM speech synthesis, conversion is performed in a parameter region such as a spectrum. Some conversion methods include parameters related to the fidelity of speaker reproduction.
例えば、参考文献4で挙げられている変換方式のうち、ベクトル量子化を用いる方式では、ベース話者のスペクトルパラメータをC個のクラスタにクラスタリングし、それぞれのクラスタで最尤線形回帰などによって変換行列を生成する。この場合、クラスタ数のCを、話者性再現の忠実度に関わるパラメータとして用いることができる。Cを大きくすれば忠実度が高く、小さくすれば忠実度が低くなる。また、GMMを用いる変換方式においては、ベース話者から対象話者への変換規則をC個のガウス分布で表現するが、この場合、ガウス分布の混合数Cを話者性再現の忠実度に関わるパラメータとして用いることができる。 For example, among the conversion methods listed in Reference 4, in the method using vector quantization, the spectrum parameters of the base speaker are clustered into C clusters, and the conversion matrix is obtained by maximum likelihood linear regression or the like in each cluster. Is generated. In this case, C of the number of clusters can be used as a parameter related to the fidelity of speaker reproduction. Increasing C increases fidelity, and decreasing C decreases fidelity. In the conversion method using the GMM, the conversion rule from the base speaker to the target speaker is expressed by C Gaussian distributions. In this case, the mixture number C of the Gaussian distributions is used as the fidelity of speaker reproduction. It can be used as a parameter involved.
本実施形態では、上記のようなベクトル量子化を用いる変換方式におけるクラスタ数C、あるいは、GMMを用いる変換方式におけるガウス分布の混合数Cを、話者性再現の忠実度に関わるパラメータとして用いる。そして、決定部105において、これらクラスタ数Cの値あるいはガウス分布の混合数Cの値を、目標話者レベルと対象話者レベルとの関係に基づいて決定する。これにより、素片選択型の音声合成など、HMM音声合成方式以外の方式で音声合成を行う場合であっても、第1〜第4の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書30を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。
In the present embodiment, the cluster number C in the conversion method using vector quantization as described above or the Gaussian mixture number C in the conversion method using GMM is used as a parameter related to the fidelity of speaker reproduction. Then, the
(第6の実施形態)
話せない言語の音声合成辞書30を生成する場合など、話者のネイティブ度が低い場合は、その言語での音声の録音が非常に難しくなることが予想される。例えば、音声録音ツールにおいて、中国語の分からない日本人話者に対して、中国語のテキストのまま表示して読ませることは困難である。そこで、本実施形態では、テキストの読みの情報を対象話者が通常使用する言語の読み表記に変換して対象話者に提示しながら、音声の録音を行い、かつ、提示する情報を対象話者のネイティブ度に応じて切り換える。
(Sixth embodiment)
When the speaker's native level is low, such as when generating the
図10は、本実施形態の音声合成辞書生成装置400の構成例を示すブロック図である。図10に示すように、本実施形態の音声合成辞書生成装置400は、図1に示した第1の実施形態の構成に加えて、音声録音・提示部401を備える。それ以外の構成は第1の実施形態と同様であるため、第1の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。
FIG. 10 is a block diagram illustrating a configuration example of the speech synthesis
音声録音・提示部401は、対象話者が通常使用する言語ではない他の言語の録音テキスト20を読み上げる際に、録音テキスト20の表記を、対象話者が通常使用する言語の読みの表記に変換した表示テキスト130を対象話者に提示しながら、対象話者が録音テキスト20を読み上げた音声を録音する。例えば、日本人を対象として中国語の音声合成辞書30を生成する場合、音声録音・提示部401は、読み上げるテキストを中国語ではなく、例えば中国語の読みをカタカナに変換した表示テキスト130を表示する。こうすることで、日本人でも中国語に近い発音をすることが可能となる。
The voice recording /
この際、音声録音・提示部401は、対象話者に提示する表示テキスト130を、対象話者のネイティブ度に応じて切り換える。すなわち、アクセントや声調は、その言語を学習したことがある話者なら、正しいアクセントや声調で発声することも可能である。しかし、その言語を学習したこともない、ネイティブ度の非常に低い話者の場合、アクセント位置や声調の種類が適切に表示されていても、それを発声に反映することは非常に難しい。例えば、中国語を学習したことのない日本人が中国語の声調である四声を正しく発声することはほぼ不可能に近い。
At this time, the voice recording /
そこで、本実施形態の音声録音・提示部401は、アクセントの位置や声調の種類などを表示するか否かを、対象話者によって指定された対象話者自身のネイティブ度に応じて切り換える。具体的には、音声録音・提示部401は、対象話者により指定された対象話者レベルのうち、対象話者のネイティブ度を対象話者レベル指定部103から受け取る。そして、音声録音・提示部401は、対象話者のネイティブ度が所定のレベルよりも高い場合は、読みの表記に加えてアクセントの位置や声調の種類を表示する。一方、対象話者のネイティブ度が所定のレベルよりも低い場合は、音声録音・提示部401は、読みの表記を表示するが、アクセントの位置や声調の種類は表示しない。
Therefore, the voice recording /
アクセントの位置や声調の種類を表示しない場合、アクセントや声調については正しく発声されることはあまり期待できない一方で、対象話者は、アクセントや声調は気にせず、正しく発音することに集中すると考えられ、発音はある程度正しくなることが期待できる。そこで、決定部105でパラメータの値を決定する際には、音響モデルの生成に用いるパラメータはやや高めの値に設定する一方、韻律モデルの生成に用いるパラメータの値はかなり低めに設定することが望ましい。こうすることで、ネイティブ度の非常に低い対象話者でも、話者の特徴を反映させながら、ある程度正しい発声ができる音声合成辞書30を生成できる可能性が高まる。
If the accent position and tone type are not displayed, it is unlikely that the accent or tone will be spoken correctly, but the target speaker will not focus on the accent or tone, but will concentrate on correct pronunciation. The pronunciation is expected to be correct to some extent. Therefore, when the parameter value is determined by the
なお、決定部105がパラメータの値を決定する際に用いる対象話者レベルは、対象話者が指定したもの、つまり、対象話者レベル指定部103から音声録音・提示部401に渡されたネイティブ度を含む対象話者レベルであってもよいし、第2の実施形態と同様の対象話者レベル推定部201を別途設けて、この対象話者レベル推定部201で推定された対象話者レベル、つまり、音声録音・提示部401で録音された録音音声10を用いて推定された対象話者レベルであってもよい。また、対象話者により指定された対象話者レベルと、録音音声10を用いて推定された対象話者レベルとの両方用いて、決定部105でパラメータの値を決定するようにしてもよい。
Note that the target speaker level used when the determining
本実施形態のように、音声の録音時に対象話者に提示する表示テキスト130の切り換えと、話者適応における話者再現性の忠実度を表すパラメータの値を決定する方法とを連携させることで、ネイティブ度の低い対象話者の録音音声10を用いて、ある程度のネイティブ度を持つ音声合成辞書30を、より適切に生成することが可能になる。
As in the present embodiment, by switching the
以上、具体的な例を挙げながら詳細に説明したように、実施形態の音声合成辞書生成装置によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成することができる。 As described above in detail with specific examples, according to the speech synthesis dictionary generation device of the embodiment, speech synthesis in which the similarity of speaker characteristics is adjusted according to the target speech skill and native level. A dictionary can be generated.
なお、上述した実施形態の音声合成辞書生成装置は、例えば、プロセッサや主記憶装置、補助記憶装置などを備える汎用のコンピュータに、ユーザインタフェースとなる出力装置(ディスプレイ、スピーカなど)や入力装置(キーボード、マウス、タッチパネルなど)を接続したハードウェア構成を利用することができる。この構成の場合、実施形態の音声合成辞書生成装置は、コンピュータに搭載されたプロセッサが所定のプログラムを実行することによって、上述した音声分析部101、話者適応部102、対象話者レベル指定部103、目標話者レベル指定部104、決定部105、対象話者レベル推定部201、目標話者レベル提示・指定部301、音声録音・提示部401などの機能的な構成要素が実現する。このとき、音声合成辞書生成装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。また、上記のプログラムをサーバーコンピュータ上で実行させ、ネットワークを介してその結果をクライアントコンピュータで受け取ることにより実現してもよい。
Note that the speech synthesis dictionary generation device according to the above-described embodiment includes, for example, a general-purpose computer including a processor, a main storage device, an auxiliary storage device, and the like, an output device (display, speaker, etc.) serving as a user interface, and an input device (keyboard). , A mouse, a touch panel, etc.) can be used. In the case of this configuration, the speech synthesis dictionary generation device of the embodiment is configured such that the above-described
コンピュータで実行されるプログラムは、実施形態の音声合成辞書生成装置を構成する各機能的な構成要素(音声分析部101、話者適応部102、対象話者レベル指定部103、目標話者レベル指定部104、決定部105、対象話者レベル推定部201、目標話者レベル提示・指定部301、音声録音・提示部401など)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各処理部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。なお、上述した機能的な構成要素の一部または全部を、例えばASICやFPGAなどの専用のハードウェアを用いて実現することもできる。
The program executed by the computer is a functional component (
また、実施形態の音声合成辞書生成装置で使用する各種情報は、上記のコンピュータに内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記録媒体を適宜利用して格納しておくことができる。例えば、実施形態の音声合成辞書生成装置が使用する音声DB110や話者適応用ベースモデル120は、これら記録媒体を適宜利用して格納しておくことができる。
Various information used in the speech synthesis dictionary generation apparatus according to the embodiment includes a memory, a hard disk or a recording medium such as a CD-R, a CD-RW, a DVD-RAM, and a DVD-R that is built in or externally attached to the computer. Can be stored by using as appropriate. For example, the
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 As mentioned above, although embodiment of this invention was described, embodiment described here is shown as an example and is not intending limiting the range of invention. The novel embodiments described herein can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The embodiments and modifications described herein are included in the scope and gist of the invention, and are also included in the invention described in the claims and the equivalents thereof.
10 録音音声
20 録音テキスト
30 音声合成辞書
100 音声合成辞書生成装置
101 音声分析部
102 話者適応部
103 対象話者レベル指定部
104 目標話者レベル指定部
105 決定部
110 音声データベース(音声DB)
120 話者適応用ベースモデル
200 音声合成辞書生成装置
201 対象話者レベル推定部
300 音声合成辞書生成装置
301 目標話者レベル提示・指定部
400 音声合成辞書生成装置
401 音声録音・提示部
DESCRIPTION OF
DESCRIPTION OF
本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。 Embodiments of the present invention, the voice if NaruSo location, a speech if Narukata method and program.
本発明が解決しようとする課題は、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成できる音声合成装置、音声合成方法およびプログラムを提供することである。 An object of the present invention is to provide a speech if NaruSo location that can generate speech synthesis dictionary adjusting the speaker of the similarity in accordance with the speech skills and native degree of a target, the voice multiplexer Narukata method and program Is to provide.
実施形態の音声合成装置は、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部と、音声合成部と、を備える。音声分析部は、任意の対象話者の音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する。話者適応部は、前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する。目標話者レベル指定部は、話者の発話スキルと音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。音声合成部は、前記パラメータの値に従って音声波形を生成する。 Speech if NaruSo location embodiment comprises a voice analyzer, and a speaker adaptation section, and the target speaker level specifying unit, a determination unit, and a speech synthesis unit. The voice analysis unit analyzes voice data of an arbitrary target speaker, and generates a voice database including data representing features of the target speaker's speech. The speaker adaptation unit performs speaker adaptation for converting a predetermined base model to be close to the characteristics of the target speaker based on the speech database, and generates a model of the target speaker. Target speaker level specifying unit, for speaker level representative of at least one of the native level of the speaker with respect to the language of the speaker's speech skills and speech synthesis dictionary, the target speaker level is the speaker the target level The specification of is accepted. The determination unit determines the fidelity of speaker character reproduction in the speaker adaptation according to the relationship between the designated target speaker level and the target speaker level that is the speaker level of the target speaker. Determine the value of the parameter involved. The speech synthesizer generates a speech waveform according to the parameter value .
Claims (11)
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析部と、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応部と、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定部と、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定部と、を備え、
前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成装置。 A speech synthesis dictionary generating device that generates a speech synthesis dictionary including a model of the target speaker based on speech data of an arbitrary target speaker,
A voice analysis unit that analyzes the voice data and generates a voice database including data representing features of the speech of the target speaker;
A speaker adapting unit for generating a model of the target speaker by performing speaker adaptation for converting a predetermined base model so as to be close to the characteristics of the target speaker based on the speech database;
A target speaker level that accepts designation of a target speaker level that is the target speaker level for a speaker level that represents at least one of the speaker's speech skill and the speaker's native level with respect to the language of the speech synthesis dictionary A designated part;
The value of a parameter related to the fidelity of speaker reproduction in the speaker adaptation according to the relationship between the designated target speaker level and the target speaker level that is the speaker level of the target speaker A determination unit for determining
When the designated target speaker level is higher than the target speaker level, the determination unit has a lower fidelity than when the designated target speaker level is equal to or lower than the target speaker level. Determine the value of the parameter so that
The speech synthesis dictionary generation device, wherein the speaker adaptation unit performs the speaker adaptation according to the value of the parameter determined by the determination unit.
前記決定部は、指定された前記目標話者レベルと、指定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。 A target speaker level designation unit that accepts designation of the target speaker level;
2. The speech synthesis according to claim 1, wherein the determination unit determines the value of the parameter according to a relationship between the specified target speaker level and the specified target speaker level. Dictionary generator.
前記決定部は、指定された前記目標話者レベルと、推定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。 A target speaker level estimation unit that automatically estimates the target speaker level based on at least a part of the data of the voice database;
2. The speech synthesis according to claim 1, wherein the determination unit determines a value of the parameter according to a relationship between the designated target speaker level and the estimated target speaker level. Dictionary generator.
前記重みベクトルは、前記対象話者にとっての最適重みベクトルと、前記複数の話者のうち前記話者レベルが高い1話者の最適重みベクトルとを補間することで求められ、
前記パラメータは、前記重みベクトルを求める際の補間比率であることを特徴とする請求項1〜4のいずれか一項に記載の音声合成辞書生成装置。 The speaker adaptation unit uses, as the base model, a model represented by a weighted sum of a plurality of clusters, learned by cluster adaptive learning from data of a plurality of speakers having different speaker levels. The speaker adaptation is performed by fitting a weight vector that is a set of
The weight vector is obtained by interpolating an optimal weight vector for the target speaker and an optimal weight vector of one speaker having a high speaker level among the plurality of speakers,
The speech synthesis dictionary generation apparatus according to any one of claims 1 to 4, wherein the parameter is an interpolation ratio for obtaining the weight vector.
前記パラメータは、前記韻律モデルの生成に用いる第1パラメータと、前記音響モデルの生成に用いる第2パラメータとを含み、
前記決定部は、前記忠実度が低くなるように前記パラメータの値を決定する際に、前記忠実度が高くなるデフォルト値に対する前記第1パラメータの変更度合いを、前記デフォルト値に対する前記第2パラメータの変更度合いよりも大きくすることを特徴とする請求項1〜7のいずれか一項に記載の音声合成辞書生成装置。 The target speaker model includes a prosodic model and an acoustic model,
The parameters include a first parameter used for generating the prosodic model and a second parameter used for generating the acoustic model,
When determining the value of the parameter so that the fidelity is low, the determining unit determines the degree of change of the first parameter with respect to the default value with high fidelity, and the degree of change of the second parameter with respect to the default value. The speech synthesis dictionary generation device according to claim 1, wherein the speech synthesis dictionary generation device is greater than the degree of change.
前記録音部は、読み上げる単位ごとに少なくとも読み上げる文章の読みの情報を前記対象話者に提示しながら前記音声データを録音し、
前記読みの情報は、読み上げ対象の言語での読み表記ではなく、前記対象話者が通常用いる言語の読み表記に変換されたものであり、少なくとも前記対象話者のネイティブ度が所定の値よりも低い場合は、アクセントや声調など抑揚に関わる記号を含まないことを特徴とする請求項1〜8のいずれか一項に記載の音声合成辞書生成装置。 A recording unit for recording the audio data;
The recording unit records the voice data while presenting at least the reading information of the text to be read to the target speaker for each reading unit,
The reading information is not a reading notation in a language to be read out, but is converted into a reading notation in a language normally used by the target speaker, and at least the native degree of the target speaker is higher than a predetermined value. The speech synthesis dictionary generation device according to any one of claims 1 to 8, wherein if it is low, a symbol related to intonation such as accent and tone is not included.
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を含み、
前記決定ステップでは、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成方法。 A speech synthesis dictionary generation method executed by a speech synthesis dictionary generation device that generates a speech synthesis dictionary including a model of the target speaker based on speech data of an arbitrary target speaker,
Analyzing the voice data to generate a voice database including data representing characteristics of the speech of the target speaker;
A speaker adaptation step for generating a model of the target speaker by performing speaker adaptation based on the speech database to convert a predetermined base model so as to approximate the characteristics of the target speaker;
A target speaker level that accepts designation of a target speaker level that is the target speaker level for a speaker level that represents at least one of the speaker's speech skill and the speaker's native level with respect to the language of the speech synthesis dictionary A specified step;
The value of a parameter related to the fidelity of speaker reproduction in the speaker adaptation according to the relationship between the designated target speaker level and the target speaker level that is the speaker level of the target speaker Determining steps to determine,
In the determining step, when the designated target speaker level is higher than the target speaker level, the fidelity is lower than when the designated target speaker level is equal to or lower than the target speaker level. Determine the value of the parameter so that
In the speaker adaptation step, the speaker adaptation is performed according to the parameter value determined in the determination step.
コンピュータに、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を実行させ、
前記決定ステップでは、指定された前記目標話者レベルが前記話者レベルより高い場合は、指定された前記目標話者レベルが前記話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とするプログラム。 A program for causing a computer to realize a function of generating a speech synthesis dictionary including a model of the target speaker based on voice data of an arbitrary target speaker,
On the computer,
Analyzing the voice data to generate a voice database including data representing characteristics of the speech of the target speaker;
A speaker adaptation step for generating a model of the target speaker by performing speaker adaptation based on the speech database to convert a predetermined base model so as to approximate the characteristics of the target speaker;
Target level designation step for accepting designation of a target speaker level, which is the target speaker level, for a speaker level representing at least one of a speaker's speech skill and a speaker's native level with respect to the language of the speech synthesis dictionary When,
The value of a parameter related to the fidelity of speaker reproduction in the speaker adaptation according to the relationship between the designated target speaker level and the target speaker level that is the speaker level of the target speaker A determination step for determining, and
In the determining step, when the designated target speaker level is higher than the speaker level, the fidelity is lowered as compared with a case where the designated target speaker level is equal to or lower than the speaker level. Determine the value of the parameter
In the speaker adaptation step, the speaker adaptation is performed according to the parameter value determined in the determination step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241425A JP6523423B2 (en) | 2017-12-18 | 2017-12-18 | Speech synthesizer, speech synthesis method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241425A JP6523423B2 (en) | 2017-12-18 | 2017-12-18 | Speech synthesizer, speech synthesis method and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014023617A Division JP6266372B2 (en) | 2014-02-10 | 2014-02-10 | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018041116A true JP2018041116A (en) | 2018-03-15 |
JP6523423B2 JP6523423B2 (en) | 2019-05-29 |
Family
ID=61626111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241425A Active JP6523423B2 (en) | 2017-12-18 | 2017-12-18 | Speech synthesizer, speech synthesis method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6523423B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634866A (en) * | 2020-12-24 | 2021-04-09 | 北京猎户星空科技有限公司 | Speech synthesis model training and speech synthesis method, apparatus, device and medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
WO2005071664A1 (en) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | Voice synthesis device |
WO2005109399A1 (en) * | 2004-05-11 | 2005-11-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis device and method |
JP2006201491A (en) * | 2005-01-20 | 2006-08-03 | Advanced Telecommunication Research Institute International | Pronunciation grading device, and program |
JP2010014913A (en) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | Device and system for conversion of voice quality and for voice generation |
JP2011028130A (en) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | Speech synthesis device |
JP2013190792A (en) * | 2012-03-14 | 2013-09-26 | Toshiba Corp | Text to speech method and system |
-
2017
- 2017-12-18 JP JP2017241425A patent/JP6523423B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
WO2005071664A1 (en) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | Voice synthesis device |
WO2005109399A1 (en) * | 2004-05-11 | 2005-11-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis device and method |
JP2006201491A (en) * | 2005-01-20 | 2006-08-03 | Advanced Telecommunication Research Institute International | Pronunciation grading device, and program |
JP2010014913A (en) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | Device and system for conversion of voice quality and for voice generation |
JP2011028130A (en) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | Speech synthesis device |
JP2013190792A (en) * | 2012-03-14 | 2013-09-26 | Toshiba Corp | Text to speech method and system |
Non-Patent Citations (1)
Title |
---|
山岸 順一、外3名: "HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討", 電子情報通信学会技術研究報告, vol. Vol.103,No.264, JPN6017044447, 15 August 2003 (2003-08-15), JP, pages pp.31−36 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634866A (en) * | 2020-12-24 | 2021-04-09 | 北京猎户星空科技有限公司 | Speech synthesis model training and speech synthesis method, apparatus, device and medium |
CN112634866B (en) * | 2020-12-24 | 2024-05-14 | 北京猎户星空科技有限公司 | Speech synthesis model training and speech synthesis method, device, equipment and medium |
Also Published As
Publication number | Publication date |
---|---|
JP6523423B2 (en) | 2019-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP5665780B2 (en) | Speech synthesis apparatus, method and program | |
US5970453A (en) | Method and system for synthesizing speech | |
US5682501A (en) | Speech synthesis system | |
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
Liu et al. | High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
JP2012141354A (en) | Method, apparatus and program for voice synthesis | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
Erro et al. | Emotion conversion based on prosodic unit selection | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
JP2003186489A (en) | Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5320341B2 (en) | Speaking text set creation method, utterance text set creation device, and utterance text set creation program | |
Cahyaningtyas et al. | Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP2021148942A (en) | Voice quality conversion system and voice quality conversion method | |
Huckvale | 14 An Introduction to Phonetic Technology | |
JP5028599B2 (en) | Audio processing apparatus and program | |
JPH10247097A (en) | Natural utterance voice waveform signal connection type voice synthesizer | |
Ng | Survey of data-driven approaches to Speech Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190425 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6523423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |