JPH07140999A

JPH07140999A - 音声合成装置及び音声合成方法

Info

Publication number: JPH07140999A
Application number: JP5308731A
Authority: JP
Inventors: Yoshiaki Oikawa; 芳明及川; Keiichi Yamada; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-11-15
Filing date: 1993-11-15
Publication date: 1995-06-02
Anticipated expiration: 2018-04-14
Also published as: JP3397406B2

Abstract

(57)【要約】【目的】本発明は、人間の発声に近い合成音声を生成す
ることができる音声合成装置及び音声合成方法を実現す
る。【構成】読み仮名、アクセント型等の情報を保持するメ
モリ手段２４にアクセント指令値及び又は音韻継続時間
長情報を予め用意する。音韻情報又は音韻情報及び音韻
継続時間長情報に基づいて算出した音韻の継続時間長を
用いて音素片データのパラメータ列を生成する。また算
出した音韻の継続時間長及び韻律情報又は算出した音韻
の継続時間長、韻律情報及びアクセント指令値に基づい
てピツチパターンを生成する。このようにして生成され
たパラメータ列及びピツチパターンにより音声波形を合
成することにより、人間の発声に一段と近い合成音声を
出力することができる。

Description

【発明の詳細な説明】

【０００１】

【目次】以下の順序で本発明を説明する。産業上の利用分野従来の技術（図４）発明が解決しようとする課題課題を解決するための手段（図１）作用（図１）実施例（図１〜図３）発明の効果

【０００２】

【産業上の利用分野】本発明は音声合成装置及び音声合
成方法に関し、特に入力文字系列より音声を合成するテ
キスト音声合成装置及びテキスト音声合成方法に適用し
て好適なものである。

【０００３】

【従来の技術】従来、音声合成装置においては一般に図
４に示すような処理を行なうことにより音声合成を行な
つている。まず音声合成装置１において、所定の入力装
置よりテキスト入力部２に漢字仮名混じりの日本語テキ
ストが入力され、テキストを文章解析部３に出力する。
文章解析部３は入力されたテキストを辞書４を基準にし
て解析し、読み仮名文字列に変換した後、単語固有のア
クセント型を検出して単語、文節毎に分解する。

【０００４】すなわち日本語においては、英語のように
単語が分かち書きされていないことから、例えば「米国
産業界」のような言葉は、「米国／産業・界」、「米／
国産／業界」のように２種類に区分化することができ
る。

【０００５】このため文章解析部３は辞書４を参考にし
ながら、言葉の連続関係及び単語の統計的性質を利用し
て、テキスト入力を単語、文節毎に分解するようになさ
れ、これにより単語、文節の境界を検出する。さらに文
章解析部３は、このようにして求められた各文章毎の読
み仮名（音韻に関する情報）と文節境界及びアクセント
型（韻律に関する情報）とを示す記号列を記号列解析部
５に出力する。

【０００６】記号列解析部５はこの記号列を音韻情報及
び韻律情報に分離して抽出し、音韻情報は音韻継続時間
長算出部６及びパラメータ接続部７に出力され、韻律情
報はピツチパターン生成部８に出力される。ここで音韻
情報とは発声される音に関する情報、韻律情報とはアク
セントやイントネーシヨンに関する情報である。

【０００７】音韻継続時間長算出部６に音韻情報が入力
されると、音韻継続時間長算出部６は音韻情報より各音
韻の継続時間長を算出する。例えば音韻の継続時間長を
算出する方法として、母音の継続時間長を次式

【数１】のように母音の平均継続時間長と、音韻環境の各要因に
おける母音平均長からの変動分の時間長とを加えること
により求める手法がある。この手法は平成２年３月の日
本音響学会講演論文集（海木他著）に発表されている。

【０００８】この（１）式において、αは係数行列、σ
は母音の音韻環境が各要因のどのカテゴリに該当するか
を示す係数「１」又は「０」の行列、ｍは要因数（すな
わち母音の種類、前方音韻の種類、前々方音韻の種類、
後方音韻の種類、後々方音韻の種類、前方が促音、後方
が促音、長音、呼気段落モーラ数、呼気段落内位置、文
モーラ数、文内位置）、ｌは各要因のカテゴリ数を表
す。

【０００９】この場合、入力として与えられるパラメー
タは求めようとしている音韻の音韻環境であり、母音平
均長からの変動分は予め大量の文章を分析して求めてお
くことにより実現される。

【００１０】このようにして求められた音韻の継続時間
長はパラメータ接続部７及びピツチパターン生成部８に
出力される。パラメータ接続部７では、音韻情報及び算
出した各音韻の継続時間長に基づいて、音素片データベ
ース９より読み出した音素片データを接続してパラメー
タ列を生成する。生成されたパラメータ列は音声合成部
１０に出力される。

【００１１】他方、ピツチパターン生成部８では、韻律
情報及び算出した各音韻の継続時間長に基づいてピツチ
パターンを生成し、生成されたピツチパターンは音声合
成部１０に出力される。

【００１２】ここでピツチパターン算出の例として、次
式

【数２】に示すようにピツチパターンをフレーズ成分とアクセン
ト成分とに分け、それぞれがインパルス入力、ステツプ
入力で駆動される２次臨界応答出力の和で表現するモデ
ルがある。このモデルは1989年１月の通信学会論文誌 V
ol.J72-A, No.1（藤崎他著「基本周波数パターン生成過
程モデルに基づく文章音声の合成」）に発表されてい
る。

【００１３】この（２）式において、Ｇ_pi(t) 、Ｇ
_aj(t) はそれぞれフレーズ制御機構のインパルス応答、
アクセント制御機構のステツプ応答であり、ｔ≧０の範
囲ではインパルス応答、ステツプ応答はそれぞれ次式

【数３】及び次式

【数４】となる。

【００１４】この（３）式及び（４）式において、Ｆ
_minは最低ピツチ周波数、α、β、θは定数、Ａ_piはフ
レーズ指令の大きさ、Ｔ_liはフレーズ指令の位置、Ａ_aj
はアクセント指令の大きさ、Ｔ_1jはアクセント指令の開
始位置、Ｔ_2jはアクセント指令の終了位置である。また
ｔ＜０ではＧ_pi(t) ＝Ｇ_aj(t) ＝０となる。

【００１５】この場合、入力として与えられるパラメー
タは、入力の時刻、大きさ及び応答の速さを決める係数
である。これらの値は、予め大量の文章を分析して求め
て保持しておき、所定の規則により適切な値を用いてピ
ツチパターンを生成する。次に音声合成部１０はパラメ
ータ列及びピツチパターンに基づいて波形合成処理を行
い、デイジタルアナログ変換部（Ｄ／Ａ部）１１を介し
て合成音声信号を出力する。

【００１６】

【発明が解決しようとする課題】ところでこのような従
来のテキスト音声合成装置１では、ピツチパターンの算
出は、テキスト解析のための辞書に予め記載されている
各単語のアクセント型と、単語が連なつた場合のアクセ
ントの変化規則とにより、文節のアクセントが求められ
て記号列に出力されている。この場合、同じアクセント
型で同じモーラ数の単語が文章中の同じ位置に出現した
場合には、求められるアクセントパターンは同じものと
なる。

【００１７】また音韻の継続時間長は、算出しようとし
ている音韻の前後、その前後の音韻環境や文章中の位置
を考慮して求められるが、同じ音韻環境で異なる単語の
場合には、求められる音韻の継続時間長は同じものとな
る。

【００１８】ところが実際に人間が発声した場合のピツ
チのパターンは、同じアクセント型で同じモーラ数の単
語が文章中の同じ位置に出現しても、同じピツチパター
ンで話されることはほとんどなく、音韻の継続時間長も
ミクロ的に同じ音韻環境であつても単語単位のようなマ
クロの音韻環境を考えると同様の長さになるということ
は少ない。従つて従来のテキスト音声合成装置の合成音
声は、単調になつてしまうという問題があつた。

【００１９】本発明は以上の点を考慮してなされたもの
で、人間の発声に近い合成音声を得ることができる音声
合成装置及び音声合成方法を提案しようとするものであ
る。

【００２０】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、読み仮名、アクセント型等の情報
の他に音韻継続時間長情報及び又はアクセント指令値を
保持するメモリ手段２４を基準にして、入力された文章
を解析して当該文章の音韻情報及び韻律情報を示す記号
列データを出力する文章解析手段２３と、記号列データ
を音韻情報及び韻律情報に分離して抽出する記号列解析
手段２５と、音韻情報又は音韻情報及びメモリ手段２４
に保持されている音韻継続時間長情報に基づいて音韻の
継続時間長を算出する音韻継続時間長算出手段２６と、
音韻情報及び音韻の継続時間長に基づいてパラメータ列
を生成するパラメータ接続手段２７と、音韻の継続時間
長及び韻律情報又は音韻の継続時間長、韻律情報及びメ
モリ手段２４に保持されているアクセント指令値に基づ
いてピツチパターンを生成するピツチパターン生成手段
２８と、パラメータ列及びピツチパターンより音声波形
を合成する音声合成手段３０とを設けるようにする。

【００２１】また本発明においては、読み仮名、アクセ
ント型等の情報の他に音韻継続時間長情報及び又はアク
セント指令値を保持するメモリ手段２４を基準にして、
入力された文章を解析して当該文章の音韻情報及び韻律
情報を示す記号列データを出力し、記号列データを音韻
情報及び韻律情報に分離して抽出し、音韻情報又は音韻
情報及びメモリ手段２４に保持されている音韻継続時間
長情報に基づいて音韻の継続時間長を算出し、音韻情報
及び音韻の継続時間長に基づいてパラメータ列を生成
し、音韻の継続時間長及び韻律情報又は音韻の継続時間
長、韻律情報及びメモリ手段２４に保持されているアク
セント指令値に基づいてピツチパターンを生成し、パラ
メータ列及びピツチパターンより音声波形を合成するよ
うにする。

【００２２】

【作用】読み仮名、アクセント型等の情報を保持するメ
モリ手段２４にアクセント指令値及び又は音韻継続時間
長情報を予め用意する。パラメータ接続手段２７では、
音韻情報又は音韻情報及び音韻継続時間長情報に基づい
て算出した音韻の継続時間長を用いて音素片データのパ
ラメータ列を生成する。ピツチパターン生成手段２８で
は、算出した音韻の継続時間長及び韻律情報又は算出し
た音韻の継続時間長、韻律情報及びアクセント指令値に
基づいてピツチパターンを生成する。このように生成さ
れたパラメータ列及びピツチパターンより音声波形を合
成することにより、人間の発声に一段と近い合成音声を
出力することができる。

【００２３】

【実施例】以下図面について、本発明の一実施例を詳述
する。

【００２４】図１において、２１は全体として音声合成
装置を示し、テキスト入力部２２に入力されたテキスト
を所定の各処理部で処理することにより人間の発声に近
い音声を出力するようになされている。ここで音声合成
装置２１は従来の音声合成装置１と同じ構成を有する
が、辞書に追加された情報と、これらの情報を用いる各
処理部の処理内容は異なる。

【００２５】まず所定の入力装置よりテキスト入力部２
２に漢字仮名混じりの日本語テキストが入力され、これ
を文章解析部２３に出力する。文章解析部２３は入力さ
れたテキストを辞書２４を基準にして解析し、読み仮名
文字列に変換した後、単語固有のアクセント型を検出し
て単語、文節毎に分解する。

【００２６】すなわち文章解析部２３は辞書２４を参考
にしながら、言葉の連続関係及び単語の統計的性質を利
用して、テキスト入力を単語、文節毎に分解するように
なされ、これにより単語、文節の境界を検出する。さら
に文章解析部２３は、このようにして求められた各文章
毎の読み仮名（音韻に関する情報）と文節境界及びアク
セント型（韻律に関する情報）とを示す記号列を記号列
解析部２５に出力する。

【００２７】ここで辞書２４には、アクセント型を示す
情報の他に単語固有のアクセント指令値及び音韻継続時
間長情報が予め保持され、音韻継続時間長算出部２６は
音韻継続時間長情報を読み出し、ピツチパターン生成部
２７はアクセント指令値を読出す。次に記号列解析部２
５はこの記号列を音韻情報及び韻律情報に分離して抽出
し、音韻情報を音韻継続時間長算出部２６及びパラメー
タ接続部２７に出力し、韻律情報をピツチパターン生成
部２８に出力する。

【００２８】音韻継続時間長算出部２６では、記号列解
析部２５からの音韻情報及び辞書２４からの音韻継続時
間長情報より各音韻の継続時間長を算出する。例えば、
「白い花（shiroihana）」というテキストが入力された
場合、この「白い花」の３番目の母音（すなわち
「ｉ」）の継続時間長を求める場合を以下に説明する。

【００２９】この母音「ｉ」の継続時間長は（１）式よ
り求めることができる。すなわち具体的には母音「ｉ」
の継続時間長＝『／ｉ／の場合の係数＋前の音韻が／ｏ
／の場合の係数＋前々方の音韻が／ｒ／の場合の係数＋
後の音韻が／ｈ／の場合の係数＋後々方の音韻が／ａ／
の場合の係数＋前が促音でない場合の係数＋後が促音で
ない場合の係数＋長音でない場合の係数＋呼気段落のモ
ーラ長「ｓ」の場合の係数＋呼気段落中の場合の係数』
＋文のモーラ長Ｎの場合の係数＋文中の場合の係数とな
る。

【００３０】次にこの式の『』で囲んだ項を予め辞書２
４に保持してある値に置き換えて、母音／ｉ／の継続時
間長を算出する。すなわち母音「ｉ」の継続時間長＝
『辞書２４より読み出した値』＋文のモーラ長Ｎの場合
の係数＋文中の場合の係数となる。

【００３１】このように予め辞書２４に各音韻の継続時
間長を求めるのに必要な音韻継続時間長情報を用意し、
この音韻継続時間長情報を用いて各音韻の継続時間長を
（１）式より算出すれば、異なる単語が同じ音韻環境に
あつても、それぞれの単語に応じた自然な継続時間長を
算出することができる。ここで未知語には継続時間長情
報は存在しないので、未知語の場合には従来の方法によ
り音韻の継続時間長を算出する。

【００３２】このようにして算出された各音韻の継続時
間長はパラメータ接続部２７及びピツチパターン生成部
２８に出力される。パラメータ接続部２７では、記号列
解析部２５からの音韻情報と音韻継続時間長算出部２６
で算出された音韻の継続時間長とに基づいて、音素片デ
ータベース２９から選択した音素片データを接続し、パ
ラメータ列を生成する。生成されたパラメータ列は音声
合成部３０に出力される。

【００３３】他方、ピツチパターン生成部２８では、記
号列解析部２５からの韻律情報、辞書２４からのアクセ
ント指令値及び音韻継続時間長算出部２６で算出された
音韻の継続時間長に基づいて、ピツチパターンを生成す
る。

【００３４】ここで例えばフレーズ指令及びアクセント
指令がそれぞれ１つずつの場合の従来のピツチパターン
の生成過程を図２に示す。上述のように従来のピツチパ
ターン生成過程において、入力として与えられるパラメ
ータは予め大量の文章を分析して求めてた値であり、所
定の規則によつてそれぞれに適した値を選択し、この選
択した値をそれぞれアクセント指令の大きさＡ１、開始
位置ｔ１、終了位置ｔ２、応答速度β１に使用してピツ
チパターンを生成している。

【００３５】他方この実施例においては、予め辞書２４
に各単語に固有のアクセント指令値を保持しておき、辞
書２４より所定の単語のアクセント指令の大きさＡ２、
開始位置ｔ３、終了位置ｔ４、応答速度β２を読み出
し、これらを用いて図３に示すようなピツチパターンを
算出することにより、単語特有のピツチパターンを得
る。

【００３６】このように予め辞書２４に各単語ごとの固
有のアクセント指令値を用意し、このアクセント指令値
を用いることによりピツチパターンを生成すれば、同じ
アクセント型で同じモーラ数の単語が文章中の同じ位置
に出現してもそれぞれの単語特有のアクセントパターン
を得ることができるので、単語特有のピツチパターンを
得ることができる。ここで未知語の場合には、音韻の継
続時間長の算出の場合と同様に従来の方法によりアクセ
ント指令値を算出する。

【００３７】このようにして生成されたピツチパターン
は音声合成部３０に出力され、音声合成部３０において
パラメータ列及びピツチパターンより音声波形を合成
し、Ｄ／Ａ部３１を介して合成音声信号を出力する。

【００３８】以上の構成において、辞書２４に音韻継続
時間長情報とアクセント指令値とを予め保持しておく。
テキスト入力部２２に、辞書２４に登録されている語が
入力された場合、パラメータ接続部２７においては、辞
書２４に保持されている音韻継続時間長情報を用いて算
出した音韻の継続時間長及び音韻情報に基づいて音素片
データのパラメータ列が生成される。またピツチパター
ン生成部２８においては、算出した音韻の継続時間長、
音韻情報及び辞書２４に保持されているアクセント指令
書に基づいてピツチパターンが生成される。

【００３９】このようにして生成したパラメータ列及び
ピツチパターンは各単語固有のパラメータ列及びピツチ
パターンになるので、これらのパラメータ列とピツチパ
ターンとを合成して得られる合成音声は一段と人間の発
声に近い合成音声となる。

【００４０】以上の構成によれば、テキスト解析用の辞
書２４に、各単語のアクセント指令値と音韻継続時間長
情報とを追加して保持する。辞書２４に登録されている
語が入力された場合には、音韻継続時間長情報を用いて
算出した音韻の継続時間長に基づいてパラメータ列を生
成し、この算出された音韻の継続時間長及び辞書２４に
保持されているアクセント指令値に基づいてピツチパタ
ーンを生成することにより、人間の発声に一段と近い合
成音声を出力することがてきる。

【００４１】なお上述の実施例においては、辞書２４に
アクセント指令値及び音韻継続時間長情報の両方を保持
する場合について述べたが、本発明はこれに限らず、い
ずれか１つの情報だけを辞書２４に保持するようにして
もよい。

【００４２】

【発明の効果】上述のように本発明によれば、メモリ手
段にアクセント指令値及び又は音韻の継続時間長情報を
予め保持し、音韻情報又は音韻情報及び音韻継続時間長
情報に基づいて算出した音韻の継続時間長を用いて音素
片データのパラメータ列を生成し、算出した音韻の継続
時間長及び韻律情報又は算出した音韻の継続時間長、韻
律情報及びアクセント指令値に基づいてピツチパターン
を生成して、これらのパラメータ列及びピツチパターン
により音声波形を合成することにより、人間の発声に一
段と近い合成音声を出力することができる。

【図面の簡単な説明】

【図１】本発明によるテキスト音声合成装置の一実施例
の機能構成を示すブロツク図である。

【図２】従来のテキスト音声合成装置により算出される
ピツチパターンを示す特性曲線である。

【図３】実施例におけるテキスト音声合成装置により算
出されるピツチパターンを示す特性曲線である。

【図４】従来のテキスト音声合成装置の機能構成を示す
ブロツク図である。

【符号の説明】

１、２１……音声合成装置、２、２２……テキスト入力
部、３、２３……文章解析部、４、２４……辞書、５、
２５……記号列解析部、６、２６……音韻継続時間長算
出部、７、２７……パラメータ接続部、８、２８……ピ
ツチパターン生成部、９、２９……音素片データベー
ス、１０、３０……音声合成部、１１、３１……Ｄ／Ａ
部。

Claims

【特許請求の範囲】

【請求項１】読み仮名、アクセント型等の情報の他に音
韻継続時間長情報及び又はアクセント指令値を保持する
メモリ手段を基準にして、入力された文章を解析して当
該文章の音韻情報及び韻律情報を示す記号列データを出
力する文章解析手段と、上記記号列データを音韻情報及び韻律情報に分離して抽
出する記号列解析手段と、上記音韻情報又は上記音韻情報及び上記メモリ手段に保
持されている音韻継続時間長情報に基づいて音韻の継続
時間長を算出する音韻継続時間長算出手段と、上記音韻情報及び上記音韻の継続時間長に基づいてパラ
メータ列を生成するパラメータ接続手段と、上記音韻の継続時間長及び上記韻律情報又は上記音韻の
継続時間長、上記韻律情報及び上記メモリ手段に保持さ
れているアクセント指令値に基づいてピツチパターンを
生成するピツチパターン生成手段と、上記パラメータ列及び上記ピツチパターンより音声波形
を合成する音声合成手段とを具えることを特徴とする音
声合成装置。
【請求項２】読み仮名、アクセント型等の情報の他に音
韻継続時間長情報及び又はアクセント指令値を保持する
メモリ手段を基準にして、入力された文章を解析して当
該文章の音韻情報及び韻律情報を示す記号列データを出
力し、上記記号列データを音韻情報及び韻律情報に分離して抽
出し、上記音韻情報又は上記音韻情報及び上記メモリ手段に保
持されている音韻継続時間長情報に基づいて音韻の継続
時間長を算出し、上記音韻情報及び上記音韻の継続時間長に基づいてパラ
メータ列を生成し、上記音韻の継続時間長及び上記韻律情報又は上記音韻の
継続時間長、上記韻律情報及び上記メモリ手段に保持さ
れているアクセント指令値に基づいてピツチパターンを
生成し、上記パラメータ列及び上記ピツチパターンより音声波形
を合成することを特徴とする音声合成方法。