JPH0944191A

JPH0944191A - 音声合成装置

Info

Publication number: JPH0944191A
Application number: JP8039981A
Authority: JP
Inventors: Hideji Nishida; 秀治西田; Hiroyuki Hirai; 啓之平井; Masanori Miyatake; 正典宮武; Hiroki Onishi; 宏樹大西
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-05-25
Filing date: 1996-02-27
Publication date: 1997-02-14
Anticipated expiration: 2016-02-27
Also published as: JP3583852B2

Abstract

(57)【要約】【課題】従来の音声合成装置のデータベースに蓄積さ
れている音声単位は、波形としてではなくケプスラム係
数等のパラメータであるため、パラメータを音声波形に
復元してから音声合成をしなければならず、音質の向上
を妨げていた。【解決手段】入力文字列に対応する第１音韻記号列に
含まれる複数の第１音韻記号部分列に対応する単位音声
波形を合成音声出力する音声合成装置において、第１音
韻記号列を所定の優先順位で複数の第１音韻記号部分列
に分割する分割手段と、前記所定の優先順位で分割され
た第２音韻記号部分列を含む第２音韻記号列と前記第２
音韻記号部分列に対応する単位音声波形を含む音声波形
とを蓄積した波形メモリと、第１音韻記号部分列に対応
する単位音声波形を前記波形メモリから読み出す波形読
出手段と、および前記波形メモリから読み出された単位
音声波形を接続して合成音声波形を生成する波形接続手
段と、を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声合成装置に関
し、特にたとえば音声案内、音声応答および音声読み上
げ等に用いられ、入力文字列に対応する音韻記号列に従
って音声波形を合成して出力する、音声合成装置に関す
る。

【０００２】

【従来の技術】従来のこの種の音声合成装置が、平成４
年１２月２２日に出願公開された特開平４−３６９６９
３号公報に開示されている。これは、音声合成を行う音
韻系列に対応するかつデータベースに含まれる音声単位
の中から、平均的な音響特性を有する音声単位を優先的
に選択して、それぞれを接続するものである。

【０００３】また、音声波形を編集して音声合成する方
法としては、発表論文「波形辞書を用いた規則合成法」
（電子情報通信学会音声研資SP88-9, pp65-pp72, (1988
年),発表者：広川智久）が周知となっている。これに
は、類似する音声波形から代表音声波形を抽出し、その
代表音声波形を編集して音声合成をする方式や、繁茂に
出現する音声波形をデータベース化し、発生頻度の高い
音声波形単位を編集して音声合成をする方式が開示され
ている。

【０００４】

【発明が解決しようとする課題】しかし、特開平４−３
６９６９３号公報の音声合成装置では、著しく異なった
音響特性を有する音声単位が選択されることによる合成
音の音質劣化はなくなるものの、相変わらず音質は優れ
ているとはいえなかった。

【０００５】また、それぞれの音声単位は、波形として
ではなくケプスラム係数等のパラメータに変換してデー
タベースに蓄積されているため、パラメータを音声波形
に復元してから音声合成をしなければならず、これも音
質の向上を妨げる原因となっていた。

【０００６】更に、「波形辞書を用いた規則合成法」に
よる音声合成方式では、いずれの方式も音節などを単位
としているため、合成音の音質が優れているとはいえな
かった。

【０００７】それゆえに、この発明の主たる目的は、優
れた音質の合成音を出力することができる、音声合成装
置を提供することである。

【０００８】

【課題を解決するための手段】本発明は、入力文字列に
対応する第１の音韻記号列に含まれる複数の第１の音韻
記号部分列に対応する単位音声波形を合成して合成音声
出力する音声合成装置において、第１の音韻記号列を所
定の優先順位で複数の第１の音韻記号部分列に分割する
分割手段、所定の優先順位で分割された第２の音韻記号
部分列を含む第２の音韻記号列と第２の音韻記号部分列
に対応する単位音声波形を含む音声波形とを蓄積した波
形メモリ、第１の音韻記号部分列に対応する単位音声波
形を波形メモリから読み出す波形読出手段、および波形
メモリから読み出された単位音声波形を接続して合成音
声波形を生成する波形接続手段を備えることを特徴とす
る音声合成装置である。

【０００９】

【発明の実施の形態】本発明の実施の形態を図１乃至図
９に基づいて説明する。

【００１０】図１を参照して、この実施例のテキスト音
声合成装置１０は、マイコン１２を含む。マイコン１２
は、テキスト文章データからなる入力文字例を受け、ま
ずテキスト解析用辞書１４を用いて、形態素解析手段１
２ｅにて入力文字列の形態素解析を行う。而して、分割
手段１２ｆにて入力文字列を音韻記号部分列に分割し
て、その入力文字列を分割点が設定された音韻記号列に
変換するとともに、この入力文字列のピッチパターンお
よびパワーパターンを生成する。

【００１１】次に、波形接続手段１２ｇは、波形読出手
段１２ｈにて音声波形データベース１６から読み出され
た単位音声波形をピッチパターンおよびパワーパターン
に基づいて、整形および接続編集し、これによって生成
された合成音を出力する。

【００１２】音声波形データベース１６には、音声波形
と各々の音声波形に対する音韻ラベル情報とが登録され
ている。音韻ラベル情報は音韻記号列および記号列番号
を含む。この実施例では、以下の記号列番号および音韻
記号列が音声波形データベース１６に登録される。な
お、音韻記号列に含まれる“−”は２０msec以上の無音
区間を表している。

【００１３】(1)−ｎｉＮｇｅＮ−ｔｏｗａ−ｋａＮｇ
ａｅｒｕａｓｉ−ｄｅａｒｕ−（人間とは、考える葦で
ある） (2)−ｋｏｒｅｗａ−ｂｉｍｙｏ−ｄｅａｒｕ−（これ
は、微妙である） (3)−ｆｕ−ｋｕｚａ−ｔｕ−（複雑） (4)−ｙｕｎｙｕｓｉ−ｔｅｆｕ−ｋａｓａｓｅ−（輸
入してふ化させ） (5)−ｔｅｏ−ｔｕｎａｉ−ｄｅｕ−ｔａｕ−（手をつ
ないで歌う） (6)−ｈｉ−ｔｏｉ−ｋｉｒｅｎｉ−（人いきれに） (7)−ｍｉｎｉｍｏａｒｕ−（ミニもある） (8)−ｇｅＮｓａ−ｋｕｓｏｎｏｍｏｎｏ−（原作その
もの） (9)−ｓｙｏ−ｋｏｄｅａｒｕ−（証拠である）ここで、入力文字列に対応する音韻文字列，パワーパタ
ーンおよびピッチパターンを生成するためのアルゴリズ
ムを図２に示す。

【００１４】マイコン１２はまず、ステップＳ１で、入
力文字列を１文単位でメモリ１２ａに書き込む。次に、
ステップＳ３で形態素解析手段１２ｅにて入力文字列の
形態素解析をする。すなわち、テキスト解析用辞書１４
には、単語の表記とそれに対する音韻記号列（読み）や
アクセント、品詞などの情報が蓄えられているため、こ
れを用いて入力文字列がどのような単語から成り立って
いるかを解析する。続いて、ステップＳ５で解析結果に
基づいて入力文字列の音韻記号列を生成する。

【００１５】その後、ステップＳ７でテキスト解析用辞
書１４を用いて入力文字列のポーズ（ＰＡＵＳＥ）情報
を解析し、この解析結果からステップＳ９で入力文字列
のパワーパターンを生成する。

【００１６】さらに、ステップＳ１１で、テキスト解析
用辞書１４を用いて入力文字列のアクセント情報を解析
し、この解析結果からステップＳ１３で入力文字列のピ
ッチパターンを生成する。

【００１７】ここで、「人間とは、微妙で複雑な生き物
である」という文字列が入力された場合のパワーパター
ンおよびピッチパターンを図３に実線で示す。パワーパ
ターンは、それぞれの音韻記号に対応する単位音声波形
の振幅倍率（０≦ｐｗ≦２）を時間関数ｐｗ（ｔ）で表
したものである。なお、音韻継続時間は日本語モーラ時
間単位で換算されている。

【００１８】一方、音声波形データベース１６に登録さ
れた音声波形に含まれるそれぞれの単位音声波形は、予
め平均振幅が基準振幅“１”となるように正規化されて
いる。すなわち、音声波形は２０ｋＨｚサンプリングの
１６ｂｉｔＰＣＭデータ（量子化値は、-32768-32767の
範囲をとり得る）として登録されており、これに含まれ
る単位音声波形の平均振幅が16384 になるように正規化
されている。

【００１９】図３からわかるように、入力文字列に対応
する音韻記号列に含まれる／ｎｉＮｇｅｎ／の頭の部
分、および／ｉｋｉｍｏｎｏ／の全体の振幅倍率を強調
のため上げているが、その他の部分は振幅倍率１となっ
ており、この部分については音声波形データベース１６
に登録されている単位音声波形の振幅を変えずにそのま
ま接続編集することができる。参考までに、波形整形後
の振幅変化を点線で示す。また、ピッチパターンは音声
波形の周波数（５０≦ｐｔ≦３００〔Ｈｚ〕）を時間関
数ｐｔ（ｔ）で表したものであり、周知のモデル（藤崎
モデル：比企静雄編、「音声情報処理」東京大学出版
会、１９７３）により算出されている。

【００２０】次に、入力文字列に対応する音韻記号列、
パワーパターンおよびピッチパターンに基づいて出力音
声を生成するアルゴリズムを図４に示す。

【００２１】分割手段１２ｆは、まずステップＳ１５で
入力文字列に対応する音韻記号列の分割点を決定し、こ
の音韻記号列を複数の音韻記号部分列に分割する。

【００２２】次に、ステップＳ１７で波形接続手段１２
ｇは部分列ナンバーｎを“１”に設定し、さらにステッ
プＳ１９で、波形読出手段１２ｈはｎ番目の音韻記号部
分列に対応する単位音声波形およびラベル情報を音声波
形データベース１６より抽出する。

【００２３】続いて、ステップＳ２１で、波形接続手段
１２ｇは入力文字列に対応するパワーパターンに一致す
るように単位音声波形の音韻継続時間長およびゲインを
波形整形によって修正する。

【００２４】その後、ステップＳ２３で、波形接続手段
１２ｇ中の波形整形手段は、入力文字列に対応するピッ
チパターンに対応するように単位音声波形のピッチを波
形整形によって修正する。

【００２５】続いて、ステップＳ２５で波形を接続し、
接続した合成音声波形をステップＳ２７でメモリ１２ｂ
に記憶する。その後ステップＳ２９で部分列ナンバーｎ
をインクリメントし、ステップＳ３１でｎ番目の単位音
声波形が存在するかどうか判断する。ここで“ＹＥＳ”
であればステップＳ１９に戻るが、“ＮＯ”であればス
テップＳ３３で合成音声波形をアナログ音声波形に変換
して出力する。

【００２６】ステップＳ１５は、具体的には図５に示す
アルゴリズムによって表される。マイコン１２は、まず
ステップＳ１５０１で音韻記号列を解析し、無音部分割
点を優先順位第１位の分割点として検索する。

【００２７】すなわち、音響学的解析によってその音韻
記号列を音声に変換して出力したとき２０msec以上の無
音が継続する箇所を無音部分割点とし、この点を検索す
る。

【００２８】具体的には、文脈解析によって検出できる
ポーズ発生箇所の他に、日本語発声学的な解析によっ
て、促音“Ｑ”や子音“ｐ”、“ｔ”、“ｋ”、
“ｄ”、“ｂ”、“ｚ”等の直前にクロージャと呼ばれ
る２０〜７０msec程度の無音区間箇所があることがわか
っており、これらを音響学的解析により判定する。

【００２９】したがって、この実施例の音韻記号列につ
いては、ステップＳ１５０１で以下の無音部分割点が検
索される。ここでは、無音部分割点を／で表し、無音部
を“−”で表している。

【００３０】／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂ
ｉｍｙｏ−／−ｄｅｆｕ−／−ｋｕｚａ−／−ｔｕｎａ
ｉ−／−ｋｉｍｏｎｏｄｅａｒｕ−／次にステップＳ１５０３で、“ｓ”、“ｓｈ”、
“ｈ”、“ｈｙ”、“ｆ”等の無声音部分（無声子音部
分）を優先順位第２位の分割点とし、これを検索する。
したがって、この実施例の音韻記号列では以下のような
分割点が選出される。区別のために無声音部分割点を//
で表す。

【００３１】／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂ
ｉｍｙｏ−／−ｄｅｆ//ｆｕ−／−ｋｕｚａ−／−ｔｕ
ｎａｉ−／−ｋｉｍｏｎｏｄｅａｒｕ−／さらに、ステップＳ１５０５では、“ａ”、“ｉ”、
“ｕ”、“ｅ”、“ｏ”等の有声音部分（母音部分）を
優先順位第３位の分割点とし、これを検索する。したが
って、この実施例の音韻記号列では、以下のような分割
点が追加される。区別のため、有声音部分割点を/// で
表す。

【００３２】／−ｎｉ/// ｉＮｇｅ/// ｅＮ−／−ｔｏ
/// ｏｗａ−／−ｂｉ/// ｉｍｙｏ−／−ｄｅ/// ｅｆ
//ｆｕ/// ｕ−／−ｋｕ/// ｕｚａ/// ａ−／−ｔｕ//
/ ｕｎａ/// ａｉ−／−ｋｉ/// ｉｍｏ/// ｏｎｏ///
ｏｄｅ/// ｅａ/// ａｒｕ−／したがって、この音韻記号列は、最大２３個の音韻記号
部分列に分割可能となる。なお、音声波形データベース
１６に登録されている音韻記号列も無音部分割点，無声
音部分割点および有声音部分割点を持ち、音声波形はこ
れらの分割点に対応する波形分割点を持つ。

【００３３】分割手段１２ｆは以下のステップＳ１５０
７〜Ｓ１５２９で、優先順位を考慮して、なるべく音韻
記号部分列の数が少なくなるように、最終的な分割点を
決定していく。ステップＳ１５０７では、分割手段１２
ｆは無音部分割点によって分割される音韻記号部分列の
１つをメモリ１２ｃに書き込む。本発明の実施の形態で
は、まず最初に入力音韻記号列の頭から次の優先順位第
１位までの分割点までの以下の音韻記号部分列がメモリ
１２ｃに書き込まれる。

【００３４】／−ｎｉＮｇｅＮ−／次に、ステップＳ１５０９で、分割手段１２ｆは音声波
形データベース１６のラベル情報にステップＳ１５０７
で書き込んだ音韻記号部分列に対応する音韻記号部分列
が含まれていないかどうか判断する。そして、分割手段
１２ｆは音韻記号部分列が存在すれば、ステップＳ１５
１１で分割点を決定する。

【００３５】すなわち、分割手段１２ｆは部分列ナンバ
ーｎ及び、その音韻記号部分列を含む音声波形データベ
ース１６内の音韻記号列の記号列番号ｌ（本実施の形態
では(１)〜(９)）とその音韻記号部分列に対応する音声
波形の開始点ｓと終了点ｅの情報をメモリ１２ｄに書き
込む。その後、ステップＳ１５０７に戻り、次の音韻記
号部分列に対しての処理をする。

【００３６】この実施例では、／−ｎｉＮｇｅＮ−／は
音声波形データベース１６の中の１番目の音韻記号列に
存在するので、分割点／−ｎｉＮｇｅＮ−／が決定さ
れ、メモリ１２ｄに／−ｎｉＮｇｅＮ−／の存在する記
号列番号１と対応する音声波形の波形開始点及び終了点
が記憶される。

【００３７】その後ステップＳ１５０７に戻り、同様に
次の音韻記号部分列／−ｔｏｗａ−／をメモリ１２ｃに
上書きし、ステップＳ１５０９で音声波形データベース
１６に含まれる音韻記号部分列を検索する。ここで、／
−ｔｏｗａ−／は音声波形データベース１６の中の１番
目の音韻記号列に存在するので、ステップＳ１５１１で
分割点／−ｔｏｗａ−／が決定される。同様に次の音韻
記号部分列／−ｂｉｍｙｏ−／も、音声波形データベー
ス１６の中の２番目の音韻記号列に存在するので、分割
点／−ｂｉｍｙｏ−／が決定される。

【００３８】このようにして、／−ｎｉＮｇｅＮ−／−
ｔｏｗａ−／−ｂｉｍｙｏ−／の分割点が決定される。

【００３９】ステップＳ１５０９で“ＮＯ”と判断され
ると、分割手段１２ｆはステップＳ１５１３で、優先順
位第２位の分割点、すなわち無声音部分割点によって分
割されるなるべく長い音韻記号部分列を抽出し、これを
メモリ１２ｃに書き込む。

【００４０】次に、ステップＳ１５１５で、ステップＳ
１５０９と同様に、メモリ１２ｃに記憶された音韻記号
部分列が音声波形データベース１６に存在するかどうか
判断する。

【００４１】ここで“ＹＥＳ”であれば、ステップＳ１
５１７でステップＳ１５１１と同様にして、分割手段１
２ｆは無声音部による分割点を決定し、ステップＳ１５
０７に戻るが、“ＮＯ”であれば、ステップＳ１５１９
で無声音部分割点によってこれ以上の分割が可能である
かどうか判断する。そして、“ＹＥＳ”であればステッ
プＳ１５１３に戻り、“ＮＯ”であればステップＳ１５
２１に移行する。

【００４２】本発明の実施の形態では、次の音韻記号部
分列／−ｄｅｆｕ−／は音声波形データベース１６に存
在しないので、ステップＳ１５１３では／−ｄｅｆ//が
メモリ１２ｃに上書きされ、次にステップＳ１５１５で
この音韻記号部分列が音声波形データベース１６に存在
するかどうか判断する。

【００４３】しかし、／−ｄｅｆ//は音声波形データベ
ース１６に存在しない。この実施例では、／−ｄｅｆ//
の音韻記号列は音声波形データベース１６に存在せず、
これ以上優先順位第２位での分割点による分割が不可能
なため、ステップＳ１５１９を経てステップＳ１５２１
に移行する。

【００４４】ステップＳ１５２１では、優先順位第３位
の分割点、すなわち有声音部分割点で分割されるなるべ
く長い音韻記号部分列を抽出し、これをメモリ１２ｃに
書き込む。次にステップＳ１５２３で、ステップＳ１５
０９およびＳ１５１５と同様に、この音韻記号部分列が
音声波形データベース１６に含まれているかどうか判断
する。そして、含まれていれば、ステップＳ１５２５で
ステップＳ１５１１およびＳ１５１７と同様にして有声
音部分割点を決定し、ステップＳ１５０７に戻るが、含
まれていなければ、ステップＳ１５２７で有声音部分割
点によってこれ以上の分割が可能であるかどうか判断す
る。

【００４５】そして、可能であればステップＳ１５２１
に戻り、不可能であればステップＳ１５２９でエラー処
理をしてステップＳ１５０７に戻る。すなわち、ステッ
プＳ１５２９では、ステップＳ１５２７で最終的にこれ
以上分割できないと判定された音韻記号部分列を無視し
て、検索すべき音韻記号部分列を更新し、ステップＳ１
５０７に移る。

【００４６】本発明の実施の形態では、ステップＳ１５
２１において以下の如く判定する。ここでは、／−ｄｅ
/// が音声波形データベース１６の１、２、及び５番目
の音韻記号列に存在する。しかし、音韻記号部分列は１
番目の音韻記号列から昇べきの順に検索され、見つかっ
た時点で検索は中止されるため、ステップＳ１５２１に
おいて／−ｄｅ/// は２番目の音韻記号列から選ばれ、
ステップＳ１５２５で対応する分割点が決定される。も
し、ステップＳ１５２７でこれ以上分割不可能と判定さ
れれば、ステップＳ１５２９でエラー処理をし、ステッ
プＳ１５０７に戻る。

【００４７】以上の処理により、最終的には以下のよう
に分割点が決定される。

【００４８】／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂ
ｉｍｙｏ−／−ｄｅ/// ｅｆ//ｆｕ−／−ｋｕｚａ−／
−ｔｕｎａｉ−／−ｋｉ/// ｉｍｏ/// ｏｎｏ/// ｏｄ
ｅａｒｕ−／他方、分割手段１２ｆは分割点の決定に関して、次の手
法を採用することも可能である。

【００４９】本手法では、入力音韻記号列の分割点の組
み合わせからできるすべての音韻記号部分列について以
下に示す「評価関数score」により決定される評価点を
算出し、各々の音韻記号部分列に対応する評価点の累積
が最小になる組み合わせより分割点を決定する。

【００５０】ここで、評価関数scoreは、分割点の優先
順位により決定される値type、分割点点前後の音韻の種
類により決定される値link、分割された音韻長により決
定される値len、及び分割点に対応する波形接続点にお
ける理論値とのピッチ周期の差により決定される値f0の
それぞれの数値にw1〜w4の重みをかけて足し合わせた値
とする。w1〜w4の重みは、それぞれ０〜１までの実数定
数である。

【００５１】評価関数：score＝w1＊type＋w2＊link＋w
3＊len＋w4＊f0 但し、type＝０（分割点が前記優先順位第１位である場
合） type＝１（分割点が前記優先順位第２位である場合） type＝３（分割点が前記優先順位第３位である場合） type＝９（それ以外の場合） link＝０（分割点前後の音韻の種類が一致する場合） link＝９（それ以外の場合） len ＝−（分割点で区切られた音韻記号部分列の音韻記
号数） f0 ＝｜log（実波形のピッチ周期）−log（理論ピッチ
周期）｜である。

【００５２】以下、入力文字列／−ａｍｅｎｏｔａｍｅ
ｋａ−／（雨のためか）について、分割点の決定方法
について述べる。説明の簡略のため本実施例では、w1＝
１，w2＝１，w3＝１，w4＝０とした。

【００５３】音韻記号部分列の組み合わせは、図７に示
す木検索により行う。

【００５４】同図中、選択された音韻記号部分列（この
音韻記号部分列は音声波形デ−タベ−ス１６のラベル情
報に存在し、かつ、すべての音韻分割点前後の音韻が一
致するものが選択されたとした）の下側にscore値が示
されている。説明のため、各音韻記号部分列の選択され
た状態を便宜上ノ−ド０からノ−ド８と呼ぶ。

【００５５】まず、はじめにノ−ド０において／−／
（無音）で始まり、／−ａｍｅｎｏ．．．／と続く音韻
記号部分列を音声波形デ−タベ−ス１６のラベル情報よ
り検索し、その中で最もscore値が小さい音韻記号部分
列から所定の数ｍ個（本実施の形態では、２個とする）
選択し、下位にｍ個のノ−ドを作成する。図７では、ノ
−ド１／−ａｍｅｎｏ−／とノ−ド４／−ａｍｅｎｏ−
ｔａｍ//が選択された。／−ａｍｅｎｏ−／のscore値
は、 type ＝９：優先順位外の分割点で終わっている。

【００５６】link ＝０：後続の音韻記号がｔで一致
している。

【００５７】len ＝ −１０ score ＝９＋０−１０＝−１／−ａｍｅｎｏ−ｔａｍ／のscore値は、 type ＝０：優先順位第１位の分割点で終わってい
る。

【００５８】link ＝０：後続の音韻記号がｍで一致
している。

【００５９】len ＝ −７ score ＝０＋０−７＝ −７である。ここで、ノ−ド１およびノ−ド４を音韻分割部
分列候補とする。従って、それぞれのノ−ドでの累計sc
ore値は、それぞれノ−ド１での累計score ＝ −１ノ−ド４での累計score ＝ −７となる。分割毎に累計scoreの小さいものからｍ個の音
韻部分列の探索系列を残すため実施例ではノ−ド１およ
びノ−ド４の音韻部分列は候補として残る。従って、次
の探索として、ノ−ド２、３、５及び６が候補となり、ノ−ド２での累計score ＝ −３ノ−ド３での累計score ＝ −７ノ−ド５での累計score ＝ −７ノ−ド６での累計score ＝ −９この場合、ノ−ド３、５が同点であるが、同点の場合は
そのノ−ドでのscore値の小さいほうを優先し、結果と
してノ−ド３、６が候補として残る。

【００６０】ここでノ−ド３は分割が終了したので、ノ
−ド３での累計scoreは、常に候補として残る。ノ−ド
２および５からの探索はこれ以上行わない。同様に分割
を繰り返し最終的に残ったノ−ドは、図７より、ノ−ド
３およびノ−ド８となり、それぞれの累積score値は、ノ−ド３での累計score ＝ −７ノ−ド８での累計score ＝ −１４であるから、scoreが小さいほうのノ−ド８までの検索
による音韻分割が最適となり、実際の分割は、／−ａｍ
ｅｎｏ−／−ｔａｍｅ／ｅ−ｋａ−／に決定される。

【００６１】次に、図４のステップＳ２１およびＳ２３
の波形整形に関する具体的な処理について説明する。

【００６２】マイコン１２は、ステップＳ１５１１，Ｓ
１５１７およびＳ１５２５で決定された分割点に従っ
て、波形読出手段１２ｈは音声波形データベース１６に
登録されている単位音声波形を抽出し、波形接続手段１
２ｇはパワーパターンおよびピッチパターンによってそ
の単位音声波形を整形する。

【００６３】単位音声波形の振幅および音韻継続時間長
はパワーパターンｐｗ（ｔ）に従って、また、音程（ピ
ッチ）はピッチパターンｐｔ（ｔ）に従って整形され
る。単位音声波形の振幅制御においては、時刻ｔにおけ
るｐｗ（ｔ）を基準として振幅ゲインを調整する。音韻
継続時間長および音程制御は、ＰＳＯＬＡ法(F.Charpen
tier他、「Pitch-Synchronous Waveform Processing Te
chniques for Text-to-speech Synthesis Using Diphon
es」Proc. Eurospeech ’89を用いる。

【００６４】たとえば、音韻記号列／−ｄｅ/// に対応
する単位音声波形の抽出と波形整形について述べる。音
声波形の分割点に関してより詳しく説明すると、無音部
分割点は無音区間の開始点あるいは終了点に設けられ、
無声音部分割点は無声音区間のほぼ中心に設けられ、そ
して、有声音部分割点は周期性が安定している母音中心
部等の１ピッチ波形の開始点と終了点とにおける右下が
りのゼロクロスポイントに設けられる。

【００６５】そして、これらの波形分割点がマーキング
されるとともに、そのマーキングが各々の音声波形の先
頭サンプルから何サンプル目にあるかが、上述のステッ
プＳ１５１１，Ｓ１５１７およびＳ１５２５でメモリ１
２ｄに書き込まれる。

【００６６】したがって、単位音声波形／−ｄｅ/// の
波形終端は、音韻記号“ｅ”に相当する音声波形のうち
周波数の安定している１ピッチの終了点であり、この波
形終端までの波形が単位音声波形として抽出される。抽
出された単位音声波形は、前述の方法により波形整形さ
れる。

【００６７】このうち、音程制御にあたっては、接続箇
所である１ピッチ波形の終了点を基準時とし、その基準
時の基準ピッチ周期Ｔをピッチパターンに基づいて算出
する。

【００６８】ここで、基準ピッチとは入力文字列に対応
する音韻記号列の当該基準時におけるピッチ周期であ
る。そして、算出された基準ピッチ周期Ｔにマーキング
された１ピッチ波形のピッチ周期が一致するように単位
音声波形全体をＰＳＯＬＡ法で整形する。

【００６９】このとき、次の単位音声波形の接続のため
に、波形整形の後に接続された単位音声波形の波形分割
点は、ステップＳ２３で合成音声波形の始めからのサン
プル数に換算して記憶保持される。

【００７０】また、音韻継続時間長の制御にあたって
は、パワーパターンに合わせて、無音区間の補間・削除
またはＰＳＯＬＡ法によって、ピッチが安定している母
音区間における１ピッチ波形を補間または間引きする。
振幅の調整にあたっては、音声単位波形毎にパワーパタ
ーンより導かれる振幅倍率を乗じる。

【００７１】続いて、図４のステップＳ２５における波
形接続処理について説明する。有声音区間の接続に関し
ては、互いに接続する単位音声波形の特定の１ピッチが
マーキングされているため、この期間Ｔにおいて、それ
ぞれの波形に重みをかけて足し合わせることによって、
両波形を接続する。

【００７２】すなわち、先行する単位音声波形の特定の
１ピッチに対しては、１から０へ直線的に変化する重み
（窓関数Ｗ１＝１−ｉ／（Ｔ−１）（ｉ＝０，１，…，
Ｔ−１））をかけ、後行する単位音声波形の特定の１ピ
ッチに対しては、０から１へ直線的に変化する重み（窓
関数Ｗ２＝ｉ／（Ｔ−１））をかけて、両波形を足し合
わせる。また、無音区間の波形接続および無声音区間の
波形接続に関しては、互いに接続する単位音声波形のマ
ーキングされた分割点で単純に接続する。

【００７３】たとえば、／−ｄｅ/// と/// ｅｆ//の接
続に関して、図８を用いて説明する。図８（ａ）は、音
声波形データベース１６に登録されている／−ｄｅ///
（２番目に存在）の音韻記号“ｅ”に相当する波形整形
済みの音声波形の一部分であり、図８（ｂ）は、音声波
形データベース１６に登録されている/// ｅｆ//（４番
目に存在）の音韻記号“ｅ”に相当する波形整形済みの
音声波形の一部分である。この２つの波形を接続して、
／−ｄｅｆ//に相当する合成波形である図８（ｃ）を得
る。

【００７４】この場合は有声音区間の波形接続であるの
で、互いに接続する図８（ａ）、（ｂ）各々の単位音声
波形の１ピッチ分がＡ、ＢおよびＣ、Ｄでマーキングさ
れており、図の破線で示すように、各々の波形に重みを
付けて足し合わせることにより両者が接続される。この
とき、音声波形の図８（ａ）、（ｂ）の接続箇所Ａから
Ｂ、ＣからＤの時間長は、前述の基準ピッチ周期Ｔにな
るよう波形整形されている。

【００７５】次に、たとえば、/// ｅｆ//と//ｆｕ／の
接続に関して、図９を用いて説明する。

【００７６】図９（ｄ）は、音声波形データベース１６
に登録されている/// ｅｆ//（４番目に存在）の音韻記
号“ｆ”に相当する波形整形済みの音声波形の一部分で
あり、図９（ｅ）は、音声波形データベース１６に登録
されている//ｆｕ／（３番目に存在）の音韻記号“ｆ”
に相当する波形整形済みの音声波形の一部分である。こ
の２つの波形を接続して、−ｄｅｆｕ−／の“ｆ”に相
当する合成波形である図９（ｆ）を得る。この場合は、
無声音区間の波形接続であるので、互いに接続する図９
（ｄ）、（ｅ）各々の単位音声波形のマーキングされた
波形分割点Ｅ、Ｆで単純に接続する。

【００７７】

【発明の効果】この発明によれば、所定の優先順位で分
割された第１の音韻記号部分列に対応する最適な単位音
声波形が読出手段によって波形メモリから読み出され、
波形接続手段によって接続されるため、音質が優れた合
成音声波形を出力することができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態を示すブロック図であ
る。

【図２】本発明の動作の一部を示すフロー図である。

【図３】音韻記号列、パワーパターンおよびピッチパタ
ーンを示す図解図である。

【図４】本発明の動作の一部を示すフロー図である。

【図５】本発明の動作の一部を示すフロー図である。

【図６】本発明の動作の一部を示すフロー図である。

【図７】本発明の動作の一部を示す木構造図である。

【図８】（ａ）および（ｂ）は単位音声波形の一部を示
す波形図であり、（ｃ）は合成された音声波形の一部を
示す波形図である。

【図９】（ｄ）および（ｅ）は単位音声波形の一部を示
す波形図であり、（ｆ）は合成された音声波形の一部を
示す波形図である。

【符号の説明】

１０ …テキスト音声合成装置１２ｅ…形態素解析手段１２ｆ…分割手段１２ｇ…波形接続手段１２ｈ…波形読出手段１２ｉ…韻律情報生成手段１４ …テキスト解析用辞書１６ …音声波形データベース

───────────────────────────────────────────────────── フロントページの続き (72)発明者大西宏樹大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内

Claims

【特許請求の範囲】

【請求項１】入力文字列に対応する第１の音韻記号列
に含まれる複数の第１の音韻記号部分列に対応する単位
音声波形を合成して合成音声出力する音声合成装置にお
いて、第１の音韻記号列を所定の優先順位で複数の第１
の音韻記号部分列に分割する分割手段と、前記所定の優先順位で分割された第２の音韻記号部分列
を含む第２の音韻記号列と前記第２の音韻記号部分列に
対応する単位音声波形を含む音声波形とを蓄積した波形
メモリと、第１の音韻記号部分列に対応する単位音声波
形を前記波形メモリから読み出す波形読出手段と、およ
び前記波形メモリから読み出された単位音声波形を接続
して合成音声波形を生成する波形接続手段と、を備える
ことを特徴とする音声合成装置。
【請求項２】前記所定の優先順位の要素として無音
部、無声音部および有声音部の少なくとも１つを含む、
請求項１記載の音声合成装置。
【請求項３】前記音声合成装置は前記入力文字列に対
応する韻律情報を生成する韻律情報生成手段を備え、前
記接続手段は前記単位音声波形を前記韻律情報に従って
波形整形する波形整形手段を含む、請求項２記載の音声
合成装置。
【請求項４】前記韻律情報はピッチパターンおよびパ
ワーパターンの少なくとも一方を含む、請求項３記載の
音声合成装置。
【請求項５】前記有声音部で分割された単位音声波形
を接続するとき、前記接続手段はそれぞれの単位音声波
形に含まれる１ピッチ分の波形に適当な重み付けをして
加算する加算手段を含む、請求項２ないし４のいずれか
に記載の音声合成装置。
【請求項６】前記波形メモリから読み出された単位音
声波形を接続する時、その接続歪みが小さくなるよう
に、前記第１の音韻記号列を分割する音韻分割点前後の
音韻の種類が一致するような単位音声波形を選択するこ
とを特徴とする請求項２記載の音声合成装置。
【請求項７】前記波形メモリから読み出された単位音
声波形を接続する時、前記第１の音韻記号列を分割する
音韻分割点数が最小になるような単位音声波形を選択す
ることを特徴とする請求項２記載の音声合成装置。
【請求項８】前記波形メモリから読み出された単位音
声波形を接続する時、その接続歪みが小さくなるよう
に、その接続点における前後の波形のピッチが所定量以
上異ならないように前記単位音声波形を選択することを
特徴とする請求項２ないし４のいずれかに記載の音声合
成装置。
【請求項９】前記波形メモリから読み出された単位音
声波形を接続する時、その接続歪みが小さくなるよう
に、前記第１の音韻記号列を分割する音韻分割点の優先
順位、音韻分割点前後の音韻の種類の一致度、音韻分割
点数、及び接続点前後の波形のピッチの差を夫々量子化
し、その量子化された夫々の値に所定の重みを付加した
評価関数により前記単位音声波形を選択することを特徴
とする請求項２ないし４のいずれかに記載の音声合成装
置。