[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPH0944191A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH0944191A
JPH0944191A JP8039981A JP3998196A JPH0944191A JP H0944191 A JPH0944191 A JP H0944191A JP 8039981 A JP8039981 A JP 8039981A JP 3998196 A JP3998196 A JP 3998196A JP H0944191 A JPH0944191 A JP H0944191A
Authority
JP
Japan
Prior art keywords
waveform
phoneme
voice
speech
phoneme symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8039981A
Other languages
English (en)
Other versions
JP3583852B2 (ja
Inventor
Hideji Nishida
秀治 西田
Hiroyuki Hirai
啓之 平井
Masanori Miyatake
正典 宮武
Hiroki Onishi
宏樹 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP03998196A priority Critical patent/JP3583852B2/ja
Publication of JPH0944191A publication Critical patent/JPH0944191A/ja
Application granted granted Critical
Publication of JP3583852B2 publication Critical patent/JP3583852B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の音声合成装置のデータベースに蓄積さ
れている音声単位は、波形としてではなくケプスラム係
数等のパラメータであるため、パラメータを音声波形に
復元してから音声合成をしなければならず、音質の向上
を妨げていた。 【解決手段】 入力文字列に対応する第1音韻記号列に
含まれる複数の第1音韻記号部分列に対応する単位音声
波形を合成音声出力する音声合成装置において、第1音
韻記号列を所定の優先順位で複数の第1音韻記号部分列
に分割する分割手段と、前記所定の優先順位で分割され
た第2音韻記号部分列を含む第2音韻記号列と前記第2
音韻記号部分列に対応する単位音声波形を含む音声波形
とを蓄積した波形メモリと、第1音韻記号部分列に対応
する単位音声波形を前記波形メモリから読み出す波形読
出手段と、および前記波形メモリから読み出された単位
音声波形を接続して合成音声波形を生成する波形接続手
段と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声合成装置に関
し、特にたとえば音声案内、音声応答および音声読み上
げ等に用いられ、入力文字列に対応する音韻記号列に従
って音声波形を合成して出力する、音声合成装置に関す
る。
【0002】
【従来の技術】従来のこの種の音声合成装置が、平成4
年12月22日に出願公開された特開平4−36969
3号公報に開示されている。これは、音声合成を行う音
韻系列に対応するかつデータベースに含まれる音声単位
の中から、平均的な音響特性を有する音声単位を優先的
に選択して、それぞれを接続するものである。
【0003】また、音声波形を編集して音声合成する方
法としては、発表論文「波形辞書を用いた規則合成法」
(電子情報通信学会音声研資SP88-9, pp65-pp72, (1988
年),発表者:広川智久)が周知となっている。これに
は、類似する音声波形から代表音声波形を抽出し、その
代表音声波形を編集して音声合成をする方式や、繁茂に
出現する音声波形をデータベース化し、発生頻度の高い
音声波形単位を編集して音声合成をする方式が開示され
ている。
【0004】
【発明が解決しようとする課題】しかし、特開平4−3
69693号公報の音声合成装置では、著しく異なった
音響特性を有する音声単位が選択されることによる合成
音の音質劣化はなくなるものの、相変わらず音質は優れ
ているとはいえなかった。
【0005】また、それぞれの音声単位は、波形として
ではなくケプスラム係数等のパラメータに変換してデー
タベースに蓄積されているため、パラメータを音声波形
に復元してから音声合成をしなければならず、これも音
質の向上を妨げる原因となっていた。
【0006】更に、「波形辞書を用いた規則合成法」に
よる音声合成方式では、いずれの方式も音節などを単位
としているため、合成音の音質が優れているとはいえな
かった。
【0007】それゆえに、この発明の主たる目的は、優
れた音質の合成音を出力することができる、音声合成装
置を提供することである。
【0008】
【課題を解決するための手段】本発明は、入力文字列に
対応する第1の音韻記号列に含まれる複数の第1の音韻
記号部分列に対応する単位音声波形を合成して合成音声
出力する音声合成装置において、第1の音韻記号列を所
定の優先順位で複数の第1の音韻記号部分列に分割する
分割手段、所定の優先順位で分割された第2の音韻記号
部分列を含む第2の音韻記号列と第2の音韻記号部分列
に対応する単位音声波形を含む音声波形とを蓄積した波
形メモリ、第1の音韻記号部分列に対応する単位音声波
形を波形メモリから読み出す波形読出手段、および波形
メモリから読み出された単位音声波形を接続して合成音
声波形を生成する波形接続手段を備えることを特徴とす
る音声合成装置である。
【0009】
【発明の実施の形態】本発明の実施の形態を図1乃至図
9に基づいて説明する。
【0010】図1を参照して、この実施例のテキスト音
声合成装置10は、マイコン12を含む。マイコン12
は、テキスト文章データからなる入力文字例を受け、ま
ずテキスト解析用辞書14を用いて、形態素解析手段1
2eにて入力文字列の形態素解析を行う。而して、分割
手段12fにて入力文字列を音韻記号部分列に分割し
て、その入力文字列を分割点が設定された音韻記号列に
変換するとともに、この入力文字列のピッチパターンお
よびパワーパターンを生成する。
【0011】次に、波形接続手段12gは、波形読出手
段12hにて音声波形データベース16から読み出され
た単位音声波形をピッチパターンおよびパワーパターン
に基づいて、整形および接続編集し、これによって生成
された合成音を出力する。
【0012】音声波形データベース16には、音声波形
と各々の音声波形に対する音韻ラベル情報とが登録され
ている。音韻ラベル情報は音韻記号列および記号列番号
を含む。この実施例では、以下の記号列番号および音韻
記号列が音声波形データベース16に登録される。な
お、音韻記号列に含まれる“−”は20msec以上の無音
区間を表している。
【0013】(1)−niNgeN−towa−kaNg
aeruasi−dearu−(人間とは、考える葦で
ある) (2)−korewa−bimyo−dearu−(これ
は、微妙である) (3)−fu−kuza−tu−(複雑) (4)−yunyusi−tefu−kasase−(輸
入してふ化させ) (5)−teo−tunai−deu−tau−(手をつ
ないで歌う) (6)−hi−toi−kireni−(人いきれに) (7)−minimoaru−(ミニもある) (8)−geNsa−kusonomono−(原作その
もの) (9)−syo−kodearu−(証拠である) ここで、入力文字列に対応する音韻文字列,パワーパタ
ーンおよびピッチパターンを生成するためのアルゴリズ
ムを図2に示す。
【0014】マイコン12はまず、ステップS1で、入
力文字列を1文単位でメモリ12aに書き込む。次に、
ステップS3で形態素解析手段12eにて入力文字列の
形態素解析をする。すなわち、テキスト解析用辞書14
には、単語の表記とそれに対する音韻記号列(読み)や
アクセント、品詞などの情報が蓄えられているため、こ
れを用いて入力文字列がどのような単語から成り立って
いるかを解析する。続いて、ステップS5で解析結果に
基づいて入力文字列の音韻記号列を生成する。
【0015】その後、ステップS7でテキスト解析用辞
書14を用いて入力文字列のポーズ(PAUSE)情報
を解析し、この解析結果からステップS9で入力文字列
のパワーパターンを生成する。
【0016】さらに、ステップS11で、テキスト解析
用辞書14を用いて入力文字列のアクセント情報を解析
し、この解析結果からステップS13で入力文字列のピ
ッチパターンを生成する。
【0017】ここで、「人間とは、微妙で複雑な生き物
である」という文字列が入力された場合のパワーパター
ンおよびピッチパターンを図3に実線で示す。パワーパ
ターンは、それぞれの音韻記号に対応する単位音声波形
の振幅倍率(0≦pw≦2)を時間関数pw(t)で表
したものである。なお、音韻継続時間は日本語モーラ時
間単位で換算されている。
【0018】一方、音声波形データベース16に登録さ
れた音声波形に含まれるそれぞれの単位音声波形は、予
め平均振幅が基準振幅“1”となるように正規化されて
いる。すなわち、音声波形は20kHzサンプリングの
16bitPCMデータ(量子化値は、-32768-32767の
範囲をとり得る)として登録されており、これに含まれ
る単位音声波形の平均振幅が16384 になるように正規化
されている。
【0019】図3からわかるように、入力文字列に対応
する音韻記号列に含まれる/niNgen/の頭の部
分、および/ikimono/の全体の振幅倍率を強調
のため上げているが、その他の部分は振幅倍率1となっ
ており、この部分については音声波形データベース16
に登録されている単位音声波形の振幅を変えずにそのま
ま接続編集することができる。参考までに、波形整形後
の振幅変化を点線で示す。また、ピッチパターンは音声
波形の周波数(50≦pt≦300〔Hz〕)を時間関
数pt(t)で表したものであり、周知のモデル(藤崎
モデル:比企静雄編、「音声情報処理」東京大学出版
会、1973)により算出されている。
【0020】次に、入力文字列に対応する音韻記号列、
パワーパターンおよびピッチパターンに基づいて出力音
声を生成するアルゴリズムを図4に示す。
【0021】分割手段12fは、まずステップS15で
入力文字列に対応する音韻記号列の分割点を決定し、こ
の音韻記号列を複数の音韻記号部分列に分割する。
【0022】次に、ステップS17で波形接続手段12
gは部分列ナンバーnを“1”に設定し、さらにステッ
プS19で、波形読出手段12hはn番目の音韻記号部
分列に対応する単位音声波形およびラベル情報を音声波
形データベース16より抽出する。
【0023】続いて、ステップS21で、波形接続手段
12gは入力文字列に対応するパワーパターンに一致す
るように単位音声波形の音韻継続時間長およびゲインを
波形整形によって修正する。
【0024】その後、ステップS23で、波形接続手段
12g中の波形整形手段は、入力文字列に対応するピッ
チパターンに対応するように単位音声波形のピッチを波
形整形によって修正する。
【0025】続いて、ステップS25で波形を接続し、
接続した合成音声波形をステップS27でメモリ12b
に記憶する。その後ステップS29で部分列ナンバーn
をインクリメントし、ステップS31でn番目の単位音
声波形が存在するかどうか判断する。ここで“YES”
であればステップS19に戻るが、“NO”であればス
テップS33で合成音声波形をアナログ音声波形に変換
して出力する。
【0026】ステップS15は、具体的には図5に示す
アルゴリズムによって表される。マイコン12は、まず
ステップS1501で音韻記号列を解析し、無音部分割
点を優先順位第1位の分割点として検索する。
【0027】すなわち、音響学的解析によってその音韻
記号列を音声に変換して出力したとき20msec以上の無
音が継続する箇所を無音部分割点とし、この点を検索す
る。
【0028】具体的には、文脈解析によって検出できる
ポーズ発生箇所の他に、日本語発声学的な解析によっ
て、促音“Q”や子音“p”、“t”、“k”、
“d”、“b”、“z”等の直前にクロージャと呼ばれ
る20〜70msec程度の無音区間箇所があることがわか
っており、これらを音響学的解析により判定する。
【0029】したがって、この実施例の音韻記号列につ
いては、ステップS1501で以下の無音部分割点が検
索される。ここでは、無音部分割点を/で表し、無音部
を“−”で表している。
【0030】/−niNgeN−/−towa−/−b
imyo−/−defu−/−kuza−/−tuna
i−/−kimonodearu−/ 次にステップS1503で、“s”、“sh”、
“h”、“hy”、“f”等の無声音部分(無声子音部
分)を優先順位第2位の分割点とし、これを検索する。
したがって、この実施例の音韻記号列では以下のような
分割点が選出される。区別のために無声音部分割点を//
で表す。
【0031】/−niNgeN−/−towa−/−b
imyo−/−def//fu−/−kuza−/−tu
nai−/−kimonodearu−/ さらに、ステップS1505では、“a”、“i”、
“u”、“e”、“o”等の有声音部分(母音部分)を
優先順位第3位の分割点とし、これを検索する。したが
って、この実施例の音韻記号列では、以下のような分割
点が追加される。区別のため、有声音部分割点を/// で
表す。
【0032】/−ni/// iNge/// eN−/−to
/// owa−/−bi/// imyo−/−de/// ef
//fu/// u−/−ku/// uza/// a−/−tu//
/ una/// ai−/−ki/// imo/// ono///
ode/// ea/// aru−/ したがって、この音韻記号列は、最大23個の音韻記号
部分列に分割可能となる。なお、音声波形データベース
16に登録されている音韻記号列も無音部分割点,無声
音部分割点および有声音部分割点を持ち、音声波形はこ
れらの分割点に対応する波形分割点を持つ。
【0033】分割手段12fは以下のステップS150
7〜S1529で、優先順位を考慮して、なるべく音韻
記号部分列の数が少なくなるように、最終的な分割点を
決定していく。ステップS1507では、分割手段12
fは無音部分割点によって分割される音韻記号部分列の
1つをメモリ12cに書き込む。本発明の実施の形態で
は、まず最初に入力音韻記号列の頭から次の優先順位第
1位までの分割点までの以下の音韻記号部分列がメモリ
12cに書き込まれる。
【0034】/−niNgeN−/ 次に、ステップS1509で、分割手段12fは音声波
形データベース16のラベル情報にステップS1507
で書き込んだ音韻記号部分列に対応する音韻記号部分列
が含まれていないかどうか判断する。そして、分割手段
12fは音韻記号部分列が存在すれば、ステップS15
11で分割点を決定する。
【0035】すなわち、分割手段12fは部分列ナンバ
ーn及び、その音韻記号部分列を含む音声波形データベ
ース16内の音韻記号列の記号列番号l(本実施の形態
では(1)〜(9))とその音韻記号部分列に対応する音声
波形の開始点sと終了点eの情報をメモリ12dに書き
込む。その後、ステップS1507に戻り、次の音韻記
号部分列に対しての処理をする。
【0036】この実施例では、/−niNgeN−/は
音声波形データベース16の中の1番目の音韻記号列に
存在するので、分割点/−niNgeN−/が決定さ
れ、メモリ12dに/−niNgeN−/の存在する記
号列番号1と対応する音声波形の波形開始点及び終了点
が記憶される。
【0037】その後ステップS1507に戻り、同様に
次の音韻記号部分列/−towa−/をメモリ12cに
上書きし、ステップS1509で音声波形データベース
16に含まれる音韻記号部分列を検索する。ここで、/
−towa−/は音声波形データベース16の中の1番
目の音韻記号列に存在するので、ステップS1511で
分割点/−towa−/が決定される。同様に次の音韻
記号部分列/−bimyo−/も、音声波形データベー
ス16の中の2番目の音韻記号列に存在するので、分割
点/−bimyo−/が決定される。
【0038】このようにして、/−niNgeN−/−
towa−/−bimyo−/の分割点が決定される。
【0039】ステップS1509で“NO”と判断され
ると、分割手段12fはステップS1513で、優先順
位第2位の分割点、すなわち無声音部分割点によって分
割されるなるべく長い音韻記号部分列を抽出し、これを
メモリ12cに書き込む。
【0040】次に、ステップS1515で、ステップS
1509と同様に、メモリ12cに記憶された音韻記号
部分列が音声波形データベース16に存在するかどうか
判断する。
【0041】ここで“YES”であれば、ステップS1
517でステップS1511と同様にして、分割手段1
2fは無声音部による分割点を決定し、ステップS15
07に戻るが、“NO”であれば、ステップS1519
で無声音部分割点によってこれ以上の分割が可能である
かどうか判断する。そして、“YES”であればステッ
プS1513に戻り、“NO”であればステップS15
21に移行する。
【0042】本発明の実施の形態では、次の音韻記号部
分列/−defu−/は音声波形データベース16に存
在しないので、ステップS1513では/−def//が
メモリ12cに上書きされ、次にステップS1515で
この音韻記号部分列が音声波形データベース16に存在
するかどうか判断する。
【0043】しかし、/−def//は音声波形データベ
ース16に存在しない。この実施例では、/−def//
の音韻記号列は音声波形データベース16に存在せず、
これ以上優先順位第2位での分割点による分割が不可能
なため、ステップS1519を経てステップS1521
に移行する。
【0044】ステップS1521では、優先順位第3位
の分割点、すなわち有声音部分割点で分割されるなるべ
く長い音韻記号部分列を抽出し、これをメモリ12cに
書き込む。次にステップS1523で、ステップS15
09およびS1515と同様に、この音韻記号部分列が
音声波形データベース16に含まれているかどうか判断
する。そして、含まれていれば、ステップS1525で
ステップS1511およびS1517と同様にして有声
音部分割点を決定し、ステップS1507に戻るが、含
まれていなければ、ステップS1527で有声音部分割
点によってこれ以上の分割が可能であるかどうか判断す
る。
【0045】そして、可能であればステップS1521
に戻り、不可能であればステップS1529でエラー処
理をしてステップS1507に戻る。すなわち、ステッ
プS1529では、ステップS1527で最終的にこれ
以上分割できないと判定された音韻記号部分列を無視し
て、検索すべき音韻記号部分列を更新し、ステップS1
507に移る。
【0046】本発明の実施の形態では、ステップS15
21において以下の如く判定する。ここでは、/−de
/// が音声波形データベース16の1、2、及び5番目
の音韻記号列に存在する。しかし、音韻記号部分列は1
番目の音韻記号列から昇べきの順に検索され、見つかっ
た時点で検索は中止されるため、ステップS1521に
おいて/−de/// は2番目の音韻記号列から選ばれ、
ステップS1525で対応する分割点が決定される。も
し、ステップS1527でこれ以上分割不可能と判定さ
れれば、ステップS1529でエラー処理をし、ステッ
プS1507に戻る。
【0047】以上の処理により、最終的には以下のよう
に分割点が決定される。
【0048】/−niNgeN−/−towa−/−b
imyo−/−de/// ef//fu−/−kuza−/
−tunai−/−ki/// imo/// ono/// od
earu−/ 他方、分割手段12fは分割点の決定に関して、次の手
法を採用することも可能である。
【0049】本手法では、入力音韻記号列の分割点の組
み合わせからできるすべての音韻記号部分列について以
下に示す「評価関数score」により決定される評価点を
算出し、各々の音韻記号部分列に対応する評価点の累積
が最小になる組み合わせより分割点を決定する。
【0050】ここで、評価関数scoreは、分割点の優先
順位により決定される値type、分割点点前後の音韻の種
類により決定される値link、分割された音韻長により決
定される値len、及び分割点に対応する波形接続点にお
ける理論値とのピッチ周期の差により決定される値f0の
それぞれの数値にw1〜w4の重みをかけて足し合わせた値
とする。w1〜w4の重みは、それぞれ0〜1までの実数定
数である。
【0051】評価関数:score=w1*type+w2*link+w
3*len+w4*f0 但し、type=0(分割点が前記優先順位第1位である場
合) type=1(分割点が前記優先順位第2位である場合) type=3(分割点が前記優先順位第3位である場合) type=9(それ以外の場合) link=0(分割点前後の音韻の種類が一致する場合) link=9(それ以外の場合) len =−(分割点で区切られた音韻記号部分列の音韻記
号数) f0 =|log(実波形のピッチ周期)−log(理論ピッチ
周期)| である。
【0052】以下、入力文字列/−amenotame
ka−/ (雨のためか)について、分割点の決定方法
について述べる。説明の簡略のため本実施例では、w1=
1,w2=1,w3=1,w4=0とした。
【0053】音韻記号部分列の組み合わせは、図7に示
す木検索により行う。
【0054】同図中、選択された音韻記号部分列(この
音韻記号部分列は音声波形デ−タベ−ス16のラベル情
報に存在し、かつ、すべての音韻分割点前後の音韻が一
致するものが選択されたとした)の下側にscore値が示
されている。説明のため、各音韻記号部分列の選択され
た状態を便宜上ノ−ド0からノ−ド8と呼ぶ。
【0055】まず、はじめにノ−ド0において/−/
(無音)で始まり、/−ameno.../と続く音韻
記号部分列を音声波形デ−タベ−ス16のラベル情報よ
り検索し、その中で最もscore値が小さい音韻記号部分
列から所定の数m個(本実施の形態では、2個とする)
選択し、下位にm個のノ−ドを作成する。図7では、ノ
−ド1/−ameno−/とノ−ド4/−ameno−
tam//が選択された。/−ameno−/のscore値
は、 type = 9:優先順位外の分割点で終わっている。
【0056】link = 0:後続の音韻記号がtで一致
している。
【0057】len = −10 score = 9+0−10=−1 /−ameno−tam/のscore値は、 type = 0:優先順位第1位の分割点で終わってい
る。
【0058】link = 0:後続の音韻記号がmで一致
している。
【0059】len = −7 score = 0+0−7 = −7 である。ここで、ノ−ド1およびノ−ド4を音韻分割部
分列候補とする。従って、それぞれのノ−ドでの累計sc
ore値は、それぞれ ノ−ド1での累計score = −1 ノ−ド4での累計score = −7 となる。分割毎に累計scoreの小さいものからm個の音
韻部分列の探索系列を残すため実施例ではノ−ド1およ
びノ−ド4の音韻部分列は候補として残る。従って、次
の探索として、ノ−ド2、3、5及び6が候補となり、 ノ−ド2での累計score = −3 ノ−ド3での累計score = −7 ノ−ド5での累計score = −7 ノ−ド6での累計score = −9 この場合、ノ−ド3、5が同点であるが、同点の場合は
そのノ−ドでのscore値の小さいほうを優先し、結果と
してノ−ド3、6が候補として残る。
【0060】ここでノ−ド3は分割が終了したので、ノ
−ド3での累計scoreは、常に候補として残る。ノ−ド
2および5からの探索はこれ以上行わない。同様に分割
を繰り返し最終的に残ったノ−ドは、図7より、ノ−ド
3およびノ−ド8となり、それぞれの累積score値は、 ノ−ド3での累計score = −7 ノ−ド8での累計score = −14 であるから、scoreが小さいほうのノ−ド8までの検索
による音韻分割が最適となり、実際の分割は、/−am
eno−/−tame/e−ka−/に決定される。
【0061】次に、図4のステップS21およびS23
の波形整形に関する具体的な処理について説明する。
【0062】マイコン12は、ステップS1511,S
1517およびS1525で決定された分割点に従っ
て、波形読出手段12hは音声波形データベース16に
登録されている単位音声波形を抽出し、波形接続手段1
2gはパワーパターンおよびピッチパターンによってそ
の単位音声波形を整形する。
【0063】単位音声波形の振幅および音韻継続時間長
はパワーパターンpw(t)に従って、また、音程(ピ
ッチ)はピッチパターンpt(t)に従って整形され
る。単位音声波形の振幅制御においては、時刻tにおけ
るpw(t)を基準として振幅ゲインを調整する。音韻
継続時間長および音程制御は、PSOLA法(F.Charpen
tier他、「Pitch-Synchronous Waveform Processing Te
chniques for Text-to-speech Synthesis Using Diphon
es」Proc. Eurospeech ’89を用いる。
【0064】たとえば、音韻記号列/−de/// に対応
する単位音声波形の抽出と波形整形について述べる。音
声波形の分割点に関してより詳しく説明すると、無音部
分割点は無音区間の開始点あるいは終了点に設けられ、
無声音部分割点は無声音区間のほぼ中心に設けられ、そ
して、有声音部分割点は周期性が安定している母音中心
部等の1ピッチ波形の開始点と終了点とにおける右下が
りのゼロクロスポイントに設けられる。
【0065】そして、これらの波形分割点がマーキング
されるとともに、そのマーキングが各々の音声波形の先
頭サンプルから何サンプル目にあるかが、上述のステッ
プS1511,S1517およびS1525でメモリ1
2dに書き込まれる。
【0066】したがって、単位音声波形/−de/// の
波形終端は、音韻記号“e”に相当する音声波形のうち
周波数の安定している1ピッチの終了点であり、この波
形終端までの波形が単位音声波形として抽出される。抽
出された単位音声波形は、前述の方法により波形整形さ
れる。
【0067】このうち、音程制御にあたっては、接続箇
所である1ピッチ波形の終了点を基準時とし、その基準
時の基準ピッチ周期Tをピッチパターンに基づいて算出
する。
【0068】ここで、基準ピッチとは入力文字列に対応
する音韻記号列の当該基準時におけるピッチ周期であ
る。そして、算出された基準ピッチ周期Tにマーキング
された1ピッチ波形のピッチ周期が一致するように単位
音声波形全体をPSOLA法で整形する。
【0069】このとき、次の単位音声波形の接続のため
に、波形整形の後に接続された単位音声波形の波形分割
点は、ステップS23で合成音声波形の始めからのサン
プル数に換算して記憶保持される。
【0070】また、音韻継続時間長の制御にあたって
は、パワーパターンに合わせて、無音区間の補間・削除
またはPSOLA法によって、ピッチが安定している母
音区間における1ピッチ波形を補間または間引きする。
振幅の調整にあたっては、音声単位波形毎にパワーパタ
ーンより導かれる振幅倍率を乗じる。
【0071】続いて、図4のステップS25における波
形接続処理について説明する。有声音区間の接続に関し
ては、互いに接続する単位音声波形の特定の1ピッチが
マーキングされているため、この期間Tにおいて、それ
ぞれの波形に重みをかけて足し合わせることによって、
両波形を接続する。
【0072】すなわち、先行する単位音声波形の特定の
1ピッチに対しては、1から0へ直線的に変化する重み
(窓関数W1=1−i/(T−1)(i=0,1,…,
T−1))をかけ、後行する単位音声波形の特定の1ピ
ッチに対しては、0から1へ直線的に変化する重み(窓
関数W2=i/(T−1))をかけて、両波形を足し合
わせる。また、無音区間の波形接続および無声音区間の
波形接続に関しては、互いに接続する単位音声波形のマ
ーキングされた分割点で単純に接続する。
【0073】たとえば、/−de/// と/// ef//の接
続に関して、図8を用いて説明する。図8(a)は、音
声波形データベース16に登録されている/−de///
(2番目に存在)の音韻記号“e”に相当する波形整形
済みの音声波形の一部分であり、図8(b)は、音声波
形データベース16に登録されている/// ef//(4番
目に存在)の音韻記号“e”に相当する波形整形済みの
音声波形の一部分である。この2つの波形を接続して、
/−def//に相当する合成波形である図8(c)を得
る。
【0074】この場合は有声音区間の波形接続であるの
で、互いに接続する図8(a)、(b)各々の単位音声
波形の1ピッチ分がA、BおよびC、Dでマーキングさ
れており、図の破線で示すように、各々の波形に重みを
付けて足し合わせることにより両者が接続される。この
とき、音声波形の図8(a)、(b)の接続箇所Aから
B、CからDの時間長は、前述の基準ピッチ周期Tにな
るよう波形整形されている。
【0075】次に、たとえば、/// ef//と//fu/の
接続に関して、図9を用いて説明する。
【0076】図9(d)は、音声波形データベース16
に登録されている/// ef//(4番目に存在)の音韻記
号“f”に相当する波形整形済みの音声波形の一部分で
あり、図9(e)は、音声波形データベース16に登録
されている//fu/(3番目に存在)の音韻記号“f”
に相当する波形整形済みの音声波形の一部分である。こ
の2つの波形を接続して、−defu−/の“f”に相
当する合成波形である図9(f)を得る。この場合は、
無声音区間の波形接続であるので、互いに接続する図9
(d)、(e)各々の単位音声波形のマーキングされた
波形分割点E、Fで単純に接続する。
【0077】
【発明の効果】この発明によれば、所定の優先順位で分
割された第1の音韻記号部分列に対応する最適な単位音
声波形が読出手段によって波形メモリから読み出され、
波形接続手段によって接続されるため、音質が優れた合
成音声波形を出力することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示すブロック図であ
る。
【図2】本発明の動作の一部を示すフロー図である。
【図3】音韻記号列、パワーパターンおよびピッチパタ
ーンを示す図解図である。
【図4】本発明の動作の一部を示すフロー図である。
【図5】本発明の動作の一部を示すフロー図である。
【図6】本発明の動作の一部を示すフロー図である。
【図7】本発明の動作の一部を示す木構造図である。
【図8】(a)および(b)は単位音声波形の一部を示
す波形図であり、(c)は合成された音声波形の一部を
示す波形図である。
【図9】(d)および(e)は単位音声波形の一部を示
す波形図であり、(f)は合成された音声波形の一部を
示す波形図である。
【符号の説明】
10 …テキスト音声合成装置 12e…形態素解析手段 12f…分割手段 12g…波形接続手段 12h…波形読出手段 12i…韻律情報生成手段 14 …テキスト解析用辞書 16 …音声波形データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大西 宏樹 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力文字列に対応する第1の音韻記号列
    に含まれる複数の第1の音韻記号部分列に対応する単位
    音声波形を合成して合成音声出力する音声合成装置にお
    いて、第1の音韻記号列を所定の優先順位で複数の第1
    の音韻記号部分列に分割する分割手段と、 前記所定の優先順位で分割された第2の音韻記号部分列
    を含む第2の音韻記号列と前記第2の音韻記号部分列に
    対応する単位音声波形を含む音声波形とを蓄積した波形
    メモリと、第1の音韻記号部分列に対応する単位音声波
    形を前記波形メモリから読み出す波形読出手段と、およ
    び前記波形メモリから読み出された単位音声波形を接続
    して合成音声波形を生成する波形接続手段と、を備える
    ことを特徴とする音声合成装置。
  2. 【請求項2】 前記所定の優先順位の要素として無音
    部、無声音部および有声音部の少なくとも1つを含む、
    請求項1記載の音声合成装置。
  3. 【請求項3】 前記音声合成装置は前記入力文字列に対
    応する韻律情報を生成する韻律情報生成手段を備え、前
    記接続手段は前記単位音声波形を前記韻律情報に従って
    波形整形する波形整形手段を含む、請求項2記載の音声
    合成装置。
  4. 【請求項4】 前記韻律情報はピッチパターンおよびパ
    ワーパターンの少なくとも一方を含む、請求項3記載の
    音声合成装置。
  5. 【請求項5】 前記有声音部で分割された単位音声波形
    を接続するとき、前記接続手段はそれぞれの単位音声波
    形に含まれる1ピッチ分の波形に適当な重み付けをして
    加算する加算手段を含む、請求項2ないし4のいずれか
    に記載の音声合成装置。
  6. 【請求項6】 前記波形メモリから読み出された単位音
    声波形を接続する時、その接続歪みが小さくなるよう
    に、前記第1の音韻記号列を分割する音韻分割点前後の
    音韻の種類が一致するような単位音声波形を選択するこ
    とを特徴とする請求項2記載の音声合成装置。
  7. 【請求項7】 前記波形メモリから読み出された単位音
    声波形を接続する時、前記第1の音韻記号列を分割する
    音韻分割点数が最小になるような単位音声波形を選択す
    ることを特徴とする請求項2記載の音声合成装置。
  8. 【請求項8】 前記波形メモリから読み出された単位音
    声波形を接続する時、その接続歪みが小さくなるよう
    に、その接続点における前後の波形のピッチが所定量以
    上異ならないように前記単位音声波形を選択することを
    特徴とする請求項2ないし4のいずれかに記載の音声合
    成装置。
  9. 【請求項9】 前記波形メモリから読み出された単位音
    声波形を接続する時、その接続歪みが小さくなるよう
    に、前記第1の音韻記号列を分割する音韻分割点の優先
    順位、音韻分割点前後の音韻の種類の一致度、音韻分割
    点数、及び接続点前後の波形のピッチの差を夫々量子化
    し、その量子化された夫々の値に所定の重みを付加した
    評価関数により前記単位音声波形を選択することを特徴
    とする請求項2ないし4のいずれかに記載の音声合成装
    置。
JP03998196A 1995-05-25 1996-02-27 音声合成装置 Expired - Fee Related JP3583852B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03998196A JP3583852B2 (ja) 1995-05-25 1996-02-27 音声合成装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-126491 1995-05-25
JP12649195 1995-05-25
JP03998196A JP3583852B2 (ja) 1995-05-25 1996-02-27 音声合成装置

Publications (2)

Publication Number Publication Date
JPH0944191A true JPH0944191A (ja) 1997-02-14
JP3583852B2 JP3583852B2 (ja) 2004-11-04

Family

ID=26379391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03998196A Expired - Fee Related JP3583852B2 (ja) 1995-05-25 1996-02-27 音声合成装置

Country Status (1)

Country Link
JP (1) JP3583852B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
JP2015152790A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP4574333B2 (ja) * 2004-11-17 2010-11-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
JP2015152790A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP3583852B2 (ja) 2004-11-04

Similar Documents

Publication Publication Date Title
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JPH031200A (ja) 規則型音声合成装置
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US6212501B1 (en) Speech synthesis apparatus and method
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP3583852B2 (ja) 音声合成装置
JP3281266B2 (ja) 音声合成方法及び装置
KR20010018064A (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JPS6050600A (ja) 規則合成方式
JPH08335096A (ja) テキスト音声合成装置
JP3060276B2 (ja) 音声合成装置
JP2536169B2 (ja) 規則型音声合成装置
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
JPH09319394A (ja) 音声合成方法
EP1589524B1 (en) Method and device for speech synthesis
JP3081300B2 (ja) 残差駆動型音声合成装置
EP1640968A1 (en) Method and device for speech synthesis
JP3302874B2 (ja) 音声合成方式
JPH1097290A (ja) 音声合成装置
JP3522005B2 (ja) 音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3297221B2 (ja) 音韻継続時間長制御方式
Janicki et al. Taking advantage of pronunciation variation in unit selection speech synthesis for Polish

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees