JP3035939B2

JP3035939B2 - 音声分析合成装置

Info

Publication number: JP3035939B2
Application number: JP1310926A
Authority: JP
Inventors: 幸夫三留
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-11-30
Filing date: 1989-11-30
Publication date: 2000-04-24
Anticipated expiration: 2015-04-24
Also published as: JPH03171100A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声を分析し合成する装置に関し、特に声
帯波形を音源として用いる音声分析合成装置に関する。

〔従来の技術〕

人間が発声した音声を分析して子音や母音の組合せか
らなる単位音声データを作成し、それを編集して任意の
音声を合成する音声規則合成では、分析時には音声音の
ピッチを変化させる必要がある。線形予測分析を用いて
得られたデータを合成フィルタの係数として与え、イン
パルス音源で駆動する方法によるものは、ピッチ変化の
制御は容易であるが音質が十分でない。

そこで、有声音の音源として、単なるインパルスでは
なく声帯波形をモデル化したものを用いるものが提案さ
れており、これは制御が容易であるうえに音質も比較的
自然である。このようなモデルに基づいた音声の分析合
成の第１の例としては、藤崎らによって、電子情報通信
学会論文誌Ｊ−72D II、No.8の1109ページから1117ペー
ジに示された、“声帯音源波形の新しいモデルとその音
声分析への応用”と題する論文がある。この第１の従来
例では、声帯波形の１周期を４つの区間に分け、それぞ
れを２次ないし３次の曲線でモデル化したものであり、
６個程度のパラメータでモデル化できる。以前から知ら
れている線形予測法では、声帯と声道のパラメータを分
離して分析することができなかったのに対し、この第１
の従来例の分析合成によって音声を分析すれば、声帯波
形と声道の特性を表すパラメータを抽出できる。

一方、第２の例として、声道の特性を推定し、その逆
特性を有するフィルタで音声信号をフィルタリングし、
声帯音源波形を抽出する方法が、アイ・イー・イー・イ
ートランザクション、エイ・エス・エス・ピー・27、
ナンバー４（IEEE Trans.ASSP−27 No.4）に掲載され
たディー・ワイ・ウォン（D.Y.Wong）による論文“リー
ストスクエアーズグロッタルインバースフィル
タリングフロムアコースティックスピーチウェ
イブフォ−ム（Least Squares Glottal Inverse Fi
ltering from the Acoustic Speech Waveform）”
に示されている。この例では、声道の特性を共分散法と
呼ばれる線形予測分析によって推定し、その線形予測係
数を零回路の係数とするフィルタを用いて音声をフィル
タリングし、声帯波形を抽出している。

〔発明が解決しようとする課題〕

第１の従来例では、音源波形をいくつかのパラメータ
でモデル化しているから規則によって制御しやすいとい
う特徴がある。しかし、実際の音声波形は２次曲線や３
次曲線で近似できるほど単純ではないので、単なるイン
パルスを音源とするものよりは音質が良いものの、まだ
不十分である。

これに対し、第２従来例の逆フィルタリングによって
得られた声帯波形は、それをそのまま合成の音源として
用いるならば、原音声波形が忠実に再現できるが、声道
特性の分析の不完全さなどの理由から、声帯の閉鎖区間
に微少ではあるが複雑な形状の信号成分が残っているの
で、歪を生じさせずにピッチ周期を変化させて音声を合
成することが難しい。また、声門が開いている区間に相
当する声帯パルス波形にも微少な雑音が重なって抽出さ
れるためその成分も音質を劣化させる。このように従来
の音声分析合成装置には得られる音声の質に関し解決す
べき課題があった。

本発明の目的は、自然で歪の少ない合成音が得られる
音声分析合成装置を提供することにある。

〔課題を解決するための手段〕

前述の課題を解決するために本願の第１の発明が提供
する手段は、声帯波形を音源として用いる型の音声分析
合成装置であって、声道の伝達特性を推定する手段と、声道の伝達特性の
逆フィルタと、この逆フィルタで音声をフィルタリング
して得られた信号から声帯パルス波形と閉鎖区間を抽出
する手段と、閉鎖区間の波形を予め用意された信号で置
き換えたものを音源として生成する手段と、合成フィル
タとを有し、この合成フィルタは、前記音源生成手段で生成された
音源を、前記声道伝達特性推定手段で推定された伝達特
性を設定してフィルタリングして音声を合成することを特徴とする。

また、前述の課題を解決するために本願の第２の発明
が提供する音声分析合成装置は、声帯波形を音源として
用いる型の音声分析合成装置であって、声道の伝達特性を推定する手段と、声道の伝達特性の
逆フィルタと、この逆フィルタで音声をフィルタリング
して得られた信号から声帯パルス波形と閉鎖区間を抽出
する手段と、この声帯パルス波形をフーリエ変換して該
声帯パルス波形信号のスペクトルを算出する手段と、そ
のスペクトルをスムージングする手段と、そのスムージ
ングされたスペクトルのフーリエ逆変換により得た波形
を用いて音源を生成する手段と、合成フィルタと有し、この合成フィルタは、前記音源生成手段で生成された
音源を、前記声道伝達特性推定手段で推定された伝達特
性を設定した合成フィルタでフィルタリングして音声を
合成することを特徴とする。

〔作用〕

有声の音声は、声帯のパルス波形を声道の伝達特性で
フィルタリングしされに唇での放射特性に相当するフィ
ルタを通って生成されると考えられる。唇での放射特性
が微分特性であるから、推定された声道の特性の逆特性
でフィルタリングして得られる信号は、声帯音源波形の
微分波形（ディジタル信号処理では差分波形）である
（これを逆フィルタリングによる声帯波形の微分波形と
呼ぶことにする）。従って声帯波形は、その声帯波形の
微分波形を積分器（ディジタル信号処理では逐次総和を
取る回路）に通して得られる（これを逆フィルタリング
による声帯波形と呼ぶことにする）。

声帯パルスは、その逆フィルタリングによる声帯波形
の１ピッチ周期の区間内のピークを検出し、その前後の
ゼロクロス位置を検出することによって抽出できる。ま
た、声帯波形の閉鎖区間は、前記のようにして抽出され
た声帯パルスの間として抽出される。

前述のように、このようにして得られた声帯波形は、
閉鎖区間にも信号が残されているのでピッチ制御が難し
いといった問題があった。

本願の第１の発明においては、逆フィルタリングして
得られた声帯波形の閉鎖区間を検出し、閉鎖区間の波形
を予め用意された信号で置き換えたものを音源として音
声を合成する。ここで、置き換える信号としては、閉鎖
区間全てをゼロにするものや、負の値で、一旦振幅がわ
ずかに増加してその後短時間の間に振幅が減衰してゼロ
になる波形等が考えられ、従来音声音源波形のモデルと
して提案されているものの閉鎖区間の部分を使うことが
できる。このようにして生成された音源波形は、波形パ
ルスの部分は自然音声から抽出されたものなので自然な
合成音が得られ、閉鎖区間はモデルによる人工的な信号
であるのでピッチの制御が容易である。

また本願第２の発明は、音声を逆フィルタリングして
得られた信号から声帯パルス波形を抽出し、高速フーリ
エ変換器等を用いて、その声帯パルス波形のスペクトル
を算出し、そのスペクトルをスムージングしたものをフ
ーリエ逆変換した波形を音源として音声を生成する。ス
ムージングの方法としては、従来からよく知られている
二乗誤差を最小にする多項式近似法などを利用すること
ができる。このようにこの発明では周波数領域でスムー
ジングするため音源の持つスペクトルの根本的形状は保
存される上、雑音成分を取り除くことができる。

〔実施例〕

次に、図面を参照して本発明の実施例を説明する。

第１図は、本願の第１の発明の実施例を示すブロック
図である。

図において、１は入力バッファ、２は声道特性分析
器、３は声道逆フィルタ、４は声帯パルス抽出器、５は
音源生成回路、６は合成フィルタである。

入力バッファ１は信号線101から入力された音声を一
時記憶し、信号線104を介して声道特性分析器２および
声道逆フィルタ３へ送る。

声道特性分析器２は、前記第１の従来例と同様にし
て、入力バッファ１から信号線104を通じて送られる音
声を分析して声道の伝達特性を表すパラメータ値を抽出
し、そのデータを信号線105へと出力する回路である。
この分析器における音声を生成する声道モデルは全極型
のフィルタ回路であり、パラメータはその全極フィルタ
の係数である。

声道逆フィルタ３は、全零型のフィルタ回路で、声道
特性分析器２で抽出されて信号線105を介して送られる
パラメータ値をそのまま全零型のフィルタ係数に与える
ように制御される。このように係数を設定された声道逆
フィルタ３は、前記の入力バッファ１に記憶されている
音声をフィルタリングして声帯音源波形の微分波形を信
号線106に出力する。

声帯パルス抽出器４は、声道逆フィルタ３で得られた
声帯音源波形の微分波形を積分し、その１ピッチ周期の
区間内のピークを検出し、その前後のゼロクロス位置を
検出して声帯パルスを抽出し、この声帯パルスの間を声
帯波形の閉鎖区間として抽出し、信号線107へと送出す
る。

音源生成回路５は、声帯パルス抽出器４において抽出
された前記の声帯パルスを受け取り、信号線102から入
力されるピッチ情報に基づいてそのパルスの間隔を制御
し、その間を零にして声帯音源波形を生成し、さらに唇
の放射特性である微分回路（ディジタル信号処理では差
分回路を用いる）を通して合成のための音源波形を生成
し信号線108を介して合成フィルタ６へ送る。なお、前
述のように閉鎖区間のモデルとしては、零でない値を持
つ波形モデルの信号も利用できる。

合成フィルタ６は、前記の声道特性分析器２における
声道モデルを実現する全極型のフィルタ回路であり、声
道特性分析器２で得られたパラメータ値を係数とし、音
源生成回路５から送られる音源をフィルタリングして音
声を生成し信号線103へと出力する。

なお、本実施例は有声の音声のピッチを制御して合成
するもので、この出力をさらに、無声の音声と組み合わ
せて最終的な合成音声が生成される。その無声音はピッ
チを制御する必要がないので、従来から知られた装置を
利用することができる。

第２図は、本願の第２の発明の実施例を示すブロック
図である。図において、１は入力バッファ、２は声道特
性分析器、３は声道逆フィルタ、４は声帯パルス抽出
器、５は音源生成回路、６は合成フィルタ、７はフーリ
エ変換器、８はスペクトルスムージンク回路、９はフー
リエ逆変換器である。これらのうち、入力バッファ１、
声道特性分析器２、声道逆フィルタ３、声帯パルス抽出
器４および合成フィルタ６は、それぞれ第１の実施例と
同様の動作をする。

フーリエ変換器７は、声帯パルス抽出器４で抽出され
て信号線107を介して送られる声帯パルス波形のフーリ
エ変換を算出し信号線109に出力する回路で、よく知ら
れた高速フーリエ変換回路で実現される。

スペクトルスムージンク回路８は、二乗誤差を最小に
する多項式近似により、スペクトルの微少な誤差成分を
取り除き、滑らかなスペクトル形状を抽出して信号線11
0を介してフーリエ逆変換器９へ送出する。

フーリエ逆変換器９は、スペクトルスムージング回路
８で抽出された滑らかなスペクトルに対しフーリエ逆変
換を行い、スペクトルをスムージングされた音源パルス
波形を算出し、信号線111を介して音源生成回路５へ送
出する回路で、これも高速フーリエ変換回路で実現され
る。

音源生成回路５は、スペクトルをスムージングされた
音源パルス波形を基に、信号線102から送られるピッチ
情報に基づいてそのパルスの間隔を制御し、その波形の
微分（差分）をもとめて音決波形を生成する。

合成フィルタ６は、前記の声道特性分析器２における
声道モデルを実現する全極型のフィルタ回路であり、声
道特性分析器２で得られたパラメータ値を係数とし、音
源生成回路５から送られる音源をフィルタリングして音
声を生成し、信号線103へ出力する。

〔発明の効果〕

以上に説明したように、本願の第１の発明では、自然
音声を分析して得られた声帯パルスを音源に用いるか
ら、自然な合成音が得られる上にピッチの制御が容易で
ある。また、本願の第２の発明では、声帯パルス波形の
スペクトルをスムージングした音源を用いるので、雑音
が少ない上、従来のように単純なモデルでは実現できな
かった自然な合成音声が得られる。このように、本願の
発明によれば、従来の装置より音質に優れより自然な合
成音を得ることができる。

【図面の簡単な説明】

第１図は、本願の第１の発明の実施例を示すブロック
図、第２図は、本願の第２の発明の実施例を示すブロッ
ク図である。図において、１は入力バッファ、２は声道特性分析器、
３は声道逆フィルタ、４は声帯パルス抽出器、５は音源
生成回路、６は合成フィルタ、７はフーリエ変換器、８
はスペクトルスムージング回路、９はフーリエ逆変換器
をそれぞれ表す。

フロントページの続き (56)参考文献特開昭58−145994（ＪＰ，Ａ) ・Ｓ．ＰＡＲＴＨＡＳＡＲＡＴＨＹ. ｅｔａｌ，”Ｅｘｃｉｔａｔｉｏｎ− ＳｙｎｃｈｒｏｎｏｕｓＭｏｄｅｌｉｎｇｏｆＶｏｉｃｅｄＳｐｅｅｃｈ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＡＳＳＰ−35 Ｎｏ. ９，Ｓｅｐｔｅｍｂｅｒ 1987，ｐｐ 1241−1249 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】声帯波形を音源として用いる型の音声分析
合成装置において、声道の伝達特性を推定する手段と、声道の伝達特性の逆
フィルタと、この逆フィルタで音声をフィルタリングし
て得られた信号から声帯パルス波形と閉鎖区間を抽出す
る手段と、閉鎖区間の波形を予め用意された信号で置換
えたものを音源として生成する手段と、合成フィルタと
を有し、この合成フィルタは、前記音源生成手段で生成された音
源を、前記声道伝達特性推定手段で推定された伝達特性
を設定した合成フィルタでフィルタリングして音声を合
成することを特徴とする音声分析合成装置。
【請求項２】声帯波形を音源として用いる型の音声分析
合成装置において、声道の伝達特性を推定する手段と、声道の伝達特性の逆
フィルタと、この逆フィルタで音声をフィルタリングし
て得られた信号から声帯パルス波形と閉鎖区間を抽出す
る手段と、この声帯パルス波形をフーリエ変換して該声
帯パルス波形信号のスペクトルを算出する手段と、その
スペクトルをスムージングする手段と、そのスムージン
グされたスペクトルのフーリエ逆変換により得た波形を
用いて音源を生成する手段と、合成フィルタとを有し、この合成フィルタは、前記音源生成手段で生成された音
源を、前記声道伝達特性推定手段で推定された伝達特性
を設定した合成フィルタでフィルタリングして音声を合
成することを特徴とする音声分析合成装置。