JPH09510554A - 言語合成 - Google Patents
言語合成Info
- Publication number
- JPH09510554A JPH09510554A JP7524461A JP52446195A JPH09510554A JP H09510554 A JPH09510554 A JP H09510554A JP 7524461 A JP7524461 A JP 7524461A JP 52446195 A JP52446195 A JP 52446195A JP H09510554 A JPH09510554 A JP H09510554A
- Authority
- JP
- Japan
- Prior art keywords
- language
- pitch
- signal
- stimulus
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 17
- 238000003786 synthesis reaction Methods 0.000 title claims description 17
- 230000003595 spectral effect Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 11
- 230000000638 stimulation Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000008602 contraction Effects 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 abstract description 3
- 239000011295 pitch Substances 0.000 description 93
- 238000000034 method Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 11
- 238000012952 Resampling Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006837 decompression Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011318 synthetic pitch Substances 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
(57)【要約】
合成した言語信号のピッチが言語信号をスペクトル成分と刺激成分とに分けることによって変えられる。後者は、有声言語の場合には、発声刺激の瞬間と少くともほぼ一致して、対応するピッチタイミングマーク信号と同期している一連の重なっている窓関数と乗算されて、窓がけされた言語セグメントに分けられ、このセグメントが制御可能な時間シフトを加えられた後に再び一緒に加算される。スペクトル及び刺激成分は次に再結合される。乗算はピッチ当り少くとも2つの窓を採用し、その各々は1ピッチ期間よりも短い期間を有している。あるいは代って、各窓がタイミングマークの間のピッチ期間の2倍よりも短い期間を有し、タイミングマークに対して非対称とする。
Description
【発明の詳細な説明】
言語合成
この発明は、(例えば符号化されたテキスト入力からの)言語(speech)の自
動生成に関する。とくに、分析・合成方法に係り、ここでは“合成”(synthetic
)言語がもともとはヒトの話者から得られた記憶してある言語波形から生成され
る(“規則による合成”(synthesis by rule)システムに対抗するものである)
。自然な音の響きをもつ言語を生成するためには、合成言語にあっては、ヒトの
言語で発生するのと同類のイントネーションの脈絡に依存する(韻律的:prosod
ic)変化を作り出す必要がある。この発明は、作ろうとしているピッチの変化を
規定する韻律的情報の生成を前もって推定し、このようなピッチを得るために言
語信号を処理する問題を手がけるものである。(Speech synthesisは音声合成と
訳されることが多いがvoice と区別するためにspeechを言語と訳すこととした。
)
ピッチ調整のための一方法は“Diphone Synthesis Using an Overlap-add Tec
hnique for Speech Waveform Concatenation”,F.J.Charpentier and M.
G.Stella,Proc.Int.Conf.ASSP,IEEE,Tokyo,1986,pp.2015-2018.に記
述されている。
ジフォン(diphone:二音)をそれぞれ表わす言語波形の部分がピッチマーク(p
itchmark)に従って記憶され、ピッチマークは(有声言語に対して)波形の各ピ
ッチ期間の最大ピークと時間的に一致し、したがって話者の声門閉鎖(glottal c
losure)の瞬間と大まかに対応する;あるいは無声言語に対しては任意的なもの
となる。
使用対象の波形部分は、ピッチ期間の3倍に等しい長さをもつHamming 窓を用
いて重なり合ったセグメント(区分)に分けられる。全体のスペクトルエンベロ
ープがその波形について得られ、また短期間のスペクトルエンベロープが離散的
なFourier 変換を用いて得られる。“ソース(源)成分”がスペクトルエンベロ
ープで割った短期間スペクトラムとして求められる。このソース成分は次にその
ピッチを線形補間過程によって修正し、エンベロープ情報と再結合される。この
ような前処理の後に、セグメントは重畳加算過程(overlap-add
process)によって連結されて所望の基本ピッチが求められる。
別な提案は周波数領域前処理を不要とし、ピッチ周期継続期間の2倍のHammin
g 窓を使用する(“A Diphone Synthesis System based on Time−domain Prosod
ic Modification of Speech”,C.Hamon,E.Moulines and F.Charpentier,Int
.Conf.ASSP,Glasgow,1989,pp.238-241)。
完全な言語信号に対して時間領域重畳加算過程を適用する代りとして、刺激成
分を加えることができる。たとえばレシデュアル(誤差)信号(もしくはそのパ
ラメトリック(助変数)表現)を作るためにLPC解析を用い、さらにLPC合
成フィルタを通す前にレシデュアルに対して重畳加算過程を適用する(“Pitch-
synchronous Waveform Processing Techniques for Text-to Speech Synthesis
using Diphones",F.Charpentier and E.Moulines,European Conference on Sp
eech Communications and Technology,Paris,1989,vol.II.pp.13-19)。
重畳加算過程の基本原理を図1に示し、そこでは言語信号Sが示されていて、
ピッチマークPが刺激ピークの中心にある;信号は窓かけ用波形W(そのうちの
2つだけを図示)による乗算によって重なったセグメントに分けられている。合
成された波形はセグメントが時間シフトを組入れて一緒に加算されて作られ、あ
るセグメントがそれぞれ時として除去されたり繰返されたりしてピッチをもち上
げたり、低くしたりするようにしている。
この発明によると、言語合成装置であって、そこで合成された言語信号のピッ
チを変えるように制御できる手段を備えたものが用意され、次のものを具備して
いる:
(i) 言語信号をスペクトル成分と刺激成分とに分離するための手段
(ii) 刺激成分に一連の重なった窓関数を乗算するための手段。この窓関数
は、有声言語の場合には、少くとも発声刺激の瞬間とほぼ一致した対応をもつピ
ッチタイミングマーク情報と同期しているものとする。
(iii) セグメントに対して制御可能な時間シフトを与えて、それらを一緒に
加算するための手段
(iv) スペクトル及び刺激成分を再結合するための手段。ここでは乗算手
段が1つのピッチ期間(周期)当り少くとも2つの窓を採用し、その各々は1ピ
ッチ期間(周期)よりも短い期間をもつようにしている。好ましくは、窓の構成
は、第1の窓で1ピッチ期間に1つあってタイミングマーク部分を包含したもの
と、複数の中間窓とがあり、この中間窓の各々は第1の窓よりも幅が小さいよう
にする。
この発明の別な特徴によれば、言語合成装置であって、そこで合成された言語
信号のピッチを変えるように制御可能な手段を備えたものが用意され、かつ次の
手段を備えている。
(i) 言語信号をスペクトル成分と刺激成分とに分けるための手段
(ii) 入力信号サンプルから新しい信号サンプルを補間することによって、
刺激成分の時間的な圧縮/伸長をするための手段、及び
(iii) スペクトル及び刺激成分を再結合するための手段であって、そこでは
乗算手段が1ピッチ期間当り少くとも2つの窓を採用し、各窓は1ピッチ期間よ
りも短い期間をもつようにしたもの。好ましくは、圧縮/伸長手段は有声刺激の
瞬間と、少くともほぼ一致した、対応をもつタイミングマーク情報に応答して動
作し、それと同期をとりながら圧縮/伸長の程度を変えて、刺激信号が2つの連
続するタイミングマークの間のピッチ期間の中心にあるよりもタイミングマーク
の近くにあるときの方がわずかな程度で圧縮/伸長されるようにする。
この発明のいくつかの実施例を図面を参照して記述して行く。
図2はこの発明による合成装置の一形態の構成図である。
図3及び5は重畳加算ピッチ調整の2つの方法を示すタイミング図である。
図4はスペクトル解析を目的とした言語信号の窓かけを示すタイミング図であ
る。
図2の装置ではディジタル言語波形Sの一部が記憶部100内に記憶され、各
々には前述のように対応するピッチマークタイミング情報Pが備えられている。
波形部分はテキスト対言語ドライバ101(必要な記憶アドレスを作る)の制御
の下に読取られる。ドライバ101の動作は通常のもので、ピッチ情報PPも作
るという点を指摘するにとどめておく。波形部分のうちの刺激及び発
声トラクト成分(excitation and vocal tract components)で記憶部100から
読取られたものはLPC解析ユニット102によって分離され、そこでは言語波
形部分の周波数スペクトラムと類似の周波数応答を有する合成フィルタの係数が
定期的に作られる。これが合成フィルタの逆である解析フィルタ103(インバ
ースフィルタ)を駆動して、レシデュアル(誤差)信号Rをその出力として送出
する。
後述するように、LPC解析と逆フィルタとの動作はピッチマークPと同期し
ている。
過程の次の段階はレシデュアル信号のピッチを修正する過程である。有声言語
セグメントに対しては、これは複数窓方式によって実行され、そこではレシデュ
アル信号が処理ユニット104内で、1ピッチ期間に少くとも2つの、一連の重
なった窓関数を乗算することにより、セグメントに分けられる;図3では5つを
示してあり、そこではピッチ期間の中心にある1つの台形の窓と、4つの中間の
三角形の窓とが示されている。ピッチ期間窓は中間の窓のよりも幾分幅広で、ピ
ッチを下げるときに主たる刺激の重複を避けるようにしている。
ピッチを上げるときは、窓がけしたセグメントを一緒に加算するが、時間間隔
は小さくするのであり、図3の下部に示してある。もしピッチを下げるのであれ
ば、時間間隔を増す。いずれの場合も、相対的な窓の幅は正しい信号振幅が確か
に得るために、合成の際に傾斜のわきの重なりが得られるように(すなわち、中
間の窓で50%の重なりがあるように)選ばれる。時間的な調整は信号PPによ
って制御される。中間の窓に対する典型的な幅は2msであり、ピッチマーク上
に位置する窓の幅は特別な信号のピッチ期間に依存することになるが、2ないし
10msの範囲となることが好ましい。複数の窓を使うことは1ピッチ期間で1
つの窓を使用するのと比べて位相ひずみを減らすと考えられる。時間的な処理の
後に、レシデュアル(誤差)がLPCフィルタ105に送られて、所望の言語信
号を再形成する。
記憶部100にはまた各波形部分に対する有声/無声表示器が含まれ、無声部
分はユニット104と同一のピッチユニット104′によって処理されるが、L
PC解析と合成とをバイパスしている。2つの経路間の切替えが106で制
御されている。他に、無声部分は有声部分と同じ経路をとることができる。いず
れの場合も、ピッチマークに対しては任意の位置がとられる。
レシデュアルに対する重畳加算に代って、他のアルゴリズムが開発されており
、レシデュアルの形を保存し、さらにシフトと重畳加算から生じ得る位相ひずみ
を低減させることを意図している。基本的原理はオープンフェーズ(開相)(換
言すれば、ピッチマーク間の波形の一部で、ピッチマークの近くの重要な情報を
不変のままとしているもの)を再サンプリングし、閉じたところに注入された高
周波を保存し、さらに刺激期間に一層現実的な全体波形をもたせるようにしてピ
ッチ期間を変えることである。一般には期間の80%を再サンプリングすること
ができる。
再サンプリングは各サンプリング瞬間をもとのサンプリングレートで時間軸上
の新しい点に写像することによって達成される。次に、再サンプルされた信号に
対する各サンプリング瞬間の信号振幅が2つの直近に写像されたサンプル間の線
形補間によって推定される。線形補間は再サンプリングにとって理想的ではない
が、実現が簡単であり、かつ、少くともこの技術がどんなに有用であるかを示す
ことにはなる。ピッチ期間を減らすダウンサンプリングの場合は、信号はエーリ
エーシングを避けるために低域濾波されねばならない。始めは窓設計法を用いて
別個のフィルタが各ピッチ期間用に設計されていたが、結果として、計算を減ら
すために一覧表によって生成することができるようになった。
さらに精細なものとするために、再サンプリング因子を処理されるセグメント
にわたって滑らかに変えて、境界での信号特性における鋭い変化を避けるように
処理される。これなしには、信号の効率的なサンプリングレートは段階の変更を
容認しなければならない。正弦波関数が使用され、平滑化の程度が制御可能とさ
れる。可変再サンプリングは次の式によって写像過程で実施される。
ここで、Mはもとの信号のサンプル数
Nは新信号のサンプル数
α=[0,1]は平滑化の程度を制御する
T(n)は再サンプリングした信号のn番目のサンプルの位置
である。
このやり方と単一窓重畳加算との主たる相違は、ピッチ期間の変化が時間シフ
トしたセグメントの重畳加算なしに達成されることである。ただし、合成ピッチ
マークが連続する解析ピッチマークに写像されることを条件とする。もしピッチ
マークが連続していないと、再サンプリング後に滑らかな信号を与えるようにす
るために、重畳加算が依然として必要となる。期間が重複したり、必要な期間を
提供し損ねたりするときにこれが生ずる。
別な実施では各ピッチ期間の選択した部分よりもむしろ全体の信号を再サンプ
リングすることが行なわれる。これはエーリエーシングを妨げるために適切なフ
ィルタをかけることをすればピッチを上げるのに問題はなく、その理由は調和の
とれた構造が依然として全周波数範囲を支配していることによる。しかし、ピッ
チを下げるときは、補間は、スペクトラムの高い端でのギャップを残す電話への
応用をねらった実用システムでは、4kHzよりも大きな帯域幅(例えば6kH
z)で言語を記憶し処理することによってこの効果を最小とすることができる。
“失なわれた”高周波数は電話帯域のほとんど外にあることになるから、さして
問題はなくなる。
どちらの種類の再サンプリング技術も補間/デシメーションと関係する大量の
計算が必要となり、とくに再サンプリング因子が2つの整数の比でない場合はそ
のようになる。DSP技術の継続的な発展によって、この技術はさらに魅力のあ
るものとなろう。
上述のLPC解析に戻ると、これはピッチマーキングと同期することとなり、
とくに、一組のLPCパラメータが言語信号内の各ピッチマークに対して必要と
される。言語修正過程の一環として、もとのピッチマークと修正されたピッチマ
ークとの間で写像(マッピング)が行なわれる。その後、レシデュアルから言語
を再合成するために、適当なLPCパラメータが各修正されたピッチマ
ークに対して選ばれることになる。
LPC技術では、フレーム境界におけるパラメータの突然の変化に起因して合
成された言語内に不連続が生じ得る。これがクリック(カチッ),ポップ(ポン
)及び一般に言う荒い音質を生じ、このいずれもが認識の妨げとなる。こういっ
た効果を最小とするためにLPCパラメータは解析と合成の両方のフェーズ(相
)での言語サンプリングレートで補間される。
LPC解析は通常の方法のいずれかを用いて実行でき、共分散(covariance)
もしくは安定化した共分散(stabilised covariance)方法を用いるときは、L
PCパラメータの各組はピッチ期間と等しい長さの言語部分の一部(解析フレー
ム)に対して求められる(ピッチマーク上ではなくピッチ期間の中点に中心を置
くものとする)。あるいはもっと長い、重なった部分が使われ、この場合はピッ
チに従った固定長の解析フレームを使うことが許されるという利点がある。
代って、自己相関法(autocorrelation method)では、窓がけ解析フレームが
好ましく、図4にそれを示した。
図4のフレームは明瞭にするために三角形の窓をもつものとして示してあるが
、実際には窓関数の選定は使用する解析方法に依存する。例えばHamming 窓を用
いてもよい。フレーム中心はピッチマークではなく、ピッチ期間の中心に合わせ
る。この目的は、短いフレームでの閉じたフェーズの解析に頼らずにLPC解析
での声門刺激(glottal excitation)の影響を低減するためである。その結果、
各パラメータ組はピッチマークではなく期間の中心を基準とすることになる。フ
レーム長は固定されるが、その理由はこの方がピッチ依存値よりも一層堅実な結
果が得られることが判明したことによる。
短いフレーム長では、安定化した共分散方法が正確さの点で好ましい。より長
いフレームを使うと3つの方法の間の認知の上での差が観察されないから、計算
上効率がよく、安定した合成フィルタが確実に得られる自己相関方法が好ましい
こととなる。
LPCパラメータを決定すると、次の段階はピッチ同期に基づいて言語に逆フ
ィルタをかけることである。上述のように、パラメータは補間されて、フレ
ーム境界におけるパラメータ値の大きな変化に起因する過渡現象を最小とする。
各ピッチ期間の中心では、フィルタは解析から得られたものと正確に対応する。
連続する期間中心間の各サンプリング瞬間では、フィルタは解析から得られた2
つのフィルタの重みづけした組合せである。好ましくは、補間がフィルタ係数に
対して直接適用されるようにする。これが他のパラメータ(LARとかLSPな
どのもの)よりもスペクトルひずみを少なくすることは知られているが、安定し
た補間フィルタが得られることは保証されてはいない。実際には不安定の問題は
生じていない。
サンプルnについて、フィルタ係数は次式で与えられ、
an(i)=αnal(i)+(1−αn)ar(i),
i=0,…,p
ここでpはLPC解析の次数であり、αnはサンプルn.al及びarにおける重
みづけ関数の値である。alとarとは直近の左と右の期間中心を基準としたパラ
メータ組を表わす。フィルタ係数の滑らかな変遷を確かなものとするために、重
みづけ関数は継続する期間中心間の持ち上げた半余弦(raised half-cosine)で
あり、次式で与えられ、
α(i)=0.5+0.5cos(πi/N),
i=0,…,N−1
ただしNは期間中心間距離であり、各期間の中心に対応している。
再合成フィルタ105用のフィルタ係数は逆フィルタに対するのと同じ方法で
計算される。ピッチと継続期間とに対する修正は、フィルタのシーケンスと期間
値とが解析で使われたものとは異なるが、補間がなおサンプル対サンプルからの
フィルタ係数において滑らかな変化を確かにもたらしていることを意味している
。有声セグメントにおける第1のピッチマークに対して、フィルタ作用はピッチ
マークで始まり、期間中心に達するまで補間は適用されない。有声セグメント内
の最後のピッチマークに対して、解析フレームを位置決めするために許される最
大値を期間と仮定し、フィルタ作用をピッチマークで止める。このフィルタ作用
条件は解析と再合成との両方に適用される。第1のピッチマークからの再合成の
際に、フィルタメモリは先行する信号サンプルからの初期
化が行なわれる。
ピッチ調整104のさらにまた別な実施例として、単一窓の重畳加算過程を使
用する。しかしこの場合は、窓幅が2ピッチ周期継続期間よりも小さい(望まし
くは1.7よりも小さく、例えば1.25ないし1.6の範囲にある)。100
%の重なりよりも小さくすると(すなわちいずれの側も50%とすると)、窓関
数は必然的に平坦な上部をもち、さらにピッチマークに対して好ましくは非対称
に位置するようになる(好ましくは2ピッチマーク間の全期間に包含する)。典
型的な窓関数を図5に示し、平坦な上部は合成ピッチ期間と等しい長さを有し、
かつ、持ち上げられた半余弦もしくは線形形状の側部を有している。
上述のように継続期間を制限された窓では、ピッチを下げるときに問題をはら
んでいる。合成ピッチマーマー力が十分に離れているときは、窓は全く重ならな
いし、この状態は標準ピッチ同期重畳加算の場合よりも短い窓の場合の方がすぐ
に発生する。その効果は合成言語に幾分かバジイ(ブンブン)という音質をもた
らすが、これはTTSシステムでかなり極端なピッチの低下を要求するときだけ
生ずるものである。ピッチの低下は一般にはピッチの上昇よりも一層むずかしい
ものであることに変りはなく、既存のデータを除去するのではなく、失なわれた
データを生成する必要があることによる。ピッチを上げるときは修正した窓が、
少ない重なり期間が原因して、よい結果をもたらし、従って、信号がひずむ間隔
が短い。
この窓の形が有利なものとされるのは、信号のわずかな時間部分が長い窓によ
る場合よりも重畳加算過程で作られることにより、また、非対称形状がピッチ期
間の終りに対して重畳加算ひずみを加え、その部分では言語(音声)のエネルギ
ーが声門刺激直後よりも近いところとなっている。
再サンプリングと複数窓のピッチ制御との使用が(図2に示すように)レシデ
ュアル(誤差)信号に対して作用することが(フォルマントのひずみを避けるた
めに)予想されているが、しかし、短い非対称窓方法もまたスペクトラム端刺激
を分離することなく、直接言語信号に対して採用されるのであって、この場合は
図2の解析ユニット102とフィルタ103,105は除去され、記
憶部100からの言語信号が直接にピッチユニット104,104′に加えられ
る。
【手続補正書】特許法第184条の8
【提出日】1996年4月2日
【補正内容】
請求の範囲
1.そこで合成される言語信号のピッチを変えるように制御可能な手段を備え
た言語合成装置であって、
(i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、
(ii)有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッ
チタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に
乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、
(iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一
緒に加算する手段と、
(iv)スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗
算手段がピッチ期間当り少くとも2つの窓を採用し、その各々が1ピッチ期間よ
りも短い継続期間をもつことを特徴とする言語合成装置。
2.窓はピッチ期間当り1つの第1の窓であってタイミングマーク位置を包含
するものと、複数の中間窓とで成る請求項1記載の言語合成装置。
3.中間窓の各々は第1の窓よりも小さな幅である請求項2記載の言語合成装
置。
4.そこで合成される言語信号のピッチを変えるように制御可能な手段を含ん
だ言語合成装置であって、
(i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、
(ii)入力信号サンプルから新しい信号サンプルを補間することによって刺激
成分の時間的な圧縮/伸長をするための手段と、
(iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴
とする言語合成装置。
5.圧縮/伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミング
マーク情報に応答するように動作し、それと同期して圧縮/伸長の程度を変えて
刺激信号が2つの連続するタイミングマークの間のピッチ期間の中心にあるより
もタイミングマークの近くにあるときの方がわずかな程度で圧縮/伸長されるよ
うにすることを特徴とする言語合成装置。
6.(a)言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークも
しくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目
を有する記憶部と、
(b)入力される信号に応答して記憶部からデータの項目を読取るためのアド
レスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ
信号を用意するためのドライバ手段とを備えた請求項1ないし5のいずれか1つ
の請求項に記載の言語合成装置。
7.前記スペクトル成分と刺激成分とに分けるための手段が、
(a)合成された言語を受領し、かつその言語のスペクトル内容と類似の周波
数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するた
めの解析手段と、
(b)レシデュアル信号を作るために言語にフィルタをかけるパラメータを受
領するように接続されたフィルタとを備え、
前記再結合するための手段が、
(c)パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタ
をかけるように接続されたインバースフィルタを備えていることを特徴とする請
求項1ないし6のいずれか1つの請求項に記載の言語合成装置。
8.入力信号を一連の重なった窓と乗算してセグメントに分け、セグメントを
時間シフトに与えた後にそれらを再結合することによって入力信号のピッチを制
御するための手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同
期していて、各窓はタイミングマーク間のピッチ期間の2倍よりも短い継続期間
を有し、かつタイミングマークに対して非対称であることを特徴とする言語合成
装置。
9.言語信号をスペクトル成分と刺激成分とに分けるための手段と、入力信号
として刺激成分を受領するように接続されているピッチ制御手段と、スペクトル
成分とピッチ調整した刺激成分とを再結合するための手段とを備えた請求項8記
載の言語合成装置。
Claims (1)
- 【特許請求の範囲】 1.そこで合成される言語信号のピッチを変えるように制御可能な手段を備え た言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)有声言語の場合には、有声刺激の瞬間もしくはその付近に対応するピッ チタイミングマーク情報と同期している一連の重なっている窓関数を刺激成分に 乗算して、それを窓がけをした言語セグメントに分離するための乗算手段と、 (iii)セグメントに対して制御可能な時間シフトを与え、かつセグメントを一 緒に加算する手段と、 (iv)スペクトル及び刺激成分を再結合するための手段とを備え、かつ前記乗 算手段がピッチ期間当り少くとも2つの窓を採用し、その各々が1ピッチ期間よ りも短い継続期間をもつことを特徴とする言語合成装置。 2.窓はピッチ期間当り1つの第1の窓であってタイミングマーク位置を包含 するものと、複数の中間窓とで成る請求項1記載の言語合成装置。 3.中間窓の各々は第1の窓よりも小さな幅である請求項2記載の言語合成装 置。 4.そこで合成される言語信号のピッチを変えるように制御可能な手段を含ん だ言語合成装置であって、 (i)言語信号をスペクトル成分と刺激成分とに分けるための手段と、 (ii)入力信号サンプルから新しい信号サンプルを補間することによって刺激 成分の時間的な圧縮/伸長をするための手段と、 (iii)スペクトル及び刺激成分を再結合するための手段とを備えたことを特徴 とする言語合成装置。 5.圧縮/伸長手段は有声刺激の瞬間もしくはその付近に対応するタイミング マーク情報に応答するように動作し、それと同期して縮・伸長の程度を変えて刺 激信号が2つの連続するタイミングマークの間のピッチ期間の中心にあるよりも タイミングマークの近くにあるときの方がわずかな程度で圧縮/伸長されるよう にすることを特徴とする言語合成装置。 6.(a)言語信号波形の一部をそれぞれが規定し、かつ有声刺激のピークも しくはその近くに対応するタイミングマーク情報をそれぞれが含むデータの項目 を有する記憶部と、 (b)入力される信号に応答して記憶部からデータの項目を読取るためのアド レスを用意し、かつ言語を作るために脈絡に依存したピッチ変化を表わすピッチ 信号を用意するためのドライバ手段とを備えた請求項1ないし5のいずれか1つ の請求項に記載の言語合成装置。 7.前記スペクトル成分と刺激成分とに分けるための手段が、 (a)合成された言語を受領し、かつその言語のスペクトル内容と類似の周波 数応答を有するフィルタと、逆応答をもつフィルタとのパラメータを生成するた めの解析手段と、 (b)レシデュアル信号を作るために言語にフィルタをかけるパラメータを受 領するように接続されたフィルタとを備え、 前記再結合するための手段が、 (c)パラメータを受領し、かつ逆応答に従ってレシデュアル信号にフィルタ をかけるように接続されたインバースフィルタを備えていることを特徴とする請 求項1ないし6のいずれか1つの請求項に記載の言語合成装置。 8.信号を一連の重なった窓と乗算してセグメントに分け、セグメントを時間 シフトに与えた後にそれらを再結合することによって信号のピッチを制御するた めの手段を含み、該窓は有声刺激の瞬間を表わすタイミングマークと同期してい て、各窓はタイミングマーク間のピッチ期間の2倍よりも短い継続期間を有し、 かつタイミングマークに対して非対称であることを特徴とする言語合成装置。 9.言語信号をスペクトル成分と刺激成分とに分けるための手段と、刺激成分 を受領するように接続されているピッチ制御手段と、スペクトル成分とピッチ調 整した刺激成分とを再結合するための手段とを備えた請求項8記載の言語合成装 置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP94301953 | 1994-03-18 | ||
SG1996003308A SG43076A1 (en) | 1994-03-18 | 1994-03-18 | Speech synthesis |
AT94301953.9 | 1994-03-18 | ||
PCT/GB1995/000588 WO1995026024A1 (en) | 1994-03-18 | 1995-03-17 | Speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09510554A true JPH09510554A (ja) | 1997-10-21 |
Family
ID=26136991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7524461A Ceased JPH09510554A (ja) | 1994-03-18 | 1995-03-17 | 言語合成 |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP0750778B1 (ja) |
JP (1) | JPH09510554A (ja) |
CN (1) | CN1144008A (ja) |
AU (1) | AU692238B2 (ja) |
CA (1) | CA2185134C (ja) |
DE (1) | DE69519086T2 (ja) |
ES (1) | ES2152390T3 (ja) |
NZ (1) | NZ282012A (ja) |
SG (1) | SG43076A1 (ja) |
WO (1) | WO1995026024A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
WO1996016533A2 (en) * | 1994-11-25 | 1996-06-06 | Fink Fleming K | Method for transforming a speech signal using a pitch manipulator |
DE69824613T2 (de) * | 1997-01-27 | 2005-07-14 | Microsoft Corp., Redmond | Ein system und verfahren zur prosodyanpassung |
CN104205213B (zh) * | 2012-03-23 | 2018-01-05 | 西门子公司 | 语音信号处理方法及装置以及使用其的助听器 |
JP6446993B2 (ja) * | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
-
1994
- 1994-03-18 SG SG1996003308A patent/SG43076A1/en unknown
-
1995
- 1995-03-17 NZ NZ282012A patent/NZ282012A/en not_active IP Right Cessation
- 1995-03-17 DE DE69519086T patent/DE69519086T2/de not_active Expired - Lifetime
- 1995-03-17 WO PCT/GB1995/000588 patent/WO1995026024A1/en active IP Right Grant
- 1995-03-17 CA CA002185134A patent/CA2185134C/en not_active Expired - Fee Related
- 1995-03-17 ES ES95911420T patent/ES2152390T3/es not_active Expired - Lifetime
- 1995-03-17 AU AU18995/95A patent/AU692238B2/en not_active Ceased
- 1995-03-17 JP JP7524461A patent/JPH09510554A/ja not_active Ceased
- 1995-03-17 CN CN95192141A patent/CN1144008A/zh active Pending
- 1995-03-17 EP EP95911420A patent/EP0750778B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2185134A1 (en) | 1995-09-28 |
AU692238B2 (en) | 1998-06-04 |
ES2152390T3 (es) | 2001-02-01 |
AU1899595A (en) | 1995-10-09 |
EP0750778A1 (en) | 1997-01-02 |
EP0750778B1 (en) | 2000-10-11 |
CN1144008A (zh) | 1997-02-26 |
CA2185134C (en) | 2001-04-24 |
NZ282012A (en) | 1997-05-26 |
WO1995026024A1 (en) | 1995-09-28 |
DE69519086D1 (de) | 2000-11-16 |
DE69519086T2 (de) | 2001-05-10 |
SG43076A1 (en) | 1997-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8121834B2 (en) | Method and device for modifying an audio signal | |
Charpentier et al. | Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. | |
Moulines et al. | Non-parametric techniques for pitch-scale and time-scale modification of speech | |
Moulines et al. | Time-domain and frequency-domain techniques for prosodic modification of speech | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
EP1454312B1 (en) | Method and system for real time speech synthesis | |
US5987413A (en) | Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum | |
US5787398A (en) | Apparatus for synthesizing speech by varying pitch | |
Stylianou et al. | Diphone concatenation using a harmonic plus noise model of speech. | |
Cabral et al. | Pitch-synchronous time-scaling for prosodic and voice quality transformations. | |
WO1997019444A1 (en) | Method and device for resynthesizing a speech signal | |
Roebel | A shape-invariant phase vocoder for speech transformation | |
O'Brien et al. | Concatenative synthesis based on a harmonic model | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JPH09510554A (ja) | 言語合成 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
US7822599B2 (en) | Method for synthesizing speech | |
Edgington et al. | Residual-based speech modification algorithms for text-to-speech synthesis | |
JP3089940B2 (ja) | 音声合成装置 | |
JP2615856B2 (ja) | 音声合成方法とその装置 | |
JP3557124B2 (ja) | 音声変形方法、その装置、及びプログラム記録媒体 | |
CA2409308C (en) | Method and system for real time audio synthesis | |
KHAN | Acquisition of Duration Modification of Speech Systems | |
Ferencz et al. | The new version of the ROMVOX text-to-speech synthesis system based on a hybrid time domain-LPC synthesis technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050125 |
|
A313 | Final decision of rejection without a dissenting response from the applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A313 Effective date: 20050613 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050719 |