JP3660937B2 - 音声合成方法および音声合成装置 - Google Patents
音声合成方法および音声合成装置 Download PDFInfo
- Publication number
- JP3660937B2 JP3660937B2 JP2004555020A JP2004555020A JP3660937B2 JP 3660937 B2 JP3660937 B2 JP 3660937B2 JP 2004555020 A JP2004555020 A JP 2004555020A JP 2004555020 A JP2004555020 A JP 2004555020A JP 3660937 B2 JP3660937 B2 JP 3660937B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- frequency
- phase
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 11
- 238000003786 synthesis reaction Methods 0.000 title description 39
- 230000015572 biosynthetic process Effects 0.000 title description 36
- 230000008451 emotion Effects 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000001755 vocal effect Effects 0.000 claims description 9
- 210000001260 vocal cord Anatomy 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 32
- 238000000034 method Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 28
- 238000010606 normalization Methods 0.000 description 15
- 230000002452 interceptive effect Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 11
- 238000009792 diffusion process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【0001】
この発明は、音声を人工的に生成する方法および装置に関する。
【背景技術】
【0002】
近年、デジタル技術を応用した情報機器の高機能化・複雑化が急速に進んでいる。このようなデジタル情報機器を利用者が簡易に扱えるようにするためのユーザ・インタフェースの1つに音声対話型インタフェースがある。音声対話型インタフェースは、利用者との間で音声による情報のやりとり(対話)を行うことによって所望の機器操作を実現するものであり、カーナビゲーションシステムやデジタルテレビなどに搭載され始めている。
【0003】
音声対話型インタフェースにより実現される対話は、感情を持っている利用者(人間)と感情を持っていないシステム(機械)との間の対話である。ゆえに、いかなる状況においてもいわゆる棒読み調の合成音声で対応したのでは利用者が違和感や不快感を感じてしまう。音声対話型インタフェースを使い心地のよいものにするためには、利用者に違和感や不快感を感じさせない自然な合成音声で対応しなければならない。そのためには、それぞれの状況にふさわしい感情が入った合成音声を生成する必要がある。
【0004】
現在までのところ、音声による感情表現の研究はピッチの変化パターンに注目するものが中心である。喜怒哀楽を表すイントネーションの研究がたくさんなされている。図29に示すように、同じ文面(この例では「お早いお帰りですね。」という文面)でピッチパターンを変えた場合に聞いた人がどのように感じるかを調べる研究が多い。
【特許文献1】
特許第2674280号公報
【特許文献2】
特開平10−97287号公報
【特許文献3】
特公平2−8320号公報
【非特許文献1】
Takahiro Ohtsuka, Hideki Kasuya, "AN IMPROVED SPEECH ANALYSIS-SYNTHESIS ALGORITH BASED ON THE AUTOREGRESSIVE WITH EXOGENOUS INPUTSPEECH PRODUCTION MODEL", ICSLP2000, Paper Number 01329, Oct. 16-20, 2000, BEIJING, CHINA
【発明の開示】
【発明が解決しようとする課題】
【0005】
この発明の目的は、合成音声の自然さを向上させることができる音声合成方法および音声合成装置を提供することである。
【課題を解決するための手段】
【0006】
この発明による音声合成方法はステップ(a)〜(c)を備える。ステップ(a)では、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。ステップ(b)では、ステップ(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。ステップ(c)では、ステップ(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
【0008】
好ましくは、上記ステップ(b)では、ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで高域の位相揺らぎ成分を付与する。
【0009】
この発明による音声合成装置は手段(a)〜(c)を備える。手段(a)は、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。手段(b)は、手段(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。手段(c)は、手段(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
【0011】
好ましくは、上記音声合成装置は手段(d)をさらに備える。手段(d)は、高域の位相揺らぎ成分を付与するタイミングおよび/または重み付けを制御する。
【発明の効果】
【0012】
上記音声合成方法および音声合成装置では、高域の位相揺らぎ成分のみを付与することによりささやき声を効果的に実現することができる。これにより、合成音声の自然さを向上させることができる。
【0013】
また、音声波形に含まれている位相揺らぎ成分のみを除去した後にあらためて高域の位相揺らぎ成分のみを与えるため、合成音声のピッチ変更時に発生するざらつき感を抑制することができ、合成音声のブザー音的音質を低減することができる。
【発明を実施するための最良の形態】
【0014】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
【0015】
(第1の実施形態)
<音声対話型インタフェースの構成>
第1の実施形態による音声対話型インタフェースの構成を図1に示す。このインタフェースはデジタル情報機器(たとえばデジタルテレビやカーナビゲーションシステムなど)と利用者との間に介在し、利用者との間で音声による情報のやりとり(対話)を行うことによって利用者の機器操作を支援する。このインタフェースは、音声認識部10と、対話処理部20と、音声合成部30とを備える。
【0016】
音声認識部10は、利用者が発声した音声を認識する。
【0017】
対話処理部20は、音声認識部10による認識結果に応じた制御信号をデジタル情報機器に与える。また、音声認識部10による認識結果および/またはデジタル情報機器からの制御信号に応じた応答文(テキスト)とその応答文に与える感情を制御する信号とを音声合成部30に与える。
【0018】
音声合成部30は、対話処理部20からのテキストおよび制御信号に基づいて規則合成方式により合成音声を生成する。音声合成部30は、言語処理部31と、韻律生成部32と、波形切り出し部33と、波形データベース(DB)34と、位相操作部35と、波形重畳部36とを備える。
【0019】
言語処理部31は、対話処理部20からのテキストを解析して発音およびアクセントの情報に変換する。
【0020】
韻律生成部32は、対話処理部20からの制御信号に応じた抑揚パターンを生成する。
【0021】
波形DB34には、あらかじめ録音された波形データとそれに対し付与されたピッチマークのデータとが記憶されている。その波形とピッチマークの例を図2に示す。
【0022】
波形切り出し部33は、波形DB34から所望のピッチ波形を切り出す。このとき典型的にはHanning窓関数(中央でのゲインが1で両端に向けて滑らかに0近傍に収束する関数)を用いて切り出す。その様子を図2に示す。
【0023】
位相操作部35は、波形切り出し部33によって切り出されたピッチ波形の位相スペクトルを定型化し、その後、対話処理部20からの制御信号に応じて高域の位相成分のみをランダムに拡散させることによって位相揺らぎを付与する。次に、位相操作部35の動作について詳しく述べる。
【0024】
まず、位相操作部35は波形切り出し部33から入力されたピッチ波形をDFT(Discrete Fourier Transform)し、周波数領域の信号に変換する。入力されるピッチ波形をベクトルsiで数1のように表す。
【0025】
【数1】
【0026】
数1において添え字iはピッチ波形の番号、si(n)はピッチ波形先頭からn番目のサンプル値である。これをDFTにより周波数領域のベクトルSiに変換する。周波数領域のベクトルSiを数2で表す。
【0027】
【数2】
【0028】
ここで、Si(0)からSi(N/2-1)までは正の周波数成分を表し、Si(N/2)からSi(N-1)は負の周波数成分を表す。また、Si(0)は0Hzすなわち直流成分を表す。各周波数成分Si(k)は複素数であるので数3のように表すことができる。
【0029】
【数3】
【0030】
ここで、Re(c)は複素数cの実数部を、Im(c)はcの虚数部を表す。位相操作部35は前半の処理として数3のSi(k)を数4により^Si(k)に変換する。
【0031】
【数4】
【0032】
ここでρ(k)は周波数kにおける位相スペクトルの値で、ピッチ番号iとは独立なkのみの関数である。すなわち、ρ(k)は全てのピッチ波形に対して同じものを用いる。これにより全てのピッチ波形の位相スペクトルは同一のものとなるため、位相揺らぎは除去される。典型的にはρ(k)は定数0でよい。このようにすれば位相成分が完全に除去される。
次に、位相操作部35は後半の処理として対話処理部20からの制御信号に応じて適当な境界周波数ωkを決め、ωkよりも高い周波数の成分に位相の揺らぎを与える。たとえば数5のように位相成分をランダマイズすることにより位相を拡散する。
【0033】
【数5】
【0034】
ここで、φはランダムな値である。また、kは境界周波数ωkに対応する周波数成分の番号である。
【0035】
こうして得られた`Si(h)からなるベクトル`Siを数6のように定義する。
【0036】
【数6】
【0037】
このベクトル`SiをIDFT(Inverse Discrete Fourier Transform)により時間領域信号に変換することにより数7のベクトル`siを得る。
【0038】
【数7】
【0039】
数7のベクトル`siは位相が定型化された上に高域にのみ位相揺らぎが与えられた位相操作済みピッチ波形である。数4のρ(k)が定数0の場合は数7のベクトル`siは準対称波形となる。その様子を図3に示す。
【0040】
位相操作部35の内部構成を図4に示す。すなわちDFT部351が設けられ、その出力は位相定型化部352に接続されている。位相定型化部352の出力は位相拡散部353に接続されており、その出力はIDFT部354に接続されている。DFT部351は数1から数2への変換、位相定型化部352は数3から数4への変換、位相拡散部353は数5の変換、IDFT部354は数6から数7への変換を行う。
【0041】
こうしてできた位相操作済みピッチ波形は波形重畳部36によって所望の間隔で並べられ、重ね合わせて配置される。この時、所望の振幅になるように振幅調整を行うこともある。
【0042】
以上に説明した波形の切り出しから重ね合わせまでの様子を図5および図6に示す。図5はピッチを変えないケース、図6はピッチを変えるケースを示す。また図7〜図9には、文面「お前たちがねぇ」について、原音、揺らぎが付与されていない合成音声、「お前」の「え」の箇所に揺らぎが付与された合成音声のスペクトル表示を示す。
【0043】
<位相揺らぎを付与するタイミングおよび周波数領域の例>
図1に示したインタフェースでは、位相操作部35により揺らぎを付与するタイミングおよび周波数領域を対話処理部20において制御することによりさまざまな感情が合成音声に与えられる。合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を図10に示す。また、図11には、「すみません、おっしゃっていることがわかりません。」という合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す。
【0044】
<対話の例>
このように図1に示した対話処理部20は、合成音声に与える感情の種類を状況に応じて決定し、その感情の種類に応じたタイミングおよび周波数領域で位相揺らぎを付与するように位相操作部35を制御する。これにより、利用者との間で行われる対話が円滑になる。
【0045】
図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を図12に示す。番組の選択を利用者に促す場合には、楽しそうな感情(中くらいの喜び)を込めた合成音声「見たい番組をどうぞ」を生成する。これに対して利用者は、希望する番組を機嫌良く発声する(「じゃあ、スポーツがいいな」)。この利用者の発声を音声認識部10で認識し、その結果を利用者に確認するための合成音声「ニュースですね」を生成する。この合成音声にも楽しそうな感情(中くらいの喜び)を込める。認識結果が誤っているため利用者は、希望する番組を再度発声する(「いや、スポーツだよ」)。ここでは1回目の誤認識であるため利用者の感情は特に変化しない。この利用者の発声を音声認識部10で認識し、その結果から、前回の認識結果が誤りであったと対話処理部20が判断する。そして、再度の認識結果を利用者に確認するための合成音声「すみません、経済番組でしょうか」を音声合成部30に生成させる。ここでは2度目の確認となるため、申し訳なさそうな感情(中くらいの謝罪)を合成音声に込める。またもや認識結果が誤っているけれども、申し訳なさそうな合成音声であるため利用者は不快感を感じることなく普通の感情で三たび希望の番組を発声する(「いやいや、スポーツ」)。この発声に対して音声認識部10において適切な認識ができなかったと対話処理部20が判断する。2回続けて認識に失敗したため対話処理部20は、音声ではなくリモコンのボタン操作で番組を選択するよう利用者を促すための合成音声「すみません、おっしゃっていることが分かりませんのでボタンで選んでいただけませんか」を音声合成部30に生成させる。ここでは前回よりもさらに申し訳なさそうな感情(強い謝罪)を合成音声に込める。すると利用者は不快感を感じることなくリモコンのボタンで番組を選択する。
【0046】
状況に応じて適切な感情を合成音声に持たせた場合の利用者との対話の流れは以上のようになる。これに対して、いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れは図13に示すようになる。このように無表情・無感情な合成音声で対応した場合、誤認識を繰り返すにつれ利用者は不快感を強く感じるようになる。不快感が強まるにつれ利用者の声も変化し、その結果、音声認識部10での認識精度も低くなる。
【0047】
<効果>
感情を表現するために人間が使う方法は多種多様である。たとえば顔の表情や身振り手振りがそうであり、音声においては抑揚パターンやスピード、間の取り方などありとあらゆる方法がある。しかも、人間はそれら全てを駆使して表現力を発揮しているのであって、ピッチパターンの変化だけで感情を表現しているのではない。したがって、効果的な感情表現を音声合成で行うためには、ピッチパターン以外にも様々な表現方法を利用することが必要である。感情を込めて話された音声を観察するとささやき声が実に効果的に使われている。ささやき声は雑音成分を多く含んでいる。雑音を生成するための方法として大きく次の2つの方法がある。
1.雑音を足しあわせる方法
2.位相をランダムに変調する(揺らぎを与える)方法
1の方法は簡単だが音質が良くない。一方、2の方法は音質が良く最近脚光をあびている。そこで第1の実施形態では2の方法を用いてささやき声(雑音を含んだ合成音声)を効果的に実現し、合成音声の自然さを向上させている。
【0048】
また、自然の音声波形から切り出されたピッチ波形を用いているため、自然音声が持つスペクトルの微細構造を再現できる。さらに、ピッチ変更時に発生するざらつき感は、位相定型化部352によって自然の音声波形が本来持つ揺らぎ成分を除去することによって抑制することができ、その一方で揺らぎの除去によって発生するブザー音的音質に関しては、位相拡散部353で改めて高域成分に位相揺らぎを与えることによって低減できる。
【0049】
<変形例>
ここでは位相操作部35において、1)DFT、2)位相定型化、3)高域位相拡散、4)IDFTという手順で処理を行った。しかし、位相定型化と高域位相拡散を同時に行う必要はなく、諸条件によりIDFTを行ってから高域位相拡散に相当する処理を改めて施す方が便利な場合がある。このような場合には位相操作部35での処理を、1)DFT、2)位相定型化、3)IDFT、4)位相揺らぎ付与という手順に置き換える。この場合における位相操作部35の内部構成を図14(a)に示す。この構成の場合、位相拡散部353は省略され、代わりに時間領域の処理を行う位相揺らぎ付与部355がIDFT部354の後に接続されている。位相揺らぎ付与部355は図14(b)のように構成することにより実現できる。また、完全な時間領域での処理として図15に示す構成で実現しても構わない。この実現例での動作を以下に説明する。
【0050】
数8は2次のオールパス回路の伝達関数である。
【0051】
【数8】
【0052】
この回路を用いるとωcを中心に数9のピークを持った群遅延特性を得ることができる。
【0053】
【数9】
【0054】
そこで、ωcを適当に高い周波数範囲に設定し、ピッチ波形毎にrの値を0<r<1の範囲でランダムに変えることによって位相特性に揺らぎを与えることができる。数8および数9においてTはサンプリング周期である。
【0055】
(第2の実施形態)
第1の実施形態では位相定型化と高域位相拡散を別々のステップで行った。このことを応用すると、一旦位相定型化により整形されたピッチ波形に何らかの別の操作を加えることが可能となる。第2の実施形態では、一旦整形されたピッチ波形をクラスタリングすることによりデータ記憶容量の削減を行うことを特徴とする。
【0056】
第2の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図16に示す音声合成部40を備える。その他の構成要素は図1に示したものと同様である。図16に示す音声合成部40は、言語処理部31と、韻律生成部32と、ピッチ波形選択部41と、代表ピッチ波形データベース(DB)42と、位相揺らぎ付与部355と、波形重畳部36とを備える。
【0057】
代表ピッチ波形DB42には、図17(a)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図17(a)に示す装置では、波形DB34が設けられ、その出力は波形切り出し部33に接続されている。この両者の動作は第1の実施形態とまったく同じである。次に、その出力は位相揺らぎ除去部43に接続されており、この段階でピッチ波形は変形される。位相揺らぎ除去部43の構成を図17(b)に示す。こうして整形された全てのピッチ波形はピッチ波形DB44に一旦蓄積される。全てのピッチ波形の整形が行われると、ピッチ波形DB44に蓄積されたピッチ波形はクラスタリング部45によって似た波形のクラスタに分けられ、各クラスタの代表波形(例えば、クラスタの重心に最も近い波形)のみが代表ピッチ波形DB42に蓄積される。
【0058】
そして、ピッチ波形選択部41によって所望のピッチ波形形状に最も近い代表ピッチ波形が選択され、位相揺らぎ付与部355に入力され、高域の位相に揺らぎが付与された上で波形重畳部36において合成音声に変換される。
【0059】
以上のように位相揺らぎ除去によるピッチ波形整形処理を行うことにより、ピッチ波形同士が似た波形になる確率が上がり、結果としてクラスタリングによる記憶容量の削減効果が大きくなると考えられる。すなわち、ピッチ波形データを蓄積するために必要な記憶容量(DB42の記憶容量)を削減することができる。典型的には位相成分を全て0にすることによりピッチ波形は対称化し、波形が似たものになる確率が上がることが直感的に理解できる。
【0060】
クラスタリングの手法は数多く存在するが、一般にクラスタリングはデータ間の距離尺度を定義して、距離が近いデータ同士を一つのクラスタにまとめる操作であるため、ここではその手法は限定されない。距離尺度としてはピッチ波形同士のユークリッド距離などを利用すればよい。クラスタリング手法の例としては文献「Classification and Regression Trees」(Leo Breiman著、CRC Press、ISBN: 0412048418)に記載されているものがある。
【0061】
(第3の実施形態)
クラスタリングによる記憶容量の削減効果、すなわちクラスタリング効率を上げるには、位相揺らぎ除去によるピッチ波形整形以外に振幅および時間長の正規化を行うことが効果的である。第3の実施形態では、ピッチ波形を蓄積する際に、振幅および時間長を正規化するステップを設ける。また、ピッチ波形を読み出す際に振幅および時間長を合成音に合わせて適当に変換する構成とする。
【0062】
第3の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図18(a)に示す音声合成部50を備える。その他の構成要素は図1に示したものと同様である。図18(a)に示す音声合成部50は、図16に示した音声合成部40の構成要素に加えて変形部51をさらに備える。変形部51はピッチ波形選択部41と位相揺らぎ付与部355との間に設けられる。
【0063】
代表ピッチ波形DB42には、図18(b)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図18(b)に示す装置は、図17(a)に示した装置の構成要素に加えて正規化部52をさらに備える。正規化部52は位相揺らぎ除去部43とピッチ波形DB44との間に設けられる。正規化部52は、入力された整形済みピッチ波形を強制的に特定の長さ(例えば200サンプル)および特定の振幅(例えば30000)に変換する。したがって、正規化部52に入力されるあらゆる整形済みピッチ波形は、正規化部52から出力される時にはすべて同じ長さおよび同じ振幅にそろえられる。このため、代表ピッチ波形DB42に蓄積される波形も全て同じ長さおよび同じ振幅である。
【0064】
ピッチ波形選択部41によって選択されたピッチ波形も当然同じ長さ同じ振幅であるので、変形部51において音声合成の目的に応じた長さおよび振幅に変形される。
【0065】
正規化部52および変形部51においては、例えば時間長の変形に対しては図19に示すように線形補間を用いればよく、振幅の変形には各サンプルの値に定数を乗算すればよい。
【0066】
第3の実施形態によれば、ピッチ波形のクラスタリング効率が上がり、第2の実施形態に比べて同じ音質であればより記憶容量が削減でき、同じ記憶容量であればより音質が向上する。
【0067】
(第4の実施形態)
第3の実施形態ではクラスタリング効率を上げるためにピッチ波形に対して整形処理、振幅および時間調の正規化を実施する方法を示した。第4の実施形態ではさらに異なる方法でのクラスタリング効率向上方法を示す。
【0068】
ここまでの実施形態ではクラスタリングの対象は時間領域でのピッチ波形であった。すなわち、位相揺らぎ除去部43は、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に変換、ステップ2)周波数領域上での位相揺らぎを除去、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という方法で波形整形を行う。この後、クラスタリング部45が整形されたピッチ波形をクラスタリングする。
【0069】
一方、音声合成時処理では位相揺らぎ付与部355の図14(b)での実現形態では、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に経間、ステップ2)周波数領域上で高域の位相を拡散、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という処理を行っている。
【0070】
ここで明らかなように、位相揺らぎ除去部43のステップ3と位相揺らぎ付与部355のステップ1は互いに逆の変換であり、クラスタリングを周波数領域で実施することにより省略することができる。
【0071】
このようなアイデアに基づき構成した第4の実施形態を図20に示す。図18で位相揺らぎ除去部43が設けられていた部分はDFT部351、位相定型化部352に置き換えられている。その出力は正規化部へと接続されている。図18での正規化部52、ピッチ波形DB44、クラスタリング部45、代表ピッチ波形DB42、選択部41、変形部51はそれぞれ正規化部52b、ピッチ波形DB44b、クラスタリング部45b、代表ピッチ波形DB42b、選択部41b、変形部51bに置き換えられている。また、やはり図18で位相揺らぎ付与部355が設けられていた部分は位相拡散部353とIDFT部354に置き換えられている。
【0072】
正規化部52bのように添え字にbが付けられた構成要素は図18の構成で行っていたことを周波数領域での処理に置き換えることを意味している。その具体的な処理を以下に説明する。
【0073】
正規化部52bはピッチ波形を周波数領域で振幅正規化する。すなわち、正規化部52bから出力されるピッチ波形は周波数領域で全て同じ振幅に揃えられる。例えば、ピッチ波形を数2のように周波数領域で表現した場合、数10で表される値が同じになるように揃える処理を行う。
【0074】
【数10】
【0075】
ピッチ波形DB44bはDFTされたピッチ波形を周波数領域の表現のままで記憶する。クラスタリング部45bはやはりピッチ波形を周波数領域の表現のままでクラスタリングする。クラスタリングのためにはピッチ波形間の距離D(i,j)を定義する必要があるが、例えば数11のように定義すればよい。
【0076】
【数11】
【0077】
ここで、w(k)は周波数重み付け関数である。周波数重み付けを行うことにより、周波数による聴覚の感度の差を距離計算に反映させることができ、より音質を高めることが可能になる。例えば、聴覚の感度が非常に低い周波数帯での差異は知覚されないため、この周波数帯でのレベル差は距離の計算に含めなくても良い。さらに、文献「新版聴覚と音声」(社団法人電子通信学会1970年)の第2部聴覚の心理、2.8.2等ノイジネス曲線、図2.55(147ページ)に紹介されている聴感補正曲線などを用いるとさらに良い。同書に掲載されている聴感補正曲線の例を図21に示す。
【0078】
また、第3の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるため、計算コストが軽減するというメリットがある。
【0079】
(第5の実施形態)
音声を合成する場合、音声波形に何らかの変形を加えることが必要である。すなわち、元の音声とは異なる韻律に変換する必要がある。第1〜第3の実施形態では音声波形を直接変形している。その手段として、ピッチ波形切り出しと波形重畳を用いている。しかし、音声を一旦分析し、パラメータに置き換えてから再び合成しなおすという、いわゆるパラメトリックな音声合成法を用いることによって、韻律の変形を行った時に発生する劣化を小さくすることができる。第5の実施形態では、一旦音声波形を分析し、パラメータと音源波形に分離する方法を提供する。
【0080】
第5の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図22に示す音声合成部60を備える。その他の構成要素は図1に示したものと同様である。図22に示す音声合成部60は、言語処理部31と、韻律生成部32と、分析部61と、パラメータメモリ62と、波形DB34と、波形切り出し部33と、位相操作部35と、波形重畳部36と、合成部63とを備える。
【0081】
分析部61は、波形DB34からの音声波形を声道と声帯の二つの成分すなわち声道パラメータと音源波形とに分離する。分析部61によって分けられた二つの成分のうち、声道パラメータはパラメータメモリ62に記憶され、音源波形は波形切り出し部33に入力される。波形切り出し部33の出力は位相操作部35を介して波形重畳部36に入力される。位相操作部35の構成は図4と同様である。波形重畳部36の出力は、位相定型化および位相拡散された音源波形を目的の韻律に変形したものである。この波形が合成部63に入力される。合成部63は、それにパラメータ記憶部62から出力されたパラメータを適用して音声波形に変換する。
【0082】
分析部61および合成部63はいわゆるLPC分析合成系等でよいが、声道と声帯の特性を精度良く分離できるものがよく、好ましくは文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に示されたARX分析合成系の利用が適している。
【0083】
このような構成にすることで、韻律の変形量を大きくしても音質の劣化が少なく、さらに自然な揺らぎを持った良好な音声を合成できる。
【0084】
なお、位相操作部35に第1の実施形態におけるのと同様の変形を施してもよい。
【0085】
(第6の実施形態)
第2の実施形態では、整形された波形をクラスタリングすることでデータ記憶容量を削減する方法を示した。第5の実施形態に対しても同様のアイデアが適用できる。
【0086】
第6の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図23に示す音声合成部70を備える。その他の構成要素は図1に示したものと同様である。また、図23に示す代表ピッチ波形DB71には、図24に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図23および図24に示す構成では、図16および図17(a)に示した構成に対して分析部61とパラメータメモリ62と合成部63が追加されている。このような構成にすることで、第5の実施形態に比べてデータ記憶容量が削減でき、さらに分析と合成を行うことにより第2の実施形態に比べて韻律変形による音質劣化を少なくすることが可能となる。
【0087】
また、この構成の利点として、音声波形を分析することにより音源波形に変換、すなわち音声から音韻情報を除去しているため、クラスタリングの効率は音声波形の場合よりも数段優れている。すなわち、クラスタリング効率の面からも第2の実施形態に比べて少ないデータ記憶容量あるいは高い音質が期待できる。
【0088】
(第7の実施形態)
第3の実施形態では、ピッチ波形の時間長および振幅を正規化することによりクラスタリング効率を上げ、これによりデータ記憶容量を削減する方法を示した。第6の実施形態に対しても同様のアイデアが適用できる。
【0089】
第7の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図25に示す音声合成部80を備える。その他の構成要素は図1に示したものと同様である。また、図25に示す代表ピッチ波形DB71には、図26に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図25および図26に示す構成では、図23および図24に示した構成に対して正規化部52と変形部51が追加されている。このような構成にすることで、第6の実施形態に比べてクラスタリング効率が向上し、同程度の音質でも少ないデータ記憶容量にすることが可能であり、また、同じ記憶容量であればより良い音質の合成音声が生成できる。
【0090】
また、第6の実施形態と同様、音声から音韻情報を除去することにより、クラスタリング効率がより一層高まり、さらに高音質あるいは小さい記憶容量を実現することができる。
【0091】
(第8の実施形態)
第4の実施形態ではピッチ波形を周波数領域でクラスタリングすることによりクラスタリング効率を向上する方法を示した。第7の実施形態に対しても同様のアイデアが適用できる。
【0092】
第8の実施形態によるインタフェースは、図25に示した位相揺らぎ付与部355に代えて図27に示す位相拡散部353およびIDFT部354を備える。また、代表ピッチ波形DB71、選択部41、変形部51はそれぞれ代表ピッチ波形DB71b、選択部41b、変形部51bに置き換えられる。また、代表ピッチ波形DB71bには図28に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図28の装置は図26に示した装置の位相揺らぎ除去部43に代えてDFT部351と位相定型化部352を備える。また、正規化部52、ピッチ波形DB72、クラスタリング部45、代表ピッチ波形DB71はそれぞれ正規化部52b、ピッチ波形DB72b、クラスタリング部45b、代表ピッチ波形DB71bに置き換えられる。添え字bが付けられた構成要素は第4の実施形態で説明したのと同様に周波数領域での処理を行うことを意味している。
【0093】
このように構成することで第7の実施形態に以下の新たな効果を加えた効果が発揮される。すなわち、周波数領域でのクラスタリングによって第4の実施形態で説明したのと同様、周波数重み付けを行うことにより聴覚の感度の差を距離計算に反映させることが可能となり、より音質を高めることが可能になる。また、第7の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるための計算コストが軽減する。
【0094】
なお、以上に説明した第1〜第8の実施形態では、位相拡散の方法として数1〜数7に示した方法および数8〜数9に示した方法を用いたが、これ以外の方法、たえば特開平10−97287号公報に開示された方法、文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に開示された方法などを用いても構わない。
【0095】
また、波形切り出し部33ではHanning窓関数を用いると記したが、他の窓関数(例えばHamming窓関数、Blackman窓関数など)を用いてもよい。
【0096】
また、ピッチ波形を周波数領域と時間領域の相互に変換する方法としてDFTおよびIDFTを用いたが、FFT(Fast Fourier Transform)およびIFFT(Inverse Fast Fourier Transform)を用いてもよい。
【0097】
また、正規化部52および変形部51の時間長変形として線形補間を用いたが、他の方法(たとえば2次補間、スプライン補間など)を用いてもよい。
【0098】
また、位相揺らぎ除去部43と正規化部52の接続順序、および変形部51と位相揺らぎ付与部355の接続順序はいずれも逆にしてもよい。
【0099】
なお、第5から第7の実施の形態において、分析対象となる原音声の性質については特に触れなかったが、原音声の質によっては分析手法毎に様々な音質劣化が発生する。例えば、上記で例示したARX分析合成系においては、分析対象音声がささやき成分を強く持っている場合に分析精度が低下し、ゲロゲロと言った滑らかではない合成音を生む問題がある。ここに、本発明を適用することでゲロゲロ感が軽減し、滑らかな音質になることを発明者は発見した。この理由は明らかではないが、ささやき成分が強い音声の場合、分析誤差が音源波形に集約され、その結果ランダムな位相成分が音源波形に過度に付加されているのではないかと考えられる。すなわち、本発明により音源波形から位相揺らぎ成分を一旦除去することにより、分析誤差を効果的に除去できたのではないかと考えられる。もちろんこの場合でも改めてランダムな位相成分を付与することにより、原音に含まれていたささやき成分を再現することが可能である。
【0100】
また、数4におけるρ(k)に関して、具体例は定数0を用いた場合を中心に説明したが、定数0に限る必要はない。ρ(k)は全てのピッチ波形に対して同じものであれば何でも良く、例えばkの1次関数や2次関数、その他のどんなkの関数でも良い。
【図面の簡単な説明】
【0101】
【図1】第1の実施形態による音声対話型インタフェースの構成を示すブロック図である。
【図2】音声波形データ、ピッチマーク、ピッチ波形を示す図である。
【図3】ピッチ波形が準対称波形に変換される様子を示す図である。
【図4】位相操作部の内部構成を示すブロック図である。
【図5】ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
【図6】ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
【図7】文面「お前たちがねぇ」についてのサウンドスペクトログラムである。(a)は原音、(b)は揺らぎが付与されていない合成音声、(c)は「お前たち」の「え」の箇所に揺らぎが付与された合成音声のサウンドスペクトログラムである。
【図8】「お前たち」の「え」の部分のスペクトルを示す図である(原音)。
【図9】「お前たち」の「え」の部分のスペクトルを示す図である。(a)は揺らぎが付与された合成音声、(b)は揺らぎが付与されていない合成音声である。
【図10】合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を示す図である。
【図11】合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す図である。
【図12】図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を示す図である。
【図13】いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れを示す図である。
【図14】(a)は、位相操作部の変形例を示すブロック図である。(b)は、位相揺らぎ付与部の実現例を示すブロック図である。
【図15】位相揺らぎ付与部の別の実現例である回路のブロック図である。
【図16】第2の実施形態における音声合成部の構成を示す図である。
【図17】(a)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。(b)は、(a)に示した位相揺らぎ除去部の内部構成を示すブロック図である
【図18】(a)は、第3の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
【図19】正規化部および変形部における時間長変形の様子を示す図である。
【図20】(a)は、第4の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
【図21】聴感補正曲線の一例を示す図である。
【図22】第5の実施形態における音声合成部の構成を示すブロック図である。
【図23】第6の実施形態における音声合成部の構成を示すブロック図である。
【図24】代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図25】第7の実施形態における音声合成部の構成を示すブロック図である。
【図26】代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図27】第8の実施形態における音声合成部の構成を示すブロック図である。
【図28】代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
【図29】(a)は、通常の音声合成規則で生成したピッチパターンを示す図である。(b)は、皮肉に聞こえるように変化させたピッチパターンを示す図である。
Claims (8)
- 位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去するステップ(a)と、
前記ステップ(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与するステップ(b)と、
前記ステップ(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成するステップ(c)とを備える
ことを特徴とする音声合成方法。 - 請求項1において、
前記ステップ(b)では、
前記ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで前記高域の位相揺らぎ成分を付与する
ことを特徴とする音声合成方法。 - 請求項1において、
前記ステップ(a)では、
前記音声波形をピッチ周期単位で所定の窓関数で切り出し、
前記切り出された音声波形である第1のピッチ波形の第1のDFT(Discrete Fourier Transform)を求め、
前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換することで、
位相揺らぎ成分のみを除去する、
ことを特徴とする音声合成方法。 - 請求項3において、
前記ステップ(b)では、
前記第2のDFTを、所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第3のDFTに変換することで、高域の位相揺らぎ成分のみを付与する、
または、前記第2のDFTをIDFTにより第2のピッチ波形に変換し、前記第2のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換することで、高域の位相揺らぎ成分のみを付与する、
ことを特徴とする音声合成方法。 - 請求項1において、
前記ステップ(a)では、
前記音声波形を声道モデルおよび声帯音源モデルによって分析し、
前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換することで、
位相揺らぎ成分のみを除去する、
ことを特徴とする音声合成方法。 - 請求項5において、
前記ステップ(b)では、
前記第2のDFTの所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第3のDFTに変換することで、高域の位相揺らぎ成分のみを付与する、
または、前記第2のDFTをIDFTにより第2のピッチ波形に変換し、前記第2のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換することで、高域の位相揺らぎ成分のみを付与する、
ことを特徴とする音声合成方法。 - 位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する手段(a)と、
前記手段(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する手段(b)と、
前記手段(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する手段(c)とを備える
ことを特徴とする音声合成装置。 - 請求項7において、
前記高域の位相揺らぎ成分を付与するタイミングおよび/または重み付けを制御する手段(d)をさらに備える
ことを特徴とする音声合成装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002341274 | 2002-11-25 | ||
JP2002341274 | 2002-11-25 | ||
PCT/JP2003/014961 WO2004049304A1 (ja) | 2002-11-25 | 2003-11-25 | 音声合成方法および音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3660937B2 true JP3660937B2 (ja) | 2005-06-15 |
JPWO2004049304A1 JPWO2004049304A1 (ja) | 2006-03-30 |
Family
ID=32375846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004555020A Expired - Fee Related JP3660937B2 (ja) | 2002-11-25 | 2003-11-25 | 音声合成方法および音声合成装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7562018B2 (ja) |
JP (1) | JP3660937B2 (ja) |
CN (1) | CN100365704C (ja) |
AU (1) | AU2003284654A1 (ja) |
WO (1) | WO2004049304A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443538B2 (en) | 2011-07-19 | 2016-09-13 | Nec Corporation | Waveform processing device, waveform processing method, and waveform processing program |
US20210304789A1 (en) * | 2018-11-16 | 2021-09-30 | Shenzhen Tcl New Technology Co., Ltd. | Emotion-based voice interaction method, storage medium and terminal device |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768701B2 (en) * | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
US20070129946A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | High quality speech reconstruction for a dialog method and system |
US8898062B2 (en) * | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
WO2009044525A1 (ja) * | 2007-10-01 | 2009-04-09 | Panasonic Corporation | 音声強調装置および音声強調方法 |
JP5189858B2 (ja) * | 2008-03-03 | 2013-04-24 | アルパイン株式会社 | 音声認識装置 |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
DK2242045T3 (da) * | 2009-04-16 | 2012-09-24 | Univ Mons | Talesyntese og kodningsfremgangsmåder |
JPWO2012035595A1 (ja) * | 2010-09-13 | 2014-01-20 | パイオニア株式会社 | 再生装置、再生方法及び再生プログラム |
JP6011039B2 (ja) * | 2011-06-07 | 2016-10-19 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
ITTO20120054A1 (it) * | 2012-01-24 | 2013-07-25 | Voce Net Di Ciro Imparato | Metodo e dispositivo per il trattamento di messaggi vocali. |
KR101402805B1 (ko) * | 2012-03-27 | 2014-06-03 | 광주과학기술원 | 음성분석장치, 음성합성장치, 및 음성분석합성시스템 |
CN103543979A (zh) * | 2012-07-17 | 2014-01-29 | 联想(北京)有限公司 | 一种输出语音的方法、语音交互的方法及电子设备 |
US9147393B1 (en) | 2013-02-15 | 2015-09-29 | Boris Fridman-Mintz | Syllable based speech processing method |
FR3013884B1 (fr) * | 2013-11-28 | 2015-11-27 | Peugeot Citroen Automobiles Sa | Dispositif de generation d'un signal sonore representatif de la dynamique d'un vehicule et induisant une illusion auditive |
JP6347536B2 (ja) * | 2014-02-27 | 2018-06-27 | 学校法人 名城大学 | 音合成方法及び音合成装置 |
CN104485099A (zh) * | 2014-12-26 | 2015-04-01 | 中国科学技术大学 | 一种合成语音自然度的提升方法 |
CN108320761B (zh) * | 2018-01-31 | 2020-07-03 | 重庆与展微电子有限公司 | 音频录制方法、智能录音设备及计算机可读存储介质 |
CN108741301A (zh) * | 2018-07-06 | 2018-11-06 | 北京奇宝科技有限公司 | 一种口罩 |
US11468879B2 (en) * | 2019-04-29 | 2022-10-11 | Tencent America LLC | Duration informed attention network for text-to-speech analysis |
CN110189743B (zh) * | 2019-05-06 | 2024-03-08 | 平安科技(深圳)有限公司 | 波形拼接中的拼接点平滑方法、装置及存储介质 |
CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5265486A (en) * | 1975-11-26 | 1977-05-30 | Toa Medical Electronics | Granule measuring device |
JPS5848917B2 (ja) | 1977-05-20 | 1983-10-31 | 日本電信電話株式会社 | 音声スペクトル変化率の平滑化方法 |
US4194427A (en) * | 1978-03-27 | 1980-03-25 | Kawai Musical Instrument Mfg. Co. Ltd. | Generation of noise-like tones in an electronic musical instrument |
JPS58168097A (ja) | 1982-03-29 | 1983-10-04 | 日本電気株式会社 | 音声合成装置 |
JP2674280B2 (ja) * | 1990-05-16 | 1997-11-12 | 松下電器産業株式会社 | 音声合成装置 |
JP3398968B2 (ja) * | 1992-03-18 | 2003-04-21 | ソニー株式会社 | 音声分析合成方法 |
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
US6112169A (en) * | 1996-11-07 | 2000-08-29 | Creative Technology, Ltd. | System for fourier transform-based modification of audio |
JPH10232699A (ja) * | 1997-02-21 | 1998-09-02 | Japan Radio Co Ltd | Lpcボコーダ |
JP3410931B2 (ja) * | 1997-03-17 | 2003-05-26 | 株式会社東芝 | 音声符号化方法及び装置 |
JP3576800B2 (ja) | 1997-04-09 | 2004-10-13 | 松下電器産業株式会社 | 音声分析方法、及びプログラム記録媒体 |
US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
JPH11102199A (ja) * | 1997-09-29 | 1999-04-13 | Nec Corp | 音声通信装置 |
JP3495275B2 (ja) * | 1998-12-25 | 2004-02-09 | 三菱電機株式会社 | 音声合成装置 |
JP4455701B2 (ja) * | 1999-10-21 | 2010-04-21 | ヤマハ株式会社 | 音声信号処理装置および音声信号処理方法 |
JP3468184B2 (ja) * | 1999-12-22 | 2003-11-17 | 日本電気株式会社 | 音声通信装置及びその通信方法 |
JP2002091475A (ja) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声合成方法 |
-
2003
- 2003-11-25 JP JP2004555020A patent/JP3660937B2/ja not_active Expired - Fee Related
- 2003-11-25 AU AU2003284654A patent/AU2003284654A1/en not_active Abandoned
- 2003-11-25 WO PCT/JP2003/014961 patent/WO2004049304A1/ja not_active Application Discontinuation
- 2003-11-25 CN CNB2003801004527A patent/CN100365704C/zh not_active Expired - Fee Related
- 2003-11-25 US US10/506,203 patent/US7562018B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443538B2 (en) | 2011-07-19 | 2016-09-13 | Nec Corporation | Waveform processing device, waveform processing method, and waveform processing program |
US20210304789A1 (en) * | 2018-11-16 | 2021-09-30 | Shenzhen Tcl New Technology Co., Ltd. | Emotion-based voice interaction method, storage medium and terminal device |
US11640832B2 (en) * | 2018-11-16 | 2023-05-02 | Shenzhen Tcl New Technology Co., Ltd. | Emotion-based voice interaction method, storage medium and terminal device using pitch, fluctuation and tone |
Also Published As
Publication number | Publication date |
---|---|
US20050125227A1 (en) | 2005-06-09 |
JPWO2004049304A1 (ja) | 2006-03-30 |
CN1692402A (zh) | 2005-11-02 |
WO2004049304A1 (ja) | 2004-06-10 |
CN100365704C (zh) | 2008-01-30 |
AU2003284654A1 (en) | 2004-06-18 |
US7562018B2 (en) | 2009-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3660937B2 (ja) | 音声合成方法および音声合成装置 | |
US10535336B1 (en) | Voice conversion using deep neural network with intermediate voice training | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
JP2004522186A (ja) | 音声合成器の音声固有化 | |
EP4205109A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
Safavi et al. | Identification of gender from children's speech by computers and humans. | |
Govind et al. | Dynamic prosody modification using zero frequency filtered signal | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2014062970A (ja) | 音声合成方法、装置、及びプログラム | |
JP6864322B2 (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2003122395A (ja) | 音声認識システム、端末およびプログラム、並びに音声認識方法 | |
Ngo et al. | A study on prosody of vietnamese emotional speech | |
Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Geethashree et al. | Transformation of Emotion by Modifying Prosody and Spectral Energy Using Discrete Wavelet Transform | |
Panayiotou et al. | Overcoming Complex Speech Scenarios in Audio Cleaning for Voice-to-Text | |
Zhao et al. | Personalizing tts voices for progressive dysarthria | |
JP2024135351A (ja) | 会話文生成装置、会話文生成システムおよび会話文生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3660937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080325 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090325 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100325 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110325 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110325 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120325 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130325 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130325 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140325 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |