JP2009109805A - 音声処理装置及びその方法 - Google Patents
音声処理装置及びその方法 Download PDFInfo
- Publication number
- JP2009109805A JP2009109805A JP2007282944A JP2007282944A JP2009109805A JP 2009109805 A JP2009109805 A JP 2009109805A JP 2007282944 A JP2007282944 A JP 2007282944A JP 2007282944 A JP2007282944 A JP 2007282944A JP 2009109805 A JP2009109805 A JP 2009109805A
- Authority
- JP
- Japan
- Prior art keywords
- band
- waveform
- speech
- unit
- voice waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000010354 integration Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 230000003247 decreasing effect Effects 0.000 claims 3
- 238000003672 processing method Methods 0.000 claims 3
- 230000008859 change Effects 0.000 abstract description 12
- 230000010363 phase shift Effects 0.000 description 30
- 230000004048 modification Effects 0.000 description 23
- 238000012986 modification Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 206010028735 Nasal congestion Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】音声波形を重ね合わせるときに、接続部分におけるスペクトル変化の不連続を低減する音声処理装置を提供することを目的とする。
【解決手段】第1の音声波形と第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成し、第1の帯域音声波形と第2の帯域音声波形の相互相関が高くなるように第1の帯域音声波形と第2の帯域音声波形の重畳位置を周波数帯域毎に決定し、第1の帯域音声波形と第2の帯域音声波形を、重畳位置に基づいて周波数帯域毎に重ね合わせると共に、全周波数帯域について統合して接続音声波形を生成する。
【選択図】 図1
【解決手段】第1の音声波形と第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成し、第1の帯域音声波形と第2の帯域音声波形の相互相関が高くなるように第1の帯域音声波形と第2の帯域音声波形の重畳位置を周波数帯域毎に決定し、第1の帯域音声波形と第2の帯域音声波形を、重畳位置に基づいて周波数帯域毎に重ね合わせると共に、全周波数帯域について統合して接続音声波形を生成する。
【選択図】 図1
Description
本発明は、テキスト音声合成に係り、特に音声素片を接続して合成音声を生成するときの音声処理装置、及び、その方法に関するものである。
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。
入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律生成部においてリズムやイントネーションが生成され、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。最後に音声信号生成部で音韻系列・韻律情報から音声信号を生成することで、入力テキストに対する合成音声を生成する。
ここで、音声信号生成部(いわゆる音声合成器)としては、複数の音声素片(音声波形の断片)が格納された音声素片辞書から、音韻系列・韻律情報に基づいて音声素片を選択し、選択された音声素片を接続することによって所望の音声を生成する、図2のような素片接続型(素片重畳型)のものがよく知られている。
この素片接続型音声合成器では、通常、音声素片の接続部分でスペクトルを滑らかに変化させるために、図17(b)のように、接続する複数の音声素片の一部、または全てを重み付けして時間軸方向に重ね合わせる。ところが、接続するそれぞれの音声素片波形の位相が異なる場合には、単純に重ね合わせただけでは中間的なスペクトルを生成することができず、スペクトルの変化が不連続となり接続歪が生じてしまう。
そこで、従来は音声素片間の位相の差による歪を小さくするために、接続部分において重ね合わせる複数の音声素片に対してそのまま相互相関を計算し、この相関が高くなるように音声素片の重ね合わせる位置をシフトさせる方法が用いられている。図18に、音声素片の有声部分をピッチ波形単位に分解し、このピッチ波形を接続部分で重ね合わせる場合の一例を示す。(a)が位相差を考慮しない場合で、(b)が位相差を考慮して重ね合わせる2つのピッチ波形の相関が最大となるようにシフトさせる方法の例である。
また、予め元の音声波形に位相等化(直線位相成分を除いた零位相化)を施した位相等化音声を用いて接続することによって、位相の違いから生じる音声波形の形状の違いによる接続歪を軽減した合成音声を得る方法も提案されている(例えば、特許文献1参照)。
特開平8−335095号公報
しかしながら、上記従来方法には以下のような問題点がある。
重ね合わせる複数の音声素片に対してそのまま相互相関を計算し、相関が高くなるように重畳位置をシフトさせる方法では、パワーの比較的大きい低周波数帯域の位相は揃うが、パワーの小さい中〜高周波数帯域成分の位相のズレは補正されないため、部分的に位相が打ち消しあって、一部の周波数帯域成分が減衰することにより、接続部分におけるスペクトル変化に不連続が生じ、生成される合成音の明瞭性や自然性が劣化していた。
例えば、図8に示すピッチ波形Aとピッチ波形Bを接続部分で重ね合わせる場合を考える。ピッチ波形Aとピッチ波形Bは、各々のパワースペクトルは2つのピークを持ち、そのスペクトル形状は類似しているが、低周波数帯域の位相特性が異なっている。このピッチ波形Aとピッチ波形Bに対してそのまま相互相関を計算し、相関が高くなるようにシフトすると、比較的パワーの大きい低域の位相が揃うようにシフトすることとなり、高域の位相は逆にずれてしまう。そのため、重ね合わせたピッチ波形から高周波数成分が失われ、(a)の従来手法ではピッチ波形Aとピッチ波形Bの中間的なスペクトルを持つ波形を生成することができず、接続部分で滑らかに変化する合成音声を得ることができない。
一方、零位相化や位相等化処理などによって、音声波形の元の位相情報を削って強制的に位相を揃えた場合には、有声音であっても、特に、高周波成分を多く含む有声破擦音などでは零位相特有の鼻づまり感などが耳につき、音質の劣化が無視できないという問題点がある。
そこで本発明は、上記問題点に鑑み、接続部で音声波形を重ね合わせるときに、接続部分におけるスペクトル変化の不連続を低減する音声処理装置を提供することを目的とする。
本発明は、第1の音声素片の一部である第1の音声波形と第2の音声素片の一部である第2の音声波形とを重ね合わせることにより、前記第1の音声素片と前記第2の音声素片とを接続する音声処理装置において、前記第1の音声波形と前記第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成する分割部と、前記第1の帯域音声波形と前記第2の帯域音声波形の相互相関が高くなるように、または、前記第1の帯域音声波形と前記第2の帯域音声波形の位相スペクトルの差が小さくなるように、前記第1の帯域音声波形と前記第2の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定部と、前記第1の帯域音声波形と前記第2の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合部と、を有する音声処理装置である。
また、本発明は、複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第1の辞書と、前記各音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割部と、前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成部と、前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正部と、前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成部と、を有する音声処理装置である。
本発明によれば、接続部で重ね合わせる音声波形間の位相のズレを全周波数帯域で小さくすることができ、その結果、接続部分におけるスペクトル変化の不連続が低減し、明瞭で自然な合成音を生成できる。
また、本発明によれば、音声波形辞書を作成するときに、音声波形間の位相のズレが全周波数帯域で小さくなっていることになり、オンラインでの処理量の増加なしに、明瞭で滑らかな合成音を生成できる。
以下、図面を参照して本発明の実施形態を詳細に説明する。
(第1の実施形態)
以下、本発明の第1の実施形態の音声処理装置である素片接続型音声合成器について図1〜図8に基づいて説明する。
以下、本発明の第1の実施形態の音声処理装置である素片接続型音声合成器について図1〜図8に基づいて説明する。
(1)素片接続型音声合成器の構成
図2に、本実施形態に係る素片接続型音声合成器の構成例を示す。
図2に、本実施形態に係る素片接続型音声合成器の構成例を示す。
素片接続型音声合成器は、音声素片辞書20、音声素片選択部21、音声素片変形・接続部分22により構成される。
以上の各部20,21,22の機能は、ハードウェアとしても実現可能である。また、本実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することもできる。さらに、以上の各機能は、ソフトウェアとして記述し、適当な機構をもったコンピュータ装置に処理させても実現できる。
音声素片辞書20には、合成音声を生成するときに用いる音声の単位(合成単位)の大量の音声素片が格納されている。合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素、ダイフォン、トライフォン、音節などであり、これらが混在しているなど可変長であってもよい。また音声素片は、合成単位に対応する音声信号波形、もしくはその特徴を表すパラメータ系列などである。
音声素片選択部21は、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントのそれぞれに対し、入力される音韻系列・韻律情報100を基に、音声素片辞書20に格納されている音声素片の中から適切な音声素片101を選択する。韻律情報には、例えば、声の高さの変化パターンであるピッチパターンや、音韻継続時間長などの情報が含まれる。
音声素片変形・接続部分22は、音声素片選択部2において選択された音声素片101を、入力韻律情報に基づいて変形及び接続し、合成音声波形102を出力する。
(2)音声素片変形・接続部分22の処理
図3は、音声素片変形・接続部分22における処理の流れを示すフローチャートである。なお、ここでは、各音声素片からピッチ波形を切り出し、このピッチ波形を時間軸上に重畳することによって合成音声波形を生成する場合を例にとって説明する。また、図4にこの処理内容の模式図を示す。
図3は、音声素片変形・接続部分22における処理の流れを示すフローチャートである。なお、ここでは、各音声素片からピッチ波形を切り出し、このピッチ波形を時間軸上に重畳することによって合成音声波形を生成する場合を例にとって説明する。また、図4にこの処理内容の模式図を示す。
ここで、「ピッチ波形」とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。
まず、音韻系列・韻律情報から図4に示されるようなターゲットピッチマーク231を生成する。ターゲットピッチマーク231は、合成音声波形を生成するためにピッチ波形を時間軸上に重畳する位置を表すものであり、ピッチマークの間隔がピッチ周期に対応する(S221)。
次に、音声素片を滑らかに接続するため、先行音声素片と後続音声素片とを重ね合わせて接続する接続区間232を決定する(S222)。
次に、各ターゲットピッチマーク231に重畳するピッチ波形233を、音声素片選択部21で選択された音声素片101から切り出し、かつ必要に応じて重畳する際の重みづけを考慮してパワーを変化させるなどの処理を行って変形することによって生成する(S223)。
ここで、音声素片101は音声波形111と基準点系列112の情報を含むものとし、基準点は、音声素片の有声音部分では音声波形上に周期的に現れるピッチ波形毎に与えられているもので、無声音部分では一定時毎などに予め与えられたものであるとする。なお、この基準点は、様々な既存のピッチ抽出方法やピッチマーク付与手法などを用いて自動的に設定されたものでもよいし、人手で付与されたものであってもよく、有声音部分ではピッチ波形の例えば立ち上がり点やピーク点などに付与されているピッチに同期した点であるとする。ピッチ波形を切り出すときには、例えば、音声素片に付与されているこの基準点を中心に、ピッチ周期の2倍程度の窓長を持つ窓関数234を適用するなどの方法を用いればよい。
次に、当該ターゲットピッチマークが接続区間内の場合は、先行音声素片から切り出したピッチ波形と後続音声素片から切り出したピッチ波形とから接続区間用のピッチ波形235を生成する(S225)。
最後に当該ターゲットピッチマークに対してピッチ波形を重畳する(S226)。
以上の動作を全てのターゲットピッチマークに対して終了するまで繰り返すことにより、合成音声波形102を出力する(S227)。
(3)接続区間波形生成部1の概要
以下では、本実施形態の特徴部分であって、音声素片変形・接続部分22の一部である、接続区間波形生成部1に関する構成や処理動作を中心にさらに詳しく説明する。
以下では、本実施形態の特徴部分であって、音声素片変形・接続部分22の一部である、接続区間波形生成部1に関する構成や処理動作を中心にさらに詳しく説明する。
接続区間波形生成部1は、複数のピッチ波形を重ね合わせることによって、接続区間部分に重畳するためのピッチ波形235を生成する処理(S225)を行う部分である。
なお、ここでは、有声音部分に対して、先行音声素片と後続音声素片とを接続するために、接続区間内のあるターゲットピッチマークに重畳する接続区間波形をピッチ波形単位で生成する場合を例にとって説明する。
(4)接続区間波形生成部1の構成
図1に、接続区間波形生成部1の構成例を示す。
図1に、接続区間波形生成部1の構成例を示す。
接続区間波形生成部1は、帯域分割部10、相互相関計算部11、帯域ピッチ波形重畳部12、帯域統合部13から構成される。
(4−1)帯域分割部10
帯域分割部10は、接続区間で重ね合わせる先行音声素片から抽出されたピッチ波形120、及び、後続音声素片から抽出されたピッチ波形130を複数の周波数帯域に分割し、それぞれの帯域ピッチ波形121、122、131、132を生成する。
帯域分割部10は、接続区間で重ね合わせる先行音声素片から抽出されたピッチ波形120、及び、後続音声素片から抽出されたピッチ波形130を複数の周波数帯域に分割し、それぞれの帯域ピッチ波形121、122、131、132を生成する。
ここでは、高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の2つの帯域に分割する場合を例にとって説明する。
(4−2)相互相関計算部11
相互相関計算部11は、各帯域について、重ね合わせるピッチ波形のそれぞれから生成された帯域ピッチ波形の相互相関を計算し、ある探索範囲内において相互相関係数が最大となるような帯域毎の重畳位置140及び150を決定する。
相互相関計算部11は、各帯域について、重ね合わせるピッチ波形のそれぞれから生成された帯域ピッチ波形の相互相関を計算し、ある探索範囲内において相互相関係数が最大となるような帯域毎の重畳位置140及び150を決定する。
(4−3)帯域ピッチ波形重畳部12
帯域ピッチ波形重畳部12は、各帯域について、相互相関計算部11で決定された重畳位置140または150に従って、帯域ピッチ波形を重ね合わせ、重ね合わせるピッチ波形の帯域毎の成分を重畳したものである帯域重畳ピッチ波形141及び151を出力する。
帯域ピッチ波形重畳部12は、各帯域について、相互相関計算部11で決定された重畳位置140または150に従って、帯域ピッチ波形を重ね合わせ、重ね合わせるピッチ波形の帯域毎の成分を重畳したものである帯域重畳ピッチ波形141及び151を出力する。
(4−4)帯域統合部13
帯域統合部13は、帯域毎に重畳された帯域重畳ピッチ波形141及び151を統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形235を出力する。
帯域統合部13は、帯域毎に重畳された帯域重畳ピッチ波形141及び151を統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形235を出力する。
(5)接続区間波形生成部1の処理
次に、図5の接続区間波形生成部1における処理の流れを示すフローチャートを用いて、接続区間波形生成部1の各処理について詳しく説明する。
次に、図5の接続区間波形生成部1における処理の流れを示すフローチャートを用いて、接続区間波形生成部1の各処理について詳しく説明する。
(5−1)ステップS1
まず、ステップS1において、帯域分割部10は、先行音声素片から抽出されたピッチ波形120、及び、後続音声素片から抽出されたピッチ波形130をそれぞれ複数の周波数帯域に分割し、帯域ピッチ波形を生成する。
まず、ステップS1において、帯域分割部10は、先行音声素片から抽出されたピッチ波形120、及び、後続音声素片から抽出されたピッチ波形130をそれぞれ複数の周波数帯域に分割し、帯域ピッチ波形を生成する。
ここでは、高周波数帯域と低周波数帯域の2つの帯域に分割する場合を例にとっているため、低域通過フィルタを用いてピッチ波形120及びピッチ波形130から低周波数帯域成分を抽出して、低域ピッチ波形121と131がそれぞれ生成されると共に、高域通過フィルタを用いてピッチ波形120及びピッチ波形130から高周波数帯域成分を抽出して高域ピッチ波形122と132がそれぞれ生成される。
図6に、低域通過フィルタ及び高域通過フィルタの周波数特性を示す。また、図7には、ピッチ波形(a)とそれに対応する低域ピッチ波形(b)及び高域ピッチ波形(c)の例を示す。
以上のように、ピッチ波形120及び130から帯域ピッチ波形121、122、131、132をそれぞれ生成し、次に図5のステップS2へ進む。
(5−2)ステップS2
次に、ステップS2において、相互相関計算部11は、各帯域において、重ね合わせる行音声素片と後続音声素片とから生成されたそれぞれの帯域ピッチ波形の相互相関を計算し、相互相関が最も高くなるような帯域毎の重畳位置140、及び、150を決定する。
次に、ステップS2において、相互相関計算部11は、各帯域において、重ね合わせる行音声素片と後続音声素片とから生成されたそれぞれの帯域ピッチ波形の相互相関を計算し、相互相関が最も高くなるような帯域毎の重畳位置140、及び、150を決定する。
つまり、低周波数帯域と高周波数帯域のそれぞれの帯域ピッチ波形に対して、帯域毎にそれぞれ別々に相互相関を計算し、重ね合わせる2つの音声素片からの帯域ピッチ波形の相互相関が高くなるように、すなわち帯域毎の位相のズレが小さくなるように重畳位置を決定する。
をより大きくするkを算出すればよい。ここで、px(t)は先行音声素片の帯域ピッチ波形信号、py(t)は後続音声素片の帯域ピッチ波形信号、Nは相互相関を計算する帯域ピッチ波形の長さ、Kは重畳位置を探索する範囲を決めるための最大シフト幅である。
以上のように、帯域ピッチ波形同士の相互相関を計算し、各帯域について重ね合わせる際の位相のズレが小さくなる重畳位置140及び150を出力し、次に図5のステップS3へ進む。
(5−3)ステップS3
次に、ステップS3において、帯域ピッチ波形重畳部12は、各帯域において、相互相関計算部11で決定された重畳位置140または150に従って、帯域ピッチ波形121と131、または122と132とを重ね合わせ、接続区間のピッチ波形の帯域毎の成分を重ね合わせた波形である帯域重畳ピッチ波形141及び151を出力する。
次に、ステップS3において、帯域ピッチ波形重畳部12は、各帯域において、相互相関計算部11で決定された重畳位置140または150に従って、帯域ピッチ波形121と131、または122と132とを重ね合わせ、接続区間のピッチ波形の帯域毎の成分を重ね合わせた波形である帯域重畳ピッチ波形141及び151を出力する。
すなわち、低周波数帯域の帯域重畳ピッチ波形141を帯域ピッチ波形121と131とを重畳位置140に従って重ね合わせることによって生成し、高周波数帯域については帯域ピッチ波形122と132とを重畳位置150に従って重ね合わせることによって帯域重畳ピッチ波形151を生成する。
これにより、各帯域において、重ね合わせるピッチ波形の位相差による歪の小さい、中間的なスペクトルを持つ帯域重畳ピッチ波形を得ることができる。
以上のように、各帯域について、接続区間用に複数の音声素片を重ね合わせた波形である帯域重畳ピッチ波形141、及び、151を出力し、次に図5のステップS4へ進む。
(5−4)ステップS4
次に、ステップS4において、帯域統合部13は、低周波数帯域の帯域重畳ピッチ波形141と高周波数帯域の帯域重畳ピッチ波形151とを統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形235を出力する。
次に、ステップS4において、帯域統合部13は、低周波数帯域の帯域重畳ピッチ波形141と高周波数帯域の帯域重畳ピッチ波形151とを統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形235を出力する。
(6)効果
以上説明したように、本実施形態によれば、音声素片の接続区間において複数のピッチ波形を重ね合わせる場合に、帯域分割部10で重ね合わせるそれぞれのピッチ波形を複数の周波数帯域に分割し、相互相関計算部11及び帯域ピッチ波形重畳部12によって帯域毎に位相合わせを行うことで、接続部分で用いる音声素片間の位相のズレを、全周波数帯域において小さくすることが可能となる。
以上説明したように、本実施形態によれば、音声素片の接続区間において複数のピッチ波形を重ね合わせる場合に、帯域分割部10で重ね合わせるそれぞれのピッチ波形を複数の周波数帯域に分割し、相互相関計算部11及び帯域ピッチ波形重畳部12によって帯域毎に位相合わせを行うことで、接続部分で用いる音声素片間の位相のズレを、全周波数帯域において小さくすることが可能となる。
すなわち、接続区間用のピッチ波形を生成するときに、従来の図8(a)のように全周波数帯域に対してそのまま相互相関を計算する場合と比較して、本実施形態の動作を模式的に示した図8(b)では、各帯域に分割した波形に対して、それぞれ相互相関が高くなるように重畳位置を決定するため、低周波数帯域と高周波数帯域のそれぞれに対して位相のズレが小さくなり、接続区間用に先行音声素片と後続音声素片との中間的なスペクトルを持つ位相差による歪の小さい波形を生成することができる。
この波形を用いることで接続部分におけるスペクトル変化の不連続が低減し、また、零位相化などの処理によって位相を揃える場合と異なり、位相情報の欠落による音質の劣化が生じないため、結果として、生成される合成音声の明瞭性や自然性を向上させることができる。
(7)変更例
(7−1)変更例1
上記の第1の実施形態では、接続区間においては、接続区間用のピッチ波形を予め生成し、それをターゲットピッチマークに重畳するという構成としたが、これに限定されるものではない。
(7−1)変更例1
上記の第1の実施形態では、接続区間においては、接続区間用のピッチ波形を予め生成し、それをターゲットピッチマークに重畳するという構成としたが、これに限定されるものではない。
例えば、先行音声素片からのピッチ波形を先にターゲットピッチマークに対して重畳しておき、接続区間において後続音声素片からのピッチ波形を先行音声素片からのピッチ波形に重ね合わせるときに、各帯域について、ターゲットピッチマークの周辺に対して相互相関が高くなるように重畳位置をシフトさせてもよい。
(7−2)変更例2
また、上記の第1の実施形態では、音声素片からピッチ波形を切り出すという構成としたが、これに限定されるものではない。
また、上記の第1の実施形態では、音声素片からピッチ波形を切り出すという構成としたが、これに限定されるものではない。
例えば、音声素片辞書20に格納されている有声音の音声素片が1つ以上のピッチ波形から構成されている場合は、図3のステップS233で選択された音声素片からピッチ波形を切り出す代わりに、当該ターゲットピッチマークに重畳するピッチ波形を音声素片内から選択し、必要に応じてパワーを変化させるなどの処理を行って変形することでピッチ波形を生成すればよく、以降の処理は上記の実施形態と同様に適用することができる。
なお、音声素片として保持するピッチ波形は、音声波形に窓関数を適用して切り出したそのままの波形に限定されるものではなく、切り出した後に様々な変形や加工を行ったものであってもよい。
(7−3)変更例3
上記の第1の実施形態では、重畳する際の重みづけなどを考慮してパワーを変化させるなどの変形を行った(S223)ピッチ波形に対して、帯域分割や相互相関計算などの処理を行うとしたが、この処理手順はこれに限定されるものではない。
上記の第1の実施形態では、重畳する際の重みづけなどを考慮してパワーを変化させるなどの変形を行った(S223)ピッチ波形に対して、帯域分割や相互相関計算などの処理を行うとしたが、この処理手順はこれに限定されるものではない。
例えば、帯域分割(S1)や相互相関計算(S2)などの処理は、音声素片から切り出しただけのピッチ波形に対して行い、帯域ピッチ波形を重ね合わせる際(S3)に、それぞれのピッチ波形に対する重みを適用しても同等の効果を得ることができる。
(第2の実施形態)
以下、本発明の第2の実施形態の音声合成装置である素片接続型音声合成器について図9〜図10に基づいて説明する。
以下、本発明の第2の実施形態の音声合成装置である素片接続型音声合成器について図9〜図10に基づいて説明する。
第2の実施形態は、音声素片をピッチ波形に分解することなく、そのまま接続して合成音声波形を生成する場合において、複数の音声素片を時間軸方向に重ね合わせるときに互いの位相のズレを小さくすることを特徴とする。
つまり、図2の音声素片変形・接続部分22は、音声素片選択部2において選択された音声素片101をピッチ波形に分解せずに、必要に応じて入力韻律情報に基づく変形や重畳する際の重み付けなどを考慮してパワーを変化させるような変形を行い、接続区間においては複数の音声素片の一部または全てを重ね合わせて接続することで、合成音声波形102を出力する。
以下では、図9に示すように、この接続区間において先行音声素片と後続音声素片とを重ね合わせる際の処理を中心に説明する。その他の処理は、第1の実施形態と同様であり、詳細な説明は省略する。
(1)接続区間波形生成部1の構成
図10に、本実施形態に係る接続区間波形生成部1の構成例を示す。
図10に、本実施形態に係る接続区間波形生成部1の構成例を示す。
基本的な処理の内容や流れについては、第1の実施形態と同様であるが、入力がピッチ波形ではなく音声素片波形であり、帯域分割部10や相互相関計算部11、帯域波形重畳部14、帯域統合部13の各処理でも音声素片波形を扱うという部分が異なる。なお、ここでは、先行音声素片160と後続音声素片170とを接続するという場合を例にとって説明する。
(1−1)帯域分割部10
帯域分割部10では、先行音声素片160と後続音声素片170とを低周波数帯域と高周波数帯域の2つの周波数帯域に分割し、それぞれの帯域音声素片161、162、171、172を生成する。
帯域分割部10では、先行音声素片160と後続音声素片170とを低周波数帯域と高周波数帯域の2つの周波数帯域に分割し、それぞれの帯域音声素片161、162、171、172を生成する。
(1−2)相互相関計算部11
相互相関計算部11は、低域と高域のそれぞれの帯域音声素片に対して、帯域毎にそれぞれ別々に相互相関を計算し、重ね合わせる2つの音声素片からの帯域音声素片の相互相関が高くなるように、すなわち帯域毎の位相のズレが小さくなるように重畳位置140及び150を決定する。
相互相関計算部11は、低域と高域のそれぞれの帯域音声素片に対して、帯域毎にそれぞれ別々に相互相関を計算し、重ね合わせる2つの音声素片からの帯域音声素片の相互相関が高くなるように、すなわち帯域毎の位相のズレが小さくなるように重畳位置140及び150を決定する。
例えば、先行音声素片の後半部分と後続音声素片の前半部分とを接続部分で重ね合わせる場合には、低域については、先行音声素片からの帯域音声素片161の後半部分の音声波形に対して、後続音声素片からの帯域音声素片171の前半部分を重ね合わせるとして相互相関を計算し、ある探索範囲内で最も相互相関が高くなる位置を算出することによって、重畳位置140を決定する。
(1−3)帯域波形重畳部14
帯域波形重畳部14は、各帯域について、相互相関計算部11で決定された重畳位置140または150に従って、帯域音声素片を重ね合わせることで、接続する音声素片の帯域毎の成分を重畳した波形である帯域重畳音声素片180及び190を出力する。
帯域波形重畳部14は、各帯域について、相互相関計算部11で決定された重畳位置140または150に従って、帯域音声素片を重ね合わせることで、接続する音声素片の帯域毎の成分を重畳した波形である帯域重畳音声素片180及び190を出力する。
(1−4)帯域統合部13
帯域統合部13は、帯域毎に重畳された帯域重畳音声素片180及び190を統合し、接続部分の音声波形200を出力する。
帯域統合部13は、帯域毎に重畳された帯域重畳音声素片180及び190を統合し、接続部分の音声波形200を出力する。
(2)効果
以上説明したように、本実施形態によれば、接続部分において複数の音声素片を重ね合わせるときに、第1の実施形態と同様な処理を音声素片に適用することによって、接続部分における音声素片間の位相のズレを、全周波数帯域において小さくすることができる。
以上説明したように、本実施形態によれば、接続部分において複数の音声素片を重ね合わせるときに、第1の実施形態と同様な処理を音声素片に適用することによって、接続部分における音声素片間の位相のズレを、全周波数帯域において小さくすることができる。
すなわち、接続部分においては、先行音声素片と後続音声素片の中間的なスペクトルを持つ位相差による歪の小さい波形を生成することができるため、スペクトル変化の不連続が少なく、また零位相化などの処理による音質の劣化も生じないため、結果として、明瞭で滑らかな合成音声を生成することが可能となる。
(3)変更例
(3−1)変更例1
上記の第1及び第2の実施形態では、各周波数帯域について、相互相関計算部11において、重ね合わせる帯域音声素片(もしくは帯域ピッチ波形)の相互相関を計算することによって、重畳位置を決定するとしたが、これに限定されるものではない。
(3−1)変更例1
上記の第1及び第2の実施形態では、各周波数帯域について、相互相関計算部11において、重ね合わせる帯域音声素片(もしくは帯域ピッチ波形)の相互相関を計算することによって、重畳位置を決定するとしたが、これに限定されるものではない。
例えば、相互相関計算部11の代わりに、重ね合わせるそれぞれの帯域音声素片(もしくは帯域ピッチ波形)について位相スペクトルを算出し、この位相スペクトルの差に基づいて重畳位置を決定するようにしてもよい。この場合、互いの位相スペクトルの差が小さくなるように帯域音声素片(もしくは帯域ピッチ波形)をシフトさせて重ね合わせることで、位相差による歪の小さい波形を生成することができる。
(3−2)変更例2
上記の第1及び第2の実施形態では、各帯域について、決定された重畳位置に従って複数の帯域音声素片(もしくは帯域ピッチ波形)を重ね合わせた重畳帯域音声素片(もしくは重畳帯域ピッチ波形)を生成し、その後、この各帯域の重畳帯域音声素片(もしくは重畳帯域ピッチ波形)を統合するという構成としたが、この処理手順はこれに限定されるものではない。
上記の第1及び第2の実施形態では、各帯域について、決定された重畳位置に従って複数の帯域音声素片(もしくは帯域ピッチ波形)を重ね合わせた重畳帯域音声素片(もしくは重畳帯域ピッチ波形)を生成し、その後、この各帯域の重畳帯域音声素片(もしくは重畳帯域ピッチ波形)を統合するという構成としたが、この処理手順はこれに限定されるものではない。
つまり、接続部分で用いる複数の音声素片(もしくはピッチ波形)を重ね合わせる処理と、帯域を統合する処理の順序は上記の例に限定されるものではない。
例えば、図11のように、接続部分において重ね合わせるそれぞれのピッチ波形120及び130について、先に各帯域ピッチ波形を帯域毎に決定された重畳位置に従ってシフトさせて統合することによって、各帯域において互いの位相のズレが小さい全周波数帯域の成分をもつピッチ波形123、133を生成し、その後、これらを重ね合わせることで、全周波数帯域において位相差による歪の小さい接続区間用のピッチ波形235を生成することもできる。
(3−3)変更例3
上記の第1及び第2の実施形態では、先行音声素片と後続音声素片の2つの音声波形を接続部分で重ね合わせるとしたが、これに限定されるものではない。
上記の第1及び第2の実施形態では、先行音声素片と後続音声素片の2つの音声波形を接続部分で重ね合わせるとしたが、これに限定されるものではない。
例えば、3つ以上の音声素片を重み付けして重ね合わせることも可能であり、その場合でも、帯域毎に、ある1つの音声素片の帯域音声素片(もしくは帯域ピッチ波形)に対して、残りの音声素片の帯域音声素片(もしくは帯域ピッチ波形)の位相のズレが小さくなるようにシフトさせて重ね合わせることで、位相差による歪の小さな音声波形を生成することができる。
(3−4)変更例4
上記の第1及び第2の実施形態では、接続部分において重ね合わせる先行音声素片と後続音声素片の双方に対して帯域分割処理を行うとしたが、これに限定されるものではない。
上記の第1及び第2の実施形態では、接続部分において重ね合わせる先行音声素片と後続音声素片の双方に対して帯域分割処理を行うとしたが、これに限定されるものではない。
ある程度の長さで区切られている音声波形の場合、各周波数帯域のそれぞれの波形の相関が低いため、どちらか一方の音声素片のみを帯域分割することでも、上記の実施形態とほぼ同等の効果を得ることができる。
例えば、後続音声素片についてのみを帯域分割し、後続音声素片の帯域音声素片と全周波数帯域の成分を持つ先行音声素片との相関が高くなるような重畳位置を探索することで、各帯域の位相のズレを小さくすることができ、先行音声素片に対して帯域分割などの処理を行わない分だけ計算量の削減ができる。
(第3の実施形態)
以下、本発明の第3の実施形態の音声処理装置である音声素片辞書作成装置について図12〜図14に基づいて説明する。
以下、本発明の第3の実施形態の音声処理装置である音声素片辞書作成装置について図12〜図14に基づいて説明する。
(1)音声素片辞書作成装置の構成
図12は、音声素片辞書作成装置の構成例を示す。
図12は、音声素片辞書作成装置の構成例を示す。
この音声素片辞書作成装置は、入力音声素片辞書20、帯域分割部10、帯域基準点修正部15、帯域統合部13、出力音声素片辞書29によって構成される。
(1−1)入力音声素片辞書20
入力音声素片辞書20には、大量の音声素片が格納されている。なお、ここでは、有声音の音声素片が1つ以上のピッチ波形から構成されている場合を例にとって以下の説明を行う。
入力音声素片辞書20には、大量の音声素片が格納されている。なお、ここでは、有声音の音声素片が1つ以上のピッチ波形から構成されている場合を例にとって以下の説明を行う。
(1−2)帯域分割部10
帯域分割部10は、入力音声素片辞書20のある音声素片中のピッチ波形310と予め設定されている基準音声波形300とを複数の周波数帯域に分割し、それぞれの帯域ピッチ波形311、312、及び、帯域基準音声波形301、302を生成する。
帯域分割部10は、入力音声素片辞書20のある音声素片中のピッチ波形310と予め設定されている基準音声波形300とを複数の周波数帯域に分割し、それぞれの帯域ピッチ波形311、312、及び、帯域基準音声波形301、302を生成する。
ここでは、上記の実施形態と同様に、高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の2つの帯域に分割する場合を例にとって説明する。
なお、ピッチ波形310と基準音声波形300とは、それぞれ上記したような基準点を保持しており、合成時にはこの基準点をターゲットピッチマーク位置に合わせてピッチ波形を重畳することで合成音声を生成するものとする。
また、各帯域に分割された帯域ピッチ波形及び帯域基準音声波形は、帯域分割前の波形の基準点の位置を帯域基準点として保持しているものとする。
(1−3)帯域基準点修正部15
帯域基準点修正部15は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関が最大となるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点320及び330を出力する。
帯域基準点修正部15は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関が最大となるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点320及び330を出力する。
(1−4)帯域統合部13
帯域統合部13は、修正帯域基準点320及び330に基づいて、帯域ピッチ波形311及び312を統合し、元のピッチ波形310に対して帯域毎の位相の修正を行ったピッチ波形313を出力する。
帯域統合部13は、修正帯域基準点320及び330に基づいて、帯域ピッチ波形311及び312を統合し、元のピッチ波形310に対して帯域毎の位相の修正を行ったピッチ波形313を出力する。
(2)音声素片辞書作成装置の処理
次に、音声素片辞書作成装置の処理について、図13のフローチャート、及び、本実施形態の動作を模式的に示した図14を用いて詳しく説明する。
次に、音声素片辞書作成装置の処理について、図13のフローチャート、及び、本実施形態の動作を模式的に示した図14を用いて詳しく説明する。
(2−1)ステップS31
まず、ステップS31において、帯域分割部10は、入力音声素片辞書20に含まれている一音声素片中のピッチ波形310、及び、予め設定されている基準音声波形300を、それぞれ低周波数帯域と高周波数帯域の2つの帯域の波形に分割する。
まず、ステップS31において、帯域分割部10は、入力音声素片辞書20に含まれている一音声素片中のピッチ波形310、及び、予め設定されている基準音声波形300を、それぞれ低周波数帯域と高周波数帯域の2つの帯域の波形に分割する。
ここで、「基準音声波形」とは、入力音声素片辞書20に含まれる音声素片(ピッチ波形)の互いの位相のズレをなるべく小さくするために、基準として用いる音声波形であり、位相合わせを行う全ての周波数帯域の信号成分を含んでいるものとする。
ここでは一例として、入力音声素片辞書20に含まれる全ピッチ波形のセントロイドを計算し、このセントロイドに最も近いピッチ波形を入力音声素片辞書20の中から選択したものとする。
また、基準音声波形は、予め入力音声素片辞書20に格納していてもよい。
以上のように、ピッチ波形310より帯域ピッチ波形311、312を、基準音声波形300より帯域基準音声波形301、302をそれぞれ生成し、次に図13のステップS32へ進む。
(2−2)ステップS32
ステップS32において、帯域基準点修正部15は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関がより高くなるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点320及び330とを出力する。
ステップS32において、帯域基準点修正部15は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関がより高くなるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点320及び330とを出力する。
つまり、上記の第1の実施形態で説明した相互相関計算部11と同様に、帯域毎に帯域ピッチ波形と帯域基準音声波形との相互相関を計算し、ある探索範囲内で相互相関が高くなるシフト位置、すなわち帯域毎に帯域基準音声波形に対する帯域ピッチ波形の位相のズレが小さくなるシフト位置を探索し、帯域ピッチ波形の帯域基準点を修正する。図14に例示するように、低域と高域のそれぞれについて、帯域ピッチ波形の帯域基準点を帯域基準音声波形との相関が最大となる位置にシフトさせることによって修正する。
以上のように、各帯域について、帯域ピッチ波形の帯域基準点を修正した修正帯域基準点320及び330をそれぞれ出力し、次に図13のステップS33へ進む。
(2−3)ステップS33
ステップS33において、帯域統合部13は、修正帯域基準点320及び330に基づいて、帯域ピッチ波形311及び312を帯域統合し、元のピッチ波形310に対して帯域毎の位相の修正を行ったピッチ波形313を出力する。
ステップS33において、帯域統合部13は、修正帯域基準点320及び330に基づいて、帯域ピッチ波形311及び312を帯域統合し、元のピッチ波形310に対して帯域毎の位相の修正を行ったピッチ波形313を出力する。
つまり、図14に例示するように、各帯域において帯域基準音声波形との相関が高くなるように修正された帯域基準点を合わせて、各帯域の成分である帯域ピッチ波形を統合することで、基準音声波形との位相のズレが全周波数帯域で小さくなったピッチ波形が再構成される。
以上の処理を入力音声素片辞書20に含まれる音声素片のピッチ波形に順次適用することで、ある基準音声波形に対して位相のズレが小さくなった音声素片を含む出力音声素片辞書29を生成することができる。この辞書を図2のような素片接続型音声合成器に用いることで、合成音声を生成することができる。
(3)効果
以上説明したように、本実施形態によれば、入力音声素片辞書20に含まれる音声素片の各ピッチ波形について、帯域分割部10で複数の周波数帯域に分割し、帯域基準点修正部15によって帯域毎に基準音声波形との位相のズレを小さくするように基準点を修正してから、帯域統合部13で修正した基準点を合わせてピッチ波形を再構成することで、ある基準音声波形に対する位相のズレを、全周波数帯域において小さくすることが可能となる。
以上説明したように、本実施形態によれば、入力音声素片辞書20に含まれる音声素片の各ピッチ波形について、帯域分割部10で複数の周波数帯域に分割し、帯域基準点修正部15によって帯域毎に基準音声波形との位相のズレを小さくするように基準点を修正してから、帯域統合部13で修正した基準点を合わせてピッチ波形を再構成することで、ある基準音声波形に対する位相のズレを、全周波数帯域において小さくすることが可能となる。
そのため、出力音声素片辞書29に含まれる音声素片の各ピッチ波形は、ある基準音声波形に対する位相のズレが小さくなっており、結果として、互いの音声素片の位相のズレが全周波数帯域において小さくなっていることになる。
すなわち、素片接続型音声合成器に対して、本実施形態による処理を適用した音声素片辞書を用いることで、接続部分において複数の音声素片を重ね合わせるときに、位相合わせなどの特別な処理を追加することなく、それぞれの音声素片(ピッチ波形)を基準点に従って重ね合わせるだけで音声素片間の位相のズレが全周波数帯域で小さくなっており、接続部分においても位相差による歪の小さい波形を生成することが可能となる。
また、零位相化などの処理によって、元の位相情報を削って強制的に位相を揃える場合に問題となる音質の劣化も発生しない。つまり、合成時の処理量の制限が厳しい場合などでも、新たなオンラインでの処理を追加することなく、接続部分で重ね合わせる音声素片の位相のズレに起因するスペクトル変化の不連続が少ない、明瞭で滑らかな合成音声の生成ができる。
(4)変更例
(4−1)変更例1
上記の第3の実施形態では、有声音の音声素片辞書が1つ以上のピッチ波形から構成されており、各ピッチ波形に対して基準音声波形との位相合わせを行うとしたが、音声素片の構成はこれに限定されるものではない。
(4−1)変更例1
上記の第3の実施形態では、有声音の音声素片辞書が1つ以上のピッチ波形から構成されており、各ピッチ波形に対して基準音声波形との位相合わせを行うとしたが、音声素片の構成はこれに限定されるものではない。
例えば、音声素片が音素単位の音声波形であり、合成時に音声素片を時間軸方向に、重ね合わせるための基準点を保持している場合に、音声素片全体もしくは接続部分において重ね合わせられることが想定される区間に対して、ある基準音声波形との位相のズレが全周波数帯域において小さくなるように上記の処理を適用し、音声素片辞書に含まれる音声素片間の位相のズレを小さくすることもできる。
(4−2)変更例2
上記の第3の実施形態では、基準音声波形は入力音声素片辞書20に含まれる全ピッチ波形のセントロイドに最も近いピッチ波形としたが、これに限定されるものではない。
上記の第3の実施形態では、基準音声波形は入力音声素片辞書20に含まれる全ピッチ波形のセントロイドに最も近いピッチ波形としたが、これに限定されるものではない。
位相合わせを行う周波数帯域の信号成分を含んでいるもので、位相合わせを行う対象の音声素片(もしくはピッチ波形)に対して極端に偏った波形でなければよく、例えば、音声素片辞書中の全ピッチ波形のセントロイドそのものを利用することもできる。
(4−3)変更例3
上記の第3の実施形態では、ある1種類の基準音声波形に対して位相合わせの処理を行うとしたが、これに限定されるものではない。
上記の第3の実施形態では、ある1種類の基準音声波形に対して位相合わせの処理を行うとしたが、これに限定されるものではない。
例えば、音韻環境毎などで複数の異なる基準音声波形を用いることもできる。ただし、合成時に接続される(接続部分で重ね合わせられる)可能性のある音声素片の接続対象区間(もしくはピッチ波形)に対しては、同じ基準音声波形を用いて位相合わせが行われることが望ましい。
(4−4)変更例4
上記の第3の実施形態では、基準音声波形に対しても帯域分割処理を行うという構成としたが、これに限定されるものではない。
上記の第3の実施形態では、基準音声波形に対しても帯域分割処理を行うという構成としたが、これに限定されるものではない。
例えば、図15のように、予め低域用と高域用のそれぞれの帯域基準音声波形を用意しておき、これらを入力として以降の処理を行うこともできる。
(4−5)変更例5
上記の第3の実施形態では、音声素片(もしくはピッチ波形)に付与された基準点をシフトさせることで、位相合わせを行う(位相のズレを小さくする)としたが、これに限定されるものではない。
上記の第3の実施形態では、音声素片(もしくはピッチ波形)に付与された基準点をシフトさせることで、位相合わせを行う(位相のズレを小さくする)としたが、これに限定されるものではない。
例えば、基準点を音声素片(もしくはピッチ波形)の中央などに固定としておき、波形の端にゼロを詰めるなどして波形をシフトさせても同じ効果が得られる。
(4−6)変更例6
上記の第3の実施形態では、各周波数帯域について、帯域基準点修正部15において、帯域基準音声波形と帯域ピッチ波形の相互相関を計算することによって、各帯域ピッチ波形の帯域基準点を決定するとしたが、これに限定されるものではない。
上記の第3の実施形態では、各周波数帯域について、帯域基準点修正部15において、帯域基準音声波形と帯域ピッチ波形の相互相関を計算することによって、各帯域ピッチ波形の帯域基準点を決定するとしたが、これに限定されるものではない。
例えば、各帯域ピッチ波形(もしくは帯域音声素片)と帯域基準音声波形について位相スペクトルを算出し、この位相スペクトルの差に基づいて各帯域基準点を決定するようにしてもよい。この場合、互いの位相スペクトルの差が小さくなるように各帯域ピッチ波形(もしくは帯域音声素片)をシフトさせることで、基準音声波形に対する位相のズレを、全周波数帯域において小さくすることができる。
(4−7)変更例7
上記の第3の実施形態では、入力音声素片辞書20に含まれている基準点を修正することで、各帯域基準点を決定するとしたが、これに限定されるものではない。
上記の第3の実施形態では、入力音声素片辞書20に含まれている基準点を修正することで、各帯域基準点を決定するとしたが、これに限定されるものではない。
例えば、入力音声素片辞書20のピッチ波形(もしくは音声素片)に基準点が付与されていない場合は、図12もしくは図15の帯域基準点修正部15において、各帯域ピッチ波形(もしくは帯域音声素片)と帯域基準音声波形の相互相関係数が極大もしくは最大となる位置、または位相スペクトルの差が極小もしくは最小となる位置に対して、帯域基準音声波形の例えば中心点などを新たに各帯域基準点として設定することで、各帯域の帯域基準点を合わせるようにシフトして統合することにより、基準音声波形との位相のズレが全周波数帯域で小さくなったピッチ波形(もしくは音声素片)を生成することが可能である。
(4−8)変更例8
上記の第1、第2及び第3の実施形態では、帯域分割のときに、音声素片(もしくはピッチ波形)を高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の2つの帯域に分割するとしたが、これに限定されるものではなく、さらに多くの帯域に分割してもよく、また、各帯域の帯域幅が異なっていてもよい。
上記の第1、第2及び第3の実施形態では、帯域分割のときに、音声素片(もしくはピッチ波形)を高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の2つの帯域に分割するとしたが、これに限定されるものではなく、さらに多くの帯域に分割してもよく、また、各帯域の帯域幅が異なっていてもよい。
例えば、図16に示すように帯域幅の異なる4つの帯域に分割してもよい。この場合、低域側の帯域幅をより小さくすることで、より効果的な帯域分割が可能となる。
(4−9)変更例9
上記の第1、第2及び第3の実施形態では、帯域分割を行った全ての周波数帯域について位相合わせを行うとしたが、これに限定されるものではない。
上記の第1、第2及び第3の実施形態では、帯域分割を行った全ての周波数帯域について位相合わせを行うとしたが、これに限定されるものではない。
例えば、複数の帯域に分割し、比較的位相がランダムとなる高周波数成分はそのままで、低域〜中域の帯域音声素片(もしくは帯域ピッチ波形)に対してのみ、位相のズレを小さくするために上記の処理を適用することもできる。
(4−10)変更例10
位相のズレを小さくするために基準点もしくは波形をシフトさせる範囲(相互相関や位相スペクトルの差を計算する探索範囲)を、帯域毎に変えることもできる。
位相のズレを小さくするために基準点もしくは波形をシフトさせる範囲(相互相関や位相スペクトルの差を計算する探索範囲)を、帯域毎に変えることもできる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。
例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
10 帯域分割部
11 相互相関計算部
12 帯域ピッチ波形重畳部
13 帯域統合部
14 帯域波形重畳部
15 帯域基準点修正部
16 波形重畳部
20 音声素片辞書
21 音声素片選択部
22 音声素片変形・接続部分
11 相互相関計算部
12 帯域ピッチ波形重畳部
13 帯域統合部
14 帯域波形重畳部
15 帯域基準点修正部
16 波形重畳部
20 音声素片辞書
21 音声素片選択部
22 音声素片変形・接続部分
Claims (14)
- 第1の音声素片の一部である第1の音声波形と第2の音声素片の一部である第2の音声波形とを重ね合わせることにより、前記第1の音声素片と前記第2の音声素片とを接続する音声処理装置において、
前記第1の音声波形と前記第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成する分割部と、
前記第1の帯域音声波形と前記第2の帯域音声波形の相互相関が高くなるように、または、前記第1の帯域音声波形と前記第2の帯域音声波形の位相スペクトルの差が小さくなるように、前記第1の帯域音声波形と前記第2の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定部と、
前記第1の帯域音声波形と前記第2の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合部と、
を有する音声処理装置。 - 前記音声波形が、有声音部分から抽出したピッチ波形である、
請求項1記載の音声処理装置。 - 前記位置決定部は、前記第1の帯域音声波形と前記第2の帯域音声波形の相互相関係数が極大もしくは最大となるように、前記第1の帯域音声波形、または、前記第2の帯域音声波形をシフトさせるための位置を前記重畳位置と決定する、
請求項1記載の音声処理装置。 - 前記位置決定部は、前記第1の帯域音声波形と前記第2の帯域音声波形の位相スペクトルの差が極小もしくは最小となるように、前記第1の帯域音声波形、または、前記第2の帯域音声波形をシフトさせるための位置を前記重畳位置と決定する、
請求項1記載の音声処理装置。 - 複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第1の辞書と、
前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割部と、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を記憶する基準波形記憶部と、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正部と、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成部と、
を有する音声処理装置。 - 前記音声波形が、有声音部分から抽出したピッチ波形である、
請求項5記載の音声処理装置。 - 前記位置修正部は、前記帯域音声波形と前記帯域基準音声波形との相互相関係数が極大もしくは最大となるように、前記基準点を修正して前記帯域基準点を求める、
請求項5記載の音声処理装置。 - 前記位置修正部は、前記帯域音声波形と前記帯域基準音声波形との位相スペクトルの差が極小もしくは最小となるように、前記基準点を修正して前記帯域基準点を求める、
請求項5記載の音声処理装置。 - 前記基準波形記憶部は、外部から与えられる前記帯域基準音声波形を記憶しているか、または、前記第1の辞書に格納されている前記音声波形を利用して生成する前記帯域基準音声波形を記憶している、
請求項5記載の音声処理装置。 - 前記再構成部は、前記再構成した音声波形と、前記帯域基準点に対応した新たな基準点とを格納した第2の辞書を生成する、
請求項5記載の音声処理装置。 - 第1の音声素片の一部である第1の音声波形と第2の音声素片の一部である第2の音声波形とを重ね合わせることにより、前記第1の音声素片と前記第2の音声素片とを接続する音声処理方法において、
前記第1の音声波形と前記第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成する分割ステップと、
前記第1の帯域音声波形と前記第2の帯域音声波形の相互相関が高くなるように、または、前記第1の帯域音声波形と前記第2の帯域音声波形の位相スペクトルの差が小さくなるように、前記第1の帯域音声波形と前記第2の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定ステップと、
前記第1の帯域音声波形と前記第2の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合ステップと、
を有する音声処理方法。 - 複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第1の辞書から、前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割ステップと、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成ステップと、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正ステップと、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成ステップと、
を有する音声処理方法。 - 第1の音声素片の一部である第1の音声波形と第2の音声素片の一部である第2の音声波形とを重ね合わせることにより、前記第1の音声素片と前記第2の音声素片とを接続する音声処理プログラムにおいて、
前記第1の音声波形と前記第2の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第1の帯域音声波形と第2の帯域音声波形をそれぞれ生成する分割機能と、
前記第1の帯域音声波形と前記第2の帯域音声波形の相互相関が高くなるように、または、前記第1の帯域音声波形と前記第2の帯域音声波形の位相スペクトルの差が小さくなるように、前記第1の帯域音声波形と前記第2の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定機能と、
前記第1の帯域音声波形と前記第2の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合機能と、
をコンピュータによって実現する音声処理プログラム。 - 複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第1の辞書から、前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割機能と、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成機能と、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正機能と、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成機能と、
をコンピュータによって実現する音声処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007282944A JP2009109805A (ja) | 2007-10-31 | 2007-10-31 | 音声処理装置及びその方法 |
US12/219,385 US20090112580A1 (en) | 2007-10-31 | 2008-07-21 | Speech processing apparatus and method of speech processing |
CNA200810179911XA CN101425291A (zh) | 2007-10-31 | 2008-10-31 | 语音处理装置及语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007282944A JP2009109805A (ja) | 2007-10-31 | 2007-10-31 | 音声処理装置及びその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009109805A true JP2009109805A (ja) | 2009-05-21 |
Family
ID=40583994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007282944A Pending JP2009109805A (ja) | 2007-10-31 | 2007-10-31 | 音声処理装置及びその方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090112580A1 (ja) |
JP (1) | JP2009109805A (ja) |
CN (1) | CN101425291A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012225950A (ja) * | 2011-04-14 | 2012-11-15 | Yamaha Corp | 音声合成装置 |
JP2017167526A (ja) * | 2016-03-14 | 2017-09-21 | 株式会社東芝 | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011080855A1 (ja) * | 2009-12-28 | 2011-07-07 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
US9236058B2 (en) | 2013-02-21 | 2016-01-12 | Qualcomm Incorporated | Systems and methods for quantizing and dequantizing phase information |
CN105139863B (zh) * | 2015-06-26 | 2020-07-21 | 司法鉴定科学研究院 | 一种音频频域连续性图谱计算方法 |
US9685170B2 (en) * | 2015-10-21 | 2017-06-20 | International Business Machines Corporation | Pitch marking in speech processing |
CN106970771B (zh) | 2016-01-14 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 音频数据处理方法和装置 |
US10937418B1 (en) * | 2019-01-04 | 2021-03-02 | Amazon Technologies, Inc. | Echo cancellation by acoustic playback estimation |
CN110365418B (zh) * | 2019-07-11 | 2022-04-29 | 山东研诚信息科技有限公司 | 一种超声波信息传输方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335095A (ja) * | 1995-06-02 | 1996-12-17 | Matsushita Electric Ind Co Ltd | 音声波形接続方法 |
JPH0944191A (ja) * | 1995-05-25 | 1997-02-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JP2003223180A (ja) * | 2002-01-31 | 2003-08-08 | Toshiba Corp | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 |
JP2005164749A (ja) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | 音声合成方法、音声合成装置および音声合成プログラム |
JP2006084859A (ja) * | 2004-09-16 | 2006-03-30 | Advanced Telecommunication Research Institute International | 音声合成方法及び音声合成プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
DE69925932T2 (de) * | 1998-11-13 | 2006-05-11 | Lernout & Hauspie Speech Products N.V. | Sprachsynthese durch verkettung von sprachwellenformen |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
-
2007
- 2007-10-31 JP JP2007282944A patent/JP2009109805A/ja active Pending
-
2008
- 2008-07-21 US US12/219,385 patent/US20090112580A1/en not_active Abandoned
- 2008-10-31 CN CNA200810179911XA patent/CN101425291A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944191A (ja) * | 1995-05-25 | 1997-02-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH08335095A (ja) * | 1995-06-02 | 1996-12-17 | Matsushita Electric Ind Co Ltd | 音声波形接続方法 |
JP2003223180A (ja) * | 2002-01-31 | 2003-08-08 | Toshiba Corp | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 |
JP2005164749A (ja) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | 音声合成方法、音声合成装置および音声合成プログラム |
JP2006084859A (ja) * | 2004-09-16 | 2006-03-30 | Advanced Telecommunication Research Institute International | 音声合成方法及び音声合成プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012225950A (ja) * | 2011-04-14 | 2012-11-15 | Yamaha Corp | 音声合成装置 |
JP2017167526A (ja) * | 2016-03-14 | 2017-09-21 | 株式会社東芝 | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 |
Also Published As
Publication number | Publication date |
---|---|
US20090112580A1 (en) | 2009-04-30 |
CN101425291A (zh) | 2009-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009109805A (ja) | 音声処理装置及びその方法 | |
US8175881B2 (en) | Method and apparatus using fused formant parameters to generate synthesized speech | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
US20110087488A1 (en) | Speech synthesis apparatus and method | |
JPS62160495A (ja) | 音声合成装置 | |
JP2009163121A (ja) | 音声処理装置及びそのプログラム | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
US7596497B2 (en) | Speech synthesis apparatus and speech synthesis method | |
US20090326951A1 (en) | Speech synthesizing apparatus and method thereof | |
EP1369846B1 (en) | Speech synthesis | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP4332323B2 (ja) | 音声合成方法および装置並びに辞書生成方法および装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3897654B2 (ja) | 音声合成方法および装置 | |
JPH09510554A (ja) | 言語合成 | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JP2007052456A (ja) | 音声合成用辞書生成方法及び装置 | |
Shipilo et al. | Parametric speech synthesis and user interface for speech modification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130108 |