JP3540159B2 - 音声変換装置及び音声変換方法 - Google Patents
音声変換装置及び音声変換方法 Download PDFInfo
- Publication number
- JP3540159B2 JP3540159B2 JP17191198A JP17191198A JP3540159B2 JP 3540159 B2 JP3540159 B2 JP 3540159B2 JP 17191198 A JP17191198 A JP 17191198A JP 17191198 A JP17191198 A JP 17191198A JP 3540159 B2 JP3540159 B2 JP 3540159B2
- Authority
- JP
- Japan
- Prior art keywords
- spectral shape
- formant
- target
- original
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
この発明は、入力音声を他の音声に変換して出力する音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置及び音声変換方法に関する。
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものがある(例えば、特表平8−508581号公報参照)。
【0002】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、単に歌声のピッチを変換しているだけであるため、聴感上自然な音声が得られないという問題点があった。
そこで、本発明の目的は、音声変換を行うに際し、聴感上自然な音声を容易に得ることが可能な音声変換装置及び音声変換方法を提供することにある。
【0003】
【課題を解決するための手段】
上記課題を解決するため、請求項1記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【0004】
請求項2記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【0005】
請求項3記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【0006】
請求項4記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【0007】
請求項5記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、前記入力音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、前記シフト量設定手段は、前記ターゲットフォルマントの第1フォルマントである第1ターゲットフォルマント及び前記元フォルマントの第1フォルマントである第1元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【0008】
請求項6記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、前記シフト量設定手段は、前記ターゲットフォルマントの第1フォルマントである第1ターゲットフォルマント及び前記元フォルマントの第1フォルマントである第1元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【0009】
請求項7記載の構成は、請求項5または請求項6記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマントの第1ターゲットフォルマント〜第nターゲットフォルマント(n=2以上の自然数)で構成されるターゲットフォルマント群及び前記元フォルマントの第1フォルマント〜第nフォルマントで構成される元フォルマント群に基づいて前記一定値である設定シフト量を算出することを特徴としている。
請求項8記載の構成は、請求項7記載の音声変換装置において、前記シフト量設定手段は、前記ターゲットフォルマント群を構成するターゲットフォルマントの周波数を算術平均して得られるターゲット基準位置及び前記元フォルマント群を構成する元フォルマントの周波数を算術平均して得られる元基準位置の差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【0010】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
[1] 実施形態の概要処理
始めに、実施形態の概要処理について説明する。
[1.1] ステップS1
まず、歌唱者(以下、元歌唱者(me)という)の音声(入力音声信号)をリアルタイムでFFT(Fast Fourie Transform)を含むSMS(Spectral ModelingSynthesis)分析を行い、フレーム単位で正弦波成分(Sine成分)を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分(Residual成分)を生成する。これと並行して入力音声信号が無声音(含む無音)か否かを判別し、無声音である場合には、以下のステップS2〜ステップS5の処理は行わず、入力音声信号をそのまま出力することとなる。
この場合において、SMS分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
【0011】
[1.2] ステップS2
次に入力音声信号が有声音である場合には、抽出した正弦波成分からさらに元属性(Attribute)データであるピッチ(Pitch)、アンプ(Amplitude)及び元スペクトラル・シェイプ(Spectral Shape)を抽出する。
[1.3] ステップS3
予め記憶(保存)してある音声変換処理に用いる対象(Target)となる歌唱者(以下、ターゲット歌唱者という。)の属性データ(ターゲット属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)から、元歌唱者(me)の入力音声信号のフレームに対応するフレームのターゲット属性データ(=ピッチ、アンプ及びターゲットスペクトラル・シェイプ)を取り出す。
【0012】
[1.4] ステップS4
次に元歌唱者(me)に対応する元属性データ及びターゲット歌唱者に対応するターゲット属性データに基づいて、元スペクトラル・シェイプをシフトして得られるシフト元スペクトラル・シェイプに基づいて変換スペクトラル・シェイプを生成し、この生成した変換スペクトラル・シェイプ及びターゲット音声信号から予め抽出した正弦波成分に含まれる周波数成分(あるいは、入力音声信号から抽出した正弦波成分に含まれる周波数成分)に基づいて新たな正弦波成分情報を生成する。
【0013】
この場合において、ターゲットスペクトラル・シェイプを周波数軸方向にシフトさせる際のシフト量は、元歌唱者のスペクトラルシェイプから検出したフォルマントである元フォルマント及びターゲットスペクトラルシェイプから検出したフォルマントであるターゲットフォルマントに基づいて算出する。
[1.5] ステップS5
つづいて得られた新たな正弦波成分情報の逆FFTを行い、変換音声信号を得る。
【0014】
[1.6] まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、元歌唱者の歌声が、あたかも、別の歌唱者が歌った自然な歌声のようになるとともに、元スペクトラル・シェイプの周波数軸方向へのシフト量は自動的に設定されるため、変換音声信号の調整の手間が簡略化される。
【0015】
[2] 実施形態の詳細構成
図1及び図2に、実施形態の詳細構成図を示す。なお、本実施形態は、本発明による音声変換装置(音声変換方法)をカラオケ装置に適用し、より自然な音声変換を行うことができるカラオケ装置として構成した場合の例である。
図1において、マイク1は、元歌唱者(me)の声を収集し、入力音声信号Svとして入力音声信号切出部3に出力する。
これと並行して、分析窓生成部2は、前回のフレームで検出したピッチの周期の固定倍(例えば、3.5倍など)の周期を有する分析窓(例えば、ハミング窓)AWを生成し、入力音声信号切出部3に出力する。なお、初期状態あるいは前回のフレームが無声音(含む無音)の場合には、予め設定した固定周期の分析窓を分析窓AWとして入力音声信号切出部3に出力する。
【0016】
これらにより入力音声信号切出部3は、入力された分析窓AWと入力音声信号Svとを掛け合わせ、入力音声信号Svをフレーム単位で切り出し、フレーム音声信号FSvとして高速フーリエ変換部4に出力される。
より具体的には、入力音声信号Svとフレームとの関係は、図3に示すようになっており、各フレームFLは、前のフレームFLと一部重なるように設定されている。
そして、高速フーリエ変換部4においてフレーム音声信号FSvは、解析処理されるとともに、図4に示すように、高速フーリエ変換部4の出力である周波数スペクトルからピーク検出部5によりローカルピークが検出される。
【0017】
より具体的には、図4に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ(振幅)値の組み合わせとして表される。
すなわち、図4に示すように、(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)というように各フレームについてローカルピークが検出され、表されることとなる。
そして、図3に模式的に示すように、各フレーム毎に一組(以下、ローカルピーク組という。)として無声/有声検出部6及びピーク連携部8に出力される。
【0018】
無声/有声検出部6は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出(‘t’、‘k’等)し、無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部22及びクロスフェーダ30に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出(‘s’等)し、元無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部22及びクロスフェーダ30に出力する。
さらに無声/有声検出部6は、入力されたフレームが無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部7に出力する。
【0019】
ピッチ検出部7は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチPmeを検出する。
より具体的なフレームのピッチPmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:”Fundamental Frequency Estimation of Musical Signal using a two−way Mismatch Procedure”(Journal of Acounstical Society of America95(4):2254−2263)に開示されているような方法で行う。
次に、ピーク検出部5から出力されたローカルピーク組は、ピーク連携部8において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
【0020】
ここで、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフレームにおいて検出され、図5(B)に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、ピーク連携部8は、前回のフレームで検出された各ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図5の例では、ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)……については、対応するローカルピークが検出されているが、ローカルピーク(FK、AK)については(図5(A)参照)、対応するローカルピーク(図5(B)参照)は検出されていない。
【0021】
ピーク連携部8は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図6は、複数のフレームにわたるローカルピークの周波数F0及び周波数F1の変化の一例を示している。
【0022】
このような変化は、アンプ(振幅)A0、A1、A2、……についても同様に認められる。この場合、ピーク連携部8から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
なお、ピーク連携部8から出力されるピーク値を、以後において、確定成分という。これは、元の信号(すなわち、音声信号Sv)のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波(厳密には、正弦波のパラメータである周波数及びアンプ(振幅))の各々については、正弦波成分と呼ぶことにする。
【0023】
次に、補間合成部9は、ピーク連携部8から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部34が出力する最終出力信号のサンプリングレート(例えば、44.1KHz)に対応した間隔で行われる。前述した図6に示す実線は、正弦波成分の周波数F0、F1について補間処理が行われた場合のイメージを示している。
【0024】
[2.1] 補間合成部の構成
ここで、補間合成部9の構成を図8に示す。
補間合成部9は、複数の部分波形発生部9aを備えて構成されており、各部分波形発生部9aは、指定された正弦波成分の周波数(F0、F1、…)およびアンプ(振幅)に応じた正弦波を発生する。ただし、本第1実施形態における正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部9aから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部8からは正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部9aは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部9aから出力された波形は、加算部9bにおいて加算合成される。したがって、補間合成部9の出力信号は、入力音声信号Svから確定成分を抽出した正弦波成分合成信号SSSになる。
【0025】
[2.2] 残差成分検出部の動作
次に、残差成分検出部10は、補間合成部9から出力された正弦波成分合成信号SSSと入力音声信号Svとの偏差である残差成分信号SRD(時間波形)を生成する。この残差成分信号SRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号SSSは有声成分に対応するものである。
ところで、目標(Target)となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
【0026】
そこで、本実施形態においては、有声母音成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号SRDについては、高速フーリエ変換部11で、周波数波形に変換し、得られた残差成分信号(周波数波形)をRme(f)として残差成分保持部12に保持しておく。
【0027】
[2.3] 平均アンプ演算部の動作
一方、図7(A)に示すように、ピーク検出部5からピーク連携部8を介して出力された正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……、(F(N−1)、A(N−1))のN個の正弦波成分(以下、これらをまとめてFn、Anと表記する。n=0〜(N−1)。)は、正弦波成分保持部13に保持されるとともに、アンプAnは平均アンプ演算部14に入力され、各フレーム毎に次式により平均アンプAmeが算出される。
Ame=Σ(An)/N
【0028】
[2.4] アンプ正規化部の動作
次にアンプ正規化部15において、次式により各アンプAnを平均アンプAmeで正規化し、正規化アンプA’nを求める。
A’n=An/Ame
[2.5] スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部16において、図7(B)に示すように、周波数Fn及び正規化アンプA’nにより得られる正弦波成分(Fn、A’n)をブレークポイントとするエンベロープ(包絡線)をスペクトラル・シェイプSme(f)として生成する。
【0029】
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【0030】
[2.6] ピッチ正規化部の動作
続いてピッチ正規化部17においては、各周波数Fnをピッチ検出部7において検出したピッチPmeで正規化し、正規化周波数F’nを求める。
F’n=Fn/Pme
これらの結果、元フレーム情報保持部18は、入力音声信号Svに含まれる正弦波成分に対応する元属性データである平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)、正規化周波数F’nを保持することとなる。
なお、この場合において、正規化周波数F’nは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【0031】
この場合において、男声/女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声/女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部18に保持している元属性データのうち、平均アンプAmeおよびピッチPmeについては、さらに静的変化/ビブラート的変化分離部19により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【0032】
より具体的には、平均アンプAmeを平均アンプ静的成分Ame−sta及び平均アンプビブラート的成分Ame−vibとに分離して保持する。
また、ピッチPmeをピッチ静的成分Pme−sta及びピッチビブラート的成分Pme−vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データINFmeは、図7(C)に示すように、入力音声信号Svの正弦波成分に対応する元属性データである平均アンプ静的成分Ame−sta、平均アンプビブラート的成分Ame−vib、ピッチ静的成分Pme−sta、ピッチビブラート的成分Pme−vib、スペクトラル・シェイプSme(f)、正規化周波数F’n及び残差成分Rme(f)の形で保持されることとなる。
【0033】
一方、ものまねの対象(target)となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データINFtarは、予め分析されてターゲットフレーム情報保持部20を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データINFtarのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Atar−sta、平均アンプビブラート的成分Atar−vib、ピッチ静的成分Ptar−sta、ピッチビブラート的成分Ptar−vib、スペクトラル・シェイプStar(f)がある。
また、ターゲットフレーム情報データINFtarのうち、残差成分に対応するターゲット属性データとしては、残差成分Rtar(f)がある。
【0034】
[2.7] キーコントロール/テンポチェンジ部の動作
次にキーコントロール/テンポチェンジ部21は、シーケンサ31からの同期信号SSYNCに基づいて、ターゲットフレーム情報保持部20から同期信号SSYNCに対応するフレームのターゲットフレーム情報INFtarの読出処理及び読み出したターゲットフレーム情報データINFtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報INFtarおよび当該フレームが無声であるか有声であるかを表すターゲット無声/有声検出信号U/Vtarを出力する。
【0035】
より具体的には、キーコントロール/テンポチェンジ部21の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ptar−sta及びピッチビブラート的成分Ptar−vibについても、同じだけ上げ下げする補正処理を行う。例えば、50[cent]だけキーを上げた場合には、ピッチ静的成分Ptar−sta及びピッチビブラート的成分Ptar−vibについても50[cent]だけ上げなければならない。
また、キーコントロール/テンポチェンジ部21の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データINFtarの読み出し処理を行う必要がある。
【0036】
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データINFtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データINFtarを読み出し、これら二つのターゲットフレーム情報データINFtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データINFtar、ひいては、ターゲット属性データを生成する。
この場合において、ビブラート的成分(平均アンプビブラート的成分Atar−vib及びピッチビブラート的成分Ptar−vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【0037】
[2.8] イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部22は、ものまねをしようとする歌唱者のフレーム(以下、元フレームという。)に元フレーム情報データINFmeが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム(以下、ターゲットフレームという。)にターゲットフレーム情報データINFtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データINFtarを当該ターゲットフレームのターゲットフレーム情報データINFtarとするイージーシンクロナイゼーション処理を行う。
そして、イージーシンクロナイゼーション処理部22は、後述する置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ(平均アンプ静的成分Atar−sync−sta、平均アンプビブラート的成分Atar−sync−vib、ピッチ静的成分Ptar−sync−sta、ピッチビブラート的成分Ptar−sync−vib及びスペクトラル・シェイプStar−sync(f))を変形スペクトラル・シェイプ生成部23に出力する。
【0038】
また、イージーシンクロナイゼーション処理部22は、後述する置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ(残差成分Rtar−sync(f))を残差成分選択部25に出力する。
このイージーシンクロナイゼーション処理部22における処理においても、ビブラート的成分(平均アンプビブラート的成分Atar−vib及びピッチビブラート的成分Ptar−vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【0039】
[2.8.1] イージーシンクロナイゼーション処理の詳細
ここで、図9及び図10を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図9は、イージーシンクロナイゼーション処理のタイミングチャートであり、図10はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部22は、シンクロナイゼーション処理の処理方法を表すシンクロナイゼーションモード=“0”とする(ステップS11)。このシンクロナイゼーションモード=“0”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtarが存在する通常処理の場合に相当する。
【0040】
そしてあるタイミングtにおける元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化したか否かを判別する(ステップS12)。
例えば、図9に示すように、タイミングt=t1においては、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している。
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している場合には(ステップS12;Yes)、タイミングtの前回のタイミングt−1における元無声/有声検出信号U/Vme(t−1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t−1)が無声(U)であるか否かを判別する(ステップS18)。
【0041】
例えば、図9に示すように、タイミングt=t0(=t1−1)においては、元無声/有声検出信号U/Vme(t−1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t−1)が無声(U)となっている。
ステップS18の判別において、元無声/有声検出信号U/Vme(t−1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t−1)が無声(U)となっている場合には(ステップS18;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“1”とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向(Backward)に存在するフレームのターゲットフレーム情報とする。
【0042】
例えば、図9に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“1”とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データbackwardとする。
そして、処理をステップS15に移行し、シンクロナイゼーションモード=“0”であるか否かを判別する(ステップS15)。
ステップS15の判別において、シンクロナイゼーションモード=“0”である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データINFtar−syncをターゲットフレーム情報データINFtar(t)とする。
INFtar−sync=INFtar(t)
【0043】
例えば、図9に示すようにタイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、
INFtar−sync=INFtar(t)
とする。
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データ(平均アンプ静的成分Atar−sync−sta、平均アンプビブラート的成分Atar−sync−vib、ピッチ静的成分Ptar−sync−sta、ピッチビブラート的成分Ptar−sync−vib、スペクトラル・シェイプStar−sync(f)及び残差成分Rtar−sync(f))は実質的には、以下の内容となる(ステップS16)。
Atar−sync−sta=Atar−sta
Atar−sync−vib=Atar−vib
Ptar−sync−sta=Ptar−sta
Ptar−sync−vib=Ptar−vib
Star−sync(f)=Star(f)
Rtar−sync(f)=Rtar(f)
【0044】
ステップS15の判別において、シンクロナイゼーションモード=”1”である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データINFtar−syncを置換用ターゲットフレーム情報データINFholdとする。
INFtar−sync=INFhold
【0045】
例えば、図9に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード=“1”となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar−syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P1を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データは、平均アンプ静的成分Atar−sync−sta、平均アンプビブラート的成分Atar−sync−vib、ピッチ静的成分Ptar−sync−sta、ピッチビブラート的成分Ptar−sync−vib、スペクトラル・シェイプStar−sync(f)及び残差成分Rtar−sync(f)となる(ステップS16)。
【0046】
また、図9に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード=“2”となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar−syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P2を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データは、平均アンプ静的成分Atar−sync−sta、平均アンプビブラート的成分Atar−sync−vib、ピッチ静的成分Ptar−sync−sta、ピッチビブラート的成分Ptar−sync−vib、スペクトラル・シェイプStar−sync(f)及び残差成分Rtar−sync(f)となる(ステップS16)。
【0047】
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化していない場合には(ステップS12;No)、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化しているか否かを判別する(ステップS13)。
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化している場合には(ステップS13;Yes)、タイミングtの前回のタイミングt−1における元無声/有声検出信号U/Vme(t−1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t−1)が有声(V)であるか否かを判別する(ステップS19)。
【0048】
例えば、図9に示すように、タイミングt3においてターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化し、タイミングt−1=t2〜t3においては、元無声/有声検出信号U/Vme(t−1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t−1)が有声(U)となっている。
ステップS18の判別において、元無声/有声検出信号U/Vme(t−1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t−1)が有声(V)となっている場合には(ステップS19;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“2”とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向(forward)に存在するフレームのターゲットフレーム情報とする。
【0049】
例えば、図9に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“2”とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データforwardとする。
そして、処理をステップS15に移行し、シンクロナイゼーションモード=“0”であるか否かを判別して(ステップS15)、以下、同様の処理を行う。
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化していない場合には(ステップS13;No)、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、あるいは、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化しているか否かを判別する(ステップS14)。
【0050】
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、または、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化している場合には(ステップS14;Yes)、シンクロナイゼーションモード=”0”とし、置換用ターゲットフレーム情報データINFholdを初期化(clear)し、処理をステップS15に移行して、以下、同様の処理を行う。
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化せず、かつ、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化していない場合には(ステップS14;No)、そのまま処理をステップS15に移行し、以下同様の処理を行う。
【0051】
[2.9] 変形スペクトラルシェイプ生成部の動作
続いて、変形スペクトラルシェイプ生成部23は、静的変化/ビブラート的変化分離部19から入力された入力音声信号Svの正弦波成分に対応する元属性データである平均アンプ静的成分Ame−sta、平均アンプビブラート的成分Ame−vib、ピッチ静的成分Pme−sta、ピッチビブラート的成分Pme−vib、元スペクトラル・シェイプSme(f)、正規化アンプA’n、イージーシンクロナイゼーション処理部22から入力された置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ(平均アンプ静的成分Atar−sync−sta、平均アンプビブラート的成分Atar−sync−vib、ピッチ静的成分Ptar−sync−sta、ピッチビブラート的成分Ptar−sync−vib及びターゲットスペクトラル・シェイプStar−sync(f))及びコントローラ29から入力される変形スペクトラル・シェイプ生成情報に基づいて、新しいスペクトラル・シェイプである変形スペクトラル・シェイプSnew(f)を生成する。
【0052】
変形スペクトラルシェイプの生成は、元歌唱者(me)に対応する元スペクトラル・シェイプを周波数軸方向に設定シフト量αだけシフトすることにより行う。
[2.9.1] 設定シフト量αの設定
まず、設定シフト量αの設定方法の説明に先立ち、フォルマントの検出方法について図16及び図17を参照して説明する。
【0053】
[2.9.1.1] 第1フォルマントFT1の検出
まず、第1フォルマントFT1の検出方法を、隣り合う二つの正弦波成分に対応する正規化アンプA’fK、A’fK−1の差ΔA’(fK−fK−1)の変化に基づいて行う場合について説明する。
第1フォルマントFT1の検出対象となる元スペクトラル・シェイプのピッチFT0〜第1フォルマントFT1近傍の状態を図16に示す。
まず、fk(k=0,1,2,3,…)(ただし、fK≦1.2[kHz]=第1フォルマントFT1上限値とする。)のKの値を増加させる。そして、ΔA’(fk−fk−1)の値を観察し、
ΔA’(fk−fk−1)≧0
の状態から
ΔA’(fk−fk−1)<0
に変化したときのKの値をnとする。これにより第1フォルマントFT1は、
FT1=fn
として検出することができる。
【0054】
この場合において、fk=1.2[kHz]となっても、第1フォルマントFT1を検出できなかった場合には、
FT1=1.2[kHz]
とする。このように構成することにより、誤検出による設定シフト量αの誤差があまり大きくならないようにしている。
[2.9.1.2] 第2フォルマントFT2ないし第mフォルマントFTmのフォルマントの検出
【0055】
次に、第2フォルマントFT2ないし第mフォルマントFTmのフォルマントの検出方法を、第1フォルマントFT1の検出と同様に隣り合う二つの正弦波成分に対応する正規化アンプA’fk、A’fk−1の差ΔA’(fk−fk−1)の変化に基づいて行う場合について第2フォルマントFT2を例として説明する。
第2フォルマントFT2の検出対象となる元スペクトラル・シェイプの第2フォルマントFT2近傍の状態を図17に示す。
まず、fk(k=0,1,2,3,…)(ただし、fk≦3.2[kHz]=第2フォルマントFT2上限値とする。)のkの値を増加させる。そして、ΔA’(fk−fk−1)の値を観察し、
ΔA’(fk−fk−1)<0
の状態から
ΔA’(fk−fk−1)≧0
に変化したときのkの値をpとする。これにより第1フォルマントFT1のピーク終端の周波数=fpとなる。
【0056】
次に再びkの値を増加させ、ΔA’(fk−fk−1)の値を観察し、
ΔA’(fk−fk−1)≧0
の状態から
ΔA’(fk−fk−1)<0
に変化したときのkの値をqとする。これにより第2フォルマントFT2は、
FT2=fq
として検出することができる。
【0057】
この場合において、fk=3.2[kHz]となっても、第2フォルマントFT2を検出できなかった場合には、
FT2=3.2[kHz]
とする。このように構成することにより、誤検出による設定シフト量αの誤差があまり大きくならないようにしている。
[2.9.1.3] 設定シフト量αの設定
上記手法により求めた、ターゲットスペクトラル・シェイプStar−sync(f)の第1フォルマントFT1tar及び元スペクトラル・シェイプSme(f)の第1フォルマントFT1meに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α=LFT1me/LFT1tar
である。ただし、
LFT1tar=log10(FT1tar)
LFT1me=log10(FT1me)
である。
【0058】
また、ターゲットスペクトラル・シェイプStar−sync(f)の第1フォルマントFT1tar及び第2フォルマントFT2tar並びに元スペクトラル・シェイプSme(f)の第1フォルマントFT1me及び第2フォルマントFT2meに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α=LFT12me’/LFT12tar’
である。ただし、
LFT12tar’=log10(FT1tar×FT2tar)/2
LFT12me’ =log10(FT1me×FT2me)/2
である。
【0059】
さらにターゲットスペクトラル・シェイプStar−sync(f)の第1フォルマントFT1taないし第mフォルマントFTmtar並びに元スペクトラル・シェイプSme(f)の第1フォルマントFT1meないし第mフォルマントFTmmeに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α=LFT12me”/LFT12tar”
である。ただし、
LFT12tar’=log10(FT1tar×FT2tar×……×FTmtar)/m
LFT12me’ =log10(FT1me×FT2me×……×FTmme)/m
である。
【0060】
この結果、例えば、男声(me)→女声(target)変換を行う場合には、設定シフト量αは、およそ以下の範囲の値となる。
1≦α≦2
また、女声(me)→男声(target)変換を行う場合には、設定シフト量αは、およそ以下の範囲の値となる。
0<α≦1
次に、より具体的に、変形スペクトラルシェイプSnew(f)の生成について説明する。
【0061】
[2.9.2] 男声→女声変換の場合
まず、ターゲット歌唱者が女性であり、元歌唱者が男性である場合について説明する。
図11にターゲット歌唱者である女性のスペクトラル・シェイプを示す。
HYPERLINK ”D:¥My Documents¥99#中間処理¥YAMAHA¥80699(音声変換装置)¥JP−A−2000−10597.files¥000013.gif” 図11に示すように、ターゲット歌唱者の正弦波成分に含まれる周波数成分は、ff0〜ffnで表されている。
図12に元歌唱者である男性のスペクトラル・シェイプを示す。また、各周波数成分ff0〜ffnに対応するアンプは、Aff0〜Affnで表されている。
この場合において、ターゲット歌唱者のアンプA(ff)=Aff0、Aff1、…、Affnは元のままで、周波数成分ff0〜ffnのみをα倍して、すなわち、定数αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って低域側にシフトすることにより変形スペクトラル・シェイプSnew(f)を生成する。
【0062】
すなわち、変形スペクトラル・シェイプに対応する周波数成分をfh0〜fhnと表すとすると、
fh0=α・ff0
fh1=α・ff1
fh2=α・ff2
……
fhn=α・ffn
とし、図14及び以下に示す変形正弦波成分群(=周波数成分及びアンプで表される正弦波成分の一群)により特定される変形スペクトラルシェイプSnew(f)を得る。
(fh0、Aff0)
(fh1、Aff1)
(fh2、Aff2)
……
(fh0、Aff0)
【0063】
[2.9.3] 女声→男声変換の場合
次に、ターゲット歌唱者が男性であり、元歌唱者が女性である場合について説明する。
図11に示した女性のスペクトラル・シェイプを元歌唱者のスペクトラル・シェイプとし、図12に示した男性のスペクトラル・シェイプをターゲット歌唱者のスペクトラルシェイプとする。
この場合において、ターゲット歌唱者のアンプA(fm)=Afm0、Afm1、…、Afmnは元のままで、周波数成分fm0〜fmnのみをα倍して、すなわち、αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って高域側にシフトすることにより変形スペクトラル・シェイプを生成する。
【0064】
すなわち、変形スペクトラル・シェイプに対応する周波数成分をfh0〜fhnと表すとすると、
fh0=α・fm0
fh1=α・fm1
fh2=α・fm2
……
fhn=α・fmn
とし、図13及び以下に示す変形正弦波成分群により特定される変形スペクトラルシェイプSnew(f)を得る。
(fh0、Afm0)
(fh1、Afm1)
(fh2、Afm2)
……
(fh0、Afm0)
【0065】
[2.10] 変形スペクトラル・シェイプ加工部の動作
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの良い音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプSnew(f)に関しては、このような状態をシミュレートすべく、図15に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
続いて、生成された変形スペクトラル・シェイプSnew(f)について、必要に応じてコントローラ29から入力される変形スペクトラル・シェイプ加工情報に基づいて、変形スペクトラル・シェイプ加工部24によりさらなる波形の加工を行う。例えば、変形スペクトラル・シェイプSnew(f)を全体的に間延びさせる等の波形加工を行う。
【0066】
[2.11] 残差成分選択部の動作
一方、残差成分選択部25は、イージーシンクロナイゼーション処理部22から入力された置換済ターゲットフレーム情報データINFtar−syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ(残差成分Rtar−sync(f))、残差成分保持部12に保持されている残差成分信号(周波数波形)Rme(f)及びコントローラ29から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Rnew(f)を生成する。
すなわち、新規残差成分Rnew(f)については、次式により生成する。
Rnew(f)=R*(f)(ただし、*は、me又はtar−sync)
この場合においては、me又はtar−syncのいずれを選択するかは、新規スペクトラル・シェイプSnew(f)と同一のものを選択するのがより好ましい。
【0067】
さらに、新規残差成分Rnew(f)に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図15に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
[2.12] 正弦波成分生成部の動作
続いて、正弦波成分生成部26は、変形スペクトラル・シェイプ加工部24から出力された波形加工を伴わない、あるいは、波形加工を伴う変形スペクトラル・シェイプSnew(f)に基づいて、当該フレームにおける新たな正弦波成分(F”0、A”0)、(F”1、A”1)、(F”2、A”2)、……、(F”(N−1)、A”(N−1))のN個の正弦波成分(以下、これらをまとめてF”n、A”nと表記する。n=0〜(N−1)。)を求める。
【0068】
[2.12.1] 男声→女声変換の場合
より具体的には、周波数成分Xにおける変形スペクトラル・シェイプSnew(f)のアンプをA(X)と表すとすると、各正弦波成分(F”0、A”0)、(F”1、A”1)、(F”2、A”2)、……、(F”(N−1)、A”(N−1))は,
以下のように表すことができる(図14参照)。
(F”0、A”0)=(fm0、A(fm0))
(F”1、A”1)=(fm1、A(fm1))
(F”2、A”2)=(fm2、A(fm2))
……
(F”(N−1)、A”(N−1))=(fmn、A(fmn))
【0069】
[2.12.2] 女声→男声変換の場合
この場合にも、男声→女性変換の場合と同様に、各正弦波成分(F”0、A”0)、(F”1、A”1)、(F”2、A”2)、……、(F”(N−1)、A”(N−1))は、以下のように表すことができる(図13参照)。
(F”0、A”0)=(ff0、A(ff0))
(F”1、A”1)=(ff1、A(ff1))
(F”2、A”2)=(ff2、A(ff2))
……
(F”(N−1)、A”(N−1))=(ffn、A(ffn))
【0070】
[2.13] 正弦波成分変形部の動作
さらに、求めた新規周波数F ” nおよび新規アンプA ” nについて、必要に応じてコントローラ29から入力される正弦波成分変形情報に基づいて、正弦波成分変形部27によりさらなる変形を行う。例えば、偶数次成分の新規アンプA”n(=A”0、A”2、A”4、……)だけを大きく(例えば、2倍する)等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【0071】
[2.14] 逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部28は、求めた新規周波数F”nおよび新規アンプA”n(=新規正弦波成分)並びに新規残差成分Rnew(f)をFFTバッファに格納し、順次逆FFTを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ29から入力される正弦波成分/残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【0072】
この場合において、FFTバッファに新規周波数F ” nおよび新規アンプA ” n(=新規正弦波成分)並びに新規残差成分Rnew(f)を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ31により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【0073】
[2.15] クロスフェーダの動作
次にクロスフェーダ30は、元無声/有声検出信号U/Vme(t)に基づいて、入力音声信号Svが無声(U)である場合には、入力音声信号Svをそのままミキサ33に出力する。
また、入力音声信号Svが有声(V)である場合には、逆高速フーリエ変換部28が出力した変換音声信号をミキサ33に出力する。
この場合において、切替スイッチとしてクロスフェーダ30を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【0074】
[2.16] シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ31は、カラオケの伴奏音を発生するための音源制御情報を例えば、MIDI(Musical Instrument Digital Interface)データなどとして音源部32に出力する。
これにより音源部32は、音源制御情報に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部34に出力する。
出力部34は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【0075】
[3] 実施形態の変形例
[3.1] 第1変形例
上記実施形態の説明においては、ターゲット歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及び元歌唱者のターゲット音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成としていたが、元歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及びターゲット歌唱者の入力音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成とすることも可能である。
【0076】
[3.2] 第2変形例
正弦波の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
フォルマントの抽出方法も上記実施形態で用いた方法に限られるものではなく、他の方法、例えば、線形予測法を利用する方法により抽出するように構成してもよい。
【0077】
[3.3] 第3変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
[3.4] 第4変形例
本実施形態においては、設定シフト量の算出において、複数のフォルマントに基づいて設定シフト量の設定を行う場合には、複数のフォルマントの周波数の算術平均を用いて行っていたが、算術平均に限らず、各周波数に重み付けを行ったり、他の平均値算出方法を用いたりするように構成することも可能である。
【0078】
[4] 実施形態の効果
以上の結果、カラオケの伴奏とともに、元歌唱者の歌が出力され、その声質および歌い方などは、ターゲット歌唱者の影響を大きく受けた変換音声として出力されるが、この際にスペクトラル・シェイプのシフト量を自動的に算出することができ、歌唱者等は変換音声の調整作業から解放される。
さらに、得られる変換音声は、歌唱者及び楽曲依存の固定効果パラメータを用いる場合と異なり、元歌唱者の生の音声成分に基づく(動的)効果パラメータ用いた音声変換となり、聴感上自然なものとなる。
【0079】
【発明の効果】
以上説明したように、この発明によれば、変換音声生成時のスペクトラル・シェイプのシフト量の調整作業の手間を軽減することができるとともに、聴感上自然な変換音声を容易に得ることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態の構成を示すブロック図(その1)である。
【図2】本発明の一実施形態の構成を示すブロック図(その2)である。
【図3】実施形態におけるフレームの状態を示す図である。
【図4】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図5】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図6】実施形態における周波数値の変化状態を示す図である。
【図7】実施形態における処理過程における確定成分の変化状態を示す図である。
【図8】実施形態における信号処理の説明図である。
【図9】イージーシンクロナイゼーション処理のタイミングチャートである。
【図10】イージーシンクロナイゼーション処理フローチャートである。
【図11】女性のスペクトラル・シェイプを説明する図である。
【図12】男性のスペクトラル・シェイプを説明する図である。
【図13】女声→男声変換の処理説明図である。
【図14】男声→女声変換の処理説明図である。
【図15】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【図16】第1フォルマントの検出方法の説明図である。
【図17】第2〜第mフォルマントの検出方法の説明図である。
【符号の説明】
1…マイク、2…分析窓生成部、3…入力音声信号切出部、4…高速フーリエ変換部、5…ピーク検出部、6…無声/有声検出部、7…ピッチ抽出部、8…ピーク連携部、9…補間合成部、10…残差成分検出部、11…高速フーリエ変換部、12…残差成分保持部、13…正弦波成分保持部、14…平均アンプ演算部、15…アンプ正規化部、16…スペクトラル・シェイプ演算部、17…ピッチ正規化部、18…元フレーム情報保持部、19…静的変化/ビブラート的変化分離部、20…ターゲットフレーム情報保持部、21…キーコントロール/テンポチェンジ部、22…イージーシンクロナイゼーション処理部、23…変形スペクトラル・シェイプ生成部、24…変形スペクトラル・シェイプ加工部、25…残差成分選択部、26…正弦波成分生成部、27…正弦波成分変形部、28…逆高速フーリエ変換部、29…コントローラ、30…クロスフェーダ部、31…シーケンサ、32…音源部、33…ミキサ、34…出力部、FT1…第1フォルマント、FT2…第2フォルマント
Claims (8)
- 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。 - 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形手段と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。 - 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。 - 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形工程と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。 - 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、
前記シフト量設定手段は、前記ターゲットフォルマントの第1フォルマントである第1ターゲットフォルマント及び前記元フォルマントの第1フォルマントである第1元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。 - 入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形手段と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、
前記シフト量設定手段は、前記ターゲットフォルマントの第1フォルマントである第1ターゲットフォルマント及び前記元フォルマントの第1フォルマントである第1元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。 - 請求項5または請求項6記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマントの第1ターゲットフォルマント〜第nターゲットフォルマント(n=2以上の自然数)で構成されるターゲットフォルマント群及び前記元フォルマントの第1フォルマント〜第nフォルマントで構成される元フォルマント群に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。 - 請求項7記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマント群を構成するターゲットフォルマントの周波数を算術平均して得られるターゲット基準位置及び前記元フォルマント群を構成する元フォルマントの周波数を算術平均して得られる元基準位置の差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17191198A JP3540159B2 (ja) | 1998-06-18 | 1998-06-18 | 音声変換装置及び音声変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17191198A JP3540159B2 (ja) | 1998-06-18 | 1998-06-18 | 音声変換装置及び音声変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010597A JP2000010597A (ja) | 2000-01-14 |
JP3540159B2 true JP3540159B2 (ja) | 2004-07-07 |
Family
ID=15932126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17191198A Expired - Fee Related JP3540159B2 (ja) | 1998-06-18 | 1998-06-18 | 音声変換装置及び音声変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3540159B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4433668B2 (ja) | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
US7486719B2 (en) | 2002-10-31 | 2009-02-03 | Nec Corporation | Transcoder and code conversion method |
JP4630956B2 (ja) * | 2004-03-30 | 2011-02-09 | 学校法人早稲田大学 | ハウリング周波数成分強調方法およびその装置、ハウリング検出方法およびその装置、ハウリング抑圧方法およびその装置、ピーク周波数成分強調方法およびその装置 |
EP1840871B1 (en) * | 2004-12-27 | 2017-07-12 | P Softhouse Co. Ltd. | Audio waveform processing device, method, and program |
JP4830350B2 (ja) * | 2005-05-26 | 2011-12-07 | カシオ計算機株式会社 | 声質変換装置、及びプログラム |
JP5560888B2 (ja) * | 2010-05-11 | 2014-07-30 | 大日本印刷株式会社 | 符号化音声データの音高変換装置 |
-
1998
- 1998-06-18 JP JP17191198A patent/JP3540159B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010597A (ja) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
US10008193B1 (en) | Method and system for speech-to-singing voice conversion | |
JP3502247B2 (ja) | 音声変換装置 | |
US7379873B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US7135636B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method and program for singing voice synthesizing | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
US6944589B2 (en) | Voice analyzing and synthesizing apparatus and method, and program | |
Bonada et al. | Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP3447221B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3934793B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
Südholt et al. | Vocal timbre effects with differentiable digital signal processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040105 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040324 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110402 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120402 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140402 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |