JP3540159B2

JP3540159B2 - 音声変換装置及び音声変換方法

Info

Publication number: JP3540159B2
Application number: JP17191198A
Authority: JP
Inventors: 竜児中川; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-18
Filing date: 1998-06-18
Publication date: 2004-07-07
Anticipated expiration: 2018-06-18
Also published as: JP2000010597A

Description

【０００１】
【発明の属する技術分野】
この発明は、入力音声を他の音声に変換して出力する音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置及び音声変換方法に関する。
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものがある（例えば、特表平８−５０８５８１号公報参照）。
【０００２】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、単に歌声のピッチを変換しているだけであるため、聴感上自然な音声が得られないという問題点があった。
そこで、本発明の目的は、音声変換を行うに際し、聴感上自然な音声を容易に得ることが可能な音声変換装置及び音声変換方法を提供することにある。
【０００３】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【０００４】
請求項２記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【０００５】
請求項３記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【０００６】
請求項４記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【０００７】
請求項５記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、前記入力音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、前記シフト量設定手段は、前記ターゲットフォルマントの第１フォルマントである第１ターゲットフォルマント及び前記元フォルマントの第１フォルマントである第１元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【０００８】
請求項６記載の構成は、入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、ターゲット音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、前記シフト量設定手段は、前記ターゲットフォルマントの第１フォルマントである第１ターゲットフォルマント及び前記元フォルマントの第１フォルマントである第１元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【０００９】
請求項７記載の構成は、請求項５または請求項６記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマントの第１ターゲットフォルマント〜第ｎターゲットフォルマント（ｎ＝２以上の自然数）で構成されるターゲットフォルマント群及び前記元フォルマントの第１フォルマント〜第ｎフォルマントで構成される元フォルマント群に基づいて前記一定値である設定シフト量を算出することを特徴としている。
請求項８記載の構成は、請求項７記載の音声変換装置において、前記シフト量設定手段は、前記ターゲットフォルマント群を構成するターゲットフォルマントの周波数を算術平均して得られるターゲット基準位置及び前記元フォルマント群を構成する元フォルマントの周波数を算術平均して得られる元基準位置の差に基づいて前記一定値である設定シフト量を算出することを特徴としている。
【００１０】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
［１］実施形態の概要処理
始めに、実施形態の概要処理について説明する。
［１．１］ステップＳ１
まず、歌唱者（以下、元歌唱者（ｍｅ）という）の音声（入力音声信号）をリアルタイムでＦＦＴ（ＦａｓｔＦｏｕｒｉｅＴｒａｎｓｆｏｒｍ）を含むＳＭＳ（ＳｐｅｃｔｒａｌＭｏｄｅｌｉｎｇＳｙｎｔｈｅｓｉｓ）分析を行い、フレーム単位で正弦波成分（Ｓｉｎｅ成分）を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分（Ｒｅｓｉｄｕａｌ成分）を生成する。これと並行して入力音声信号が無声音（含む無音）か否かを判別し、無声音である場合には、以下のステップＳ２〜ステップＳ５の処理は行わず、入力音声信号をそのまま出力することとなる。
この場合において、ＳＭＳ分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
【００１１】
［１．２］ステップＳ２
次に入力音声信号が有声音である場合には、抽出した正弦波成分からさらに元属性（Ａｔｔｒｉｂｕｔｅ）データであるピッチ（Ｐｉｔｃｈ）、アンプ（Ａｍｐｌｉｔｕｄｅ）及び元スペクトラル・シェイプ（ＳｐｅｃｔｒａｌＳｈａｐｅ）を抽出する。
［１．３］ステップＳ３
予め記憶（保存）してある音声変換処理に用いる対象（Ｔａｒｇｅｔ）となる歌唱者（以下、ターゲット歌唱者という。）の属性データ（ターゲット属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）から、元歌唱者（ｍｅ）の入力音声信号のフレームに対応するフレームのターゲット属性データ（＝ピッチ、アンプ及びターゲットスペクトラル・シェイプ）を取り出す。
【００１２】
［１．４］ステップＳ４
次に元歌唱者（ｍｅ）に対応する元属性データ及びターゲット歌唱者に対応するターゲット属性データに基づいて、元スペクトラル・シェイプをシフトして得られるシフト元スペクトラル・シェイプに基づいて変換スペクトラル・シェイプを生成し、この生成した変換スペクトラル・シェイプ及びターゲット音声信号から予め抽出した正弦波成分に含まれる周波数成分（あるいは、入力音声信号から抽出した正弦波成分に含まれる周波数成分）に基づいて新たな正弦波成分情報を生成する。
【００１３】
この場合において、ターゲットスペクトラル・シェイプを周波数軸方向にシフトさせる際のシフト量は、元歌唱者のスペクトラルシェイプから検出したフォルマントである元フォルマント及びターゲットスペクトラルシェイプから検出したフォルマントであるターゲットフォルマントに基づいて算出する。
［１．５］ステップＳ５
つづいて得られた新たな正弦波成分情報の逆ＦＦＴを行い、変換音声信号を得る。
【００１４】
［１．６］まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、元歌唱者の歌声が、あたかも、別の歌唱者が歌った自然な歌声のようになるとともに、元スペクトラル・シェイプの周波数軸方向へのシフト量は自動的に設定されるため、変換音声信号の調整の手間が簡略化される。
【００１５】
［２］実施形態の詳細構成
図１及び図２に、実施形態の詳細構成図を示す。なお、本実施形態は、本発明による音声変換装置（音声変換方法）をカラオケ装置に適用し、より自然な音声変換を行うことができるカラオケ装置として構成した場合の例である。
図１において、マイク１は、元歌唱者（ｍｅ）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
これと並行して、分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
【００１６】
これらにより入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓｖとを掛け合わせ、入力音声信号Ｓｖをフレーム単位で切り出し、フレーム音声信号ＦＳｖとして高速フーリエ変換部４に出力される。
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図３に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
そして、高速フーリエ変換部４においてフレーム音声信号ＦＳｖは、解析処理されるとともに、図４に示すように、高速フーリエ変換部４の出力である周波数スペクトルからピーク検出部５によりローカルピークが検出される。
【００１７】
より具体的には、図４に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
すなわち、図４に示すように、（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各フレームについてローカルピークが検出され、表されることとなる。
そして、図３に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）として無声／有声検出部６及びピーク連携部８に出力される。
【００１８】
無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（‘ｔ’、‘ｋ’等）し、無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（‘ｓ’等）し、元無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。
さらに無声／有声検出部６は、入力されたフレームが無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
【００１９】
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰｍｅを検出する。
より具体的なフレームのピッチＰｍｅの検出方法としては、例えば、Ｍａｈｅｒ，Ｒ．Ｃ．ａｎｄＪ．Ｗ．Ｂｅａｕｃｈａｍｐ：”ＦｕｎｄａｍｅｎｔａｌＦｒｅｑｕｅｎｃｙＥｓｔｉｍａｔｉｏｎｏｆＭｕｓｉｃａｌＳｉｇｎａｌｕｓｉｎｇａｔｗｏ−ｗａｙＭｉｓｍａｔｃｈＰｒｏｃｅｄｕｒｅ”（ＪｏｕｒｎａｌｏｆＡｃｏｕｎｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ９５（４）：２２５４−２２６３）に開示されているような方法で行う。
次に、ピーク検出部５から出力されたローカルピーク組は、ピーク連携部８において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
【００２０】
ここで、この連携処理について、図５を参照して説明する。
今、図５（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図５（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、ピーク連携部８は、前回のフレームで検出された各ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図５の例では、ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ＦＫ、ＡＫ）については（図５（Ａ）参照）、対応するローカルピーク（図５（Ｂ）参照）は検出されていない。
【００２１】
ピーク連携部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図６は、複数のフレームにわたるローカルピークの周波数Ｆ０及び周波数Ｆ１の変化の一例を示している。
【００２２】
このような変化は、アンプ（振幅）Ａ０、Ａ１、Ａ２、……についても同様に認められる。この場合、ピーク連携部８から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
なお、ピーク連携部８から出力されるピーク値を、以後において、確定成分という。これは、元の信号（すなわち、音声信号Ｓｖ）のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波（厳密には、正弦波のパラメータである周波数及びアンプ（振幅））の各々については、正弦波成分と呼ぶことにする。
【００２３】
次に、補間合成部９は、ピーク連携部８から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部３４が出力する最終出力信号のサンプリングレート（例えば、４４．１ＫＨｚ）に対応した間隔で行われる。前述した図６に示す実線は、正弦波成分の周波数Ｆ０、Ｆ１について補間処理が行われた場合のイメージを示している。
【００２４】
［２．１］補間合成部の構成
ここで、補間合成部９の構成を図８に示す。
補間合成部９は、複数の部分波形発生部９ａを備えて構成されており、各部分波形発生部９ａは、指定された正弦波成分の周波数（Ｆ０、Ｆ１、…）およびアンプ（振幅）に応じた正弦波を発生する。ただし、本第１実施形態における正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部９ａから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部８からは正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部９ａは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部９ａから出力された波形は、加算部９ｂにおいて加算合成される。したがって、補間合成部９の出力信号は、入力音声信号Ｓｖから確定成分を抽出した正弦波成分合成信号ＳＳＳになる。
【００２５】
［２．２］残差成分検出部の動作
次に、残差成分検出部１０は、補間合成部９から出力された正弦波成分合成信号ＳＳＳと入力音声信号Ｓｖとの偏差である残差成分信号ＳＲＤ（時間波形）を生成する。この残差成分信号ＳＲＤは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号ＳＳＳは有声成分に対応するものである。
ところで、目標（Ｔａｒｇｅｔ）となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
【００２６】
そこで、本実施形態においては、有声母音成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号ＳＲＤについては、高速フーリエ変換部１１で、周波数波形に変換し、得られた残差成分信号（周波数波形）をＲｍｅ（ｆ）として残差成分保持部１２に保持しておく。
【００２７】
［２．３］平均アンプ演算部の動作
一方、図７（Ａ）に示すように、ピーク検出部５からピーク連携部８を介して出力された正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（Ｆ（Ｎ−１）、Ａ（Ｎ−１））のＮ個の正弦波成分（以下、これらをまとめてＦｎ、Ａｎと表記する。ｎ＝０〜（Ｎ−１）。）は、正弦波成分保持部１３に保持されるとともに、アンプＡｎは平均アンプ演算部１４に入力され、各フレーム毎に次式により平均アンプＡｍｅが算出される。
Ａｍｅ＝Σ（Ａｎ）／Ｎ
【００２８】
［２．４］アンプ正規化部の動作
次にアンプ正規化部１５において、次式により各アンプＡｎを平均アンプＡｍｅで正規化し、正規化アンプＡ’ｎを求める。
Ａ’ｎ＝Ａｎ／Ａｍｅ
［２．５］スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部１６において、図７（Ｂ）に示すように、周波数Ｆｎ及び正規化アンプＡ’ｎにより得られる正弦波成分（Ｆｎ、Ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳｍｅ（ｆ）として生成する。
【００２９】
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【００３０】
［２．６］ピッチ正規化部の動作
続いてピッチ正規化部１７においては、各周波数Ｆｎをピッチ検出部７において検出したピッチＰｍｅで正規化し、正規化周波数Ｆ’ｎを求める。
Ｆ’ｎ＝Ｆｎ／Ｐｍｅ
これらの結果、元フレーム情報保持部１８は、入力音声信号Ｓｖに含まれる正弦波成分に対応する元属性データである平均アンプＡｍｅ、ピッチＰｍｅ、スペクトラル・シェイプＳｍｅ（ｆ）、正規化周波数Ｆ’ｎを保持することとなる。
なお、この場合において、正規化周波数Ｆ’ｎは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【００３１】
この場合において、男声／女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声／女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部１８に保持している元属性データのうち、平均アンプＡｍｅおよびピッチＰｍｅについては、さらに静的変化／ビブラート的変化分離部１９により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【００３２】
より具体的には、平均アンプＡｍｅを平均アンプ静的成分Ａｍｅ−ｓｔａ及び平均アンプビブラート的成分Ａｍｅ−ｖｉｂとに分離して保持する。
また、ピッチＰｍｅをピッチ静的成分Ｐｍｅ−ｓｔａ及びピッチビブラート的成分Ｐｍｅ−ｖｉｂとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データＩＮＦｍｅは、図７（Ｃ）に示すように、入力音声信号Ｓｖの正弦波成分に対応する元属性データである平均アンプ静的成分Ａｍｅ−ｓｔａ、平均アンプビブラート的成分Ａｍｅ−ｖｉｂ、ピッチ静的成分Ｐｍｅ−ｓｔａ、ピッチビブラート的成分Ｐｍｅ−ｖｉｂ、スペクトラル・シェイプＳｍｅ（ｆ）、正規化周波数Ｆ’ｎ及び残差成分Ｒｍｅ（ｆ）の形で保持されることとなる。
【００３３】
一方、ものまねの対象（ｔａｒｇｅｔ）となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データＩＮＦｔａｒは、予め分析されてターゲットフレーム情報保持部２０を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データＩＮＦｔａｒのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Ａｔａｒ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ（ｆ）がある。
また、ターゲットフレーム情報データＩＮＦｔａｒのうち、残差成分に対応するターゲット属性データとしては、残差成分Ｒｔａｒ（ｆ）がある。
【００３４】
［２．７］キーコントロール／テンポチェンジ部の動作
次にキーコントロール／テンポチェンジ部２１は、シーケンサ３１からの同期信号ＳＳＹＮＣに基づいて、ターゲットフレーム情報保持部２０から同期信号ＳＳＹＮＣに対応するフレームのターゲットフレーム情報ＩＮＦｔａｒの読出処理及び読み出したターゲットフレーム情報データＩＮＦｔａｒを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報ＩＮＦｔａｒおよび当該フレームが無声であるか有声であるかを表すターゲット無声／有声検出信号Ｕ／Ｖｔａｒを出力する。
【００３５】
より具体的には、キーコントロール／テンポチェンジ部２１の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ｐｔａｒ−ｓｔａ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂについても、同じだけ上げ下げする補正処理を行う。例えば、５０［ｃｅｎｔ］だけキーを上げた場合には、ピッチ静的成分Ｐｔａｒ−ｓｔａ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂについても５０［ｃｅｎｔ］だけ上げなければならない。
また、キーコントロール／テンポチェンジ部２１の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データＩＮＦｔａｒの読み出し処理を行う必要がある。
【００３６】
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データＩＮＦｔａｒが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データＩＮＦｔａｒを読み出し、これら二つのターゲットフレーム情報データＩＮＦｔａｒにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データＩＮＦｔａｒ、ひいては、ターゲット属性データを生成する。
この場合において、ビブラート的成分（平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂ）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３７】
［２．８］イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部２２は、ものまねをしようとする歌唱者のフレーム（以下、元フレームという。）に元フレーム情報データＩＮＦｍｅが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム（以下、ターゲットフレームという。）にターゲットフレーム情報データＩＮＦｔａｒが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データＩＮＦｔａｒを当該ターゲットフレームのターゲットフレーム情報データＩＮＦｔａｒとするイージーシンクロナイゼーション処理を行う。
そして、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ及びスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ））を変形スペクトラル・シェイプ生成部２３に出力する。
【００３８】
また、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））を残差成分選択部２５に出力する。
このイージーシンクロナイゼーション処理部２２における処理においても、ビブラート的成分（平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂ）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３９】
［２．８．１］イージーシンクロナイゼーション処理の詳細
ここで、図９及び図１０を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図９は、イージーシンクロナイゼーション処理のタイミングチャートであり、図１０はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部２２は、シンクロナイゼーション処理の処理方法を表すシンクロナイゼーションモード＝“０”とする（ステップＳ１１）。このシンクロナイゼーションモード＝“０”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒが存在する通常処理の場合に相当する。
【００４０】
そしてあるタイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化したか否かを判別する（ステップＳ１２）。
例えば、図９に示すように、タイミングｔ＝ｔ１においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している。
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミングｔ−１における元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）であるか否かを判別する（ステップＳ１８）。
【００４１】
例えば、図９に示すように、タイミングｔ＝ｔ０（＝ｔ１−１）においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）となっている。
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）となっている場合には（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用のターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの後方向（Ｂａｃｋｗａｒｄ）に存在するフレームのターゲットフレーム情報とする。
【００４２】
例えば、図９に示すように、タイミングｔ＝ｔ１〜ｔ２のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの後方向に存在するフレーム（すなわち、タイミングｔ＝ｔ２〜ｔ３に存在するフレーム）のターゲットフレーム情報データｂａｃｋｗａｒｄとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別する（ステップＳ１５）。
ステップＳ１５の判別において、シンクロナイゼーションモード＝“０”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒ（ｔ）が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをターゲットフレーム情報データＩＮＦｔａｒ（ｔ）とする。
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｔａｒ（ｔ）
【００４３】
例えば、図９に示すようにタイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｔａｒ（ｔ）
とする。
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））は実質的には、以下の内容となる（ステップＳ１６）。
Ａｔａｒ−ｓｙｎｃ−ｓｔａ＝Ａｔａｒ−ｓｔａ
Ａｔａｒ−ｓｙｎｃ−ｖｉｂ＝Ａｔａｒ−ｖｉｂ
Ｐｔａｒ−ｓｙｎｃ−ｓｔａ＝Ｐｔａｒ−ｓｔａ
Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ＝Ｐｔａｒ−ｖｉｂ
Ｓｔａｒ−ｓｙｎｃ（ｆ）＝Ｓｔａｒ（ｆ）
Ｒｔａｒ−ｓｙｎｃ（ｆ）＝Ｒｔａｒ（ｆ）
【００４４】
ステップＳ１５の判別において、シンクロナイゼーションモード＝”１”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒ（ｔ）が存在しない場合であるので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃを置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする。
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｈｏｌｄ
【００４５】
例えば、図９に示すように、タイミングｔ＝ｔ１〜ｔ２のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在せず、シンクロナイゼーションモード＝“１”となるが、タイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをタイミングｔ＝ｔ２〜ｔ３のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする処理Ｐ１を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データは、平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ）となる（ステップＳ１６）。
【００４６】
また、図９に示すように、タイミングｔ＝ｔ３〜ｔ４のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在せず、シンクロナイゼーションモード＝“２”となるが、タイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをタイミングｔ＝ｔ２〜ｔ３のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする処理Ｐ２を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データは、平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ）となる（ステップＳ１６）。
【００４７】
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１２；Ｎｏ）、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化しているか否かを判別する（ステップＳ１３）。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化している場合には（ステップＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミングｔ−１における元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｖ）であるか否かを判別する（ステップＳ１９）。
【００４８】
例えば、図９に示すように、タイミングｔ３においてターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ−１＝ｔ２〜ｔ３においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｕ）となっている。
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｖ）となっている場合には（ステップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用のターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの前方向（ｆｏｒｗａｒｄ）に存在するフレームのターゲットフレーム情報とする。
【００４９】
例えば、図９に示すように、タイミングｔ＝ｔ３〜ｔ４のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの前方向に存在するフレーム（すなわち、タイミングｔ＝ｔ２〜ｔ３に存在するフレーム）のターゲットフレーム情報データｆｏｒｗａｒｄとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別して（ステップＳ１５）、以下、同様の処理を行う。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化していない場合には（ステップＳ１３；Ｎｏ）、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判別する（ステップＳ１４）。
【００５０】
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、または、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅｓ）、シンクロナイゼーションモード＝”０”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを初期化（ｃｌｅａｒ）し、処理をステップＳ１５に移行して、以下、同様の処理を行う。
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化せず、かつ、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に移行し、以下同様の処理を行う。
【００５１】
［２．９］変形スペクトラルシェイプ生成部の動作
続いて、変形スペクトラルシェイプ生成部２３は、静的変化／ビブラート的変化分離部１９から入力された入力音声信号Ｓｖの正弦波成分に対応する元属性データである平均アンプ静的成分Ａｍｅ−ｓｔａ、平均アンプビブラート的成分Ａｍｅ−ｖｉｂ、ピッチ静的成分Ｐｍｅ−ｓｔａ、ピッチビブラート的成分Ｐｍｅ−ｖｉｂ、元スペクトラル・シェイプＳｍｅ（ｆ）、正規化アンプＡ’ｎ、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ及びターゲットスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ））及びコントローラ２９から入力される変形スペクトラル・シェイプ生成情報に基づいて、新しいスペクトラル・シェイプである変形スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。
【００５２】
変形スペクトラルシェイプの生成は、元歌唱者（ｍｅ）に対応する元スペクトラル・シェイプを周波数軸方向に設定シフト量αだけシフトすることにより行う。
［２．９．１］設定シフト量αの設定
まず、設定シフト量αの設定方法の説明に先立ち、フォルマントの検出方法について図１６及び図１７を参照して説明する。
【００５３】
［２．９．１．１］第１フォルマントＦＴ１の検出
まず、第１フォルマントＦＴ１の検出方法を、隣り合う二つの正弦波成分に対応する正規化アンプＡ’ｆＫ、Ａ’ｆＫ−１の差ΔＡ’（ｆＫ−ｆＫ−１）の変化に基づいて行う場合について説明する。
第１フォルマントＦＴ１の検出対象となる元スペクトラル・シェイプのピッチＦＴ０〜第１フォルマントＦＴ１近傍の状態を図１６に示す。
まず、ｆｋ（ｋ＝０，１，２，３，…）（ただし、ｆＫ≦１．２［ｋＨｚ］＝第１フォルマントＦＴ１上限値とする。）のＫの値を増加させる。そして、ΔＡ’（ｆｋ−ｆｋ−１）の値を観察し、
ΔＡ’（ｆｋ−ｆｋ−１）≧０
の状態から
ΔＡ’（ｆｋ−ｆｋ−１）＜０
に変化したときのＫの値をｎとする。これにより第１フォルマントＦＴ１は、
ＦＴ１＝ｆｎ
として検出することができる。
【００５４】
この場合において、ｆｋ＝１．２［ｋＨｚ］となっても、第１フォルマントＦＴ１を検出できなかった場合には、
ＦＴ１＝１．２［ｋＨｚ］
とする。このように構成することにより、誤検出による設定シフト量αの誤差があまり大きくならないようにしている。
［２．９．１．２］第２フォルマントＦＴ２ないし第ｍフォルマントＦＴｍのフォルマントの検出
【００５５】
次に、第２フォルマントＦＴ２ないし第ｍフォルマントＦＴｍのフォルマントの検出方法を、第１フォルマントＦＴ１の検出と同様に隣り合う二つの正弦波成分に対応する正規化アンプＡ’ｆｋ、Ａ’ｆｋ−１の差ΔＡ’（ｆｋ−ｆｋ−１）の変化に基づいて行う場合について第２フォルマントＦＴ２を例として説明する。
第２フォルマントＦＴ２の検出対象となる元スペクトラル・シェイプの第２フォルマントＦＴ２近傍の状態を図１７に示す。
まず、ｆｋ（ｋ＝０，１，２，３，…）（ただし、ｆｋ≦３．２［ｋＨｚ］＝第２フォルマントＦＴ２上限値とする。）のｋの値を増加させる。そして、ΔＡ’（ｆｋ−ｆｋ−１）の値を観察し、
ΔＡ’（ｆｋ−ｆｋ−１）＜０
の状態から
ΔＡ’（ｆｋ−ｆｋ−１）≧０
に変化したときのｋの値をｐとする。これにより第１フォルマントＦＴ１のピーク終端の周波数＝ｆｐとなる。
【００５６】
次に再びｋの値を増加させ、ΔＡ’（ｆｋ−ｆｋ−１）の値を観察し、
ΔＡ’（ｆｋ−ｆｋ−１）≧０
の状態から
ΔＡ’（ｆｋ−ｆｋ−１）＜０
に変化したときのｋの値をｑとする。これにより第２フォルマントＦＴ２は、
ＦＴ２＝ｆｑ
として検出することができる。
【００５７】
この場合において、ｆｋ＝３．２［ｋＨｚ］となっても、第２フォルマントＦＴ２を検出できなかった場合には、
ＦＴ２＝３．２［ｋＨｚ］
とする。このように構成することにより、誤検出による設定シフト量αの誤差があまり大きくならないようにしている。
［２．９．１．３］設定シフト量αの設定
上記手法により求めた、ターゲットスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）の第１フォルマントＦＴ１ｔａｒ及び元スペクトラル・シェイプＳｍｅ（ｆ）の第１フォルマントＦＴ１ｍｅに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α＝ＬＦＴ１ｍｅ／ＬＦＴ１ｔａｒ
である。ただし、
ＬＦＴ１ｔａｒ＝ｌｏｇ１０（ＦＴ１ｔａｒ）
ＬＦＴ１ｍｅ＝ｌｏｇ１０（ＦＴ１ｍｅ）
である。
【００５８】
また、ターゲットスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）の第１フォルマントＦＴ１ｔａｒ及び第２フォルマントＦＴ２ｔａｒ並びに元スペクトラル・シェイプＳｍｅ（ｆ）の第１フォルマントＦＴ１ｍｅ及び第２フォルマントＦＴ２ｍｅに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α＝ＬＦＴ１２ｍｅ’／ＬＦＴ１２ｔａｒ’
である。ただし、
ＬＦＴ１２ｔａｒ’＝ｌｏｇ１０（ＦＴ１ｔａｒ×ＦＴ２ｔａｒ）／２
ＬＦＴ１２ｍｅ’ ＝ｌｏｇ１０（ＦＴ１ｍｅ×ＦＴ２ｍｅ）／２
である。
【００５９】
さらにターゲットスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）の第１フォルマントＦＴ１ｔａないし第ｍフォルマントＦＴｍｔａｒ並びに元スペクトラル・シェイプＳｍｅ（ｆ）の第１フォルマントＦＴ１ｍｅないし第ｍフォルマントＦＴｍｍｅに基づく場合には、次式により設定シフト量αを設定する。
すなわち、
α＝ＬＦＴ１２ｍｅ”／ＬＦＴ１２ｔａｒ”
である。ただし、
ＬＦＴ１２ｔａｒ’＝ｌｏｇ１０（ＦＴ１ｔａｒ×ＦＴ２ｔａｒ×……×ＦＴｍｔａｒ）／ｍ
ＬＦＴ１２ｍｅ’ ＝ｌｏｇ１０（ＦＴ１ｍｅ×ＦＴ２ｍｅ×……×ＦＴｍｍｅ）／ｍ
である。
【００６０】
この結果、例えば、男声（ｍｅ）→女声（ｔａｒｇｅｔ）変換を行う場合には、設定シフト量αは、およそ以下の範囲の値となる。
１≦α≦２
また、女声（ｍｅ）→男声（ｔａｒｇｅｔ）変換を行う場合には、設定シフト量αは、およそ以下の範囲の値となる。
０＜α≦１
次に、より具体的に、変形スペクトラルシェイプＳｎｅｗ（ｆ）の生成について説明する。
【００６１】
［２．９．２］男声→女声変換の場合
まず、ターゲット歌唱者が女性であり、元歌唱者が男性である場合について説明する。
図１１にターゲット歌唱者である女性のスペクトラル・シェイプを示す。
ＨＹＰＥＲＬＩＮＫ ”Ｄ：￥ＭｙＤｏｃｕｍｅｎｔｓ￥９９＃中間処理￥ＹＡＭＡＨＡ￥８０６９９（音声変換装置）￥ＪＰ−Ａ−２０００−１０５９７．ｆｉｌｅｓ￥００００１３．ｇｉｆ” 図１１に示すように、ターゲット歌唱者の正弦波成分に含まれる周波数成分は、ｆｆ０〜ｆｆｎで表されている。
図１２に元歌唱者である男性のスペクトラル・シェイプを示す。また、各周波数成分ｆｆ０〜ｆｆｎに対応するアンプは、Ａｆｆ０〜Ａｆｆｎで表されている。
この場合において、ターゲット歌唱者のアンプＡ（ｆｆ）＝Ａｆｆ０、Ａｆｆ１、…、Ａｆｆｎは元のままで、周波数成分ｆｆ０〜ｆｆｎのみをα倍して、すなわち、定数αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って低域側にシフトすることにより変形スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。
【００６２】
すなわち、変形スペクトラル・シェイプに対応する周波数成分をｆｈ０〜ｆｈｎと表すとすると、
ｆｈ０＝α・ｆｆ０
ｆｈ１＝α・ｆｆ１
ｆｈ２＝α・ｆｆ２
……
ｆｈｎ＝α・ｆｆｎ
とし、図１４及び以下に示す変形正弦波成分群（＝周波数成分及びアンプで表される正弦波成分の一群）により特定される変形スペクトラルシェイプＳｎｅｗ（ｆ）を得る。
（ｆｈ０、Ａｆｆ０）
（ｆｈ１、Ａｆｆ１）
（ｆｈ２、Ａｆｆ２）
……
（ｆｈ０、Ａｆｆ０）
【００６３】
［２．９．３］女声→男声変換の場合
次に、ターゲット歌唱者が男性であり、元歌唱者が女性である場合について説明する。
図１１に示した女性のスペクトラル・シェイプを元歌唱者のスペクトラル・シェイプとし、図１２に示した男性のスペクトラル・シェイプをターゲット歌唱者のスペクトラルシェイプとする。
この場合において、ターゲット歌唱者のアンプＡ（ｆｍ）＝Ａｆｍ０、Ａｆｍ１、…、Ａｆｍｎは元のままで、周波数成分ｆｍ０〜ｆｍｎのみをα倍して、すなわち、αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って高域側にシフトすることにより変形スペクトラル・シェイプを生成する。
【００６４】
すなわち、変形スペクトラル・シェイプに対応する周波数成分をｆｈ０〜ｆｈｎと表すとすると、
ｆｈ０＝α・ｆｍ０
ｆｈ１＝α・ｆｍ１
ｆｈ２＝α・ｆｍ２
……
ｆｈｎ＝α・ｆｍｎ
とし、図１３及び以下に示す変形正弦波成分群により特定される変形スペクトラルシェイプＳｎｅｗ（ｆ）を得る。
（ｆｈ０、Ａｆｍ０）
（ｆｈ１、Ａｆｍ１）
（ｆｈ２、Ａｆｍ２）
……
（ｆｈ０、Ａｆｍ０）
【００６５】
［２．１０］変形スペクトラル・シェイプ加工部の動作
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの良い音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプＳｎｅｗ（ｆ）に関しては、このような状態をシミュレートすべく、図１５に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Ａｎｅｗの大きさに応じて補償するスペクトラルチルト補償（ｓｐｅｃｔｒａｌｔｉｌｔｃｏｒｒｅｃｔｉｏｎ）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
続いて、生成された変形スペクトラル・シェイプＳｎｅｗ（ｆ）について、必要に応じてコントローラ２９から入力される変形スペクトラル・シェイプ加工情報に基づいて、変形スペクトラル・シェイプ加工部２４によりさらなる波形の加工を行う。例えば、変形スペクトラル・シェイプＳｎｅｗ（ｆ）を全体的に間延びさせる等の波形加工を行う。
【００６６】
［２．１１］残差成分選択部の動作
一方、残差成分選択部２５は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））、残差成分保持部１２に保持されている残差成分信号（周波数波形）Ｒｍｅ（ｆ）及びコントローラ２９から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Ｒｎｅｗ（ｆ）を生成する。
すなわち、新規残差成分Ｒｎｅｗ（ｆ）については、次式により生成する。
Ｒｎｅｗ（ｆ）＝Ｒ＊（ｆ）（ただし、＊は、ｍｅ又はｔａｒ−ｓｙｎｃ）
この場合においては、ｍｅ又はｔａｒ−ｓｙｎｃのいずれを選択するかは、新規スペクトラル・シェイプＳｎｅｗ（ｆ）と同一のものを選択するのがより好ましい。
【００６７】
さらに、新規残差成分Ｒｎｅｗ（ｆ）に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図１５に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Ａｎｅｗの大きさに応じて補償するスペクトラルチルト補償（ｓｐｅｃｔｒａｌｔｉｌｔｃｏｒｒｅｃｔｉｏｎ）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
［２．１２］正弦波成分生成部の動作
続いて、正弦波成分生成部２６は、変形スペクトラル・シェイプ加工部２４から出力された波形加工を伴わない、あるいは、波形加工を伴う変形スペクトラル・シェイプＳｎｅｗ（ｆ）に基づいて、当該フレームにおける新たな正弦波成分（Ｆ”０、Ａ”０）、（Ｆ”１、Ａ”１）、（Ｆ”２、Ａ”２）、……、（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））のＮ個の正弦波成分（以下、これらをまとめてＦ”ｎ、Ａ”ｎと表記する。ｎ＝０〜（Ｎ−１）。）を求める。
【００６８】
［２．１２．１］男声→女声変換の場合
より具体的には、周波数成分Ｘにおける変形スペクトラル・シェイプＳｎｅｗ（ｆ）のアンプをＡ（Ｘ）と表すとすると、各正弦波成分（Ｆ”０、Ａ”０）、（Ｆ”１、Ａ”１）、（Ｆ”２、Ａ”２）、……、（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））は，
以下のように表すことができる（図１４参照）。
（Ｆ”０、Ａ”０）＝（ｆｍ０、Ａ（ｆｍ０））
（Ｆ”１、Ａ”１）＝（ｆｍ１、Ａ（ｆｍ１））
（Ｆ”２、Ａ”２）＝（ｆｍ２、Ａ（ｆｍ２））
……
（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））＝（ｆｍｎ、Ａ（ｆｍｎ））
【００６９】
［２．１２．２］女声→男声変換の場合
この場合にも、男声→女性変換の場合と同様に、各正弦波成分（Ｆ”０、Ａ”０）、（Ｆ”１、Ａ”１）、（Ｆ”２、Ａ”２）、……、（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））は、以下のように表すことができる（図１３参照）。
（Ｆ”０、Ａ”０）＝（ｆｆ０、Ａ（ｆｆ０））
（Ｆ”１、Ａ”１）＝（ｆｆ１、Ａ（ｆｆ１））
（Ｆ”２、Ａ”２）＝（ｆｆ２、Ａ（ｆｆ２））
……
（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））＝（ｆｆｎ、Ａ（ｆｆｎ））
【００７０】
［２．１３］正弦波成分変形部の動作
さらに、求めた新規周波数Ｆ ” ｎおよび新規アンプＡ ” ｎについて、必要に応じてコントローラ２９から入力される正弦波成分変形情報に基づいて、正弦波成分変形部２７によりさらなる変形を行う。例えば、偶数次成分の新規アンプＡ”ｎ（＝Ａ”０、Ａ”２、Ａ”４、……）だけを大きく（例えば、２倍する）等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【００７１】
［２．１４］逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部２８は、求めた新規周波数Ｆ”ｎおよび新規アンプＡ”ｎ（＝新規正弦波成分）並びに新規残差成分Ｒｎｅｗ（ｆ）をＦＦＴバッファに格納し、順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ２９から入力される正弦波成分／残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【００７２】
この場合において、ＦＦＴバッファに新規周波数Ｆ ” ｎおよび新規アンプＡ ” ｎ（＝新規正弦波成分）並びに新規残差成分Ｒｎｅｗ（ｆ）を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ３１により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【００７３】
［２．１５］クロスフェーダの動作
次にクロスフェーダ３０は、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）に基づいて、入力音声信号Ｓｖが無声（Ｕ）である場合には、入力音声信号Ｓｖをそのままミキサ３３に出力する。
また、入力音声信号Ｓｖが有声（Ｖ）である場合には、逆高速フーリエ変換部２８が出力した変換音声信号をミキサ３３に出力する。
この場合において、切替スイッチとしてクロスフェーダ３０を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００７４】
［２．１６］シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ３１は、カラオケの伴奏音を発生するための音源制御情報を例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）データなどとして音源部３２に出力する。
これにより音源部３２は、音源制御情報に基づいて伴奏信号を生成し、ミキサ３３に出力する。
ミキサ３３は、入力音声信号Ｓｖあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部３４に出力する。
出力部３４は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００７５】
［３］実施形態の変形例
［３．１］第１変形例
上記実施形態の説明においては、ターゲット歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及び元歌唱者のターゲット音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成としていたが、元歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及びターゲット歌唱者の入力音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成とすることも可能である。
【００７６】
［３．２］第２変形例
正弦波の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
フォルマントの抽出方法も上記実施形態で用いた方法に限られるものではなく、他の方法、例えば、線形予測法を利用する方法により抽出するように構成してもよい。
【００７７】
［３．３］第３変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
［３．４］第４変形例
本実施形態においては、設定シフト量の算出において、複数のフォルマントに基づいて設定シフト量の設定を行う場合には、複数のフォルマントの周波数の算術平均を用いて行っていたが、算術平均に限らず、各周波数に重み付けを行ったり、他の平均値算出方法を用いたりするように構成することも可能である。
【００７８】
［４］実施形態の効果
以上の結果、カラオケの伴奏とともに、元歌唱者の歌が出力され、その声質および歌い方などは、ターゲット歌唱者の影響を大きく受けた変換音声として出力されるが、この際にスペクトラル・シェイプのシフト量を自動的に算出することができ、歌唱者等は変換音声の調整作業から解放される。
さらに、得られる変換音声は、歌唱者及び楽曲依存の固定効果パラメータを用いる場合と異なり、元歌唱者の生の音声成分に基づく（動的）効果パラメータ用いた音声変換となり、聴感上自然なものとなる。
【００７９】
【発明の効果】
以上説明したように、この発明によれば、変換音声生成時のスペクトラル・シェイプのシフト量の調整作業の手間を軽減することができるとともに、聴感上自然な変換音声を容易に得ることが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態の構成を示すブロック図（その１）である。
【図２】本発明の一実施形態の構成を示すブロック図（その２）である。
【図３】実施形態におけるフレームの状態を示す図である。
【図４】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図５】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図６】実施形態における周波数値の変化状態を示す図である。
【図７】実施形態における処理過程における確定成分の変化状態を示す図である。
【図８】実施形態における信号処理の説明図である。
【図９】イージーシンクロナイゼーション処理のタイミングチャートである。
【図１０】イージーシンクロナイゼーション処理フローチャートである。
【図１１】女性のスペクトラル・シェイプを説明する図である。
【図１２】男性のスペクトラル・シェイプを説明する図である。
【図１３】女声→男声変換の処理説明図である。
【図１４】男声→女声変換の処理説明図である。
【図１５】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【図１６】第１フォルマントの検出方法の説明図である。
【図１７】第２〜第ｍフォルマントの検出方法の説明図である。
【符号の説明】
１…マイク、２…分析窓生成部、３…入力音声信号切出部、４…高速フーリエ変換部、５…ピーク検出部、６…無声／有声検出部、７…ピッチ抽出部、８…ピーク連携部、９…補間合成部、１０…残差成分検出部、１１…高速フーリエ変換部、１２…残差成分保持部、１３…正弦波成分保持部、１４…平均アンプ演算部、１５…アンプ正規化部、１６…スペクトラル・シェイプ演算部、１７…ピッチ正規化部、１８…元フレーム情報保持部、１９…静的変化／ビブラート的変化分離部、２０…ターゲットフレーム情報保持部、２１…キーコントロール／テンポチェンジ部、２２…イージーシンクロナイゼーション処理部、２３…変形スペクトラル・シェイプ生成部、２４…変形スペクトラル・シェイプ加工部、２５…残差成分選択部、２６…正弦波成分生成部、２７…正弦波成分変形部、２８…逆高速フーリエ変換部、２９…コントローラ、３０…クロスフェーダ部、３１…シーケンサ、３２…音源部、３３…ミキサ、３４…出力部、ＦＴ１…第１フォルマント、ＦＴ２…第２フォルマント

Claims

入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。
入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形手段と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。
入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。
入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出工程と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出工程と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定工程と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形工程と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。
入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記ターゲットスペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、
前記入力音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、
前記シフト量設定手段は、前記ターゲットフォルマントの第１フォルマントである第１ターゲットフォルマント及び前記元フォルマントの第１フォルマントである第１元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。
入力音声信号から周波数軸上における元スペクトラル・シェイプを抽出する元スペクトラル・シェイプ抽出手段と、
前記元スペクトラル・シェイプのフォルマントである元フォルマントを検出するフォルマント検出手段と、
ターゲット音声信号に対応するスペクトラル・シェイプであるターゲットスペクトラル・シェイプのフォルマントであるターゲットフォルマント及び前記元フォルマントに基づいて一定値である設定シフト量を算出するシフト量設定手段と、
前記元スペクトラル・シェイプを周波数軸方向に前記設定シフト量だけシフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ
変形手段と、
ターゲット音声信号から抽出した正弦波成分の周波数に対応する新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅に対応する新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報に基づいて変換音声信号を生成する音声生成手段とを備え、
前記シフト量設定手段は、前記ターゲットフォルマントの第１フォルマントである第１ターゲットフォルマント及び前記元フォルマントの第１フォルマントである第１元フォルマントの周波数差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。
請求項５または請求項６記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマントの第１ターゲットフォルマント〜第ｎターゲットフォルマント（ｎ＝２以上の自然数）で構成されるターゲットフォルマント群及び前記元フォルマントの第１フォルマント〜第ｎフォルマントで構成される元フォルマント群に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。
請求項７記載の音声変換装置において、
前記シフト量設定手段は、前記ターゲットフォルマント群を構成するターゲットフォルマントの周波数を算術平均して得られるターゲット基準位置及び前記元フォルマント群を構成する元フォルマントの周波数を算術平均して得られる元基準位置の差に基づいて前記一定値である設定シフト量を算出することを特徴とする音声変換装置。