JP4455701B2 - 音声信号処理装置および音声信号処理方法 - Google Patents
音声信号処理装置および音声信号処理方法 Download PDFInfo
- Publication number
- JP4455701B2 JP4455701B2 JP30027599A JP30027599A JP4455701B2 JP 4455701 B2 JP4455701 B2 JP 4455701B2 JP 30027599 A JP30027599 A JP 30027599A JP 30027599 A JP30027599 A JP 30027599A JP 4455701 B2 JP4455701 B2 JP 4455701B2
- Authority
- JP
- Japan
- Prior art keywords
- sine wave
- phase
- phase relationship
- component
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
本発明は、入力される音声信号に対して正弦波分析を行い正弦波成分を取得し、該正弦波成分に変換処理を行う音声信号処理装置、および音声信号処理方法に関する。
【0002】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置が開発されており、このような音声変換装置を利用したカラオケ装置も開発されている。
【0003】
上記のような音声変換装置としては、入力される音声信号に正弦波分析を行って複数の正弦波成分(基本波成分および倍音成分)と残差成分(主に無声音)を抽出し、抽出した各正弦波成分に周波数変換などの処理を施す。そして、変換処理後の新たな正弦波成分と残差成分を合成することにより、入力された音声信号の変換を行うものが開発されている。
【0004】
【発明が解決しようとする課題】
ところで、上述したような各正弦波成分に変換処理を施す場合、基本波成分および倍音成分について、新たに振幅、周波数および位相を形成する必要がある。従って、変換処理の際には、正弦波分析により得られた各正弦波成分の全てについて、振幅、周波数および位相を示すデータを属性(attribute)データとして保持し、保持した属性データを用いて変換処理後の新たな各正弦波成分の振幅、周波数および位相を形成していた。
【0005】
しかし、上述したように元の正弦波成分の位相を示すデータを用いて新たな正弦波成分の位相を形成する方法では、ピッチシフトやタイムストレッチ(時間伸張)などの変換処理を行った場合、位相の不連続が生じてしまい、これに起因して変換した出力音声の音質が劣化して自然さが損なわれてしまう。また、基本波成分と倍音成分の位相を連続するように形成した場合も、元の信号から取得した各成分間の位相関係が崩れてしまい、これに起因して音質が劣化して自然さが損なわれてしまう。
【0006】
また、位相を示すデータを属性データとして保持せずに、新たな正弦波成分の位相を形成する方法も考えられている。この場合、各正弦波成分の周波数に関わらず、位相をランダムに生成したり、位相を任意の固定値とする方法があるが、この場合にも各正弦波成分間の位相に相関性がなく、音質が劣化して自然さが損なわれてしまう。
【0007】
また、位相を示すデータを属性データとして保持せずに、新たな正弦波成分の位相を形成する方法としては、正弦波分析によって得られた周波数を示すデータから新たな正弦波成分の位相を形成する方法もある。しかしながら、この方法で位相を形成する場合には、入力される音声がインパルス的な音であったり、ピッチが低域な音である場合には、新たに生成した位相と元の位相との違いに起因して、聴取者は音の鮮明さや残響感の違いを感じてしまう。特に、低周波数領域においては、位相の人の知覚は顕著であり、低周波領域の音の場合には聴取者が感じる違和感が大きくなってしまう。
【0008】
本発明は、上記の事情を考慮してなされたものであり、正弦波分析を行って抽出した複数の正弦波成分間の位相関係を保持したまま変換処理を行うことにより、より自然な変換処理音声を作り出すことが可能な音声信号処理装置、および音声信号処理方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するため、本発明の請求項1に記載の音声信号処理装置は、入力される音声信号に正弦波分析を施して、各フレームの正弦波成分を取得する正弦波取得手段と、前記正弦波成分の基本波成分と各倍音成分との位相の関係を示す位相関係情報を前記各フレームに対応して取得する位相関係情報取得手段と、前記正弦波取得手段により取得された正弦波成分に変換処理を施して、変換処理を施した正弦波成分を出力する変換手段とを備え、前記変換手段は、前記各フレームに対応して、前記出力する正弦波成分の基本波成分の位相を予め設定された態様で形成し、当該基本波成分の位相が予め設定された値となる時点において、当該正弦波成分の各倍音成分が前記位相関係取得手段により取得された位相関係情報に従った位相になるように、当該正弦波成分の各倍音成分の位相を形成する位相形成手段を有していることを特徴としている。
【0010】
また、請求項2に記載の音声信号処理装置は、請求項1に記載の音声信号処理装置において、前記位相関係情報取得手段は、前記正弦波取得手段により取得された正弦波成分の基本波成分の位相が前記予め設定された値となった時点における前記各倍音成分の位相の関係を示す位相関係情報を取得することを特徴としている。
【0011】
また、請求項3に記載の音声信号処理装置は、請求項1に記載の音声信号処理装置において、前記位相関係情報取得手段は、予め設定された条件にしたがって擬似的な前記位相関係情報を生成することを特徴としている。
【0012】
また、請求項4に記載の音声信号処理装置は、請求項3に記載の音声信号処理装置において、前記擬似的な位相関係情報は、前記正弦波取得手段により取得された正弦波成分の倍音成分の周波数に応じて決定されることを特徴としている。
【0013】
また、請求項5に記載の音声信号処理装置は、請求項4に記載の音声信号処理装置において、前記擬似的な位相関係情報は、倍音成分の周波数が所定周波数未満である場合には位相関係情報を固定値とし、倍音成分の周波数が前記所定周波数以上である場合には倍音成分の周波数を変数とする予め設定された関数により決定されることを特徴としている。
【0014】
また、請求項6に記載の音声信号処理装置は、請求項3に記載の音声信号処理装置において、前記擬似的な位相関係情報は、前記正弦波取得手段により取得された正弦波成分のエンベロープ形状に応じて決定されることを特徴としている。
【0015】
また、請求項7に記載の音声信号処理装置は、請求項5または6に記載の音声信号処理装置において、前記位相関係情報取得手段は、生成する前記擬似的な位相関係情報にゆらぎを付与することを特徴としている。
【0016】
また、請求項8に記載の音声信号処理方法は、入力される音声信号に正弦波分析を施して、各フレームの正弦波成分を取得する正弦波取得ステップと、前記正弦波成分の基本波成分と各倍音成分との位相の関係を示す位相関係情報を前記各フレームに対応して取得する位相関係情報取得ステップと、前記正弦波取得ステップにより取得された正弦波成分に変換処理を施して、変換処理を施した正弦波成分を出力する変換ステップとを備え、前記変換ステップでは、前記各フレームに対応して、前記出力する正弦波成分の基本波成分の位相を予め設定された態様で形成し、当該基本波成分の位相が予め設定された値となる時点において、当該正弦波成分の各倍音成分が前記位相関係取得ステップにより取得された位相関係情報に従った位相になるように、当該正弦波成分の各倍音成分の位相を形成することを特徴としている。
【0017】
また、請求項9に記載の音声信号処理方法は、請求項8に記載の音声信号処理方法において、前記位相関係情報取得ステップでは、前記正弦波取得ステップにより取得された正弦波成分の基本波成分の位相が前記予め設定された値となった時点における前記各倍音成分の位相の関係を示す位相関係情報を取得することを特徴としている。
【0018】
また、請求項10に記載の音声信号処理方法は、請求項8に記載の音声信号処理方法において、前記位相関係情報取得ステップは、予め設定された条件にしたがって擬似的な前記位相関係情報を生成することを特徴としている。
【0019】
また、請求項11に記載の音声信号処理方法は、請求項10に記載の音声信号処理方法において、前記擬似的な位相関係情報は、前記正弦波取得ステップにより取得された正弦波成分の倍音成分の周波数に応じて決定されることを特徴としている。
【0020】
また、請求項12に記載の音声信号処理方法は、請求項11に記載の音声信号処理方法において、前記擬似的な位相関係情報は、倍音成分の周波数が所定周波数未満である場合には位相関係情報を固定値とし、倍音成分の周波数が前記所定周波数以上である場合には倍音成分の周波数を変数とする予め設定された関数により決定されることを特徴としている。
【0021】
また、請求項13に記載の音声信号処理方法は、請求項10に記載の音声信号処理方法において、前記擬似的な位相関係情報は、前記正弦波取得ステップにより取得された正弦波成分のエンベロープ形状に応じて決定されることを特徴としている。
【0022】
また、請求項14に記載の音声信号処理方法は、請求項12または13に記載の音声信号処理方法において、前記位相関係情報取得ステップでは、生成する前記擬似的な位相関係情報にゆらぎを付与することを特徴としている。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
A.第1実施形態
A−1.構成
まず、図1は本発明の第1実施形態に係る音声信号処理装置の構成を示す。同図に示すように、この音声信号処理装置は、SMS(Spectral Modeling Synthesis)分析部100と、変換処理部101と、位相関係情報取得部102と、位相形成部103と、逆FFT部104と、パラメータ設定部25とを備えている。
【0024】
SMS分析部100は、入力される音声信号をフレーム単位に区切り、フレーム単位に区切られた音声信号を出力する時間窓処理部10と、時間窓処理部10からのフレーム単位の音声信号に対して高速フーリエ変換(FFT)処理を行い、周波数分析を行う周波数分析部11とを有している。なお、本実施形態において、音声信号とは人の発する声を信号化したものに限らず、楽器の発生した楽音等を含んだ音全般を信号化したものをいう。
【0025】
周波数分析部11は、フレーム単位の音声信号に対してFFTを行うことにより、その正弦波成分と残差成分を抽出する。正弦波成分とは、基本周波数および基本周波数の倍数にあたる周波数(倍音)の成分をいう。また、正弦波成分として抽出されるデータとしては、周波数を示す周波数情報fnと、振幅を示す振幅情報Anと、位相を示す位相情報Ψnとが含まれている。ここで、残差成分とは入力信号から正弦波成分を除いた成分であり、音声に含まれる無声成分を多く含んでいる。
【0026】
SMS分析部100によって抽出された残差成分は、逆FFT部104に出力され、正弦波成分は変換処理部101および位相関係情報取得部102に出力される。ここで、変換処理部101には正弦波成分のうち周波数情報fnおよび振幅情報Anが出力され、位相関係情報取得部102には位相情報Ψnが出力されるようになっている。
【0027】
変換処理部101は、パラメータ設定部25により設定されたパラメータ等に基づいて、SMS分析部100から供給される正弦波成分(位相情報Ψnを除く)に変換処理を行うものである。例えば、この音声信号処理装置がカラオケ装置に適用されている場合には、図2に示すような構成のものなどが用いられる。
【0028】
図2において、符号110は分離部であり、周波数分析部11が出力する周波数値F0〜Fnと振幅値A0〜Anとを分離する。ピッチ検出部111は、分離部110から供給される周波数値に基づいて各フレーム毎のピッチを検出する。この場合のピッチ検出は、分離部110が出力する周波数値のうち最も低い値から所定数(例えば3個程度)の周波数値を選択し、それらの周波数値を所定の重み付けをした後に、それらの平均を算出してピッチPSとする。また、ピッチ検出部111は、ピッチを検出することができないフレームについては、ピッチ無しを示す信号を出力する。ピッチ無しのフレームとは、そのフレーム内の音声信号がほとんど無声音やノイズによって構成されている場合である。このようなフレームについては、周波数スペクトルが倍音構成とならないので、ピッチ無しと判定する。
【0029】
次に、符号20は音声を似せようとする対象(以下、ターゲットという)の情報が記憶されているターゲット情報記憶部である。ターゲット情報記憶部20は、曲毎にターゲットの情報を記憶している。ターゲットの情報は、ターゲットの音声の音階的なピッチを抽出したピッチ情報PToと、ピッチの揺らぎ成分PTfと、確定的な振幅成分(分離部110が出力する振幅値A0、A1、A2……と同種の成分)とを有しており、これらの情報は、音階的ピッチ記憶部21、ゆらぎピッチ記憶部22および確定的振幅成分記憶部23に各々記憶されている。
ターゲット情報記憶部20は、カラオケ演奏に同期して、上述した各情報を読み出すようになっている。
【0030】
次に、音階的ピッチ記憶部21から読み出されたピッチ情報PToは、割合制御部30においてピッチPSと混合される。この場合の混合は、次の式に基づいて行われる。
(1.0-α)*PS+α*PTo
ここで、αは0から1までの値をとるパラメータであり、割合制御部30から出力される信号は、α=0でピッチPSに等しくなり、α=1でピッチ情報PToに等しくなる。また、パラメータαは、操作者がパラメータ設定部25(図1参照)を操作することによって任意の値が設定される。パラメータ設定部25においては、後述するパラメータβ、γも設定可能になっている。
【0031】
次に、ピッチ正規化部12は、分離部110から出力される各周波数値f0〜fnをピッチPSで割り、周波数値を正規化する。正規化された各周波数値f0/PS〜fn/PS(ディメンジョンは無名数)は、乗算部15によって割合制御部からの信号と乗算され、そのディメンジョンは再び周波数となる。この場合、パラメータαの値により、マイク1から音声を入力している歌い手(以下、シンガーという)のピッチの影響が強くなるか、あるいは、ターゲットのピッチの影響が強くなるかが決定される。
【0032】
割合制御部31は、ゆらぎピッチ記憶部22から出力される揺らぎ成分PTfにパラメータβ(0≦β≦1)を乗算部14で乗算して出力する。この場合、揺らぎ成分PTfは、セントの単位でピッチ情報PToに対する偏差を示している。従って、割合制御部31においては、揺らぎ成分PTfを1200(1オクターブは1200セント)で除し、それに対し2のべきをとる演算を行う。すなわち、以下の演算を行う。
POW(2,(PTf*β/1200))
この演算結果と乗算部15の出力信号が乗算され、さらに、乗算部14の出力信号は、乗算部17において、トランスポーズ制御部32の出力信号と乗算される。トランスポーズ制御部32は、移調を行う音程に応じた値を出力するものである。どの程度の移調を行うかは、任意に設定されるが、通常は、移調なしが設定されるか、あるいは、オクターブ単位の変化が指定される。オクターブ単位の変化が指定されるのは、ターゲットが男性でシンガーが女性(あるいはその逆)の場合のように、歌う音程にオクターブの差がある場合などのときである。
以上のようにして、ピッチ正規化部12から出力された周波数値は、ターゲットのピッチ、揺らぎ成分が付与され、さらに、必要であればオクターブ変換が行われた後に出力される。
【0033】
次に、符号13は、振幅検出部であり、分離部110から供給される振幅値A0、A1、A2……の平均値MSをフレーム毎に検出する。振幅正規化部16においては、振幅値A0、A1、A2……をその平均値で割り、振幅値を正規化する。割合制御部18においては、確定的振幅成分記憶部23から読み出される確定的振幅成分AT0、AT1、AT2……(これらは正規化されている)と正規化された振幅値とを混合する。混合の度合いはパラメータγに従って行われる。確定的振幅成分AT0、AT1、AT2……をATn(n=1、2、3……)で表し、振幅正規化部16から出力される振幅値をASn’(n=1、2、3……)で表すと、割合制御部18の動作は次の演算で表される。
(1-γ)*ASn'+γ*ATn
γはパラメータ設定部25(図1参照)において適宜設定されるパラメータであり、0から1までの値をとる。γが大きいほど、ターゲットの影響を強く受ける。音声信号の正弦波成分の振幅は、声質を決めるものであるから、γが大きいほどターゲットの声質に近くなる。
割合制御部18の出力信号は、乗算部19において、平均値MSと乗算される。すなわち、正規化された信号から振幅を直接表す信号に変換される。
【0034】
このようにして変換処理がなされた周波数情報f”nおよび振幅情報A”nが出力される。
【0035】
図1に示す位相関係情報取得部102は、正弦波成分の基本周波数の位相Ψ0と、各倍音成分の位相Ψn(nは倍音の次数)との位相関係を示す位相関係情報を取得する。以下、このような位相関係情報を取得する方法について図3を参照しながら説明する。
【0036】
まず、現在の時刻tNにおける基本周波数の位相ΨN0が最も手前で定数C(例えば、C=π)となるように位相をシフトしたときの位相シフト時間tCNとすると、tCNは基本周波数f0(現在のフレームのピッチ)、ΨN0および定数Cより、次式により表される。
【数1】
各倍音成分の位相について、上記式で算出した位相シフト時間tCNを用いて次式のように表現することができる。
【数2】
上記式において、ΨN’0=Cである。このようにして、基本周波数と各倍音成分との位相の関係を示すΨN’nを各倍音成分の位相関係情報として位相関係情報取得部102が取得して保持する。従って、本実施形態においては、分析された位相ΨNnそのものを示す情報を保持しないようになっている。
【0037】
図1に示す位相形成部103は、上述したように位相関係情報取得部102に取得された位相関係情報ΨN’nと、変換処理部101により変換処理がなされた後の周波数情報f”nとに基づいて、変換処理後の位相を形成する。このような位相形成方法について図4を参照しながら説明する。
【0038】
まず、ピッチの進行、基本周波数の進行、または元の信号の基本周波数と位相に基づく関数等により各フレームの基本周波数の位相ΨN”0が決定される。具体的に例示すると、フレーム処理を進めていく上で、無声音から有声音になったとき、もしくは無音から有声音になったとき(前フレームでピッチが検出されなかった場合)の基本周波数の位相Ψ”N0を定数Cとすれば、次フレーム(前フレームでピッチが検出された場合)の位相についてはこの位相(=C)、基本周波数f”n(あるいはピッチ)および1フレームの長さTから変換処理後の基本周波数のΨN”0を決定することができる。以後同様に、前フレームでピッチが検出されなかった場合にはΨ”N0=Cとし、前フレームでピッチが検出された場合には、次式により位相Ψ”N0を決定する。
Ψ”N0=2πf”n+Ψ”N-10
【0039】
このように変換処理後の基本周波数の位相ΨN”0が決定されると、変換処理部101から供給される変換処理後の基本周波数f”nを用いた次式により位相シフト時間tSNが決定される。
【数3】
上記式により算出された位相シフト時間tSN、位相関係情報取得部102により取得された位相関係情報ΨN’n、および変換処理部101から供給される変換処理後の各倍音成分の周波数f”nを用い、次の式により変換処理後の時刻tNにおける位相ΨN”nが表される。
【数4】
これにより、位相形成部103は変換処理後の各倍音成分の位相を形成し、変換処理後の位相を示す位相情報ΨN”nを逆FFT部104に出力する。
【0040】
逆FFT部104には、位相形成部103からの位相情報Ψ”nに加え、変換処理部101からの変換処理後の周波数情報f”nおよび振幅情報A”nと、SMS分析部100からの残差成分とが供給される。これらに逆FFT処理を施し、正弦波成分と残差成分がSMS合成されて合成音声信号を出力する。
【0041】
A−2.動作
次に、上記構成の音声信号処理装置の動作について図5を参照しながら説明する。まず、音声信号が入力されると、入力音声信号にSMS分析部100によりフレーム単位でSMS分析が施され、正弦波成分と残差成分が抽出される。ここで、正弦波成分として、周波数情報fn、振幅情報Anおよび位相情報Ψnが取得される(ステップSa1)。
【0042】
そして、位相情報Ψnに基づいて、正弦波成分の基本周波数と各倍音成分の位相の関係を示す位相関係情報Ψ’nが取得される(ステップSa2)。また、周波数情報fnおよび振幅情報Anに対してはターゲット音声データと乗算されるといった変換処理がなされ(ステップSa3)、変換処理後の周波数情報f”nおよび振幅情報A”nが取得される。
【0043】
そして、ステップSa2において取得された位相情報Ψ’nと、ステップSa3において変換された変換後の周波数f”nとに基づいて、変換処理後の位相Ψ”nが形成される(ステップSa4)。このようにして変換処理後の正弦波成分(f”n、A”n、Ψ”n)と、ステップSa1において抽出された残差成分が合成されて合成出力信号が生成される(ステップSa5)。
【0044】
このように本実施形態に係る音声信号処理装置によれば、音声信号に変換処理を行った場合にも、変換処理後の基本周波数と倍音成分の位相の関係を、元の信号にみられた位相関係を崩すことなく保持することができる。従って、変換処理後の音声信号に位相の不連続が生じることを低減でき、変換処理後に出力される音声をより自然な感じとすることができる。ピッチシフトやタイムストレッチなどの変換処理を行った場合にも、位相の不連続が生じず、変換後の音声の劣化(不自然さ)を抑制することができる。
【0045】
B.第2実施形態
次に、本発明の第2実施形態に係る音声信号処理装置について説明する。なお、第2実施形態に係る音声信号処理装置は、位相関係情報取得部102による位相関係情報の取得方法が上記第1実施形態と異なる以外は、上記第1実施形態と同様の構成(図1参照)であるため、同様の部分についての説明を省略し、位相関係情報取得部102による位相関係情報の取得方法について図6を参照しながら説明する。
【0046】
第2実施形態に係る音声信号処理装置では、位相関係情報取得部102がSMS分析により得られる位相情報Ψnを保持せず、また上記第1実施形態のようにSMS分析により得られた正弦波成分から位相関係情報Ψ’nを取得するのではなく、元の音声信号にみられた基本周波数と倍音成分の位相の関係を示す位相関係情報Ψ’nを擬似的に生成し、この擬似的な位相関係情報Ψ’nを用いて位相形成部103(図1参照)が変換後の位相Ψ”nを形成している。
【0047】
このような擬似的な位相関係情報Ψ’nの生成方法について詳細に説明する。第2実施形態における位相関係情報取得部102は、図6に示すように、予め設定された境界周波数fb(例えば、2kHz)未満の基本周波数または倍音成分と、境界周波数fb以上の倍音成分とで擬似的な位相関係情報Ψ’nの生成方法を使い分けている。
【0048】
より具体的には、境界周波数fb未満の周波数を有する基本周波数および倍音成分については擬似位相関係情報Ψ’nを定数C(例えば、C=π)とし、境界周波数fb以上の周波数の倍音成分については擬似位相関係情報Ψ’nを各倍音成分の周波数値fに応じて変化する所定の関数(例えば、F(f)=0)で算出する。つまり、境界周波数fb未満の基本周波数および倍音成分については、擬似位相関係情報Ψ’n=Cとし、境界周波数fb以上の倍音成分については、擬似位相関係情報Ψ’n=F(f)とする。すなわち、位相関係情報取得部102は、次式を用いて擬似位相関係情報Ψ’nを取得する。
【数5】
このようにして位相関係情報取得部102が取得した擬似位相関係情報Ψ’Nnを用いて、位相形成部103が変換処理後の位相ΨN”nを形成する方法について図7を参照しながら説明する。
【0049】
まず、上記第1実施形態と同様に変換処理後の基本周波数の位相Ψ”N0(N番目のフレームの位相)が決定されると、この位相ΨN”0および変換処理後の基本周波数f”0を用いた上記式(1)により、位相シフト時間tSNが決定される。
【0050】
従って、変換処理後の各倍音成分の位相ΨN”nは、上記のように取得した擬似位相関係情報ΨN’nおよび変換処理後の周波数f”nを用いて上記式(2)により表される。
【0051】
上記式(2)において、変換処理後の周波数が境界周波数fb未満の倍音成分については擬似位相情報ΨN’n=Cが用いられ、境界周波数fb以上の倍音成分については擬似位相情報ΨN’n=F(f)が用いられる。このようにして変換処理後の各倍音成分の位相ΨN”nを形成することができる。
【0052】
第2実施形態に係る音声信号処理装置では、上記第1実施形態と同様に音声信号に変換処理を行った場合にも、変換処理後の基本周波数と各倍音成分の位相関係を、元の信号にみられた位相関係を擬似的に保持することができる。従って、位相の不連続等に起因する合成出力後の音声の不自然さを低減することができる。また、擬似的な位相関係情報Ψ’nを用いて位相を形成しているので、保持する元の信号の正弦波成分のデータ量を少なくすることができる。
【0053】
なお、上述したように生成する擬似位相関係情報Ψ’nをより自然なものとするために定数Cおよび関数F(f)にゆらぎを与えるようにしてもよい。具体的に例示すると、フレーム毎あるいは各倍音毎に乱数(Rand(−1≦Rand≦1)を発生する乱数発生手段を設け、定数CL(例えば、CL=0.25)および定数CR(例えば、CR=0.125)を用いた次式によりΨ’nを算出するようにしてもよい。
C=C+CLπRand if f<fb
F(f)=F(f)+CRπRand if f≧fb
このようにすれば、より自然な位相関係を示す擬似位相情報Ψ’nを取得することができ、合成出力後の音声により自然さをもたせることができる。
【0054】
C.第3実施形態
次に、本発明の第3実施形態に係る音声信号処理装置について図8を参照しながら説明する。同図に示すように、第3実施形態に係る音声信号処理装置では、SMS分析部100による分析で取得した位相情報Ψnを保持せずに、正弦波成分として周波数情報fnおよび振幅情報Anを変換処理部101に出力している。
【0055】
変換処理部101では、第1実施形態と同様に変換処理がなされて、変換処理後の周波数情報f”nおよび振幅情報A”nに加えて、正弦波分析によりスペクトラルシェープが取得され、このスペクトラルシェープが位相関係情報取得部102に供給されるようになっている。そして、位相関係情報取得部102では、供給されたスペクトラルシェープのエンベロープ形状に応じて、擬似的な位相関係情報Ψ’nを生成するようになっている。
【0056】
第3実施形態における位相関係情報取得部102では、まず、変換処理部101から供給されるスペクトラルシェープ(図9参照)のピーク周波数F(1)、F(2)、F(3)、……を用い、次式により各ピーク周波数の強度Q(1)、Q(2)、Q(3)、……を求めている。
【数6】
上記式において、F(n)Uはスペクトラルシェープの高域ピーク減衰周波数であり、F(n)Lはスペクトラルシェープの低域ピーク減衰周波数である。
このように算出した各ピーク周波数の強度Q(1)、Q(2)、Q(3)、……を用い、次式により各倍音の擬似位相関係情報Ψ’nを算出する。ここで、上記第1実施形態と同様に基本周波数の擬似位相関係情報Ψ’0は定数C(例えば、C=π)である。
【数7】
上記式において、Bは定数であり、S(n)は各倍音の擬似位相関係情報の基本周波数からのシフト量を示す。
【0057】
第3実施形態では、各倍音成分の周波数値fがスペクトラルシェープのいずれのピーク周波数間(F(1)〜F(2)間やF(2)〜F(3)間など)の値であるかによって、それぞれ異なる擬似位相関係情報Ψ’nが生成されることになる。
【0058】
このようにして各倍音成分の擬似位相関係情報Ψ’nが取得されると、上記第1および第2実施形態と同様に、この擬似位相関係情報Ψ’nと、変換処理後の周波数情報f”nと、基本周波数の位相Ψ”0とを用いて、上記式(1)により位相シフト時間tSNが算出される。
【0059】
従って、図10に示す変換処理後の各倍音成分の位相ΨN”n(N番目のフレームの位相)は、上記のように取得した擬似位相関係情報Ψ’nおよび変換処理後の周波数f”nを用いて上記式(2)により算出される。このようにして各倍音成分の位相ΨN”nを形成することができる。
【0060】
第3実施形態に係る音声信号処理装置では、上記第1および第2実施形態と同様に音声信号に変換処理を行った場合にも、変換処理後の基本周波数と各倍音成分の位相関係を、元の信号にみられた位相関係を擬似的に保持することができる。従って、位相の不連続等に起因する合成出力後の音声の不自然さを低減することができる。また、擬似的な位相関係情報Ψ’nを用いて位相を形成しているので、保持する元の信号の正弦波成分のデータ量を少なくすることができる。
【0061】
なお、第3実施形態においても、擬似位相関係情報Ψ’nをより自然なものとするために定数Cおよび定数Bにゆらぎを与えるようにしてもよい。具体的に例示すると、フレーム毎あるいは各倍音毎に乱数(Rand(−1≦Rand≦1)を発生する乱数発生手段を設け、定数CL(例えば、CL=0.25)および定数CR(例えば、CR=0.125)を用いた次式によりΨ’nを算出するようにしてもよい。
C=C+CLπRand
B=B+CRπRand
このようにすれば、より自然な位相関係を示す擬似位相情報Ψ’nを取得することができ、合成出力後の音声により自然さをもたせることができる。
【0062】
D.変形例
なお、本発明は、上述した様々な実施形態に限定されるものではなく、以下のような種々の変形が可能である。
【0063】
(1)上述した各実施形態においては、変換処理部101により変換された変換後の周波数情報f”nを用い、すなわちfnから得られる周波数情報f”nを用いて位相シフト時間tSNを算出するようにしていたが、変換処理部101において調和関係を有する完全倍音構造の倍音成分を生成するようにし、すなわちfnから得られる周波数情報f”n、を用いずに変換後の位相Ψ”nを算出するようにしてもよい。
【0064】
完全倍音構造の各倍音の周波数f”nは、平均ピッチAveragePitchを用いて次式により表される。
f”n=AveragePitch(n+1)
上記式において、AveragePitchは前フレームのピッチと現在のフレームのピッチとの平均値である(前フレームでピッチが得られなかった場合には、現在のフレームのピッチ)。
上記各実施形態において、変換後の倍音成分の位相Ψ”nを算出する際に用いたf”nに代えてAveragePitch(n+1)を用いれば、fnから得られる周波数情報f”nを用いずに変換後の位相を形成することができる。このように完全倍音構造の倍音成分を生成すれば、fnから得られる周波数情報f”nを用いず、つまり保持するデータ数を削減しても、位相Ψ”nを形成することができる。
【0065】
(2)また、正弦波成分の抽出方法は、上述した実施形態で説明した方法に限らず、音声信号から正弦波成分を抽出できる方法であればよい。
【0066】
(3)また、上述した実施形態においては、SMS分析を行った後、位相関係情報取得部102が位相関係情報を取得し、この位相関係情報を用いて変換後の位相を形成するようにしていたが、分析した音声信号のエネルギーの集中度が高い場合には上記のような位相形成方法により生成した合成音声に不自然さを低減させる効果が生じないこともある。この点を考慮し、分析した音声信号のエネルギーの集中度を検知し、この検知結果に応じて上記位相形成方法を行うか否かを決定するようにしてもよい。
【0067】
(4)また、変換処理部101が行う変換処理は、上記実施形態で説明したものに限らず、他の合成・変換等の処理であってもよい。
【0068】
【発明の効果】
以上説明したように、本発明によれば、正弦波分析を行って抽出した複数の正弦波成分間の位相関係を保持したまま変換処理を行うことにより、より自然な変換処理音声を作り出すことが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態に係る音声信号処理装置の構成を示すブロック図である。
【図2】 前記音声信号処理装置の構成要素である変換処理部の構成例を示すブロック図である。
【図3】 前記音声信号処理装置の構成要素である位相関係情報取得部による位相関係情報の取得方法を説明するための図である。
【図4】 前記音声信号処理装置の構成要素である位相形成部による位相形成方法を説明するための図である。
【図5】 前記音声信号処理装置の動作を説明するためのフローチャートである。
【図6】 本発明の第2実施形態に係る音声信号処理装置の構成要素である位相関係情報取得部による位相関係情報の取得方法を説明するための図である。
【図7】 前記第2実施形態に係る音声信号処理装置の構成要素である位相形成部による位相形成方法を説明するための図である。
【図8】 本発明の第3実施形態に係る音声信号処理装置の構成を示すブロック図である。
【図9】 前記第3実施形態に係る音声信号処理装置の構成要素である位相関係情報取得部による位相関係情報の取得方法を説明するための図である。
【図10】 前記第3実施形態に係る音声信号処理装置の構成要素である位相形成部による位相形成方法を説明するための図である。
【符号の説明】
10……時間窓処理部、11……周波数分析部、100……SMS分析部、101……変換処理部、102……位相関係情報取得部、103……位相形成部、104……逆FFT部
Claims (14)
- 入力される音声信号に正弦波分析を施して、各フレームの正弦波成分を取得する正弦波取得手段と、
前記正弦波成分の基本波成分と各倍音成分との位相の関係を示す位相関係情報を前記各フレームに対応して取得する位相関係情報取得手段と、
前記正弦波取得手段により取得された正弦波成分に変換処理を施して、変換処理を施した正弦波成分を出力する変換手段と
を備え、
前記変換手段は、前記各フレームに対応して、前記出力する正弦波成分の基本波成分の位相を予め設定された態様で形成し、当該基本波成分の位相が予め設定された値となる時点において、当該正弦波成分の各倍音成分が前記位相関係取得手段により取得された位相関係情報に従った位相になるように、当該正弦波成分の各倍音成分の位相を形成する位相形成手段を有している
ことを特徴とする音声信号処理装置。 - 前記位相関係情報取得手段は、前記正弦波取得手段により取得された正弦波成分の基本波成分の位相が前記予め設定された値となった時点における前記各倍音成分の位相の関係を示す位相関係情報を取得する
ことを特徴とする請求項1に記載の音声信号処理装置。 - 前記位相関係情報取得手段は、予め設定された条件にしたがって擬似的な前記位相関係情報を生成する
ことを特徴とする請求項1に記載の音声信号処理装置。 - 前記擬似的な位相関係情報は、前記正弦波取得手段により取得された正弦波成分の倍音成分の周波数に応じて決定される
ことを特徴とする請求項3に記載の音声信号処理装置。 - 前記擬似的な位相関係情報は、倍音成分の周波数が所定周波数未満である場合には位相関係情報を固定値とし、倍音成分の周波数が前記所定周波数以上である場合には倍音成分の周波数を変数とする予め設定された関数により決定される
ことを特徴とする請求項4に記載の音声信号処理装置。 - 前記擬似的な位相関係情報は、前記正弦波取得手段により取得された正弦波成分のエンベロープ形状に応じて決定される
ことを特徴とする請求項3に記載の音声信号処理装置。 - 前記位相関係情報取得手段は、生成する前記擬似的な位相関係情報にゆらぎを付与する
ことを特徴とする請求項5または6に記載の音声信号処理装置。 - 入力される音声信号に正弦波分析を施して、各フレームの正弦波成分を取得する正弦波取得ステップと、
前記正弦波成分の基本波成分と各倍音成分との位相の関係を示す位相関係情報を前記各フレームに対応して取得する位相関係情報取得ステップと、
前記正弦波取得ステップにより取得された正弦波成分に変換処理を施して、変換処理を施した正弦波成分を出力する変換ステップと
を備え、
前記変換ステップでは、前記各フレームに対応して、前記出力する正弦波成分の基本波成分の位相を予め設定された態様で形成し、当該基本波成分の位相が予め設定された値となる時点において、当該正弦波成分の各倍音成分が前記位相関係取得ステップにより取得された位相関係情報に従った位相になるように、当該正弦波成分の各倍音成分の位相を形成する
ことを特徴とする音声信号処理方法。 - 前記位相関係情報取得ステップでは、前記正弦波取得ステップにより取得された正弦波成分の基本波成分の位相が前記予め設定された値となった時点における前記各倍音成分の位相の関係を示す位相関係情報を取得する
ことを特徴とする請求項8に記載の音声信号処理方法。 - 前記位相関係情報取得ステップは、予め設定された条件にしたがって擬似的な前記位相関係情報を生成する
ことを特徴とする請求項8に記載の音声信号処理方法。 - 前記擬似的な位相関係情報は、前記正弦波取得ステップにより取得された正弦波成分の倍音成分の周波数に応じて決定される
ことを特徴とする請求項10に記載の音声信号処理方法。 - 前記擬似的な位相関係情報は、倍音成分の周波数が所定周波数未満である場合には位相関係情報を固定値とし、倍音成分の周波数が前記所定周波数以上である場合には倍音成分の周波数を変数とする予め設定された関数により決定される
ことを特徴とする請求項11に記載の音声信号処理方法。 - 前記擬似的な位相関係情報は、前記正弦波取得ステップにより取得された正弦波成分のエンベロープ形状に応じて決定される
ことを特徴とする請求項10に記載の音声信号処理方法。 - 前記位相関係情報取得ステップでは、生成する前記擬似的な位相関係情報にゆらぎを付与する
ことを特徴とする請求項12または13に記載の音声信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027599A JP4455701B2 (ja) | 1999-10-21 | 1999-10-21 | 音声信号処理装置および音声信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30027599A JP4455701B2 (ja) | 1999-10-21 | 1999-10-21 | 音声信号処理装置および音声信号処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001117600A JP2001117600A (ja) | 2001-04-27 |
JP4455701B2 true JP4455701B2 (ja) | 2010-04-21 |
Family
ID=17882840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30027599A Expired - Fee Related JP4455701B2 (ja) | 1999-10-21 | 1999-10-21 | 音声信号処理装置および音声信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4455701B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562018B2 (en) | 2002-11-25 | 2009-07-14 | Panasonic Corporation | Speech synthesis method and speech synthesizer |
JP5163606B2 (ja) * | 2003-12-25 | 2013-03-13 | カシオ計算機株式会社 | 音声分析合成装置、及びプログラム |
JP4513556B2 (ja) * | 2003-12-25 | 2010-07-28 | カシオ計算機株式会社 | 音声分析合成装置、及びプログラム |
US7672835B2 (en) | 2004-12-24 | 2010-03-02 | Casio Computer Co., Ltd. | Voice analysis/synthesis apparatus and program |
JP4734961B2 (ja) * | 2005-02-28 | 2011-07-27 | カシオ計算機株式会社 | 音響効果付与装置、及びプログラム |
JP5246208B2 (ja) * | 2010-06-07 | 2013-07-24 | カシオ計算機株式会社 | 基音抽出装置、及びプログラム |
WO2012035595A1 (ja) * | 2010-09-13 | 2012-03-22 | パイオニア株式会社 | 再生装置、再生方法及び再生プログラム |
JP6371531B2 (ja) * | 2014-01-23 | 2018-08-08 | 日本放送協会 | 音声信号処理装置及びプログラム |
-
1999
- 1999-10-21 JP JP30027599A patent/JP4455701B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001117600A (ja) | 2001-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
RU2487426C2 (ru) | Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3502247B2 (ja) | 音声変換装置 | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP4455701B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
JP2006215204A (ja) | 音声合成装置およびプログラム | |
JP2018077283A (ja) | 音声合成方法 | |
JP2006017946A (ja) | 音声処理装置およびプログラム | |
US20110132179A1 (en) | Audio processing apparatus and method | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3037861B2 (ja) | 波形形成装置およびこの出力波形を用いた電子楽器 | |
Arroabarren et al. | Instantaneous frequency and amplitude of vibrato in singing voice | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP5163606B2 (ja) | 音声分析合成装置、及びプログラム | |
JP4513556B2 (ja) | 音声分析合成装置、及びプログラム | |
JP4168700B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2000003200A (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP5745453B2 (ja) | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4172369B2 (ja) | 楽音処理装置、楽音処理方法及び楽音処理プログラム | |
JP2018077281A (ja) | 音声合成方法 | |
JP2018077280A (ja) | 音声合成方法 | |
Roebel | Between physics and perception: Signal models for high level audio processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |