JP2007226174A - 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム - Google Patents
歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム Download PDFInfo
- Publication number
- JP2007226174A JP2007226174A JP2006171331A JP2006171331A JP2007226174A JP 2007226174 A JP2007226174 A JP 2007226174A JP 2006171331 A JP2006171331 A JP 2006171331A JP 2006171331 A JP2006171331 A JP 2006171331A JP 2007226174 A JP2007226174 A JP 2007226174A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- data
- extended sound
- feature parameter
- singing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】より自然な合成歌唱音声を得る。
【解決手段】演奏データを、遷移部分と伸ばし音部分とに区切り、音素連鎖テンプレートデータベース52からの音素連鎖データは遷移部分においてそのまま用いる。伸ばし音部分については、その伸ばし音部分の両隣に位置する遷移部分の特徴パラメータを直線補間すると共に、補間された特徴パラメータ列に、定常部分テンプレートデータベースからの定常部分データに含まれる変動成分を加算することにより特徴パラメータを生成する。
【選択図】図1
【解決手段】演奏データを、遷移部分と伸ばし音部分とに区切り、音素連鎖テンプレートデータベース52からの音素連鎖データは遷移部分においてそのまま用いる。伸ばし音部分については、その伸ばし音部分の両隣に位置する遷移部分の特徴パラメータを直線補間すると共に、補間された特徴パラメータ列に、定常部分テンプレートデータベースからの定常部分データに含まれる変動成分を加算することにより特徴パラメータを生成する。
【選択図】図1
Description
この発明は、人間の歌唱音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
従来の歌唱合成装置においては、人間の実際の歌声から取得したデータをデータベースとして保存しておき、入力された演奏データ(音符、歌詞、表情等)の内容に合致したデータをデータベースより選択する。そして、この演奏データを選択されたデータに基づいてデータ変換することにより、本物の人の歌声に近い歌唱音声を合成している。
しかしながら、従来の歌唱合成装置においては、例えば「saita(咲いた)」と歌わせる場合であっても、音韻と音韻の間で音韻が自然に移り変わっていかず、合成される歌唱音声が不自然な音響をもち、場合によっては何を歌っているのか判別できないようなこともあった。
本発明は、この問題を解決することを目的とし、次のような点に着目してなされたものである。すなわち、歌唱音声においては、例えば「saita(咲いた)」と歌う場合であっても、個々の音韻(「sa」「i」「ta」)が区切って発音されるのではなく、「[#s]sa(a)・[ai]・i・(i)・[it]・ta・(a)」(#は無音を表わす)のように、各音韻間に伸ばし音部分と遷移部分が挿入されて発音がなされるのが通常である。この「saita」の例の場合、[#s] [ai]、[it]が遷移部分であり、(a)(i)(a)が伸ばし音部分である。このように、歌唱音は遷移部分や伸ばし音部分から成り立っている。このため、MIDI情報などの演奏データから歌唱音声を合成する場合においても、遷移部分や伸ばし音部分をいかに本物らしく生成するかが重要である。そこで、本発明者らは、この遷移部分を自然に再現することが自然な合成歌唱を出力するために必要であると考え、本発明をするに至ったものである。
本出願の第1の発明に係る歌唱合成装置は、歌唱を合成するための歌唱情報を記憶する記憶部と、歌唱データを、1つの音素から別の音素に移行する音素連鎖を含む遷移部分と、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶する音韻データベースと、前記歌唱情報に基づき、前記音韻データベースに記憶されたデータを選択する選択部と、前記選択部で選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力部と、前記選択部で選択された前記定常部分データに係る伸ばし音部分に先行する前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この2つの音素連鎖データを補間して該伸ばし音部分の特徴パラメータを生成して出力する伸ばし音部分特徴パラメータ出力部とを備えたことを特徴とする。
前記伸ばし音部分特徴パラメータ出力部は、前記2つの音素連鎖データを保管して取得した補間値に前記定常部分データの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成して出力するように構成することができる。前記音韻データベース内の音素連鎖データは、前記音素連鎖に係る特徴パラメータ及び非調和成分を含んでおり、前記遷移部分特徴パラメータ出力部は前記非調和成分を分離するように構成することができる。同様に、前記音韻データベース内の定常部分データは、前記定常部分に係る特徴パラメータ及び非調和成分を含んでおり、前記伸ばし音部分特徴パラメータ出力部は前記非調和成分を分離するように構成することができる。前記特徴パラメータ及び非調和成分は、例えば音声をSMS分析して得ることができる。
前記第1の発明において、前記歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき前記遷移部分の特徴パラメータ及び前記伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正手段を更に備えるようにすることができる。この場合、前記歌唱情報がピッチ情報を含み、前記特徴パラメータ補正手段は、少なくとも前記ダイナミクスに相当する振幅値を計算する第1振幅計算手段と、前記遷移部分の特徴パラメータ又は前記伸ばし音部分の特徴パラメータ及び前記ピッチ情報に相当する振幅値を計算する第2振幅計算手段とを備え、前記第1振幅計算手段の出力と前記第2振幅計算手段の出力との差に基づき前記特徴パラメータを補正するようにすることができる。さらに、前記第1振幅計算手段は、前記ダイナミクスと前記振幅値とを関連付けて記憶するテーブルを備えているようにすることもできる。加えて、前記テーブルは、前記ダイナミクスと前記振幅値との対応関係を音素毎に異ならせているようにすることもできる。また、前記テーブルは、前記ダイナミクスと前記振幅値との対応関係を周波数毎に異ならせているようにすることもできる。
この第1の発明において、前記音韻データベースは、音素連鎖データと前記定常部分データをそれぞれピッチに対応させて記憶しており、前記選択部は、同じ音素連鎖の特徴パラメータをピッチごとに異ならせて記憶しており、前記選択部は、入力されるピッチ情報に基づき対応する前記音素連鎖データと前記定常部分データを選択するようにしてもよい。また、この第1の発明において、前記音韻データベースは、前記音素連鎖データと前記定常部分データに加えて表情データを記憶しており、前記選択部は、入力される前記歌唱情報中の前記表情情報に基づき前記表情データを選択するようにしてもよい。
本出願の第2の発明に係る歌唱合成方法は、歌唱データを、1つの音素から別の音素に移行する音素連鎖を含む遷移部分と、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、歌唱を合成するための歌唱情報を入力する入力ステップと、前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力ステップと、前記選択ステップで選択された前記定常部分データに係る前記伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この2つの音素連鎖データを補間して該伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ出力ステップとを備えたことを特徴とする。
前記第2の発明において、前記伸ばし音部分特徴パラメータ出力ステップは、前記2つの音素連鎖データを補間して取得した補間値に前記定常部分データの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成して出力するようにすることができる。また、前記第2の発明において、前記歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき前記遷移部分の特徴パラメータ及び前記伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正ステップを更に備えるようにすることができる。
なお、この第2の発明に係る歌唱合成方法は、コンピュータプログラムによりコンピュータにより実行させるようにしてもよい。
(本発明の原理説明)
本発明の原理を、図7及び図8を用い、本出願人が先に出願した歌唱合成装置(特願2001-67258号)との対比することにより説明する。特願2001-67258号に記載の歌唱合成装置による歌唱合成装置の原理を、図7に示している。この歌唱合成装置は、データベースとして、ある時刻1点における音韻の特徴パラメータのデータ(Timbreテンプレート)を記憶させたTimbreテンプレートデータベース51と、伸ばし音中の特徴パラメータの微小な変化(ゆらぎ)のデータ(定常部分(stationary)テンプレート)を記憶させた定常部分テンプレートデータベース53と、音韻から音韻への遷移部分の特徴パラメータの変化を示すデータ(音素連鎖(articulation)テンプレート)を記憶させた音素連鎖テンプレートデータベース52とを備えている。これらのテンプレートを次のようにして適用することにより、特徴パラメータを生成している。
本発明の原理を、図7及び図8を用い、本出願人が先に出願した歌唱合成装置(特願2001-67258号)との対比することにより説明する。特願2001-67258号に記載の歌唱合成装置による歌唱合成装置の原理を、図7に示している。この歌唱合成装置は、データベースとして、ある時刻1点における音韻の特徴パラメータのデータ(Timbreテンプレート)を記憶させたTimbreテンプレートデータベース51と、伸ばし音中の特徴パラメータの微小な変化(ゆらぎ)のデータ(定常部分(stationary)テンプレート)を記憶させた定常部分テンプレートデータベース53と、音韻から音韻への遷移部分の特徴パラメータの変化を示すデータ(音素連鎖(articulation)テンプレート)を記憶させた音素連鎖テンプレートデータベース52とを備えている。これらのテンプレートを次のようにして適用することにより、特徴パラメータを生成している。
すなわち、伸ばし音部分の合成は、Timbreテンプレートから得られた特徴パラメータに、定常部分テンプレートに含まれる変動分を加算することにより行う。一方、遷移部分の合成は、同様に特徴パラメータに音素連鎖テンプレートに含まれる変動分を加算することにより行うが、加算対象となる特徴パラメータは、場合によって異なる。例えば当該遷移部分の前後の音韻がいずれも有声音である場合には、前部の音韻の特徴パラメータと、後部の音韻の特徴パラメータを直線補間したものに、音素連鎖テンプレートに含まれる変動分を加算する。また、前部の音韻が有声音で後部の音韻が無音の場合には、前部の音韻の特徴パラメータに、音素連鎖テンプレートに含まれる変動分を加算する。また、前部の音韻が無音で後部の音韻が有声音の場合には、後部の音韻の特徴パラメータに、音素連鎖テンプレートに含まれる変動分を加算する。このように、特願2001-67258号に開示の装置では、Timbreテンプレートから生成された特徴パラメータを基準とし、このTimbre部分の特徴パラメータに合うように音素連鎖部分の特徴パラメータに変更を加えることにより歌唱合成を行っていた。
特願2001-67258号に開示の装置では、合成される歌唱音声に不自然さが生じることがあった。その原因としては次のことが挙げられる。・音素連鎖テンプレートに変更を加えているため、元来その遷移部分が持つ特徴パラメータの変化と異なってしまうこと。・伸ばし音部分の特徴パラメータも、をTimbreテンプレートから生成された特徴パラメータを基準とし、このTimbreテンプレートの特徴パラメータに定常部分テンプレートの変動分を加算して計算しているため、伸ばし音部分の前の音韻がどのような音韻であっても同じ音韻となってしまっていたこと。要するに、この特願2001−67258の装置では、Timbreテンプレートの特徴パラメータという、歌唱全体からすると一部分にしか過ぎない部分を基準に伸ばし音部分や遷移部分の特徴パラメータを合わせ込んでいたことから、合成された歌唱が不自然になることがあった。
これに対し、本発明では、図8に示すように、音素連鎖テンプレートデータベース52と定常部分テンプレートデータベース53のみを利用し、Timbreテンプレートは基本的には不要である。そして、演奏データを、遷移部分と伸ばし音部分とに区切った後、音素連鎖テンプレートは遷移部分においてそのまま用いる。このため、歌唱の重要な部分を占める遷移部分の歌唱が自然に聞こえ、合成歌唱の品質が高まっている。また、伸ばし音部分についても、その伸ばし音部分の両隣に位置する遷移部分の特徴パラメータを直線補間すると共に、補間された特徴パラメータ列に定常部分テンプレートに含まれる変動成分を加算することにより特徴パラメータを生成する。テンプレートに変換を加えないそのままのデータに基づき補間を行うため、歌唱の不自然さは生じない。
本発明によれば、遷移部分の合成歌唱音声の自然性が高く保たれ、これにより、合成歌唱音声の自然性を高めることができる。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図1に示す各ブロックの機能は、パーソナルコンピュータ内部のCPUやRAM、ROMなどにより達成され得る。DSPやロジック回路によって構成することも可能である。音韻データベース10は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース10の作成例を図2により説明する。
図1は、第1の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図1に示す各ブロックの機能は、パーソナルコンピュータ内部のCPUやRAM、ROMなどにより達成され得る。DSPやロジック回路によって構成することも可能である。音韻データベース10は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース10の作成例を図2により説明する。
まず図2(a)に示すように、実際に録音或いは取得した歌唱データ等の音声信号をSMS(spectral modeling synthesis)分析手段31により、調和成分(正弦波成分)と非調和成分に分離する。SMS分析の代わりに、LPC(Linear Predictive Coding)等の他の分析手法を用いてもよい。次に、音素切り分け手段32により、音素切り分け情報に基づき、音声信号を音素ごとに切り分ける。音素切り分け情報は、例えば人間が音声信号の波形を見ながら所定のスイッチ動作を行うことにより与えるのが通常である。
そして、音素ごとに切り分けられた音声信号の調和成分から、特徴パラメータ抽出手段33により特徴パラメータが抽出される。特徴パラメータには、励起波形エンベロープ、励起レゾナンス、フォルマント周波数、フォルマントバンド幅、フォルマント強度、差分スペクトルなどがある。
励起波形エンベロープ(ExcitationCurve)は、声帯波形の大きさ(dB)を表わすEgain、声帯波形のスペクトルエンベロープの傾きを表わすEslopeDepth、声帯波形のスペクトルエンベロープの最大値から最小値への深さ(dB)を表わすEslopeの3つのパラメータによって構成されており、以下の式[数1]で表わすことが出来る。
(式1)Excitation Curve (f)=Egain+EslopeDepth*(exp(-Eslope*f)-1)
励起レゾナンスは、胸部による共鳴を表わす。中心周波数(ERFreq)、バンド幅(ERBW)、アンプリチュード(ERAmp)の3つのパラメータにより構成され、2次フィルター特性を有している。
(式1)Excitation Curve (f)=Egain+EslopeDepth*(exp(-Eslope*f)-1)
励起レゾナンスは、胸部による共鳴を表わす。中心周波数(ERFreq)、バンド幅(ERBW)、アンプリチュード(ERAmp)の3つのパラメータにより構成され、2次フィルター特性を有している。
フォルマントは、1から12個のレゾナンスを組み合わせることにより声道による共鳴を表わす。中心周波数(FormantFreqi、iは1〜12の整数)、バンド幅(FormantBWi、iは1〜12の整数)、アンプリチュード(FormantAmpi、iは1〜12の整数)の3つのパラメータにより構成される。
差分スペクトルは、上記の励起波形エンベロープ、励起レゾナンス、フォルマントの3つで表現することの出来ない元の調和成分との差分のスペクトルを持つ特徴パラメータである。
この特徴パラメータを、音韻名と対応させて音韻データベース10に記憶させる。非調和成分も、同様にして音韻名対応させて音韻データベース10に記憶させる。この音韻データベース10では、図2(b)に示すように、音素連鎖データと定常部分データとに分けて記憶される。以下では、この音素連鎖データと定常部分データとを総称して「音声素片データ」と称する。
音素連鎖データは、先頭音素名、後続音素名、特徴パラメータ及び非調和成分を対応付けたデータ列である。一方、定常部分データは、1つの音韻名と特徴パラメータ列と非調和成分とを対応付けたデータ列である。
図1に戻って、11は演奏データを保持するための演奏データ保持部である。演奏データは、例えば音符、歌詞、ピッチベンド、ダイナミクス等の情報を含んだMIDI情報である。音声素片選択部12は、演奏データ保持部11に保持される演奏データの入力をフレーム単位で受け付けるとともに(以下、この1単位をフレームデータという)、入力されたフレームデータ中の歌詞データに対応する音声素片データを音韻データベース10から選択して読み出す機能を有する。
先行音素連鎖データ保持部13、後方音素連鎖データ保持部14は、定常部分データを処理するために使用されるものである。先行音素連鎖データ保持部13は、処理すべき定常部分データより先行する音素連鎖データを保持するものであり、一方、後方音素連鎖データ保持部14は、処理すべき定常部分データより後方の音素連鎖データを保持するものである。
特徴パラメータ補間部15は、先行音素連鎖データ保持部13に保持された音素連鎖データの最終フレームの特徴パラメータと、後方音素連鎖データ保持部14に保持された音素連鎖データの最初のフレームの特徴パラメータとを読出し、タイマ27の示す時刻に対応するように特徴パラメータを時間的に補間する。
定常部分データ保持部16は、音声素片選択部12により読み出された音声素片データのうち、定常部分データを一時保持する。一方、音素連鎖データ保持部17は、音素連鎖データを一時保持する。
特徴パラメータ変動抽出部18は、定常部分データ保持部16に保持された定常部分データを読み出してその特徴パラメータの変動(ゆらぎ)を抽出し、変動成分として出力する機能を有する。加算部K1は、特徴パラメータ補間部15の出力と特徴パラメータ変動抽出部18の出力を加算して、伸ばし音部分の調和成分データを出力する部分である。フレーム読出し部19は、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ27に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する部分である。
ピッチ決定部20は、フレームデータ中の音符データに基づき、最終的に合成する合成音のピッチを決定する部分である。また特徴パラメータ補正部21は、加算器K1から出力された伸ばし音部分の特徴パラメータ、及びフレーム読出し部19から出力された遷移部分の特徴パラメータを、演奏データ中に含まれるダイナミクス情報等に基づいて補正する部分である。特徴パラメータ補正部21の前段にはスイッチSW1が設けられ、伸ばし音部分の特徴パラメータと遷移部分の特徴パラメータとを選択的に特徴パラメータ補正部に入力するようになっている。この特徴パラメータ補正部21での詳しい処理内容は後述する。スイッチSW2は、定常部分データ保持部16から読み出された伸ばし音部分の非調和成分と、フレーム読出し部19から読み出された遷移部分の非調和成分を切り替えて出力する。
倍音列生成部22は、決定したピッチに従い、フォルマント合成を行うための倍音列を周波数軸上に生成する部分である。スペクトル包絡生成部23は、特徴パラメータ補正部21で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する部分である。
倍音振幅・位相計算部24は、スペクトル包絡生成部23で生成したスペクトル包絡に従い、倍音列生成部22で生成された各倍音の振幅及び位相を計算する部分である。加算器K2は、倍音振幅・位相計算部24の出力としての調和成分と、スイッチSW2から出力された非調和成分とを加算する。逆FFT部25は、加算器K2の出力値を逆高速フーリエ変換して、周波数表現であった信号を時間軸表現の信号に変換するものである。重ね合せ部26は、時系列順に処理される歌詞データについて次々に得られる信号をその時系列に沿った形で重ね合わせることにより、合成歌唱音声を出力するものである。
特徴パラメータ補正部21の詳細について図3に基づいて説明する。特徴パラメータ補正部21は、振幅決定手段41を備えている。この振幅決定手段41は、ダイナミクス−振幅変換テーブルTdaを参照して演奏データ保持部11から入力されるダイナミクス情報に相当する所望の振幅値A1を出力する。また、スペクトル包絡生成手段42は、スイッチSW1から出力された特徴パラメータに基づき、スペクトル包絡を生成する部分である。
倍音列生成手段43は、ピッチ決定部20で決定されたピッチに基づいて倍音列を生成する。振幅計算手段44は、生成されたスペクトル包絡及び倍音に対応する振幅A2を計算する。振幅の計算は、例えば逆FFT等により実行することができる。加算器K3は、振幅決定手段41で決定された所望の振幅値A1と、振幅計算手段44で計算された振幅値A2との差を出力する。ゲイン補正手段45は、この差に基づき、振幅値の補正量を計算するとともに、このゲイン補正量に従って特徴パラメータを補正する。これにより、所望の振幅に合致する新たな特徴パラメータが得られる。なお、図3では、テーブルTdaに基づき、ダイナミクスのみに基づいて振幅を決定しているが、これに加えて、音素の種類も考慮して振幅を決定するようなテーブルを採用してもよい。すなわち、同じダイナミクスであっても音素が異なる場合には、異なる振幅値を与えるようなテーブルを採用してもよい。同様に、ダイナミクスに加えて周波数を考慮して振幅を決定するようなテーブルを採用してもよい。
次に、この第1の実施の形態に係る歌唱合成装置の作用を、図4に示すフローチャートを参照しつつ説明する。演奏データ保持部11は、時系列順にフレームデータを出力する。遷移部分と伸ばし音部分とが交互に現れ、遷移部分と伸ばし音部分とでは処理のされ方が異なる。
演奏データ保持部11よりフレームデータが入力されると(S1)、音声素片選択部12において、そのフレームデータが伸ばし音部分に関するものか、音韻遷移部分に関するものかが判断される(S2)。伸ばし音部分である場合には(YES)、先行音素連鎖データ保持部13、後方音素連鎖データ保持部14、定常部分データ保持部16に、それぞれ先行音素連鎖データ、後方音素連鎖データ、定常部分データが転送される(S3)。
続いて、特徴パラメータ補間部15が、先行音素連鎖データ保持部13に保持された先行音素連鎖データの最終フレームの特徴パラメータを取り出すと共に、後方音素連鎖データ保持部14に保持された後方音素連鎖データの最初のフレームの特徴パラメータを取り出し、この2つの特徴パラメータを直線補間することにより、処理中の伸ばし音部分の特徴パラメータを生成する(S4)。
また、定常部分データ保持部16に保持された定常部分データの特徴パラメータが、特徴パラメータ変動抽出部18に供給され、該定常部分の特徴パラメータの変動成分が抽出される(S5)。この変動成分が、加算器K1において特徴パラメータ補間部15から出力された特徴パラメータと加算される(S6)。この加算値が伸ばし音部分の特徴パラメータとしてスイッチSW1を介して特徴パラメータ補正部21に出力され、特徴パラメータの補正が実行される(S9)。一方、定常部分データ保持部16に保持された定常部分データの非調和成分は、スイッチSW2を介して加算器K2に供給される。スペクトル包絡生成部23は、この補正後の特徴パラメータについてのスペクトル包絡を生成する。倍音振幅・位相計算部24は、スペクトル包絡生成部23で生成したスペクトル包絡に従い、倍音列生成部22で生成された各倍音の振幅及び位相を計算する。この計算結果が、処理中の伸ばし音部のパラメータ列(調和成分)として加算器K2に出力される。
一方、S2において、取得されたフレームデータが遷移部分のものである(NO)と判定された場合には、その遷移部分の音素連鎖データが、音素連鎖データ保持部17により保持される(S7)。次に、フレーム読出し部19が、音素連鎖データ保持部17に保持された音素連鎖データを、タイマ27に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する。特徴パラメータの方は特徴パラメータ補正部21に向けて出力され、非調和成分は加算器K2に向けて出力される。この遷移部の特徴パラメータは、特徴パラメータ補正部21、スペクトル包絡生成部23、倍音振幅・位相計算部24等で上述の伸ばし音の特徴パラメータと同様の処理を受ける。
なお、スイッチSW1、SW2は、処理中のデータの種類によって切り替わるようになっているので、スイッチSW1については、伸ばし音部分を処理している間は、加算器K1の方に特徴パラメータ補正部21を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に特徴パラメータ補正部21を接続するようにされている。また、スイッチSW2については、伸ばし音部分を処理している間は、定常部分データ保持部16の方に加算器K2を接続するようにされ、遷移部分を処理している間は、フレーム読出し部19の方に加算器K2を接続するようにされている。こうして遷移部分、伸ばし音部分の特徴パラメータ及び非調和成分が演算されると、その加算値が逆FFT部25で処理され、重ね合せ手段26により重ね合わせられ、最終的な合成波形が出力される(S10)。
〔第2の実施の形態〕
本発明の第2の実施の形態に係る歌唱合成装置を、図5に基づいて説明する。図5は、第2の実施の形態に係る歌唱合成装置の機能ブロック図である。第1の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第1の実施の形態との相違点のひとつは、音韻データベースに記憶されている音素連鎖データ及び定常部分データが、ピッチ(音高)の異なる毎に異なる特徴パラメータ及び非調和成分を割り当てられている、という点である。また、ピッチ決定部20は、演奏データ中の音符情報に基づいてピッチを決定し、その結果を音声素片選択部に出力するようにされている。
本発明の第2の実施の形態に係る歌唱合成装置を、図5に基づいて説明する。図5は、第2の実施の形態に係る歌唱合成装置の機能ブロック図である。第1の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第1の実施の形態との相違点のひとつは、音韻データベースに記憶されている音素連鎖データ及び定常部分データが、ピッチ(音高)の異なる毎に異なる特徴パラメータ及び非調和成分を割り当てられている、という点である。また、ピッチ決定部20は、演奏データ中の音符情報に基づいてピッチを決定し、その結果を音声素片選択部に出力するようにされている。
この第2の実施の形態の作用を説明すると、演奏データ保持部11からの音符情報に基づいて、ピッチ決定部20が処理中のフレームデータのピッチを決定し、その結果を音声素片選択部12へ出力する。音声素片選択部12は、この決定されたピッチ及び歌詞情報中の音韻情報に最も近い音素連鎖データ及び定常部分データを読出す。後の処理は第1の実施の形態と同様である。
〔第3の実施の形態〕
本発明の第3の実施の形態に係る歌唱合成装置を、図6に基づいて説明する。図6は、第3の実施の形態に係る歌唱合成装置の機能ブロック図である。第1の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第1の実施の形態との相違点の1つは、音韻データベース10に加えて、ビブラート情報等を記憶した表情データベース30と、演奏データ中の表情情報に基づき、この表情データベースから適当なビブラートテンプレートを選択する表情テンプレート選択部30Aを備えている点である。また、ピッチ決定部20は、演奏データ中の音符情報、及び表情テンプレート選択部30Aからのビブラートデータに基づいてピッチを決定するようにされている。
本発明の第3の実施の形態に係る歌唱合成装置を、図6に基づいて説明する。図6は、第3の実施の形態に係る歌唱合成装置の機能ブロック図である。第1の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第1の実施の形態との相違点の1つは、音韻データベース10に加えて、ビブラート情報等を記憶した表情データベース30と、演奏データ中の表情情報に基づき、この表情データベースから適当なビブラートテンプレートを選択する表情テンプレート選択部30Aを備えている点である。また、ピッチ決定部20は、演奏データ中の音符情報、及び表情テンプレート選択部30Aからのビブラートデータに基づいてピッチを決定するようにされている。
この第3の実施の形態の作用を説明すると、演奏データ保持部11からの歌詞情報に基づいて、音声素片選択部12で音素連鎖データ、定常部分データが音韻データベース10から読み出される点は第1の実施の形態と同様であり、以降の処理も第1の実施の形態と同様である。一方、演奏データ保持部11からの表情情報に基づいて、表情テンプレート選択部30Aが、最も適合するビブラートデータを表情データベース30より読み出す。この読み出されたビブラートデータ、及び演奏データ中の音符情報に基づき、ピッチ決定部20によりピッチが決定される。
以上実施例に沿って本発明を説明したが、本発明はこれら実施例に制限されるものではなく、種々の変更、改良、組合せ等が可能であることは当業者にとって自明である。
10…音韻データベース、 11…演奏データ保持部、 12…音声素片選択部、 13…先行音素連鎖データ保持部、 14…後方音素連鎖データ保持部、15…特徴パラメータ補間部、16…定常部分データ保持部、17…音素連鎖データ保持部、18…特徴パラメータ変動抽出部、19…フレーム読出し部、 K1、K2…加算器、20…ピッチ決定部、 21…特徴パラメータ補正部、 22…倍音列生成部、 23…スペクトル包絡生成部、 24…倍音振幅・位相計算部、 25…逆FFT部、 26…重ね合せ部、 27…タイマ、31…SMS分析手段、 32…音素切り分け手段、 33…特徴パラメータ抽出手段、 41…振幅決定手段、 43…倍音列生成手段、 44…振幅計算手段、 K3…加算器、 45…ゲイン補正部、30…表情データベース、30A…表情テンプレート選択部、 51…Timbreデータベース、 52…音素連鎖テンプレートデータベース、 53…定常部分テンプレートデータベース
Claims (3)
- 歌唱を合成するための歌唱情報を記憶する記憶部と、
歌唱データを、1つの音素から別の音素に移行する音素連鎖を含む遷移部分と、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶する音韻データベースと、
前記歌唱情報に基づき、前記音韻データベースに記憶されたデータを選択する選択部と、
前記選択部で選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力部と、
前記選択部で選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この2つの音素連鎖データを補間して該伸ばし音部分の特徴パラメータを生成して出力する伸ばし音部分特徴パラメータ出力部とを備えたことを特徴とする歌唱合成装置。 - 歌唱データを、1つの音素から別の音素に移行する音素連鎖を含む遷移部分と、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、
歌唱を合成するための歌唱情報を入力する入力ステップと、
前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、
前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力ステップと、
前記選択ステップで選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この2つの音素連鎖データを補間して該伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ出力ステップとを備えた歌唱合成方法。 - 歌唱データを、1つの音素から別の音素に移行する音素連鎖を含む遷移部分と、1つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、
少なくとも音符情報と歌詞情報とを含む歌唱情報を入力する入力ステップと、
前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、
前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ生成ステップと、
前記選択ステップで選択された前記定常部分データに係る前記伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この2つの音素連鎖データを補間して該伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ生成ステップとをコンピュータに実行させるように構成された歌唱合成用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006171331A JP2007226174A (ja) | 2006-06-21 | 2006-06-21 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006171331A JP2007226174A (ja) | 2006-06-21 | 2006-06-21 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002054487A Division JP4153220B2 (ja) | 2002-02-28 | 2002-02-28 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007226174A true JP2007226174A (ja) | 2007-09-06 |
Family
ID=38548024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006171331A Pending JP2007226174A (ja) | 2006-06-21 | 2006-06-21 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007226174A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530672A2 (en) | 2011-06-01 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
US11289066B2 (en) | 2016-06-30 | 2022-03-29 | Yamaha Corporation | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning |
-
2006
- 2006-06-21 JP JP2006171331A patent/JP2007226174A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
US8996378B2 (en) | 2011-05-30 | 2015-03-31 | Yamaha Corporation | Voice synthesis apparatus |
EP2530672A2 (en) | 2011-06-01 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
US9230537B2 (en) | 2011-06-01 | 2016-01-05 | Yamaha Corporation | Voice synthesis apparatus using a plurality of phonetic piece data |
US11289066B2 (en) | 2016-06-30 | 2022-03-29 | Yamaha Corporation | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4067762B2 (ja) | 歌唱合成装置 | |
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP2001522471A (ja) | 特定の声を目標とする音声変換 | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP2009163121A (ja) | 音声処理装置及びそのプログラム | |
JP2006030575A (ja) | 音声合成装置およびプログラム | |
JP4207902B2 (ja) | 音声合成装置およびプログラム | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JPH10124082A (ja) | 歌声合成装置 | |
JP2004061753A (ja) | 歌唱音声を合成する方法および装置 | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3979213B2 (ja) | 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090630 |