JPWO2016103652A1

JPWO2016103652A1 - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: JPWO2016103652A1
Application number: JP2016565906A
Authority: JP
Inventors: 康行三井; 玲史近藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-24
Filing date: 2015-12-17
Publication date: 2017-10-12
Anticipated expiration: 2035-12-17
Also published as: WO2016103652A1; JP6669081B2; US20170345412A1

Abstract

データベースに保存されている各データの精度や品質について検討を行うことで、肉声に近くかつ安定性の高い合成音声を生成することができる。本発明の一態様に係る音声処理装置は、収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する第１の保存手段と、元発話Ｆ０パタン判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する第１の判定手段と、を備える。

Description

本発明は、音声を処理する技術に関する。

近年、テキストから音声に変換して出力する音声合成技術が知られている。

特許文献１には、合成すべきテキストデータと素片波形データベースに保存されるデータの元発話の内容とを照合して合成音声を生成する技術が開示されている。特許文献１に記載の音声合成装置は、保存されるデータと発話内容が合致する区間では、元発話の基本周波数（以下、元発話Ｆ０と記載）の時間変化であるＦ０パタンを極力編集せずに、該当する元発話音声データから抽出された素片波形を接続する。その音声合成装置は、保存されるデータと発話内容が合致していない区間では、標準的なＦ０パタンおよび一般的な単位選択手法を用いて選択した素片波形を使うことによって合成音声を生成する。特許文献３にも、同じ技術が開示されている。

特許文献２には、人の発声とテキスト情報から合成音声を生成する技術が開示されている。特許文献２に記載の韻律生成装置は、人の発声から音声韻律パタンを抽出し、その音声韻律パタンの中で信頼性が高いピッチパタンを抽出する。その韻律生成装置は、テキストから規則韻律パタンを生成し、この規則韻律パタンを信頼性の高いピッチパタンに近似するように変形する。その韻律生成装置は、信頼性が高いピッチパタンと、変形した規則韻律パタンとを接続することにより、修正韻律パタンを生成する。その韻律生成装置は、この修正韻律パタンを用いて合成音声を生成する。

特許文献４には、音素片選択と修正量探索の２パスの両方に、韻律の変化量の統計モデルを用いて韻律の一貫性の評価を行う音声合成システムが記載されている。その音声合成システムは、修正韻律コストが最小であるような韻律修正量系列を探索する。

特許第５３８７４１０号公報特開２００８−２９２５８７号公報国際公開第２００９／０４４５９６号特開２００９−０６３８６９号公報

しかし、特許文献１、特許文献３、及び、特許文献４の技術では、データベースに保存されている各データの精度や品質についての検討がなされていない。例えば、音声合成用データベースを作成するための収録音声データは膨大な量となるため、通常、Ｆ０に関するデータは、プログラムによって制御される計算機によって自動的に抽出され、作成される。そのため、Ｆ０の自動抽出を完全精度で行うことは困難である。すなわち、倍ピッチや半ピッチに当たるＦ０の抽出、有声音区間でのＦ０抽出漏れ、及び、無声音区間でのＦ０誤挿入等が生じる可能性があるという問題がある。そのため、誤ったＦ０が抽出されてしまう可能性がある。また、素片波形に、収録時の雑音及び発声の怠け等によって曖昧になった音声が混入する可能性がある。すなわち、特許文献１の技術では、例えば、誤ったＦ０を含んだデータや曖昧な発声の素片波形を用いてＦ０パタンおよび波形を再現した場合、再現された音声の品質は著しく劣化するという課題がある。

また、特許文献２の技術では、データベースに元発話のＦ０パタンデータが保存されていないため、音声を合成するたびに韻律パタンを抽出するための発声が必要となる。さらに、素片波形の品質に関しては言及がない。

本発明の目的の１つは、上記課題に鑑み、肉声に近くかつ安定性の高い合成音声を生成することが可能な技術を提供することにある。

本発明の一態様に係る音声処理装置は、収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する第１の保存手段と、第１の判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する第１の判定手段と、を備える。

本発明の一態様に係る音声処理方法は、収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存し、第１の判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する。

本発明の一態様に係る記録媒体は、収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する処理と、第１の判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する処理と、をコンピュータに実行させるプログラムを記憶する。本発明は、上述の記録媒体が記憶するプログラムによっても実現される。

本発明は、肉声に近くかつ安定性の高い合成音声を生成するために、適切なＦ０パタンを再現できるという効果がある。

図１は、本発明の第１の実施形態に係る音声処理装置の構成例を示すブロック図である。図２は、本発明の第１の実施形態に係る音声処理装置の動作例を示すフローチャートである。図３は、本発明の第２の実施形態に係る音声処理装置の構成例を示すブロック図である。図４は、本発明の第２の実施形態に係る音声処理装置の動作例を示すフローチャートである。図５は、本発明の第３の実施形態に係る音声処理装置の構成例を示すブロック図である。図６は、本発明の第３の実施形態に係る音声処理装置の動作例を示すフローチャートである。図７は、本発明の第４の実施形態に係る音声処理装置の構成例を示すブロック図である。図８は、本発明の第４の実施形態に係る音声処理装置の動作例を示すフローチャートである。図９は、本発明の第４の実施形態における元発話適用区間の例を示す図である。図１０は、本発明の第４の実施形態における標準Ｆ０パタンの属性情報の例を示す図である。図１１は、本発明の第４の実施形態における元発話Ｆ０パタンの例を示す図である。図１２は、本発明の第５の実施形態に係る音声処理装置の構成例を示すブロック図である。図１３は、本発明の実施形態に係る音声処理装置を実現することができるコンピュータの、ハードウェア構成の例を示すブロック図である。図１４は、本発明の第１の実施形態に係る音声処理装置の、専用の回路によって実装された構成例を示すブロック図である。図１５は、本発明の第２の実施形態に係る音声処理装置の、専用の回路によって実装された構成例を示すブロック図である。図１６は、本発明の第３の実施形態に係る音声処理装置の、専用の回路によって実装された構成例を示すブロック図である。図１７は、本発明の第４の実施形態に係る音声処理装置の、専用の回路によって実装された構成例を示すブロック図である。図１８は、本発明の第５の実施形態に係る音声処理装置の、専用の回路によって実装された構成例を示すブロック図である。

まず、本発明の実施形態を理解し易くするために、音声合成技術について説明する。

音声合成技術における処理は、例えば、言語解析処理、韻律情報生成処理、および波形生成処理を含む。言語解析処理は、辞書等を用いて入力テキストを言語的に解析することにより、例えば読み情報を含む、発声情報を生成する。韻律情報生成処理は、上記発声情報に基づき、例えばルール及び統計的モデル等を用いて、音素継続長及びＦ０パタン等の韻律情報を生成する。波形生成処理は、発声情報及び韻律情報に基づいて、例えば、短時間波形である素片波形、及び、モデル化された特徴量ベクトル等を用いて、音声波形を生成する。

次に、以下、本発明の実施形態について図面を参照して説明する。尚、各実施形態について、同様な構成要素には同じ符号を付し、適宜説明を省略する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の内容に限定されない。

＜第１の実施形態＞
以下、第１の実施形態に係る音声処理装置であるＦ０判定装置１００について、図面を参照して詳細に説明する。図１は、本発明の第１の実施形態に係るＦ０パタン判定装置１００の処理構成例を示すブロック図である。図１を参照すると、本実施形態におけるＦ０パタン判定装置１００は、元発話Ｆ０パタン保存部１０４（第１の保存部）と、元発話Ｆ０パタン判定部１０５（第１の判定部）とを備える。なお、図１に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明に対するなんらの限定を意図するものではない。

また、図１及び本発明の他の実施形態に係る音声処理装置の構成を表す他のブロック図において、データが送信される方向は、矢印の方向に限られない。

元発話Ｆ０パタン保存部１０４は、複数の元発話Ｆ０パタンを保存する。元発話Ｆ０パタンの各々には、元発話Ｆ０パタン判定情報が付与されている。元発話Ｆ０パタン保存部１０４は、複数の元発話Ｆ０パタンと、元発話Ｆ０パタンの各々に関連付けられた元発話Ｆ０パタン判定情報を保存していればよい。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存されている元発話Ｆ０パタン判定情報に基づいて、元発話Ｆ０パタンを適用するか否かを判定する。

図２を用いて、本実施形態の動作について説明する。図２は、本発明の第１の実施形態におけるＦ０パタン判定装置１００の動作例を示すフローチャートである。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存された元発話Ｆ０パタン判定情報に基づいて、音声データのＦ０パタンに関連する元発話Ｆ０パタンを適用するか否かを判定する（ステップＳ１０１）。言い換えると、元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタンに付与されている元発話Ｆ０パタン判定情報に基づいて、音声合成において合成される音声データのＦ０パタンとして、その元発話Ｆ０パタンを使用するか否かを判定する。

以上のように、本実施形態によれば、予め決められた元発話Ｆ０パタン判定情報に基づいて適用可否を判定するので、韻律の自然性を劣化させる要因となる元発話Ｆ０パタンの再現を防ぐことが可能となる。言い換えると、元発話Ｆ０パタンのうち、韻律の自然性を劣化させる元発話Ｆ０パタンを使用せずに、音声合成を行うことができる。すなわち、本実施形態によれば、肉声に近くかつ安定性の高い合成音声を生成するので、適切なＦ０パタンを再現できる。

また、本実施形態におけるＦ０判定装置１００を用いた音声合成装置は、適切なＦ０パタンを再現できるので、肉声に近くかつ安定性の高い合成音声を生成することができる。

＜第２の実施形態＞
本発明の第２の実施形態について説明する。図３は、本発明の第２の実施形態に係る音声処理装置である元発話波形判定装置２００の処理構成例を示すブロック図である。図３を参照すると、本実施形態に係る元発話波形判定装置２００は、元発話波形保存部２０２と、元発話波形判定部２０３とを備える。

元発話波形保存部２０２は、収録音声から抽出された元発話波形情報を保存する。各元発話波形情報には、元発話波形判定情報が付与されている。元発話波形情報とは、抽出元である収録音声波形をほぼ忠実に再現可能である情報である。元発話波形情報は、例えば、収録音声波形から切り出した短時間単位素片波形、又は、高速フーリエ変換（ＦＦＴ）等で生成したスペクトル情報等である。また、元発話波形情報は、例えば、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）又はＡＴＣ（ＡｄａｐｔｉｖｅＴｒａｎｓｆｏｒｍＣｏｄｉｎｇ）等の音声符号化により生成された情報、又は、ボコーダ等の分析合成系により生成された情報であってもよい。

元発話波形判定部２０３は、元発話波形保存部２０２に保存された元発話波形情報に付随する（すなわち、付与されている）元発話波形判定情報に基づいて、元発話波形情報を用いて元の収録音声波形を再現するか否かの判定を行う（ステップＳ２０１）。言い換えると、元発話波形判定部２０３は、元発話波形情報に付与されている元発話波形判定情報に基づいて、音声波形の再現（すなわち音声合成）に、その元発話波形情報を使用するか否かを判定する。

図４を用いて、本実施形態の動作について説明する。図４は、本発明の第２の実施形態における元発話波形判定装置２００の動作例を示すフローチャートである。

元発話波形判定部２０３は、元発話波形判定情報に基づいて、収録音声の波形を再現するか否かの判定を行う（ステップＳ２０１）。具体的には、元発話波形判定部２０３は、元発話波形情報に付与されている元発話波形判定情報に基づいて、音声波形の再現（すなわち音声合成）に、その元発話波形情報を使用するか否かを判定する。

以上のように、本実施形態によれば、予め決められた元発話判定情報に基づいて収録音声の波形への適用可否を判定するため、音質劣化の要因となる元発話波形の再現を防ぐことが可能となる。言い換えると、元発話波形情報によって表される元発話波形のうち、音質劣化の要因となる元発話波形を使用せずに、音声波形の再現を行うことができる。従って、元発話波形情報のうち、音質劣化の要因となる元発話波形情報によって表される音声波形（すなわち、元発話波形）を含まない、音声波形を再現することができる。すなわち、元発話波形のうち、音質劣化の要因となる元発話波形が、再現された音声波形に含まれることを防ぐことができる。

本実施形態の効果を具体的に述べる。一般に、膨大な量の収録音声データを使用して、音声合成用データベースが作成される。そのため、素片波形に関するデータは、プログラムによって制御される計算機によって自動的に作成される。素片波形に関するデータを作成する際、使用される音声データにおける音声の質はチェックされないため、生成された素片波形には、収録時の雑音や発声の怠けによって曖昧になった音声から生成された、品質の低い素片波形が混入する恐れがある。例えば上述の特許文献１や特許文献２の技術では、波形を再現するのに使用される素片波形に、そのような品質の低い素片波形が含まれている場合、再現された音声の品質は著しく劣化してしまう。本実施形態では、予め決められた元発話判定情報に基づいて収録音声の波形への適用可否を判定するので、音質劣化の要因となる元発話波形の再現を防ぐことが可能となる。

すなわち、本実施形態によれば、肉声に近くかつ安定性の高い合成音声を生成するために、適切な素片波形である元発話波形を再現できる。

また、本実施形態における元発話波形判定装置２００を用いた音声合成装置は、適切な元発話波形を再現できるので、肉声に近くかつ安定性の高い合成音声を生成することができる。

＜第３の実施形態＞
以下、第３の実施形態に係る音声処理装置である韻律生成装置について説明する。図５は、本発明の第３の実施形態に係る韻律生成装置３００の処理構成例を示すブロック図である。図５を参照すると、本実施形態に係る韻律生成装置３００は、第１の実施形態の構成に加え、標準Ｆ０パタン選択部１０１と、標準Ｆ０パタン保存部１０２と、元発話Ｆ０パタン選択部１０３と、を備える。韻律生成装置３００は、さらに、Ｆ０パタン接続部１０６と、元発話発声情報保存部１０７と、適用区間探索部１０８と、を備える。

元発話発声情報保存部１０７は、元発話Ｆ０パタンおよび素片波形に関連付けられた、収録音声の発声内容を表現する元発話発声情報を保存する。元発話発声情報保存部１０７は、例えば、元発話発声情報と、その元発話発声情報に関連付けられている元発話Ｆ０パタンの識別子および素片波形の識別子とを保存していればよい。

適用区間探索部１０８は、元発話発声情報保存部１０７が保存する元発話発声情報と入力された発声情報とを照合することによって、元発話適用対象区間を探索する。言い換えると、適用区間探索部１０８は、入力された発声情報において、元発話発声情報保存部１０７が保存する元発話発声情報のいずれかの少なくとも一部と一致する部分を、元発話適用対象区間として検出する。具体的には、適用区間探索部１０８は、例えば、入力された発声情報を複数の区間に分割すればよい。適用区間探索部１０８は、入力された発声情報を分割した区間の、元発話発声情報のいずれかの少なくとも一部と一致する部分を、元発話適用対象区間として検出すればよい。

標準Ｆ０パタン保存部１０２は、複数の標準Ｆ０パタンを保存する。各標準Ｆ０パタンには、属性情報が付与されている。標準Ｆ０パタン保存部１０２は、複数の標準Ｆ０パタンと、それらの標準Ｆ０パタンの各々に付与されている属性情報とを記憶していればよい。

標準Ｆ０パタン選択部１０１は、入力された発声情報と、標準Ｆ０パタン保存部１０２に保存されている属性情報とに基づいて、標準Ｆ０パタンデータの中から、入力された発声情報が分割された区間の各々について１つずつの標準Ｆ０パタンを選択する。具体的には、標準Ｆ０パタン選択部１０１は、例えば、入力された発声情報が分割された区間の各々から、属性情報を抽出すればよい。属性情報については後述される。標準Ｆ０パタン選択部１０１は、入力された発声情報の区間について、その区間の属性情報と同じ属性情報が付与されている標準Ｆ０パタンを選択すればよい。

元発話Ｆ０パタン選択部１０３は、適用区間探索部１０８によって探索された（言い換えると検出された）元発話適用対象区間に関連する元発話Ｆ０パタンを選択する。後述されるように、元発話適用対象区間を検出する際、その元発話適用対象区間に一致する部分を含む元発話発声情報も特定される。そして、その元発話発声情報に関連付けられている元発話Ｆ０パタン（すなわち、その元発話発声情報のＦ０値の推移を表すＦ０パタン）も定まる。元発話発声情報における、元発話適用対象区間に一致する部分の場所も特定されるので、元発話発声情報に関連付けられている元発話Ｆ０パタンの、元発話適用対象区間におけるＦ０値の推移を表す部分（同様に元発話Ｆ０パタンと表記）も定まる。元発話Ｆ０パタン選択部１０３は、そのような、検出された元発話適用対象区間に対して定まる元発話Ｆ０パタンを選択すればよい。

Ｆ０パタン接続部１０６は、選択された標準Ｆ０パタンと元発話Ｆ０パタンを接続することによって、合成音声の韻律情報を生成する。

図６を用いて、本実施形態の動作について説明する。図６は、本発明の第３の実施形態における韻律生成装置３００の動作例を示すフローチャートである。

適用区間探索部１０８は、元発話発声情報保存部１０７が保存する元発話発声情報と入力された発声情報とを照合することによって、元発話適用対象区間を探索する。言い換えると、適用区間探索部１０８は、入力された発声情報と元発話発声情報に基づいて、収録音声のＦ０パタンを合成音声の韻律情報として再現する区間（すなわち元発話適用対象区間）を、入力された発声情報において探索する（ステップＳ３０１）。

元発話Ｆ０パタン選択部１０３は、適用区間探索部１０８によって探索され、そして検出された、元発話適用対象区間に関連する元発話Ｆ０パタンを、元発話Ｆ０パタン保存部に格納されている元発話Ｆ０パタンから選択する（ステップＳ３０２）。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存されている元発話Ｆ０パタン判定情報に基づいて、その選択された元発話Ｆ０パタンを、合成音声の韻律情報として再現するか否かを判定する（ステップＳ３０３）。具体的には、元発話Ｆ０パタン判定部１０５は、選択された元発話Ｆ０パタンに関連付けられている元発話Ｆ０パタン判定情報に基づいて、その選択された元発話Ｆ０パタンを、合成音声の韻律情報として再現するか否かを判定する。ステップＳ３０２において選択された、元発話適用対象区間に関連する元発話Ｆ０パタンは、音声合成によって合成される音声データ（すなわち合成音声）の、その元発話適用対象区間に相当する区間におけるＦ０パタンとして選択された元発話Ｆ０パタンである。従って、言い換えると、元発話Ｆ０パタン判定部１０５は、音声合成によって合成される音声データのＦ０パタンとして選択された元発話Ｆ０パタンに関連付けられている元発話Ｆ０パタン判定情報に基づいて、その元発話Ｆ０パタンをその音声合成に適用するか否かを判定する。

標準Ｆ０パタン選択部１０１は、入力された発声情報と標準Ｆ０パタン保存部１０２が保存する属性情報とに基づいて、標準Ｆ０パタンの中から、入力された発声情報が分割された区間の各々について１つの標準Ｆ０パタンを選択する（ステップＳ３０４）。

Ｆ０パタン接続部１０６は、標準Ｆ０パタン選択部１０１によって選択された標準Ｆ０パタンと元発話Ｆ０パタンを接続することによって、合成音声のＦ０パタン（すなわち韻律情報）を生成する（ステップＳ３０５）。

なお、標準Ｆ０パタン選択部１０１は、適用区間探索部１０８によって、元発話適用対象区間と判定されなかった区間のみについて、標準Ｆ０パタンを選択しても良い。

以上のように、本実施形態によれば、予め決められた元発話Ｆ０パタン判定情報に基づいて適用可否を判定し、非適用区間や適用しない区間は標準的なＦ０パタンを使用する。そのため、韻律の自然性を劣化させる要因となる元発話Ｆ０パタンの再現を防ぎつつ、安定性の高い韻律を生成することが可能である。

＜第４の実施形態＞
以下、本発明の第４の実施形態を説明する。図７は、本発明の第４の実施形態に係る音声処理装置である音声合成装置４００の概要を示す図である。

本実施形態に係る音声合成装置４００は、標準Ｆ０パタン選択部１０１（第２の選択部）と、標準Ｆ０パタン保存部１０２（第３の保存部）と、元発話Ｆ０パタン選択部１０３（第１の選択部）と、を備える。音声合成装置４００は、さらに、元発話Ｆ０パタン保存部１０４（第１の保存部）と、元発話Ｆ０パタン判定部１０５（第１の判定部）と、Ｆ０パタン接続部１０６（接続部）と、を備える。音声合成装置４００は、さらに、元発話発声情報保存部１０７（第２の保存部）と、適用区間探索部１０８（探索部）と、素片波形選択部２０１（第３の選択部）と、を備える。音声合成装置４００は、さらに、素片波形保存部２０５（第４の保存部）と、元発話波形判定部２０３（第３の判定部）と、波形生成部２０４とを備える。

本発明の各実施形態では、「保存部」は、例えば記憶装置によって実装されている。本発明の各実施形態の説明では、「保存部が情報を保存する」は、その情報がその保存部に記録されていることを表す。本実施形態では、保存部は、例えば、標準Ｆ０パタン保存部１０２、元発話Ｆ０パタン保存部１０４、元発話発声情報保存部１０７、及び、素片波形保存部２０５等である。本発明の他の実施形態では、他の名前が付与されている保存部も存在する。

元発話発声情報保存部１０７は、収録音声の発声内容を表現する元発話発声情報を保存する。元発話発声情報は、後述する、元発話Ｆ０パタンおよび素片波形に関連付けられている。元発話発声情報は、例えば、収録音声の音素列情報、アクセント情報、およびポーズ情報を含む。元発話発声情報は、さらに、例えば、単語区切り情報、品詞情報、文節情報、アクセント句情報、および感情表現情報等の付加情報を含んでいても良い。元発話発声情報保存部１０７は、例えば、少量の元発話発声情報を保存していても良い。本実施形態では、元発話発声情報保存部１０７は、例えば数百以上の文の発声内容の元発話発声情報を保存していることを想定する。

本実施形態の説明では、収録音声は、例えば、音声の合成に使用する音声として収録された音声である。音素列情報は、収録音声の音素の時系列（すなわち音素列）を表す。アクセント情報は、例えば、音素列において音の高さが急激に下降する位置を表す。ポーズ情報は、例えば、音素列におけるポーズの位置を示す。単語区切り情報は、例えば、音素列における単語の境界を示す。品詞情報は、例えば、単語区切り情報によって区切られる単語の各々の品詞を表す。文節情報は、例えば、音素列における文節の区切りを表す。アクセント句情報は、例えば、音素列におけるアクセント句の区切りを表す。アクセント句は、例えば、ひとまとまりのアクセントとして表現される音声フレーズを指す。感情表現情報は、例えば、収録音声における話者の感情を示す情報である。

元発話発声情報保存部１０７は、例えば、元発話発声情報と、その元発話発声情報に関連付けられている元発話Ｆ０パタンの節点番号（後述される）と、その元発話情報に関連付けられている素片波形の識別子とを記憶していればよい。元発話Ｆ０パタンの節点番号は、元発話Ｆ０パタンの識別子である。

後述されるように、元発話Ｆ０パタンは、収録音声から抽出されたＦ０の値（Ｆ０値とも表記）の推移を表す。元発話発声情報に関連付けられる元発話Ｆ０パタンは、その元発話発声情報が発声内容を表す収録音声から抽出されたＦ０値の推移を表す。元発話Ｆ０パタンは、例えば、収録音声から抽出された、所定時間毎の連続するＦ０値の組である。本実施形態では、例えば収録音声における、Ｆ０値が抽出された位置を、節点とも表記する。元発話Ｆ０パタンに含まれるＦ０値の各々には、例えば、節点の順番を表す節点番号が付与される。節点番号は、節点について一意に付与されていればよい。節点番号は、その節点番号が示す節点におけるＦ０値に関連付けられる。元発話Ｆ０パタンは、例えば、その元発話Ｆ０パタンに含まれる最初のＦ０値に関連付けられている節点番号と、その元発話Ｆ０パタンに含まれる最後のＦ０値に関連付けられている節点番号とによって特定される。元発話発声情報と元発話Ｆ０パタンは、元発話発声情報の連続する一部分（以下区間とも表記）における元発話Ｆ０パタンの部分を特定できるように関連付けられていればよい。例えば、元発話発声情報の音素の各々が、元発話Ｆ０パタンの１つ以上の節点番号（例えば、その音素に関連付けられる区間に含まれる最初のＦ０値及び最後のＦ０値）と関連付けられていればよい。

元発話発声情報と素片波形は、素片波形を接続することによって元発話発声情報の区間における波形を再現できるように関連付けられていればよい。後述されるように、素片波形は、例えば収録音声を分割することによって生成される。元発話発声情報は、例えば、その元発話発声情報が発声内容を表す収録音声を分割することによって生成された素片波形の識別子を、分割される前の順番で並べた素片波形の識別子の列に関連付けられていればよい。そして、音素の区切りが、例えば、素片波形の識別子の列における区切りに関連付けられていてもよい。

まず、発声情報が適用区間探索部１０８に入力される。発声情報は、合成する音声を表現する音素列情報、アクセント情報及びポーズ情報を含む。発声情報は、さらに、例えば、単語区切り情報、品詞情報、文節情報、アクセント句情報、及び感情表現情報等の付加情報を含んでいても良い。また、発声情報は、例えば発声情報を生成するよう構成された情報処理装置などによって、自律的に生成されてもよい。発声情報は、例えばオペレータによって、手動で生成されてもよい。発声情報は、どのような方法で生成されてもよい。適用区間探索部１０８は、入力された発声情報と、元発話発声情報保存部１０７に保存されている元発話発声情報とを照合することによって、元発話発声情報において、入力された発声情報に一致する区間（以下、元発話適用対象区間と表記）を選択する。適用区間探索部１０８は、例えば、単語、文節、又は、アクセント句などの、あらかじめ定められた種類の区分ごとに、元発話適用対象区間を抽出すればよい。適用区間探索部１０８は、例えば、音素列が一致しているか否かに加えて、アクセント情報や音素の前後環境等が一致しているか否かを判定することによって、入力された発声情報と元発話発声情報の区間との一致を判定する。本実施形態では、発声情報は、日本語による発声を表す。適用区間探索部１０８は、日本語を対象として、アクセント句ごとに適用区間を探索する。

具体的には、例えば、適用区間探索部１０８は、入力された発声情報をアクセント句に分割すればよい。元発話発声情報は、あらかじめアクセント句に分割されていてもよい。適用区間探索部１０８が、さらに、元発話発声情報をアクセント句に分割してもよい。適用区間探索部１０８は、例えば、入力された発声情報及び元発話発声情報の、音素列情報が表す音素列に形態素解析を行い、その結果を使用してアクセント句境界を推定してもよい。そして、適用区間探索部１０８は、推定したアクセント句境界において、入力された発声情報及び元発話発声情報の音素列を分割することによって、入力された発声情報及び元発話発声情報をアクセント句に分割してもよい。発声情報がアクセント句情報を含む場合、適用区間探索部１０８は、アクセント句情報が示すアクセント句境界において、その発声情報の音素列情報が示す音素列を分割することによって、発声情報をアクセント句に分割してもよい。適用区間探索部１０８は、入力された発声情報が分割されたアクセント句（以下、入力アクセント句と表記）と、元発話発声情報が分割されたアクセント句（以下、元発話アクセント句と表記）とを比較すればよい。そして、適用区間探索部１０８は、入力アクセント句と類似する（例えば部分的に一致する）元発話アクセント句を、入力アクセント句に関連する元発話アクセント句として選択すればよい。適用区間探索部１０８は、入力アクセント句に関連する元発話アクセント句において、その入力アクセント句の少なくとも一部に一致する区間を検出する。以下の説明では、元発話発声情報は、あらかじめアクセント句に分割されている。言い換えると、上述の元発話アクセント句が、元発話発声情報として、元発話発声情報保存部１０７に保存されている。

以下では、入力される発声情報の具体例として「あなたの／つくった／し＠すてむは／ＰＡＵＳＥ／せいじょーに／さどーしな＠かった（あなたの作ったシステムは、正常に作動しなかった。）」という日本語の発声情報が入力された場合について説明する。ここで、「／」はアクセント句の区切りを意味し、「＠」はアクセント位置を意味し、「ＰＡＵＳＥ」は無音区間（ポーズ）を意味している。この場合の適用区間探索部１０８による処理の結果を図９に示す。図９に示す例では、「Ｎｏ．」は、入力アクセント句の番号を表す。「アクセント句」は、入力アクセント句を表す。「関連する元発話発声情報」は、入力アクセント句に関連する元発話発声情報として選択された、元発話発声情報を表す。「関連する元発話発声情報」が「×」である場合、入力アクセント句に類似する元発話発声情報が検出されなかったことを表す。「元発話適用区間」は、適用区間探索部１０８によって選択された、上述の元発話適用区間を表す。図９に示す通り、第１アクセント句は「あなたの」であり、関連する元発話発声情報は「あなたに」である。適用区間探索部１０８は「あなた」の区間を、第１アクセント句の元発話適用対象区間として選択する。同様にして、適用区間探索部１０８は、第２アクセント句の元発話適用対象区間として、元発話適用対象区間が存在しないことを示す「無し」を選択する。適用区間探索部１０８は、第３アクセント句の元発話適用対象区間として「し＠すてむは」の区間を選択する。適用区間探索部１０８は、第４アクセント句の元発話適用対象区間として「せーじょー」の区間を選択する。適用区間探索部１０８は、第５アクセント句の元発話適用対象区間として「どーしな＠」の区間を選択する。

標準Ｆ０パタン保存部１０２は、複数の標準Ｆ０パタンを保存する。標準Ｆ０パタンの各々には、属性情報が付与されている。標準Ｆ０パタンは、例えば、単語、アクセント句、又は、呼気段落などの、あらかじめ定められた区切りにおいて分割された区間におけるＦ０パタンの形状を、数点から数十点程度の制御点によって近似的に表すデータである。標準Ｆ０パタン保存部１０２は、日本語の発声における標準Ｆ０パタンの制御点として、例えば、アクセント句ごとの標準Ｆ０パタンとして、標準Ｆ０パタンの波形を近似するスプライン曲線の節点を保存していても良い。標準Ｆ０パタンの属性情報は、Ｆ０パタンの形状に関連する言語的情報である。標準Ｆ０パタンの属性情報は、例えば、その標準Ｆ０パタンが日本語の発声における標準Ｆ０パタンである場合、アクセント句の属性を表す、「５モーラ４型／文末／平叙文」などの情報である。このように、アクセント句の属性は、例えば、そのアクセント句のモーラ数及びアクセント位置を示す音韻情報、そのアクセント句が含まれる文におけるそのアクセント句の位置、及び、そのアクセント句が含まれる文の種類などの組み合わせであってもよい。このような属性情報が、標準Ｆ０パタンの各々に付与されている。

標準Ｆ０パタン選択部１０１は、入力された発声情報と標準Ｆ０パタン保存部１０２に保存されている属性情報とに基づいて、入力された発声情報が分割された区間の各々について、いずれかの標準Ｆ０パタンを選択する。標準Ｆ０パタン選択部１０１は、まず、標準Ｆ０パタンの区切りと同じ種類の区切りにおいて、入力された発声情報を分割すればよい。標準Ｆ０パタン選択部１０１は、入力された発声情報を分割することによって得られた区間（以下、分割された区間と表記）の各々の属性情報を導出すればよい。標準Ｆ０パタン選択部１０１は、分割された区間の各々の属性情報と同じ属性情報に関連付けられた標準Ｆ０パタンを、標準Ｆ０パタン保存部１０２に保存されている標準Ｆ０パタンから選択すればよい。入力された発声情報が日本語の発声を表す場合、標準Ｆ０パタン選択部１０１は、例えば、入力された発声情報を、アクセント句の境界において分割することによって、入力された発声情報をアクセント句に分割すればよい。

具体例を用いて説明する。入力された発声情報における各アクセント句の属性情報を図１０に示す。上述の発声情報の例では、標準Ｆ０パタン選択部１０１は、入力された発声情報を、例えば図１０に示すアクセント句に分割する。そして、標準Ｆ０パタン選択部１０１は、分割によって生成したアクセント句ごとに、例えば図１０の「属性情報の例」に例示する属性を抽出する。標準Ｆ０パタン選択部１０１は、アクセント句の各々について、属性情報が一致する標準Ｆ０パタンを選択する。

例えば、図１０に示す例では、アクセント句「あなたの」の属性情報は、「４モーラ平板型、文頭、平叙」である。標準Ｆ０パタン選択部１０１は、アクセント句「あなたの」について、関連付けられている属性情報が「４モーラ平板型、文頭、平叙」であるである標準Ｆ０パタンを選択する。図１０に示す属性情報では、「平叙」は「平叙文」を表す。

元発話Ｆ０パタン保存部１０４は、複数の元発話Ｆ０パタンを保存する。元発話Ｆ０パタンの各々には、元発話Ｆ０パタン判定情報が付与される。元発話Ｆ０パタンは、収録音声から抽出されたＦ０パタンである。元発話Ｆ０パタンは、例えば、一定の間隔（例えば５ｍｓｅｃ程度）で抽出されたＦ０の値（すなわちＦ０値）の組（例えば列）を含む。元発話Ｆ０パタンは、さらに、Ｆ０値に関連付けられた、そのＦ０値が導出された収録音声における、音素を表す音素ラベル情報を含む。また、Ｆ０値は、収録音源における、そのＦ０値が抽出された位置の順番を表す節点番号と関連付けられる。元発話Ｆ０パタンを折れ線によって表した場合、抽出されたＦ０値は、折れ線の節点として表される。本実施形態では、標準Ｆ０パタンが近似的に形状を表現するのに対し、元発話Ｆ０パタンは詳細に元の収録音声を再現することが可能な情報を含む。

また、元発話Ｆ０パタンは、標準Ｆ０パタンが保存されている区間と同じ区間ごとに保存されていればよい。元発話Ｆ０パタンは、その元発話Ｆ０パタンの区間と同じ区間の、元発話発声情報保存部１０７に保存されている元発話発声情報と関連付けられていればよい。

元発話Ｆ０パタン判定情報は、その元発話Ｆ０パタン判定情報が関連付けられている元発話Ｆ０パタンを、音声合成に使用するか否かを示す情報である。元発話Ｆ０パタン判定情報は、音声合成に元発話Ｆ０パタンを適用するか否かを判定するのに用いられる。元発話Ｆ０パタンの保存形式の例を、図１１に示す。図１１には、元発話適用対象区間のうち「あな（たに）」の箇所を示してある。元発話Ｆ０パタン保存部１０４は、例えば図１１のように、節点番号、Ｆ０値、音素情報、および元発話Ｆ０パタン判定情報を、節点の各々について保存する。さらに、上述のように、元発話発声情報の元発話Ｆ０パタンを表す節点番号の各々は、その元発話発声情報と関連付けられている。
元発話適用対象区間を範囲に含む元発話発声情報の元発話Ｆ０パタンの節点ごとの音素情報と、その元発話適用対象区間における音素情報とを比較することによって、元発話適用対象区間におけるＦ０値の節点番号の範囲を特定できる。従って、元発話適用対象区間が特定された場合、その元発話適用対象区間に関連する元発話Ｆ０パタン（すなわち、その元発話適用対象区間におけるＦ０値の推移を表すＦ０パタン）も特定できる。

元発話Ｆ０パタン選択部１０３は、適用区間探索部１０８によって選択された元発話適用対象区間に関連する、元発話Ｆ０パタンを選択する。１つの元発話適用対象区間に対して、複数の、関連する元発話発声情報が選択された場合、元発話Ｆ０パタン選択部１０３は、それらの元発話発声情報に関連する元発話Ｆ０パタンの各々を選択してもよい。すなわち、１つの元発話適用対象区間において、発声情報が一致する元発話発声情報に関連する、複数の元発話Ｆ０パタンが存在する場合、元発話Ｆ０パタン選択部１０３は、それらの、複数の元発話Ｆ０パタンを選択してもよい。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存された元発話Ｆ０パタン判定情報に基づいて、選択された元発話Ｆ０パタンを音声合成に使用するか否かを判定する。本実施形態では、図１１のように、元発話Ｆ０パタン判定情報として、０又は１によって表される適用可否フラグが、予め定められている区間（例えば、節点）ごとに、元発話Ｆ０パタンに付与されている。図１１に示す例では、節点毎に元発話Ｆ０パタンに付与された適用可否フラグは、元発話Ｆ０パタン判定情報として、適用可否フラグが付与された節点におけるＦ０値に関連付けられている。本実施形態の説明では、元発話Ｆ０パタンに含まれる全てのＦ０値に関連付けられている適用可否フラグが「１」である場合、適用可否フラグは、その元発話Ｆ０パタンが使用されることを表す。

元発話Ｆ０パタンに含まれるいずれかのＦ０値に関連付けられている適用可否フラグが「０」である場合、適用可否フラグは、その元発話Ｆ０パタンが使用されないことを表す。例えば、節点番号が「１５１」である節点において、Ｆ０値は「２２０．３２３」であり、音素は「ａ」であり、そして、元発話Ｆ０パタン判定情報は「１」である。すなわち、元発話Ｆ０パタン判定情報である適用可否フラグが１である。元発話Ｆ０パタンが、節点番号が「１５１」であるＦ０値のように、適用可否フラグが１であるＦ０値によって表される場合、適用可否フラグが１であるため、元発話Ｆ０パタン判定部１０５は、その元発話Ｆ０パタンを使用すると判定する。図１１に示すように、節点番号が「１５１」である節点における元発話Ｆ０パタンは、Ｆ０値「２２０．３２３」である。また、例えば、節点番号が「２０１」である節点においては、Ｆ０値は「２０．００３」であり、音素は「ｎ」であり、そして、元発話Ｆ０パタン判定情報は「０」である。すなわち、元発話Ｆ０パタン判定情報である適用可否フラグは、「０」である。元発話Ｆ０パタン判定部１０５は、節点番号が「２０１」である節点における元発話Ｆ０パタンが選択された場合、適用可否フラグが０であるため、節点番号が「２０１」である節点における元発話Ｆ０パタンを使用しないと判定する。図１１に示すように、節点番号が「２０１」である節点における元発話Ｆ０パタンは、Ｆ０値「２０．００３」である。

複数の元発話Ｆ０パタンが選択されている場合、元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタンを表すＦ０値に関連付けられている適用可否フラグに基づいて、元発話Ｆ０パタンを使用するか否かを、元発話Ｆ０パタン毎に判定する。例えば、元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタンを表すＦ０値に関連付けられている全ての適用可否フラグが１である場合、その元発話Ｆ０パタンを使用すると判定する。元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタンを表すＦ０値に関連付けられているいずれかの適用可否フラグが１でない場合、その元発話Ｆ０パタンを使用しないと判定する。元発話Ｆ０パタン判定部１０５は、２つ以上の元発話Ｆ０パタンを使用すると判定してもよい。

図１１に示す、例えば節点番号が「１５１」から「２０４」までのＦ０値のうち、節点番号が「２０１」から「２０４」までのＦ０値の、適用可否フラグである元発話Ｆ０パタン判定情報は「０」である。すなわち、図１１に示す例では、適用可否フラグは、音素が「ｎ」であるＦ０値について「０」である。図９に示す例では、第１アクセント句である「あなたの」に関連する元発話発声情報として、「あなたに」が選択されている。そして、「あなた」の区間が元発話適用区間として選択されている。例えば、図９に示す元発話適用対象区間のうち「あな（たに）」の箇所の元発話Ｆ０パタンが、図１１に示す元発話Ｆ０パタンである場合、その元発話Ｆ０パタンは、適用可否フラグが「０」であるＦ０値を含む。具体的には、上述のように、図１１に示す元発話Ｆ０パタンのうち、音素が「ｎ」であるＦ０値の適用可否フラグはで「０」である。そのため、元発話Ｆ０パタン判定部１０５は、第１アクセント句である「あなたの」については、図１１に示す元発話Ｆ０パタンを音声合成に使用しないと判定する。

適用可否フラグは、例えば、収録音声のデータからＦ０を抽出する際（すなわち、例えば所定間隔で収録音声のデータからＦ０値を抽出する際）に、あらかじめ定められた方法（又は規則）に従って付与されればよい。付与する適用可否フラグを決定する方法は、音声合成に適さない元発話Ｆ０パタンに適用可否フラグとして「０」が付与され、音声合成に適する元発話Ｆ０パタンに適用可否フラグとして「１」が付与されるように、あらかじめ定められていればよい。音声合成に適さない元発話Ｆ０パタンは、その元発話Ｆ０パタンを音声合成に使用した場合、自然な合成音声が得られにくいＦ０パタンである。

具体的には、付与される適用可否フラグを決定する方法として、例えば、抽出されたＦ０の周波数に基づく方法がある。例えば、抽出されたＦ０の周波数が、人間の音声から一般的に抽出されるＦ０の周波数の範囲（例えば５０〜５００Ｈｚ程度）に含まれない場合、抽出されたＦ０を表す元発話Ｆ０パタンに、適用可否フラグとして、「０」が付与されればよい。以下、人間の音声から一般的に抽出されるＦ０の周波数の範囲を、「Ｆ０想定範囲」と表記する。抽出されたＦ０の周波数（すなわちＦ０値）が、Ｆ０想定範囲に含まれる場合、そのＦ０値に、適用可否フラグとして、「１」が付与されればよい。また、適用可否フラグを付与する方法として、例えば、音素ラベル情報に基づく方法がある。例えば、音素ラベル情報によって示される無声音区間において抽出されたＦ０を表すＦ０値に、適用可否フラグとして、「０」が付与されればよい。音素ラベル情報によって示される有声音区間において抽出されたＦ０値に、適用可否フラグとして、「１」が付与されればよい。音素ラベル情報によって示される有声音区間においてＦ０が抽出されていない（例えば、Ｆ０値が０である、又は、Ｆ０値が上述のＦ０想定範囲に含まれない）場合に、そのＦ０値に、適用可否フラグとして「０」が付与されてもよい。例えばオペレータが、あらかじめ定められた方法に基づいて、手動で適用可否フラグを付与してもよい。例えばコンピュータが、あらかじめ定められた方法に従って適用可否フラグを付与するように構成されたプログラムによる制御によって、適用可否フラグを付与してもよい。オペレータが、コンピュータによって付与された適用可否フラグを、手動で修正してもよい。適用可否フラグを付与する方法は、以上の例に制限されない。

Ｆ０パタン接続部１０６は、選択された標準Ｆ０パタンと元発話Ｆ０パタンとを接続することによって、合成音声の韻律情報を生成する。Ｆ０パタン接続部１０６は、例えば、選択された標準Ｆ０パタン及び元発話Ｆ０パタンの端点ピッチ周波数が一致するように、標準Ｆ０パタン又は元発話Ｆ０パタンをＦ０周波数軸方向に平行移動させても良い。複数の元発話Ｆ０パタンが候補として選択されている場合、Ｆ０パタン接続部１０６は、そのうちの１つを選択した上で、選択された標準Ｆ０パタンと元発話Ｆ０パタンとを接続する。Ｆ０パタン接続部１０６は、例えば、標準Ｆ０パタンのピーク値と元発話Ｆ０パタンのピーク値との比率及び差分の少なくともいずれかに基づいて、選択された複数の元発話Ｆ０パタンから１つの元発話Ｆ０パタンを選択してもよい。Ｆ０パタン接続部１０６は、例えば、その比率が最も小さい元発話Ｆ０パタンを選択しても良い。Ｆ０パタン接続部１０６は、その差分が最も小さい元発話Ｆ０パタンを選択しても良い。

以上のように、韻律情報が生成される。本実施形態では、生成された韻律情報は、音素に関連付けられた、Ｆ０の一定時間毎の推移を表す、複数のＦ０値を含むＦ０パタンである。Ｆ０パタンは、音素に関連付けられた、一定時間毎のＦ０値を含むので、各音素の継続時間長を特定できる形で表されている。しかし、韻律情報は、各音素の継続時間の情報を含まない形で表されていてもよい。例えばＦ０パタン接続部１０６は、各音素の継続時間長を、韻律情報とは別の情報として生成してもよい。また、韻律情報は、音声波形のパワーを含んでいてもよい。

素片波形保存部２０５は、収録音声から作成された、例えば多数の、素片波形を保存する。素片波形の各々には、属性情報と元発話波形判定情報が付与されている。素片波形保存部２０５は、素片波形に加えて、その素片波形に付与され、その素片波形に関連付けられた、属性情報及び元発話波形判定情報を保存していればよい。素片波形とは、元の音声（例えば収録音声など）から、特定のルールに基づいて、特定の長さの、波形の単位として切り出された、短時間波形である。素片波形は、特定のルールに基づいて、元の音声を分割することによって生成されてもよい。素片波形は、例えば、日本語では、Ｃ（Ｃｏｎｓｏｎａｎｔ）Ｖ（Ｖｏｗｅｌ）、ＶＣ、ＣＶＣ、ＶＣＶ等の単位素片波形である。素片波形は、収録音声波形から切り出された波形である。そのため、例えば素片波形が元の音声を分割することによって生成された場合、分割前のそれらの素片波形の順番で、それらの素片波形を接続することによって、元の音声波形を再現できる。なお、以上の説明において、「波形」は、音声の波形を表すデータを示す。

本実施形態における、各素片波形の属性情報は、一般的な単位選択型音声合成において用いられる属性情報であればよい。各素片波形の属性情報は、例えば、音素情報と、ケプストラム等に代表されるスペクトル情報、及び、元のＦ０情報等の少なくともいずれかとを含んでいればよい。元のＦ０情報は、例えば、素片波形が切り出された音声の、その素片波形の部分において抽出されたＦ０値、及び、音素を表していればよい。また、元発話波形判定情報は、その元発話波形判定情報が関連付けられている元発話の素片波形を、音声合成に使用するか否かを示す情報である。元発話波形判定情報は、例えば元発話波形判定部２０３によって、その元発話判定情報が関連付けられている元発話の素片情報を、音声合成に使用するか否かを判定するのに使用される。

素片波形選択部２０１は、例えば、入力された発声情報、生成された韻律情報、および、素片波形保存部２０５に保存されている素片波形の属性情報に基づいて、波形生成に使用する素片波形を選択する。

具体的には、素片波形選択部２０１は、例えば、抽出された元発話適用対象区間の発声情報に含まれる音素列情報及び韻律情報と、素片波形の属性情報に含まれる音素情報及び韻律情報（例えばスペクトル情報又は元のＦ０情報）とを比較する。そして、素片波形選択部２０１は、元発話適用対象区間の音素列と一致する音素列を示し、そして、元発話適用対象区間の韻律情報と類似する韻律情報を含む、属性情報が付与されている素片波形を抽出する。素片波形選択部２０１は、例えば、元発話適用対象区間の韻律情報との距離が閾値より小さい韻律情報を、元発話適用対象区間の韻律情報と類似する韻律情報と判定すればよい。素片波形選択部２０１は、例えば、元発話適用対象区間の韻律情報及び素片波形の属性情報に含まれる韻律情報（すなわち素片波形の韻律情報）において、一定時間毎のＦ０値（すなわちＦ０値の列）を特定すればよい。素片波形選択部２０１は、上述の韻律情報の距離として、特定したＦ０値の列の距離を算出すればよい。素片波形選択部２０１は、元発話適用対象区間の韻律情報において特定したＦ０値の列から順に１つのＦ０値を選択し、素片波形の韻律情報にＦ０値の列から順に１つのＦ０値を選択すればよい。素片波形選択部２０１は、２つのＦ０値の列の間の距離として、それらの列から選択した２つのＦ０値の、例えば、差の絶対値の累積和、又は、差の２乗の累積和の平方根などを算出すればよい。素片波形選択部２０１による、素片波形を選択する方法は、以上の例に限られない。

元発話波形判定部２０３は、元発話適用対象区間において素片波形を使用して元の収録音声波形を再現するか否かの判定を、素片波形保存部２０５に保存されたその素片波形に関連付けられている元発話波形判定情報に基づいて行う。本実施形態では、元発話波形判定情報として、０又は１によって表される適用可否フラグが、予め単位素片波形ごとに付与されている。元発話適用対象区間において、元発話波形判定情報である適用可否フラグが１である場合、元発話波形判定部２０３は、音声合成に、その元発話波形判定情報に関連付けられている素片波形を使用すると判定する。選択された元発話Ｆ０パタンの適用可否フラグの値が１である場合、元発話波形判定部２０３は、選択された元発話Ｆ０パタンに、その元発話波形判定情報に関連付けられている素片波形を適用する。元発話適用対象区間において、元発話波形判定情報である適用可否フラグが０である場合、元発話波形判定部２０３は、音声合成に、その元発話波形判定情報に関連付けられている素片波形を使用しないと判定する。元発話波形判定部２０３は、以上の処理を、選択された元発話Ｆ０パタンの適用可否フラグの値に関わらず実行する。従って、音声合成装置４００は、Ｆ０パタンと素片波形のどちらか一方のみを使用して、元発話の音声を再現することも可能である。

以上の例では、元発話波形判定情報である適用可否フラグの値が１である場合、その元発話波形判定情報は、その元発話波形判定情報が関連付けられている素片波形を使用することを表す。元発話波形判定情報である適用可否フラグの値が０である場合、その元発話波形判定情報は、その元発話波形判定情報が関連付けられている素片波形を使用しないことを表す。適用可否フラグの値は、以上の例における値と異なっていていてもよい。

素片波形に付与される適用可否フラグは、例えば、予め各素片波形を分析した結果を用いて、音声合成に使用した場合、自然な合成音声が得られない素片波形に「０」が、そうではない素片波形には「１」が付与されるように決定されればよい。素片波形に付与される適用可否フラグは、適用可否フラグの値を付与するように実装されたコンピュータ等によって、又は、オペレータ等によって手動で、付与されていればよい。素片波形の分析では、例えば、同じ属性情報を持つ素片波形のスペクトル情報に基づく分布が生成されればよい。そして、生成された分布のセントロイドから大きく外れている素片波形が特定され、特定された素片波形に適用可否フラグとして０が付与されても良い。素片波形に付与された適用可否フラグは、例えば、手動により修正されても良い。または、素片波形に付与された適用可否フラグは、所定の方法に従って適用可否フラグを修正するよう実装されたコンピュータ等により、他の方法で自動的に修正されても良い。

波形生成部２０４は、生成された韻律情報に基づいて、選択された素片波形を編集すること、及び、それらの素片波形を接続することによって、合成音声を生成する。合成音声を生成する方法として、韻律情報と素片波形とに基づいて合成音声を生成する、さまざまな方法を適用できる。

素片波形保存部２０５には、元発話Ｆ０パタン保存部１０４に保存されている全ての元発話Ｆ０パタンに関連する素片波形が保存されていればよい。しかし、素片波形保存部２０５に、必ずしも全ての元発話Ｆ０パタンに関連する素片波形が保存されていなくてもよい。その場合において、元発話波形判定部２０３が選択された元発話Ｆ０パタンに関連する素片波形がないことを判定した場合、波形生成部２０４は、素片波形による元発話の再現を行わなくても良い。

図８を用いて、本実施形態の音声合成装置４００の動作について説明する。図８は、本発明の第４の実施形態における音声合成装置４００の動作例を示すフローチャートである。

音声合成装置４００に発声情報が入力される（ステップＳ４０１）。

適用区間探索部１０８は、元発話発声情報保存部１０７が保存する元発話発声情報と、入力された発声情報とを照合することによって、元発話適用対象区間を抽出する（ステップＳ４０２）。言い換えると、適用区間探索部１０８は、元発話発声情報保存部１０７が保存する元発話発声情報と、入力された発声情報とを照合する。そして、適用区間探索部１０８は、入力された発声情報において、元発話発声情報保存部１０７が保存する元発話発声情報の少なくとも一部に一致する部分を、元発話適用対象区間として抽出する。適用区間探索部１０８は、例えば、まず、入力された発声情報を、例えばアクセント句などの複数の区間に分割すればよい。適用区間探索部１０８は、分割によって生成されたそれら区間の各々において、元発話適用対象区間の探索を行えばよい。元発話適用対象区間が抽出されない区間が存在してもよい。

元発話Ｆ０パタン選択部１０３は、抽出された元発話適用対象区間に関連する元発話Ｆ０パタンを選択する（ステップＳ４０３）。すなわち、元発話Ｆ０パタン選択部１０３は、抽出された元発話適用対象区間におけるＦ０値の推移を表す元発話Ｆ０パタンを選択する。言い換えると、元発話Ｆ０パタン選択部１０３は、抽出された元発話適用対象区間におけるＦ０値の推移を表す元発話Ｆ０パタンを、その元発話適用対象区間を範囲に含む元発話発声情報の元発話Ｆ０パタンにおいて特定する。

元発話Ｆ０パタン判定部１０５は、選択された元発話Ｆ０パタンを、再現される音声データのＦ０パタンとして使用するか否かを、その元発話Ｆ０パタンに関連付けられた元発話Ｆ０パタン判定情報に基づいて判定する（ステップＳ４０４）。言い換えると、元発話Ｆ０パタン判定部１０５は、選択された発話Ｆ０パタンに関連付けられている元発話Ｆ０パタン判定情報に基づいて、入力された発声情報を音声として再現する音声合成に、その元発話Ｆ０パタンを使用するか否かを判定する。すなわち、元発話Ｆ０パタン判定部１０５は、選択された発話Ｆ０パタンに関連付けられている元発話Ｆ０パタン判定情報に基づいて、その元発話Ｆ０パタンを、再現される音声におけるＦ０パタンとして使用するか否かを判定する。なお、前述のように、元発話Ｆ０パタンは、及び、その元発話Ｆ０パタンに関連付けられている元発話Ｆ０パタン判定情報は、元発話Ｆ０パタン保存部１０４に保存されている。

標準Ｆ０パタン選択部１０１は、入力された発声情報と標準Ｆ０パタン保存部１０２が保存する属性情報とに基づいて、入力された発声情報を分割することによって生成された区間毎に１つの標準Ｆ０パタンを選択する（ステップ４０５）。標準Ｆ０パタン選択部１０１は、標準Ｆ０パタン保存部１０２が保存する標準Ｆ０パタンから、標準Ｆ０パタンを選択すればよい。

以上により、入力された発声情報に含まれる区間の各々に、標準Ｆ０パタンが選択されている。また、それらの区間は、さらに元発話Ｆ０パタンが選択されている、元発話適用対象区間が選択された区間を含みうる。

Ｆ０パタン接続部１０６は、標準Ｆ０パタン選択部１０１によって選択された標準Ｆ０パタンと元発話Ｆ０パタンを接続することによって、合成音声のＦ０パタン（すなわち韻律情報）を生成する（ステップＳ４０６）。

具体的には、Ｆ０パタン接続部１０６は、例えば、入力された発声情報が分割された区間のうち、元発話適用対象区間を含まない区間の接続用Ｆ０パタンとして、その区間について選択された標準Ｆ０パタンを選択する。そして、Ｆ０パタン接続部１０６は、元発話適用対象区間を含む区間の接続用Ｆ０パタンの、元発話適用対象区間に応じた部分は選択された元発話Ｆ０パタンに、他の部分は選択された標準Ｆ０パタンになるように、その接続用Ｆ０パタンを生成する。Ｆ０パタン接続部１０６は、入力された発声情報が分割された区間の接続用Ｆ０パタンを、元の発声情報におけるそれらの区間の順番と同じ順番で並ぶように接続することによって、合成音声のＦ０パタンを生成する。

素片波形選択部２０１は、入力された発声情報、生成された韻律情報、および、素片波形保存部２０５に保存されている素片波形の属性情報に基づいて、音声合成（特に波形生成）に使用する素片波形を選択する（ステップＳ４０７）。

元発話波形判定部２０３は、素片波形保存部２０５に保存された素片波形に関連付けられている元発話波形判定情報に基づいて、元発話適用対象区間において選択された素片波形を用いて元の収録音声波形を再現するか否かを判定する（ステップＳ４０８）。すなわち、元発話波形判定部２０３は、元発話適用対象区間において、選択された素片波形を使用して元の収録音声波形を再現するか否かを判定する。言い換えると、元発話波形判定部２０３は、元発話適用対象区間における音声合成に、その元発話適用対象区間において選択された素片波形を使用するか否かを、素片波形に関連付けられている元発話波形判定情報に基づいて判定する。

波形生成部２０４は、生成された韻律情報に基づいて、選択された素片波形を、編集し、接続することにより、合成音声を生成する（ステップＳ４０９）。

以上のように、本実施形態によれば、予め決められた元発話Ｆ０パタン判定情報に基づいて適用可否を判定し、非適用区間や適用しない区間は標準的なＦ０パタンが使用される。そのため、韻律の自然性を劣化させる要因となる元発話Ｆ０パタンが使用されるのを防ぐことができる。また、安定性の高い韻律を生成することが可能である。

さらに、本実施形態によれば、予め決められた元発話判定情報に基づいて、素片波形の収録音声の波形への使用の可否を判定する。そのため、音質劣化の要因となる元発話波形の使用を防ぐことが可能となる。すなわち、本実施形態によれば、肉声に近くかつ安定性の高い合成音声を生成できる。

また、以上で説明した本実施形態では、元発話適用区間に関連する元発話Ｆ０パタンの中に、元発話Ｆ０パタン判定情報が「０」であるＦ０値が存在する場合、その元発話Ｆ０パタンを音声合成に使用しない。しかし、元発話Ｆ０パタンが、元発話Ｆ０パタン判定情報が「０」であるＦ０値を含む場合、元発話Ｆ０パタン判定情報が「０」であるＦ０値以外のＦ０値を、音声合成に使用してもよい。

＜第４の実施形態の第１の変形例＞
以下、発明の第４の実施形態の第１の変形例を説明する。本変形例は、本発明の第４の実施形態と同様の構成を備えている。

本変形例においては、元発話Ｆ０パタン保存部１０４に保存されているＦ０値には、元発話Ｆ０パタン判定情報として、予め特定の単位ごとに、例えば０以上の、連続的なスカラー値が付与されている。

上述の特定の単位は、特定の規則に従って区切られたＦ０値の列である。その特定の単位は、例えば、日本語では、同一のアクセント句のＦ０パタンを表すＦ０値の列であってもよい。そのスカラー値は、例えば、そのスカラー値が付与されているＦ０値の列が表すＦ０パタンを音声合成に使用した場合に、生成される合成音声の自然さの程度を表す数値であってもよい。本変形例では、そのスカラー値が大きいほど、そのスカラー値が付与されているＦ０パタンを使用して生成される合成音声の自然さの程度が高い。そのスカラー値は、あらかじめ実験的に決められていればよい。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存された元発話Ｆ０パタン判定情報に基づいて、選択された元発話Ｆ０パタンを音声合成に使用するか否かを判定する。元発話Ｆ０パタン判定部１０５は、例えば、予め設定した閾値に基づいて判定を行ってもよい。元発話Ｆ０パタン判定部１０５は、例えば、スカラー値である元発話Ｆ０パタン判定情報と閾値とを比較し、比較の結果、スカラー値が閾値よりも大きい場合、選択された元発話Ｆ０パタンを音声合成に使用すると判定すればよい。元発話Ｆ０パタン判定部１０５は、スカラー値が、閾値より小さい場合、選択された元発話Ｆ０パタンを音声合成に使用しないと判定する。複数の元発話Ｆ０パタンが、上述の「一致する発声情報」を持つ元発話Ｆ０パタンとして選択された場合、元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン判定情報を使用して、１つの元発話Ｆ０パタンを選択しても良い。その場合、元発話Ｆ０パタン判定部１０５は、例えば、それらの複数の元発話Ｆ０パタンの中から、最も大きい元発話Ｆ０パタン判定情報が関連付けられている元発話Ｆ０パタンを選択しても良い。また、元発話Ｆ０パタン判定部１０５は、例えば、入力された発声情報の同じ区間について選択された元発話Ｆ０パタンの数を制限するのに、元発話Ｆ０パタン判定情報の値を使用してもよい。元発話Ｆ０パタン判定部１０５は、例えば、入力された発声情報の同じ区間について選択された元発話Ｆ０パタンの数が閾値を超えている場合、例えば、関連付けられている元発話Ｆ０パタン判定情報の値が最も小さい元発話Ｆ０パタンを、その区間について選択されている元発話Ｆ０パタンから除外してもよい。

元発話Ｆ０パタン判定情報の値は、元の収録音声のデータからＦ０を抽出する際に、例えばコンピュータなどによって自動的に付与されても、オペレータなどによって手動で付与されても良い。元発話Ｆ０パタン判定情報の値は、例えば、元発話のＦ０平均値からの乖離の程度を数値化した値であっても良い。

以上の本変形例の説明では、元発話Ｆ０パタン判定情報は連続値であるが、元発話Ｆ０パタン判定情報は離散値であってもよい。

＜第４の実施形態の第２の変形例＞
以下、本発明の第４の実施形態の第２の変形例を説明する。本変形例は、本発明の第４の実施形態と同様の構成を備えている。

本変形例においては、元発話Ｆ０パタン保存部１０４に保存されている元発話Ｆ０パタン判定情報として、予め特定の単位ごと（例えば、日本語ではアクセント句ごと）に、ベクトルによって表される複数の値が付与されている。

元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン保存部１０４に保存されている元発話Ｆ０パタン判定情報に基づいて、選択された元発話Ｆ０パタンを音声合成に適用するか否かを判定する。元発話Ｆ０パタン判定部１０５は、判定の方法として、例えば、予め設定した閾値に基づく方法を用いても良い。元発話Ｆ０パタン判定部１０５は、ベクトルである元発話Ｆ０パタン判定情報の重み付き線形和と閾値とを比較し、重み付き線形和が閾値より大きい場合、選択された元発話Ｆ０パタンを使用すると判定しても良い。元発話Ｆ０パタン判定部１０５は、重み付き線形和が閾値より小さい場合、選択された元発話Ｆ０パタンを使用しないと判定しても良い。複数の元発話Ｆ０パタンが、上述の「一致する発声情報」を持つ元発話Ｆ０パタンとして選択された場合に、元発話Ｆ０パタン判定部１０５は、元発話Ｆ０パタン判定情報を使用して、１つの元発話Ｆ０パタンを選択しても良い。その場合、元発話Ｆ０パタン判定部１０５は、例えば、それらの複数の元発話Ｆ０パタンの中から、最も大きい元発話Ｆ０パタン判定情報が関連付けられている元発話Ｆ０パタンを選択しても良い。また、元発話Ｆ０パタン判定部１０５は、例えば、入力された発声情報の同じ区間について選択された元発話Ｆ０パタンの数を制限するのに、元発話Ｆ０パタン判定情報の値を使用してもよい。元発話Ｆ０パタン判定部１０５は、例えば、入力された発声情報の同じ区間について選択された元発話Ｆ０パタンの数が閾値を超えている場合、例えば、関連付けられている元発話Ｆ０パタン判定情報の値が最も小さい元発話Ｆ０パタンを、その区間について選択されている元発話Ｆ０パタンから除外してもよい。

元発話Ｆ０パタン判定情報の値は、元の収録音声のデータからＦ０を抽出する際に、例えばコンピュータなどによって自動的に付与されても、オペレータなどによって手動で付与されても良い。元発話Ｆ０パタン判定情報の値は、例えば、第１の変形例における元発話のＦ０平均値からの乖離の程度を表す値と、喜怒哀楽等の感情の強さの度合いを表す値との組み合わせであっても良い。

＜第５の実施形態＞
以下、本発明の第５の実施形態を説明する。図１２は、本発明の第５の実施形態に係る音声処理装置である音声合成装置５００の概要を示す図である。

本実施形態では、図１２に示す通り、音声合成装置５００は、第４の実施形態における標準Ｆ０パタン選択部１０１と、標準Ｆ０パタン保存部１０２に代えて、Ｆ０パタン生成部３０１と、Ｆ０生成モデル保存部３０２とを備える。また、音声合成装置５００は、さらに、第４の実施形態における素片波形選択部２０１と、素片波形保存部２０５に代えて、波形パラメータ生成部４０１と、波形生成モデル保存部４０２と、波形特徴量保存部４０３とを備える。

Ｆ０生成モデル保存部３０２は、Ｆ０パタンを生成するためのモデルであるＦ０生成モデルを保存する。Ｆ０生成モデルは、例えば、隠れマルコフモデル（ＨＭＭ；ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等を使用して、大量の収録音声から抽出されたＦ０を、統計的に学習することによってモデル化したモデルである。

Ｆ０パタン生成部３０１は、Ｆ０生成モデルを用いて、入力された発声情報に適したＦ０パタンを生成する。本実施形態では、第４の実施形態における標準Ｆ０パタンと同様の方法で生成されたＦ０パタンを使用する。すなわち、Ｆ０パタン接続部１０６では、元発話Ｆ０パタン判定部１０５で適用すると判定された元発話Ｆ０パタンと、生成されたＦ０パタンを接続する。

波形生成モデル保存部４０２は、波形生成パラメータを生成するためのモデルである波形生成モデルを保存する。波形生成モデルは、例えば、Ｆ０生成モデルと同様に、ＨＭＭ等を使用し、大量の収録音声から抽出された波形生成パラメータを、統計的に学習することによってモデル化したモデルである。

波形パラメータ生成部４０１は、波形生成モデルを用いて、入力された発声情報と生成された韻律情報とに基づいて、波形生成パラメータを生成する。

波形特徴量保存部４０３には、元発話波形情報として、元発話発声情報と関連付けられている、波形生成パラメータと同じ形式の特徴量が、元発話波形情報として保存されている。本実施形態では、波形特徴量保存部４０３に保存されている元発話波形情報は、収録音声のデータを所定時間（例えば、５ｍｓｅｃ）の長さで分割することによって生成されるフレームから、フレーム毎に抽出された特徴量のベクトルである特徴量ベクトルである。

元発話波形判定部２０３は、元発話適用対象区間において、第４の実施形態及び第４の実施形態の変形例の各々と同様の方法によって、特徴量ベクトルの適用可否を判定する。特徴量ベクトルを適用すると判定された場合、元発話波形判定部２０３は、波形特徴量保存部４０３に保存されている特徴量ベクトルを、該当する区間の生成された波形生成パラメータを、波形特徴量保存部４０３に保存されている特徴量ベクトルと置き換える。すなわち、元発話波形判定部２０３は、特徴量ベクトルを適用すると判定された区間の、生成された波形生成パラメータを、波形特徴量保存部４０３に保存されている特徴量ベクトルと置き換えればよい。

波形生成部２０４は、特徴量ベクトルを適用すると判定された区間においては元発話波形情報である特徴量ベクトルで置換された生成された波形生成パラメータを用いて波形を生成する。

その波形生成パラメータは、例えば、メルケプストラムである。その波形生成パラメータは、元発話をほぼ再現可能である性能を持つ、他のパラメータであってもよい。すなわち、波形生成パラメータは、例えば、分析合成系として優れた性能を持つ「ＳＴＲＡＩＧＨＴ」（非特許文献１に記載）パラメータ等であってもよい。

＜非特許文献１＞
Ｈ．Ｋａｗａｈａｒａ，ｅｔａｌ．， “Ｒｅｓｔｒｕｃｔｕｒｉｎｇｓｐｅｅｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｕｓｉｎｇａｐｉｔｃｈ−ａｄａｐｔｉｖｅｔｉｍｅ−ｆｒｅｑｕｅｎｃｙｓｍｏｏｔｈｉｎｇａｎｄａｎｉｎｓｔａｎｔａｎｅｏｕｓ−ｆｒｅｑｕｅｎｃｙ−ｂａｓｅｄＦ０ｅｘｔｒａｃｔｉｏｎ，” ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．２７，ｎｏ．３−４，ｐｐ．１８７−２０７，（１９９９）．

＜他の実施形態＞
上述の実施形態の各々に係る音声処理装置は、例えば、回路機構（Ｃｉｒｃｕｉｔｒｙ）によって実現される。その回路機構（Ｃｉｒｃｕｉｔｒｙ）は、例えば、メモリとそのメモリにロードされたプログラムを実行するプロセッサを備えるコンピュータであってもよい。その回路機構（Ｃｉｒｃｕｉｔｒｙ）は、例えば、メモリとそのメモリにロードされたプログラムを実行するプロセッサを備え、互いに通信可能に接続されている２つ以上のコンピュータであってもよい。その回路機構は、専用の回路（Ｃｉｒｃｕｉｔ）であってもよい。その回路機構は、互いに通信可能に接続されている２つ以上の専用の回路（Ｃｉｒｃｕｉｔ）であってもよい。その回路機構は、上述のコンピュータと上述の専用の回路との組み合わせであってもよい。

図１３は、本発明の各実施形態に係る音声処理装置を実現できるコンピュータ１０００の構成の例を表すブロック図である。

図１３を参照すると、コンピュータ１０００は、プロセッサ１００１と、メモリ１００２と、記憶装置１００３と、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース１００４とを含む。また、コンピュータ１０００は、記録媒体１００５にアクセスすることができる。メモリ１００２と記憶装置１００３は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスクなどの記憶装置である。記録媒体１００５は、例えば、ＲＡＭ、ハードディスクなどの記憶装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、可搬記録媒体である。記憶装置１００３が記録媒体１００５であってもよい。プロセッサ１００１は、メモリ１００２と、記憶装置１００３に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ１００１は、Ｉ／Ｏインタフェース１００４を介して、例えば、端末装置及び出力装置（図示されない）にアクセスすることができる。プロセッサ１００１は、記録媒体１００５にアクセスすることができる。記録媒体１００５には、コンピュータ１０００を、音声処理装置として動作させるプログラムが格納されている。

プロセッサ１００１は、記録媒体１００５に格納されている、コンピュータ１０００を、音声処理装置として動作させるプログラムを、メモリ１００２にロードする。そして、プロセッサ１００１が、メモリ１００２にロードされたプログラムを実行することにより、コンピュータ１０００は、音声処理装置として動作する。

以下に示す第１グループに含まれる各部は、例えば、記録媒体１００５から各部の機能を実現することができる専用のプログラムがロードされたメモリ１００２と、そのプログラムを実行するプロセッサ１００１により実現することができる。第１グループは、標準Ｆ０パタン選択部１０１、元発話Ｆ０パタン選択部１０３、元発話Ｆ０パタン判定部１０５、Ｆ０パタン接続部１０６、適用区間探索部１０８、素片波形選択部２０１、元発話波形判定部２０３、及び、波形生成部２０４を含む。第１グループは、さらに、Ｆ０パタン生成部３０１、及び、波形パラメータ生成部４０１を含む。

また、以下に示す第２グループに含まれる各部は、コンピュータ１０００が含むメモリ１００２やハードディスク装置等の記憶装置１００３により実現することができる。第２グループは、標準Ｆ０パタン保存部１０２、元発話Ｆ０パタン保存部１０４、元発話発声情報保存部１０７、元発話波形保存部２０２、素片波形保存部２０５、Ｆ０生成モデル保存部３０２、波形生成モデル保存部４０２、及び、波形特徴量保存部４０３を含む。

さらに、第１グループ及び第２グループに含まれる部の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。

図１４は、専用の回路によって実装された、本発明の第１の実施形態に係る音声処理装置であるＦ０パタン判定装置１００の構成の例を表すブロック図である。図１４に示す例では、Ｆ０パタン判定装置１００は、元発話Ｆ０パタン保存装置１１０４と、元発話Ｆ０パタン判定回路１１０５とを含む。元発話Ｆ０パタン保存装置１１０４は、メモリによって実装されていてもよい。

図１５は、専用の回路によって実装された、本発明の第２の実施形態に係る音声処理装置である元発話波形判定装置２００の構成の例を表すブロック図である。図１５に示す例では、元発話波形判定装置２００は、元発話波形保存装置１２０２と、元発話波形判定回路１２０３とを含む。元発話波形保存装置１２０２は、メモリによって実装されていてもよい。元発話波形保存装置１２０２は、ハードディスク等の記憶装置によって実装されていてもよい。

図１６は、専用の回路によって実装された、本発明の第３の実施形態に係る音声処理装置である韻律生成装置３００の構成の例を表すブロック図である。図１６に示す例では、韻律生成装置３００は、標準Ｆ０パタン選択回路１１０１と、標準Ｆ０パタン保存装置１１０２と、Ｆ０パタン接続回路１１０６とを含む。韻律生成装置３００は、さらに、元発話Ｆ０パタン選択回路１１０３と、元発話Ｆ０パタン保存装置１１０４と、元発話Ｆ０パタン判定回路１１０５と、元発話発声情報保存装置１１０７と、適用区間探索回路１１０８とを含む。元発話発声情報保存装置１１０７は、メモリによって実装されていてもよい。元発話発声情報保存装置１１０７は、ハードディスク等の記憶装置によって実装されていてもよい。

図１７は、専用の回路によって実装された、本発明の第４の実施形態に係る音声処理装置である音声合成装置４００の構成の例を表すブロック図である。図１７に示す例では、音声合成装置４００は、標準Ｆ０パタン選択回路１１０１と、標準Ｆ０パタン保存装置１１０２と、Ｆ０パタン接続回路１１０６とを含む。音声合成装置４００は、さらに、元発話Ｆ０パタン選択回路１１０３と、元発話Ｆ０パタン保存装置１１０４と、元発話Ｆ０パタン判定回路１１０５と、元発話発声情報保存装置１１０７と、適用区間探索回路１１０８とを含む。音声合成装置４００は、さらに、素片波形選択回路１２０１と、元発話波形判定回路１２０３と、波形生成回路１２０４と、素片波形保存装置１２０５とを含む。素片波形保存装置１２０５は、メモリによって実装されていてもよい。素片波形保存装置１２０５は、ハードディスク等の記憶装置によって実装されていてもよい。

図１８は、専用の回路によって実装された、本発明の第５の実施形態に係る音声処理装置である音声合成装置５００の構成の例を表すブロック図である。図１８に示す例では、音声合成装置５００は、Ｆ０パタン生成回路１３０１と、Ｆ０生成モデル保存装置１３０２と、Ｆ０パタン接続回路１１０６とを含む。音声合成装置５００は、さらに、元発話Ｆ０パタン選択回路１１０３と、元発話Ｆ０パタン保存装置１１０４と、元発話Ｆ０パタン判定回路１１０５と、元発話発声情報保存装置１１０７と、適用区間探索回路１１０８とを含む。音声合成装置５００は、さらに、元発話波形判定回路１２０３と、波形生成回路１２０４と、波形パラメータ生成回路１４０１と、波形生成モデル保存装置１４０２と、波形特徴量保存装置１４０３とを含む。Ｆ０生成モデル保存装置１３０２、波形生成モデル保存装置１４０２、波形特徴量保存装置１４０３は、メモリによって実装されていてもよい。Ｆ０生成モデル保存装置１３０２、波形生成モデル保存装置１４０２、波形特徴量保存装置１４０３は、ハードディスク等の記憶装置によって実装されていてもよい。

標準Ｆ０パタン選択回路１１０１は、標準Ｆ０パタン選択部１０１として動作する。標準Ｆ０パタン保存装置１１０２は、標準Ｆ０パタン保存部１０２として動作する。元発話Ｆ０パタン選択回路１１０３は、元発話Ｆ０パタン選択部１０３として動作する。元発話Ｆ０パタン保存装置１１０４は、元発話Ｆ０パタン保存部１０４として動作する。元発話Ｆ０パタン判定回路１１０５は、元発話Ｆ０パタン判定部１０５として動作する。Ｆ０パタン接続回路１１０６は、Ｆ０パタン接続部１０６として動作する。元発話発声情報保存装置１１０７は、元発話発声情報保存部１０７として動作する。適用区間探索回路１１０８は、適用区間探索部１０８として動作する。素片波形選択回路１２０１は、素片波形選択部２０１として動作する。元発話波形保存装置１２０２は、元発話波形保存部２０２として動作する。元発話波形判定回路１２０３は、元発話波形判定部２０３として動作する。波形生成回路１２０４は、波形生成部２０４として動作する。素片波形保存装置１２０５は、素片波形保存部２０５として動作する。Ｆ０パタン生成回路１３０１は、Ｆ０パタン生成部３０１として動作する。Ｆ０生成モデル保存装置１３０２は、Ｆ０生成モデル保存部３０２として動作する。波形パラメータ生成回路１４０１は、波形パラメータ生成部４０１として動作する。波形生成モデル保存装置１４０２は、波形生成モデル保存部４０２として動作する。波形特徴量保存装置１４０３は、波形特徴量保存部４０３として動作する。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、例えば近似曲線の導出方法、韻律情報生成方式および音声合成方式等に関して、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１４年１２月２４日に出願された日本出願特願２０１４−２６０１６８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００Ｆ０パタン判定装置
１０１標準Ｆ０パタン選択部
１０２標準Ｆ０パタン保存部
１０３元発話Ｆ０パタン選択部
１０４元発話Ｆ０パタン保存部
１０５元発話Ｆ０パタン判定部
１０６Ｆ０パタン接続部
１０７元発話発声情報保存部
１０８適用区間探索部
２００元発話波形判定装置
２０１素片波形選択部
２０２元発話波形保存部
２０３元発話波形判定部
２０４波形生成部
２０５素片波形保存部
３００韻律生成装置
３０１Ｆ０パタン生成部
３０２Ｆ０生成モデル保存部
４００音声合成装置
４０１波形パラメータ生成部
４０２波形生成モデル保存部
４０３波形特徴量保存部
５００音声合成装置
１０００コンピュータ
１００１プロセッサ
１００２メモリ
１００３記憶装置
１００４Ｉ／Ｏインタフェース
１００５記録媒体
１１０１標準Ｆ０パタン選択回路
１１０２標準Ｆ０パタン保存装置
１１０３元発話Ｆ０パタン選択回路
１１０４元発話Ｆ０パタン保存装置
１１０５元発話Ｆ０パタン判定回路
１１０６Ｆ０パタン接続回路
１１０７元発話発声情報保存装置
１１０８適用区間探索回路
１２０１素片波形選択回路
１２０２元発話波形保存装置
１２０３元発話波形判定回路
１２０４波形生成回路
１２０５素片波形保存装置
１３０１Ｆ０パタン生成回路
１３０２Ｆ０生成モデル保存装置
１４０１波形パラメータ生成回路
１４０２波形生成モデル保存装置
１４０３波形特徴量保存装置

本発明の一態様に係るプログラムは、収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する処理と、第１の判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する処理と、をコンピュータに実行させる。本発明は、記録媒体が記憶する上記プログラムによっても実現される。

Claims

収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する第１の保存手段と、
前記第１の判定情報に基づき、元発話Ｆ０パタンを再現するか否かを判定する第１の判定手段と、
を備える音声処理装置。
前記収録音声の発声内容を表現する元発話発声情報と前記元発話Ｆ０パタンとを関連付けて保存する第２の保存手段と、
前記元発話発声情報と、合成する音声の発声内容を表現する発声情報とに基づき、前記元発話Ｆ０パタンを再現する区間を探索する探索手段と、
前記区間に関連する前記元発話Ｆ０パタンを、保存されている前記元発話Ｆ０パタンから選択する第１の選択手段と、
をさらに備え、
前記第１の判定手段は、前記第１の判定情報に基づき、前記選択された前記元発話Ｆ０パタンを再現するか否かを判定する
請求項１に記載の音声処理装置。
前記第１の保存手段は、前記第１の判定情報として、２値で表現されるフラグ情報、スカラー値、およびベクトル値のうち少なくとも１つを保存し、
前記第１の判定手段は、前記第１の保存手段が保存する前記フラグ情報、前記スカラー値、および前記ベクトル値のうち少なくとも１つを用いて前記元発話Ｆ０パタンを再現するか否かを判定する
請求項１又は２に記載の音声処理装置。
前記元発話Ｆ０パタンと関連付けられ、収録音声の発声内容を表現する、元発話発声情報を保存する第２の保存手段と、
前記元発話発声情報と、合成する音声の発声内容を表現する発声情報とに基づき、前記元発話Ｆ０パタンを再現する区間を探索する探索手段と、
前記区間に関連する前記元発話Ｆ０パタンを、保存されている前記元発話Ｆ０パタンから選択する第１の選択手段と、
特定の区間の前記Ｆ０パタンの形状を近似的に表現する標準Ｆ０パタンと、当該標準Ｆ０パタンの属性情報とを保存する第３の保存手段と、
入力される発声情報と前記属性情報とに基づいて前記標準Ｆ０パタンを選択する第２の選択手段と、
選択された前記標準Ｆ０パタンと前記元発話Ｆ０パタンとを接続することによって、前記Ｆ０パタンを生成する接続手段と、
を備える請求項１に記載の音声処理装置。
合成する音声の発声内容を表す発声情報と、再現された前記元発話Ｆ０パタンとに基づき、素片波形を選択する第３の選択手段と、
選択された前記素片波形に基づき、合成音声を生成する波形生成手段と、
を備える請求項１に記載の音声処理装置。
前記元発話Ｆ０パタンに関連付けられ、前記収録音声の発声内容を表現する、元発話発声情報を保存する第２の保存手段と、
前記元発話発声情報と前記発声情報とに基づき、前記元発話Ｆ０パタンを再現する区間を探索する探索手段と、
前記区間に関連する前記元発話Ｆ０パタンを、保存されている前記元発話Ｆ０パタンから選択する第１の選択手段と、
をさらに備え、
前記第１の判定手段は、前記第１の判定情報に基づき、選択された前記元発話Ｆ０パタンを再現するか否かを判定する
請求項５に記載の音声処理装置。
特定の区間の前記Ｆ０パタンの形状を近似的に表現する標準Ｆ０パタンと、当該標準Ｆ０パタンの属性情報とを保存する第３の保存手段と、
入力される発声情報と前記属性情報とに基づいて前記標準Ｆ０パタンを選択する第２の選択手段と、
選択された前記標準Ｆ０パタンと前記元発話Ｆ０パタンとを接続することによって、前記Ｆ０パタンを生成する接続手段とをさらに備え、
前記第３の選択手段は、生成された前記Ｆ０パタンを用いて前記素片波形を選択する
請求項５又は６に記載の音声処理装置。
前記収録音声の複数の素片波形と、当該複数の素片波形に関連付けられた第２の判定情報とを保存する第４の保存手段と、
前記第２の判定情報に基づき、選択された前記素片波形を用いて前記収録音声の波形を再現するか否かを判定する第２の判定手段と、
をさらに備え、
前記波形生成手段は、再現される前記収録音声の波形に基づき、前記合成音声を生成する
請求項７に記載の音声処理装置。
収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存し、
前記第１の判定情報に基づき、前記元発話Ｆ０パタンを再現するか否かを判定する
音声処理方法。
収録音声から抽出されるＦ０パタンである元発話Ｆ０パタンと、当該元発話Ｆ０パタンに関連付けられた第１の判定情報とを保存する処理と、
前記第１の判定情報に基づき、前記元発話Ｆ０パタンを再現するか否かを判定する処理と、
をコンピュータに実行させるプログラムを記憶する記録媒体。