JP2014095851A - 音響モデル生成方法と音声合成方法とそれらの装置とプログラム - Google Patents
音響モデル生成方法と音声合成方法とそれらの装置とプログラム Download PDFInfo
- Publication number
- JP2014095851A JP2014095851A JP2012248151A JP2012248151A JP2014095851A JP 2014095851 A JP2014095851 A JP 2014095851A JP 2012248151 A JP2012248151 A JP 2012248151A JP 2012248151 A JP2012248151 A JP 2012248151A JP 2014095851 A JP2014095851 A JP 2014095851A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- tone
- learning
- information
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】この発明の音響モデル生成方法は、モデル学習過程と、音調結合型抽出過程と、音調結合型モデル学習過程とを備え、モデル学習過程は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該音声データの音素セグメンテーション情報とアクセント情報を含む発話情報とを入力として音声合成用HMMを学習する。音調結合型抽出過程は、音声合成用HMMから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間の音調結合型を抽出する。音調結合型モデル学習過程は、音声データと発話情報と音調結合型とを入力として音声合成用のHMMを学習して音響モデルを出力する。
【選択図】図2
Description
音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列と、外部から入力される学習用音声データとを用いて、アクセント句間の音調結合型を抽出する。図7に、アクセント句間の概念を示す。例えば「今日は打ち合わせです。」の一文は、「今日は」、「打ち合わせ」、「です」の3つのアクセント句で構成される。このアクセント句の位置(時間)は、発話情報を参照することで得られる。
アクセント句の境界の前後t[ms]のF0の平均値から音調結合型を求める例を説明したが、j番目とj+1番目のアクセント句を構成する全ての発話のF0の平均値の差分で音調結合型を判別しても良い。音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の平均値をfsij,fsij+1、学習用音声データの同じアクセント句の平均値をfoij,foij+1として求め、音声パラメータ系列の差分をds=fsij−fsij+1、学習用音声データの差分do=foij−foij+1とした時のdsとdoとの差分(do−ds)が閾値αより大の場合を弱結合、小の場合を強結合として判別しても良い。
音調結合型として弱結合と強結合の2種類のみを抽出する例で説明をしたが、任意のN種類の音調結合型を抽出することも可能である。図9に、N種類の音調結合型を抽出するようにした音調結合型抽出部20の動作フローを示す。
図10に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図11に示す。音声合成装置200は、テキスト解析部210と、音声パラメータ生成部220と、音調結合型音響モデル230と、音声合成フィルタ部250と、制御部240と、を具備する。音声合成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
Claims (7)
- 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習過程と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間の音調結合型を抽出する音調結合型抽出過程と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習過程と、
を備える音響モデル生成方法。 - 請求項1に記載した音響モデル生成方法において、
上記音調結合型抽出過程は、
上記モデル学習部で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成ステップと、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の音調結合型を抽出する音調結合型抽出ステップと、
を含むことを特徴とする音響モデル生成方法。 - 請求項1又は2に記載した音響モデル生成方法で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析過程と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ過程と、
を備える音声合成方法。 - 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習部と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間の音調結合型を抽出する音調結合型抽出部と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習部と、
を具備する音響モデル生成装置。 - 請求項4に記載した音響モデル生成装置において、
上記音調結合型抽出部は、
上記モデル学習部で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成手段と、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の音調結合型を抽出する音調結合型抽出手段と、
を備えることを特徴とする音響モデル生成装置。 - 請求項4又は5に記載した音響モデル生成装置で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析部と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ部と、
を具備する音声合成装置。 - 請求項4又は5に記載した音響モデル生成装置、又は請求項6に記載した音声合成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248151A JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248151A JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014095851A true JP2014095851A (ja) | 2014-05-22 |
JP5722295B2 JP5722295B2 (ja) | 2015-05-20 |
Family
ID=50938934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012248151A Active JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5722295B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719641A (zh) * | 2016-01-19 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 用于波形拼接语音合成的选音方法和装置 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09152885A (ja) * | 1995-09-25 | 1997-06-10 | Mitsubishi Electric Corp | ピッチパタン生成装置,ピッチパタン生成方法,ピッチパタン生成装置における学習装置およびピッチパタン生成方法における学習方法。 |
JP2000075880A (ja) * | 1998-09-01 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | ピッチパタン変形方法及びその記録媒体 |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
JP2007114507A (ja) * | 2005-10-20 | 2007-05-10 | Toshiba Corp | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
JP2009204795A (ja) * | 2008-02-27 | 2009-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 |
WO2012115213A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
-
2012
- 2012-11-12 JP JP2012248151A patent/JP5722295B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09152885A (ja) * | 1995-09-25 | 1997-06-10 | Mitsubishi Electric Corp | ピッチパタン生成装置,ピッチパタン生成方法,ピッチパタン生成装置における学習装置およびピッチパタン生成方法における学習方法。 |
JP2000075880A (ja) * | 1998-09-01 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | ピッチパタン変形方法及びその記録媒体 |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
JP2007114507A (ja) * | 2005-10-20 | 2007-05-10 | Toshiba Corp | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
JP2009204795A (ja) * | 2008-02-27 | 2009-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 |
WO2012115213A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
Non-Patent Citations (2)
Title |
---|
YU MAENO,他6名: "HMM-Based Emphatic Speech Synthesis Using Unsupervised Context Labeling", INTERSPEECH 2011, JPN7014002622, 27 August 2011 (2011-08-27), pages 1849 - 1852, ISSN: 0003026023 * |
前野悠,他6名: "強調音声合成のための局所韻律コンテキスト自動付与の検討", 電子情報通信学会技術研究報告,SP,音声, vol. 112, no. 81, JPN6014037543, 7 June 2012 (2012-06-07), JP, pages 1 - 6, ISSN: 0003026022 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719641A (zh) * | 2016-01-19 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 用于波形拼接语音合成的选音方法和装置 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5722295B2 (ja) | 2015-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US11335324B2 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
US20220051654A1 (en) | Two-Level Speech Prosody Transfer | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
CN104681036A (zh) | 一种语言音频的检测系统及方法 | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
JP2017032738A (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP2016186515A (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
KR20200138993A (ko) | 감정 토큰을 이용한 감정 음성 합성 방법 및 장치 | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
Sawada et al. | The NITech text-to-speech system for the blizzard challenge 2016 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
JP2009300716A (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP6370732B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
Piqueras et al. | Statistical text-to-speech synthesis of Spanish subtitles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5722295 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |