JP5874639B2 - 音声合成装置、音声合成方法及び音声合成プログラム - Google Patents
音声合成装置、音声合成方法及び音声合成プログラム Download PDFInfo
- Publication number
- JP5874639B2 JP5874639B2 JP2012532854A JP2012532854A JP5874639B2 JP 5874639 B2 JP5874639 B2 JP 5874639B2 JP 2012532854 A JP2012532854 A JP 2012532854A JP 2012532854 A JP2012532854 A JP 2012532854A JP 5874639 B2 JP5874639 B2 JP 5874639B2
- Authority
- JP
- Japan
- Prior art keywords
- duration
- correction
- state
- speech
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 35
- 238000003786 synthesis reaction Methods 0.000 title claims description 27
- 238000001308 synthesis method Methods 0.000 title description 5
- 238000004364 calculation method Methods 0.000 claims description 70
- 230000008859 change Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000033764 rhythmic process Effects 0.000 description 11
- 230000007423 decrease Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の第1の実施形態における音声合成装置の例を示すブロック図である。本実施形態における音声合成装置は、言語処理部1と、韻律生成部2と、素片情報記憶部12と、素片選択部4と、波形生成部5とを備えている。また、韻律生成部2は、状態継続長生成部21と、状態継続長補正部22と、音素継続長計算部23と、継続長補正度計算部24と、モデルパラメータ記憶部25と、ピッチパタン生成部3とを備えている。
Huang, Acero, Hon,“Spoken Language Processing”, Prentice Hall, pp.689-836, 2001.
<参考文献2>
阿部 外2名,“音声合成のための合成単位の基礎” 電子情報通信学会技術研究報告, Vol.100, No.392, pp.35-42, 2000.
図3は、本発明の第2の実施形態における音声合成装置の例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、言語処理部1と、韻律生成部2と、素片情報記憶部12と、素片選択部4と、波形生成部5とを備えている。また、韻律生成部2は、状態継続長生成部21と、状態継続長補正部22と、音素継続長計算部23と、継続長補正度計算部242と、仮ピッチパタン生成部28と、音声波形パラメータ生成部29と、モデルパラメータ記憶部25と、ピッチパタン生成部3とを備えている。
図10は、本発明の第3の実施形態における音声合成装置の例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、言語処理部1と、韻律生成部2と、音声波形パラメータ生成部42と、波形生成部52とを備えている。また、韻律生成部2は、状態継続長生成部21と、状態継続長補正部22と、継続長補正度計算部24と、モデルパラメータ記憶部25と、ピッチパタン生成部3とを備えている。
2 韻律生成部
3 ピッチパタン生成部
4 素片選択部
5,52 波形生成部
12 素片情報記憶部
21 状態継続長生成部
22 状態継続長補正部
23 音素継続長計算部
24,242 継続長補正度計算部
25 モデルパラメータ記憶部
28 仮ピッチパタン生成部
29,42 音声波形パラメータ生成部
Claims (6)
- 言語情報と韻律情報のモデルパラメータとをもとに、隠れマルコフモデルにおける各状態の継続長を示す状態継続長を生成する状態継続長生成手段と、
言語情報から音声特徴量を導出し、導出された音声特徴量をもとに、前記状態継続長を補正する度合いを表す指標である継続長補正度を計算する継続長補正度計算手段と、
音韻の継続時間長を補正する補正比率を表わす音韻継続長補正パラメータと前記継続長補正度とに基づいて、前記状態継続長を補正する状態継続長補正手段とを備え、
前記継続長補正度計算手段は、前記音声特徴量を示すスペクトルまたはピッチの時間変化度を言語情報から推定し、推定した時間変化度をもとに前記継続長補正度を計算する
ことを特徴とする音声合成装置。 - 状態継続長補正手段は、音声特徴量の時間的変化度が小さい状態における状態継続長ほど、当該状態継続長の変化度をより大きくする
請求項1記載の音声合成装置。 - 言語情報と状態継続長生成手段が生成した状態継続長とをもとに、ピッチパタンを生成するピッチパタン生成手段と、
言語情報と前記状態継続長とをもとに、音声波形を表すパラメータである音声波形パラメータを生成する音声波形パラメータ生成手段とを備え、
継続長補正度計算手段は、言語情報と前記ピッチパタンと前記音声波形パラメータとに基づいて、継続長補正度を計算する
請求項1または請求項2記載の音声合成装置。 - 言語情報と状態継続長補正手段が補正した状態継続長とをもとに、音声波形を表すパラメータである音声波形パラメータを生成する音声波形パラメータ生成手段と、
ピッチパタンと前記音声波形パラメータとをもとに合成音声波形を生成する波形生成手段とを備えた
請求項1または請求項2記載の音声合成装置。 - 言語情報と韻律情報のモデルパラメータとをもとに、隠れマルコフモデルにおける各状態の継続長を示す状態継続長を生成し、
言語情報から音声特徴量を導出し、
導出された音声特徴量をもとに、前記状態継続長を補正する度合いを表す指標である継続長補正度を計算し、
音韻の継続時間長を補正する補正比率を表わす音韻継続長補正パラメータと前記継続長補正度とに基づいて、前記状態継続長を補正し、
継続長補正度を計算する際、前記音声特徴量を示すスペクトルまたはピッチの時間変化度を言語情報から推定し、推定した時間変化度をもとに前記継続長補正度を計算する
ことを特徴とする音声合成方法。 - コンピュータに、
言語情報と韻律情報のモデルパラメータとをもとに、隠れマルコフモデルにおける各状態の継続長を示す状態継続長を生成する状態継続長生成処理、
言語情報から音声特徴量を導出し、導出された音声特徴量をもとに、前記状態継続長を補正する度合いを表す指標である継続長補正度を計算する継続長補正度計算処理、および、
音韻の継続時間長を補正する補正比率を表わす音韻継続長補正パラメータと前記継続長補正度とに基づいて、前記状態継続長を補正する状態継続長補正手処理を実行させ、
前記継続長補正度計算処理で、前記音声特徴量を示すスペクトルまたはピッチの時間変化度を言語情報から推定させ、推定された時間変化度をもとに前記継続長補正度を計算させる
ための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012532854A JP5874639B2 (ja) | 2010-09-06 | 2011-09-01 | 音声合成装置、音声合成方法及び音声合成プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010199229 | 2010-09-06 | ||
JP2010199229 | 2010-09-06 | ||
JP2012532854A JP5874639B2 (ja) | 2010-09-06 | 2011-09-01 | 音声合成装置、音声合成方法及び音声合成プログラム |
PCT/JP2011/004918 WO2012032748A1 (ja) | 2010-09-06 | 2011-09-01 | 音声合成装置、音声合成方法及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012032748A1 JPWO2012032748A1 (ja) | 2014-01-20 |
JP5874639B2 true JP5874639B2 (ja) | 2016-03-02 |
Family
ID=45810358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012532854A Active JP5874639B2 (ja) | 2010-09-06 | 2011-09-01 | 音声合成装置、音声合成方法及び音声合成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130117026A1 (ja) |
JP (1) | JP5874639B2 (ja) |
WO (1) | WO2012032748A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016042659A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
JP6499305B2 (ja) * | 2015-09-16 | 2019-04-10 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04170600A (ja) * | 1990-09-19 | 1992-06-18 | Meidensha Corp | 規則音声合成装置における発声速度制御方式 |
JP2000310996A (ja) * | 1999-04-28 | 2000-11-07 | Oki Electric Ind Co Ltd | 音声合成装置および音韻継続時間長の制御方法 |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2004341259A (ja) * | 2003-05-15 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声素片伸縮装置およびその方法 |
JP2011028230A (ja) * | 2009-07-02 | 2011-02-10 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
US5864809A (en) * | 1994-10-28 | 1999-01-26 | Mitsubishi Denki Kabushiki Kaisha | Modification of sub-phoneme speech spectral models for lombard speech recognition |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
AU713208B2 (en) * | 1995-06-13 | 1999-11-25 | British Telecommunications Public Limited Company | Speech synthesis |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
EP1872361A4 (en) * | 2005-03-28 | 2009-07-22 | Lessac Technologies Inc | HYBRID SPEECH SYNTHESIZER, METHOD AND USE |
WO2009144368A1 (en) * | 2008-05-30 | 2009-12-03 | Nokia Corporation | Method, apparatus and computer program product for providing improved speech synthesis |
CN102222501B (zh) * | 2011-06-15 | 2012-11-07 | 中国科学院自动化研究所 | 语音合成中时长参数的生成方法 |
-
2011
- 2011-09-01 JP JP2012532854A patent/JP5874639B2/ja active Active
- 2011-09-01 US US13/809,515 patent/US20130117026A1/en not_active Abandoned
- 2011-09-01 WO PCT/JP2011/004918 patent/WO2012032748A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04170600A (ja) * | 1990-09-19 | 1992-06-18 | Meidensha Corp | 規則音声合成装置における発声速度制御方式 |
JP2000310996A (ja) * | 1999-04-28 | 2000-11-07 | Oki Electric Ind Co Ltd | 音声合成装置および音韻継続時間長の制御方法 |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2004341259A (ja) * | 2003-05-15 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声素片伸縮装置およびその方法 |
JP2011028230A (ja) * | 2009-07-02 | 2011-02-10 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012032748A1 (ja) | 2014-01-20 |
US20130117026A1 (en) | 2013-05-09 |
WO2012032748A1 (ja) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US20060259303A1 (en) | Systems and methods for pitch smoothing for text-to-speech synthesis | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5983604B2 (ja) | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
JP5177135B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5874639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |