JP2016164628A - 音読評価装置、音読評価方法、及びプログラム - Google Patents
音読評価装置、音読評価方法、及びプログラム Download PDFInfo
- Publication number
- JP2016164628A JP2016164628A JP2015044963A JP2015044963A JP2016164628A JP 2016164628 A JP2016164628 A JP 2016164628A JP 2015044963 A JP2015044963 A JP 2015044963A JP 2015044963 A JP2015044963 A JP 2015044963A JP 2016164628 A JP2016164628 A JP 2016164628A
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- frequency
- predetermined time
- calculated
- masked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
初めに、図1を参照して、本発明の実施形態に係る音読評価装置Sの構成及び機能について説明する。図1は、本実施形態に係る音読評価装置Sの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音読評価装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、ヘッドホンH、及びディスプレイD等が接続される。マイクMは、語学学習や発声発話訓練等を行う話者が、複数の文字により構成される文字列(例えば、アナウンス文字列)を音読したときに発した音声を集音する。ヘッドホンHは、話者の両耳にスピーカ部分が当たるように話者の頭部に装着される。ヘッドホンHのスピーカからは、後述する背景雑音が出力される。なお、ヘッドホンに代えてイヤホンが用いられてもよい。ディスプレイDは、制御部3からの表示指令にしたがって、評価結果、及び評価結果に基づくアドバイスを画面に表示する。なお、マイクM、及びディスプレイDは、音読評価装置Sと一体型であってもよいし、別体であってもよい。
次に、図4〜図6等を参照して、音読評価装置Sの動作の一例について説明する。図4は、制御部3により実行される音読録音処理の一例を示すフローチャートである。図5(A)は、制御部3により実行される音読評価処理の一例を示すフローチャートである。図6は、制御部3により実行される音読評価フィードバック処理の一例を示すフローチャートである。
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
31 音声処理部
32 音読評価部
33 表示処理部
S 音読評価装置
Claims (6)
- 話者が文字列を音読したときに発した音声の波形を示す話者音声波形データを入力する入力手段と、
背景雑音の波形を示す背景雑音波形データを記憶する記憶手段と、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出手段と、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出手段と、
前記第2算出手段により算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出手段と、
前記第1算出手段により算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出手段により算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出手段と、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、音素のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出手段と、
前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下における前記音読に対する評価を行う評価手段と、
を備えることを特徴とする音読評価装置。 - 前記評価手段は、前記第4算出手段により算出された前記所定時間毎のマスクト音声周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布と、前記第5算出手段により算出された前記時間区間毎のモデル周波数スペクトルに含まれるフォルマント周波数を基準とする周波数範囲内のレベル分布との類似度に基づいて前記音読に対する評価を行うことを特徴とする請求項1に記載の音読評価装置。
- 前記評価手段は、前記マスクト音声周波数スペクトルに基づく前記所定時間毎の音圧レベルの時間的な変化と、前記モデル周波数スペクトルに基づく前記時間区間毎の音圧レベルの時間的な変化との類似度に基づいて前記音読に対する評価を行うことを特徴とする請求項1または2に記載の音読評価装置。
- 前記記憶手段は、複数の文字により構成される前記文字列のテキストデータを記憶し、
前記テキストデータが示す前記文字例に基づいて前記音声の波形を時間軸方向において前記時間区間毎に区切ることで、前記時間区間と音素情報とを対応付けたラベリング情報を生成する生成手段を更に備え、
前記第5算出手段は、前記生成手段により生成されたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出することを特徴とする請求項1乃至3の何れか一項に記載の音読評価装置。 - 1つ以上のコンピュータにより実行される音読評価方法であって、
話者が文字列を音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、
前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、
前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、
前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下における前記音読に対する評価を行う評価ステップと、
を含むことを特徴とする音読評価方法。 - 話者が文字列を音読したときに発した音声の波形を示す話者音声波形データを入力する入力ステップと、
背景雑音の波形を示す背景雑音波形データを記憶手段に記憶する記憶ステップと、
前記話者音声波形データに基づいて所定時間毎に周波数分析を行うことで第1周波数スペクトルを所定時間毎に算出する第1算出ステップと、
前記背景雑音波形データに基づいて所定時間毎に周波数分析を行うことで第2周波数スペクトルを所定時間毎に算出する第2算出ステップと、
前記第2算出ステップにより算出された第2周波数スペクトルにおいてマスキング効果を有する周波数を基準として各周波数におけるマスクトレベルを所定時間毎に算出する第3算出ステップと、
前記第1算出ステップにより算出された第1周波数スペクトルにおける各周波数のレベルと、前記第3算出ステップにより算出された、各周波数におけるマスクトレベルとの差分を表すマスクト音声周波数スペクトルを所定時間毎に算出する第4算出ステップと、
前記話者音声波形データが示す音声の波形において時間区間と音素情報とを対応付けたラベリング情報から、前記音素情報のモデルとなるモデル周波数スペクトルを前記時間区間毎に算出する第5算出ステップと、
前記第4算出ステップにより算出された前記所定時間毎のマスクト音声周波数スペクトルと、前記第5算出ステップにより算出された前記時間区間毎のモデル周波数スペクトルとの類似度に基づいて前記背景雑音の存在下における前記音読に対する評価を行う評価ステップと、
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044963A JP6314879B2 (ja) | 2015-03-06 | 2015-03-06 | 音読評価装置、音読評価方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044963A JP6314879B2 (ja) | 2015-03-06 | 2015-03-06 | 音読評価装置、音読評価方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016164628A true JP2016164628A (ja) | 2016-09-08 |
JP6314879B2 JP6314879B2 (ja) | 2018-04-25 |
Family
ID=56876564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015044963A Active JP6314879B2 (ja) | 2015-03-06 | 2015-03-06 | 音読評価装置、音読評価方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6314879B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019174525A (ja) * | 2018-03-27 | 2019-10-10 | カシオ計算機株式会社 | 学習支援装置、学習支援方法およびプログラム |
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
JPWO2020235089A1 (ja) * | 2019-05-23 | 2020-11-26 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07111527A (ja) * | 1993-10-14 | 1995-04-25 | Hitachi Ltd | 音声の加工方法およびそれを用いた装置 |
JP2000132181A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
JP2009080309A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
-
2015
- 2015-03-06 JP JP2015044963A patent/JP6314879B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07111527A (ja) * | 1993-10-14 | 1995-04-25 | Hitachi Ltd | 音声の加工方法およびそれを用いた装置 |
JP2000132181A (ja) * | 1998-10-20 | 2000-05-12 | Canon Inc | 音声処理装置及び方法 |
US6411925B1 (en) * | 1998-10-20 | 2002-06-25 | Canon Kabushiki Kaisha | Speech processing apparatus and method for noise masking |
JP2009080309A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019174525A (ja) * | 2018-03-27 | 2019-10-10 | カシオ計算機株式会社 | 学習支援装置、学習支援方法およびプログラム |
JP7135372B2 (ja) | 2018-03-27 | 2022-09-13 | カシオ計算機株式会社 | 学習支援装置、学習支援方法およびプログラム |
JPWO2020235089A1 (ja) * | 2019-05-23 | 2020-11-26 | ||
WO2020235089A1 (ja) * | 2019-05-23 | 2020-11-26 | 日本電信電話株式会社 | 評価装置、訓練装置、それらの方法、およびプログラム |
JP7276438B2 (ja) | 2019-05-23 | 2023-05-18 | 日本電信電話株式会社 | 評価装置、訓練装置、それらの方法、およびプログラム |
CN110956979A (zh) * | 2019-10-22 | 2020-04-03 | 浙江合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6314879B2 (ja) | 2018-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khouw et al. | Perceptual correlates of Cantonese tones | |
JP5593244B2 (ja) | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 | |
Murray et al. | Applying an analysis of acted vocal emotions to improve the simulation of synthetic speech | |
JP2008233672A (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体 | |
JP5029168B2 (ja) | 音声読み上げのための装置、プログラム及び方法 | |
JP2020507819A (ja) | スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
Nathwani et al. | Speech intelligibility improvement in car noise environment by voice transformation | |
JP6314879B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP2002091472A (ja) | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 | |
JP4953767B2 (ja) | 音声生成装置 | |
JP6314884B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
JP6291808B2 (ja) | 音声合成装置及び方法 | |
JP2016157097A (ja) | 音読評価装置、音読評価方法、及びプログラム | |
Singh et al. | The structure of Hindi stop consonants | |
JP7294460B2 (ja) | 訓練装置、その方法、およびプログラム | |
JP5518621B2 (ja) | 音声合成装置およびコンピュータプログラム | |
JP2006139162A (ja) | 語学学習装置 | |
JP4543919B2 (ja) | 語学学習装置 | |
JP7548304B2 (ja) | 音声伝達補償装置、音声伝達補償方法、及びプログラム | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JP5677137B2 (ja) | 韻律変換装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6314879 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |