JP6728083B2 - 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム - Google Patents
中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP6728083B2 JP6728083B2 JP2017021565A JP2017021565A JP6728083B2 JP 6728083 B2 JP6728083 B2 JP 6728083B2 JP 2017021565 A JP2017021565 A JP 2017021565A JP 2017021565 A JP2017021565 A JP 2017021565A JP 6728083 B2 JP6728083 B2 JP 6728083B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- phoneme
- type
- voice
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
[音響モデル学習装置100]
以下、図2〜図7を参照して音響モデル学習装置100について説明する。図2に示すように音響モデル学習装置100は、種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130、パラメータ最適化部140、記録部790を含む。記録部790は、音響モデル学習装置100の処理に必要な情報を適宜記録する構成部である。
以下、図8〜図11を参照して音声認識装置200について説明する。図8に示すように音声認識装置200は、音声特徴量抽出部210、音声認識部220を含む。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 音声データを分類する種類の数をJ、前記種類を識別するための番号を種類番号、音素の数をM、前記音素を識別するための番号を音素番号とし、
音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する種類識別部と、
前記音声特徴量と前記種類番号j’から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量を音素中間特徴量として計算する音素中間特徴量計算部と
を含む中間特徴量計算装置であって、
前記音素中間特徴量計算部は、1≦j≦Jを満たす各整数jについて、
ニューラルネットワークを用いて、種類番号jの音声データから抽出された音声特徴量から、第j種中間特徴量を計算する第j種中間特徴量計算部と
を含み、
前記種類識別部は、
前記音声特徴量から、種類識別用の中間特徴量である種類中間特徴量を計算する種類中間特徴量計算部と、
前記種類中間特徴量から、種類確率分布を計算する種類確率分布計算部と、
前記種類確率分布から、確率が最大となる種類番号を前記種類番号j’として決定する種類決定部と
を含むことを特徴とする中間特徴量計算装置。 - 音声特徴量と当該音声特徴量に対応する音素を識別するための音素番号である正解音素番号から、音声認識に用いる音響モデルを学習する音響モデル学習装置であって、
請求項1に記載の中間特徴量計算装置を用いて、前記音声特徴量から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量(ただし、j’は前記音声特徴量を抽出した音声データの種類に対応する種類番号であり、1≦j’≦Jを満たす整数)を音素中間特徴量として計算する中間特徴量計算部と、
前記音素中間特徴量から、前記音素確率分布を計算する音素確率分布計算部と、
前記音素確率分布と前記正解音素番号を用いて、前記音響モデルのパラメータである音響モデルパラメータを最適化するパラメータ最適化部と
を含み、
前記パラメータ最適化部は、前記音響モデルパラメータのうち、前記中間特徴量計算部に含まれる、前記種類番号j’に対応する第j’種中間特徴量計算部で用いられるニューラルネットワークを特徴付けるパラメータを最適化することを特徴とする音響モデル学習装置。 - 認識用音声データから、前記認識用音声データの音声特徴量を抽出する音声特徴量抽出部と、
請求項2に記載の音響モデル学習装置が学習した音響モデルを用いて、前記音声特徴量から前記認識用音声データの認識結果である音声認識結果を生成する音声認識部と、
を含む音声認識装置。 - 音声データを分類する種類の数をJ、前記種類を識別するための番号を種類番号、音素の数をM、前記音素を識別するための番号を音素番号とし、
中間特徴量計算装置が、音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する種類識別ステップと、
前記中間特徴量計算装置が、前記音声特徴量と前記種類番号j’から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量を音素中間特徴量として計算する音素中間特徴量計算ステップと
を含む中間特徴量計算方法であって、
前記音素中間特徴量計算ステップは、1≦j≦Jを満たす各整数jについて、
ニューラルネットワークを用いて、種類番号jの音声データから抽出された音声特徴量から、第j種中間特徴量を計算する第j種中間特徴量計算ステップと
を含み、
前記種類識別ステップは、
前記音声特徴量から、種類識別用の中間特徴量である種類中間特徴量を計算する種類中間特徴量計算ステップと、
前記種類中間特徴量から、種類確率分布を計算する種類確率分布計算ステップと、
前記種類確率分布から、確率が最大となる種類番号を前記種類番号j’として決定する種類決定ステップと
を含むことを特徴とする中間特徴量計算方法。 - 音響モデル学習装置が、音声特徴量と当該音声特徴量に対応する音素を識別するための音素番号である正解音素番号から、音声認識に用いる音響モデルを学習する音響モデル学習方法であって、
前記音響モデル学習装置が、請求項4に記載の中間特徴量計算方法を用いて、前記音声特徴量から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量(ただし、j’は前記音声特徴量を抽出した音声データの種類に対応する種類番号であり、1≦j’≦Jを満たす整数)を音素中間特徴量として計算する中間特徴量計算ステップと、
前記音響モデル学習装置が、前記音素中間特徴量から、前記音素確率分布を計算する音素確率分布計算ステップと、
前記音響モデル学習装置が、前記音素確率分布と前記正解音素番号を用いて、前記音響モデルのパラメータである音響モデルパラメータを最適化するパラメータ最適化ステップと
を含み、
前記パラメータ最適化ステップは、前記音響モデルパラメータのうち、前記中間特徴量計算ステップに含まれる、前記種類番号j’に対応する第j’種中間特徴量計算ステップで用いられるニューラルネットワークを特徴付けるパラメータを最適化することを特徴とする音響モデル学習方法。 - 音声認識装置が、認識用音声データから、前記認識用音声データの音声特徴量を抽出する音声特徴量抽出ステップと、
前記音声認識装置が、請求項5に記載の音響モデル学習方法により学習した音響モデルを用いて、前記音声特徴量から前記認識用音声データの認識結果である音声認識結果を生成する音声認識ステップと、
を含む音声認識方法。 - 請求項1に記載の中間特徴量計算装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021565A JP6728083B2 (ja) | 2017-02-08 | 2017-02-08 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017021565A JP6728083B2 (ja) | 2017-02-08 | 2017-02-08 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018128574A JP2018128574A (ja) | 2018-08-16 |
JP6728083B2 true JP6728083B2 (ja) | 2020-07-22 |
Family
ID=63173872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017021565A Active JP6728083B2 (ja) | 2017-02-08 | 2017-02-08 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6728083B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7218803B2 (ja) * | 2019-06-10 | 2023-02-07 | 日本電信電話株式会社 | モデル学習装置、方法及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
JP4026738B2 (ja) * | 1999-05-31 | 2007-12-26 | 株式会社リコー | パターン認識方法及び装置、並びに記録媒体 |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
JP6506074B2 (ja) * | 2015-03-30 | 2019-04-24 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
-
2017
- 2017-02-08 JP JP2017021565A patent/JP6728083B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018128574A (ja) | 2018-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lozano-Diez et al. | An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
CN107680582A (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
JP3627299B2 (ja) | 音声認識方法及び装置 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
Somogyi | The Application of Artificial Intelligence | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
US20230069908A1 (en) | Recognition apparatus, learning apparatus, methods and programs for the same | |
Zhang et al. | One-against-all weighted dynamic time warping for language-independent and speaker-dependent speech recognition in adverse conditions | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Minh et al. | The system for detecting Vietnamese mispronunciation | |
CN116542783A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
US12125474B2 (en) | Learning apparatus, estimation apparatus, methods and programs for the same | |
Harvianto et al. | Analysis and voice recognition In Indonesian language using MFCC and SVM method | |
CN109872721A (zh) | 语音认证方法、信息处理设备以及存储介质 | |
Bohra et al. | Language Identification using Stacked Convolutional Neural Network (SCNN) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6728083 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |