[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6728083B2 - 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム - Google Patents

中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム Download PDF

Info

Publication number
JP6728083B2
JP6728083B2 JP2017021565A JP2017021565A JP6728083B2 JP 6728083 B2 JP6728083 B2 JP 6728083B2 JP 2017021565 A JP2017021565 A JP 2017021565A JP 2017021565 A JP2017021565 A JP 2017021565A JP 6728083 B2 JP6728083 B2 JP 6728083B2
Authority
JP
Japan
Prior art keywords
feature amount
phoneme
type
voice
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017021565A
Other languages
English (en)
Other versions
JP2018128574A (ja
Inventor
崇史 森谷
崇史 森谷
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017021565A priority Critical patent/JP6728083B2/ja
Publication of JP2018128574A publication Critical patent/JP2018128574A/ja
Application granted granted Critical
Publication of JP6728083B2 publication Critical patent/JP6728083B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識技術に関し、特にニューラルネットワークを用いて学習した音響モデルにより音声認識を行う技術に関する。
音声認識、画像認識など様々な分野においてニューラルネットワークを用いたモデル学習が行われている。ここでは、まずニューラルネットワークの代表的なモデルであるディープニューラルネットワーク(DNN: Deep Neural Networks)についてその概略を説明する(図1参照)。
DNNは、入力層(第0層)とK(Kは1以上の整数)層の隠れ層(第1層〜第K層)と出力層(第K+1層)から構成される。DNNの第k層(0≦k≦K+1)に入力される特徴量xkをnk次元ベクトルとする。また、第K+1層(つまり、出力層)から出力される特徴量xK+2をnK+2次元ベクトルとする。このとき、第k層にはnk次元ベクトルである特徴量xkが入力され、nk+1次元ベクトルである特徴量xk+1が出力される。ここで、第k層の出力特徴量xk+1は第k+1層の入力特徴量となる。第K層のことを最終隠れ層という。
一般に、DNNでは各層において線形変換と非線形変換が実行される。第k層(0≦k≦K+1)における線形変換を特徴付ける重み行列をWk、バイアスベクトルをbk、非線形変換をf(fのことを活性化関数ともいう)とすると、出力特徴量xk+1は、入力特徴量xkを用いて次式で表現される。
Figure 0006728083
ここで、Wkはnk+1×nk行列、bkはnk+1次元ベクトルとなる。
また、fはnk+1次元ベクトルからnk+1次元ベクトルへの非線形変換となる。隠れ層では、シグモイド関数が用いられる。この場合、線形変換後の特徴量xk+1/2の第i成分をxi k+1/2、出力特徴量xk+1の第i成分をxi k+1とすると、次式が成り立つ(1≦i≦nk+1)。
Figure 0006728083
一方、出力層では、ソフトマックス関数が用いられる。この場合、線形変換後の特徴量x(K+1)+1/2の第i成分をxi (K+1)+1/2、出力特徴量xK+2の第i成分をxi K+2とすると、次式が成り立つ(1≦i≦nK+2)。
Figure 0006728083
出力特徴量xK+2の第i成分xi K+2は出力層を構成する第iユニットからの出力である。各iについて0≦xi K+2≦1であり、Σxi K+2=1が成り立つ。そこで、出力層からの出力特徴量xK+2を出力確率分布ということにする。また、出力特徴量xK+2が確率分布であることから、出力特徴量xK+2を出力確率分布pと表すこともある。つまり、p=(p1,…,pn_K+2)=(x1 K+2,…,xn_K+2 K+2)となる(なお、_(アンダースコア)は下付き添字を表し、例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す)。
DNNがモデルを学習することは、重み行列とバイアスベクトルを学習することである。つまり、DNNが学習するモデルは、DNNを特徴付けるパラメータとなる。
音声認識に用いる音響モデルを学習する場合、DNNへの入力特徴量(つまり、入力層への入力となる特徴量)x0は音声データの音声特徴量、DNNからの出力特徴量(つまり、出力層からの出力となる特徴量)xK+2は音声の出力シンボルである音素(音素状態)の確率分布pとなる。このとき、出力層を構成するユニットの数は音素の数に等しく、第iユニットから出力される確率は入力された音声特徴量が第i音素である確率を表すことになる。
確率が最大となる出力層のユニット番号に対応する音素を入力された音声特徴量と対応する音素とすれば、DNNは音声特徴量を入力として音素を出力するモデルを音響モデルとして学習することになる。ここで、学習される音響モデルは各層の重み行列とバイアスベクトルである。
したがって、当該音響モデルを用いて構成した音声認識装置は、認識対象となる音声データ(認識用音声データ)の音声特徴量から音素の系列を生成し、音声認識結果を生成するものとなる。
以上、DNNの概略について、音声認識に適用した場合も含め説明した。
なお、一般に、ニューラルネットワークはベクトルを入力とし、ベクトルを出力する関数とみなすこともできる。
以下では、非特許文献1〜3に記載のニューラルネットワークが音響モデルを学習する(つまり、ニューラルネットワークを特徴付けるパラメータを学習する)方法について説明する。まず、図12〜図13を参照して非特許文献1の音響モデル学習装置700を説明する。図12は、音響モデル学習装置700の構成を示すブロック図である。図13は、音響モデル学習装置700の動作を示すフローチャートである。図12に示すように音響モデル学習装置700は、音声中間特徴量計算部710、音素確率分布計算部720、パラメータ最適化部730、記録部790を含む。
記録部790は、音響モデル学習装置700の処理に必要な情報を適宜記録する構成部である。例えば、音響モデルを構成するパラメータ(音響モデルパラメータ)の初期値を事前に記録しておく。また、学習過程で生成される音響モデルパラメータを適宜に記録する。
音響モデルパラメータの初期値は、乱数を用いて生成してもよいし、今回の学習に用いる音声データとは異なる別の音声データを学習データとして生成したパラメータを利用してもよい。
音素の数をMとし、各音素には番号(以下、音素番号という)が1〜Mまで振られており、音素番号m(1≦m≦M)を用いて各音素を識別することにする。音素番号mの音素のことを第m音素という。
学習開始前に、学習データとなる音声データ(学習用音声データ)から音声特徴量を抽出しておく。音声特徴量はベクトルとして表される。また、当該音声特徴量に対応する音素(正解音素)を識別するための音素番号である正解音素番号も併せて用意しておく。つまり、音声特徴量と正解音素番号の組が音響モデル学習装置700の入力となる。音声特徴量と正解音素番号の組のことを訓練データという。
音響モデル学習装置700は、訓練データである音声特徴量と正解音素番号の組から、音響モデルを学習する。
音声中間特徴量計算部710は、DNNの入力層から最終隠れ層までの計算を実行する構成部である。また、音素確率分布計算部720は、DNNの出力層での計算を実行する構成部である。したがって、音響モデル学習装置700が学習する音響モデルは、音声中間特徴量計算部710と音素確率分布計算部720を特徴付けるDNNのパラメータとなる。
音響モデル学習装置700は、学習開始までに、記録部790に記録した音響モデルパラメータの初期値を音声中間特徴量計算部710、音素確率分布計算部720に設定する。また、音響モデル学習装置700は、学習中、パラメータ最適化部730が音響モデルパラメータを最適化計算する都度、計算した音響モデルパラメータを音声中間特徴量計算部710、音素確率分布計算部720に設定する。これにより、新たに計算された音響モデルパラメータで特徴付けられるDNN(音声中間特徴量計算部710と音素確率分布計算部720)を用いて、次の訓練データを処理することになる。
図13に従い音響モデル学習装置700の動作について説明する。音声中間特徴量計算部710は、入力された音声特徴量から、音素識別用の中間特徴量である音声中間特徴量を計算する(S710)。音声中間特徴量は、入力された音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である。また、上述の通り、音声中間特徴量計算部710はDNNの入力層から最終隠れ層までの計算を実行する構成部であるので、音声中間特徴量は学習中のDNNの最終隠れ層の出力特徴量である。
音素確率分布計算部720は、S710で計算した音声中間特徴量から、音素確率分布を計算する(S720)。上述の通り、音素確率分布計算部720はDNNの出力層での計算を実行する構成部であるので、音素確率分布は学習中のDNNの出力層の出力特徴量である。ここで、音素番号mの音素(第m音素)は、出力層を構成する第mユニットに対応するものとすると、音素確率分布は出力層の第mユニットからの出力値である確率pm(式(3)で計算される値)を並べた分布p=(p1,…,pM)になる。
パラメータ最適化部730は、S720で計算した音素確率分布と入力された正解音素番号を用いて、音響モデルパラメータを最適化する(S730)。例えば、次式で定義される損失関数Cの値を減少させるように、音響モデルパラメータを最適化計算していく。
Figure 0006728083
ただし、p=(p1,…,pM)は音素確率分布、d=(d1,…,dM)は次式で定義される正解確率分布である。
Figure 0006728083
なお、損失関数Cはクロスエントロピーと呼ばれるものであり、2つの確率分布の間で定義される、分布間のずれを測る尺度である。
一般に、音声特徴量と正解音素番号の組である訓練データの数は数千万〜数億回程度と非常に大きいものとなる。膨大な訓練データから効率的に音響モデルパラメータを最適化するためには、例えば、非特許文献1の式(4)を用いるとよい。
音響モデル学習装置700は、S710〜S730の処理を訓練データの数だけ繰り返し、最終的に計算された音響モデルパラメータを学習結果として出力する。
次に、図14〜図15を参照して非特許文献2の音響モデル学習装置800を説明する。音響モデル学習装置800の学習では、音響モデル学習装置700の学習で用いたDNNに加えて、画像認識でよく用いられるニューラルネットワークである畳み込みニューラルネットワーク(CNN: Convolutional Neural Networks)も用いる。CNNは、入力層、畳み込み層、プーリング層から構成される。
図14は、音響モデル学習装置800の構成を示すブロック図である。図15は、音響モデル学習装置800の動作を示すフローチャートである。図14に示すように音響モデル学習装置800は、耐雑音中間特徴量計算部810、音声中間特徴量計算部710、音素確率分布計算部720、パラメータ最適化部730、記録部790を含む。
音響モデル学習装置800は、訓練データである音声特徴量と正解音素番号の組から、音響モデルを学習する。
音声中間特徴量計算部710は、DNNの入力層から最終隠れ層までの計算を実行する構成部である。音素確率分布計算部720は、DNNの出力層での計算を実行する構成部である。耐雑音中間特徴量計算部810は、CNNの計算を実行する構成部である。したがって、音響モデル学習装置800が学習する音響モデルは、音声中間特徴量計算部710と音素確率分布計算部720を特徴付けるDNNのパラメータと目的音特徴量計算部810を特徴付けるCNNのパラメータを含む。
音響モデル学習装置800は、学習開始までに、記録部790に記録した音響モデルパラメータの初期値を耐雑音中間特徴量計算部810、音声中間特徴量計算部710、音素確率分布計算部720に設定する。また、音響モデル学習装置800は、学習中、パラメータ最適化部730が音響モデルパラメータを最適化計算する都度、計算した音響モデルパラメータを耐雑音中間特徴量計算部810、音声中間特徴量計算部710、音素確率分布計算部720に設定する。
図15に従い音響モデル学習装置800の動作について説明する。耐雑音中間特徴量計算部810は、入力された音声特徴量から、当該音声特徴量を抽出した音声データに含まれる目的音の特徴量である耐雑音中間特徴量を計算する(S810)。耐雑音中間特徴量とは、雑音が重畳した音声データの目的音に対応する特徴量を音声特徴量から計算したものであり、具体的には、次のように計算する。まず、音声特徴量から時間と対数パワースペクトルの2次元画像を生成する。次に、CNNを用いて当該2次元画像から耐雑音中間特徴量を計算する。
音声中間特徴量計算部710は、S810で計算した耐雑音中間特徴量から、音素識別用の中間特徴量である音声中間特徴量を計算する(S710)。音声中間特徴量計算部710は、雑音の影響が残ったまま抽出した音声特徴量の代わりに、雑音の影響を除去した耐雑音中間特徴量を入力とする点において音響モデル学習装置700のそれと異なるが、その動作は同様である。つまり、音声中間特徴量計算部710は、DNNの入力層から最終隠れ層までで構成されるニューラルネットワークを用いて、耐雑音中間特徴量から最終隠れ層の出力特徴量である音声中間特徴量を計算する。
音素確率分布計算部720は、S710で計算した音声中間特徴量から、音素確率分布を計算する(S720)。
パラメータ最適化部730は、S720で計算した音素確率分布と入力された正解音素番号を用いて、音響モデルパラメータを最適化する(S730)。
音響モデル学習装置800で学習した音響モデルを用いた音声認識は、雑音を含む音声データに対する音声認識の精度が高いことが確認されている。つまり、音響モデル学習装置800で学習する音響モデルは、耐雑音性のある音響モデルとなる。
次に、図16〜図17を参照して非特許文献3の音響モデル学習装置900を説明する。音響モデル学習装置900の学習でも、音響モデル学習装置800の学習と同様、DNNとCNNを用いる。音響モデル学習装置800と異なるのは、これらのニューラルネットワークの結合の仕方である。音響モデル学習装置800では、CNN、DNNの順に直列に結合させたニューラルネットワークを用いたが、音響モデル学習装置900では、CNNとDNNを並列に結合させたニューラルネットワークを用いる。
図16は、音響モデル学習装置900の構成を示すブロック図である。図17は、音響モデル学習装置900の動作を示すフローチャートである。図16に示すように音響モデル学習装置900は、音声中間特徴量計算部710、耐雑音中間特徴量計算部810、中間特徴量結合部910、音素確率分布計算部720、パラメータ最適化部730、記録部790を含む。
音響モデル学習装置900は、訓練データである音声特徴量と正解音素番号の組から、音響モデルを学習する。
音響モデル学習装置900が学習する音響モデルは、音響モデル学習装置800が学習する音響モデルパラメータと同様、音声中間特徴量計算部710と音素確率分布計算部720を特徴付けるDNNのパラメータと目的音特徴量計算部810を特徴付けるCNNのパラメータを含む。
音響モデル学習装置900は、学習開始までに、記録部790に記録した音響モデルパラメータの初期値を耐雑音中間特徴量計算部810、音声中間特徴量計算部710、音素確率分布計算部720に設定する。また、音響モデル学習装置900は、学習中、パラメータ最適化部730が音響モデルパラメータを最適化計算する都度、計算した音響モデルパラメータを耐雑音中間特徴量計算部810、音声中間特徴量計算部710、音素確率分布計算部720に設定する。
図17に従い音響モデル学習装置900の動作について説明する。音声中間特徴量計算部710は、入力された音声特徴量から、音素識別用の中間特徴量の一部となる音声中間特徴量を計算する(S710)。
耐雑音中間特徴量計算部810は、入力された音声特徴量から、音素識別用の中間特徴量の一部となる耐雑音中間特徴量を計算する(S810)。
中間特徴量結合部910は、S710で計算した音声中間特徴量とS810で計算した耐雑音中間特徴量から、結合中間特徴量を生成する(S910)。結合中間特徴量は、ベクトルである音声中間特徴量と耐雑音中間特徴量をベクトルとして結合したベクトルである。
音素確率分布計算部720は、S910で生成した結合中間特徴量から、音素確率分布を計算する(S720)。
パラメータ最適化部730は、S720で計算した音素確率分布と入力された正解音素番号を用いて、音響モデルパラメータを最適化する(S730)。
音響モデル学習装置900で学習した音響モデルを用いた音声認識は、学習データ数が同じ場合、音響モデル学習装置700や音響モデル学習装置800で学習した音響モデルを用いた音声認識と比較して、精度が高いことが確認されている。
Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara Sainath, Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE Signal Processing Magazine, Vol.29, No.6, pp.82-97, 2012. Ossama Abdel-Hamid, Adbel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, Dong Yu, "Convolutional Neural Networks for Speech Recognition", IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol.22, No.10, pp.1533-1545, 2014. Hagen Soltau, George Saon, Tara N. Sainath, "Joint Training of Convolutional and Non-Convolutional Neural Networks", IEEE ICASSP, 2014.
非特許文献1の方法で学習した音響モデルを用いた音声認識では、雑音が重畳した音声の認識精度が雑音のない音声の認識精度に比べて著しく低下するという問題がある。
非特許文献2の方法で学習した音響モデルを用いた音声認識は、非特許文献1のそれに比べて耐雑音性の点において優れている。しかし、非特許文献1の方法に比べて音響モデルの学習に必要な計算時間が大きいという問題がある。また、雑音が少ない音声の音声認識では、非特許文献1の方法で学習した音響モデルを用いた音声認識と精度があまり変わらないにもかかわらず、認識に必要な計算時間が大きいという問題もある。
非特許文献3の方法では、学習対象となる音声に雑音が含まれていてもいなくてもその音声特徴量がDNNの学習に相当する音声中間特徴量計算部710とCNNの学習に相当する耐雑音中間特徴量計算部810の両方に入力され、学習に用いられる。このため、学習結果として得られる音響モデルを用いた音声認識の認識精度は高くなるが、その学習に要する計算時間は大きくなってしまう。また、認識に要する計算時間も大きくなってしまう。
また、雑音が含まれない音声を用いて音響モデルを学習したが、音声認識の段階では認識対象となる音声に雑音が含まれているというようなケースもありうる。このようなケースのように学習に用いた音声とは別の種類の音声を認識しようとすると、認識精度が低くなってしまうという問題が生じることがある。そこで、この問題を解決するため、複数の種類の音声を学習データとして用意して非特許文献1や非特許文献2の方法を用いて学習した音響モデルを用いて音声認識をする方法が考えられるが、音声の種類ごとに学習した音響モデルを用いて音声認識をする場合に比べて、認識精度が低くなるという問題がある。
以上述べたように、非特許文献1〜3の方法では、認識処理に必要な計算時間を抑制しつつ雑音の有無に関わらず高精度な音声認識を実現する音響モデルを学習することは難しい。
そこで本発明は、認識処理に必要な計算時間を抑制しつつ学習用音声データの種類にかかわらず高精度な音声認識を実現する音響モデルを学習するために用いる中間特徴量を計算する技術を提供することを目的とする。
本発明の一態様は、音声データを分類する種類の数をJ、前記種類を識別するための番号を種類番号、音素の数をM、前記音素を識別するための番号を音素番号とし、音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する種類識別部と、前記音声特徴量と前記種類番号j’から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量を音素中間特徴量として計算する音素中間特徴量計算部とを含む中間特徴量計算装置であって、前記音素中間特徴量計算部は、1≦j≦Jを満たす各整数jについて、ニューラルネットワークを用いて、種類番号jの音声データから抽出された音声特徴量から、第j種中間特徴量を計算する第j種中間特徴量計算部とを含む。
本発明によれば、認識処理に必要な計算時間を抑制しつつ学習用音声データの種類にかかわらず高精度な音声認識を実現する音響モデルを学習するために用いる中間特徴量を計算することができる。
DNNの一例を示す図。 音響モデル学習装置100の構成の一例を示す図。 音響モデル学習装置100の動作の一例を示す図。 種類識別部110の構成の一例を示す図。 種類識別部110の動作の一例を示す図。 音素中間特徴量計算部120の構成の一例を示す図。 音素中間特徴量計算部120の動作の一例を示す図。 音声認識装置200の構成の一例を示す図。 音声認識装置200の動作の一例を示す図。 音声認識部220の構成の一例を示す図。 音声認識部220の動作の一例を示す図。 音響モデル学習装置700の構成の一例を示す図。 音響モデル学習装置700の動作の一例を示す図。 音響モデル学習装置800の構成の一例を示す図。 音響モデル学習装置800の動作の一例を示す図。 音響モデル学習装置900の構成の一例を示す図。 音響モデル学習装置900の動作の一例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、各実施形態で用いる用語について簡単に説明する。
音声データとは、音響モデルの学習や音声認識に用いるため、あらかじめ収録しておく音声データのことである。音声データは、例えば話者が発話した文章の音声である。また、音声データは、例えばサンプリング周波数16kHzで離散値化されたデジタルデータである。
音声特徴量とは、音声データから抽出した特徴量であり、例えば、音声データを分割したフレーム(通常20ms〜40ms程度)ごとに抽出されるFBANK(フィルタバンク対数パワー)などがある。なお、音声特徴量は一般にベクトルとして表現される。
音声の種類とは、音響モデルを学習する際に用いる学習用音声データを分類するカテゴリのことである。例えば、雑音の有無を基準に分類すると、雑音を含む音声と雑音を含まない音声の2つの種類に学習用音声データが分類される。また、話し言葉の音声、読み上げ音声、会議音声の3つの種類に学習用音声データを分類することもできる。男性の音声、女性の音声の2つの種類に学習用音声データを分類することもできる。さらに、雑音に関して、有無の2つで分けるのでなく、例えば高、中、低と雑音のレベルで分ける場合には3つの種類に学習用音声データを分類することもできる。
<第一実施形態>
[音響モデル学習装置100]
以下、図2〜図7を参照して音響モデル学習装置100について説明する。図2に示すように音響モデル学習装置100は、種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130、パラメータ最適化部140、記録部790を含む。記録部790は、音響モデル学習装置100の処理に必要な情報を適宜記録する構成部である。
学習用音声データは、J種類の音声に分類されるものとする。また、各分類には番号(以下、種類番号という)が1〜Jまで振られており、種類番号j(1≦j≦J)を用いて各種類を識別することにする。種類番号jの音声のことを第j種の音声という。例えば、雑音の有無と性別を基準に分類する場合、雑音がない男性の音声を種類番号1の音声、雑音がない女性の音声を種類番号2の音声、雑音を含む男性の音声を種類番号3の音声、雑音を含む女性の音声を種類番号4の音声とし、4つの種類に分類することができる。
また、音素の数をMとし、各音素には番号(以下、音素番号という)が1〜Mまで振られており、音素番号m(1≦m≦M)を用いて各音素を識別することにする。音素番号mの音素のことを第m音素という。
学習開始前に、学習用音声データから訓練データを用意しておくのは、音響モデル学習装置700と同じである。
音響モデル学習装置100は、訓練データである音声特徴量と正解音素番号の組から、音響モデルを学習する。正解音素番号とは、音声特徴量に対応する音素(正解音素)を識別するための音素番号のことである。
種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130は、ニューラルネットワークによる計算を実行する構成を含む。したがって、音響モデル学習装置100は、学習開始までに、記録部790に記録した音響モデルパラメータの初期値を種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130に設定する。また、音響モデル学習装置100は、学習中、パラメータ最適化部140が音響モデルパラメータを最適化計算する都度、計算した音響モデルパラメータを種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130に設定する。
図3に従い音響モデル学習装置100の動作について説明する。種類識別部110は、入力された音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する(S110)。以下、図4〜図5を参照して種類識別部110について説明する。
図4に示すように種類識別部110は、種類中間特徴量計算部111、種類確率分布計算部112、種類番号決定部113を含む。種類特徴量計算部111は、DNNの入力層から最終隠れ層までのニューラルネットワークに対応する構成部である。種類確率分布計算部112は、DNNの出力層のニューラルネットワークに対応する構成部である。種類確率分布計算部112の出力層に含まれるユニットの数は、種類の数Jに等しい。第jユニット(1≦j≦J)は、音声特徴量を抽出した音声の種類番号がjである(第j種である)確率を出力するユニットになる。
なお、種類中間特徴量計算部111と種類確率分布計算部112をDNN以外のニューラルネットワークを用いて構成してもよい。ただし、種類確率分布計算部112の出力はJ次元ベクトルとなるように構成する。
図5に従い種類識別部110の動作について説明する。種類中間特徴量計算部111は、入力された音声特徴量から、種類識別用の中間特徴量である種類特徴量を計算する(S111)。種類中間特徴量は、入力された音声特徴量を抽出した音声が対応する種類が第j種(1≦j≦J)である確率qjの分布である種類確率分布q=(q1,…,qJ)を計算するために用いる特徴量である。また、上述の通り、種類中間特徴量計算部111がDNNの入力層から最終隠れ層までのニューラルネットワークに対応する構成部である場合、種類中間特徴量は学習中のDNNの最終隠れ層の出力特徴量となる。
種類確率分布計算部112は、S111で計算した種類中間特徴量から、種類確率分布を計算する(S112)。上述の通り、種類確率分布計算部112がDNNの出力層のニューラルネットワークに対応する構成部である場合、種類確率分布は学習中のDNNの出力層の出力特徴量となる。ここで、種類番号jの種類(第j種)は出力層を構成する第jユニットに対応するので、種類確率分布は出力層の第jユニットからの出力値である確率qjを並べた分布q=(q1,…,qJ)になる。
種類決定部113は、S112で計算した種類確率分布から、確率が最大となる種類番号j’を決定する(S113)。
音素中間特徴量計算部120は、入力された音声特徴量とS110で決定した種類番号j’から、音素識別用の中間特徴量である音素中間特徴量を計算する(S120)。音素中間特徴量は、入力された音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である。以下、図6〜図7を参照して音素中間特徴量計算部120について説明する。
図6に示すように音素中間特徴量計算部120は、音声特徴量入力部121、第1種中間特徴量計算部122、…、第J種中間特徴量計算部122、音素中間特徴量出力部123を含む。第1種中間特徴量計算部122、…、第J種中間特徴量計算部122は、それぞれDNNの入力層から最終隠れ層までのニューラルネットワークに対応する構成部、CNNに対応する構成部のいずれかである。種類番号jの音声(第j種の音声)が雑音を含む音声である場合、第j種中間特徴量計算部122jは、CNNに対応する構成部とする方が好ましい。第j種中間特徴量は、入力された音声特徴量が種類番号j(1≦j≦J)の音声のものであるとして、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するための特徴量である。また、第1種中間特徴量、…、第J種中間特徴量のベクトルとしての次元は一致する。
なお、第1種中間特徴量計算部122、…、第J種中間特徴量計算部122をDNNやCNN以外のニューラルネットワークを用いて構成してもよい。ただし、この場合も雑音に強い音響モデルを生成するニューラルネットワークとそうでないニューラルネットワークなど音声の種類に応じたニューラルネットワークを準備するのが好ましい。
例えば、雑音の有無と性別を基準に分類する場合、J=4であり、第1種中間特徴量計算部122は雑音がない男性の音声(種類番号1の音声)の特徴量を第1種中間特徴量、第2種中間特徴量計算部1222は雑音がない女性の音声(種類番号2の音声)の特徴量を第2種中間特徴量、第3種中間特徴量計算部1223は雑音を含む男性の音声(種類番号3の音声)の特徴量を第3種中間特徴量、第4種中間特徴量計算部1224は雑音を含む女性の音声(種類番号4の音声)の特徴量を第4種中間特徴量としてそれぞれ計算する。この場合、第1種中間特徴量計算部1221と第2種中間特徴量計算部1222はDNNの入力層から最終隠れ層までのニューラルネットワークに対応する構成部、第3種中間特徴量計算部1223と第4種中間特徴量計算部1224はCNNに対応する構成部として構成する。
図7に従い音素中間特徴量計算部120の動作について説明する。音声特徴量入力部121は、S110で決定した種類番号j’を用いて、入力された音声特徴量を第j’種中間特徴量計算部122j’に出力する(S121)。
第j’種中間特徴量計算部122j’は、音声特徴量入力部121から入力された音声特徴量から、第j’種中間特徴量を計算する(S122)。
音素中間特徴量出力部123は、S122で計算した第j’種中間特徴量を音素中間特徴量として出力する(S123)。
音素確率分布計算部130は、S120で計算した音素中間特徴量から、音素確率分布を計算する(S130)。音素確率分布計算部130は、DNNの出力層のニューラルネットワークに対応する構成部である。音素確率分布計算部130の出力層に含まれるユニットの数は、音素の数に等しい。また、第mユニットは、音声特徴量に対応する音素の音素番号がmである(音声特徴量に対応する音素が第m音素である)確率を出力するユニットになる。
なお、音素確率分布計算部130をDNN以外のニューラルネットワークを用いて構成してもよい。ただし、音素確率分布計算部130の出力はM次元ベクトルとなるように構成する。
パラメータ最適化部140は、S130で計算した音素確率分布と入力された正解音素番号を用いて、音響モデルパラメータを最適化する(S140)。具体的な最適化計算方法は、音響モデル学習装置700のパラメータ最適化部730と同様でよい。
計算した音響モデルパラメータは、種類中間特徴量計算部111、種類確率分布計算部112、第j’種中間特徴量計算部122j’(ただし、j’はS110で決定した種類番号)、音素確率分布計算部130にフィードバックされ、次の訓練データを用いた学習に利用される。
音響モデル学習装置100は、S110〜S140の処理を訓練データの数だけ繰り返し、最終的に計算された音響モデルパラメータを学習結果として出力する。
なお、種類識別部110と音素中間特徴量計算部120をまとめて中間特徴量計算部105という(図2参照)。また、中間特徴量計算部を音響モデル学習装置100の一部としてではなく、独立した装置として扱う場合、中間特徴量計算装置という。中間特徴量計算装置は、音声特徴量を入力として、当該音声特徴量を抽出した音声データの種類を識別したうえで、中間特徴量を計算、出力するものとなる。
[音声認識装置200]
以下、図8〜図11を参照して音声認識装置200について説明する。図8に示すように音声認識装置200は、音声特徴量抽出部210、音声認識部220を含む。
また、音声認識装置200は、学習結果記録部290と接続している。学習結果記録部290は、音響モデル学習装置100が学習した音響モデルを記録している。なお、学習結果記録部290は、音声認識装置200に含まれる構成部としてもよい。
図10に示すように音声認識部220は、種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130、音声認識結果生成部221を含む。種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130は、音響モデル学習装置100のそれと同様の構成部である。
音声認識装置200は、認識用音声データから、認識用音声データの認識結果である音声認識結果を生成する。
音声認識装置200は、音声認識開始までに、学習結果記録部290に記録した音響モデルパラメータを音声認識部220(具体的には、種類識別部110、音素中間特徴量計算部120、音素確率分布計算部130)に設定する。
図9に従い音声認識装置200の動作について説明する。音声特徴量抽出部210は、認識用音声データから、認識用音声データの音声特徴量を抽出する(S210)。音声特徴量抽出部210は、音響モデル学習装置100の入力である音声特徴量の生成と同一条件にて音声特徴量を抽出する。
音声認識部220は、S210で抽出した音声特徴量から、認識用音声データを認識した結果である音声認識結果を生成する(S220)。図11に従い、具体的処理について説明する。種類識別部110は、S210で抽出した音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’を決定する(S110)。音素中間特徴量計算部120は、S210で抽出した音声特徴量とS110で決定した種類番号j’から、音素識別用の中間特徴量である音素中間特徴量を計算する(S120)。音素確率分布計算部130は、S120で計算した音素中間特徴量から、音素確率分布を計算する(S130)。音声認識結果生成部221は、S130で計算した音素確率分布から確率が最大となる音素を決定し、決定した音素の系列から音声認識結果を生成する(S221)。なお、音素の系列の長さは、認識用音声データから抽出された音声特徴量の数と等しくなる。
本実施形態の発明によれば、音声の種類を識別したうえで音素中間特徴量を計算する。また、音声の種類を反映して計算した音素中間特徴量を用いて、各種類の音声を認識するための音響モデルを結合したものに相当する1つの音響モデルを学習する。これにより、認識処理に必要な計算時間を抑制しつつ学習用音声データの種類にかかわらず高精度な音声認識を実現する音響モデルを学習することができる。
本実施形態の発明による音響モデルを用いて音声認識をすることにより、音響モデル学習装置700や音響モデル学習装置800による音響モデルを用いた音声認識と比較して、雑音の有無に影響を受けない高精度な音声認識が可能となる。また、音響モデル学習装置900による音響モデルを用いた音声認識と比較して、認識処理に必要な計算時間を抑制することも可能となる。
<変形例>
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音声データを分類する種類の数をJ、前記種類を識別するための番号を種類番号、音素の数をM、前記音素を識別するための番号を音素番号とし、
    音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する種類識別部と、
    前記音声特徴量と前記種類番号j’から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量を音素中間特徴量として計算する音素中間特徴量計算部と
    を含む中間特徴量計算装置であって、
    前記音素中間特徴量計算部は、1≦j≦Jを満たす各整数jについて、
    ニューラルネットワークを用いて、種類番号jの音声データから抽出された音声特徴量から、第j種中間特徴量を計算する第j種中間特徴量計算部と
    を含み、
    前記種類識別部は、
    前記音声特徴量から、種類識別用の中間特徴量である種類中間特徴量を計算する種類中間特徴量計算部と、
    前記種類中間特徴量から、種類確率分布を計算する種類確率分布計算部と、
    前記種類確率分布から、確率が最大となる種類番号を前記種類番号j’として決定する種類決定部と
    を含むことを特徴とする中間特徴量計算装置。
  2. 音声特徴量と当該音声特徴量に対応する音素を識別するための音素番号である正解音素番号から、音声認識に用いる音響モデルを学習する音響モデル学習装置であって、
    請求項1に記載の中間特徴量計算装置を用いて、前記音声特徴量から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量(ただし、j’は前記音声特徴量を抽出した音声データの種類に対応する種類番号であり、1≦j’≦Jを満たす整数)を音素中間特徴量として計算する中間特徴量計算部と、
    前記音素中間特徴量から、前記音素確率分布を計算する音素確率分布計算部と、
    前記音素確率分布と前記正解音素番号を用いて、前記音響モデルのパラメータである音響モデルパラメータを最適化するパラメータ最適化部と
    を含み、
    前記パラメータ最適化部は、前記音響モデルパラメータのうち、前記中間特徴量計算部に含まれる、前記種類番号j’に対応する第j’種中間特徴量計算部で用いられるニューラルネットワークを特徴付けるパラメータを最適化することを特徴とする音響モデル学習装置。
  3. 認識用音声データから、前記認識用音声データの音声特徴量を抽出する音声特徴量抽出部と、
    請求項2に記載の音響モデル学習装置が学習した音響モデルを用いて、前記音声特徴量から前記認識用音声データの認識結果である音声認識結果を生成する音声認識部と、
    を含む音声認識装置。
  4. 音声データを分類する種類の数をJ、前記種類を識別するための番号を種類番号、音素の数をM、前記音素を識別するための番号を音素番号とし、
    中間特徴量計算装置が、音声特徴量から、当該音声特徴量を抽出した音声データの種類に対応する種類番号j’(ただし、j’は1≦j’≦Jを満たす整数)を決定する種類識別ステップと、
    前記中間特徴量計算装置が、前記音声特徴量と前記種類番号j’から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量を音素中間特徴量として計算する音素中間特徴量計算ステップと
    を含む中間特徴量計算方法であって、
    前記音素中間特徴量計算ステップは、1≦j≦Jを満たす各整数jについて、
    ニューラルネットワークを用いて、種類番号jの音声データから抽出された音声特徴量から、第j種中間特徴量を計算する第j種中間特徴量計算ステップと
    を含み、
    前記種類識別ステップは、
    前記音声特徴量から、種類識別用の中間特徴量である種類中間特徴量を計算する種類中間特徴量計算ステップと、
    前記種類中間特徴量から、種類確率分布を計算する種類確率分布計算ステップと、
    前記種類確率分布から、確率が最大となる種類番号を前記種類番号j’として決定する種類決定ステップと
    を含むことを特徴とする中間特徴量計算方法。
  5. 音響モデル学習装置が、音声特徴量と当該音声特徴量に対応する音素を識別するための音素番号である正解音素番号から、音声認識に用いる音響モデルを学習する音響モデル学習方法であって、
    前記音響モデル学習装置が、請求項4に記載の中間特徴量計算方法を用いて、前記音声特徴量から、当該音声特徴量が対応する音素が音素番号m(1≦m≦M)の音素である確率pmの分布である音素確率分布p=(p1,…,pM)を計算するために用いる特徴量である第j’種中間特徴量(ただし、j’は前記音声特徴量を抽出した音声データの種類に対応する種類番号であり、1≦j’≦Jを満たす整数)を音素中間特徴量として計算する中間特徴量計算ステップと、
    前記音響モデル学習装置が、前記音素中間特徴量から、前記音素確率分布を計算する音素確率分布計算ステップと、
    前記音響モデル学習装置が、前記音素確率分布と前記正解音素番号を用いて、前記音響モデルのパラメータである音響モデルパラメータを最適化するパラメータ最適化ステップと
    を含み、
    前記パラメータ最適化ステップは、前記音響モデルパラメータのうち、前記中間特徴量計算ステップに含まれる、前記種類番号j’に対応する第j’種中間特徴量計算ステップで用いられるニューラルネットワークを特徴付けるパラメータを最適化することを特徴とする音響モデル学習方法。
  6. 音声認識装置が、認識用音声データから、前記認識用音声データの音声特徴量を抽出する音声特徴量抽出ステップと、
    前記音声認識装置が、請求項5に記載の音響モデル学習方法により学習した音響モデルを用いて、前記音声特徴量から前記認識用音声データの認識結果である音声認識結果を生成する音声認識ステップと、
    を含む音声認識方法。
  7. 請求項1に記載の中間特徴量計算装置としてコンピュータを機能させるためのプログラム。
JP2017021565A 2017-02-08 2017-02-08 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム Active JP6728083B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017021565A JP6728083B2 (ja) 2017-02-08 2017-02-08 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017021565A JP6728083B2 (ja) 2017-02-08 2017-02-08 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018128574A JP2018128574A (ja) 2018-08-16
JP6728083B2 true JP6728083B2 (ja) 2020-07-22

Family

ID=63173872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017021565A Active JP6728083B2 (ja) 2017-02-08 2017-02-08 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6728083B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7218803B2 (ja) * 2019-06-10 2023-02-07 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10282986A (ja) * 1997-04-04 1998-10-23 Hitachi Ltd 音声認識方法およびそのモデル設計方法
JP4026738B2 (ja) * 1999-05-31 2007-12-26 株式会社リコー パターン認識方法及び装置、並びに記録媒体
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP6506074B2 (ja) * 2015-03-30 2019-04-24 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2018128574A (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
JP3627299B2 (ja) 音声認識方法及び装置
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
Somogyi The Application of Artificial Intelligence
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
US20230069908A1 (en) Recognition apparatus, learning apparatus, methods and programs for the same
Zhang et al. One-against-all weighted dynamic time warping for language-independent and speaker-dependent speech recognition in adverse conditions
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Minh et al. The system for detecting Vietnamese mispronunciation
CN116542783A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US12125474B2 (en) Learning apparatus, estimation apparatus, methods and programs for the same
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method
CN109872721A (zh) 语音认证方法、信息处理设备以及存储介质
Bohra et al. Language Identification using Stacked Convolutional Neural Network (SCNN)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150