JP6884946B2 - Acoustic model learning device and computer program for it - Google Patents
Acoustic model learning device and computer program for it Download PDFInfo
- Publication number
- JP6884946B2 JP6884946B2 JP2016197107A JP2016197107A JP6884946B2 JP 6884946 B2 JP6884946 B2 JP 6884946B2 JP 2016197107 A JP2016197107 A JP 2016197107A JP 2016197107 A JP2016197107 A JP 2016197107A JP 6884946 B2 JP6884946 B2 JP 6884946B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- subword
- voice
- hypothesis
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims description 156
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 29
- 238000013500 data storage Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 238000013507 mapping Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 239000000047 product Substances 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000013067 intermediate product Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
この発明は音声認識技術に関し、特に、音声認識装置で用いられるCTC(Connectionist Temporal Classification)音響モデル(CTC-AM)を高精度化するための学習装置に関する。 The present invention relates to a speech recognition technique, and more particularly to a learning device for improving the accuracy of a CTC (Connectionist Temporal Classification) acoustic model (CTC-AM) used in a speech recognition device.
人間とコンピュータとのインターフェイスとして音声による入出力を用いる装置及びサービスが増えている。例えば携帯電話の操作にも音声による入出力が利用されている。音声による入出力では、その基盤をなす音声認識装置の認識精度はできるだけ高くする必要がある。 An increasing number of devices and services use voice input / output as an interface between humans and computers. For example, voice input / output is also used for operating mobile phones. For voice input / output, it is necessary to make the recognition accuracy of the voice recognition device, which is the basis of the voice input / output, as high as possible.
音声認識として一般的な技術は統計的機械学習により得られたモデルを用いる。例えば音響モデルとしてはHMM(隠れマルコフモデル)が使用されることが多い。また、音声認識の過程で生成される文字列から、音素列がどの程度の確率で得られるかを算出するための単語発音辞書、及び、ある言語の単語列がどの程度の確率で出現するかを算出するための言語モデル等も使用される。 A general technique for speech recognition uses a model obtained by statistical machine learning. For example, HMM (Hidden Markov Model) is often used as an acoustic model. In addition, a word pronunciation dictionary for calculating the probability that a phoneme string will be obtained from a character string generated in the process of speech recognition, and a word string for a certain language will appear with a probability. A language model or the like for calculating is also used.
従来のHMMを用いた音声認識装置における音声認識の基本的考え方について図1を参照して説明する。従来は、単語列30(単語列W)が様々なノイズの影響を経て観測系列36として観測されると考え、最終的な観測系列36を与える尤度が最も高くなるような単語列を音声認識の結果として出力する。この過程では、単語列Wが生成される確率をP(W)で表す。その単語列Wから、中間生成物である発音列32を経てHMMの状態系列S(状態系列34)が生成される確率をP(S|W)とする。さらに状態系列Sから観測Xが得られる確率をP(X|S)で表す。
The basic concept of speech recognition in a conventional speech recognition device using an HMM will be described with reference to FIG. Conventionally, it is considered that the word string 30 (word string W) is observed as the
音声認識の過程では、先頭から時刻Tまでの観測系列X1:Tが与えられたときに、そのような観測系列を与える尤度が最大となるような単語列が音声認識の結果として出力される。すなわち、音声認識の結果の単語列〜Wは次の式(1)により求められる。なお、数式において文字の直上に記されている記号「〜」は、明細書中では文字の直前に記載している。 In the process of speech recognition, when the observation sequence X 1: T from the beginning to the time T is given, the word string that gives the maximum likelihood of giving such an observation sequence is output as the result of speech recognition. To. That is, the word string ~ W as a result of speech recognition is obtained by the following equation (1). In the mathematical formula, the symbol "~" written immediately above the character is described immediately before the character in the specification.
この式の右辺をベイズの式により変形すると次が得られる。 The following is obtained by transforming the right side of this equation by Bayesian equation.
さらにこの式の分子の第1項はHMMにより次のように求めることができる。 Furthermore, the first term of the numerator of this formula can be obtained by HMM as follows.
この式で状態系列S1:TはHMMの状態系列S1,…,STを示す。式(3)の右辺の第1項はHMMの出力確率を示す。式(1)〜式(3)より、音声認識の結果の単語列~Wは次の式で求められる。 In this equation, the state series S 1: T indicates the state series S 1 , ..., S T of the HMM. The first term on the right side of Eq. (3) indicates the output probability of the HMM. From equations (1) to (3), the word string ~ W as a result of speech recognition can be obtained by the following equation.
HMMでは、時刻tにおける観測値xtは状態stにしか依存しない。したがって、式(4)における、HMMの出力確率P(X1:T|S1:T)は次の式によって算出できる。 In HMM, the observed value x t at time t does not depend only on the state s t. Therefore, the output probability P (X 1: T | S 1: T ) of the HMM in Eq. (4) can be calculated by the following equation.
確率P(xt|st)は、ガウス混合モデル(GMM)により算出される。 Probability P (x t | s t) is calculated by the Gaussian mixture model (GMM).
式(4)の他の項のうち、P(S1:T|W)はHMMの状態遷移確率と単語の発音確率との積により算出され、P(W)は言語モデルにより算出される。分母のP(X1:T)は各仮説について共通する値であり、したがってarg max演算の実行時には無視できる。 Of the other terms in Eq. (4), P (S 1: T | W) is calculated by the product of the state transition probability of the HMM and the pronunciation probability of the word, and P (W) is calculated by the language model. The denominator P (X 1: T ) is a common value for each hypothesis and can therefore be ignored when performing arg max operations.
最近、HMMにおける出力確率を、GMMではなくディープニューラルネットワーク(DNN)により算出するという、DNN-HMMハイブリッド方式と呼ばれるフレームワークについて研究がされている。DNN-HMMハイブリッド方式により、GMMを用いた音響モデルより高い精度が達成され、注目されている。さらに、DNN-HMMハイブリッド方式が優れた結果をもたらしていることから、DNNに替えて 畳み込みニューラルネットワーク(CNN)、リカレント型ニューラルネットワーク(RNN)、又はロングショートタームメモリネットワーク(LSTM)等のニューラルネットワーク(NN)を用いる方式が提案されている。これら方式により音声認識の精度がより高くなることが期待できる。 Recently, research has been conducted on a framework called the DNN-HMM hybrid method, in which the output probability in HMM is calculated by a deep neural network (DNN) instead of GMM. The DNN-HMM hybrid method has achieved higher accuracy than the acoustic model using GMM, and is drawing attention. In addition, because the DNN-HMM hybrid method has produced excellent results, neural networks such as convolutional neural networks (CNN), recurrent neural networks (RNN), or long short-term memory networks (LSTM) have replaced DNN. A method using (NN) has been proposed. It can be expected that the accuracy of voice recognition will be higher by these methods.
しかし、このようなNN-HMMハイブリッド方式では、NNの出力が事後確率P(St|Xt)を表すため、そのままでは、出力確率P(Xt|St)を用いるHMMを用いた従来の枠組みに適合しない。この問題を解決するため、DNNの出力する事後確率P(St|Xt)に対してベイズの法則を適用して無理に式(5)に適合するよう出力確率P(Xt|St)を用いる形にNNの出力を変形して用いる必要がある。このような変形を用いないような音声認識方式が実現できれば、さらなる精度の向上が期待できる。 However, in such an NN-HMM hybrid method, since the output of NN represents the posterior probability P (S t | X t ), the conventional HMM using the output probability P (X t | S t ) is used as it is. Does not fit the framework of. To solve this problem, apply Bayes' law to the posterior probability P (S t | X t ) output by DNN to force the output probability P (X t | S t) to fit equation (5). It is necessary to transform the output of NN into a form that uses). If a voice recognition method that does not use such deformation can be realized, further improvement in accuracy can be expected.
最近、音声認識のための音響モデルとして、End-to-End型のNNを用いることが提案されている(非特許文献1)。End-to-End型NNは、観測(音声特徴量)系列Xに対するサブワード列(発音列、発音記号列、音素列、又は文字列等)sの事後確率P(s|X)を、HMM等を介さずに直接表現する。したがって、DNN−HMMハイブリッドのような無理な変形を行うことなく音声認識に適用できる可能性がある。End-to-End型NNについては実施の形態に関連して後述するが、ここでは従来の方式の問題点について述べるために、End-to-End型NNで一般に利用されるEnd-to-End型RNNによる音声認識の考え方を説明する。なお、本発明はEnd-to-End型NN全般に対して適用可能なものであり、必ずしもRNNに限定されるものではない。 Recently, it has been proposed to use an end-to-end type NN as an acoustic model for speech recognition (Non-Patent Document 1). The End-to-End type NN sets the posterior probability P (s | X) of the subword string (phonetic sequence, phonetic symbol string, phoneme string, character string, etc.) s for the observation (speech feature) series X to HMM, etc. Express directly without going through. Therefore, there is a possibility that it can be applied to speech recognition without performing unreasonable deformation like the DNN-HMM hybrid. The End-to-End type NN will be described later in relation to the embodiment, but here, in order to describe the problems of the conventional method, the End-to-End type NN generally used in the End-to-End type NN will be described. The concept of speech recognition by type RNN will be explained. The present invention is applicable to all End-to-End type NNs, and is not necessarily limited to RNNs.
RNNは、入力層側から出力層側への一方向のノード間の結合だけではなく、出力側の層から、隣接する入力側の層へのノード間の結合、同じ層内のノード間の結合、及び自己帰還結合等を含む構造を持つ。この構造のため、RNNは時間に依存する情報を表すことができるという、通常のフィードフォワード型のニューラルネットワークにはない性格を備えている。音声は、時間に依存する情報としては典型的である。したがってRNNは音響モデルに適していると考えられる。 RNN is not only the connection between nodes in one direction from the input layer side to the output layer side, but also the connection between nodes from the output side layer to the adjacent input side layer, and the connection between nodes in the same layer. , And a structure including self-recurrent coupling and the like. Because of this structure, RNNs have the property of being able to represent time-dependent information, which is not found in ordinary feedforward neural networks. Speech is typical of time-dependent information. Therefore, RNN is considered to be suitable for acoustic models.
End-to-End型RNNの出力するラベルは、例えば音素又は音節等の任意のサブワード、文字又はHMMの状態等である。End-to-End型RNNを音響モデルに使用すると、HMMを用いた場合と比較して、NNの出力を無理に変形する必要がないので、認識精度の向上が期待できる。 The label output by the End-to-End type RNN is, for example, an arbitrary subword such as a phoneme or a syllable, a character, or the state of an HMM. When the End-to-End type RNN is used for the acoustic model, it is not necessary to forcibly deform the output of the NN compared to the case where the HMM is used, so improvement in recognition accuracy can be expected.
End-to-End型RNNは、前述したとおり、入力される観測系列Xからサブワード列sへの直接的なマッピングを学習する。End-to-End型RNNの代表例はCTCと呼ばれるモデルである。観測系列Xは通常サブワード列sよりも遥かに長いので、CTCではその長さの相違を吸収するためにRNNの出力に空ラベルφを追加する。すなわち、出力層に空ラベルφに対応するノードを設ける。この結果、RNNの出力にはフレーム単位のサブワード列c={c1,...,cT}(空ラベルφを含む。)が得られる。このサブワード列cをマッピング関数Φと呼ばれる関数によりフレーム数に依存しないサブワード列sに変換する。マッピング関数Φは、フレーム単位のサブワード列cから空ラベルφを削除し、さらにラベルの繰返しを1出力とみなすことでフレーム数に依存しないサブワード列sを出力する。マッピング関数Φを用いることで、以下のように観測系列Xがサブワード列sである確率P(s|X)を定式化できる。 As described above, the End-to-End type RNN learns the direct mapping from the input observation sequence X to the subword sequence s. A typical example of an End-to-End type RNN is a model called CTC. Since the observation sequence X is usually much longer than the subword sequence s, CTC adds an empty label φ to the output of the RNN to absorb the difference in length. That is, a node corresponding to the empty label φ is provided in the output layer. As a result, the subword string c = {c 1 , ..., c T } (including the empty label φ) for each frame is obtained in the output of the RNN. This subword string c is converted into a subword string s that does not depend on the number of frames by a function called a mapping function Φ. The mapping function Φ deletes the empty label φ from the subword string c in frame units, and outputs the subword string s that does not depend on the number of frames by regarding the repetition of the label as one output. By using the mapping function Φ, the probability P (s | X) in which the observation sequence X is the subword sequence s can be formulated as follows.
ここで、yt ctは、時刻tにおけるRNNの出力ラベルctに対する出力スコアである。Φ−1はマッピング関数Φの逆関数である。すなわち、Φ−1(s)は、マッピング関数Φによりサブワード列sにマッピングされ得る全ての音素列cの集合を表す。 Here, y t ct is the output score for the output label c t of the RNN at time t. Φ -1 is the inverse function of the mapping function Φ. That is, Φ -1 (s) represents a set of all phoneme sequences c that can be mapped to the subword sequence s by the mapping function Φ.
End-to-End型NNは観測系列Xがサブワード列sを表す確率P(s|X)をニューラルネットワークで直接学習している点が特徴である。CTC以外の方式として、非特許文献2ではAttention-based Recurrent Sequence Generatorと呼ばれるモデルで表現している。
The end-to-end type NN is characterized in that the probability P (s | X) that the observation sequence X represents the subword sequence s is directly learned by the neural network. As a method other than CTC,
End-to-End型NNは、HMMと異なり、観測系列Xがサブワード列sを表す確率P(s|X)を直接学習しているため、従来のHMMを用いたデコード方式を採用できない。このNNはまた、音響モデルと言語モデルとの双方の性格を持つ。そのために当初は言語モデルを用いずにNNのみを用いてデコードを行うことが試みられた。しかし、独立した言語モデルなしのデコードでは最良の結果が得られないことが判明し、最近ではEnd-to-End型NNに加えて言語モデルを用いたものが主流である。しかし、この場合には両者をどのように組み合わせるかが問題となる。さらに、End-to-End型のNNに基づく音響モデルは、通常はサブワード単位(文字、音素等)での学習が行われるため、出力されるスコアもサブワード単位である。言語モデルのスコアは単語レベルであるため、この点でも両者を組み合わせることが難しいという問題がある。 Unlike the HMM, the End-to-End type NN directly learns the probability P (s | X) that the observation sequence X represents the subword sequence s, so that the conventional decoding method using the HMM cannot be adopted. This NN also has the character of both an acoustic model and a language model. Therefore, at first, it was attempted to perform decoding using only NN without using the language model. However, it has been found that the best results cannot be obtained by decoding without an independent language model, and recently, the one using a language model in addition to the End-to-End type NN is the mainstream. However, in this case, the problem is how to combine the two. Furthermore, since the acoustic model based on the End-to-End type NN is usually learned in subword units (characters, phonemes, etc.), the output score is also in subword units. Since the score of the language model is at the word level, there is a problem that it is difficult to combine the two in this respect as well.
従来は、両者のスコアを組み合わせる手法として、次式に示すような両スコアの単純な内挿により単語列〜Wを計算していた。 Conventionally, as a method of combining both scores, the word string to W has been calculated by simple interpolation of both scores as shown in the following equation.
関数Ψは、単語列Wを全ての可能なサブワード列sの集合に変換する関数である。非特許文献1では、各フレームにおいて事後確率を事前確率P(ct)で除算することを提案している。
The function Ψ is a function that transforms the word string W into a set of all possible subword strings s.
しかし、このような内挿方式で計算したスコアを利用することには理論的根拠がなく、十分に高い認識性能も得られていない。NNを用いた音響モデルにおいて、明確な理論的根拠に基づいてNNを学習することにより、音声認識の精度をさらに高める必要がある。 However, there is no rationale for using the score calculated by such an interpolation method, and sufficiently high recognition performance has not been obtained. In an acoustic model using NN, it is necessary to further improve the accuracy of speech recognition by learning NN based on a clear rationale.
それ故に本発明の目的は、NNの特性を活かした音響モデルにおいて、音声認識精度を高めることができる音響モデルの学習装置を提供することである。 Therefore, an object of the present invention is to provide an acoustic model learning device capable of improving speech recognition accuracy in an acoustic model utilizing the characteristics of NN.
本発明の第1の実施の形態に係る音響モデルの学習装置は、音声の観測系列が与えられたときに、当該観測系列が任意のサブワード列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルの学習を行う。この音響モデルの学習装置は、学習音声の観測系列と、当該学習音声に対応する正解サブワード列との、アライメント済の組からなる学習データ、及び、単語列の出現頻度を記憶した単語モデルを記憶する、コンピュータ読取り可能な記憶手段に接続して用いられる。この学習装置は、学習音声の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の学習データの全体に亘る和が最大となるようにEnd-to-End型ニューラルネットワークを最適化する第1の最適化手段と、評価用データの観測系列が与えられたときに、End-to-End型ニューラルネットワークと言語モデルとを用いて推定した単語列の仮説の精度の期待値が最大となるように、End-to-End型ニューラルネットワークをさらに最適化する第2の最適化手段とを含む。
好ましくは、第2の最適化手段は、学習音声の全体に亘り、End-to-End型ニューラルネットワーク及び言語モデルを用いて、観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、学習音声の全体に亘り、当該仮説及び学習データの正解サブワード列に基づいて、仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、学習音声の全体に亘り、仮説生成の際の言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、期待値を算出する第2の算出手段と、第2の算出手段により算出される期待値が増加するように、音響モデルのパラメータセットを更新する更新手段と、更新手段による音響モデルのパラメータセットの更新が終了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、判定手段による判定に応答して、End-to-End型ニューラルネットワークの学習を終了する第1の処理と、学習音声を用いた仮説の生成処理、認識精度の算出、期待値の算出、パラメータセットの更新、及び判定処理を再度行うよう、音声認識手段、第1の算出手段、第2の算出手段、更新手段、及び判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む。
より好ましくは、観測系列は学習音声を表す音声信号のフレーム単位で準備されており、第1の算出手段は、End-to-End型ニューラルネットワークの出力する仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む。
さらに好ましくは、判定手段は、音声認識手段による学習音声全体に亘る仮説の生成処理、第1の算出手段による認識精度の算出処理、及び、第2の算出手段による和の算出処理が、予め定められた回数だけ行われたときに、終了条件が充足されたと判定する手段を含む。
判定手段は、End-to-End型ニューラルネットワークを規定するパラメータセットの前回の処理時との差がしきい値以下となったことに応答して、終了条件が充足されたと判定する手段を含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、上記したいずれかの音響モデルの学習装置の各手段としてコンピュータを動作させるよう機能する。
The acoustic model learning device according to the first embodiment of the present invention is used to calculate the probability that the observation sequence is an arbitrary subword string when a speech observation sequence is given. Learn the acoustic model based on the End type neural network. The learning device of this acoustic model stores the learning data consisting of an aligned pair of the observation sequence of the learning voice and the correct subword string corresponding to the learning voice, and the word model that stores the frequency of appearance of the word string. It is used by connecting to a computer-readable storage means. This learning device optimizes the End-to-End type neural network so that the sum of the posterior probability of the correct subword sequence of the training data is maximized when the observation sequence of the learning voice is given. Given the first optimization means to be converted and the observation sequence of the evaluation data, the expected value of the accuracy of the word string hypothesis estimated using the End-to-End type neural network and the language model is It includes a second optimization means that further optimizes the End-to-End type neural network so as to be maximized.
Preferably, the second optimization means generates a word sequence hypothesis by performing speech recognition on the observation sequence using an end-to-end type neural network and a language model over the entire learning speech. The speech recognition means to be performed, the first calculation means for calculating the recognition accuracy for the word string constituting the hypothesis based on the correct answer subword string of the hypothesis and the learning data, and the whole learning speech. A second calculation means for calculating the expected value by calculating the sum of the products of the posterior probability of the hypothesis calculated by the language model at the time of hypothesis generation and the recognition accuracy of the word strings constituting the hypothesis. In response to the update means for updating the parameter set of the acoustic model and the completion of the update of the parameter set for the acoustic model by the update means so that the expected value calculated by the second calculation means increases. Judgment means for executing the judgment process regarding whether or not the end condition is satisfied, the first process for ending the learning of the end-to-end type neural network in response to the judgment by the judgment means, and the learning voice. Speech recognition means, first calculation means, second calculation means, update means, and so as to perform the hypothesis generation process, recognition accuracy calculation, expected value calculation, parameter set update, and determination process again. It includes a second process for controlling the determination means and a control means for selectively executing the second process.
More preferably, the observation sequence is prepared for each frame of the voice signal representing the learning voice, and the first calculation means is input by each subword of the hypothetical word string output by the end-to-end type neural network. It includes a subword match number calculation means for calculating the number of matches for each subword of the subword sequence paired with the observed observation sequence in frame units.
More preferably, the determination means is predetermined by the speech recognition means for generating a hypothesis over the entire learning voice, the first calculation means for calculating the recognition accuracy, and the second calculation means for calculating the sum. It includes means for determining that the termination condition is satisfied when it is performed the number of times.
The determination means includes means for determining that the end condition is satisfied in response to the difference between the parameter set defining the End-to-End type neural network and the time of the previous processing being equal to or less than the threshold value. It may be.
The computer program according to the second aspect of the present invention functions to operate the computer as each means of the learning device of any of the acoustic models described above.
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。 In the following description and drawings, the same parts are given the same reference numbers. Therefore, detailed explanations about them will not be repeated.
最初に、従来の技術で使用されていたDNNとRNNとの相違について説明する。図2を参照して、DNN70は、入力層72及び出力層78と、入力層72と出力層78との間に設けられた複数の隠れ層74及び76とを含む。この例では隠れ層は2層のみ示したが、隠れ層の数は2には限定されない。各層は複数個のノードを持つ。図2では各層におけるノード数はいずれも5個で同じであるが、これらの数は通常は様々である。隣り合うノード間は互いに結合されている。ただし、データは入力層側から出力層側へと一方向にしか流れない。各結合には重み及びバイアスが割り当てられている。これら重み及びバイアスは、学習データを用いた誤差逆伝搬法により学習データから学習される。
First, the differences between DNNs and RNNs used in conventional techniques will be explained. With reference to FIG. 2, the DNN 70 includes an
DNN70においては、時刻tにおいて入力層72に時刻tにおける音声特徴量Xtが与えられると、出力層78からHMMの状態予測値Stが出力される。音響モデルの場合、出力層78のノード数は、対象となる言語の音素の数と一致するよう設計されることが多く、その場合には、出力層の各ノードの出力は、入力された音声特徴量がそのノードの表す音素である確率を示す。したがって、出力層78の各ノードの出力する状態予測値を合計すると1になる。
In the DNN 70, when the
図2に示すDNNにより求められるものは、P(St|Xt)である。すなわち、時刻tに音声特徴量Xtを観測したときの、HMMの状態Stの確率である。この例では、HMMの状態Stは音素に対応する。これを前記した式(5)と比較すると、DNNの場合、その出力をそのまま式(5)に適用(代入)できないことが分かる。そのため、従来は、以下に示すようにベイズの法則を用いてDNNの出力をP(Xt|St)に変換している。 What is obtained by the DNN shown in FIG. 2 is P (S t | X t ). That is, it is the probability of the state S t of the HMM when the voice feature X t is observed at time t. In this example, state S t of the HMM correspond to phonemes. Comparing this with the above equation (5), it can be seen that in the case of DNN, the output cannot be directly applied (assigned) to the equation (5). Therefore, conventionally, the output of DNN is converted to P (X t | St) using Bayes' law as shown below.
式(10)において、P(xt)は各HMMの状態に共通であり、したがってarg max演算では無視できる。P(st)はアライメントされた学習データにおいて各状態の数を数えることで推定できる。結局、DNN-HMMハイブリッド方式の場合、DNNの出力P(St|Xt)を確率P(St)で割ることにより、従来のHMMを用いた枠組みの中でDNNを用いて認識スコアを計算していることになる。 In equation (10), P (x t ) is common to the states of each HMM and can therefore be ignored in the arg max operation. P (s t ) can be estimated by counting the number of each state in the aligned training data. After all, in the case of the DNN-HMM hybrid method, by dividing the output P (S t | X t ) of the DNN by the probability P (S t ), the recognition score is calculated using the DNN within the framework using the conventional HMM. You are calculating.
一方、End-to-End型RNNの構成の例を図3に示す。図3は、時刻t-1におけるRNN100(t-1)と、時刻tにおけるRNN100(t)と、時刻t+1におけるRNN(t+1)の間の関係を示す。この例では、RNN100(t)の隠れ層内の各ノードは、入力層の各ノードだけではなく、RNN100(t-1)の自分自身の出力を受けている。すなわち、RNN100は入力される音声特徴量の時系列に対する出力を生成できる。さらに、End-to-End型RNNのうち、CTCでは、RNNの出力層に、ラベル(例えば音素)に対応するノードに加えて空ラベルφに対応するノード(図3においては右端に示す)を含む。すなわち出力層のノード数はラベル数+1である。
On the other hand, an example of the configuration of the End-to-End type RNN is shown in FIG. FIG. 3 shows the relationship between RNN100 (t-1) at time t-1, RNN100 (t) at time t, and RNN (t + 1) at
図3に示すようなEnd-to-End型RNNは、音声(音声特徴量)Xが発音列sである確率P(s|X)を直接モデル化する。したがってこうしたRNNを用いる音声認識はHMMには依存しない。RNNの出力は前掲の式(6)及び式(7)のように定式化される。 The End-to-End type RNN as shown in FIG. 3 directly models the probability P (s | X) in which the voice (voice feature amount) X is the pronunciation sequence s. Therefore, speech recognition using such RNN does not depend on HMM. The output of the RNN is formulated as in Eqs. (6) and (7) above.
End-to-End型RNNの特徴を活かして精度の高い音声認識を行うためには、DNN-HMMハイブリッド方式以外の枠組みを用いることが必要である。図4に、そのような新しい枠組みについて示す。本実施の形態はこの枠組に沿って音声認識を行う装置に関する。本実施の形態では、End-to-End型RNNとしてCTCを採用し、またサブワードの単位として発音系列を採用している。End-to-End型RNNの特性を活かして音声認識を行う新しい枠組みに基づいてCTCを用いたデコード方式を改良し、それにあわせてCTC自身の学習方法を改善する。 In order to take advantage of the characteristics of end-to-end RNNs and perform highly accurate speech recognition, it is necessary to use a framework other than the DNN-HMM hybrid method. Figure 4 shows such a new framework. The present embodiment relates to a device that performs voice recognition according to this framework. In this embodiment, CTC is adopted as the End-to-End type RNN, and the pronunciation sequence is adopted as the unit of the subword. Based on a new framework for voice recognition utilizing the characteristics of end-to-end RNNs, the decoding method using CTC will be improved, and the learning method of CTC itself will be improved accordingly.
図4を参照して、本実施の形態では、観測系列36からRNNを用いて空ラベルφを含むラベル列からなる複数の音素列110の確率を求める。この確率は前掲の式(7)のようにモデル化される。これら音素列110にマッピング関数Φを適用して中間生成物である複数の発音列(サブワード列)112を得る。例えばラベル列「AAφφBφCCφ」及びラベル列「φAφBBφCφ」はマッピング関数Φによりいずれもサブワード列「ABC」にマッピングされる。このマッピング関数により、観測系列Xが与えられたときの発音列sの確率は前掲の式(6)のようにモデル化される。ここでさらに発音列(サブワード列)112から得られる複数の単語列30の確率を求める。この確率はP(W)として単語レベルの言語モデルによりモデル化される。最終的に確率が最大となる単語列30が音声認識結果として出力される。以上の関係から、以下の式によって観測系列Xに対する音声認識結果の単語列~Wが得られる。
With reference to FIG. 4, in the present embodiment, the probabilities of a plurality of phoneme strings 110 composed of a label sequence including an empty label φ are obtained from the
この式は以下のように変形・近似できる。 This equation can be transformed and approximated as follows.
式(12)において、P(s|X)はCTCによる音響モデルのスコア(事後確率)を表す。αはそのスケーリングファクタである。発音列s及び観測系列Xは式(9)の制約を満たす必要がある。式(12)の近似にはビタビ・アルゴリズムを用いる。なお、RNNの学習時には、式(12)の第2式にしたがってP(W|s)を全てのsにわたって計算するが、デコード時には第3式のように近似することが多い。 In equation (12), P (s | X) represents the score (posterior probability) of the acoustic model by CTC. α is the scaling factor. The pronunciation sequence s and the observation sequence X must satisfy the constraint of Eq. (9). The Viterbi algorithm is used for the approximation of Eq. (12). When learning the RNN, P (W | s) is calculated over all s according to the second equation of the equation (12), but when decoding, it is often approximated as in the third equation.
式(12)中で、P(W|s)は以下の式(13)により計算できる。 In equation (12), P (W | s) can be calculated by the following equation (13).
式(13)のうち、P(s)はサブワード単位の言語モデル確率であり、βはそのスケーリングファクタである。P(s)は従来の言語モデルと同様に計算できる。すなわち、Nグラム言語モデルでも、ニューラルネットワークでも実現できる。ただし、サブワード単位の言語モデルはサブワードコーパスで学習する必要がある。サブワードコーパスは、通常のテキストコーパスに対して単語をサブワードに変換する方法で容易に実現できる。 In equation (13), P (s) is the language model probability in subword units, and β is its scaling factor. P (s) can be calculated in the same way as the conventional language model. That is, it can be realized by either an N-gram language model or a neural network. However, the language model for each subword needs to be learned with the subword corpus. A subword corpus can be easily realized by converting a word into a subword with respect to a normal text corpus.
式(13)の分子の第1項、P(s|W)は単語‐サブワード変換確率を示す。単語からサブワードへの変換は、多くの場合、1対1変換(例えば単語を各文字に分解すること)である。そうした場合には、P(s|W)は1になり、式(13)は次の式(14)のように簡略化される。 The first term of the numerator in equation (13), P (s | W), indicates the word-subword conversion probability. The word-to-subword conversion is often a one-to-one conversion (eg, breaking a word into letters). In such a case, P (s | W) becomes 1, and Eq. (13) is simplified as in Eq. (14) below.
以上をまとめると、以下のようになる。式(12)のP(W|s)に式(13)の右辺を代入すると以下の式(15)が得られる。この式(15)に従って仮説のスコアを計算し、最もよいスコアの仮説を音声認識結果として選択する。 The above can be summarized as follows. Substituting the right-hand side of equation (13) into P (W | s) of equation (12) gives the following equation (15). The hypothesis score is calculated according to this equation (15), and the hypothesis with the best score is selected as the speech recognition result.
結局、RNNを用いる従来法では、式(6)〜式(9)に示されるように、RNNの出力する事後確率と言語モデル確率とを内挿して認識スコアを算出している。これに対し、本実施の形態に係る手法では、式(15)に示すように、ある仮説に関する単語‐サブワード変換確率P(s|W)、従来と同様の単語レベルの言語モデルから得られる単語言語モデルスコアP(W)、及びRNNの出力するサブワード事後確率P(s|X)αの積を、サブワードレベルの言語モデルから得られる確率P(s)βで割ることにより仮説のスコアを算出する。各仮説についてこのスコアを算出し、最もよいスコアが得られる仮説を音声認識結果として選択する。RNNの出力する事後確率を最大化するという意味で、この方式をmaximum a posteriori(MAP)方式デコーディングと呼ぶ。 After all, in the conventional method using RNN, the recognition score is calculated by interpolating the posterior probability output by RNN and the language model probability as shown in equations (6) to (9). On the other hand, in the method according to the present embodiment, as shown in Eq. (15), the word-subword conversion probability P (s | W) related to a certain hypothesis, the word obtained from the same word-level language model as before. The hypothetical score is calculated by dividing the product of the language model score P (W) and the subword posterior probability P (s | X) α output by the RNN by the probability P (s) β obtained from the language model at the subword level. To do. This score is calculated for each hypothesis, and the hypothesis that gives the best score is selected as the speech recognition result. This method is called maximum a posteriori (MAP) method decoding in the sense that it maximizes the posterior probability output by the RNN.
なお、上記式におけるCTC-AMの学習においては、以下の式により表される目標関数FCTC(θ)(θはCTC-AMを構成する各ノードの入出力の重み行列及びバイアス値を含むパラメータセット)を最大化するようなパラメータセットθを求める。 In the learning of CTC-AM in the above equation, the target function F CTC (θ) (θ is a parameter including the input / output weight matrix and bias value of each node constituting CTC-AM) expressed by the following equation. Find the parameter set θ that maximizes the set).
ところで、MAP方式デコーディングに関してこのFCTCを最大化するということは、CTC-AMそれ自体を最適化しているということができる。しかし、実際にはCTC-AMを言語モデルと組み合わせて音声をデコードするので、CTC-AMを最適化したからといって単語認識率が最大化するとは限らない。そこで、本実施の形態では、FCTCを最大化する学習を行った後、さらに以下の式により示される目標関数FMBRを最大化するようにCTC-AMの学習を行う。 By the way, maximizing this F CTC with respect to MAP method decoding can be said to be optimizing CTC-AM itself. However, in reality, CTC-AM is combined with a language model to decode speech, so optimizing CTC-AM does not necessarily maximize the word recognition rate. Therefore, in the present embodiment, after learning to maximize F CTC , CTC-AM is further learned to maximize the target function FM BR represented by the following equation.
FMBRをyt t(c)で微分することにより次式(21)を得る。
この結果、最終層のsoftmax層の活性化関数値au t(c)に関する誤差信号は以下のように計算される。
図5を参照して、本実施の形態に係る方法により学習したCTC-AMを用いる音声認識装置280について説明する。音声認識装置280は、入力音声282に対する音声認識を行って、音声認識テキスト284として出力する機能を持つ。音声認識装置280は、入力音声282に対してアナログ/デジタル(A/D)変換を行ってデジタル信号として出力するA/D変換回路300と、A/D変換回路300の出力するデジタル化された音声データを、所定長及び所定シフト量で一部重複するようなウィンドウを用いてフレーム化するフレーム化処理部302と、フレーム化処理部302の出力する各フレームに対して所定の信号処理を行うことにより、そのフレームの音声特徴量を抽出し特徴量ベクトルを出力する特徴量抽出部304とを含む。各フレーム及び特徴量ベクトルには、入力音声282の例えば先頭に対する相対時刻等の情報が付されている。音声特徴量としては、MFCC(Mel-Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)、その一次微分、二次微分、及びパワー等が用いられるが、フィルタバンクの出力をそのまま特徴量として用いても良い。時系列で得られる特徴量ベクトルにより観測系列が構成される。
A
音声認識装置280はさらに、特徴量抽出部304が出力する特徴量ベクトルを一時記憶するための特徴量記憶部306と、特徴量記憶部306に記憶された特徴量ベクトルを入力として、各時刻における各フレームがある音素に対応する事後確率を音素ごとに示すベクトルを出力する、CTCに基づくEnd-to-End型RNN(CTC-AM)からなる音響モデル308と、音響モデル308の出力するベクトルを用いて、入力音声282に対応する音声認識テキスト284として最もスコア(確率)の高い単語列を出力するためのデコーダ310とを含む。音響モデル308が出力するベクトルの要素は、そのフレームが各音素である確率を音素ごとに示す値である。時系列で得られるこのベクトルから、フレームごとに各音素を選択して事後確率付で連結し、各音素を対応するラベルで表すことにより、ラベル列候補がラティス形式で得られる。このラベル列候補には空ラベルφも含まれることがある。各ラベル列候補の事後確率は、そのラベル列候補を構成するラティスの各パス上の音素の事後確率から算出できる。
Further, the
デコーダ310は、音響モデルにより算出されたラベル列候補の事後確率を用いて、入力された観測系列が表しうる複数の仮説を、それらの確率とともに算出して認識スコア付の仮説として出力し、認識スコアに基づき、最もスコア(確率)の高い仮説を音声認識テキスト284として出力する。
The
本実施の形態に係る音響モデル308を構成するRNNの入力層のノードの数は、入力ベクトル(観測ベクトル)の要素の数と一致する。RNNの出力層のノードの数は、対象となる言語のサブワードの数に1を加算したものと一致する。すなわち、出力層のノードは、HMMによる音響モデルの各サブワード(例えば音素)と、空ラベルφとを表す。出力層の各ノードには、ある時刻で入力された音声が、そのノードの表すサブワード(空ラベルを含む)である確率が出力される。したがって音響モデル308の出力は、その時刻での入力音声が、各ノードの表すサブワードである確率を要素とするベクトルである。このベクトルの要素の値を合計すると1になる。
The number of nodes in the input layer of the RNN constituting the
デコーダ310は、音響モデル308が出力するベクトルの各要素について、単語列Wの候補の確率計算をし、確率の低い枝については適宜枝刈りを行いながらラティスを生成して、仮説と確率計算を含めた認識スコアの計算をする。デコーダ310が、最終的に得られる単語列の中で最も認識スコアが高い(生起確率の高い)単語列を音声認識テキスト284として出力する。この際、デコーダ310は音響モデル308の出力を直接使いながら認識スコアを計算する。従来のDNN-HMMフレームワークのようにHMMの出力形式にあわせてRNNの出力を変換することが不要であり、認識の効率を高めることができる。また、End-to-End型RNNから得られた事後確率P(s|X)と、確率P(W|s)とを組み合わせて単語事後確率P(W|X)を算出することで、単語事後確率P(W|X)が最大となる仮説を探索する。End-to-end型RNNを用いる従来の方式のように理論的根拠のない内挿スコアを用いるものと異なり、理論的にも認識の精度を高めることが可能となる。またCTC-AMの学習方法として前述したように言語モデルと組み合わせて音声認識を行ったときに最も誤差が少なくなるように(FMBRが最大となるように)パラメータセットを最適化する方法を採用している。したがって、FCTCを最大化するような方式と比較して、最終的な認識精度をさらに高めることができる。
The
図6を参照して、本発明に係るCTC-AM364の学習を行うための学習システム350 について説明する。学習システム350は、CTC-AM364の学習のためのデータを記憶する学習データ記憶部360と、学習データ記憶部360に記憶された学習データを用い、学習音声の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の、学習データの全体に亘る和である式(16)に示すFCTCを最大化するようにCTC-AM364の学習(最適化)を行うための学習処理部362と、学習処理部362による学習が済んだCTC-AM364に対し、学習データ記憶部360に記憶された学習データを用い、学習音声の観測系列が与えられたときに、CTC-AM364と言語モデルとを用いて推定した単語列の仮説の事後確率と、当該単語列の仮説を構成する単語の認識精度との積の、学習データ全体に亘る和からなる単語の認識精度の期待値である式(18)に示したFMBRを最大化することにより、CTC-AM364をさらに最適化するよう、上記したMBR学習を行うためのMBR学習処理部366と、MBR学習処理部366がCTC-AM364による学習を行う際に参照する単語言語モデル368、音素言語モデル370、及び単語発音辞書372とを含む。
A
学習システム350はさらに、CTC-AM364による音声認識による仮説の精度を評価するための評価データを記憶する評価データ記憶部376と、MBR学習処理部366によるCTC-AM364の学習処理が1回終了するごとに、評価データ記憶部376に記憶された評価データ、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて、CTC-AM364を用いて音声認識を行い、その仮説に基づいて、仮説を構成する単語に対する認識精度と、仮説生成の際の言語モデルにより算出された仮説の事後確率とを算出し、さらに学習音声全体に亘る、当該仮説を構成する単語の認識精度との積の和を算出することにより音声認識精度の期待値である目標関数FMBRの値を評価するための精度評価部374と、精度評価部374により評価された精度の期待値に基づいて、MBR学習処理部366によるMBR学習の終了条件が充足されたか否かを判定し、その結果にしたがってMBR学習処理部366を制御するための学習・評価制御部378とを含む。
Further, the
図7に、学習システム350によるCTC-AM364の学習を実現するプログラムの制御構造をフローチャート形式で示す。図7を参照して、このプログラムは、式(17)に基づいて、学習データ記憶部360に記憶された学習データを用いてFCTCの値を最大化するように(FCTCの値が増加するように)CTC-AM364のパラメータセットを更新することによる学習を行うステップ400と、ステップ400で学習が終了したCTC-AM364の精度を評価するステップ402と、MBR学習の終了判定のために、直前に評価されたCTC-AM364の精度を図示しないメモリ等の記憶装置に記憶するステップ404と、CTC-AM364に対して式(18)に示す目標関数FMBRの値を最大化するよう(FMBRの値が増加するよう)、CTC-AM364のパラメータセットを更新することによりMBR学習を行うステップ406と、評価データを用いて、ステップ406によりMBR学習が終了したCTC-AM364の精度を評価するステップ408と、ステップ408で得られた評価結果をステップ404で記憶された前回の評価値と比較し、その差が所定のしきい値以下か否かに応答してCTC-AM364の学習を終了する処理と、制御をステップ404に戻してMBR学習を繰り返す処理とを選択的に実行するステップ410とを含む。すなわち、本実施の形態では、MBR学習の結果得られたCTC-AM364による音声認識精度が、前回の音声認識精度からわずかしか向上しなかったときに学習を終了する。もちろん学習の終了条件はこれに限らない。例えば所定回数だけMBR学習が終了した時点で学習を終了させるようにしても良い。
FIG. 7 shows a control structure of a program that realizes learning of CTC-AM364 by the
図8に、図6のステップ400で実行されるCTC-AMの初期化を行うプログラムの制御構造をフローチャート形式で示す。図8を参照して、このプログラムは、CTC-AM364を初期化するステップ440を含む。このステップでは、例えばCTC-AM364の各パラメータを、正規分布に従った乱数で初期化する。
FIG. 8 shows the control structure of the program for initializing the CTC-AM executed in
学習データは、複数のバッチに分割されている。以下の処理では、バッチごとにCTC-AM364の学習を行う。すなわち、このプログラムはさらに、全てのバッチについて、処理443を実行するステップ442と、ステップ442が終了した後に、学習後のCTC-AM364の評価を行うステップ448と、ステップ448での評価結果が終了条件を充足しているか否かを判定するステップ450とを含む。ステップ450での判定が肯定ならこのプログラムの実行は終了する。さもなければ制御はステップ442に戻る。
The training data is divided into a plurality of batches. In the following processing, learning of CTC-AM364 is performed for each batch. That is, this program further completes
処理443は、バッチ内の各文について処理446を実行するステップ444を含む。
処理446は、まずCTC-AM364を用いる音声認識装置にその文の音声データを入力して音素列を推定するステップ460と、ステップ460で推定された音素列と学習音声に付された音素ラベル列とを比較して誤差を算出するステップ462と、ステップ462で算出された誤差を用いて、式(18)に示す目標関数FMBRの値が大きくなるよう、誤差逆伝播方式によりCTC-AM364のパラメータセットを修正するステップ464とを含む。
The
[動作]
上記した学習システム350によるCTC-AM364の学習は以下のように行われる。まず、学習音声とその書き起こしとの音素列である正解サブワード列を含む学習データが学習データ記憶部360に記憶される。また、同様に、音声とその書き起こしとを含む評価データが評価データ記憶部376に記憶される。単語言語モデル368、音素言語モデル370及び単語発音辞書372については、既に存在するものを用いても良いし、学習データ記憶部360から作成するようにしてもよい。学習データ記憶部360に記憶された学習データはいくつかのバッチに分割される。
[motion]
The learning of CTC-AM364 by the
まず学習処理部362が学習データ記憶部360に記憶された学習データによりCTC-AM364の学習を行う(図7のステップ400)。具体的には、図8を参照して、最初にCTC-AM364の各パラメータを、正規分布に従った乱数で初期化する。続いて、各バッチに対して以下の処理を行う(図8のステップ442)。
First, the
まず、処理中のバッチ中のある文の音声について、CTC-AM364による音声認識でその音素ラベル列の推定を行う(ステップ460)。続いて、その推定結果とその音声の書き起こしとを用いて誤差を算出する(ステップ462)。さらに、この誤差を用いて目標関数FCTCの値が大きくなるようにCTC-AM364のパラメータセットを修正する(ステップ464)。 First, for the voice of a certain sentence in the batch being processed, the phoneme label string is estimated by voice recognition by CTC-AM364 (step 460). Subsequently, the error is calculated using the estimation result and the transcription of the voice (step 462). Further, this error is used to modify the parameter set of CTC-AM364 so that the value of the target function F CTC becomes large (step 464).
以上の処理446を、処理中のバッチ中の全ての文について実行する。あるバッチに対する処理が終わると、次のバッチに対して同じ処理を繰返す。こうして、学習データの全てのバッチについてステップ444を終了すると、ステップ448でCTC-AM364の評価を行う(これを1エポックという)。この評価は、図6に示す精度評価部374ではなく、学習処理部362が行うもので、図示しない評価データを学習処理部362によって音声認識した結果の誤差を評価データ全体にわたり総合してその精度を計算することにより得る。本実施の形態では、この精度と、前回の処理で得られた精度との差がしきい値以上であれば、再度、学習データ全体を使用してCTC-AM364に対する同じ学習処理を繰返す。精度の差がしきい値未満になったところでCTC-AM364の初期学習を終了する。
The
CTC-AM364の初期学習が終了すると、MBR学習処理部366がCTC-AM364に対するMBR学習を行う(図7のステップ406)。本実施の形態では、この学習にも学習データ記憶部360に記憶された学習データを用いる。
When the initial learning of CTC-AM364 is completed, the MBR
具体的には、図9を参照して、学習データ記憶部360に含まれる各学習音声について、処理482を実行する(ステップ480)。処理482では、CTC-AM364を音響モデルとし、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて処理対象の音声データに対する音声認識を行い、音声認識仮説からなるラティスを作成する(ステップ510)。このラティス内で、前述した式(19)にしたがって誤差計算を行う(ステップ512)。この誤差を用い、CTC-AM364に対し、目標関数FMBRの値が大きくなるようにCTC-AM364のパラメータセットを誤差逆伝播法により修正する(ステップ514)。この処理を全ての音声データに対して実行する(これも、学習処理部362による処理と同様、1エポックという。)。1エポックが終了すると、ステップ484でCTC-AM364の精度の評価を行う。この評価は図6の精度評価部374が評価データ記憶部376に記憶された評価データと、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて行う。CTC-AM364の評価自体は学習処理部362が行うものと同様である。
Specifically, with reference to FIG. 9, processing 482 is executed for each learning voice included in the learning data storage unit 360 (step 480). In the
続いてステップ486でMBR学習の終了条件が充足されているか否かが(図6の学習・評価制御部378により)判定される。具体的には、ステップ484で評価された精度と、前回の精度との差がしきい値未満か否かがステップ486において判定される。判定が肯定であればCTC-AM364に対するMBR学習は終了である。判定が否定であれば、すなわち今回の精度と前回の精度との差がしきい値以上であれば、制御はステップ480に戻り、もう一度、学習データ全体を用いてMBR学習処理部366によるMBR学習がCTC-AM364に対して実行される。
Subsequently, in
このようにして学習が終わったCTC-AM364を用いて音声認識を行う場合には、図5の音響モデル308にこのCTC-AM364を用いるようにすればよい。
When voice recognition is performed using the CTC-AM364 that has been learned in this way, the CTC-AM364 may be used for the
[実験結果]
図10及び図11に、上記した本発明の一実施例による音声認識精度と、従来の内挿方式による音声認識精度との、MRB学習の繰返しに伴う変化に関する実験結果を示す。
[Experimental result]
10 and 11 show the experimental results regarding the changes in the speech recognition accuracy according to the above-described embodiment of the present invention and the speech recognition accuracy according to the conventional interpolation method with the repetition of MRB learning.
実験では、学習コーパスとしてLDC93S6B及びLDC94S13として知られるウォール・ストリート・ジャーナル(WSJ)コーパスを用いた。学習音声は77.5時間分、検証データは3.8時間分であった。CTC-AMとしては、音素に基づく双方向LSTM(BLSTM)からなる、4層の隠れ層を持つものを用いた。各隠れ層は320ノードを持ち、平均及び分散がともに正規化された120次元のフィルタバンク特徴量(40次元のフィルタバンク特徴量+Δ+ΔΔ)により学習した。初期学習は学習率=0.00004及びモーメンタムパラメータ=0.95で行った。CTC-BLSTM-AMの学習後、この音響モデルに基づいてラティスを生成した。このとき、学習データ内の書き起こしデータを用いてスケーリングファクタα=1で学習した1グラム単語言語モデルを用いた。また、MAP方式によるラティスを生成する際には、学習音声の書き起こしを音素に変換したものにより学習したバイグラム音素言語モデルを、β=0.5として用いた(式(13)(14)(15)参照)。MBR学習は学習率=0.000001及びモーメンタムパラメータ=0.9に固定して5エポック行った。 In the experiment, the Wall Street Journal (WSJ) corpus known as LDC93S6B and LDC94S13 was used as the learning corpus. The learning voice was for 77.5 hours, and the verification data was for 3.8 hours. As the CTC-AM, a phoneme-based bidirectional LSTM (BLSTM) having four hidden layers was used. Each hidden layer had 320 nodes and was trained by 120-dimensional filter bank features (40-dimensional filter bank features + Δ + ΔΔ) in which both the mean and the variance were normalized. The initial learning was performed with a learning rate of 0.00004 and a momentum parameter of 0.95. After training CTC-BLSTM-AM, a lattice was generated based on this acoustic model. At this time, a 1-gram word language model trained with a scaling factor α = 1 using the transcribed data in the training data was used. In addition, when generating the lattice by the MAP method, the bigram phoneme language model learned by converting the transcription of the learned speech into phonemes was used with β = 0.5 (Equations (13) (14) (15). reference). MBR learning was performed with 5 epochs fixed at a learning rate of 0.000001 and a momentum parameter of 0.9.
評価では、単語言語モデルとしてはWSJ標準のプルーンドトライグラム言語モデル(pruned trigram LM)を用いた。MAP方式によるデコーディングにおいては、バイグラム音素言語モデルを用いた。デコード時、パラメータ(スケーリングファクタα及びβ、並びに単語挿入ペナルティ)はWSJコーパス中の「dev93」セットにより調整し、最もよいパラメータをWSJコーパス中の「eval92」セットのデコードに用いた。 In the evaluation, the WSJ standard pruned trigram language model (pruned trigram LM) was used as the word language model. In decoding by the MAP method, a bigram phoneme language model was used. At the time of decoding, the parameters (scaling factors α and β, as well as the word insertion penalty) were adjusted by the “dev93” set in the WSJ corpus, and the best parameters were used to decode the “eval92” set in the WSJ corpus.
図10及び図11において、横軸はMBR学習の繰返し回数を示し、縦軸は各繰返し終了時のCTC-AMによる音声認識結果の単語誤り率(WER)を示す。図10はdev93に対するものであり、図11はeval92に対するものである。 In FIGS. 10 and 11, the horizontal axis shows the number of repetitions of MBR learning, and the vertical axis shows the word error rate (WER) of the speech recognition result by CTC-AM at the end of each repetition. FIG. 10 is for dev93 and FIG. 11 is for eval92.
図10において、グラフ530は従来の内挿方式によるグラフであり、グラフ532は上記実施の形態によるものである。同様に、図11において、グラフ540は従来の内挿方式によるものであり、グラフ542は上記実施の形態によるものである。
In FIG. 10,
図10及び図11において、MBR繰返し回数=0でのMAP方式の精度は、FCTCによる学習のみ行ったCTC-AMによる精度を表す。この時点でMAP方式によるCTCの単語誤り率(7.5%)が内挿方式のもの(8.5%)と比較してかなり低いことが分かる。MBR学習を行うと、両者とも単語誤り率は改善されていく。しかしこの場合も、一貫してMAP方式の単語誤り率が内挿方式の単語誤り率より低いという結果となった。 In FIGS. 10 and 11, the accuracy of the MAP method when the number of MBR repetitions = 0 represents the accuracy of CTC-AM obtained only by learning by F CTC. At this point, it can be seen that the word error rate (7.5%) of CTC by the MAP method is considerably lower than that of the interpolation method (8.5%). MBR learning improves the word error rate in both cases. However, in this case as well, the result was that the word error rate of the MAP method was consistently lower than the word error rate of the interpolation method.
すなわち、内挿方式のものよりも式(15)に従った方式の方の精度が高いこと、さらにそのCTC-AMに対してMBR学習を行うことによりCTC-AMの精度はさらに高くなること、が確認できた。 That is, the accuracy of the method according to equation (15) is higher than that of the interpolation method, and the accuracy of CTC-AM is further increased by performing MBR learning for the CTC-AM. Was confirmed.
[コンピュータによる実現]
本発明の実施の形態に係る音声認識装置280及び学習システム350は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図12はこのコンピュータシステム630の外観を示し、図13はコンピュータシステム630の内部構成を示す。
[Realization by computer]
The
図12を参照して、このコンピュータシステム630は、メモリポート652及びDVD(Digital Versatile Disk)ドライブ650を有するコンピュータ640と、キーボード646と、マウス648と、モニタ642とを含む。
With reference to FIG. 12, the
図13を参照して、コンピュータ640は、メモリポート652及びDVDドライブ650に加えて、CPU(中央処理装置)656と、CPU656、メモリポート652及びDVDドライブ650に接続されたバス666と、ブートプログラム等を記憶する読出専用メモリ(ROM)658と、バス666に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)660と、ハードディスク654を含む。コンピュータシステム630はさらに、他端末との通信を可能とするネットワーク668への接続を提供するネットワークインターフェイス(I/F)644を含む。
With reference to FIG. 13, the
コンピュータシステム630を上記した実施の形態に係る音声認識装置280及び学習システム350の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ650又はメモリポート652に装着されるDVD662又はリムーバブルメモリ664に記憶され、さらにハードディスク654に転送される。又は、プログラムはネットワーク668を通じてコンピュータ640に送信されハードディスク654に記憶されてもよい。プログラムは実行の際にRAM660にロードされる。DVD662から、リムーバブルメモリ664から又はネットワーク668を介して、直接にRAM660にプログラムをロードしてもよい。
The computer program for making the
このプログラムは、コンピュータ640を、上記実施の形態に係る音声認識装置280及び学習システム350の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ640にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ640上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ640にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
This program includes an instruction sequence including a plurality of instructions for causing the
上記実施の形態では、CTC-AMの学習では目標関数を最大化するような学習を行っている。しかし本発明はそのような実施の形態には限定されない。例えば、そのような目標関数ではなく、損失関数を定め、その損失関数の値を最大化するような学習を行っても良い。 In the above embodiment, in the learning of CTC-AM, learning that maximizes the objective function is performed. However, the present invention is not limited to such embodiments. For example, instead of such an objective function, a loss function may be determined and learning may be performed to maximize the value of the loss function.
また上記実験では、CTC-AMとして、LSTMを構成要素とするものを用いた。しかし、当業者には明らかであるように、CTC-AMはLSTMを用いるものには限定されない。例えばRNN全般に対象を広げても良いし、CNNを用いるようにしてもよい。また上記実施の形態では、学習処理部362による学習及び精度評価部374による学習の双方において、学習後のCTC-AMの精度と学習前の精度との差が所定の値未満になることを終了条件としている。しかし本発明はそのような実施の形態には限定されない。例えば上記した学習のいずれか又は双方において、繰返し回数を固定した値とし、学習の繰返し回数がその値に達したら学習を終了するようにすることも可能である。
In the above experiment, a CTC-AM having LSTM as a component was used. However, as will be apparent to those skilled in the art, CTC-AM is not limited to those using LSTM. For example, the target may be expanded to RNN in general, or CNN may be used. Further, in the above embodiment, in both the learning by the
さらに、上記実施の形態では、単語列Wの精度を表す尺度として式(19)により表される値を使用している。しかし本発明はそのような実施の形態には限定されない。例えば、評価データをCTC-AMを用いて音声認識することにより得られるラティスの各パスのうち、単語Wを通るものについて得られる確率を平均したものを単語列Wの精度を表す尺度として採用してもよい。又は、この値を、ラティスの全てのパスの確率で割ったものを用いても良い。 Further, in the above embodiment, the value represented by the equation (19) is used as a measure for expressing the accuracy of the word string W. However, the present invention is not limited to such embodiments. For example, among the lattice paths obtained by voice-recognizing the evaluation data using CTC-AM, the average of the probabilities obtained for those passing through the word W is adopted as a measure of the accuracy of the word string W. You may. Alternatively, this value may be divided by the probabilities of all Lattice passes.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiments disclosed this time are merely examples, and the present invention is not limited to the above-described embodiments. The scope of the present invention is indicated by each claim of the scope of claims, taking into consideration the description of the detailed description of the invention, and all changes within the meaning and scope equivalent to the wording described therein. Including.
30 単語列
32 発音列
34 状態系列
36 観測系列
70 DNN
100 RNN
110 音素列
112 発音列(サブワード列)
280 音声認識装置
282 入力音声
302 フレーム化処理部
304 特徴量抽出部
306 特徴量記憶部
308 音響モデル
310 デコーダ
350 学習システム
362 学習処理部
364 CTC-AM
366 MBR学習処理部
374 精度評価部
378 学習・評価制御部
630 コンピュータシステム
640 コンピュータ
654 ハードディスク
656 CPU
658 ROM
660 RAM
30
100 RNN
110
366 MBR
658 ROM
660 RAM
Claims (6)
前記音響モデルの学習装置は、学習音声の観測系列と当該学習音声に対応する正解サブワード列との、アライメント済の組からなる学習データ、及び、単語列の出現頻度を記憶した単語レベルの言語モデルを記憶する、コンピュータ読取り可能な記憶手段に接続して用いられ、
各仮説に関する、単語−サブワード変換確率、前記言語モデルから得られる言語モデルスコア、及び前記End-to-End型ニューラルネットワークにより出力されるサブワード事後確率を用いて、前記学習音声の前記観測系列が与えられたときの、前記学習データの正解サブワード列の事後確率の前記学習データの全体に亘る和が最大となるように前記End-to-End型ニューラルネットワークを最適化する第1の最適化手段と、
学習音声の観測系列が与えられたときに、前記End-to-End型ニューラルネットワークと前記言語モデルとを用いて推定した単語列の仮説の精度の期待値が最大となるように、前記第1の最適化手段により最適化された前記End-to-End型ニューラルネットワークをさらに最適化する第2の最適化手段とを含む、音響モデルの学習装置。 An acoustic model learning device that learns an acoustic model based on an end-to-end neural network to calculate the probability that the observation sequence is an arbitrary subword string when a speech observation sequence is given. There,
The learning device of the acoustic model is a word-level language model that stores learning data consisting of an aligned pair of an observation sequence of the learning voice and a correct subword string corresponding to the learning voice, and the frequency of occurrence of the word string. Used by connecting to a computer-readable storage means to store
The observation sequence of the learning voice is given by the word-subword conversion probability, the language model score obtained from the language model, and the subword posterior probability output by the End-to-End type neural network for each hypothesis. As a first optimization means for optimizing the End-to-End type neural network so that the sum of the posterior probabilities of the correct subword strings of the training data over the entire training data is maximized. ,
When the observation sequence of training speech is given, as the expected value of the accuracy of the word sequence hypothesis estimated using the previous SL End-to-End neural network and the language model is maximized, the first An acoustic model learning device including a second optimizing means for further optimizing the End-to-End type neural network optimized by the optimizing means of 1.
前記学習音声の全体に亘り、前記End-to-End型ニューラルネットワーク及び前記言語モデルを用いて、前記観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、
前記学習音声の全体に亘り、当該仮説及び前記学習データの正解サブワード列に基づいて、前記仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、
前記学習音声の全体に亘り、前記仮説生成の際の前記言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、前記期待値を算出する第2の算出手段と、
前記第2の算出手段により算出される前記期待値が増加するように、前記音響モデルのパラメータセットを更新する更新手段と、
前記更新手段による前記音響モデルのパラメータセットの更新が完了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、
前記判定手段による判定に応答して、前記End-to-End型ニューラルネットワークの学習を終了する第1の処理と、前記学習音声を用いた前記仮説の生成、前記認識精度の算出、前記期待値の算出、前記パラメータセットの更新、及び前記判定処理を再度行うよう、前記音声認識手段、前記第1の算出手段、前記第2の算出手段、前記更新手段、及び前記判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む、請求項1に記載の音響モデルの学習装置。 The second optimization means is
A speech recognition means that generates a hypothesis of a word string by performing speech recognition on the observation sequence using the End-to-End type neural network and the language model over the entire learning speech.
A first calculation means for calculating the recognition accuracy for the word string constituting the hypothesis based on the hypothesis and the correct subword string of the learning data over the entire learning voice.
The expected value is calculated by calculating the sum of the products of the posterior probability of the hypothesis calculated by the language model at the time of generating the hypothesis and the recognition accuracy of the word strings constituting the hypothesis over the entire learning voice. A second calculation method for calculating the value and
An update means for updating the parameter set of the acoustic model so that the expected value calculated by the second calculation means increases.
A determination means that executes a determination process regarding whether or not the end condition is satisfied in response to the completion of updating the parameter set of the acoustic model by the update means.
The first process of ending the learning of the End-to-End type neural network in response to the determination by the determination means, the generation of the hypothesis using the learning voice, the calculation of the recognition accuracy, and the expected value. The voice recognition means, the first calculation means, the second calculation means, the update means, and the second determination means are controlled so that the calculation, the update of the parameter set, and the determination process are performed again. The acoustic model learning device according to claim 1, further comprising a control means for selectively executing the processing of the above.
前記第1の算出手段は、前記End-to-End型ニューラルネットワークの出力する前記仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む、請求項2に記載の音響モデルの学習装置。 The observation sequence is prepared in units of voice signals representing the learning voice.
In the first calculation means, each subword of the hypothetical word string output by the End-to-End type neural network is one with each subword of the subword string paired with the input observation sequence in frame units. The acoustic model learning apparatus according to claim 2, further comprising a subword matching number calculating means for calculating the number of operations.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197107A JP6884946B2 (en) | 2016-10-05 | 2016-10-05 | Acoustic model learning device and computer program for it |
PCT/JP2017/035018 WO2018066436A1 (en) | 2016-10-05 | 2017-09-27 | Learning device for acoustic model and computer program for same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197107A JP6884946B2 (en) | 2016-10-05 | 2016-10-05 | Acoustic model learning device and computer program for it |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018060047A JP2018060047A (en) | 2018-04-12 |
JP6884946B2 true JP6884946B2 (en) | 2021-06-09 |
Family
ID=61830945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016197107A Active JP6884946B2 (en) | 2016-10-05 | 2016-10-05 | Acoustic model learning device and computer program for it |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6884946B2 (en) |
WO (1) | WO2018066436A1 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559749B (en) * | 2018-12-24 | 2021-06-18 | 思必驰科技股份有限公司 | Joint decoding method and system for voice recognition system |
CN113632165A (en) * | 2019-03-28 | 2021-11-09 | 索尼集团公司 | Information processing apparatus, information processing method, and program |
JP7192995B2 (en) * | 2019-08-08 | 2022-12-20 | 日本電信電話株式会社 | Determination device, learning device, determination method and determination program |
CN110556099B (en) * | 2019-09-12 | 2021-12-21 | 出门问问信息科技有限公司 | Command word control method and device |
US20230050795A1 (en) * | 2020-01-16 | 2023-02-16 | Nippon Telegraph And Telephone Corporation | Speech recognition apparatus, method and program |
CN111508501B (en) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | Voice recognition method and system with accent for telephone robot |
CN113223504B (en) * | 2021-04-30 | 2023-12-26 | 平安科技(深圳)有限公司 | Training method, device, equipment and storage medium of acoustic model |
CN114267337B (en) * | 2022-03-02 | 2022-07-19 | 合肥讯飞数码科技有限公司 | Voice recognition system and method for realizing forward operation |
-
2016
- 2016-10-05 JP JP2016197107A patent/JP6884946B2/en active Active
-
2017
- 2017-09-27 WO PCT/JP2017/035018 patent/WO2018066436A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018066436A1 (en) | 2018-04-12 |
JP2018060047A (en) | 2018-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (en) | Speech recognition device and computer program | |
JP6884946B2 (en) | Acoustic model learning device and computer program for it | |
CN107615376B (en) | Voice recognition device and computer program recording medium | |
US20210312914A1 (en) | Speech recognition using dialog history | |
US20120065976A1 (en) | Deep belief network for large vocabulary continuous speech recognition | |
Kuo et al. | Maximum entropy direct models for speech recognition | |
CN104681036A (en) | System and method for detecting language voice frequency | |
Dua et al. | Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling | |
JP5249967B2 (en) | Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program | |
CN112908317B (en) | Voice recognition system for cognitive impairment | |
JP2023511390A (en) | On-device end-to-end model for attention-based joint audio and text | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
JP2010139745A (en) | Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program | |
JP4861912B2 (en) | Probability calculation apparatus and computer program for incorporating knowledge sources | |
JP2019078857A (en) | Method of learning acoustic model, and computer program | |
JP2938866B1 (en) | Statistical language model generation device and speech recognition device | |
Yu | Adaptive training for large vocabulary continuous speech recognition | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
JP2008129318A (en) | Device and program for creating language model, and device and program for speech recognition | |
Siniscalchi | Combining speech attribute detection and penalized logistic regression for phoneme recognition | |
Rasipuram et al. | Probabilistic lexical modeling and unsupervised training for zero-resourced ASR | |
Ganji et al. | Exploring recurrent neural network based acoustic and linguistic modeling for children's speech recognition | |
Sakti et al. | Probabilistic Pronunciation Variation Model Based on Bayesian Network for Conversational Speech Recognition | |
Kumar et al. | Speech Recognition Using Hmm and Combinations: A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6884946 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |