JP7109771B2 - 音声認識システム、音声認識方法、学習済モデル - Google Patents
音声認識システム、音声認識方法、学習済モデル Download PDFInfo
- Publication number
- JP7109771B2 JP7109771B2 JP2018044491A JP2018044491A JP7109771B2 JP 7109771 B2 JP7109771 B2 JP 7109771B2 JP 2018044491 A JP2018044491 A JP 2018044491A JP 2018044491 A JP2018044491 A JP 2018044491A JP 7109771 B2 JP7109771 B2 JP 7109771B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- neural network
- layer
- vector
- internal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明の別の局面に従う音声認識方法は、入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成するステップと、フレームごとの第1の特徴ベクトルを学習済モデルに入力してテキストを出力するステップとを含む。学習済モデルは、フレームごとの第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、第1のニューラルネットワークブロックからのフレームごとの第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、第2のニューラルネットワークブロックからのフレームごとの第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを含む。第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含む。第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含む。遅延操作層の各々は、直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、第1の内部ベクトルと、第2の内部ベクトルと、第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成される。
まず、本実施の形態に従う学習済モデルを用いたアプリケーション例について説明する。
次に、本実施の形態に従う手法に関連するいくつかの先行技術および当該先行技術に対する解決手段の概要について説明する。
本実施の形態に従うCTCベースドモデル1は、図1および図2の認識エンジン4を実現する学習済モデルに相当する。本実施の形態においては、再帰フィードバックを用いずに、単方向の長時間依存性を反映した出力を得られるように、大きな層数を有するニューラルネットワークを用いる。本願発明者らは、本実施の形態に従うCTCベースドモデル1のネットワークを「超深層残差時間遅延ニューラルネットワーク(very deep residual time-delay neural network):VResTD-CTC」と称する。
まず、CTC(connectionist temporal classification)の基本的な考え方について説明する。CTCは、入力される可変長な音声フレームと出力されるラベル(単音(phones)、文字(character)音節(syllable)などの単位)との間で生じるシーケンスラベリング問題を解決するために、E2E音響モデルにおけるトレーニング判定基準として、しばしば用いられる。
次に、本実施の形態に従うCTCベースドモデル1のネットワーク構造について説明する。
次に、図5に示されるCTCベースドモデル1を構成する標準残差ブロック層100に含まれる標準残差ブロック10の構造について説明する。
次に、図5に示されるCTCベースドモデル1を構成する時間遅延残差ブロック層200に含まれる時間遅延残差ブロック20の構造について説明する。
本実施の形態に従うCTCベースドモデル1において、l(エル)番目の時間遅延を有する隠れ層への入力シーケンスの全体は、以下の(2)式のように示すことができる。
上述の(4)式および(5)式に示すように、サブサンプリング処理234は、所定のタイムステップより短いタイムステップに対応する複数の内部ベクトルに基づいて、過去フレームに対応する内部ベクトルおよび未来フレームに対応する内部ベクトルを生成する処理を含む。
次に、上述した時間遅延操作を行なう時間遅延残差ブロック20が積層されることで実現されるタイムステップの拡大について説明する。
本実施の形態に従うCTCベースドモデル1には、アテンションメカニズムをさらに追加してもよい。アテンションメカニズムは、隠れ層に存在するベクトルから特定の特徴を有する成分を抽出する機能を有している。
上述の図10に示すような本実施の形態に従うCTCベースドモデル1が採用するアテンションメカニズムを実装するにあたっては、ネットワーク構造において何らの自己ループも生じないように、以下のような実装例を採用してもよい。
次に、本実施の形態に従うCTCベースドモデル1を構築するための学習処理について説明する。本実施の形態に従うCTCベースライン1は、E2Eフレームワークを提供するものであり、音響モデルおよび言語モデルを別々に学習する必要はない。すなわち、CTCベースライン1は、入力される音声信号に対応するテキストを直接出力するものであり、学習処理においても、デコーディングと同様に、音声信号と対応するテキストとからなるトレーニングデータセットを用いる。
次に、本実施の形態に従うCTCベースドモデル1を用いた音声認識システムSを実現するためのハードウェア構成の一例について説明する。
次に、本実施の形態に従うCTCベースドモデル1における処理手順の一例について説明する。
図13は、本実施の形態に従うCTCベースドモデル1の学習処理の処理手順を示すフローチャートである。図13に示す各ステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)がトレーニングプログラム514を実行することで実現される。
図14は、本実施の形態に従うCTCベースドモデル1を用いたエンコーディングの処理手順を示すフローチャートである。図14に示す各ステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)がトレーニングプログラム514を実行することで実現される。
本願発明者らは、上述した本実施の形態に従うCTCベースドモデル1の性能について評価実験を行なった。以下、評価実験について説明する。
評価実験には、トレーニングデータセットおよび評価データとして、国立国語研究所が提供している「日本語話し言葉コーパス(Corpus of Spontaneous Japanese:CSJ)」を用いた。
まず、CSJ-Trainを用いて、評価基準となるベースラインをトレーニングした。第1のベースラインモデルとして、DNN-HMM-CE(deep neural network and hidden Markov model cross entropy)モデルを取り上げる。DNN-HMM-CEモデルを構築するにあたって、まず、音響モデルに相当するGMM-HMM(Gaussian mixture model and hidden Markov model)モデルをトレーニングし、続いて、5個の隠れ層(各層は2048個の隠れノードを有する)からなるDNNモデル(言語モデルに相当する)をトレーニングした。出力層は、約8500個のノードを有しており、これは、GMM-HMMモデルの結合トライフォン(triphone)状態に対応する。これらのトレーニングにおいて、72次元のフィルタバンク特徴(24次元のスタティック+Δ+ΔΔ)を用いた。フィルタバンク特徴は、話者ごとに平均化および正規化が行なわれた結果であり、分割された11フレーム(過去5フレーム、現在フレーム、未来5フレーム)からなる。DNNモデルは、交差エントロピー損失基準に基づく標準的な確率的勾配降下法(SGD:stochastic gradient descent)を用いてトレーニングした。
本実施の形態に従うCTCベースドモデル1は、上述のBLSTM-CTCモデルと同様に、72次元のフィルタバンク特徴(24次元のスタティック+Δ+ΔΔ)(非分割)を用いてトレーニングした。ラベルは、上述したベースラインとなる2つのCTCベースドモデルのラベルと同じものを用いた。
次に、実施の形態に従うCTCベースドモデル1のモデル構造の最適化を行なった。この際、トレーニングデータセット(CSJ-Train)を用いてネットワークのプロトタイプを構成し、評価データセット(CSJ-Eval01)を用いて最適な構造の一例を選択した。評価実験に用いたネットワーク構造を示すパラメータは、以下のTable3に示す通りである。
次に、CTCベースドモデル1に含まれる時間遅延残差ブロック層200の数についての評価した結果を、以下のTable4に示す。
次に、CTCベースドモデル1のメモリエンコーディングの方法について評価した結果を、以下のTable5に示す。
上述したような注目するフレーム(現在フレーム)を中心にして、過去未来同数のフレームをCTCベースドモデル1に入力する例を示したが、音声信号に対して非対称にウィンドウを設定した場合の性能を評価した。その評価結果を以下のTable6に示す。
本実施の形態に従うCTCベースドモデル1の性能を高める観点から、上述したようなアテンションメカニズムが時間遅延残差ブロック層200のいずれの層に配置されるのかを異ならせて、CTCベースドモデル1の性能を評価した。その評価結果を以下のTable7に示す。
次に、本実施の形態に従うCTCベースドモデル1の音声認識性能の一例について説明する。音声認識性能の評価には、CSJに含まれる3個の評価データセット(CSJ-Eval01、CSJ-Eval02、CSJ-Eval03)を用いた。音声認識性能の評価結果を以下のTable8に示す。
本実施の形態に従うCTCベースライン1を用いた音声認識システムSによれば、BLSTMネットワークのような再帰フィードバックを用いることなく、連続するフレームシーケンスで構成される音声信号に対する音声認識を実現できる。再帰フィードバックを含まないネットワーク構造を採用することで、BLSTM-CTCモデルでは実現が難しい、オンライン音声認識などを実現できる。
Claims (5)
- 入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成する特徴量抽出部と、
前記特徴量抽出部からのフレームごとの前記第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
前記遅延操作層の各々は、
直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成され、
前記第2のニューラルネットワークブロックは、
前記第2のニューラルネットワークブロックに含まれる第1の遅延操作層および第2の遅延操作層からそれぞれ出力される2つの内部ベクトルを入力とし、重みを出力とするニューラルネットワークである第1のモジュールと、
前記重みを前記第1の遅延操作層から出力される内部ベクトルに反映する第2のモジュールとを含む、音声認識システム。 - 前記第1のモジュールは、前記第2のニューラルネットワークブロックにおいて最も入力側に近い遅延操作層から出力される内部ベクトルに、前記重みを反映するように構成される、請求項1に記載の音声認識システム。
- 前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組をバイパスするスキップ経路を含む、請求項1または2に記載の音声認識システム。
- 入力される音声信号からフレームごとに第1の特徴ベクトルを順次生成するステップと、
フレームごとの前記第1の特徴ベクトルを学習済モデルに入力してテキストを出力するステップとを備え、
前記学習済モデルは、
フレームごとの前記第1の特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
前記遅延操作層の各々は、
直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成され、
前記第2のニューラルネットワークブロックは、
前記第2のニューラルネットワークブロックに含まれる第1の遅延操作層および第2の遅延操作層からそれぞれ出力される2つの内部ベクトルを入力とし、重みを出力とするニューラルネットワークである第1のモジュールと、
前記重みを前記第1の遅延操作層から出力される内部ベクトルに反映する第2のモジュールとを含む、音声認識方法。 - 入力される音声信号からテキストを出力するように、コンピュータを機能させるための学習済モデルであって、前記学習済モデルは、
前記音声信号からフレームごとに順次生成される特徴ベクトルの入力を受けて、フレームごとに第2の特徴ベクトルを出力する第1のニューラルネットワークブロックと、
前記第1のニューラルネットワークブロックからのフレームごとの前記第2の特徴ベクトルを受けて、フレームごとに第3の特徴ベクトルを出力する第2のニューラルネットワークブロックと、
前記第2のニューラルネットワークブロックからのフレームごとの前記第3の特徴ベクトルを受けて、対応するテキストを推定する出力層とを備え、
前記第1のニューラルネットワークブロックは、積層された複数の全結合層と、隣接する全結合層の間にそれぞれ配置された活性化関数とを含み、
前記第2のニューラルネットワークブロックは、積層された全結合層および遅延操作層からなる複数の組と、隣接する全結合層と遅延操作層との間にそれぞれ配置された活性化関数とを含み、
前記遅延操作層の各々は、
直前の全結合層から第1の内部ベクトルが入力されると、当該第1の内部ベクトルに対応するフレームである現在フレームに対して、予め定められたタイムステップだけ時間を戻した過去フレームに対応する第2の内部ベクトルと、予め定められたタイムステップだけ時間を進めた未来フレームに対応する第3の内部ベクトルとを生成し、
前記第1の内部ベクトルと、前記第2の内部ベクトルと、前記第3の内部ベクトルとに基づいて算出される内部ベクトルを出力する、ように構成され、
前記第2のニューラルネットワークブロックは、
前記第2のニューラルネットワークブロックに含まれる第1の遅延操作層および第2の遅延操作層からそれぞれ出力される2つの内部ベクトルを入力とし、重みを出力とするニューラルネットワークである第1のモジュールと、
前記重みを前記第1の遅延操作層から出力される内部ベクトルに反映する第2のモジュールとを含る、学習済モデル。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018044491A JP7109771B2 (ja) | 2018-03-12 | 2018-03-12 | 音声認識システム、音声認識方法、学習済モデル |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018044491A JP7109771B2 (ja) | 2018-03-12 | 2018-03-12 | 音声認識システム、音声認識方法、学習済モデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159058A JP2019159058A (ja) | 2019-09-19 |
JP7109771B2 true JP7109771B2 (ja) | 2022-08-01 |
Family
ID=67996997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018044491A Active JP7109771B2 (ja) | 2018-03-12 | 2018-03-12 | 音声認識システム、音声認識方法、学習済モデル |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7109771B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7298714B2 (ja) * | 2019-12-09 | 2023-06-27 | 日本電信電話株式会社 | モデル学習装置、音声認識装置、それらの方法、およびプログラム |
CN111063336A (zh) * | 2019-12-30 | 2020-04-24 | 天津中科智能识别产业技术研究院有限公司 | 一种基于深度学习的端对端语音识别系统 |
CN111680732A (zh) * | 2020-05-28 | 2020-09-18 | 浙江师范大学 | 一种基于深度学习注意力机制碗碟识别的训练方法 |
CN111833886B (zh) * | 2020-07-27 | 2021-03-23 | 中国科学院声学研究所 | 全连接多尺度的残差网络及其进行声纹识别的方法 |
CN113409769B (zh) * | 2020-11-24 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 基于神经网络模型的数据识别方法、装置、设备及介质 |
CN112466285B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
CN112530410B (zh) * | 2020-12-24 | 2024-08-02 | 北京地平线机器人技术研发有限公司 | 一种命令词识别方法及设备 |
CN113327590A (zh) * | 2021-04-15 | 2021-08-31 | 中标软件有限公司 | 一种语音识别方法 |
CN114067800B (zh) * | 2021-04-28 | 2023-07-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置和电子设备 |
WO2024147226A1 (ja) * | 2023-01-06 | 2024-07-11 | 日本電気株式会社 | アテンション生成装置、アテンション生成方法および記録媒体 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017165551A1 (en) | 2016-03-22 | 2017-09-28 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH077276B2 (ja) * | 1989-03-09 | 1995-01-30 | シャープ株式会社 | 音節認識装置 |
JPH0394364A (ja) * | 1989-09-07 | 1991-04-19 | Matsushita Electric Ind Co Ltd | ニューラルネットワーク |
-
2018
- 2018-03-12 JP JP2018044491A patent/JP7109771B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017165551A1 (en) | 2016-03-22 | 2017-09-28 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
Also Published As
Publication number | Publication date |
---|---|
JP2019159058A (ja) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7109771B2 (ja) | 音声認識システム、音声認識方法、学習済モデル | |
CN109767759B (zh) | 一种应用到端到端语音识别的cldnn结构的建立方法 | |
Ravanelli et al. | Light gated recurrent units for speech recognition | |
CN107408111B (zh) | 端对端语音识别 | |
Arisoy et al. | Bidirectional recurrent neural network language models for automatic speech recognition | |
CN105745700B (zh) | 统计声学模型的自适应方法以及学习方法、记录介质 | |
US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
Mikolov et al. | Strategies for training large scale neural network language models | |
US11107461B2 (en) | Low-power automatic speech recognition device | |
JP7209330B2 (ja) | 識別器、学習済モデル、学習方法 | |
JP6461308B2 (ja) | 音声認識装置およびリスコアリング装置 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
Saon et al. | Recent advances in conversational speech recognition using convolutional and recurrent neural networks | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
Yu et al. | Deep neural network-hidden markov model hybrid systems | |
JP7418991B2 (ja) | 音声認識方法及び装置 | |
US12125482B2 (en) | Adaptively recognizing speech using key phrases | |
CN114267366A (zh) | 通过离散表示学习进行语音降噪 | |
CN108874754A (zh) | 语言模型压缩方法和系统 | |
Zhang et al. | Dynamically hierarchy revolution: dirnet for compressing recurrent neural network on mobile devices | |
Deng et al. | Deep dynamic models for learning hidden representations of speech features | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
Nguyen et al. | Optimizing deep bottleneck feature extraction | |
Kumar et al. | A hybrid CNN-LiGRU acoustic modeling using raw waveform sincnet for Hindi ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180404 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7109771 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |