JP7023934B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP7023934B2 JP7023934B2 JP2019510589A JP2019510589A JP7023934B2 JP 7023934 B2 JP7023934 B2 JP 7023934B2 JP 2019510589 A JP2019510589 A JP 2019510589A JP 2019510589 A JP2019510589 A JP 2019510589A JP 7023934 B2 JP7023934 B2 JP 7023934B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- speaker
- speaker recognition
- bias
- vector containing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000013528 artificial neural network Methods 0.000 claims description 285
- 239000013598 vector Substances 0.000 claims description 182
- 239000011159 matrix material Substances 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 description 29
- 230000006978 adaptation Effects 0.000 description 17
- 230000000306 recurrent effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Description
[001] 本出願は、参照のためその全体を本明細書に援用する2016年8月26日申請の中国特許出願第201610741622.9号への優先権の恩恵を主張する。
[002] 本出願は、音声認識に関し、より具体的には音声認識方法及び装置に関する。
[003] 現在のところ、大きな進歩が話者非依存(SI:speaker independent)音声認識システムに対しなされてきた。しかし、様々なユーザ間の差異が特定ユーザの音声認識システムの性能劣化を生じさせ得る。
[010] 本開示の実施形態は、余りに大きな計算複雑性を導入することなくオンライン話者適応化における音声認識の性能を効果的に改善し得る音声認識方法及び装置を提供する。
[027] 本明細書の一部を構成する添付図面は、いくつかの実施形態を示し、開示された原理について本明細書と共に説明する役目を果たす。
[037] 多くの詳細が、本開示の包括的理解を容易にするために以下の明細書に示される。本開示における方法及び装置は本明細書で説明されるものとは異なる多くの他のやり方で実現され得る。当業者は、本開示の暗示するものから逸脱することなく同様な拡張をなし得る。したがって、本開示は以下に開示される特定実施形態に限定されない。
ここで、fは、括弧内の内容に対しニューロンノードY1によりなされた計算を表し、括弧内の内容は、ニューロンノードY1により受信された入力値を表す。
は、例えばY1、i=1、j=1、2、3に関しては、層L1内の第jニューロンノードと次層(すなわち層L2)内の第iニューロンノード間の重み付けを指し、
は、隠れ層L2内のs番目ニューロンノード(s=1、2、3)に対応するバイアスノードB1内のバイアス項の値を指し、例えば、ニューロンノードY1に対応するバイアスノードB1内のバイアス項の値は
である。
Claims (19)
- 音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することと、
前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償することと、
前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識することと、を含む音声認識方法。 - 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに前記第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含む、請求項1に記載の音声認識方法。
- 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列は、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークをそれぞれトレーニングし、次に前記トレーニングされた第1のニューラルネットワーク、前記重み行列、及び前記トレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされる、請求項2に記載の音声認識方法。
- 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列を初期化することと、
所定客観的判定基準に従って逆伝搬アルゴリズムを使用することにより前記重み行列を更新することと、
所定客観的判定基準に従って前記逆伝搬アルゴリズムを使用することにより前記第2のニューラルネットワーク及び接続行列を更新することと、をさらに含む請求項3に記載の音声認識方法。
- 前記話者認識特徴は少なくとも話者声紋情報を含む、請求項1乃至4のいずれか一項に記載の音声認識方法。
- 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含み、
前記話者認識特徴を含む前記ベクトルは前記第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルである、請求項1に記載の音声認識方法。 - 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、前記第1のニューラルネットワークの前記最後の隠れ層においてノードにより出力された前記話者認識特徴を含む前記ベクトルを、前記第2のニューラルネットワーク内の前記入力層を除く層の前記すべて又は一部に対応するバイアスノードへ送信することを含む、請求項6に記載の音声認識方法。
- 前記音声データは、収集された元音声データ又は前記収集された元音声データから抽出された音声特徴である、請求項1に記載の音声認識方法。
- 前記話者認識特徴は、様々なユーザ又は様々なユーザのクラスタに対応する、請求項1に記載の音声認識方法。
- 一組の命令を格納する非一時的コンピュータ可読媒体であって、前記一組の命令は、装置の1つ又は複数のプロセッサによって、前記装置に音声認識の方法を行わせるように、実行可能であり、前記方法は、
音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することと、
前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償することと、
前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識することと、を含む、非一時的コンピュータ可読媒体。 - 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに前記第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含む、請求項10に記載の非一時的コンピュータ可読媒体。
- 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列は、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークをそれぞれトレーニングし、次に前記トレーニングされた第1のニューラルネットワーク、前記重み行列、及び前記トレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされる、請求項11に記載の非一時的コンピュータ可読媒体。
- 前記一組の命令は、前記装置の前記1つ又は複数のプロセッサにより、前記装置に、
前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列を初期化することと、
所定客観的判定基準に従って逆伝搬アルゴリズムを使用することにより前記重み行列を更新することと、
所定客観的判定基準に従って前記逆伝搬アルゴリズムを使用することにより前記第2のニューラルネットワーク及び接続行列を更新することと、をさらに行わせるように、実行可能である、請求項12に記載の非一時的コンピュータ可読媒体。 - 前記話者認識特徴は少なくとも話者声紋情報を含む、請求項10に記載の非一時的コンピュータ可読媒体。
- 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含み、
前記話者認識特徴を含む前記ベクトルは前記第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルである、請求項10に記載の非一時的コンピュータ可読媒体。 - 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、前記第1のニューラルネットワークの前記最後の隠れ層においてノードにより出力された前記話者認識特徴を含む前記ベクトルを、前記第2のニューラルネットワーク内の前記入力層を除く層の前記すべて又は一部に対応するバイアスノードへ送信することを含む、請求項15に記載の非一時的コンピュータ可読媒体。
- 前記音声データは、収集された元音声データ又は前記収集された元音声データから抽出された音声特徴である、請求項10に記載の非一時的コンピュータ可読媒体。
- 前記話者認識特徴は、様々なユーザ又は様々なユーザのクラスタに対応する、請求項10に記載の非一時的コンピュータ可読媒体。
- 音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するように構成された抽出ユニットと、
前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償し、前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識するように構成された認識ユニットと、を含む音声認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610741622.9 | 2016-08-26 | ||
CN201610741622.9A CN107785015A (zh) | 2016-08-26 | 2016-08-26 | 一种语音识别方法及装置 |
PCT/US2017/048499 WO2018039500A1 (en) | 2016-08-26 | 2017-08-24 | A speech recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019528476A JP2019528476A (ja) | 2019-10-10 |
JP7023934B2 true JP7023934B2 (ja) | 2022-02-22 |
Family
ID=61243250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019510589A Active JP7023934B2 (ja) | 2016-08-26 | 2017-08-24 | 音声認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180061397A1 (ja) |
EP (1) | EP3504703B1 (ja) |
JP (1) | JP7023934B2 (ja) |
CN (1) | CN107785015A (ja) |
WO (1) | WO2018039500A1 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180027887A (ko) * | 2016-09-07 | 2018-03-15 | 삼성전자주식회사 | 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법 |
US10529319B2 (en) * | 2017-05-22 | 2020-01-07 | Samsung Electronics Co., Ltd. | User adaptive speech recognition method and apparatus |
US10325602B2 (en) * | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
CN110310647B (zh) * | 2017-09-29 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
US10783873B1 (en) * | 2017-12-15 | 2020-09-22 | Educational Testing Service | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora |
CN108564940B (zh) * | 2018-03-20 | 2020-04-28 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN108615528B (zh) * | 2018-03-30 | 2021-08-17 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108694951B (zh) * | 2018-05-22 | 2020-05-22 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
US10380997B1 (en) * | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
US20200042825A1 (en) * | 2018-08-02 | 2020-02-06 | Veritone, Inc. | Neural network orchestration |
CN110176243B (zh) * | 2018-08-10 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
US11315550B2 (en) * | 2018-11-19 | 2022-04-26 | Panasonic Intellectual Property Corporation Of America | Speaker recognition device, speaker recognition method, and recording medium |
CN109686382A (zh) * | 2018-12-29 | 2019-04-26 | 平安科技(深圳)有限公司 | 一种说话人聚类方法和装置 |
US10839792B2 (en) | 2019-02-05 | 2020-11-17 | International Business Machines Corporation | Recognition of out-of-vocabulary in direct acoustics-to-word speech recognition using acoustic word embedding |
CN111613231A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
JP2020154061A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社フュートレック | 話者識別装置、話者識別方法およびプログラム |
CN109979436B (zh) * | 2019-04-12 | 2020-11-13 | 南京工程学院 | 一种基于频谱自适应法的bp神经网络语音识别系统及方法 |
CN110047468B (zh) * | 2019-05-20 | 2022-01-25 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及存储介质 |
CN110197658B (zh) * | 2019-05-30 | 2021-01-26 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
CN113261056B (zh) * | 2019-12-04 | 2024-08-02 | 谷歌有限责任公司 | 使用说话者相关语音模型的说话者感知 |
US11183178B2 (en) | 2020-01-13 | 2021-11-23 | Microsoft Technology Licensing, Llc | Adaptive batching to reduce recognition latency |
US20220080262A1 (en) * | 2020-09-14 | 2022-03-17 | Train121 Inc. | Method and apparatus to generate motion data of a barbell and to process the generated motion data |
WO2023068552A1 (ko) * | 2021-10-21 | 2023-04-27 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 그 제어 방법 |
WO2023243083A1 (ja) * | 2022-06-17 | 2023-12-21 | 日本電信電話株式会社 | 音声認識モデル学習装置、音声認識モデル学習方法、およびプログラム |
KR102498268B1 (ko) * | 2022-07-15 | 2023-02-09 | 국방과학연구소 | 화자 인식을 위한 전자 장치 및 그의 동작 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102806A (ja) | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258790A (ja) * | 1996-03-27 | 1997-10-03 | Seiko Epson Corp | ニューラルネットワーク音声モデル再学習方法および装置 |
US20040117181A1 (en) * | 2002-09-24 | 2004-06-17 | Keiko Morii | Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method |
EP2840546A4 (en) * | 2012-07-10 | 2015-12-02 | Nec Corp | COMMUNITY SERVER, COMMUNITY METHOD AND PROGRAM |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9378735B1 (en) * | 2013-12-19 | 2016-06-28 | Amazon Technologies, Inc. | Estimating speaker-specific affine transforms for neural network based speech recognition systems |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
KR101844932B1 (ko) * | 2014-09-16 | 2018-04-03 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN105206258B (zh) * | 2015-10-19 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
CN105845128B (zh) * | 2016-04-06 | 2020-01-03 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
-
2016
- 2016-08-26 CN CN201610741622.9A patent/CN107785015A/zh active Pending
-
2017
- 2017-08-24 JP JP2019510589A patent/JP7023934B2/ja active Active
- 2017-08-24 US US15/686,094 patent/US20180061397A1/en not_active Abandoned
- 2017-08-24 EP EP17844451.9A patent/EP3504703B1/en active Active
- 2017-08-24 WO PCT/US2017/048499 patent/WO2018039500A1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102806A (ja) | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
Non-Patent Citations (4)
Title |
---|
Shaofei XUE et al.,Fast Adaptation of Deep Neural Network Based on Discriminant Codes for Speech Recognition,IEEE/ACM Transactions on Audio, Speech and Language Processing,2014年12月,Vol.22, No.12,pp.1713-1725 |
Zhiying HUANG et al.,Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code,2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP 2016),2016年03月,pp.5305-5309 |
柏木陽佑他,制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習,日本音響学会2014年秋季研究発表会講演論文集,2014年09月,pp.7-10 |
柏木陽佑他,話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応,電子情報通信学会技術研究報告,2014年12月,Vol.114,No.365,pp.105-110 |
Also Published As
Publication number | Publication date |
---|---|
US20180061397A1 (en) | 2018-03-01 |
EP3504703A4 (en) | 2019-08-21 |
EP3504703A1 (en) | 2019-07-03 |
WO2018039500A1 (en) | 2018-03-01 |
EP3504703B1 (en) | 2022-08-03 |
JP2019528476A (ja) | 2019-10-10 |
CN107785015A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7023934B2 (ja) | 音声認識方法及び装置 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
Li et al. | Developing far-field speaker system via teacher-student learning | |
KR102294638B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
US11670299B2 (en) | Wakeword and acoustic event detection | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
El-Moneim et al. | Text-dependent and text-independent speaker recognition of reverberant speech based on CNN | |
Wu et al. | Acoustic to articulatory mapping with deep neural network | |
CN112074903A (zh) | 用于口语中的声调识别的系统和方法 | |
Sivasankaran et al. | Discriminative importance weighting of augmented training data for acoustic model training | |
Lin et al. | Multi-style learning with denoising autoencoders for acoustic modeling in the internet of things (IoT) | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN117476035A (zh) | 话音活动检测集成以改进自动讲话检测 | |
Li et al. | Dual-path modeling with memory embedding model for continuous speech separation | |
Cornell et al. | Implicit acoustic echo cancellation for keyword spotting and device-directed speech detection | |
Chauhan et al. | Speech recognition and separation system using deep learning | |
US9892726B1 (en) | Class-based discriminative training of speech models | |
US11908454B2 (en) | Integrating text inputs for training and adapting neural network transducer ASR models | |
Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
Shahamiri | An optimized enhanced-multi learner approach towards speaker identification based on single-sound segments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7023934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |