JP6993353B2 - ニューラルネットワークベースの声紋情報抽出方法及び装置 - Google Patents
ニューラルネットワークベースの声紋情報抽出方法及び装置 Download PDFInfo
- Publication number
- JP6993353B2 JP6993353B2 JP2018559969A JP2018559969A JP6993353B2 JP 6993353 B2 JP6993353 B2 JP 6993353B2 JP 2018559969 A JP2018559969 A JP 2018559969A JP 2018559969 A JP2018559969 A JP 2018559969A JP 6993353 B2 JP6993353 B2 JP 6993353B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- voiceprint
- vector
- frame
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 182
- 238000000605 extraction Methods 0.000 title claims description 19
- 239000013598 vector Substances 0.000 claims description 92
- 238000000034 method Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 239000013604 expression vector Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
本出願は、2016年6月13日に出願された「Neural Network-Based Voiceprint Information Extraction Method and Apparatus」と題する中国特許出願第201610421908.9号への外国優先権を主張するものであり、その全体が参照により本明細書によって援用される。
Claims (15)
- 音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える、方法。 - 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項1に記載の方法。
- 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項1に記載の方法。 - 前記方法は、前記ニューラルネットワークをトレーニングすることを備え、
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項1に記載の方法。 - 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項1または請求項4に記載の方法。
- 1つ以上のプロセッサと、
メモリと、
前記メモリに格納され、入力音声セグメントから1つ以上の音声音響特徴を抽出するように前記1つ以上のプロセッサにより実行可能である音声音響特徴抽出モジュールと、
前記メモリに格納され、ニューラルネットワークに基づきトレーニングされる声紋モデルに前記1つ以上の音声音響特徴を入力するように、前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出するように前記1つ以上のプロセッサにより実行可能である処理モジュールであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備え、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、処理モジュールと、
前記メモリに格納され、前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングするように前記1つ以上のプロセッサにより実行可能である声紋情報計算モジュールと、
を備える、装置。 - 前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
- 前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築するように、また前記iベクトルモデルを使用して前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
- トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用し、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用し、
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングする、
ように構成されるニューラルネットワークトレーニングモデルをさらに備える、請求項6に記載の装置。 - 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項6または請求項9に記載の装置。
- 1つ以上のコンピュータ可読媒体であって、1つ以上のプロセッサにより実行されるときに、
音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える動作を前記1つ以上のプロセッサに実行させる、実行可能な命令を格納する、前記1つ以上のコンピュータ可読媒体。 - 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
- 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項11に記載の1つ以上のコンピュータ可読媒体。 - 前記動作は、前記ニューラルネットワークをトレーニングすることを備え、
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項11に記載の1つ以上のコンピュータ可読媒体。 - 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項11または請求項14に記載の1つ以上のコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610421908.9 | 2016-06-13 | ||
CN201610421908.9A CN107492382B (zh) | 2016-06-13 | 2016-06-13 | 基于神经网络的声纹信息提取方法及装置 |
PCT/US2017/037145 WO2017218465A1 (en) | 2016-06-13 | 2017-06-13 | Neural network-based voiceprint information extraction method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019522810A JP2019522810A (ja) | 2019-08-15 |
JP6993353B2 true JP6993353B2 (ja) | 2022-01-13 |
Family
ID=60574115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018559969A Active JP6993353B2 (ja) | 2016-06-13 | 2017-06-13 | ニューラルネットワークベースの声紋情報抽出方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10176811B2 (ja) |
EP (1) | EP3469582B1 (ja) |
JP (1) | JP6993353B2 (ja) |
CN (1) | CN107492382B (ja) |
WO (1) | WO2017218465A1 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847292B (zh) * | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
CN108257592A (zh) * | 2018-01-11 | 2018-07-06 | 广州势必可赢网络科技有限公司 | 一种基于长短期记忆模型的人声分割方法及系统 |
CN108417217B (zh) * | 2018-01-11 | 2021-07-13 | 思必驰科技股份有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN108447490B (zh) * | 2018-02-12 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 基于记忆性瓶颈特征的声纹识别的方法及装置 |
CN108461085A (zh) * | 2018-03-13 | 2018-08-28 | 南京邮电大学 | 一种短时语音条件下的说话人识别方法 |
US11842741B2 (en) * | 2018-03-15 | 2023-12-12 | Nec Corporation | Signal processing system, signal processing device, signal processing method, and recording medium |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN108694951B (zh) * | 2018-05-22 | 2020-05-22 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN110634470A (zh) * | 2018-06-06 | 2019-12-31 | 北京深鉴智能科技有限公司 | 智能语音处理方法和装置 |
CN108831487B (zh) * | 2018-06-28 | 2020-08-18 | 深圳大学 | 声纹识别方法、电子装置及计算机可读存储介质 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
US10380997B1 (en) * | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
CN109065069B (zh) * | 2018-10-10 | 2020-09-04 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN109545226B (zh) * | 2019-01-04 | 2022-11-22 | 平安科技(深圳)有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
US10861443B2 (en) | 2019-03-28 | 2020-12-08 | Eta Compute, Inc. | Continuous speech recognition using dual neural networks |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
US11854562B2 (en) | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
CN111951809B (zh) * | 2019-05-14 | 2024-06-21 | 深圳市金桐科技有限公司 | 多人声纹辨别方法及系统 |
CN110379412B (zh) * | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN110782904A (zh) * | 2019-11-07 | 2020-02-11 | 四川长虹电器股份有限公司 | 智能语音设备的用户账号切换方法 |
CN111145736B (zh) * | 2019-12-09 | 2022-10-04 | 华为技术有限公司 | 语音识别方法及相关设备 |
CN113223536B (zh) * | 2020-01-19 | 2024-04-19 | Tcl科技集团股份有限公司 | 声纹识别方法、装置及终端设备 |
CN111326161B (zh) * | 2020-02-26 | 2023-06-30 | 北京声智科技有限公司 | 一种声纹确定方法及装置 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111341322A (zh) * | 2020-04-15 | 2020-06-26 | 厦门快商通科技股份有限公司 | 一种声纹模型训练方法和装置以及设备 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
CN111599351A (zh) * | 2020-04-30 | 2020-08-28 | 厦门快商通科技股份有限公司 | 一种语音识别方法和装置以及设备 |
CN113948089B (zh) * | 2020-06-30 | 2024-06-14 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
CN114333767A (zh) * | 2020-09-29 | 2022-04-12 | 华为技术有限公司 | 发声者语音抽取方法、装置、存储介质及电子设备 |
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN112767950A (zh) * | 2021-02-24 | 2021-05-07 | 嘉楠明芯(北京)科技有限公司 | 一种声纹识别方法、装置及计算机可读存储介质 |
CN113160850A (zh) * | 2021-04-27 | 2021-07-23 | 广州国音智能科技有限公司 | 一种基于重参数化的解耦方式的音频特征提取方法及装置 |
CN113299295B (zh) * | 2021-05-11 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 声纹编码网络的训练方法及装置 |
CN116415166A (zh) * | 2021-12-28 | 2023-07-11 | 深圳大学 | 多键盘混合按键声音的识别方法、装置、设备及存储介质 |
CN116798400A (zh) * | 2022-03-11 | 2023-09-22 | 保时捷(上海)数字科技有限公司 | 基于计算机程序实现的语音合成方法和系统 |
CN115083422B (zh) * | 2022-07-21 | 2022-11-15 | 中国科学院自动化研究所 | 语音溯源取证方法及装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127336A1 (en) | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker verification using neural networks |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02150899A (ja) * | 1988-12-02 | 1990-06-11 | Toshiba Corp | 音声認識方式 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US9230550B2 (en) | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
US9502038B2 (en) | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US9858919B2 (en) | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US9640186B2 (en) * | 2014-05-02 | 2017-05-02 | International Business Machines Corporation | Deep scattering spectrum in acoustic modeling for speech recognition |
US9324320B1 (en) * | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
CN104732978B (zh) * | 2015-03-12 | 2018-05-08 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
US10013973B2 (en) * | 2016-01-18 | 2018-07-03 | Kabushiki Kaisha Toshiba | Speaker-adaptive speech recognition |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
-
2016
- 2016-06-13 CN CN201610421908.9A patent/CN107492382B/zh active Active
-
2017
- 2017-06-13 JP JP2018559969A patent/JP6993353B2/ja active Active
- 2017-06-13 EP EP17813898.8A patent/EP3469582B1/en active Active
- 2017-06-13 WO PCT/US2017/037145 patent/WO2017218465A1/en unknown
- 2017-06-13 US US15/621,162 patent/US10176811B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127336A1 (en) | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker verification using neural networks |
Non-Patent Citations (3)
Title |
---|
GHALEHJEGH, Sina Hamidi ;ROSE, Richard C.,Deep bottleneck features for i-vector based text-independent speaker verification,2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),IEEE,2015年12月13日,pp.555-560 |
VARIANI, Ehsan, et al.,Deep neural networks for small footprint text-dependent speaker verification,2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2014年05月04日,pp.4052-4056 |
張 兆峰、外4名,DNNに基づく特徴変換による残響環境話者認識,電子情報通信学会技術研究報告 SP2014-119,Vol.114 No.365,一般社団法人 電子情報通信学会,2014年12月08日 |
Also Published As
Publication number | Publication date |
---|---|
EP3469582A4 (en) | 2019-11-06 |
CN107492382A (zh) | 2017-12-19 |
US10176811B2 (en) | 2019-01-08 |
US20170358306A1 (en) | 2017-12-14 |
WO2017218465A1 (en) | 2017-12-21 |
EP3469582A1 (en) | 2019-04-17 |
EP3469582B1 (en) | 2022-04-06 |
JP2019522810A (ja) | 2019-08-15 |
CN107492382B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
JP7023934B2 (ja) | 音声認識方法及び装置 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US9818431B2 (en) | Multi-speaker speech separation | |
CN110276259A (zh) | 唇语识别方法、装置、计算机设备及存储介质 | |
US10726326B2 (en) | Learning of neural network | |
US9558741B2 (en) | Systems and methods for speech recognition | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
EP3910625A2 (en) | Method and apparatus for utterance time estimation | |
Ferrer et al. | Spoken language recognition based on senone posteriors. | |
JPWO2019176986A1 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
JP2017003622A (ja) | 声質変換方法および声質変換装置 | |
CN114730563A (zh) | 使用视听匹配对自动语音识别假设进行重新评分 | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
WO2021171956A1 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210413 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6993353 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |