[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6993353B2 - ニューラルネットワークベースの声紋情報抽出方法及び装置 - Google Patents

ニューラルネットワークベースの声紋情報抽出方法及び装置 Download PDF

Info

Publication number
JP6993353B2
JP6993353B2 JP2018559969A JP2018559969A JP6993353B2 JP 6993353 B2 JP6993353 B2 JP 6993353B2 JP 2018559969 A JP2018559969 A JP 2018559969A JP 2018559969 A JP2018559969 A JP 2018559969A JP 6993353 B2 JP6993353 B2 JP 6993353B2
Authority
JP
Japan
Prior art keywords
neural network
voiceprint
vector
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018559969A
Other languages
English (en)
Other versions
JP2019522810A (ja
Inventor
シュエ シャオフェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019522810A publication Critical patent/JP2019522810A/ja
Application granted granted Critical
Publication of JP6993353B2 publication Critical patent/JP6993353B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

関連特許出願の相互参照
本出願は、2016年6月13日に出願された「Neural Network-Based Voiceprint Information Extraction Method and Apparatus」と題する中国特許出願第201610421908.9号への外国優先権を主張するものであり、その全体が参照により本明細書によって援用される。
本開示は、コンピュータの分野に関し、特に、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置に関する。
声紋情報は、一般的に話者を表すことが可能である情報に関し、音声波形を通して話者の生理学的及びビヘイビア特性を反映する一種の音声情報である。声紋情報は、発話認識における、話者認識、話者検証、及び話者自己適応などのタスクに広範に適用されることができる。声紋情報の迅速で効果的な抽出は、前述のタスクのパフォーマンスを改善するために非常に重要である。
iベクトルは、話者認識の主流の技術である。iベクトルにおいて、各話者は、異なる話者の中から区別可能であるベクトルを有する。
一般的に、iベクトルは、話者空間及びチャネル空間を別々にモデル化し、計算用に変化する因子を代入する必要があることにより、声紋情報を表すベクトルは、入力音声から抽出されることが可能である。そのトレーニング及び声紋情報抽出のプロセスは、比較的に複雑である。
この発明の概要は、発明を実施するための形態において以下にさらに説明される簡略化された形態で概念の選択を導入するために提供される。この発明の概要は、特許請求された主題のすべての重要な特徴または本質的な特徴を特定することを意図するものではなく、特許請求された主題の範囲を決定する際の助けとして単独で使用されることを意図するものでもない。用語「技法」は、上記文脈によって及び本開示全体を通して許容されるような、たとえば、デバイス(複数可)、システム(複数可)、方法(複数可)及び/またはコンピュータ可読命令を指し得る。
本開示の目的は、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置を提供すること、声紋情報を抽出するプロセスを簡略化することである。
実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出方法を提供する。この方法は、入力音声セグメントから1つ以上の音声音響特徴を抽出することと、ニューラルネットワークに基づきトレーニングされる声紋モデルに1つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することと、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることとを備え、この単一フレームの声紋表現ベクトルは、入力音声セグメントに対応する声紋情報として機能することができる。
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得することを備えることができる。
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのiベクトルモデルを構築すること、このiベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。
実施態様において、方法は、ニューラルネットワークをトレーニングすることをさらに備えることができ、このトレーニングすることは、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用すること、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用すること、ニューラルネットワークを介して入力データを分類して分類結果と出力データとの間の対応関係を比較し、声紋モデルをトレーニングすることを備える。
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備えることができる。
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、全結合層、及び出力層を備えることができる。
実施態様において、ニューラルネットワークのボトルネック特徴は、声紋モデルの全結合層内の音声音響特徴の出力を備えることができる。
実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出装置をさらに提供する。これらの装置は、入力音声セグメントから1つ以上の音声音響特徴を抽出するように構成される音声音響特徴抽出モジュールと、ニューラルネットワークに基づきトレーニングされる声紋モデルに1つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出するように構成される処理モジュールと、入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングするように構成される声紋情報計算モジュールとを備えることができる。
実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得するようにさらに構成されることができる。
実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてiベクトルモデルを構築し、このiベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算するようにさらに構成されることができる。
実施態様において、装置は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングするように構成されるニューラルネットワークトレーニングモジュールをさらに備えることができる。
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備えることができる。
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、全結合層、及び出力層を備えることができる。
実施態様において、ニューラルネットワークのボトルネック特徴は、声紋モデルの全結合層内の音声音響特徴の出力を備えることができる。
既存の技法と比較して、ニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを通して音声セグメントの声紋情報を抽出し、より良い方式において短時間の音声セグメントを処理することが可能である、比較的に簡単な抽出プロセスを有する。
本開示の実施形態による声紋モデルの構造図である。 本開示の実施形態によるニューラルネットワークベースの声紋情報抽出方法のフローチャートである。 本開示の実施形態によるニューラルネットワークベースの声紋情報抽出装置のモジュール図である。
本開示は、添付の図面に示されるように、例示的な実施態様を参照して以降本明細書中に詳細に説明される。しかしながら、これらの実施態様は、本開示を限定することを意図されない。当業者であれば、これらの実施態様に基づき構造、方法または機能へ変更を行うことができ、これらの変更は、本開示の保護範囲内にすべて入る。
声紋は、電気音響機器により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官(舌、歯、咽頭、肺、及び鼻腔)は、大きさや形状の観点で人によって著しく変わるため、いずれか2人の声紋は、異なる。
声紋情報は、フィルタ、モデルなどの手段により抽出される情報であり、これは、話者を表し、極めて識別可能な声紋表現をもっている。声紋情報は、声紋認識システム、すなわち、話者認識及び検証により使用されることができる。前者は、複数の人の中からどの人が特定の発話セグメントの話者であるかを決定するために使用され、「複数の選択肢から1つを選択する」問題である。後者は、発話セグメントが指定された人により話されているかどうかを検証するために使用され、「1対1の裁量」問題である。異なるタスク及びアプリケーションは、異なる声紋認識技法を使用することができる。たとえば、犯罪捜査の範囲を縮小させる認識技法を必要とする可能性があり、銀行取引を行うときに検証技法を必要とする。
また声紋情報は、発話認識についての話者自己適応システムに使用されることができる。話者自己適応システムは、話者に関連する音声特徴を話者に関連しない音声特徴に変換し、または話者に関連しない声紋モデルを話者に関連する声紋モデルに変換し、より良い方式において、標的話者の音声特徴を試験し、その声紋モデルにマッチングさせるので、より良い認識効果を取得することが可能である。これらの変換を達成する重要な手法は、話者の音声の声紋情報を抽出することである。
本開示は、ニューラルネットワークに基づきトレーニングされる声紋モデルを使用して、音声の声紋情報を抽出する。これは、抽出及びモデリングのプロセスを極めて簡略化し、抽出された声紋情報は、比較的に高品質を有する。
図1は、声紋情報を抽出するための声紋モデルを示す。声紋モデルは、本開示に従い、ニューラルネットワーク100に基づきトレーニングされる。実施態様において、下から上に開始する順序に従い、ニューラルネットワーク100は、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の全結合層108、及び1層の出力層110を備えることができる。換言すれば、ニューラルネットワーク100に入るデータは、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の全結合層108、及び1層の出力層110を連続して通過する。実施態様において、全結合層は、少なくとも1層の全結合層を含む。
実施態様において、ニューラルネットワークは、双方向リカレントニューラルネットワーク層(双方向RNN)、すなわち、順伝播層及び逆伝播層を含むBLSTMネットワークを用いることができる。したがって、声紋モデル内で抽出されるニューラルネットワークのボトルネック特徴がより正確であるように、全体の時間シーケンスに順及び逆時間フレームを合わせて使用して、現在の時間フレームの音声音響特徴を分析する。
別の実施態様において、下から上に開始する順序に従い、ニューラルネットワーク100は、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の畳み込みニューラルネットワーク層106、1層以上の全結合層108、及び1層の出力層110を備えることができる。換言すれば、ニューラルネットワーク100に入るデータは、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の畳み込みニューラルネットワーク層106、1層以上の全結合層108、及び1層の出力層110を連続して通過する。
ニューラルネットワークのより良いボトルネック特徴をより大きなステージにおいて抽出することができるように、現在の実施態様は、前の実施態様に基づいて畳み込みニューラルネットワーク層(CNN)106をさらに加え、複数のフレームの音声音響特徴をより少ない数のフレームに結合することができるので、この方式においてフレームレートを低下させる。
当業者は、既存の技法を使用して、上文のニューラルネットワークアーキテクチャ、たとえば、双方向リカレントニューラルネットワーク、畳み込みニューラルネットワーク、及び全結合ネットワークにおけるさまざまな層に伴われるネットワーク構造及び特性を理解し、これらに精通することが可能であるため、その詳細は、本明細書に冗長に記述されない。以降本明細書において、ニューラルネットワークに基づき声紋情報を抽出する方法を開示する。
さらに、声紋情報を抽出する前に、ニューラルネットワークは、最初にトレーニングされる必要がある。実施態様において、GPUアクセラレーションを使用して、ニューラルネットワークが声紋モデルのトレーニングを受ける。その方法は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることを備えることができる。
実施態様において、話者は、分類ラベルとして使用される、すなわち、1人の話者は、少なくとも1つのトレーニングする音声セグメントに対応する。ニューラルネットワークをトレーニングする手法は、多数のトレーニングする音声セグメントをニューラルネットワークに入力し、このニューラルネットワークによる分類を実行すること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類する(すなわち、分類結果は出力データに対応する)場合に1として分類にマーク付けすること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類することに失敗した(すなわち、分類結果は出力データに対応しない)場合に0としてこの分類にマーク付けすること、及びすべてのトレーニングする音声セグメントがこの方式において分類された後に、ニューラルネットワークが正確に分類を実行することが可能になるまで、またはその分類精度が所定の閾値を超えるまで、分析的トレーニングについての分類ラベルを参照して再度ニューラルネットワークに入力データを代入し、つぎにニューラルネットワークを声紋モデルとして設定することを備えることができる。
図2に示されるように、実施態様において、ニューラルネットワークベースの声紋情報抽出方法200は、つぎの操作を含むことができる。
S202は、音声音響特徴を入力音声セグメントから抽出する。
S204は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出する。
S206は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングする。
実施態様において、音声セグメントは、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。音声音響特徴は、音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴などを有することができる。外見上、音声音響特徴は、音声セグメントの、元の、または生の発話データであることもできる。
音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される1つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、1層の入力層、1層以上の双方向リカレントニューラルネットワーク層、1層以上の畳み込みニューラルネットワーク層、及び1層以上の全結合層を連続して通過する。
実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、たとえば、声紋モデル内の全結合層の出力である。実施態様において、ニューラルネットワークをトレーニングするときに、特定の層は、ニューラルネットワーク内の他の層より少ない数のノードを含むように選択されることができる。たとえば、特定の層は、数百個のノード(200個のノードなど)を含むことができ、他の層は、数千個のノード(たとえば、2000個のノード)を含むことができる。この特定の層は、他の層のこれらと比較してより少ない数のノードを含むように選択され、ボトルネック層と称される。実施態様において、ボトルネック特徴は、ボトルネック層の出力であり、特徴のグループをトレーニングされたニューラルネットワーク(たとえば、上文に記述されるようなニューラルネットワーク)に入力した後に、この特徴のグループにより表現される情報の新規の表現として取られる。
この方式において、声紋情報を表すベクトルのグループを取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント(たとえば、3s)の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。
さらに、実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り(たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り)、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。実施態様において、単一フレームの声紋表現ベクトルは、ニューラルネットワークのボトルネック特徴のフレームベクトルに含まれる情報の表現または具体的表現であり、単一フレームの声紋表現ベクトルは、抽出される声紋情報の抽象化を有する、または抽象化に対応する。
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのiベクトルモデルを構築すること、このiベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のiベクトルを使用することによりモデル化され、このiベクトルモデルを使用してiベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の、短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のiベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。
図3は、図1に示されるニューラルネットワーク構造も適用可能である、本開示による例示的なニューラルネットワークベースの声紋情報抽出装置300を示す。実施態様において、装置300は、1つ以上のプロセッサ302、入出力(I/O)インターフェイス304、ネットワークインターフェイス306、及びメモリ308を含むことができる。
メモリ308は、コンピュータ可読媒体、たとえば、非永続的なストレージデバイス、ランダムアクセスメモリ(RAM)、及び/または不揮発性内部ストレージ、たとえば、読み取り専用メモリ(ROM)またはフラッシュRAMの形態を含み得る。メモリ308は、コンピュータ可読媒体の実施例である。
コンピュータ可読媒体は、永続的な、または非永続的な種類の、取り外し可能な、または取り外し不可能な媒体を含むことができ、それは、任意の方法または技術を使用して情報のストレージを達成し得る。この情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを含み得る。コンピュータ記憶媒体の実施例は、限定されるものではないが、相変化メモリ(PRAM)、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電子的に消去可能でプログラム可能な読み取り専用メモリ(EEPROM)、高速フラッシュメモリ若しくは他の内部記憶技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)若しくは他の光ストレージ、磁気カセットテープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、または任意の他の非伝送媒体を含み、それらは、コンピューティングデバイスによってアクセスされ得る情報を記憶するために使用され得る。本明細書に定義されるように、コンピュータ可読媒体は、一時的な媒体、たとえば、変調データ信号及び搬送波を含まない。説明の容易さのために、システムは、機能に基づくさまざまなタイプのユニットに分割され、これらのユニットは、上文の説明に別々に記述される。外見上、さまざまなユニットの機能は、本開示の実施中に、1つ以上のソフトウェア及び/またはハードウェアコンポーネント内に実装されることができる。
メモリ308は、プログラムモジュール310及びプログラムデータ312を含み得る。実施態様において、プログラムモジュール310は、ニューラルネットワークトレーニングモジュール314、音声音響特徴抽出モジュール316、処理モジュール318、及び声紋情報計算モジュール320を含むことができる。
実施態様において、声紋情報を抽出する前に、ニューラルネットワークトレーニングモジュール314は、たとえば、ニューラルネットワークを迅速にトレーニングするためにGPUアクセラレーションを使用して、ニューラルネットワークをトレーニングすることができる。たとえば、ニューラルネットワークトレーニングモジュール314は、トレーニングする音声セグメントから抽出される音声音響特徴(音声音響特徴抽出モジュール316を使用して抽出されることができる)をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることができる。
実施態様において、話者は、分類ラベルとして使用される、すなわち、1人の話者は、少なくとも1つのトレーニングする音声セグメントに対応する。ニューラルネットワークをトレーニングする手法は、多数のトレーニングする音声セグメントをニューラルネットワークに入力し、このニューラルネットワークによる分類を実行すること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類する(すなわち、分類結果は出力データに対応する)場合に1として分類にマーク付けすること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類することに失敗した(すなわち、分類結果は出力データに対応しない)場合に0としてこの分類にマーク付けすること、及びすべてのトレーニングする音声セグメントがこの方式において分類された後に、ニューラルネットワークが正確に分類を実行することが可能になるまで、またはその分類精度が所定の閾値を超えるまで、分析的トレーニングについての分類ラベルを参照して再度ニューラルネットワークに入力データを代入し、つぎにニューラルネットワークを声紋モデルとして設定することを備えることができる。
実施態様において、音声音響特徴抽出モジュール316は、音声音響特徴を入力音声セグメントから抽出することができる。処理モジュール318は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、この声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することができる。声紋情報計算モジュール320は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることができる。
実施態様において、音声セグメントは、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。音声音響特徴は、音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴などを有することができる。外見上、音声音響特徴は、音声セグメントの、元の、または生の発話データであることもできる。
音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される1つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、及び全結合層を連続して通過する。
実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、すなわち、声紋モデル内の全結合層の出力である。この方式において、声紋情報を表すベクトルのグループを、取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント(たとえば、3s)の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。
実施態様において、声紋情報計算モジュール320は、ニューラルネットワークのボトルネック特徴のフレームベクトルにさらに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り(たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り)、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。
実施態様において、声紋情報計算モジュール320は、ニューラルネットワークのボトルネック特徴のフレームベクトルについてiベクトルモデルをさらに構築し、このiベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のiベクトルを使用することによりモデル化され、このiベクトルモデルを使用してiベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のiベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。
上記を鑑みて、本開示のニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを介して音声セグメントから声紋情報を抽出するので、声紋モデルをトレーニングし、声紋情報を抽出するプロセスは、比較的に簡単である。さらに、ニューラルネットワークの特性により、声紋モデルは、より良い方式において、短時間の音声セグメント及びノイズのある環境内の音声セグメントを処理することが可能である。このようなものとして、抽出された声紋情報は、より良いパフォーマンスを有する。
当業者は、前述の方法の実装に対応するプロセスを参照して、上述される、装置の特定の作業プロセス、装置及びモジュールを取得することができ、説明の明瞭さのために、本明細書に繰り返し記述されないことを明らかに理解することが可能である。
本開示に提供される実施態様において、開示された装置及び方法を他の方式において実装することができることを理解するであろう。たとえば、前述の装置の実施態様は、例示に過ぎない。たとえば、前述のモジュールの分割は、論理関数の分割に過ぎず、実際の実施中に別の分割方式を使用することができる。たとえば、複数のモジュールまたはコンポーネントは、組み合わされることができる、若しくは別の装置に統合されることができる、またはいくつかの機能は、省略される、若しくは実行されないことができる。他方で、開示された、または考察された相互結合または直接結合または通信接続は、いくつかのインターフェイス、装置またはモジュールを介して実装される間接結合または通信接続であることができ、電気の、機械の、または他の形態にあることができる。
別々のコンポーネントとして記述されるモジュールは、物理的に別々であってもよいし、別々でなくてもよい。モジュールとして記述されるコンポーネントは、物理的なモジュールであってもよいし、物理的なモジュールでなくてもよい、すなわち、単一の位置に設置される、または複数のネットワークモジュール間に分散されることができる。実施形態の解決策の目的は、実際の要件に従いそのモジュールのうちのいくつかを、またはすべてを選択することにより実施されることができる。
加えて、本開示の実施態様における機能モジュールは、決定モジュールに統合されることができる。代替に、これらのモジュールは、物理的に個々のエンティティとして存在することもできる。代替に、2つ以上のモジュールは、単一のモジュールに統合される。統合されたモジュールは、ハードウェアの形で、またはハードウェア及びソフトウェア機能モジュール(複数可)の組み合わせの形で実現され得る。
統合されたモジュールは、ソフトウェア機能モジュールの形で実現され、コンピュータ可読記憶媒体に格納され得る。ソフトウェア機能モジュールは、記憶媒体に格納され、コンピューティングデバイス(複数可)(パーソナルコンピュータ、サーバ、ネットワークデバイス、または同様のものであることができる)またはプロセッサ(複数可)が本開示の例示的な方法の操作の一部を実行することを可能にするために使用される複数の命令を含む。記憶媒体は、USBフラッシュディスク、モバイルハードディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、光ディスク、またはプログラムコードを格納することが可能である他の媒体を含むことができる。
最後に、本開示は、制限することよりもむしろ、本開示の技術的な解決策を説明するために前述の実施態様を使用されるに過ぎないことに留意するべきである。本開示は、前述の実施態様を参照して詳細に記述されるが、当業者は、彼らが上記の実施態様の技術的な解決策に変更を行う、または技術的な特徴のうちのいくつかに均等物の置換を実行することが依然として可能であることを理解するであろう。これらの変更または置換は、対応する技術的な解決策の本質を本開示の実施態様の技術的な解決策の趣旨及び範囲から逸脱させることを意図されない。

Claims (15)

  1. 音声音響特徴を入力音声セグメントから抽出すること、
    ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
    前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
    前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
    を備える、方法。
  2. 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項1に記載の方法。
  3. 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
    前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
    前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
    を備える、請求項1に記載の方法。
  4. 前記方法は、前記ニューラルネットワークをトレーニングすることを備え、
    トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
    前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
    前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項1に記載の方法。
  5. 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項1または請求項4に記載の方法。
  6. 1つ以上のプロセッサと、
    メモリと、
    前記メモリに格納され、入力音声セグメントから1つ以上の音声音響特徴を抽出するように前記1つ以上のプロセッサにより実行可能である音声音響特徴抽出モジュールと、
    前記メモリに格納され、ニューラルネットワークに基づきトレーニングされる声紋モデルに前記1つ以上の音声音響特徴を入力するように、前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出するように前記1つ以上のプロセッサにより実行可能である処理モジュールであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備え、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、処理モジュールと、
    前記メモリに格納され、前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングするように前記1つ以上のプロセッサにより実行可能である声紋情報計算モジュールと、
    を備える、装置。
  7. 前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
  8. 前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築するように、また前記iベクトルモデルを使用して前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
  9. トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用し、
    前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用し、
    前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングする、
    ように構成されるニューラルネットワークトレーニングモデルをさらに備える、請求項6に記載の装置。
  10. 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項6または請求項9に記載の装置。
  11. 1つ以上のコンピュータ可読媒体であって、1つ以上のプロセッサにより実行されるときに、
    音声音響特徴を入力音声セグメントから抽出すること、
    ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
    前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
    前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
    を備える動作を前記1つ以上のプロセッサに実行させる、実行可能な命令を格納する、前記1つ以上のコンピュータ可読媒体。
  12. 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
  13. 前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
    前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
    前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
    を備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
  14. 前記動作は、前記ニューラルネットワークをトレーニングすることを備え
    トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
    前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
    前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
  15. 前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項11または請求項14に記載の1つ以上のコンピュータ可読媒体。
JP2018559969A 2016-06-13 2017-06-13 ニューラルネットワークベースの声紋情報抽出方法及び装置 Active JP6993353B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610421908.9 2016-06-13
CN201610421908.9A CN107492382B (zh) 2016-06-13 2016-06-13 基于神经网络的声纹信息提取方法及装置
PCT/US2017/037145 WO2017218465A1 (en) 2016-06-13 2017-06-13 Neural network-based voiceprint information extraction method and apparatus

Publications (2)

Publication Number Publication Date
JP2019522810A JP2019522810A (ja) 2019-08-15
JP6993353B2 true JP6993353B2 (ja) 2022-01-13

Family

ID=60574115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018559969A Active JP6993353B2 (ja) 2016-06-13 2017-06-13 ニューラルネットワークベースの声紋情報抽出方法及び装置

Country Status (5)

Country Link
US (1) US10176811B2 (ja)
EP (1) EP3469582B1 (ja)
JP (1) JP6993353B2 (ja)
CN (1) CN107492382B (ja)
WO (1) WO2017218465A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
CN108257592A (zh) * 2018-01-11 2018-07-06 广州势必可赢网络科技有限公司 一种基于长短期记忆模型的人声分割方法及系统
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108461085A (zh) * 2018-03-13 2018-08-28 南京邮电大学 一种短时语音条件下的说话人识别方法
US11842741B2 (en) * 2018-03-15 2023-12-12 Nec Corporation Signal processing system, signal processing device, signal processing method, and recording medium
CN108806696B (zh) * 2018-05-08 2020-06-05 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN108831487B (zh) * 2018-06-28 2020-08-18 深圳大学 声纹识别方法、电子装置及计算机可读存储介质
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
CN109065069B (zh) * 2018-10-10 2020-09-04 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109545226B (zh) * 2019-01-04 2022-11-22 平安科技(深圳)有限公司 一种语音识别方法、设备及计算机可读存储介质
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
US10861443B2 (en) 2019-03-28 2020-12-08 Eta Compute, Inc. Continuous speech recognition using dual neural networks
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
US11854562B2 (en) 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN111951809B (zh) * 2019-05-14 2024-06-21 深圳市金桐科技有限公司 多人声纹辨别方法及系统
CN110379412B (zh) * 2019-09-05 2022-06-17 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
CN110782904A (zh) * 2019-11-07 2020-02-11 四川长虹电器股份有限公司 智能语音设备的用户账号切换方法
CN111145736B (zh) * 2019-12-09 2022-10-04 华为技术有限公司 语音识别方法及相关设备
CN113223536B (zh) * 2020-01-19 2024-04-19 Tcl科技集团股份有限公司 声纹识别方法、装置及终端设备
CN111326161B (zh) * 2020-02-26 2023-06-30 北京声智科技有限公司 一种声纹确定方法及装置
CN111489756B (zh) * 2020-03-31 2024-03-01 中国工商银行股份有限公司 一种声纹识别方法及装置
CN111341322A (zh) * 2020-04-15 2020-06-26 厦门快商通科技股份有限公司 一种声纹模型训练方法和装置以及设备
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111599351A (zh) * 2020-04-30 2020-08-28 厦门快商通科技股份有限公司 一种语音识别方法和装置以及设备
CN113948089B (zh) * 2020-06-30 2024-06-14 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
CN114333767A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 发声者语音抽取方法、装置、存储介质及电子设备
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN112767950A (zh) * 2021-02-24 2021-05-07 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN113160850A (zh) * 2021-04-27 2021-07-23 广州国音智能科技有限公司 一种基于重参数化的解耦方式的音频特征提取方法及装置
CN113299295B (zh) * 2021-05-11 2022-12-30 支付宝(杭州)信息技术有限公司 声纹编码网络的训练方法及装置
CN116415166A (zh) * 2021-12-28 2023-07-11 深圳大学 多键盘混合按键声音的识别方法、装置、设备及存储介质
CN116798400A (zh) * 2022-03-11 2023-09-22 保时捷(上海)数字科技有限公司 基于计算机程序实现的语音合成方法和系统
CN115083422B (zh) * 2022-07-21 2022-11-15 中国科学院自动化研究所 语音溯源取证方法及装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9230550B2 (en) 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9502038B2 (en) 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9640186B2 (en) * 2014-05-02 2017-05-02 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
US10013973B2 (en) * 2016-01-18 2018-07-03 Kabushiki Kaisha Toshiba Speaker-adaptive speech recognition
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GHALEHJEGH, Sina Hamidi ;ROSE, Richard C.,Deep bottleneck features for i-vector based text-independent speaker verification,2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),IEEE,2015年12月13日,pp.555-560
VARIANI, Ehsan, et al.,Deep neural networks for small footprint text-dependent speaker verification,2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2014年05月04日,pp.4052-4056
張 兆峰、外4名,DNNに基づく特徴変換による残響環境話者認識,電子情報通信学会技術研究報告 SP2014-119,Vol.114 No.365,一般社団法人 電子情報通信学会,2014年12月08日

Also Published As

Publication number Publication date
EP3469582A4 (en) 2019-11-06
CN107492382A (zh) 2017-12-19
US10176811B2 (en) 2019-01-08
US20170358306A1 (en) 2017-12-14
WO2017218465A1 (en) 2017-12-21
EP3469582A1 (en) 2019-04-17
EP3469582B1 (en) 2022-04-06
JP2019522810A (ja) 2019-08-15
CN107492382B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
JP7023934B2 (ja) 音声認識方法及び装置
CN106688034B (zh) 具有情感内容的文字至语音转换
US9818431B2 (en) Multi-speaker speech separation
CN110276259A (zh) 唇语识别方法、装置、计算机设备及存储介质
US10726326B2 (en) Learning of neural network
US9558741B2 (en) Systems and methods for speech recognition
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
WO2018192186A1 (zh) 语音识别方法及装置
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
EP3910625A2 (en) Method and apparatus for utterance time estimation
Ferrer et al. Spoken language recognition based on senone posteriors.
JPWO2019176986A1 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
JP2017003622A (ja) 声質変換方法および声質変換装置
CN114730563A (zh) 使用视听匹配对自动语音识别假设进行重新评分
CN112397093A (zh) 一种语音检测方法与装置
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211209

R150 Certificate of patent or registration of utility model

Ref document number: 6993353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150