JP6993353B2

JP6993353B2 - ニューラルネットワークベースの声紋情報抽出方法及び装置

Info

Publication number: JP6993353B2
Application number: JP2018559969A
Authority: JP
Inventors: シュエシャオフェイ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-13
Filing date: 2017-06-13
Publication date: 2022-01-13
Anticipated expiration: 2037-06-13
Also published as: EP3469582A4; CN107492382A; US10176811B2; US20170358306A1; WO2017218465A1; EP3469582A1; EP3469582B1; JP2019522810A; CN107492382B

Description

関連特許出願の相互参照
本出願は、２０１６年６月１３日に出願された「ＮｅｕｒａｌＮｅｔｗｏｒｋ－ＢａｓｅｄＶｏｉｃｅｐｒｉｎｔＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓ」と題する中国特許出願第２０１６１０４２１９０８．９号への外国優先権を主張するものであり、その全体が参照により本明細書によって援用される。

本開示は、コンピュータの分野に関し、特に、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置に関する。

声紋情報は、一般的に話者を表すことが可能である情報に関し、音声波形を通して話者の生理学的及びビヘイビア特性を反映する一種の音声情報である。声紋情報は、発話認識における、話者認識、話者検証、及び話者自己適応などのタスクに広範に適用されることができる。声紋情報の迅速で効果的な抽出は、前述のタスクのパフォーマンスを改善するために非常に重要である。

ｉベクトルは、話者認識の主流の技術である。ｉベクトルにおいて、各話者は、異なる話者の中から区別可能であるベクトルを有する。

一般的に、ｉベクトルは、話者空間及びチャネル空間を別々にモデル化し、計算用に変化する因子を代入する必要があることにより、声紋情報を表すベクトルは、入力音声から抽出されることが可能である。そのトレーニング及び声紋情報抽出のプロセスは、比較的に複雑である。

この発明の概要は、発明を実施するための形態において以下にさらに説明される簡略化された形態で概念の選択を導入するために提供される。この発明の概要は、特許請求された主題のすべての重要な特徴または本質的な特徴を特定することを意図するものではなく、特許請求された主題の範囲を決定する際の助けとして単独で使用されることを意図するものでもない。用語「技法」は、上記文脈によって及び本開示全体を通して許容されるような、たとえば、デバイス（複数可）、システム（複数可）、方法（複数可）及び／またはコンピュータ可読命令を指し得る。

本開示の目的は、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置を提供すること、声紋情報を抽出するプロセスを簡略化することである。

実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出方法を提供する。この方法は、入力音声セグメントから１つ以上の音声音響特徴を抽出することと、ニューラルネットワークに基づきトレーニングされる声紋モデルに１つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することと、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることとを備え、この単一フレームの声紋表現ベクトルは、入力音声セグメントに対応する声紋情報として機能することができる。

実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得することを備えることができる。

実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのｉベクトルモデルを構築すること、このｉベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。

実施態様において、方法は、ニューラルネットワークをトレーニングすることをさらに備えることができ、このトレーニングすることは、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用すること、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用すること、ニューラルネットワークを介して入力データを分類して分類結果と出力データとの間の対応関係を比較し、声紋モデルをトレーニングすることを備える。

実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備えることができる。

実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、全結合層、及び出力層を備えることができる。

実施態様において、ニューラルネットワークのボトルネック特徴は、声紋モデルの全結合層内の音声音響特徴の出力を備えることができる。

実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出装置をさらに提供する。これらの装置は、入力音声セグメントから１つ以上の音声音響特徴を抽出するように構成される音声音響特徴抽出モジュールと、ニューラルネットワークに基づきトレーニングされる声紋モデルに１つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出するように構成される処理モジュールと、入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングするように構成される声紋情報計算モジュールとを備えることができる。

実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得するようにさらに構成されることができる。

実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてｉベクトルモデルを構築し、このｉベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算するようにさらに構成されることができる。

実施態様において、装置は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングするように構成されるニューラルネットワークトレーニングモジュールをさらに備えることができる。

既存の技法と比較して、ニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを通して音声セグメントの声紋情報を抽出し、より良い方式において短時間の音声セグメントを処理することが可能である、比較的に簡単な抽出プロセスを有する。

本開示の実施形態による声紋モデルの構造図である。本開示の実施形態によるニューラルネットワークベースの声紋情報抽出方法のフローチャートである。本開示の実施形態によるニューラルネットワークベースの声紋情報抽出装置のモジュール図である。

本開示は、添付の図面に示されるように、例示的な実施態様を参照して以降本明細書中に詳細に説明される。しかしながら、これらの実施態様は、本開示を限定することを意図されない。当業者であれば、これらの実施態様に基づき構造、方法または機能へ変更を行うことができ、これらの変更は、本開示の保護範囲内にすべて入る。

声紋は、電気音響機器により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官（舌、歯、咽頭、肺、及び鼻腔）は、大きさや形状の観点で人によって著しく変わるため、いずれか２人の声紋は、異なる。

声紋情報は、フィルタ、モデルなどの手段により抽出される情報であり、これは、話者を表し、極めて識別可能な声紋表現をもっている。声紋情報は、声紋認識システム、すなわち、話者認識及び検証により使用されることができる。前者は、複数の人の中からどの人が特定の発話セグメントの話者であるかを決定するために使用され、「複数の選択肢から１つを選択する」問題である。後者は、発話セグメントが指定された人により話されているかどうかを検証するために使用され、「１対１の裁量」問題である。異なるタスク及びアプリケーションは、異なる声紋認識技法を使用することができる。たとえば、犯罪捜査の範囲を縮小させる認識技法を必要とする可能性があり、銀行取引を行うときに検証技法を必要とする。

また声紋情報は、発話認識についての話者自己適応システムに使用されることができる。話者自己適応システムは、話者に関連する音声特徴を話者に関連しない音声特徴に変換し、または話者に関連しない声紋モデルを話者に関連する声紋モデルに変換し、より良い方式において、標的話者の音声特徴を試験し、その声紋モデルにマッチングさせるので、より良い認識効果を取得することが可能である。これらの変換を達成する重要な手法は、話者の音声の声紋情報を抽出することである。

本開示は、ニューラルネットワークに基づきトレーニングされる声紋モデルを使用して、音声の声紋情報を抽出する。これは、抽出及びモデリングのプロセスを極めて簡略化し、抽出された声紋情報は、比較的に高品質を有する。

図１は、声紋情報を抽出するための声紋モデルを示す。声紋モデルは、本開示に従い、ニューラルネットワーク１００に基づきトレーニングされる。実施態様において、下から上に開始する順序に従い、ニューラルネットワーク１００は、１層の入力層１０２、１層以上の双方向リカレントニューラルネットワーク層１０４、１層以上の全結合層１０８、及び１層の出力層１１０を備えることができる。換言すれば、ニューラルネットワーク１００に入るデータは、１層の入力層１０２、１層以上の双方向リカレントニューラルネットワーク層１０４、１層以上の全結合層１０８、及び１層の出力層１１０を連続して通過する。実施態様において、全結合層は、少なくとも１層の全結合層を含む。

実施態様において、ニューラルネットワークは、双方向リカレントニューラルネットワーク層（双方向ＲＮＮ）、すなわち、順伝播層及び逆伝播層を含むＢＬＳＴＭネットワークを用いることができる。したがって、声紋モデル内で抽出されるニューラルネットワークのボトルネック特徴がより正確であるように、全体の時間シーケンスに順及び逆時間フレームを合わせて使用して、現在の時間フレームの音声音響特徴を分析する。

別の実施態様において、下から上に開始する順序に従い、ニューラルネットワーク１００は、１層の入力層１０２、１層以上の双方向リカレントニューラルネットワーク層１０４、１層以上の畳み込みニューラルネットワーク層１０６、１層以上の全結合層１０８、及び１層の出力層１１０を備えることができる。換言すれば、ニューラルネットワーク１００に入るデータは、１層の入力層１０２、１層以上の双方向リカレントニューラルネットワーク層１０４、１層以上の畳み込みニューラルネットワーク層１０６、１層以上の全結合層１０８、及び１層の出力層１１０を連続して通過する。

ニューラルネットワークのより良いボトルネック特徴をより大きなステージにおいて抽出することができるように、現在の実施態様は、前の実施態様に基づいて畳み込みニューラルネットワーク層（ＣＮＮ）１０６をさらに加え、複数のフレームの音声音響特徴をより少ない数のフレームに結合することができるので、この方式においてフレームレートを低下させる。

当業者は、既存の技法を使用して、上文のニューラルネットワークアーキテクチャ、たとえば、双方向リカレントニューラルネットワーク、畳み込みニューラルネットワーク、及び全結合ネットワークにおけるさまざまな層に伴われるネットワーク構造及び特性を理解し、これらに精通することが可能であるため、その詳細は、本明細書に冗長に記述されない。以降本明細書において、ニューラルネットワークに基づき声紋情報を抽出する方法を開示する。

さらに、声紋情報を抽出する前に、ニューラルネットワークは、最初にトレーニングされる必要がある。実施態様において、ＧＰＵアクセラレーションを使用して、ニューラルネットワークが声紋モデルのトレーニングを受ける。その方法は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることを備えることができる。

実施態様において、話者は、分類ラベルとして使用される、すなわち、１人の話者は、少なくとも１つのトレーニングする音声セグメントに対応する。ニューラルネットワークをトレーニングする手法は、多数のトレーニングする音声セグメントをニューラルネットワークに入力し、このニューラルネットワークによる分類を実行すること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類する（すなわち、分類結果は出力データに対応する）場合に１として分類にマーク付けすること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類することに失敗した（すなわち、分類結果は出力データに対応しない）場合に０としてこの分類にマーク付けすること、及びすべてのトレーニングする音声セグメントがこの方式において分類された後に、ニューラルネットワークが正確に分類を実行することが可能になるまで、またはその分類精度が所定の閾値を超えるまで、分析的トレーニングについての分類ラベルを参照して再度ニューラルネットワークに入力データを代入し、つぎにニューラルネットワークを声紋モデルとして設定することを備えることができる。

図２に示されるように、実施態様において、ニューラルネットワークベースの声紋情報抽出方法２００は、つぎの操作を含むことができる。

Ｓ２０２は、音声音響特徴を入力音声セグメントから抽出する。

Ｓ２０４は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出する。

Ｓ２０６は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングする。

実施態様において、音声セグメントは、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。音声音響特徴は、音声セグメントの、メル周波数ケプストラム係数（ＭＦＣＣ）、知覚線形予測（ＰＬＰ）係数、フィルタバンク特徴などを有することができる。外見上、音声音響特徴は、音声セグメントの、元の、または生の発話データであることもできる。

音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される１つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、１層の入力層、１層以上の双方向リカレントニューラルネットワーク層、１層以上の畳み込みニューラルネットワーク層、及び１層以上の全結合層を連続して通過する。

実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、たとえば、声紋モデル内の全結合層の出力である。実施態様において、ニューラルネットワークをトレーニングするときに、特定の層は、ニューラルネットワーク内の他の層より少ない数のノードを含むように選択されることができる。たとえば、特定の層は、数百個のノード（２００個のノードなど）を含むことができ、他の層は、数千個のノード（たとえば、２０００個のノード）を含むことができる。この特定の層は、他の層のこれらと比較してより少ない数のノードを含むように選択され、ボトルネック層と称される。実施態様において、ボトルネック特徴は、ボトルネック層の出力であり、特徴のグループをトレーニングされたニューラルネットワーク（たとえば、上文に記述されるようなニューラルネットワーク）に入力した後に、この特徴のグループにより表現される情報の新規の表現として取られる。

この方式において、声紋情報を表すベクトルのグループを取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント（たとえば、３ｓ）の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。

さらに、実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り（たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り）、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。実施態様において、単一フレームの声紋表現ベクトルは、ニューラルネットワークのボトルネック特徴のフレームベクトルに含まれる情報の表現または具体的表現であり、単一フレームの声紋表現ベクトルは、抽出される声紋情報の抽象化を有する、または抽象化に対応する。

実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのｉベクトルモデルを構築すること、このｉベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のｉベクトルを使用することによりモデル化され、このｉベクトルモデルを使用してｉベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の、短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のｉベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。

図３は、図１に示されるニューラルネットワーク構造も適用可能である、本開示による例示的なニューラルネットワークベースの声紋情報抽出装置３００を示す。実施態様において、装置３００は、１つ以上のプロセッサ３０２、入出力（Ｉ／Ｏ）インターフェイス３０４、ネットワークインターフェイス３０６、及びメモリ３０８を含むことができる。

メモリ３０８は、コンピュータ可読媒体、たとえば、非永続的なストレージデバイス、ランダムアクセスメモリ（ＲＡＭ）、及び／または不揮発性内部ストレージ、たとえば、読み取り専用メモリ（ＲＯＭ）またはフラッシュＲＡＭの形態を含み得る。メモリ３０８は、コンピュータ可読媒体の実施例である。

コンピュータ可読媒体は、永続的な、または非永続的な種類の、取り外し可能な、または取り外し不可能な媒体を含むことができ、それは、任意の方法または技術を使用して情報のストレージを達成し得る。この情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを含み得る。コンピュータ記憶媒体の実施例は、限定されるものではないが、相変化メモリ（ＰＲＡＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、他の種類のランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電子的に消去可能でプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、高速フラッシュメモリ若しくは他の内部記憶技術、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）若しくは他の光ストレージ、磁気カセットテープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、または任意の他の非伝送媒体を含み、それらは、コンピューティングデバイスによってアクセスされ得る情報を記憶するために使用され得る。本明細書に定義されるように、コンピュータ可読媒体は、一時的な媒体、たとえば、変調データ信号及び搬送波を含まない。説明の容易さのために、システムは、機能に基づくさまざまなタイプのユニットに分割され、これらのユニットは、上文の説明に別々に記述される。外見上、さまざまなユニットの機能は、本開示の実施中に、１つ以上のソフトウェア及び／またはハードウェアコンポーネント内に実装されることができる。

メモリ３０８は、プログラムモジュール３１０及びプログラムデータ３１２を含み得る。実施態様において、プログラムモジュール３１０は、ニューラルネットワークトレーニングモジュール３１４、音声音響特徴抽出モジュール３１６、処理モジュール３１８、及び声紋情報計算モジュール３２０を含むことができる。

実施態様において、声紋情報を抽出する前に、ニューラルネットワークトレーニングモジュール３１４は、たとえば、ニューラルネットワークを迅速にトレーニングするためにＧＰＵアクセラレーションを使用して、ニューラルネットワークをトレーニングすることができる。たとえば、ニューラルネットワークトレーニングモジュール３１４は、トレーニングする音声セグメントから抽出される音声音響特徴（音声音響特徴抽出モジュール３１６を使用して抽出されることができる）をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることができる。

実施態様において、音声音響特徴抽出モジュール３１６は、音声音響特徴を入力音声セグメントから抽出することができる。処理モジュール３１８は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、この声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することができる。声紋情報計算モジュール３２０は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることができる。

音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される１つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、及び全結合層を連続して通過する。

実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、すなわち、声紋モデル内の全結合層の出力である。この方式において、声紋情報を表すベクトルのグループを、取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント（たとえば、３ｓ）の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。

実施態様において、声紋情報計算モジュール３２０は、ニューラルネットワークのボトルネック特徴のフレームベクトルにさらに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り（たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り）、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。

実施態様において、声紋情報計算モジュール３２０は、ニューラルネットワークのボトルネック特徴のフレームベクトルについてｉベクトルモデルをさらに構築し、このｉベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のｉベクトルを使用することによりモデル化され、このｉベクトルモデルを使用してｉベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のｉベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。

上記を鑑みて、本開示のニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを介して音声セグメントから声紋情報を抽出するので、声紋モデルをトレーニングし、声紋情報を抽出するプロセスは、比較的に簡単である。さらに、ニューラルネットワークの特性により、声紋モデルは、より良い方式において、短時間の音声セグメント及びノイズのある環境内の音声セグメントを処理することが可能である。このようなものとして、抽出された声紋情報は、より良いパフォーマンスを有する。

当業者は、前述の方法の実装に対応するプロセスを参照して、上述される、装置の特定の作業プロセス、装置及びモジュールを取得することができ、説明の明瞭さのために、本明細書に繰り返し記述されないことを明らかに理解することが可能である。

本開示に提供される実施態様において、開示された装置及び方法を他の方式において実装することができることを理解するであろう。たとえば、前述の装置の実施態様は、例示に過ぎない。たとえば、前述のモジュールの分割は、論理関数の分割に過ぎず、実際の実施中に別の分割方式を使用することができる。たとえば、複数のモジュールまたはコンポーネントは、組み合わされることができる、若しくは別の装置に統合されることができる、またはいくつかの機能は、省略される、若しくは実行されないことができる。他方で、開示された、または考察された相互結合または直接結合または通信接続は、いくつかのインターフェイス、装置またはモジュールを介して実装される間接結合または通信接続であることができ、電気の、機械の、または他の形態にあることができる。

別々のコンポーネントとして記述されるモジュールは、物理的に別々であってもよいし、別々でなくてもよい。モジュールとして記述されるコンポーネントは、物理的なモジュールであってもよいし、物理的なモジュールでなくてもよい、すなわち、単一の位置に設置される、または複数のネットワークモジュール間に分散されることができる。実施形態の解決策の目的は、実際の要件に従いそのモジュールのうちのいくつかを、またはすべてを選択することにより実施されることができる。

加えて、本開示の実施態様における機能モジュールは、決定モジュールに統合されることができる。代替に、これらのモジュールは、物理的に個々のエンティティとして存在することもできる。代替に、２つ以上のモジュールは、単一のモジュールに統合される。統合されたモジュールは、ハードウェアの形で、またはハードウェア及びソフトウェア機能モジュール（複数可）の組み合わせの形で実現され得る。

統合されたモジュールは、ソフトウェア機能モジュールの形で実現され、コンピュータ可読記憶媒体に格納され得る。ソフトウェア機能モジュールは、記憶媒体に格納され、コンピューティングデバイス（複数可）（パーソナルコンピュータ、サーバ、ネットワークデバイス、または同様のものであることができる）またはプロセッサ（複数可）が本開示の例示的な方法の操作の一部を実行することを可能にするために使用される複数の命令を含む。記憶媒体は、ＵＳＢフラッシュディスク、モバイルハードディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク、光ディスク、またはプログラムコードを格納することが可能である他の媒体を含むことができる。

最後に、本開示は、制限することよりもむしろ、本開示の技術的な解決策を説明するために前述の実施態様を使用されるに過ぎないことに留意するべきである。本開示は、前述の実施態様を参照して詳細に記述されるが、当業者は、彼らが上記の実施態様の技術的な解決策に変更を行う、または技術的な特徴のうちのいくつかに均等物の置換を実行することが依然として可能であることを理解するであろう。これらの変更または置換は、対応する技術的な解決策の本質を本開示の実施態様の技術的な解決策の趣旨及び範囲から逸脱させることを意図されない。

Claims

音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える、方法。
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項１に記載の方法。
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてｉベクトルモデルを構築すること、および
前記ｉベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項１に記載の方法。
前記方法は、前記ニューラルネットワークをトレーニングすることを備え、
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項１に記載の方法。
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項１または請求項４に記載の方法。
１つ以上のプロセッサと、
メモリと、
前記メモリに格納され、入力音声セグメントから１つ以上の音声音響特徴を抽出するように前記１つ以上のプロセッサにより実行可能である音声音響特徴抽出モジュールと、
前記メモリに格納され、ニューラルネットワークに基づきトレーニングされる声紋モデルに前記１つ以上の音声音響特徴を入力するように、前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出するように前記１つ以上のプロセッサにより実行可能である処理モジュールであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備え、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、処理モジュールと、
前記メモリに格納され、前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングするように前記１つ以上のプロセッサにより実行可能である声紋情報計算モジュールと、
を備える、装置。
前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項６に記載の装置。
前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてｉベクトルモデルを構築するように、また前記ｉベクトルモデルを使用して前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項６に記載の装置。
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用し、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用し、
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングする、
ように構成されるニューラルネットワークトレーニングモデルをさらに備える、請求項６に記載の装置。
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項６または請求項９に記載の装置。
１つ以上のコンピュータ可読媒体であって、１つ以上のプロセッサにより実行されるときに、
音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える動作を前記１つ以上のプロセッサに実行させる、実行可能な命令を格納する、前記１つ以上のコンピュータ可読媒体。
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項１１に記載の１つ以上のコンピュータ可読媒体。
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてｉベクトルモデルを構築すること、および
前記ｉベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項１１に記載の１つ以上のコンピュータ可読媒体。
前記動作は、前記ニューラルネットワークをトレーニングすることを備え、
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項１１に記載の１つ以上のコンピュータ可読媒体。
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項１１または請求項１４に記載の１つ以上のコンピュータ可読媒体。