[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7516571B2 - ホットワードしきい値自動チューニング - Google Patents

ホットワードしきい値自動チューニング Download PDF

Info

Publication number
JP7516571B2
JP7516571B2 JP2022576157A JP2022576157A JP7516571B2 JP 7516571 B2 JP7516571 B2 JP 7516571B2 JP 2022576157 A JP2022576157 A JP 2022576157A JP 2022576157 A JP2022576157 A JP 2022576157A JP 7516571 B2 JP7516571 B2 JP 7516571B2
Authority
JP
Japan
Prior art keywords
hot word
detector
stage
audio
detection threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022576157A
Other languages
English (en)
Other versions
JP2023531398A (ja
Inventor
アイシャニー・シャー
アレクサンダー・エイチ・グルエンスタイン
イアン・シー・マッグロー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023531398A publication Critical patent/JP2023531398A/ja
Priority to JP2024106150A priority Critical patent/JP2024153632A/ja
Application granted granted Critical
Publication of JP7516571B2 publication Critical patent/JP7516571B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、ホットワードしきい値自動チューニングに関する。
音声対応環境(例えば自宅、職場、学校、自動車など)は、ユーザがコンピュータベースのシステムにクエリまたはコマンドを声に出して話し、コンピュータベースのシステムがそのクエリに対応および回答し、かつ/またはそのコマンドに基づいて機能を実施することを可能にするものである。音声対応環境は、環境のさまざまな部屋またはエリア中に分散された、接続されたマイクロホンデバイスのネットワークを使用して実装することができる。これらのデバイスは、ホットワードを使用して、環境内に存在する別の個人に向けられた発話ではなく、所与の発話がシステムに向けられたときを識別するのを助けている。したがって、デバイスは、スリープ状態またはハイバネーション状態において動作し、検出された発話がホットワードを含むときにのみウェークアップしてもよい。典型的には、ストリーミングオーディオ内でホットワードを検出するために使用されるシステムは、ストリーミングオーディオ内にホットワードが存在する確度を示す確度スコア(probability score)を生成する。確度スコアが所定のしきい値を満足するとき、デバイスはウェークアッププロセスを開始する。
本開示の一態様は、ホットワードしきい値自動チューニングのための方法を提供する。方法は、データ処理ハードウェアにおいて、第1段ホットワード検出器を実行しているユーザデバイスから、ユーザデバイスによってキャプチャされたストリーミングオーディオ内で第1段ホットワード検出器によって検出されたホットワードを特徴付けるオーディオデータを受信することを含む。第1段ホットワード検出器は、ユーザデバイスによってキャプチャされたストリーミングオーディオのオーディオ特徴内にホットワードが存在するかどうかを示す確度スコアを生成すること、および確度スコアが第1段ホットワード検出器のホットワード検出しきい値を満足するとき、ストリーミングオーディオ内でホットワードを検出することを行うように構成される。
方法は、データ処理ハードウェアによって、第2段ホットワード検出器を使用してオーディオデータを処理して、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されるかどうかを判定することも含む。ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、方法は、データ処理ハードウェアによって、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを含む。
方法は、データ処理ハードウェアによって、ユーザデバイスの第1段ホットワード検出器に関連する他人受入レートが、他人受入レートしきい値を満足するかどうかを判定することも含む。他人受入レートは、第1段ホットワード検出器において他人受入期間内に識別された、いくつかの他人受入事例に基づく。第1段ホットワード検出器に関連する他人受入レートが、他人受入レートしきい値を満足するとき、方法は、データ処理ハードウェアによって、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。
本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、方法は、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、データ処理ハードウェアによって、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するための、ユーザデバイス上でのウェークアッププロセスを抑制することをさらに含む。いくつかの例では、方法は、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、データ処理ハードウェアによって、ストリーミングオーディオ内でホットワードの後に続く音声によるクエリ(spoken query)を特徴付ける後続のオーディオデータが、ユーザデバイスから受信されるかどうかを判定することをさらに含む。音声によるクエリを特徴付ける後続のオーディオデータがユーザデバイスから受信されないとき、方法は、データ処理ハードウェアによって、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを含んでもよい。
オプションで、方法は、音声によるクエリを特徴付ける後続のオーディオがユーザデバイスから受信されたとき、データ処理ハードウェアによって、音声によるクエリを処理することをさらに含む。ユーザデバイスは、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを検出したとき、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成されていてもよい。第1段ホットワード検出器のホットワード検出しきい値を調整することは、いくつかの例では、ホットワード検出しきい値の値を増加させることを含む。
方法は、第1段ホットワード検出器によってストリーミングオーディオ内で検出されたホットワードを特徴付けるオーディオデータを受信するとき、データ処理ハードウェアにおいて、ホットワード検出しきい値をしきい値マージン分だけ満足することのできなかった以前の確度スコアを第1段ホットワード検出器が生成した後のしきい値期間内に、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを検出したことを示すニアミス標識を、ユーザデバイスから受信することをさらに含んでもよい。以前の確度スコアは、ユーザデバイスによってキャプチャされたストリーミングオーディオの以前のオーディオ特徴内にホットワードが存在するかどうかを示す。
ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、方法は、データ処理ハードウェアによって、ニアミス標識に基づいて、第1段ホットワード検出器がストリーミングオーディオの以前のオーディオ特徴内でホットワードを最初に検出できなかったことを示す、第1段ホットワード検出器における本人拒否事例を識別することと、データ処理ハードウェアによって、ユーザデバイスの第1段ホットワード検出器に関連する本人拒否レートが、本人拒否レートしきい値を満足するかどうかを判定することとを含んでもよい。本人拒否レートは、第1段ホットワード検出器において本人拒否期間内に識別された、いくつかの本人拒否事例に基づく。第1段ホットワード検出器に関連する本人拒否レートが、本人拒否レートしきい値を満足するとき、方法は、データ処理ハードウェアによって、第1段ホットワード検出器のホットワード検出しきい値を調整することを含んでもよい。いくつかの例では、ホットワード検出しきい値を調整することは、第1段ホットワード検出器のホットワード検出しきい値を減少させることを含む。
本開示の別の態様は、ホットワードしきい値自動チューニングを行うための別の方法を提供する。方法は、ユーザデバイスのデータ処理ハードウェアにおいて、このデータ処理ハードウェアと通信する1つまたは複数のマイクロホンによってキャプチャされたストリーミングオーディオを受信することを含む。方法は、データ処理ハードウェアによって、第1段ホットワード検出器を使用して、ストリーミングオーディオのオーディオ特徴内にホットワードが存在するかどうかを示す確度スコアを生成することも含む。方法は、データ処理ハードウェアによって、確度スコアがホットワード検出しきい値を満足するかどうかを判定することを含む。
確度スコアがホットワード検出しきい値を満足するとき、方法は、データ処理ハードウェアによって、ストリーミングオーディオ内でホットワードを検出することと、データ処理ハードウェアによって、第1段ホットワード検出器を使用してストリーミングオーディオ内で検出されたホットワードを特徴付けるオーディオデータを、第2段ホットワード検出器を実行しているリモートコンピューティングデバイスに送信することとを含む。リモートコンピューティングデバイスは、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されるかどうかを判定すること、およびホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを行うように構成される。第1段ホットワード検出器において他人受入期間内に識別された、いくつかの他人受入事例に基づく他人受入レートが、他人受入レートしきい値を満足するとき、方法は、データ処理ハードウェアによって、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。
この態様は、以下のオプションの特徴のうちの1つまたは複数を含んでもよい。第1段ホットワード検出器のホットワード検出しきい値を調整することは、ホットワード検出しきい値の値を増加させることを含んでもよい。いくつかの例では、確度スコアがホットワード検出しきい値を満足するとき、方法は、データ処理ハードウェアによって、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するための、ユーザデバイス上でのウェークアッププロセスを開始することを含む。ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、方法は、データ処理ハードウェアによって、ユーザデバイス上でのウェークアッププロセスを抑制することを含んでもよい。
いくつかの例では、方法は、確度スコアがホットワード検出しきい値を満足するとき、データ処理ハードウェアによって、ホットワード検出しきい値をしきい値マージン分だけ満足することのできない以前の確度スコアが、第1段ホットワード検出器によって、ストリーミングオーディオ内でホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定することをさらに含む。方法は、データ処理ハードウェアによって、ニアミス標識をリモートコンピューティングデバイスに送信することを含んでもよい。
リモートコンピューティングデバイスは、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、ニアミス標識に基づいて、第1段ホットワード検出器における本人拒否事例を識別することを行うように構成されていてもよい。本人拒否事例は、第1段ホットワード検出器がストリーミングオーディオの以前のオーディオ特徴内でホットワードを最初に検出できなかったことを示す。第1段ホットワード検出器において本人拒否期間内に識別された、いくつかの本人拒否事例に基づく本人拒否レートが、本人拒否しきい値を満足するとき、方法は、いくつかの実装形態では、データ処理ハードウェアによって、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。オプションで、ホットワード検出しきい値を調整することは、ホットワード検出しきい値の値を減少させることを含む。
本開示の別の態様は、ホットワードしきい値自動チューニングを行うためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは命令を記憶し、命令は、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる。動作は、第1段ホットワード検出器を実行しているユーザデバイスから、ユーザデバイスによってキャプチャされたストリーミングオーディオ内で第1段ホットワード検出器によって検出されたホットワードを特徴付けるオーディオデータを受信することを含む。第1段ホットワード検出器は、ユーザデバイスによってキャプチャされたストリーミングオーディオのオーディオ特徴内にホットワードが存在するかどうかを示す確度スコアを生成すること、および確度スコアが第1段ホットワード検出器のホットワード検出しきい値を満足するとき、ストリーミングオーディオ内でホットワードを検出することを行うように構成される。
動作は、第2段ホットワード検出器を使用してオーディオデータを処理して、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されるかどうかを判定することも含む。ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、動作は、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを含む。
動作は、ユーザデバイスの第1段ホットワード検出器に関連する他人受入レートが、他人受入レートしきい値を満足するかどうかを判定することも含む。他人受入レートは、第1段ホットワード検出器において他人受入期間内に識別された、いくつかの他人受入事例に基づく。第1段ホットワード検出器に関連する他人受入レートが、他人受入レートしきい値を満足するとき、動作は、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。
本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、動作は、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するための、ユーザデバイス上でのウェークアッププロセスを抑制することをさらに含む。いくつかの例では、動作は、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、ストリーミングオーディオ内でホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータが、ユーザデバイスから受信されるかどうかを判定することをさらに含む。音声によるクエリを特徴付ける後続のオーディオデータがユーザデバイスから受信されないとき、動作は、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを含んでもよい。
オプションで、動作は、音声によるクエリを特徴付ける後続のオーディオがユーザデバイスから受信されたとき、音声によるクエリを処理することをさらに含む。ユーザデバイスは、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを検出したとき、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成されていてもよい。第1段ホットワード検出器のホットワード検出しきい値を調整することは、いくつかの例では、ホットワード検出しきい値の値を増加させることを含む。
動作は、第1段ホットワード検出器によってストリーミングオーディオ内で検出されたホットワードを特徴付けるオーディオデータを受信するとき、ホットワード検出しきい値をしきい値マージン分だけ満足することのできなかった以前の確度スコアを第1段ホットワード検出器が生成した後のしきい値期間内に、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを検出したことを示すニアミス標識を、ユーザデバイスから受信することをさらに含んでもよい。以前の確度スコアは、ユーザデバイスによってキャプチャされたストリーミングオーディオの以前のオーディオ特徴内にホットワードが存在するかどうかを示す。
ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、動作は、ニアミス標識に基づいて、第1段ホットワード検出器がストリーミングオーディオの以前のオーディオ特徴内でホットワードを最初に検出できなかったことを示す、第1段ホットワード検出器における本人拒否事例を識別することと、ユーザデバイスの第1段ホットワード検出器に関連する本人拒否レートが、本人拒否レートしきい値を満足するかどうかを判定することとを含んでもよい。本人拒否レートは、第1段ホットワード検出器において本人拒否期間内に識別された、いくつかの本人拒否事例に基づく。第1段ホットワード検出器に関連する本人拒否レートが、本人拒否レートしきい値を満足するとき、動作は、第1段ホットワード検出器のホットワード検出しきい値を調整することを含んでもよい。いくつかの例では、ホットワード検出しきい値を調整することは、第1段ホットワード検出器のホットワード検出しきい値を減少させることを含む。
本開示の別の態様は、ホットワードしきい値自動チューニングを行うための別のシステムを提供する。システムは、ユーザデバイスのデータ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは命令を記憶し、命令は、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる。動作は、データ処理ハードウェアと通信する1つまたは複数のマイクロホンによってキャプチャされたストリーミングオーディオを受信することを含む。動作は、第1段ホットワード検出器を使用して、ストリーミングオーディオのオーディオ特徴内にホットワードが存在するかどうかを示す確度スコアを生成することも含む。動作は、確度スコアがホットワード検出しきい値を満足するかどうかを判定することを含む。
確度スコアがホットワード検出しきい値を満足するとき、動作は、ストリーミングオーディオ内でホットワードを検出することと、第1段ホットワード検出器を使用してストリーミングオーディオ内で検出されたホットワードを特徴付けるオーディオデータを、第2段ホットワード検出器を実行しているリモートコンピューティングデバイスに送信することとを含む。リモートコンピューティングデバイスは、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されるかどうかを判定すること、およびホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、第1段ホットワード検出器がストリーミングオーディオ内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別することを行うように構成される。
第1段ホットワード検出器において他人受入期間内に識別された、いくつかの他人受入事例に基づく他人受入レートが、他人受入レートしきい値を満足するとき、動作は、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。
この態様は、以下のオプションの特徴のうちの1つまたは複数を含んでもよい。第1段ホットワード検出器のホットワード検出しきい値を調整することは、ホットワード検出しきい値の値を増加させることを含んでもよい。いくつかの例では、確度スコアがホットワード検出しきい値を満足するとき、動作は、ホットワードおよび/またはストリーミングオーディオ内でホットワードの後に続く1つもしくは複数の他の語を処理するための、ユーザデバイス上でのウェークアッププロセスを開始することを含む。ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されないとき、動作は、ユーザデバイス上でのウェークアッププロセスを抑制することを含んでもよい。
いくつかの例では、動作は、確度スコアがホットワード検出しきい値を満足するとき、ホットワード検出しきい値をしきい値マージン分だけ満足することのできない以前の確度スコアが、第1段ホットワード検出器によって、ストリーミングオーディオ内でホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定することをさらに含む。動作は、ニアミス標識をリモートコンピューティングデバイスに送信することを含んでもよい。
リモートコンピューティングデバイスは、ホットワードが第2段ホットワード検出器によってオーディオデータ内で検出されたとき、ニアミス標識に基づいて、第1段ホットワード検出器における本人拒否事例を識別することを行うように構成されていてもよい。本人拒否事例は、第1段ホットワード検出器がストリーミングオーディオの以前のオーディオ特徴内でホットワードを最初に検出できなかったことを示す。第1段ホットワード検出器において本人拒否期間内に識別された、いくつかの本人拒否事例に基づく本人拒否レートが、本人拒否しきい値を満足するとき、動作は、いくつかの実装形態では、第1段ホットワード検出器のホットワード検出しきい値を調整することを含む。オプションで、ホットワード検出しきい値を調整することは、ホットワード検出しきい値の値を減少させることを含む。
本開示の1つまたは複数の実装形態の詳細については、添付の図面および下の説明において記載される。他の態様、特徴、および利点が、説明および図面から、また特許請求の範囲から明らかとなろう。
ホットワードしきい値自動チューニングを行う例示的なシステムの概略図である。 ホットワード検出しきい値調整器の例示的なコンポーネントの概略図である。 他人受入カウントをインクリメントするホットワード検出しきい値調整器の概略図である。 例示的な他人受入事例の概略図である。 例示的な本人拒否事例の概略図である。 例示的な本人拒否事例の概略図である。 ホットワードしきい値自動チューニングを行う方法の動作の例示的な構成のフローチャートである。 しきい値自動チューニングを行う方法の動作の別の例示的な構成のフローチャートである。 本明細書において説明されるシステムおよび方法を実装するために使用されてもよい例示的なコンピューティングデバイスの概略図である。
さまざまな図面中の同様の参照符号は、同様の要素を示す。
ボイス対応デバイス(例えばボイスアシスタントを実行するユーザデバイス)は、ユーザがクエリまたはコマンドを声に出して話し、そのクエリに対応および回答し、かつ/またはそのコマンドに基づいて機能を実施することを可能にするものである。ボイス対応デバイスの注意を呼び起こすために話される所定の語/句が取り決めによりリザーブされている、(「キーワード」、「アテンションワード」、「ウェークアップフェーズ/ワード」、「トリガフェーズ」、または「ボイスアクション開始コマンド」とも呼ばれる)「ホットワード」の使用を通じて、ボイス対応デバイスは、システムに向けられた(すなわち発話内でホットワードの後に続く1つまたは複数の語を処理するためのウェークアッププロセスを開始するための)発話と、環境内の個人に向けられた発話とを識別することが可能である。典型的には、ボイス対応デバイスは、電力を節約するためにスリープ状態において動作し、話されたホットワードの後に入力オーディオデータが続かない限り、入力オーディオデータを処理しない。例として、スリープ状態にある間、ボイス対応デバイスは、1つまたは複数のマイクロホンを介して入力オーディオをキャプチャし、入力オーディオ内にホットワードが存在するかどうかを検出するためにトレーニングされたホットワード検出器を使用する。入力オーディオ内でホットワードが検出されたとき、ボイス対応デバイスは、ホットワードおよび/またはホットワードの後に続く入力オーディオ内の他の任意の語を処理するためのウェークアッププロセスを開始する。
ホットワード検出は、干し草の山の中にある1本の針を探すことに似ており、というのも、ホットワード検出器は、ストリーミングオーディオを絶えずリスンして、ストリーミングオーディオの大部分を無視しながらストリーミングオーディオ内のホットワードの存在が検出されたときを正確かつ瞬時にトリガしなければならないためである。連続したオーディオストリーム内にホットワードが存在するかどうかを検出する複雑さに対処するために、ホットワード検出器によってニューラルネットワークが一般に用いられる。典型的には、ニューラルネットワークは、受信したストリーミングオーディオに基づいて、ストリーミングオーディオ内にホットワードが存在するかどうかを示す確度スコアを生成する。ホットワード検出器が、確度スコアが検出しきい値を満足するかどうかを判定する。確度スコアが検出しきい値を満足するとき、ホットワード検出器は、ストリーミングオーディオ内にホットワードが存在すると判定する。次いで、ホットワード検出器は、デバイスのウェークアッププロセスを開始してもよい。
ホットワード検出しきい値は、従来、他人受入レートと本人拒否レートとのバランスをとる所定の値に設定される。他人受入が発生するのは、ホットワード検出器がホットワードを検出する(すなわち確度スコアがホットワード検出しきい値を満足する)が、ストリーミングオーディオは実際のところホットワードを含んでいなかったときである。他人受入にもかかわらず、ホットワード検出器は、たとえユーザがデバイスを呼び出すことを意図していなかったとしても、ボイス対応デバイス上でウェークアッププロセスを開始することになる。一方、本人拒否が発生するのは、ストリーミングオーディオがホットワードを含んでいるが、ホットワード検出器はストリーミングオーディオ内にホットワードが存在しないと判定する(すなわち確度スコアがホットワード検出しきい値を満足することができない)ときである。ホットワード検出器による本人拒否は、ユーザにとってフラストレーションのたまるものであり、というのも、ユーザはそれに続いて、確実に、話したホットワードが再度誤って拒否されないようにするために、通常はより大声で、ホットワードを再度話すこと、および/またはユーザにデバイスのより近くに歩いて行くように求めることによって、ボイス対応デバイスを呼び出すための試みを行わなければならないためである。したがって、ホットワード検出しきい値の選択は、デバイス、環境、およびユーザが多岐にわたるため、非常に困難である。従来、検出しきい値は、各個別のデバイスに適合されていない。しかし、各デバイスは、著しく異なる音響環境に遭遇する場合がある。例えば、オンになっていることの多いテレビの近くのデバイスは、同じホットワード検出しきい値を有する同じデバイスが静かなオフィス内で遭遇するよりもかなり多くの他人受入に遭遇する可能性がある。さらに、各ユーザが、本人拒否および他人受入に対してかなり異なる許容度を有する場合がある。すなわち、あるユーザは、中程度の数の他人受入を許容する場合があるが、別のユーザは、同じ数の他人受入を許容しない場合がある。
本明細書における実装形態は、第1段ホットワード検出器を実行しているユーザデバイスのホットワード検出しきい値を、ホットワード検出器を環境に個別に適合させるように動的に調整する、ホットワード検出しきい値調整器システムを対象とする。本明細書では、「ホットワード検出しきい値」という用語は、ホットワード検出器がストリーミングオーディオのオーディオ特徴内に所定のホットワードが存在したと判定し/存在したことを検出し、したがってユーザデバイス上でウェークアッププロセスをトリガするために、ストリーミングオーディオが満足しなければならない値または確度スコアを指す。ユーザデバイスの第1段ホットワード検出器は、ストリーミングオーディオのオーディオ特徴内にホットワードが存在するかどうかを示す第1の確度スコアに基づいて、ストリーミングオーディオ内でホットワードを検出する。この場合、第1の確度スコアは、第1段ホットワード検出器に関連するホットワード検出しきい値を満足しており、それによって、ユーザデバイスに、第1段ホットワード検出器によって検出されたホットワードを特徴付けるオーディオデータを、検証のためにリモートの第2段ホットワード検出器に送信させる。例えば、ユーザデバイスはオーディオデータを、インターネットを介して、第2段ホットワード検出器を実行しているサーバに送信する。第2段ホットワード検出器は、オーディオ内にホットワードが存在するかどうかを検出することに関して、ユーザデバイス上で実行されている第1段ホットワード検出器によって利用されるホットワード検出モデルに比べてより正確なホットワード検出モデルを利用してもよい。第2段ホットワード検出器は、オーディオデータを処理して、ホットワードが第2段ホットワード検出器によって検出されるかどうかを判定する。ホットワードが第2段ホットワード検出器によって検出されないとき、システムは、第1段ホットワード検出器がホットワードを不正確に検出したことを示す、第1段ホットワード検出器における他人受入事例を識別する。システムは、第1段ホットワード検出器に関連する他人受入レートが、他人受入レートしきい値を満足するかどうかを判定し、それに応じて、第1段ホットワード検出器のホットワード検出しきい値を調整する。例として、システムは、将来的な他人受入事例の発生が減少する/なくなるように、第1段ホットワード検出器の感度を下げるためにホットワード検出しきい値の値を引き上げてもよい。
したがって、本明細書において説明されるシステムは、精度を向上させるとともにホットワード検出を検証および/または確認するために複数のモデルを使用した、カスケード状のホットワード検出技法を含む。システムは、各デバイスについて個別に、他人受入事例および本人拒否事例のレートを決定し、それに応じて、それぞれのデバイスの他人受入レートおよび本人拒否レートに基づいてホットワード検出しきい値を適合させる。
図1を参照すると、いくつかの実装形態では、例示的なシステム100が、それぞれがそれぞれに対応するユーザ10に関連付けられ、ネットワーク104を介してリモートシステム110と通信する、1つまたは複数のユーザデバイス102を含む。各ユーザデバイス102は、モバイル電話、コンピュータ、スマートスピーカ、スマートアプライアンス、スマートヘッドホン、ウェアラブルなどのコンピューティングデバイスに対応してもよく、各ユーザデバイス102には、データ処理ハードウェア103およびメモリハードウェア105が備えられている。ユーザデバイス102は、それぞれに対応するユーザ10からの発話をキャプチャするための1つまたは複数のマイクロホン106を含むか、またはそれと通信する。リモートシステム110は、スケーラブルな/エラスティックなコンピューティングリソース112(例えばデータ処理ハードウェア)および/または記憶リソース114(例えばメモリハードウェア)を有する、単一のコンピュータでもよく、複数のコンピュータでもよく、分散システム(例えばクラウド環境)でもよい。いくつかの実装形態では、ユーザデバイス102は、リモートシステム110からネットワーク104を介してトレーニング済みニューラルネットワーク130(例えば記憶済みのニューラルネットワーク)を受信し、ストリーミングオーディオ118内でホットワードを検出するためにトレーニング済みニューラルネットワーク130を実行する。トレーニング済みニューラルネットワーク130は、ユーザデバイス102の(ホットワーダとも呼ばれる)第1段ホットワード検出器120内に存在し、第1段ホットワード検出器120は、ストリーミングオーディオ118に対して意味解析または音声認識処理を実施することなく、ストリーミングオーディオ118内にホットワードが存在するかどうかを検出するように構成される。
図示の例では、ユーザ10が、ユーザデバイス102によってストリーミングオーディオ118としてキャプチャされる、ホットワード(例えば「ヘイ、グーグル」)を含む発話119を話すとき、ユーザデバイス102上で実行されている第1段ホットワード検出器120は、発話119内のホットワードの存在を検出して、ホットワードおよび/または発話119内でホットワードの後に続く1つもしくは複数の他の語(例えばクエリもしくはコマンド)を処理するための、ユーザデバイス102上でのウェークアッププロセスを開始するように構成される。すなわち、ユーザデバイス102は、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを検出したとき、ホットワードおよび/またはストリーミングオーディオ118内でホットワードの後に続く1つもしくは複数の語を処理するためのウェークアッププロセスを開始することを行うように構成されてもよい。
第1段ホットワード検出器120は、ユーザデバイス102によってキャプチャされたストリーミングオーディオ118のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア132を(例えばニューラルネットワーク130から)生成する。第1段ホットワード検出器120は、確度スコア132が第1段ホットワード検出器120のホットワード検出しきい値134を満足するとき、ストリーミングオーディオ118内でホットワードを検出する。確度スコア132がホットワード検出しきい値134を満足するとき、第1段ホットワード検出器120は、ストリーミングオーディオ118を表すオーディオデータ136を、リモートシステム110上で実行されている第2段ホットワード検出器140に送信する。いくつかの例では、オーディオデータ136はストリーミングオーディオ118そのものを表したものであり、一方、他の例では、オーディオデータ136は、第1段ホットワード検出器120によって(例えばストリーミングオーディオ118の特定のオーディオ特性を識別および/もしくは分離するように、またはストリーミングオーディオ118を送信に適したフォーマットおよび/もしくは第2段ホットワード検出器140による処理に適したフォーマットに変換するように)処理した後のストリーミングオーディオ118を表す。例として、オーディオデータ136は、第1段ホットワード検出器120によって検出されたホットワードに関連するオーディオ特徴を含んだ該当セグメントを含むように、ストリーミングオーディオ118から切り取られてもよい。
第2段ホットワード検出器140は、第1段ホットワード検出器120と同様に、オーディオデータ136内にホットワードが存在するかどうかを検出するように構成される。第2段ホットワード検出器140は、第1段ホットワード検出器120とは異なる。例えば、第2段ホットワード検出器140は、第1段ホットワード検出器120のニューラルネットワーク130よりもコンピュータ計算を多用する可能性のある、異なるニューラルネットワークを含む。第2段ホットワード検出器140は、ユーザデバイス102のリソースによって限定される第1段ホットワード検出器120に勝る精度の向上を提供してもよい。
第2段ホットワード検出器140は、オーディオデータ136内にホットワードが存在するかどうかを判定するために、オーディオデータ136を処理する。第2段ホットワード検出器140は、第1段ホットワード検出器120と同様に、ホットワード検出しきい値と比べるための確度スコアを生成してもよく、あるいは第2段ホットワード検出器140は、ホットワードが存在するかどうかを、全く異なる方法を用いて判定してもよい。ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されないとき、ホットワード検出しきい値調整器200、200a~b(図2)が、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器120における他人受入事例210を識別する。
次に図2を参照すると、ホットワード検出しきい値調整器200は、他人受入カウント220を維持する。ホットワード検出しきい値調整器200は、他人受入事例210を識別したことに応答して、他人受入カウント220をインクリメントする。他人受入カウント220に基づいて、ホットワード検出しきい値調整器は、現在の他人受入レート230を決定する。他人受入レート230は、ホットワード検出しきい値調整器200によって他人受入期間内に識別された、いくつかの他人受入事例210を表す。例えば、他人受入期間は、1時間、または4時間、または24時間などであってもよい。他人受入カウント220は、一番最近の他人受入期間内のみの他人受入事例210の数を含んでもよい。したがって、他人受入レート230は、第1段ホットワード検出器120がストリーミングオーディオ118内にホットワードが存在すると誤って判定する頻度を示す。
ホットワード検出しきい値調整器200は、他人受入レート230が他人受入レートしきい値240を満足するかどうかを判定してもよい。例えば、他人受入期間が1時間であり、他人受入レートしきい値240が1時間当たり3つであるとき、他人受入レート230は、ホットワード検出しきい値調整器200が一番最近の1時間内に3つ以上の他人受入事例210を識別したときに他人受入レートしきい値240を満足する。
図1を再度参照すると、第1段ホットワード検出器120に関連する他人受入レート230が、他人受入レートしきい値240を満足するとき、ホットワード検出しきい値調整器200は、第1段ホットワード検出器120のホットワード検出しきい値134を調整する。いくつかの実装形態では、ホットワード検出しきい値調整器200は、リモートシステム110上で実行され(すなわちホットワード検出しきい値調整器200aであり)、第1段ホットワード検出器120にホットワード検出しきい値チューニング命令150を送信する。チューニング命令150は、ユーザデバイス102によって受信されると、ユーザデバイス102に第1段ホットワード検出器120のホットワード検出しきい値134を調整させる。他の実装形態では、ホットワード検出しきい値調整器200は、ユーザデバイス102上で実行され(すなわちホットワード検出しきい値調整器200bであり)、リモートシステム110上で実行されている第2段ホットワード検出器140から、他人受入事例210の標識142を受信する。この場合、ユーザデバイス102が他人受入カウント220を維持し、現在の他人受入レート230を決定する。ホットワード検出しきい値調整器200bが、他人受入レートしきい値240および現在の他人受入レート230に基づいてホットワード検出しきい値134を調整するために、第1段ホットワード検出器120にホットワード検出しきい値チューニング命令150を提供する。
いくつかの実装形態では、他人受入レート230が他人受入レートしきい値240を超えるとき、ホットワード検出しきい値調整器200は、ホットワード検出しきい値134の値を増加させる。すなわち、ストリーミングオーディオ118内のホットワードの存在を検出するために必要となる確度スコア132が上がり、それにより、他人受入事例210がそれほど起こらなくなる。ホットワード検出しきい値調整器200は、いくつかの例では、他人受入レートしきい値240を、調整されたホットワード検出しきい値134に基づいて調整または変更する。いくつかの構成では、ユーザデバイス102のユーザ10が、他人受入レートしきい値240を設定および/または調整してもよい。
いくつかの例では、ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されないとき、リモートサーバ110は、ユーザデバイス102上でのウェークアッププロセスを抑制する。ウェークアッププロセスは、ホットワードおよび/またはストリーミングオーディオ118内でホットワードの後に続く1つもしくは複数の他の語(例えばクエリもしくはコマンド)をユーザデバイス102が処理することを可能にするものである。いくつかの実装形態では、リモートシステム110は、ユーザデバイス102にウェークアッププロセスを抑制させる抑制命令162を、ユーザデバイス102に送信することによって、ウェークアッププロセスを抑制する。他の実装形態では、リモートシステム110は、オーディオデータ136内にホットワードが存在したことを第2段ホットワード検出器140が確認できなかったことを示す標識164をユーザデバイス102に送信し、それにより、ユーザデバイス102にウェークアッププロセスを抑制させる(すなわちスリープ状態に留まらせるかまたは戻らせる)ことによって、ウェークアッププロセスを抑制する。さらに他の実装形態では、リモートシステム110は、オーディオデータ136を受信した後でユーザデバイス102に応答しないことによって(例えばネットワーク接続を閉じることによって)、ウェークアッププロセスを抑制する。リモートシステム110から応答がないことが、ユーザデバイス102にウェークアッププロセスを抑制させてもよい。すなわち、ユーザデバイス102は、いくつかの例では、第2段ホットワード検出器140からの、ストリーミングオーディオ118内にホットワードが存在したという確認を受信した後でのみ、ウェークアッププロセスを開始する。ユーザデバイス102がウェークアッププロセスを独立に抑制してもよい。例えば、ホットワードの後に続くクエリまたはコマンドが空である(すなわちホットワードの後に続くストリーミングオーディオ118が、ユーザデバイス102に向けられたコマンドまたはクエリを含まない)とき、ユーザデバイス102はウェークアッププロセスを自動的に抑制してもよい。この場合、ユーザデバイス102が他人受入事例210を検出し、ホットワード検出しきい値調整器に他人受入カウント220をインクリメントするように通知してもよい。
次に図3を参照すると、いくつかの例では、ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されたとき、リモートシステム110は、ストリーミングオーディオ118内でホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータ136が、ユーザデバイス102から受信されるかどうかを判定する。音声によるクエリを特徴付ける後続のオーディオデータ136がユーザデバイス102から受信されないとき、ホットワード検出しきい値調整器200は、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器120における他人受入事例210を識別する。すなわち、いくつかの実装形態では、ホットワード検出しきい値調整器200は、検出されたホットワードの後の後続のオーディオデータ136内にクエリまたはコマンドがないことに基づいて、他人受入事例210を識別する。例えば、ウェークアッププロセスをトリガすることが意図されていないオーディオ(例えばテレビからのものなど、環境内の周囲雑音)が、ホットワード検出を意図的にではなくまたは望ましくなくトリガしたとき、(意図的なウェークアップコマンドの間生じるはずである)後続の任意のクエリまたはコマンドがないと、ホットワード検出しきい値調整器200が他人受入事例210を識別することが可能になる。
いくつかの例では、音声によるクエリを特徴付ける後続のオーディオデータ136が(すなわち第1段ホットワード検出器120と第2段ホットワード検出器140の両方がストリーミングオーディオ118内のホットワードの存在を検出した後で)ユーザデバイス102から受信されたとき、リモートシステムが音声によるクエリを処理する。これらの例では、クエリを処理することは、オーディオデータ136を音声認識システムに渡して、音声によるクエリを文字化することを含んでもよい。リモートシステム110は、クエリを処理するために、文字化したものを使用して自然言語理解を実施し、かつ/または文字化したものを検索エンジンおよび/もしくは他のアプリケーションに提供してもよい。
いくつかの実装形態では、リモートシステム110は、第2段ホットワード検出器140を含まず、その代わりに、オーディオデータ136に対して音声認識を実施するように構成されるクエリ/コマンドプロセッサ430(図4)を実行して、第1段ホットワード検出器120がストリーミングオーディオ118内のホットワードの存在を正確に検出したかどうかを確認する。すなわち、いくつかの実装形態では、第1段ホットワード検出器120は、ストリーミングオーディオ118内のホットワードの存在を検出した後で、ユーザ10からの後続のクエリを処理するために、オーディオデータ136をリモートサーバに送信する。このケースでは、ホットワード検出しきい値調整器200は、受信したオーディオデータ136内でプロセッサ430がホットワードを認識できないシナリオ、ならびにユーザデバイス102から受信した後続のオーディオデータ136が空であるとプロセッサ430が判定したシナリオ(すなわち後続のオーディオデータ136がクエリまたはコマンドを含まない事例)において、他人受入事例210を識別してもよい。この場合、どちらのケースも、ホットワード検出しきい値調整器200が他人受入カウント220をインクリメントするという結果になる。
次に図4を参照すると、概略図400は、テレビ410が、「ヘイ、ユーオール!(Hey you all!)」という発話を含む再生オーディオ420を発しているところを描いている。「ヘイ、ユーオール」という発話と「ヘイ、グーグル」というホットワードとの間の音声的類似のため、第1段ホットワード検出器120は、ホットワード検出しきい値を満足する確度スコア132を決定し、それにより、テレビ410からの再生オーディオ420aを表すストリーミングオーディオ118内のホットワードの存在を検出する。第2段ホットワード検出器140は、上で論じたように、ホットワードが第1段ホットワード検出器120によって正確に検出されたかどうかを確認/検証してもよい。第2段ホットワード検出器140は、第2段ホットワード検出器140がホットワードを検出できないときをホットワード検出しきい値調整器200に通知してもよく、それにより、調整器200が、他人受入事例210を識別し、他人受入レート230をインクリメントするという結果になる。一方、第2段ホットワード検出器140も、「ヘイ、ユーオール」という発話内でホットワードを誤って検出し、対応するオーディオをクエリプロセッサ430に渡す場合がある。この場合、クエリプロセッサ430は、オーディオデータに対して音声認識を実施し、ホットワードがホットワード検出器120、140のそれぞれによって誤って検出されたと判定してもよい。それに加えてまたはその代わりに、プロセッサ430は、ホットワードが誤って検出された後で、クエリまたはコマンドを収容している後続のオーディオデータ136が受信されないと判定してもよい。これらのシナリオのいずれにおいても、クエリプロセッサ430は、ホットワード検出しきい値調整器200に他人受入事例210を識別するように通知してもよい。
図1および図2を再度参照すると、いくつかの実装形態では、ホットワード検出しきい値調整器200は、第1段ホットワード検出器120がストリーミングオーディオ118内のホットワードの存在を、ホットワードが存在するときに検出できなかったときの事例を示す、本人拒否事例250を識別する。それに応答して、ホットワード検出しきい値調整器200は、本人拒否カウント260をインクリメントし、現在の本人拒否レート270を決定する。本人拒否レート270が、本人拒否しきい値280を満足するとき、ホットワード検出しきい値調整器200は、ホットワード検出しきい値134を調整する。この場合、調整器200は、ホットワード検出しきい値を低減し、それにより、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを検出する感度を上げるために、第1段ホットワード検出器120にホットワード検出しきい値チューニング命令150を提供する。
ホットワード検出しきい値調整器200は、ホットワード検出しきい値をしきい値マージン分だけ満足することのできなかった以前の確度スコアを第1段ホットワード検出器120が生成した後のしきい値期間内に、第1段ホットワード検出器120がストリーミングオーディオ内でホットワードを検出したことを示すニアミス標識510を、ホットワード検出しきい値調整器200が受信したことに応答して、本人拒否事例250を識別してもよい。例えば、ユーザデバイス102上で実行されている第1段ホットワード検出器120は、ユーザによって話された第1の発話内でホットワードを検出できない場合がある。この場合、第1段ホットワード検出器120は、0.75に設定されたホットワード検出しきい値を満足することのできない、0.7に等しい確度スコアを決定する場合がある。ニアミスしきい値が、ホットワード検出しきい値未満の値(0.65)に設定されてもよく、それによって、ニアミスしきい値(0.65)とホットワード検出しきい値(0.75)との間の値の範囲が「しきい値マージン」に対応するようになる。例として、ニアミスしきい値は0.65に設定されてもよく、それによって、ニアミスしきい値0.65以上であるがホットワード検出しきい値0.75未満の確度スコアに関連する任意のストリーミングオーディオ118が、ホットワード検出しきい値をしきい値マージン分だけ満足することができないようになる。この例を続けると、それに続く、ユーザ10によるユーザデバイス102を呼び出そうとする試みにおいて、第1段ホットワード検出器120は、しきい値期間(例えば5秒)内に、ユーザ10によって話された第2の発話内でホットワードを正確に検出する。第1段ホットワード検出器120が、ホットワード検出しきい値をしきい値マージン分だけ満足することのできなかった第1の発話に関連する確度スコアを決定し、それに続いて、しきい値期間内に第2の発話内でホットワードを検出することを条件として、ホットワード検出しきい値調整器200は、ニアミス標識510を受信し、第2段ホットワード検出器140も第2の発話内のホットワードの存在を検出したという確認後に、本人拒否事例250を識別してもよい。とりわけ、より正確な第2段ホットワード検出器140は、第1の発話内のホットワードの存在をおそらくは検出したかもしれないが、第1段ホットワード検出器120は、対応するオーディオデータ136を第2段ホットワード検出器140に決して送信しておらず、というのも、第1段ホットワード検出器120が生成した、第1の発話に関連する確度スコアは、ホットワード検出しきい値を満足することができなかったためである。ホットワード検出しきい値調整器200は、(本人拒否カウント260に基づく)本人拒否レート270が、本人拒否しきい値280を満足するかどうかを判定し、満足するとき、第1段ホットワード検出器120のホットワード検出しきい値134を調整してもよい。いくつかの例では、第1段ホットワード検出器120は、ニアミス標識510をホットワード検出しきい値調整器200に提供し、ホットワード検出しきい値調整器200は、第2段ホットワード検出器140がオーディオデータ136内でホットワードを検出したという確認を受信した後にのみ、本人拒否事例250を識別する。
次に図5Aを参照すると、本人拒否事例250の代理物(proxy)として機能するニアミスの例として、概略図500aは、ユーザ10が、ユーザデバイス102(図示せず)上の第1段ホットワード検出器120において受信される第1の発話119a("Hey, Google")を話しているところを描いている。この場合、第1段ホットワード検出器120は、ホットワード検出しきい値134は満足することができないがニアミスしきい値520を満足する確度スコア132を生成する。例えば、ホットワード検出しきい値134が0.75であり、ニアミスしきい値520が0.65である(すなわちホットワード検出しきい値134未満であるがそれに概して近い)とき、確度スコア0.70(または0.65から0.75の間の他の何らかの値)は、ニアミスしきい値520をこの確度スコアが満足するため、ホットワード検出しきい値134をしきい値マージン分だけ満足することができない場合がある。
図5Bの概略図500bは、第1の発話119aを受信した後のしきい値期間(例えば5秒、10秒、30秒など)内に、ユーザ10が、ユーザデバイスを呼び出してウェークアップさせようとする別の試みにおいて、第2の発話119b("Hey, Google!")を発している/話しているところを描いている。この発話119bは、より力強くかつ/またはより一層の注意(annunciation)を払って話されてもよい(というのも、ユーザデバイス102は以前の発話119aに対してウェークアッププロセスを開始できなかったためである)。このケースでは、第1段ホットワード検出器120と第2段ホットワード検出器140の両方が、第2の発話119bに関連するストリーミングオーディオ118内のホットワードの存在を特定する。第1段ホットワード検出器120が計算した、第1の発話119aについての確度スコア132が、ホットワード検出しきい値134を満足することができなかったにもかかわらず、ホットワード検出しきい値調整器200は、第1の発話についての確度スコア132がニアミスしきい値520を満足したとともに第2の発話119bがしきい値期間内であったので、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを誤って捕らえ損ねたことを、代理としてそれにより示す、ニアミスインジケータ510を受信する。第2段ホットワード検出器140が、第2の発話119b内にホットワードが存在することを確認した後、ホットワード検出しきい値調整器200は、本人拒否事例250を識別し、本人拒否カウント260をインクリメントしてもよい。ホットワード検出しきい値調整器200は、本人拒否レート270が本人拒否しきい値280を満足したことに応答して、第1段ホットワード検出器120のホットワード検出しきい値134を引き下げてもよい。
いくつかの例では、ホットワード検出しきい値調整器200は、第1段ホットワード検出器120のホットワード検出しきい値134を、ホットワード使用頻度と、他人受入カウント220と、本人拒否カウント260とを表す組み合わされた値に基づいて、この組み合わされた値に事前定義のしきい値を適用することによって調整してもよい。例えば、組み合わされた値は、他人受入の本人拒否に対する比である(というのも、すなわち、他人受入カウント220と本人拒否カウント260は一般に逆相関するためである)。他の例では、ホットワード検出しきい値調整器200は、第1段ホットワード検出器120のホットワード検出しきい値134を、第1段ホットワード検出器120を実行している他のユーザデバイス102から収集された情報に基づいて調整する。これらの例では、リモートシステム110が、ユーザデバイス102の大きな母集団から、ホットワード使用頻度と、他人受入カウント220(または他人受入レート230)と、本人拒否カウント260(または本人拒否レート270)との多変数分布を推定し、分布内のアウトライアを、ホットワード検出しきい値調整器200によってアウトライアのしきい値チューニングをトリガするために識別する。すなわち、一般母集団から十分に外れている他人受入カウント220または本人拒否カウント260を有するデバイスが、しきい値チューニングの候補であってもよい。
図6は、ホットワードしきい値自動チューニングのための方法600の動作の例示的な構成のフローチャートである。方法600は、動作602において、データ処理ハードウェア112において、第1段ホットワード検出器120を実行しているユーザデバイス102から、ユーザデバイス102によってキャプチャされたストリーミングオーディオ118内で第1段ホットワード検出器120によって検出されたホットワードを特徴付けるオーディオデータ136を受信することを含む。第1段ホットワード検出器120は、ユーザデバイス102によってキャプチャされたストリーミングオーディオ118のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア132を生成すること、および確度スコア132が第1段ホットワード検出器120のホットワード検出しきい値134を満足するとき、ストリーミングオーディオ118内でホットワードを検出することを行うように構成される。
動作604において、方法600は、データ処理ハードウェア112によって、第2段ホットワード検出器140を使用してオーディオデータ136を処理して、ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されるかどうかを判定することを含む。ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されないとき、方法600は、動作606において、データ処理ハードウェア112によって、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器120における他人受入事例210を識別することを含む。
方法600は、動作608において、データ処理ハードウェア112によって、ユーザデバイス102の第1段ホットワード検出器120に関連する他人受入レート230が、他人受入レートしきい値240を満足するかどうかを判定することを含む。他人受入レート230は、第1段ホットワード検出器120において他人受入期間内に識別された、いくつかの他人受入事例210に基づく。第1段ホットワード検出器120に関連する他人受入レート230が、他人受入レートしきい値240を満足するとき、方法600は、動作610において、データ処理ハードウェア112によって、第1段ホットワード検出器120のホットワード検出しきい値134を調整する。
図7は、ホットワードしきい値自動チューニングのための方法700の動作の別の例示的な構成のフローチャートである。動作702において、方法700は、ユーザデバイス102のデータ処理ハードウェア103において、データ処理ハードウェア103と通信する1つまたは複数のマイクロホン106によってキャプチャされたストリーミングオーディオ118を受信することを含む。方法700は、動作704において、データ処理ハードウェア103によって、第1段ホットワード検出器120を使用して、ストリーミングオーディオ118のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア132を生成することを含む。
動作706において、方法700は、データ処理ハードウェア103によって、確度スコア132がホットワード検出しきい値134を満足するかどうかを判定することを含む。確度スコア132がホットワード検出しきい値134を満足するとき、方法700は、動作708において、データ処理ハードウェア103によって、ストリーミングオーディオ118内でホットワードを検出することと、動作710において、データ処理ハードウェア103によって、第1段ホットワード検出器120を使用してストリーミングオーディオ118内で検出されたホットワードを特徴付けるオーディオデータ136を、第2段ホットワード検出器140を実行しているリモートコンピューティングデバイス110に送信することを含む。
リモートコンピューティングデバイス110は、動作712において、ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されるかどうかを判定することを行うように構成される。リモートコンピューティングデバイスは、動作714において、ホットワードが第2段ホットワード検出器140によってオーディオデータ136内で検出されないとき、第1段ホットワード検出器120がストリーミングオーディオ118内でホットワードを不正確に検出したことを示す、第1段ホットワード検出器120における他人受入事例210を識別することを行うように構成される。第1段ホットワード検出器120において他人受入期間内に識別された、いくつかの他人受入事例210に基づく他人受入レート230が、他人受入レートしきい値240を満足するとき、方法700は、動作716において、データ処理ハードウェア103によって、第1段ホットワード検出器120のホットワード検出しきい値134を調整することを含む。
図8は、本文献において説明されるシステムおよび方法を実装するために使用されてもよい例示的なコンピューティングデバイス800の概略図である。コンピューティングデバイス800は、ラップトップ機、デスクトップ機、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、さまざまな形態のデジタルコンピュータを表すことが意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は、単なる例示であることが意図されており、本文献において説明され、かつ/または特許請求される本発明の実装形態を限定することは意図されていない。
コンピューティングデバイス800は、プロセッサ810と、メモリ820と、記憶デバイス830と、メモリ820および高速拡張ポート850に接続する高速インターフェース/コントローラ840と、低速バス870および記憶デバイス830に接続する低速インターフェース/コントローラ860とを含む。コンポーネント810、820、830、840、850、および860はそれぞれ、さまざまなバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の様式で、取り付けられてもよい。プロセッサ810は、コンピューティングデバイス800内で実行するための命令を処理することができ、これには、グラフィカルユーザインターフェース(GUI)のためのグラフィカル情報を、高速インターフェース840に結合されたディスプレイ880などの外部入力/出力デバイス上に表示するための、メモリ820内にまたは記憶デバイス830上に記憶された命令が含まれる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて複数のメモリおよびメモリのタイプとともに使用されてもよい。また、(例えばサーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の部分を各デバイスが提供した状態で、複数のコンピューティングデバイス800が接続されてもよい。
メモリ820は、コンピューティングデバイス800内に情報を非一時的に記憶する。メモリ820は、コンピュータ可読媒体でもよく、揮発性メモリユニットでもよく、不揮発性メモリユニットでもよい。非一時的メモリ820は、コンピューティングデバイス800によって使用できるように一時的または永久にプログラム(例えば命令のシーケンス)またはデータ(例えばプログラム状態情報)を記憶するために使用される、物理デバイスでもよい。不揮発性メモリの例としては、限定はしないが、(例えば典型的にはブートプログラムなどのファームウェア用に使用される)フラッシュメモリおよび読出し専用メモリ(ROM)/プログラマブル読出し専用メモリ(PROM)/消去可能なプログラマブル読出し専用メモリ(EPROM)/電気的消去可能なプログラマブル読出し専用メモリ(EEPROM)がある。揮発性メモリの例としては、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープがある。
記憶デバイス830は、コンピューティングデバイス800に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス830はコンピュータ可読媒体である。異なるさまざまな実装形態では、記憶デバイス830は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイスでもよく、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイスでもよく、ストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイでもよい。さらなる実装形態では、コンピュータプログラム製品が、情報担体内に有形に具現化される。コンピュータプログラム製品は、実行されると上述したような1つまたは複数の方法を実施する命令を含む。情報担体は、メモリ820、記憶デバイス830、またはプロセッサ810上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
高速コントローラ840は、コンピューティングデバイス800の、帯域幅を多用する動作を管理し、一方、低速コントローラ860は、より低い帯域幅を多用する動作を管理する。役割のそのような割振りは、単なる例示である。いくつかの実装形態では、高速コントローラ840は、メモリ820に、(例えばグラフィックプロセッサまたはアクセラレータを通じて)ディスプレイ880に、またさまざまな拡張カード(図示せず)を受け入れてもよい高速拡張ポート850に、結合される。いくつかの実装形態では、低速コントローラ860は、記憶デバイス830および低速拡張ポート890に結合される。さまざまな通信ポート(例えばUSB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含んでもよい低速拡張ポート890は、キーボード、ポインティングデバイス、スキャナ、または(例えばネットワークアダプタを通じて)スイッチやルータなどのネットワーキングデバイスなど、1つまたは複数の入力/出力デバイスに結合されてもよい。
コンピューティングデバイス800は、図中に示すいくつかの異なる形態で実装されてもよい。例えば、コンピューティングデバイス800は、標準的なサーバ800aとして実装されてもよく、そのようなサーバ800aのグループ内に複数回実装されてもよく、ラップトップコンピュータ800bとして実装されてもよく、ラックサーバシステム800cの部分として実装されてもよい。
本明細書において説明されるシステムおよび技法のさまざまな実装形態は、デジタル電子回路および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せとして実現することができる。これらのさまざまな実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信すり、データおよび命令をそれらに送信するように結合された、専用のものでもよく、汎用のものでもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能かつ/または解釈可能な、1つまたは複数のコンピュータプログラムとしての実装を含むことができる。
ソフトウェアアプリケーション(すなわちソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションとしては、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションがある。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)これらのコンピュータプログラムは、プログラマブルプロセッサのための機械命令を含み、手続き型および/もしくはオブジェクト指向の高級プログラミング言語で、かつ/またはアセンブリ言語/機械語で実装することができる。本明細書では、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(例えば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。
本明細書において説明されるプロセスおよび論理フローは、入力データに作用し出力を生成することにより機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実施されることが可能である。プロセスおよび論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施されることも可能である。コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの、いずれか1つまたは複数のプロセッサがある。一般に、プロセッサは、読出し専用メモリまたはランダムアクセスメモリまたはその両方から、命令およびデータを受信する。コンピュータの不可欠な要素は、命令を実施するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを含むか、またはそこからデータを受信すり、もしくはそこにデータを移すように動作可能に結合されるか、またはその両方である。しかし、コンピュータはそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体としては、例として、半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびにCD ROMディスクおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性のメモリ、媒体、およびメモリデバイスがある。プロセッサおよびメモリは、専用論理回路によって補完することもでき、あるいは専用論理回路に組み込むこともできる。
ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、オプションで、ユーザがそれによってコンピュータに入力を行うことのできるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールとを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとの対話を可能にすることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受信することができる。加えて、コンピュータはユーザと、ユーザによって使用されているデバイスにドキュメントを送信し、そのデバイスからドキュメントを受信することによって、例えば、ユーザのクライアントデバイス上のウェブブラウザに、そのウェブブラウザから受信した要求に応答してウェブページを送信することによって、対話することができる。
以上、いくつかの実装形態について説明してきた。しかし、本開示の趣旨および範囲から逸脱することなく、さまざまな修正が加えられてもよいことを理解されよう。したがって、他の実装形態が、添付の特許請求の範囲に記載の範囲内に含まれる。
10 ユーザ
100 システム
102 ユーザデバイス
103 データ処理ハードウェア
104 ネットワーク
105 メモリハードウェア
106 マイクロホン
110 リモートシステム、リモートサーバ、リモートコンピューティングデバイス
112 コンピューティングリソース、データ処理ハードウェア
114 記憶リソース
118 ストリーミングオーディオ
119 発話
119a 第1の発話
119b 第2の発話
120 第1段ホットワード検出器
130 トレーニング済みニューラルネットワーク
132 確度スコア
134 ホットワード検出しきい値
136 オーディオデータ
140 第2段ホットワード検出器
142 標識
150 ホットワード検出しきい値チューニング命令
162 抑制命令
164 標識
200 ホットワード検出しきい値調整器
200a ホットワード検出しきい値調整器
200b ホットワード検出しきい値調整器
210 他人受入事例
220 他人受入カウント
230 他人受入レート
240 他人受入レートしきい値
250 本人拒否事例
260 本人拒否カウント
270 本人拒否レート
280 本人拒否しきい値、本人拒否レートしきい値
400 概略図
410 テレビ
420 再生オーディオ
420a 再生オーディオ
430 クエリ/コマンドプロセッサ、クエリプロセッサ
500a 概略図
500b 概略図
510 ニアミス標識、ニアミスインジケータ
520 ニアミスしきい値
600 方法
700 方法
800 コンピューティングデバイス、システム
800a サーバ
800b ラップトップコンピュータ
800c ラックサーバシステム
810 プロセッサ、コンポーネント、データ処理ハードウェア
820 非一時的メモリ、コンポーネント、メモリハードウェア
830 記憶デバイス、コンポーネント
840 高速インターフェース/コントローラ、コンポーネント
850 高速拡張ポート、コンポーネント
860 低速インターフェース/コントローラ、コンポーネント
870 低速バス
880 ディスプレイ
890 低速拡張ポート

Claims (26)

  1. コンピュータにより実施される方法(600)であって、データ処理ハードウェア(810)上で実行されると、前記データ処理ハードウェア(810)に、
    第1段ホットワード検出器(120)を実行しているユーザデバイス(102)から、前記ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)内で前記第1段ホットワード検出器(120)によって検出されたホットワードを特徴付けるオーディオデータ(136)を受信するステップであって、前記第1段ホットワード検出器(120)が、
    前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)のオーディオ特徴内に前記ホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
    前記確度スコア(132)が前記第1段ホットワード検出器(120)のホットワード検出しきい値(134)を満足するとき、前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと
    を行うように構成される、ステップと、
    第2段ホットワード検出器(140)を使用して、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されるかどうかを判定するために前記オーディオデータ(136)を処理するステップと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を識別するステップと、
    前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する他人受入レート(230)が、他人受入レートしきい値(240)を満足するかどうかを判定するステップであって、前記他人受入レート(230)が、前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく、ステップと、
    前記第1段ホットワード検出器(120)に関連する前記他人受入レート(230)が、前記他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
    を含む動作を実施させる、方法(600)。
  2. 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記動作が、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための前記ユーザデバイス(102)上でのウェークアッププロセスを抑制するステップをさらに含む、請求項1に記載の方法(600)。
  3. 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記動作が、
    前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータ(136)が、前記ユーザデバイス(102)から受信されるかどうかを判定するステップと、
    前記音声によるクエリを特徴付ける後続のオーディオデータ(136)が前記ユーザデバイス(102)から受信されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における前記他人受入事例(210)を識別するステップと
    をさらに含む、請求項1または2に記載の方法(600)。
  4. 前記音声によるクエリを特徴付ける後続のオーディオが前記ユーザデバイス(102)から受信されたとき、前記動作が、前記音声によるクエリを処理するステップをさらに含む、請求項3に記載の方法(600)。
  5. 前記ユーザデバイス(102)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成される、請求項1から4のいずれか一項に記載の方法(600)。
  6. 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を増加させるステップを含む、請求項1から5のいずれか一項に記載の方法(600)。
  7. 前記第1段ホットワード検出器(120)によって前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付ける前記オーディオデータ(136)を受信するとき、前記動作が、
    前記ユーザデバイス(102)から、前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできなかった以前の確度スコア(132)を前記第1段ホットワード検出器(120)が生成した後のしきい値期間内に、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したことを示すニアミス標識を受信するステップであって、前記以前の確度スコア(132)が、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)の以前のオーディオ特徴内に前記ホットワードが前記存在するかどうかを示す、ステップと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の前記以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別するステップと、
    前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する本人拒否レート(270)が、本人拒否レートしきい値(280)を満足するかどうかを判定するステップであって、前記本人拒否レート(270)が、前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく、ステップと、
    前記第1段ホットワード検出器(120)に関連する前記本人拒否レート(270)が、前記本人拒否レートしきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
    をさらに含む、請求項1から6のいずれか一項に記載の方法(600)。
  8. 前記ホットワード検出しきい値(134)を調整するステップが、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を減少させるステップを含む、請求項7に記載の方法(600)。
  9. コンピュータにより実施される方法(700)であって、ユーザデバイス(102)のデータ処理ハードウェア(103)上で実行されると、前記データ処理ハードウェア(103)に、
    前記データ処理ハードウェアと通信する1つまたは複数のマイクロホン(106)によってキャプチャされたストリーミングオーディオ(118)を受信するステップと、
    第1段ホットワード検出器(120)を使用して、前記ストリーミングオーディオ(118)のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア(132)を生成するステップと、
    前記確度スコア(132)がホットワード検出しきい値(134)を満足するかどうかを判定するステップと、
    前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、
    前記ストリーミングオーディオ(118)内で前記ホットワードを検出するステップと、
    前記ホットワードがオーディオデータ(136)内で検出されるかどうかを判定するために第2段ホットワード検出器(140)を実行しているリモートコンピューティングデバイス(110)に、前記第1段ホットワード検出器(120)を使用して前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付けるオーディオデータ(136)を送信するステップであって
    前記ホットワードが前記オーディオデータ(136)内で検出されないと前記第2段ホットワード検出器(140)によって判定されたとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を前記第1段ホットワード検出器(120)において識別することを含む、送信するステップと、
    前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく他人受入レート(230)が、他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
    を含む動作を実施させる、方法(700)。
  10. 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を増加させるステップを含む、請求項9に記載の方法(700)。
  11. 前記動作が、
    前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための、前記ユーザデバイス(102)上でのウェークアッププロセスを開始するステップと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記ユーザデバイス(102)上での前記ウェークアッププロセスを抑制するステップと
    をさらに含む、請求項9または10に記載の方法(700)。
  12. 前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記動作が、
    前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできない以前の確度スコア(132)が、前記第1段ホットワード検出器(120)によって、前記ストリーミングオーディオ(118)内で前記ホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定するステップと、
    前記ニアミス標識を前記リモートコンピューティングデバイス(110)に送信するステップであって、前記リモートコンピューティングデバイス(110)が、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することを行うように構成されており、前記本人拒否事例(250)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、ステップと、
    前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく本人拒否レート(270)が、本人拒否しきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
    をさらに含む、請求項9から11のいずれか一項に記載の方法(700)。
  13. 前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を減少させるステップを含む、請求項12に記載の方法(700)。
  14. システム(800)であって、
    データ処理ハードウェア(810)と、
    前記データ処理ハードウェア(810)と通信するメモリハードウェア(820)であって、前記メモリハードウェア(820)が命令を記憶し、前記命令が、前記データ処理ハードウェア(810)上で実行されると前記データ処理ハードウェア(810)に、
    第1段ホットワード検出器(120)を実行しているユーザデバイス(102)から、前記ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)内で前記第1段ホットワード検出器(120)によって検出されたホットワードを特徴付けるオーディオデータ(136)を受信することであって、前記第1段ホットワード検出器(120)が、
    前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)のオーディオ特徴内に前記ホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
    前記確度スコア(132)が前記第1段ホットワード検出器(120)のホットワード検出しきい値(134)を満足するとき、前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと
    を行うように構成される、受信することと、
    第2段ホットワード検出器(140)を使用して、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されるかどうかを判定するために前記オーディオデータ(136)を処理することと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を識別することと、
    前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する他人受入レート(230)が、他人受入レートしきい値(240)を満足するかどうかを判定することであって、前記他人受入レート(230)が、前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく、判定することと、
    前記第1段ホットワード検出器(120)に関連する前記他人受入レート(230)が、前記他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
    を備える動作を実施させる、メモリハードウェア(820)と
    を備える、システム(800)。
  15. 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記動作が、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための前記ユーザデバイス(102)上でのウェークアッププロセスを抑制することをさらに含む、請求項14に記載のシステム(800)。
  16. 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記動作が、
    前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータ(136)が、前記ユーザデバイス(102)から受信されるかどうかを判定することと、
    前記音声によるクエリを特徴付ける後続のオーディオデータ(136)が前記ユーザデバイス(102)から受信されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における前記他人受入事例(210)を識別することと
    をさらに含む、請求項14または15に記載のシステム(800)。
  17. 前記音声によるクエリを特徴付ける後続のオーディオが前記ユーザデバイス(102)から受信されたとき、前記動作が、前記音声によるクエリを処理することをさらに含む、請求項16に記載のシステム(800)。
  18. 前記ユーザデバイス(102)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成される、請求項14から17のいずれか一項に記載のシステム(800)。
  19. 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を増加させることを含む、請求項14から18のいずれか一項に記載のシステム(800)。
  20. 前記第1段ホットワード検出器(120)によって前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付ける前記オーディオデータ(136)を受信するとき、前記動作が、
    前記ユーザデバイス(102)から、前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできなかった以前の確度スコア(132)を前記第1段ホットワード検出器(120)が生成した後のしきい値期間内に、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したことを示すニアミス標識を受信することであって、前記以前の確度スコア(132)が、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)の以前のオーディオ特徴内に前記ホットワードが前記存在するかどうかを示す、受信することと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の前記以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することと、
    前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する本人拒否レート(270)が、本人拒否レートしきい値(280)を満足するかどうかを判定することであって、前記本人拒否レート(270)が、前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく、判定することと、
    前記第1段ホットワード検出器(120)に関連する前記本人拒否レート(270)が、前記本人拒否レートしきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
    をさらに含む、請求項14から19のいずれか一項に記載のシステム(800)。
  21. 前記ホットワード検出しきい値(134)を調整することが、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を減少させることを含む、請求項20に記載のシステム(800)。
  22. システム(100)であって、
    ユーザデバイス(102)のデータ処理ハードウェア(103)と、
    前記データ処理ハードウェア(103)と通信するメモリハードウェア(105)であって、前記メモリハードウェア(105)が命令を記憶し、前記命令が、前記データ処理ハードウェア(103)上で実行されると前記データ処理ハードウェア(103)に動作を実施させ、前記動作が、
    前記データ処理ハードウェアと通信する1つまたは複数のマイクロホン(106)によってキャプチャされたストリーミングオーディオ(118)を受信することと、
    第1段ホットワード検出器(120)を使用して、前記ストリーミングオーディオ(118)のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
    前記確度スコア(132)がホットワード検出しきい値(134)を満足するかどうかを判定することと、
    前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、
    前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと、
    前記ホットワードがオーディオデータ(136)内で検出されるかどうかを判定するために第2段ホットワード検出器(140)を実行しているリモートコンピューティングデバイス(110)に、前記第1段ホットワード検出器(120)を使用して前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付けるオーディオデータ(136)を送信することであって
    前記ホットワードが前記オーディオデータ(136)内で検出されないと前記第2段ホットワード検出器(140)によって判定されたとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を前記第1段ホットワード検出器(120)において識別することを含む、送信することと、
    前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく他人受入レート(230)が、他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
    を備える動作を実施させる、メモリハードウェア(105)と
    を備える、システム(100)。
  23. 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を増加させることを含む、請求項22に記載のシステム(100)。
  24. 前記動作が、
    前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための、前記ユーザデバイス(102)上でのウェークアッププロセスを開始することと、
    前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記ユーザデバイス(102)上での前記ウェークアッププロセスを抑制することと
    をさらに含む、請求項22または23に記載のシステム(100)。
  25. 前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記動作が、
    前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできない以前の確度スコア(132)が、前記第1段ホットワード検出器(120)によって、前記ストリーミングオーディオ(118)内で前記ホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定することと、
    前記ニアミス標識を前記リモートコンピューティングデバイス(110)に送信することであって、前記リモートコンピューティングデバイス(110)が、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することを行うように構成されており、前記本人拒否事例(250)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、送信することと、
    前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく本人拒否レート(270)が、本人拒否しきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
    をさらに含む、請求項22から24のいずれか一項に記載のシステム(100)。
  26. 前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を減少させることを含む、請求項25に記載のシステム(100)。
JP2022576157A 2020-06-10 2021-03-15 ホットワードしきい値自動チューニング Active JP7516571B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024106150A JP2024153632A (ja) 2020-06-10 2024-07-01 ホットワードしきい値自動チューニング

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/898,278 US11610578B2 (en) 2020-06-10 2020-06-10 Automatic hotword threshold tuning
US16/898,278 2020-06-10
PCT/US2021/022443 WO2021252040A1 (en) 2020-06-10 2021-03-15 Automatic hotword threshold tuning

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024106150A Division JP2024153632A (ja) 2020-06-10 2024-07-01 ホットワードしきい値自動チューニング

Publications (2)

Publication Number Publication Date
JP2023531398A JP2023531398A (ja) 2023-07-24
JP7516571B2 true JP7516571B2 (ja) 2024-07-16

Family

ID=75478163

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022576157A Active JP7516571B2 (ja) 2020-06-10 2021-03-15 ホットワードしきい値自動チューニング
JP2024106150A Pending JP2024153632A (ja) 2020-06-10 2024-07-01 ホットワードしきい値自動チューニング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024106150A Pending JP2024153632A (ja) 2020-06-10 2024-07-01 ホットワードしきい値自動チューニング

Country Status (6)

Country Link
US (2) US11610578B2 (ja)
EP (1) EP4165627A1 (ja)
JP (2) JP7516571B2 (ja)
KR (1) KR20230020523A (ja)
CN (1) CN115699165A (ja)
WO (1) WO2021252040A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200141860A (ko) * 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant
US11749267B2 (en) * 2020-11-20 2023-09-05 Google Llc Adapting hotword recognition based on personalized negatives
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US11783850B1 (en) * 2021-03-30 2023-10-10 Amazon Technologies, Inc. Acoustic event detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055847A1 (en) 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
JP2016536648A (ja) 2013-09-17 2016-11-24 クゥアルコム・インコーポレイテッドQualcomm Incorporated ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置
JP2019091472A (ja) 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
JP2020507815A (ja) 2017-02-14 2020-03-12 グーグル エルエルシー サーバ側ホットワーディング

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818407B1 (en) 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10872599B1 (en) 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11205420B1 (en) * 2019-06-10 2021-12-21 Amazon Technologies, Inc. Speech processing using a recurrent neural network
US11355102B1 (en) * 2019-12-12 2022-06-07 Amazon Technologies, Inc. Wakeword detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016536648A (ja) 2013-09-17 2016-11-24 クゥアルコム・インコーポレイテッドQualcomm Incorporated ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置
US20160055847A1 (en) 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
JP2019091472A (ja) 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
JP2020507815A (ja) 2017-02-14 2020-03-12 グーグル エルエルシー サーバ側ホットワーディング

Also Published As

Publication number Publication date
US20230206908A1 (en) 2023-06-29
KR20230020523A (ko) 2023-02-10
JP2023531398A (ja) 2023-07-24
JP2024153632A (ja) 2024-10-29
EP4165627A1 (en) 2023-04-19
US11610578B2 (en) 2023-03-21
CN115699165A (zh) 2023-02-03
US20210390948A1 (en) 2021-12-16
WO2021252040A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
JP7516571B2 (ja) ホットワードしきい値自動チューニング
KR102314096B1 (ko) 다수의 컴퓨팅 장치를 이용한 인터콤 스타일 통신
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
US11756572B2 (en) Self-supervised speech representations for fake audio detection
US11694685B2 (en) Hotphrase triggering based on a sequence of detections
US20230386468A1 (en) Adapting hotword recognition based on personalized negatives
US11790888B2 (en) Multi channel voice activity detection
US20240347060A1 (en) Contextual suppression of assistant command(s)
US20240331683A1 (en) Hotwording by Degree
US11922926B2 (en) Systems and methods for correcting automatic speech recognition errors
JP2024538771A (ja) デジタル信号プロセッサベースの継続的な会話
US20240013782A1 (en) History-Based ASR Mistake Corrections
WO2023086229A1 (en) Providing related queries to a secondary automated assistant based on past interactions
EP4302179A1 (en) Providing related queries to a secondary automated assistant based on past interactions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240703

R150 Certificate of patent or registration of utility model

Ref document number: 7516571

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150