JP7516571B2 - ホットワードしきい値自動チューニング - Google Patents
ホットワードしきい値自動チューニング Download PDFInfo
- Publication number
- JP7516571B2 JP7516571B2 JP2022576157A JP2022576157A JP7516571B2 JP 7516571 B2 JP7516571 B2 JP 7516571B2 JP 2022576157 A JP2022576157 A JP 2022576157A JP 2022576157 A JP2022576157 A JP 2022576157A JP 7516571 B2 JP7516571 B2 JP 7516571B2
- Authority
- JP
- Japan
- Prior art keywords
- hot word
- detector
- stage
- audio
- detection threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 claims description 177
- 238000000034 method Methods 0.000 claims description 108
- 238000012545 processing Methods 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 40
- 238000004891 communication Methods 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 5
- 230000002401 inhibitory effect Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007958 sleep Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
100 システム
102 ユーザデバイス
103 データ処理ハードウェア
104 ネットワーク
105 メモリハードウェア
106 マイクロホン
110 リモートシステム、リモートサーバ、リモートコンピューティングデバイス
112 コンピューティングリソース、データ処理ハードウェア
114 記憶リソース
118 ストリーミングオーディオ
119 発話
119a 第1の発話
119b 第2の発話
120 第1段ホットワード検出器
130 トレーニング済みニューラルネットワーク
132 確度スコア
134 ホットワード検出しきい値
136 オーディオデータ
140 第2段ホットワード検出器
142 標識
150 ホットワード検出しきい値チューニング命令
162 抑制命令
164 標識
200 ホットワード検出しきい値調整器
200a ホットワード検出しきい値調整器
200b ホットワード検出しきい値調整器
210 他人受入事例
220 他人受入カウント
230 他人受入レート
240 他人受入レートしきい値
250 本人拒否事例
260 本人拒否カウント
270 本人拒否レート
280 本人拒否しきい値、本人拒否レートしきい値
400 概略図
410 テレビ
420 再生オーディオ
420a 再生オーディオ
430 クエリ/コマンドプロセッサ、クエリプロセッサ
500a 概略図
500b 概略図
510 ニアミス標識、ニアミスインジケータ
520 ニアミスしきい値
600 方法
700 方法
800 コンピューティングデバイス、システム
800a サーバ
800b ラップトップコンピュータ
800c ラックサーバシステム
810 プロセッサ、コンポーネント、データ処理ハードウェア
820 非一時的メモリ、コンポーネント、メモリハードウェア
830 記憶デバイス、コンポーネント
840 高速インターフェース/コントローラ、コンポーネント
850 高速拡張ポート、コンポーネント
860 低速インターフェース/コントローラ、コンポーネント
870 低速バス
880 ディスプレイ
890 低速拡張ポート
Claims (26)
- コンピュータにより実施される方法(600)であって、データ処理ハードウェア(810)上で実行されると、前記データ処理ハードウェア(810)に、
第1段ホットワード検出器(120)を実行しているユーザデバイス(102)から、前記ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)内で前記第1段ホットワード検出器(120)によって検出されたホットワードを特徴付けるオーディオデータ(136)を受信するステップであって、前記第1段ホットワード検出器(120)が、
前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)のオーディオ特徴内に前記ホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
前記確度スコア(132)が前記第1段ホットワード検出器(120)のホットワード検出しきい値(134)を満足するとき、前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと
を行うように構成される、ステップと、
第2段ホットワード検出器(140)を使用して、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されるかどうかを判定するために前記オーディオデータ(136)を処理するステップと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を識別するステップと、
前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する他人受入レート(230)が、他人受入レートしきい値(240)を満足するかどうかを判定するステップであって、前記他人受入レート(230)が、前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく、ステップと、
前記第1段ホットワード検出器(120)に関連する前記他人受入レート(230)が、前記他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
を含む動作を実施させる、方法(600)。 - 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記動作が、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための前記ユーザデバイス(102)上でのウェークアッププロセスを抑制するステップをさらに含む、請求項1に記載の方法(600)。
- 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記動作が、
前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータ(136)が、前記ユーザデバイス(102)から受信されるかどうかを判定するステップと、
前記音声によるクエリを特徴付ける後続のオーディオデータ(136)が前記ユーザデバイス(102)から受信されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における前記他人受入事例(210)を識別するステップと
をさらに含む、請求項1または2に記載の方法(600)。 - 前記音声によるクエリを特徴付ける後続のオーディオが前記ユーザデバイス(102)から受信されたとき、前記動作が、前記音声によるクエリを処理するステップをさらに含む、請求項3に記載の方法(600)。
- 前記ユーザデバイス(102)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成される、請求項1から4のいずれか一項に記載の方法(600)。
- 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を増加させるステップを含む、請求項1から5のいずれか一項に記載の方法(600)。
- 前記第1段ホットワード検出器(120)によって前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付ける前記オーディオデータ(136)を受信するとき、前記動作が、
前記ユーザデバイス(102)から、前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできなかった以前の確度スコア(132)を前記第1段ホットワード検出器(120)が生成した後のしきい値期間内に、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したことを示すニアミス標識を受信するステップであって、前記以前の確度スコア(132)が、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)の以前のオーディオ特徴内に前記ホットワードが前記存在するかどうかを示す、ステップと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の前記以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別するステップと、
前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する本人拒否レート(270)が、本人拒否レートしきい値(280)を満足するかどうかを判定するステップであって、前記本人拒否レート(270)が、前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく、ステップと、
前記第1段ホットワード検出器(120)に関連する前記本人拒否レート(270)が、前記本人拒否レートしきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
をさらに含む、請求項1から6のいずれか一項に記載の方法(600)。 - 前記ホットワード検出しきい値(134)を調整するステップが、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を減少させるステップを含む、請求項7に記載の方法(600)。
- コンピュータにより実施される方法(700)であって、ユーザデバイス(102)のデータ処理ハードウェア(103)上で実行されると、前記データ処理ハードウェア(103)に、
前記データ処理ハードウェアと通信する1つまたは複数のマイクロホン(106)によってキャプチャされたストリーミングオーディオ(118)を受信するステップと、
第1段ホットワード検出器(120)を使用して、前記ストリーミングオーディオ(118)のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア(132)を生成するステップと、
前記確度スコア(132)がホットワード検出しきい値(134)を満足するかどうかを判定するステップと、
前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、
前記ストリーミングオーディオ(118)内で前記ホットワードを検出するステップと、
前記ホットワードがオーディオデータ(136)内で検出されるかどうかを判定するために第2段ホットワード検出器(140)を実行しているリモートコンピューティングデバイス(110)に、前記第1段ホットワード検出器(120)を使用して前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付けるオーディオデータ(136)を送信するステップであって、
前記ホットワードが前記オーディオデータ(136)内で検出されないと前記第2段ホットワード検出器(140)によって判定されたとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を前記第1段ホットワード検出器(120)において識別することを含む、送信するステップと、
前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく他人受入レート(230)が、他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
を含む動作を実施させる、方法(700)。 - 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を増加させるステップを含む、請求項9に記載の方法(700)。
- 前記動作が、
前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための、前記ユーザデバイス(102)上でのウェークアッププロセスを開始するステップと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記ユーザデバイス(102)上での前記ウェークアッププロセスを抑制するステップと
をさらに含む、請求項9または10に記載の方法(700)。 - 前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記動作が、
前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできない以前の確度スコア(132)が、前記第1段ホットワード検出器(120)によって、前記ストリーミングオーディオ(118)内で前記ホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定するステップと、
前記ニアミス標識を前記リモートコンピューティングデバイス(110)に送信するステップであって、前記リモートコンピューティングデバイス(110)が、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することを行うように構成されており、前記本人拒否事例(250)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、ステップと、
前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく本人拒否レート(270)が、本人拒否しきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整するステップと
をさらに含む、請求項9から11のいずれか一項に記載の方法(700)。 - 前記ホットワード検出しきい値(134)を調整するステップが、前記ホットワード検出しきい値(134)の値を減少させるステップを含む、請求項12に記載の方法(700)。
- システム(800)であって、
データ処理ハードウェア(810)と、
前記データ処理ハードウェア(810)と通信するメモリハードウェア(820)であって、前記メモリハードウェア(820)が命令を記憶し、前記命令が、前記データ処理ハードウェア(810)上で実行されると前記データ処理ハードウェア(810)に、
第1段ホットワード検出器(120)を実行しているユーザデバイス(102)から、前記ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)内で前記第1段ホットワード検出器(120)によって検出されたホットワードを特徴付けるオーディオデータ(136)を受信することであって、前記第1段ホットワード検出器(120)が、
前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)のオーディオ特徴内に前記ホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
前記確度スコア(132)が前記第1段ホットワード検出器(120)のホットワード検出しきい値(134)を満足するとき、前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと
を行うように構成される、受信することと、
第2段ホットワード検出器(140)を使用して、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されるかどうかを判定するために前記オーディオデータ(136)を処理することと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を識別することと、
前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する他人受入レート(230)が、他人受入レートしきい値(240)を満足するかどうかを判定することであって、前記他人受入レート(230)が、前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく、判定することと、
前記第1段ホットワード検出器(120)に関連する前記他人受入レート(230)が、前記他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
を備える動作を実施させる、メモリハードウェア(820)と
を備える、システム(800)。 - 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記動作が、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための前記ユーザデバイス(102)上でのウェークアッププロセスを抑制することをさらに含む、請求項14に記載のシステム(800)。
- 前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記動作が、
前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く音声によるクエリを特徴付ける後続のオーディオデータ(136)が、前記ユーザデバイス(102)から受信されるかどうかを判定することと、
前記音声によるクエリを特徴付ける後続のオーディオデータ(136)が前記ユーザデバイス(102)から受信されないとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における前記他人受入事例(210)を識別することと
をさらに含む、請求項14または15に記載のシステム(800)。 - 前記音声によるクエリを特徴付ける後続のオーディオが前記ユーザデバイス(102)から受信されたとき、前記動作が、前記音声によるクエリを処理することをさらに含む、請求項16に記載のシステム(800)。
- 前記ユーザデバイス(102)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するためのウェークアッププロセスを開始することを行うように構成される、請求項14から17のいずれか一項に記載のシステム(800)。
- 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を増加させることを含む、請求項14から18のいずれか一項に記載のシステム(800)。
- 前記第1段ホットワード検出器(120)によって前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付ける前記オーディオデータ(136)を受信するとき、前記動作が、
前記ユーザデバイス(102)から、前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできなかった以前の確度スコア(132)を前記第1段ホットワード検出器(120)が生成した後のしきい値期間内に、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを検出したことを示すニアミス標識を受信することであって、前記以前の確度スコア(132)が、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)の以前のオーディオ特徴内に前記ホットワードが前記存在するかどうかを示す、受信することと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の前記以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することと、
前記ユーザデバイス(102)の前記第1段ホットワード検出器(120)に関連する本人拒否レート(270)が、本人拒否レートしきい値(280)を満足するかどうかを判定することであって、前記本人拒否レート(270)が、前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく、判定することと、
前記第1段ホットワード検出器(120)に関連する前記本人拒否レート(270)が、前記本人拒否レートしきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
をさらに含む、請求項14から19のいずれか一項に記載のシステム(800)。 - 前記ホットワード検出しきい値(134)を調整することが、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を減少させることを含む、請求項20に記載のシステム(800)。
- システム(100)であって、
ユーザデバイス(102)のデータ処理ハードウェア(103)と、
前記データ処理ハードウェア(103)と通信するメモリハードウェア(105)であって、前記メモリハードウェア(105)が命令を記憶し、前記命令が、前記データ処理ハードウェア(103)上で実行されると前記データ処理ハードウェア(103)に動作を実施させ、前記動作が、
前記データ処理ハードウェアと通信する1つまたは複数のマイクロホン(106)によってキャプチャされたストリーミングオーディオ(118)を受信することと、
第1段ホットワード検出器(120)を使用して、前記ストリーミングオーディオ(118)のオーディオ特徴内にホットワードが存在するかどうかを示す確度スコア(132)を生成することと、
前記確度スコア(132)がホットワード検出しきい値(134)を満足するかどうかを判定することと、
前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、
前記ストリーミングオーディオ(118)内で前記ホットワードを検出することと、
前記ホットワードがオーディオデータ(136)内で検出されるかどうかを判定するために第2段ホットワード検出器(140)を実行しているリモートコンピューティングデバイス(110)に、前記第1段ホットワード検出器(120)を使用して前記ストリーミングオーディオ(118)内で検出された前記ホットワードを特徴付けるオーディオデータ(136)を送信することであって、
前記ホットワードが前記オーディオデータ(136)内で検出されないと前記第2段ホットワード検出器(140)によって判定されたとき、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)内で前記ホットワードを不正確に検出したことを示す、前記第1段ホットワード検出器(120)における他人受入事例(210)を前記第1段ホットワード検出器(120)において識別することを含む、送信することと、
前記第1段ホットワード検出器(120)において他人受入期間内に識別された、いくつかの他人受入事例(210)に基づく他人受入レート(230)が、他人受入レートしきい値(240)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
を備える動作を実施させる、メモリハードウェア(105)と
を備える、システム(100)。 - 前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を増加させることを含む、請求項22に記載のシステム(100)。
- 前記動作が、
前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記ホットワードおよび/または前記ストリーミングオーディオ(118)内で前記ホットワードの後に続く1つもしくは複数の他の語を処理するための、前記ユーザデバイス(102)上でのウェークアッププロセスを開始することと、
前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されないとき、前記ユーザデバイス(102)上での前記ウェークアッププロセスを抑制することと
をさらに含む、請求項22または23に記載のシステム(100)。 - 前記確度スコア(132)が前記ホットワード検出しきい値(134)を満足するとき、前記動作が、
前記ホットワード検出しきい値(134)をしきい値マージン分だけ満足することのできない以前の確度スコア(132)が、前記第1段ホットワード検出器(120)によって、前記ストリーミングオーディオ(118)内で前記ホットワードを検出する前のしきい値期間内に生成されたことを示す、ニアミス標識を決定することと、
前記ニアミス標識を前記リモートコンピューティングデバイス(110)に送信することであって、前記リモートコンピューティングデバイス(110)が、前記ホットワードが前記第2段ホットワード検出器(140)によって前記オーディオデータ(136)内で検出されたとき、前記ニアミス標識に基づいて、前記第1段ホットワード検出器(120)における本人拒否事例(250)を識別することを行うように構成されており、前記本人拒否事例(250)が、前記第1段ホットワード検出器(120)が前記ストリーミングオーディオ(118)の以前のオーディオ特徴内で前記ホットワードを最初に検出できなかったことを示す、送信することと、
前記第1段ホットワード検出器(120)において本人拒否期間内に識別された、いくつかの本人拒否事例(250)に基づく本人拒否レート(270)が、本人拒否しきい値(280)を満足するとき、前記第1段ホットワード検出器(120)の前記ホットワード検出しきい値(134)を調整することと
をさらに含む、請求項22から24のいずれか一項に記載のシステム(100)。 - 前記ホットワード検出しきい値(134)を調整することが、前記ホットワード検出しきい値(134)の値を減少させることを含む、請求項25に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024106150A JP2024153632A (ja) | 2020-06-10 | 2024-07-01 | ホットワードしきい値自動チューニング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/898,278 US11610578B2 (en) | 2020-06-10 | 2020-06-10 | Automatic hotword threshold tuning |
US16/898,278 | 2020-06-10 | ||
PCT/US2021/022443 WO2021252040A1 (en) | 2020-06-10 | 2021-03-15 | Automatic hotword threshold tuning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024106150A Division JP2024153632A (ja) | 2020-06-10 | 2024-07-01 | ホットワードしきい値自動チューニング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023531398A JP2023531398A (ja) | 2023-07-24 |
JP7516571B2 true JP7516571B2 (ja) | 2024-07-16 |
Family
ID=75478163
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022576157A Active JP7516571B2 (ja) | 2020-06-10 | 2021-03-15 | ホットワードしきい値自動チューニング |
JP2024106150A Pending JP2024153632A (ja) | 2020-06-10 | 2024-07-01 | ホットワードしきい値自動チューニング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024106150A Pending JP2024153632A (ja) | 2020-06-10 | 2024-07-01 | ホットワードしきい値自動チューニング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11610578B2 (ja) |
EP (1) | EP4165627A1 (ja) |
JP (2) | JP7516571B2 (ja) |
KR (1) | KR20230020523A (ja) |
CN (1) | CN115699165A (ja) |
WO (1) | WO2021252040A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11721338B2 (en) * | 2020-08-26 | 2023-08-08 | International Business Machines Corporation | Context-based dynamic tolerance of virtual assistant |
US11749267B2 (en) * | 2020-11-20 | 2023-09-05 | Google Llc | Adapting hotword recognition based on personalized negatives |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
US11783850B1 (en) * | 2021-03-30 | 2023-10-10 | Amazon Technologies, Inc. | Acoustic event detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055847A1 (en) | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
JP2016536648A (ja) | 2013-09-17 | 2016-11-24 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置 |
JP2019091472A (ja) | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2020507815A (ja) | 2017-02-14 | 2020-03-12 | グーグル エルエルシー | サーバ側ホットワーディング |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818407B1 (en) | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10872599B1 (en) | 2018-06-28 | 2020-12-22 | Amazon Technologies, Inc. | Wakeword training |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11205420B1 (en) * | 2019-06-10 | 2021-12-21 | Amazon Technologies, Inc. | Speech processing using a recurrent neural network |
US11355102B1 (en) * | 2019-12-12 | 2022-06-07 | Amazon Technologies, Inc. | Wakeword detection |
-
2020
- 2020-06-10 US US16/898,278 patent/US11610578B2/en active Active
-
2021
- 2021-03-15 WO PCT/US2021/022443 patent/WO2021252040A1/en unknown
- 2021-03-15 JP JP2022576157A patent/JP7516571B2/ja active Active
- 2021-03-15 EP EP21718272.4A patent/EP4165627A1/en active Pending
- 2021-03-15 CN CN202180040933.1A patent/CN115699165A/zh active Pending
- 2021-03-15 KR KR1020237000508A patent/KR20230020523A/ko active Search and Examination
-
2023
- 2023-03-10 US US18/181,895 patent/US20230206908A1/en active Pending
-
2024
- 2024-07-01 JP JP2024106150A patent/JP2024153632A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016536648A (ja) | 2013-09-17 | 2016-11-24 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置 |
US20160055847A1 (en) | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
JP2019091472A (ja) | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2020507815A (ja) | 2017-02-14 | 2020-03-12 | グーグル エルエルシー | サーバ側ホットワーディング |
Also Published As
Publication number | Publication date |
---|---|
US20230206908A1 (en) | 2023-06-29 |
KR20230020523A (ko) | 2023-02-10 |
JP2023531398A (ja) | 2023-07-24 |
JP2024153632A (ja) | 2024-10-29 |
EP4165627A1 (en) | 2023-04-19 |
US11610578B2 (en) | 2023-03-21 |
CN115699165A (zh) | 2023-02-03 |
US20210390948A1 (en) | 2021-12-16 |
WO2021252040A1 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7516571B2 (ja) | ホットワードしきい値自動チューニング | |
KR102314096B1 (ko) | 다수의 컴퓨팅 장치를 이용한 인터콤 스타일 통신 | |
KR102151681B1 (ko) | 언어 모델용 대화 상태들 결정 | |
US11756572B2 (en) | Self-supervised speech representations for fake audio detection | |
US11694685B2 (en) | Hotphrase triggering based on a sequence of detections | |
US20230386468A1 (en) | Adapting hotword recognition based on personalized negatives | |
US11790888B2 (en) | Multi channel voice activity detection | |
US20240347060A1 (en) | Contextual suppression of assistant command(s) | |
US20240331683A1 (en) | Hotwording by Degree | |
US11922926B2 (en) | Systems and methods for correcting automatic speech recognition errors | |
JP2024538771A (ja) | デジタル信号プロセッサベースの継続的な会話 | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
WO2023086229A1 (en) | Providing related queries to a secondary automated assistant based on past interactions | |
EP4302179A1 (en) | Providing related queries to a secondary automated assistant based on past interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7516571 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |