JP6926241B2 - ホットワード認識音声合成 - Google Patents
ホットワード認識音声合成 Download PDFInfo
- Publication number
- JP6926241B2 JP6926241B2 JP2019566246A JP2019566246A JP6926241B2 JP 6926241 B2 JP6926241 B2 JP 6926241B2 JP 2019566246 A JP2019566246 A JP 2019566246A JP 2019566246 A JP2019566246 A JP 2019566246A JP 6926241 B2 JP6926241 B2 JP 6926241B2
- Authority
- JP
- Japan
- Prior art keywords
- hotword
- input data
- user device
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 22
- 238000003786 synthesis reaction Methods 0.000 title claims description 22
- 238000000034 method Methods 0.000 claims description 120
- 230000008569 process Effects 0.000 claims description 83
- 238000012549 training Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000019692 hotdogs Nutrition 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007958 sleep Effects 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006266 hibernation Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
来のデータ入力からの機械出力を含む。機械出力は、TTSシステムに関連付けられているデバイスによって動作が実行されることをユーザに通知するか、またはTTSシステムに関連付けられているデバイスにユーザによって提供された命令を受け取ったことを通知することができる。したがって、合成音声は、テレビ、マルチメディアセットトップボックス、ステレオ、ラジオ、コンピュータシステム、または放送音声を出力することができる他の種類のデバイスから出力される放送音声から区別可能である。
波形を改変するものとしてよい。
100 音声認識対応システム
110、110a〜b ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオキャプチャデバイス(たとえば、マイクロホン)
116b オーディオキャプチャデバイス
118 音声出力デバイス(たとえば、スピーカー)
130 ネットワーク
130 ホットワード
132 ホットワードクエリ
140 リモートサーバ
142 ホットワードリポジトリ
150 発話
150a 第1の発話
160 合成音声
200、200b ホットワード検出器
210 ホットワード検出器訓練器
212、212b ポジティブ訓練サンプル
212、212a ネガティブ訓練例
220 ホットワード検出器モデル
220 ホットワード検出器モデル
300、300a 音声合成器
302 テキスト入力データ
304 オーディオ出力信号
310 ホットワード認識訓練器
312 波形発生器
320 ホットワード認識モデル
330 ユニット拡張器
340 ユニットデータベース
350 ユニット選択器
352 ウォーターマーク
354 フィルタ
360 ユニット
370 入力テキストシーケンス
380 波形ニューラルネットワークモデル
400 方法
500 方法
504 ホットワード検出器
600 コンピューティングデバイス
600a 標準的なサーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶装置デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (26)
- 方法(400)であって、
音声合成デバイス(300)のデータ処理ハードウェア(112)において、合成音声(160)に変換するためのテキスト入力データ(302)を受信するステップと、
前記データ処理ハードウェア(112)によって、またユーザデバイス(110)に割り当てられている少なくとも1つのホットワード(130)の存在を検出するように訓練されているホットワード認識モデル(320)を使用して、前記テキスト入力データ(302)の発音が前記ホットワード(130)を含んでいるかどうかを決定するステップであって、前記ホットワード(130)は、前記ユーザデバイス(110)によって受信されたオーディオ入力データに含まれるときに前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、ステップと、
前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むときに、
前記テキスト入力データ(302)からオーディオ出力信号(304)を生成するステップと、
前記データ処理ハードウェア(112)によって、前記オーディオ出力信号(304)を出力するために前記オーディオ出力信号(304)をオーディオ出力デバイス(118)に提供するステップであって、前記オーディオ出力信号(304)は、前記ユーザデバイス(110)のオーディオキャプチャデバイス(116)によってキャプチャされたときに前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐように構成される、ステップと
を含む、方法(400)。 - 前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むかどうかを決定するステップは、
前記テキスト入力データ(302)の単語、部分単語、またはテキスト読み上げシーケンスのうちの少なくとも1つが前記ホットワード(130)に関連付けられていると決定するステップを含む、請求項1に記載の方法(400)。 - 前記ホットワード認識モデル(320)は、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)のテキスト読み上げシーケンスまたはオーディオ表現に対して訓練される、請求項1または2に記載の方法(400)。
- 前記テキスト入力データ(302)は第1の言語を含み、
前記オーディオ出力信号(304)は前記テキスト入力データ(302)の異なる言語の翻訳を含む、請求項1から3のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(112)によって、前記音声合成デバイス(300)の動作環境内の前記ユーザデバイス(110)の存在を検出するステップと、
前記データ処理ハードウェア(112)によって、前記ホットワード認識モデル(320)を訓練するために前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリを前記ユーザデバイス(110)に対して実行するステップと
をさらに含む、請求項1から4のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(112)によって、前記ホットワード認識モデル(320)を訓練するために少なくとも前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリをリモートホットワードリポジトリ(142)に対して実行するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(400)。
- 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記オーディオ出力信号(304)が合成音声(160)に対応していることを指示し、前記合成音声(160)内の前記ホットワード(130)の検出を無視することを前記ユーザデバイス(110)のホットワード検出器(200)に命令するウォーターマーク(352)を、前記オーディオ出力信号(304)に挿入するステップを含む、請求項1から6のいずれか一項に記載の方法(400)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記テキスト入力データ(302)に対するテキスト読み上げ出力を表す音声波形を決定するステップと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記ホットワード(130)に関連付けられている音を取り除くか、または改変することによって前記音声波形を改変するステップと
を含む、請求項1から6のいずれか一項に記載の方法(400)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成するステップは、
前記テキスト入力データ(302)を表す音声波形を決定するステップと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記音声波形をフィルタ処理するステップと
を含む、請求項1から6のいずれか一項に記載の方法(400)。 - 方法(500)であって、
ユーザデバイス(110)のホットワード検出器(200)において、ホットワード(130)を含むオーディオ入力データを受信するステップであって、前記ホットワード(130)は、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、ステップと、
前記ホットワード検出器(200)によって、前記オーディオ入力データが合成音声(160)を含むかどうかを、前記オーディオ入力データ内の前記ホットワード(130)および合成音声(160)の存在を検出するように構成されたホットワード検出器モデル(220)を使用して決定するステップと、
前記オーディオ入力データが合成音声(160)を含んでいるときに、前記ホットワード検出器(200)によって、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く前記1つもしくは複数の他の語を処理するための前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐステップと
を含み、
前記ホットワード検出器モデル(220)は、
前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発語する一人または複数のユーザに対応する人間により生成されたオーディオデータを含むポジティブ訓練サンプル(212b)と、
1つまたは複数の音声合成器デバイス(300)から出力される合成音声発話(160)を含むネガティブ訓練サンプル(212a)と
を含む複数の訓練サンプルに対して訓練される、方法(500)。 - 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちの少なくとも1つは、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものである、請求項10に記載の方法(500)。
- 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちのどの1つも、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものでない、請求項10に記載の方法(500)。
- 前記オーディオ入力データが合成音声(160)を含むかどうかを決定するステップは、
前記ホットワード検出器モデル(220)を使用して、前記オーディオ入力データを文字起こしするまたは意味解釈することなく前記オーディオ入力データの音響特徴の分析を通じて前記オーディオ入力データ内の合成音声(160)の存在を検出するステップを含む、請求項10から12のいずれか一項に記載の方法(500)。 - システム(100)であって、
音声合成デバイス(300)のデータ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)と
を備え、前記メモリハードウェア(114)は、前記データ処理ハードウェア(112)によって実行されたとき、前記データ処理ハードウェア(112)に、
合成音声(160)に変換するためのテキスト入力データ(302)を受信することと、
ユーザデバイス(110)に割り当てられている少なくとも1つのホットワード(130)の存在を検出するように訓練されているホットワード認識モデル(320)を使用して、前記テキスト入力データ(302)の発音が前記ホットワード(130)を含んでいるかどうかを決定することであって、前記ホットワード(130)は、前記ユーザデバイス(110)によって受信されたオーディオ入力データに含まれるときに前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、決定することと、
前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むときに、
前記テキスト入力データ(302)からオーディオ出力信号(304)を生成することと、
前記オーディオ出力信号(304)を出力するために前記オーディオ出力信号(304)をオーディオ出力デバイス(118)に提供することであって、前記オーディオ出力信号(304)は、前記ユーザデバイス(110)のオーディオキャプチャデバイス(116)によってキャプチャされたときに前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐように構成される、提供することと
を含む動作を実行させる命令を記憶する、システム(100)。 - 前記テキスト入力データ(302)の前記発音が前記ホットワード(130)を含むかどうかを決定することは、
前記テキスト入力データ(302)の単語、部分単語、またはテキスト読み上げシーケンスのうちの少なくとも1つが前記ホットワード(130)に関連付けられていると決定することを含む、請求項14に記載のシステム(100)。 - 前記ホットワード認識モデル(320)は、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)のテキスト読み上げシーケンスまたはオーディオ表現に対して訓練される、請求項14または15に記載のシステム(100)。
- 前記テキスト入力データ(302)は第1の言語を含み、
前記オーディオ出力信号(304)は前記テキスト入力データ(302)の異なる言語の翻訳を含む、請求項14から16のいずれか一項に記載のシステム(100)。 - 前記動作は、
前記音声合成デバイス(300)の動作環境内の前記ユーザデバイス(110)の存在を検出することと、
前記ホットワード認識モデル(320)を訓練するために前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリを前記ユーザデバイス(110)に対して実行することと
をさらに含む、請求項14から17のいずれか一項に記載のシステム(100)。 - 前記動作は、前記ホットワード認識モデル(320)を訓練するために少なくとも前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を取得するクエリをリモートホットワードリポジトリ(142)に対して実行することをさらに含む、請求項14から18のいずれか一項に記載のシステム(100)。
- 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成することは、
前記オーディオ出力信号(304)が合成音声(160)に対応していることを指示し、前記合成音声(160)内の前記ホットワード(130)の検出を無視することを前記ユーザデバイス(110)のホットワード検出器(200)に命令するウォーターマーク(352)を、前記オーディオ出力信号(304)に挿入することを含む、請求項14から19のいずれか一項に記載のシステム(100)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成することは、
前記テキスト入力データ(302)に対するテキスト読み上げ出力を表す音声波形を決定することと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記ホットワード(130)に関連付けられている音を取り除くか、または改変することによって前記音声波形を改変することと
を含む、請求項14から19のいずれか一項に記載のシステム(100)。 - 前記テキスト入力データ(302)から前記オーディオ出力信号(304)を生成することは、
前記テキスト入力データ(302)を表す音声波形を決定することと、
前記ユーザデバイス(110)のホットワード検出器(200)による前記ホットワード(130)の検出を逃れるように前記音声波形をフィルタ処理することと
を含む、請求項14から19のいずれか一項に記載のシステム(100)。 - システム(100)であって、
ユーザデバイス(110)のデータ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)と
を備え、前記メモリハードウェア(114)は、前記データ処理ハードウェア(112)によって実行されたとき、前記データ処理ハードウェア(112)に、
前記ユーザデバイス(110)のホットワード検出器(200)において、ホットワード(130)を含むオーディオ入力データを受信することであって、前記ホットワード(130)は、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く1つもしくは複数の他の語を処理するために前記ユーザデバイス(110)上でウェイクアッププロセスを起動するように構成される、受信することと、
前記ホットワード検出器(200)によって、前記オーディオ入力データが合成音声(160)を含むかどうかを、前記オーディオ入力データ内の前記ホットワード(130)および合成音声(160)の存在を検出するように構成されたホットワード検出器モデル(220)を使用して決定することと、
前記オーディオ入力データが合成音声(160)を含んでいるときに、前記ホットワード検出器(200)によって、前記ホットワード(130)および/または前記オーディオ入力データ内の前記ホットワード(130)の後に続く前記1つもしくは複数の他の語を処理するための前記ユーザデバイス(110)上の前記ウェイクアッププロセスの起動を防ぐことと
を含む動作を実行させる命令を記憶し、
前記ホットワード検出器モデル(220)は、
前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発語する一人または複数のユーザに対応する人間により生成されたオーディオデータを含むポジティブ訓練サンプル(212b)と、
1つまたは複数の音声合成器デバイス(300)から出力される合成音声発話(160)を含むネガティブ訓練サンプル(212a)と
を含む複数の訓練サンプルに対して訓練される、システム(100)。 - 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちの少なくとも1つは、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものである、請求項23に記載のシステム(100)。
- 前記ネガティブ訓練サンプル(212a)の前記合成音声発話(160)のうちのどの1つも、前記ユーザデバイス(110)に割り当てられている前記ホットワード(130)を発音するものでない、請求項23に記載のシステム(100)。
- 前記オーディオ入力データが合成音声(160)を含むかどうかを決定することは、
前記ホットワード検出器モデル(220)を使用して、前記オーディオ入力データを文字起こしするまたは意味解釈することなく前記オーディオ入力データの音響特徴の分析を通じて前記オーディオ入力データ内の合成音声(160)の存在を検出することを含む、請求項23から25のいずれか一項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021127573A JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/039348 WO2020005202A1 (en) | 2018-06-25 | 2018-06-25 | Hotword-aware speech synthesis |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127573A Division JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020528566A JP2020528566A (ja) | 2020-09-24 |
JP6926241B2 true JP6926241B2 (ja) | 2021-08-25 |
Family
ID=62948373
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019566246A Active JP6926241B2 (ja) | 2018-06-25 | 2018-06-25 | ホットワード認識音声合成 |
JP2021127573A Active JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127573A Active JP7248751B2 (ja) | 2018-06-25 | 2021-08-03 | ホットワード認識音声合成 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11308934B2 (ja) |
EP (1) | EP3811359A1 (ja) |
JP (2) | JP6926241B2 (ja) |
KR (2) | KR102461208B1 (ja) |
CN (2) | CN117912447A (ja) |
WO (1) | WO2020005202A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210174791A1 (en) * | 2018-05-02 | 2021-06-10 | Melo Inc. | Systems and methods for processing meeting information obtained from multiple sources |
JP6926241B2 (ja) * | 2018-06-25 | 2021-08-25 | グーグル エルエルシーGoogle LLC | ホットワード認識音声合成 |
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US20210050003A1 (en) | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
CN111462751B (zh) * | 2020-03-27 | 2023-11-03 | 京东科技控股股份有限公司 | 解码语音数据的方法、装置、计算机设备和存储介质 |
CN111667834B (zh) * | 2020-05-21 | 2023-10-13 | 北京声智科技有限公司 | 一种助听设备及助听方法 |
EP4139920B1 (en) * | 2020-06-10 | 2024-03-06 | Google LLC | Text-based echo cancellation |
US11776549B2 (en) | 2020-11-06 | 2023-10-03 | Google Llc | Multi-factor audio watermarking |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
US20220269870A1 (en) * | 2021-02-18 | 2022-08-25 | Meta Platforms, Inc. | Readout of Communication Content Comprising Non-Latin or Non-Parsable Content Items for Assistant Systems |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113687719A (zh) * | 2021-08-23 | 2021-11-23 | 广东电网有限责任公司 | 一种适用于语音信息的智能交互方法及装置 |
CN114185511A (zh) * | 2021-11-29 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置及电子设备 |
US20240119925A1 (en) * | 2022-10-10 | 2024-04-11 | Samsung Electronics Co., Ltd. | System and method for post-asr false wake-up suppression |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6049298A (en) * | 1997-01-31 | 1998-08-25 | T-Netix, Inc. | System and method for detecting a recorded voice |
JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
CN100583237C (zh) * | 2004-06-04 | 2010-01-20 | 松下电器产业株式会社 | 声音合成装置 |
WO2010008722A1 (en) * | 2008-06-23 | 2010-01-21 | John Nicholas Gross | Captcha system optimized for distinguishing between humans and machines |
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
JP6203258B2 (ja) * | 2013-06-11 | 2017-09-27 | 株式会社東芝 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
US9865253B1 (en) * | 2013-09-03 | 2018-01-09 | VoiceCipher, Inc. | Synthetic speech discrimination systems and methods |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
KR20160148009A (ko) * | 2014-07-04 | 2016-12-23 | 인텔 코포레이션 | 자동 화자 검증 시스템에서의 리플레이 공격 검출 |
US9548053B1 (en) * | 2014-09-19 | 2017-01-17 | Amazon Technologies, Inc. | Audible command filtering |
US9443517B1 (en) * | 2015-05-12 | 2016-09-13 | Google Inc. | Generating sounds for detectability by neural networks |
US10438593B2 (en) | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
US9747926B2 (en) * | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10453460B1 (en) * | 2016-02-02 | 2019-10-22 | Amazon Technologies, Inc. | Post-speech recognition request surplus detection and prevention |
EP3214856A1 (en) * | 2016-03-01 | 2017-09-06 | Oticon A/s | A hearing aid configured to be operating in a communication system |
US10373612B2 (en) | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
WO2018085192A1 (en) | 2016-11-07 | 2018-05-11 | Google Llc | Recorded media hotword trigger suppression |
US10186265B1 (en) * | 2016-12-06 | 2019-01-22 | Amazon Technologies, Inc. | Multi-layer keyword detection to avoid detection of keywords in output audio |
US10134396B2 (en) * | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10242673B2 (en) * | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10580405B1 (en) * | 2016-12-27 | 2020-03-03 | Amazon Technologies, Inc. | Voice control of remote device |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10152966B1 (en) * | 2017-10-31 | 2018-12-11 | Comcast Cable Communications, Llc | Preventing unwanted activation of a hands free device |
US20190149987A1 (en) * | 2017-11-10 | 2019-05-16 | Amazon Technologies, Inc. | Secondary device setup |
US10755694B2 (en) * | 2018-03-15 | 2020-08-25 | Motorola Mobility Llc | Electronic device with voice-synthesis and acoustic watermark capabilities |
US10649727B1 (en) * | 2018-05-14 | 2020-05-12 | Amazon Technologies, Inc. | Wake word detection configuration |
JP6926241B2 (ja) | 2018-06-25 | 2021-08-25 | グーグル エルエルシーGoogle LLC | ホットワード認識音声合成 |
-
2018
- 2018-06-25 JP JP2019566246A patent/JP6926241B2/ja active Active
- 2018-06-25 WO PCT/US2018/039348 patent/WO2020005202A1/en unknown
- 2018-06-25 EP EP18742666.3A patent/EP3811359A1/en active Pending
- 2018-06-25 US US16/609,326 patent/US11308934B2/en active Active
- 2018-06-25 KR KR1020217033579A patent/KR102461208B1/ko active IP Right Grant
- 2018-06-25 CN CN202311787107.0A patent/CN117912447A/zh active Pending
- 2018-06-25 KR KR1020197033841A patent/KR102318340B1/ko active IP Right Grant
- 2018-06-25 CN CN201880035906.3A patent/CN110896664B/zh active Active
-
2021
- 2021-08-03 JP JP2021127573A patent/JP7248751B2/ja active Active
- 2021-08-05 US US17/444,557 patent/US12067997B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020005202A1 (en) | 2020-01-02 |
KR20210129744A (ko) | 2021-10-28 |
CN117912447A (zh) | 2024-04-19 |
US20210104221A1 (en) | 2021-04-08 |
CN110896664A (zh) | 2020-03-20 |
EP3811359A1 (en) | 2021-04-28 |
CN110896664B (zh) | 2023-12-26 |
JP7248751B2 (ja) | 2023-03-29 |
JP2020528566A (ja) | 2020-09-24 |
US12067997B2 (en) | 2024-08-20 |
JP2021177258A (ja) | 2021-11-11 |
KR102318340B1 (ko) | 2021-10-28 |
KR102461208B1 (ko) | 2022-10-31 |
KR20200002924A (ko) | 2020-01-08 |
US11308934B2 (en) | 2022-04-19 |
US20210366459A1 (en) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6926241B2 (ja) | ホットワード認識音声合成 | |
US10580404B2 (en) | Indicator for voice-based communications | |
US20180061402A1 (en) | Voice-based communications | |
US11093110B1 (en) | Messaging feedback mechanism | |
US9202466B2 (en) | Spoken dialog system using prominence | |
US11341954B2 (en) | Training keyword spotters | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
US11694685B2 (en) | Hotphrase triggering based on a sequence of detections | |
KR20230002690A (ko) | 발화의 음성 인식 오류 교정 | |
US12087305B2 (en) | Speech processing | |
TWI651714B (zh) | 語音選項選擇系統與方法以及使用其之智慧型機器人 | |
CN116648743A (zh) | 基于个性化否定来适应热词辨识 | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
US11693622B1 (en) | Context configurable keywords | |
US11211056B1 (en) | Natural language understanding model generation | |
US12094463B1 (en) | Default assistant fallback in multi-assistant devices | |
US20240274123A1 (en) | Systems and methods for phoneme recognition | |
Abdelhamid et al. | Robust voice user interface for internet-of-things | |
Imam et al. | Precision Location Keyword Detection Using Offline Speech Recognition Technique | |
Lison | A salience-driven approach to speech recognition for human-robot interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6926241 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |