[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2024534198A - 音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品 - Google Patents

音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品 Download PDF

Info

Publication number
JP2024534198A
JP2024534198A JP2024513453A JP2024513453A JP2024534198A JP 2024534198 A JP2024534198 A JP 2024534198A JP 2024513453 A JP2024513453 A JP 2024513453A JP 2024513453 A JP2024513453 A JP 2024513453A JP 2024534198 A JP2024534198 A JP 2024534198A
Authority
JP
Japan
Prior art keywords
signal
bone conduction
posterior probability
wake
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024513453A
Other languages
English (en)
Inventor
▲暁▼建 李
晋▲琿▼ 盛
▲ユエ▼ 郎
巍 江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2024534198A publication Critical patent/JP2024534198A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Manipulator (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本出願の実施形態は、音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品を開示し、音声認識技術の分野に関する。本出願の実施形態においては、低消費電力を確実にするために、骨伝導マイクロフォンが音声検出のための骨伝導信号を収集する。加えて、音声検出の遅延は、収集された空気伝導信号のヘッダロスを引き起こす可能性があり、その結果、音源から入力されたコマンドワードの完全な情報は含まれないと考えられる。しかしながら、骨伝導マイクロフォンによって収集される骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含む、すなわち、骨伝導信号はヘッダを失わない。したがって、この解決策は、骨伝導信号に基づいて、ウェイクアップワードを検出する。これにより、ウェイクアップワードの認識精度が高く、音声ウェイクアップの精度が高い。

Description

本出願は、2021年8月30日に提出された「SPEECH WAKEUP METHOD AND APPARATUS,DEVICE,STORAGE MEDIUM,AND PROGRAM PRODUCT」と題する中国特許出願第202111005443.6号の優先権を主張するものであり、それは参照によりその全体が本明細書に組み込まれる。
本出願の実施形態は、音声認識技術の分野に関し、特に、音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品に関する。
現在、より多くのスマートデバイスが音声制御を通じてタスクを完了させている。通常、スマートデバイスは、タスクを完了するための命令を受信するために、ユーザの発話によってウェイクアップワードを入力することによってウェイクアップされる必要がある。加えて、骨伝導デバイスの発展に伴い、ウェアラブルデバイスには大量の骨伝導マイクロフォンが使用され、ウェアラブルデバイスはスマートデバイスをウェイクアップさせる。ウェアラブルデバイスは、ワイヤレスヘッドセット、スマートグラス、スマートウォッチなどであり得る。骨伝導マイクロフォンにおけるセンサは、非音響センサである。センサは、ユーザが発話したときに生成する声帯の振動信号を収集し、この振動信号を電気信号に変換し、この電気信号は骨伝導信号と呼ばれている。
従来の技術では、ウェアラブルデバイスに骨伝導マイクロフォンとエアマイクロフォンが設置されている。低消費電力のウェアラブルデバイスを実装するために、スマートデバイスがウェイクアップされる前に、エアマイクロフォンはスリープ状態にある。骨伝導マイクロフォンの消費電力は低いため、骨伝導マイクロフォンは骨伝導信号を収集するように構成され得、骨伝導信号に基づいて音声検出(例えば、音声アクティビティ検出(voice activate detector、VAD))が実行され、消費電力を低減するようにエアマイクロフォンのスイッチを制御する。音声検出により、現在音声入力があると決定されるとき、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集され、空気伝導信号に基づいてウェイクアップワードが認識される、すなわち、音声ウェイクアップが実行される。
しかしながら、音声検出にアルゴリズム遅延があるため、入力されたコマンドワードの音声ヘッダが切り捨てられることがあり、すなわち、収集された空気伝導信号はヘッダを失うことがあり、音源によって入力されたコマンドワードの完全な情報を含まない。その結果、ウェイクアップワードの認識の精度が低く、音声ウェイクアップの精度が低い。
本出願の実施形態は、音声ウェイクアップの精度を向上させるために、音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品を提供する。技術的解決策は以下のとおりである。
第1の態様によれば、音声ウェイクアップ方法が提供され、方法は、
骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行するステップであって、骨伝導信号が、音源によって入力されたコマンドワードに関する情報を含む、ステップと、音声入力が検出されるとき、骨伝導信号に基づいてウェイクアップワードを検出するステップと、コマンドワードがウェイクアップワードを含むことが検出されたときに、ウェイクアップされるべきデバイスに対して音声ウェイクアップを実行するステップとを含む。
本出願のこの実施形態では、低消費電力を確実にするために、骨伝導マイクロフォンが音声検出のための骨伝導信号を収集する。加えて、音声検出の遅延は、収集された空気伝導信号のヘッダロスを引き起こす可能性があり、その結果、音源から入力されたコマンドワードの完全な情報が含まれないと考えられる。しかしながら、骨伝導マイクロフォンによって収集される骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含み、すなわち、骨伝導信号はヘッダを失わない。したがって、この解決策は、骨伝導信号に基づいてウェイクアップワードを検出する。このようにすると、ウェイクアップワードの認識の精度が高く、音声ウェイクアップの精度が高い。
任意選択で、骨伝導信号に基づいてウェイクアップワードを検出するステップは、骨伝導信号に基づいて融合信号を決定するステップと、融合信号に対してウェイクアップワード検出を実行するステップとを含む。骨伝導信号に基づいて決定される融合信号は、音源によって入力されたコマンドワードに関する情報も含むことに留意されたい。
任意選択で、骨伝導信号に基づいて融合信号を決定するステップの前に、方法は、エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するステップをさらに含む。骨伝導信号に基づいて融合信号を決定するステップは、骨伝導信号の開始部分と空気伝導信号とを融合して融合信号を得るステップであって、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、ステップ、骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号と空気伝導信号とを融合して融合信号を得るステップであって、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、ステップ、または骨伝導信号と空気伝導信号とを直接融合して、融合信号を得るステップを含む。言い換えれば、本出願のこの実施形態は、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償を実行するための3つの方法、すなわち、明示的な信号融合を介して空気伝導信号においてヘッダロス補償を直接実行するための3つの方法を提供する。任意選択で、信号連結によって信号融合が実行される。
任意選択で、骨伝導信号に基づいて融合信号を決定するステップは、骨伝導信号を融合信号として決定するステップを含む。言い換えれば、本出願のこの実施形態では、ウェイクアップワードは、骨伝導信号に基づいて直接検出され得る。
任意選択で、融合信号に対してウェイクアップワード検出を実行するステップは、第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、融合信号に含まれる複数のオーディオフレームを第1の音響モデルに入力するステップであって、複数の事後確率ベクトルは複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、複数の事後確率ベクトルに基づいてウェイクアップワードを検出するステップとを含む。言い換えれば、第1の音響モデルを使用することによって融合信号を最初に処理して、融合信号に含まれる複数のオーディオフレームにそれぞれ対応する複数の事後確率ベクトルを得る。次に、複数の事後確率ベクトルに基づいてウェイクアップワードが検出され、例えば、複数の事後確率ベクトルが復号されて、ウェイクアップワードを検出する。
任意選択で、骨伝導信号に基づいてウェイクアップワードを検出するステップの前に、方法は、エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するステップをさらに含む。骨伝導信号に基づいてウェイクアップワードを検出するステップは、骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定するステップであって、複数の事後確率ベクトルは、骨伝導信号および空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、複数の事後確率ベクトルに基づいてウェイクアップワードを検出するステップとを含む。言い換えれば、本出願のこの実施形態では、信号融合は実行されなくてもよいが、各オーディオフレームに対応する事後確率ベクトルが骨伝導信号および空気伝導信号に基づいて直接決定され、その結果、得られた複数の事後確率ベクトルは、音素確率方式で、音源によって入力されたコマンドワードに関する情報を暗黙的に含む、すなわち、骨伝導信号が、空気伝導信号に対してヘッダロス補償を実行するために暗黙的に使用される。
任意選択で、骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定するステップは、第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得るために、骨伝導信号の開始部分および空気伝導信号を第2の音響モデルに入力するステップであって、骨伝導信号の開始部分は音声検出の検出遅延に基づいて決定され、第1の量の骨伝導事後確率ベクトルは1対1で骨伝導信号の開始部分に含まれるオーディオフレームに対応し、第2の量の空気伝導事後確率ベクトルは1対1で空気伝導信号に含まれるオーディオフレームに対応する、ステップと、第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合するステップであって、第1の骨伝導事後確率ベクトルは骨伝導信号の開始部分の最後のオーディオフレームに対応し、最後のオーディオフレームの持続時間はフレームの持続時間より短く、第1の空気伝導事後確率ベクトルは空気伝導信号の最初のオーディオフレームに対応し、最初のオーディオフレームの持続時間はフレームの持続時間より短く、複数の事後確率ベクトルは、第2の事後確率ベクトルと、第1の骨伝導事後確率ベクトル以外の第1の量の骨伝導事後確率ベクトルのベクトルと、第1の空気伝導事後確率ベクトル以外の第2の量の空気伝導事後確率ベクトルのベクトルとを含む。言い換えれば、本出願のこの実施形態では、骨伝導信号の開始部分および空気伝導信号は、対応する骨伝導事後確率ベクトルおよび空気伝導事後確率ベクトルを得るために、第2の音響モデルを使用することによって別々に処理され得る。次に、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合して、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償を暗黙的に実行する。
任意選択で、骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定するステップは、第3の音響モデルによって出力された複数の事後確率ベクトルを得るために、骨伝導信号の開始部分および空気伝導信号を第3の音響モデルに入力するステップであって、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、ステップ、または、骨伝導信号および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得るステップを含む。言い換えれば、本出願のこの実施形態では、骨伝導信号の開始部分および空気伝導信号は、第3の音響モデルに別々に入力され、第3の音響モデルを使用することによって複数の事後確率ベクトルを直接得ることができる。言い換えれば、第3の音響モデルを使用することによって骨伝導信号の開始部分および空気伝導信号を処理するプロセスでは、信号の2つの部分が暗黙的に融合される、すなわち、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償が暗黙的に実行される。
任意選択で、複数の事後確率ベクトルに基づいてウェイクアップワードを検出するステップは、複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定するステップと、信頼度が信頼度閾値を超えるときに、コマンドワードがウェイクアップワードを含むことが検出されたと決定するステップとを含む。例えば、信頼度を得るために、複数の事後確率ベクトルが復号される。次に、コマンドワードがウェイクアップワードを含むかどうかが信頼度閾値に基づいて判定される、すなわち、信頼条件が満たされているとき、コマンドワードがウェイクアップワードを含むことが検出されたと決定される。
任意選択で、複数の事後確率ベクトルに基づいてウェイクアップワードを検出するステップは、複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定するステップと、信頼度が信頼度閾値を超え、複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たすときに、コマンドワードがウェイクアップワードを含むことが検出されたと決定するステップであって、複数のテンプレートベクトルは、ウェイクアップワードの完全な情報を含む音声信号の音素が複数の指定された音素に属する確率を示す、ステップとを含む。言い換えれば、可能な限り偽りのウェイクアップを回避するために、信頼度の条件が満たされ、テンプレートが一致するとき、コマンドワードがウェイクアップワードを含むことが検出されたと決定される。
任意選択で、複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、距離の条件は、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む。言い換えれば、テンプレートが一致するかどうかは、ベクトル間の平均の距離に基づいて決定され得る。
任意選択で、方法は、骨伝導登録信号を得るステップであって、骨伝導登録信号がウェイクアップワードの完全な情報を含む、ステップと、骨伝導登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定するステップとをさらに含む。言い換えれば、本出願のこの実施形態では、ウェイクアップワード登録プロセスにおいて、信頼度閾値および複数のテンプレートベクトルは、ウェイクアップワードの完全な情報を含む骨伝導登録信号に基づいてさらに決定され得て、後続の音声ウェイクアッププロセスにおいて、ウェイクアップワードは、得られた信頼度閾値および複数の得られたテンプレートベクトルに基づいて検出される。これは、ウェイクアップワード検出の精度を向上させることができ、偽りのウェイクアップをさらに低減することができる。
任意選択で、骨伝導登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定するステップは、骨伝導登録信号に基づいて融合登録信号を決定するステップと、融合登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて、信頼度閾値と複数のテンプレートベクトルとを決定するステップとを含む。言い換えれば、ウェイクアップワード登録のプロセスにおいて、融合登録信号は、信号融合を介して最初に得ることができ、得られた融合登録信号は、音源によって入力されたコマンドワードに関する情報を含む。さらに、信頼度閾値および複数のテンプレートベクトルは、融合登録信号に基づいて決定される。
任意選択で、融合登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定するステップは、第1の音響モデルによって出力される複数の登録事後確率ベクトルを得るために、融合登録信号に含まれる複数の登録オーディオフレームを第1の音響モデルに入力するステップであって、複数の登録事後確率ベクトルは複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、複数の登録事後確率ベクトルを複数のテンプレートベクトルとして決定するステップと、複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定するステップとを含む。言い換えれば、ウェイクアップワード登録プロセスにおける融合登録信号の処理は、音声ウェイクアッププロセスにおける融合信号の処理と同様である。融合登録信号はまた、融合登録信号に含まれる複数の登録オーディオフレームにそれぞれ対応する複数の登録事後確率ベクトルを得るために、第1の音響モデルを使用することによって最初に処理される。次に、複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値が決定される。例えば、信頼度閾値を決定するために、複数の登録事後確率ベクトルが復号される。加えて、複数の登録事後確率ベクトルは、複数のテンプレートベクトルとして代替的に決定され得る。
任意選択で、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する前に、方法は、空気伝導登録信号を得るステップをさらに含む。骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定するステップは、骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定するステップであって、複数の登録事後確率ベクトルは、骨伝導登録信号および空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定するステップとを含む。言い換えれば、ウェイクアップワード登録のプロセスでは、最初に信号融合が実行されなくてもよく、各登録オーディオフレームに別々に対応する登録事後確率ベクトルが、骨伝導登録信号および空気伝導登録信号に基づいて直接決定される。
第2の態様によれば、音声ウェイクアップ装置が提供され、音声ウェイクアップ装置は、第1の態様の音声ウェイクアップ方法を実装する機能を有する。音声ウェイクアップ装置は、1つ以上のモジュールを含み、1つ以上のモジュールは、第1の態様の音声ウェイクアップ方法を実装するように構成される。
言い換えれば、音声ウェイクアップ装置が提供され、装置は、
骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行するように構成された音声検出モジュールであって、骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含む、音声検出モジュールと、
音声入力が検出されるとき、骨伝導信号に基づいてウェイクアップワードを検出するように構成された、ウェイクアップワード検出モジュールと、
コマンドワードがウェイクアップワードを含むことが検出されるとき、ウェイクアップされるべきデバイスで音声ウェイクアップを実行するように構成された、音声ウェイクアップモジュールと
を含む。
任意選択で、ウェイクアップワード検出モジュールは、
骨伝導信号に基づいて融合信号を決定するように構成された第1の決定サブモジュール、および
融合信号に対してウェイクアップワード検出を実行するように構成された、ウェイクアップワード検出サブモジュールを含む。
任意選択で、装置は、
エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するように構成される処理モジュールをさらに含む。
第1の決定サブモジュールは、
骨伝導信号の開始部分と空気伝導信号とを融合して融合信号を得て、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、
骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号と空気伝導信号とを融合して融合信号を得、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、または
骨伝導信号と空気伝導信号とを直接融合して融合信号を得る
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、融合信号に含まれる複数のオーディオフレームを第1の音響モデルに入力し、複数の事後確率ベクトルは複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示し、
複数の事後確率ベクトルに基づいてウェイクアップワードを検出する
よう構成される。
任意選択で、装置は、
エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するように構成される処理モジュールをさらに含む。
ウェイクアップワード検出モジュールは、
骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定するように構成された第2の決定サブモジュールであって、複数の事後確率ベクトルは、骨伝導信号および空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、第2の決定サブモジュールと、
複数の事後確率ベクトルに基づいてウェイクアップワードを検出するように構成された、ウェイクアップワード検出サブモジュールと
を含む。
任意選択で、第2の決定サブモジュールが、
第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得るために、骨伝導信号の開始部分および空気伝導信号を第2の音響モデルに入力し、骨伝導信号の開始部分は音声検出の検出遅延に基づいて決定され、第1の量の骨伝導事後確率ベクトルは1対1で骨伝導信号の開始部分に含まれるオーディオフレームに対応し、第2の量の空気伝導事後確率ベクトルは1対1で空気伝導信号に含まれるオーディオフレームに対応し、
第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合し、第1の骨伝導事後確率ベクトルは骨伝導信号の開始部分の最後のオーディオフレームに対応し、最後のオーディオフレームの持続時間はフレームの持続時間より短く、第1の空気伝導事後確率ベクトルは空気伝導信号の最初のオーディオフレームに対応し、最初のオーディオフレームの持続時間はフレームの持続時間より短く、複数の事後確率ベクトルは、第2の事後確率ベクトルと、第1の骨伝導事後確率ベクトル以外の第1の量の骨伝導事後確率ベクトルのベクトルと、第1の空気伝導事後確率ベクトル以外の第2の量の空気伝導事後確率ベクトルのベクトルとを含む
ように構成される。
任意選択で、第2の決定サブモジュールは、
骨伝導信号の開始部分および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得て、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、または
骨伝導信号および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得る
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定し、
信頼度が信頼度閾値を超えるとき、コマンドワードがウェイクアップワードを含むことが検出されたと決定する
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定し、
信頼度が信頼度閾値を超え、複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たすときに、コマンドワードがウェイクアップワードを含むことが検出されたと決定し、複数のテンプレートベクトルは、ウェイクアップワードの完全な情報を含む音声信号の音素が複数の指定された音素に属する確率を示す
ように構成される。
任意選択で、複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、距離の条件は、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む。
任意選択で、装置は、
骨伝導登録信号を得るように構成された取得モジュールであって、骨伝導登録信号がウェイクアップワードの完全な情報を含む、取得モジュールと、
骨伝導登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定するように構成された決定モジュールと
をさらに含む。
任意選択で、決定モジュールは、
骨伝導登録信号に基づいて融合登録信号を決定するように構成された第3の決定サブモジュール、および
融合登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて、信頼度閾値および複数のテンプレートベクトルを決定するように構成される、第4の決定サブモジュール
を含む。
任意選択で、第4の決定サブモジュールは、
第1の音響モデルによって出力される複数の登録事後確率ベクトルを得るために、融合登録信号に含まれる複数の登録オーディオフレームを第1の音響モデルに入力し、複数の登録事後確率ベクトルは複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示し、
複数の登録事後確率ベクトルを複数のテンプレートベクトルとして決定し、
複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する
ように構成される。
任意選択で、装置は、
空気伝導登録信号を得るように構成される取得モジュールをさらに含む。
決定モジュールは、
骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定するように構成される第5の決定サブモジュールであって、複数の登録事後確率ベクトルは、骨伝導登録信号および空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示す、第5の決定サブモジュールと、
複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定するように構成される、第6の決定サブモジュールと
を含む。
第3の態様によれば、電子デバイスが提供される。電子デバイスは、プロセッサおよびメモリを含む。メモリは、第1の態様で音声ウェイクアップ方法を実行するプログラムを記憶し、かつ第1の態様で音声ウェイクアップ方法を実装するために使用されるデータを記憶するように構成される。プロセッサは、メモリに記憶されたプログラムを実行するように構成される。記憶デバイスの動作装置は、通信バスをさらに含み得、通信バスは、プロセッサとメモリとの間の接続を確立するように使用される。
第4の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体は命令を記憶し、命令がコンピュータで実行されるとき、コンピュータは第1の態様の音声ウェイクアップ方法を実行することが可能にされる。
第5の態様によれば、命令を含むコンピュータプログラム製品が提供される。コンピュータプログラム製品がコンピュータで実行されるとき、コンピュータは、第1の態様で音声ウェイクアップ方法を実行することが可能にされる。
第2の態様、第3の態様、第4の態様、および第5の態様において達成される技術的効果は、第1の態様における対応する技術的手段によって達成されるものと同様である。本明細書では、細部は再度説明されない。
本出願の実施形態で提供される技術的解決策は、少なくとも以下の有益な効果をもたらすことができる。
本出願の実施形態では、低消費電力を確実にするために、骨伝導マイクロフォンが音声検出のための骨伝導信号を収集する。加えて、音声検出の遅延は、収集された空気伝導信号のヘッダロスを引き起こす可能性があり、その結果、音源から入力されたコマンドワードの完全な情報が含まれないと考えられる。しかしながら、骨伝導マイクロフォンによって収集される骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含み、すなわち、骨伝導信号はヘッダを失わない。したがって、この解決策は、骨伝導信号に基づいてウェイクアップワードを検出する。このようにすると、ウェイクアップワードの認識の精度が高く、音声ウェイクアップの精度が高い。
本出願の実施形態による、音響モデルの構造の概略図である。 本出願の実施形態による、音声ウェイクアップ方法に関するシステムアーキテクチャの図である。 本出願の実施形態による、電子デバイスの構造の概略図である。 本出願の実施形態による、音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による骨伝導信号および空気伝導信号を生成する原理の概略図である。 本出願の実施形態による、信号の時系列の概略図である。 本出願の実施形態による、信号連結方法の概略図である。 本出願の実施形態による、骨伝導信号に対してダウンサンプリングを実行する概略図である。 本出願の実施形態による、骨伝導信号に対して利得調整を実行する概略図である。 本出願の実施形態による、生成ネットワークモデル訓練方法の概略図である。 本出願の実施形態による、別の音響モデルの構造の概略図である。 本出願の実施形態による、さらに別の音響モデルの構造の概略図である。 本出願の実施形態による、別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。 本出願の実施形態による、ウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、別のウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、さらに別のウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、さらに別のウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、さらに別のウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、さらに別のウェイクアップワード登録方法のフローチャートである。 本出願の実施形態による、第1の音響モデル訓練方法の概略図である。 本出願の実施形態による、別の第1の音響モデル訓練方法の概略図である。 本出願の実施形態による、さらに別の第1の音響モデル訓練方法の概略図である。 本出願の実施形態による、さらに別の第1の音響モデル訓練方法の概略図である。 本出願の実施形態による、第2の音響モデル訓練方法の概略図である。 本出願の実施形態による、第3の音響モデル訓練方法の概略図である。 本出願の実施形態による、音声ウェイクアップ装置の構造の概略図である。
本出願の実施形態の目的、技術的解決策、および利点を明確にするために、以下では、添付の図面を参照して本出願の実装形態を詳細にさらに説明する。
理解を容易にするために、本出願の実施形態におけるいくつかの名称または用語が最初に説明される。
音声認識は、自動音声認識(automatic speech recognition、ASR)とも呼ばれる。音声認識とは、コンピュータを使用することによって音声信号に含まれる語彙内容を認識することである。
音声ウェイクアップは、キーワードスポッティング(keyword spotting、KWS)、ウェイクアップワード検出、ウェイクアップワード認識などとも呼ばれる。音声ウェイクアップは、連続音声ストリームのウェイクアップワードをリアルタイムで検出し、音源によって入力された名詞がウェイクアップワードであることを検出したときに、スマートデバイスをウェイクアップさせることである。
深層学習(deep learning、DL)は、機械学習におけるデータ表現に基づく学習アルゴリズムである。
以下では、本出願の実施形態における音声認識に関連する知識について説明する。
音声アクティビティ検出(voice activate detector、VAD)
VADは、音声入力があるとき、およびそれがミュート状態であるときを決定するために使用され、音声入力から有効なセグメントを取り込むためにさらに使用される。その後の音声認識の動作はすべて、音声認識システムの雑音認識の誤差率およびシステムの電力消費を低減するために、VADを介して取り込まれた有効なセグメントに対して実行される。近距離場環境では、音声信号の減衰が限られているため、信号対雑音比(signal-noise ratio、SNR)が高く、音声アクティビティ検出を実行するためには単純な方式(例えば、ゼロ交差率および信号エネルギー)のみが必要とされる。しかしながら、遠距離環境では、音声信号の伝送距離が長く減衰が深刻であるため、マイクロフォンで収集されるデータのSNRが低い。この場合、単純な音声アクティビティ検出方法の効果は乏しい。深層ニューラルネットワーク(deep neural networks、DNN)を使用することによる音声アクティビティ検出は、深層学習に基づく音声認識システムにおいて一般的な方法である。VADは音声検出の実装である。本出願の実施形態では、VADを介して音声検出が実行される例が説明に使用される。別の実施形態では、音声検出は別の方式で代替的に実行され得る。
音声認識
音声認識システムについて、第1のステップは、音声入力があるかどうか、すなわち音声アクティビティ検出(VAD)を検出することである。低消費電力設計では、VADは、音声認識の別の部分と比較して、常時オン(always on)メカニズムで動作する。音声入力がVADを通じて検出されるとき、後続の認識システムがVADを通じてウェイクアップされる。認識システムは、特徴抽出、認識モデリング、および認識結果を得るための復号を主に含む。モデルト訓練は、音響モデル訓練、言語モデル訓練などを含む。音声認識は、本質的に、オーディオシーケンスをテキストシーケンスに変換するプロセス、すなわち、所与の音声入力の下で最大確率を有するテキストシーケンスを検索することである。ベイズの原理によれば、音声認識は、音声が所与のテキストシーケンスに現れる条件付き確率と、テキストシーケンスが現れる事前確率とに分割され得る。条件付き確率をモデリングすることによって得られるモデルが音響モデルであり、テキストシーケンスが出現する事前確率をモデリングすることによって得られるモデルが言語モデルである。
音声信号を解析して認識するためには、音声信号に対してフレーム分割が実行される必要があり、すなわち音声信号が複数のセグメントに分割されて、各セグメントが1つのフレームと呼ばれることに留意されたい。フレーム分割動作は、通常、単純な分割ではなく、窓関数を使用することによって実装される。フレーム分割後、隣接するフレームは通常重複する。本出願の実施形態におけるオーディオフレームは、フレーム分割によって得られたオーディオフレームであり、フレーム分割は、音響モデルが音声信号を分析することを可能にするために使用される。例えば、窓関数を使用することによって音声信号に対してフレーム分割が実行される。窓関数は、25ms(ミリ秒)のフレームの長さおよび10msのフレームシフトを使用することによってフレーム分割が実行され、フレーム分割後の各オーディオフレームの長さは25msであり、隣接する2つのフレーム間に25-10=15msの重複があることを示すと仮定される。
以下では、2つの概念を説明する。音素は、ワードの発音を形成し、発音の単位である。英語の音素セット(すなわち、発音の辞書)は、例えばカーネギー・メロン大学の39音素を含む音素セットである。中国語の音素セットは、例えば、すべての頭文字と末尾を直接使用した音素セットである。代替的に、トーンがある場合も、トーンがない場合も、音素セットはより多くの音素を含む。例えば、本出願の実施形態では、音素セットは100個の音素を含む。状態は、音素よりも詳細な発音の単位と考えられることができる。音素は、通常、3つの状態に分割される。本出願の実施形態では、1つのオーディオフレームは1つの音素に対応し、いくつかの音素は1つのワード(文字)を形成する。したがって、各オーディオフレームに対応する音素が学習されれば、音声認識の結果が得られる。いくつかの実施形態では、いくつかのオーディオフレームが1つの状態に対応し、3つの状態ごとに1つの音素に結合され、いくつかの音素が1つのワードに結合される。したがって、各オーディオフレームに対応する状態が学習されれば、音声認識の結果が得られる。
音響モデル、復号、および音声ウェイクアップ
音声認識では、例えば、1つのオーディオフレームが1つの音素に対応する。各オーディオフレームに対応する音素が音素セットにおける音素である確率は、音響モデルを使用することによって学習され得る。言い換えれば、確率は、オーディオに対応する事後確率ベクトルである。一般に、音響モデルは大量のパラメータを有し、パラメータに基づいて、各オーディオフレームに対応する事後確率ベクトルが学習され得る。パラメータは、音響モデルを訓練することによって得ることができ、音響モデルの訓練は、大量の音声データを必要とする。各オーディオフレームに対応する事後確率ベクトルが音響モデルを使用することによって得られた後、言語モデルを使用することによって、また発音の辞書などに従って、復号グラフ(状態ネットワーク、探索空間などと呼ばれることもある)が構築され、音響モデルによって出力された複数の連続するオーディオフレームに対応する事後確率ベクトルが復号グラフの入力として使用される。復号グラフにおいて最適な経路が探索され、対応する音声の音素がこの経路に存在している確率が最も大きい。最適な経路が見つけられると、各オーディオフレームに対応する音素が学習され得る、すなわち、音声認識によって得られた最適なワード列が得られる。ワード列を得るために最適な経路を求めて状態ネットワークを探索するプロセスは復号と考えられることができ、復号は音声信号に対応するワード列を決定することである。
しかしながら、本出願の実施形態における音声ウェイクアップ復号では、復号経路の各音素の確率が復号グラフで探索され、見つかった各音素の確率が加算されて経路スコアを得るようにする。復号経路は、ウェイクアップワードに対応する音素シーケンスである。経路スコアが大きい場合、コマンドワードがウェイクアップワードを含むことが検出される。言い換えれば、本出願の実施形態における復号は、復号グラフに基づいて、音声信号に対応するワード列がウェイクアップワードであるかどうかを決定することである。
本出願の実施形態を説明するために、以下ではまず、本出願の実施形態における音響モデルについて説明する。音響モデルは、単一の音素を認識可能なモデルであり、隠れマルコフモデル(hidden Markov model、HMM)を使用することによってモデリングされ得る。音響モデルは、訓練されたモデルであり、音声信号の音響特徴および対応するラベルを使用することによって訓練され得る。音響モデルにおいて、音響信号とモデリングユニットとの間の対応する確率分布が確立される。モデリングの単位は、例えば、HMM状態、音素、音節、文字であり、発音の単位とも称され得る。音響モデルの構造は、例えば、GMM-HMM、DNN-HMM、または、DNN-CTCである。GMM(gaussian mixed model)は、ガウス混合モデルを示し、DNNは、深層ニューラルネットワークを示し、CTC(connectionist temporal classification)は、ニューラルネットワークに基づく時系列分類を示す。本出願の実施形態では、モデリング単位が音素であり、音響モデルがDNN-HMMモデルである例が説明に使用される。本出願の実施形態では、音響モデルは、フレームごとにオーディオ処理を実行し、各オーディオフレームの音素が複数の指定された音素に属する確率を出力し得ることに留意されたい。複数の指定された音素は、発音の辞書に従って決定され得る。例えば、発音の辞書は100個の音素を含み、複数の指定された音素は100個の音素である。
図1は、本出願の実施形態による、音響モデルの構造の概略図である。音響モデルは、DNN-HMMモデルである。音響モデルの入力層の寸法は3であり、2つの隠れ層の寸法は5であり、出力層の寸法は3である。入力層の次元は入力信号の特徴次元を示し、出力層の次元は3つの状態次元を示し、各状態次元は複数の指定された音素に対応する確率を含む。
次に、復号がさらに説明される。音声認識における復号は、動的復号と静的復号とに分割され得る。動的復号の間、辞書ツリーを中心とした言語モデルにおいて、言語スコアが動的に探索される。静的復号は、言語モデルが予め復号グラフに静的に符号化され、決定、重み順、および最小化などのいくつかの列最適化動作が使用されて、復号効率を向上させることを意味する。例えば、本出願の実施形態では、HCLGネットワークに基づいて冗長情報を排除するために、静的復号、例えば重み付き有限状態トランスデューサ(weighted finite state transducer、WFST)が使用される。本出願の実施形態では、HCLGネットワークを生成するために、言語モデル、発音の辞書、および音響モデルは、対応するFSTフォーマットで表され、次いで、結合、決定、および最小化などの動作を実行することによって大きな復号グラフにコンパイルされる必要がある。HCLGネットワークを構築するプロセスは以下のとおりである:HCLG=ASL(min(RDS(det(H’o min(det(C o min(det(L o G))))))))。ASLは自己ループを追加することを示し、minは最小化を示し、RDSはシンボルを除去することを示し、detは決定を示し、H’は自己ループのないHMMを示し、oは組合せを示す。
復号中、ビタビ(viterbi)アルゴリズムが使用されて、最適経路を求めて復号グラフを探索し、復号グラフに2つの同一の経路は存在しない。復号中、累積ビームプルーニングが使用される、すなわち、最大現在確率を閾値として経路スコアからビーム値が減算され、閾値未満の経路がプルーニングされる。加えて、フレーム同期復号アルゴリズムは、復号グラフの開始ノードを探索する、対応するノードのトークンを作成する、開始ノードに対応するトークンから空エッジ(すなわち、入力は実際のモデリング単位に対応していない)を拡張する、各到達可能ノードが対応するトークンに結合されている、プルーニングを実行し、アクティブトークンを保持するために使用される。オーディオフレームが入力されるたびに、現在のアクティブトークンからトークンが抽出され、対応するノードから次の空でないエッジ(すなわち、入力は実物理モデリング単位に対応する)が拡張され始め、すべてのアクティブトークンがトラバースされ、プルーニングが実行され、現在のフレームのアクティブトークンが保持される。これらのステップは、すべてのオーディオフレームが拡張されるまで、すなわち、最大スコアのトークンが見つけられるまで繰り返され、バックトラッキングによって最終的な認識結果が得られる。
ネットワークモデル
本出願の実施形態では、ネットワークモデルは前述の音響モデルである。音声信号は、例えば、隠れマルコフモデルHMM、ガウス混合モデルGMM、深層ニューラルネットワークDNN、ディープ・ビリーフ・ネットワーク隠れマルコフモデル(deep belief networks HMM、DBN-HMM)、リカレントニューラルネットワーク(recurrent neural network、RNN)、長・短期記憶(long short-term memory、LSTM)ネットワーク、または畳み込みニューラルネットワーク(convolutional neural network、CNN)などのネットワークモデルを使用することによって認識される。本出願の実施形態では、CNNおよびHMMが使用される。
隠れマルコフモデルは統計モデルであり、音声信号処理の分野で広く使用されている。このモデルにおいて、マルコフ連鎖における1つの状態が他の状態に遷移されるかは、状態遷移確率に依存し、状態によって生成される観測値は、状態生成確率に依存する。音声認識間に、HMMは、各認識単位に対して音響モデルをまず確立し、長時間の訓練により状態遷移確率行列と出力確率行列を得る。認識中、HMMは、状態遷移プロセスにおける最大確率に基づいて判定を行う。
畳み込みニューラルネットワークの基本構造は、2つの部分を含む。1つの部分は特徴抽出層である。各ニューロン単位の入力は、前の層の局所受容野に接続され、局所受容野の特徴を抽出する。他の部分は、特徴マッピング層である。ネットワークの各計算層は複数の特徴マッピングを含み、各特徴マッピングは平面であり、平面のすべてのニューロンは等しい重みを有する。特徴マッピング構造は、特徴マッピングがシフト不変性を有するように、畳み込みネットワークの活性化関数として小さい影響範囲の関数(例えば、シグモイド)を使用する。加えて、マップ平面のニューロンは重みを共有して、ネットワークの自由パラメータの量を低減する。畳み込みニューラルネットワークの各畳み込み層は、局所平均化および二次抽出のための計算層により続けられ得る。特徴抽出が2回実行されるこの独自の構造は、特徴分解能を低減させる。
損失関数は、ネットワークモデル訓練の反復的な基礎である。損失関数は、ネットワークモデルの予測値と実際の値との差を評価するために使用される。損失関数の選択は、ネットワークモデルの性能に影響を及ぼす。異なるネットワークモデルは通常、異なる損失関数を使用する。損失関数は、経験的リスク損失関数と構造リスク損失関数とに分類され得る。経験的リスク損失関数は、予測された結果と実際の結果との差を意味する。構造リスク損失関数は、正規項が付加された経験的リスク損失関数を意味する。本出願の実施形態では、クロスエントロピー損失関数(cross-entropy loss function)、すなわちCE損失関数が使用される。クロスエントロピー損失関数は、本質的に対数尤度関数であり、バイナリおよびマルチクラスタスクで使用され得る。活性化関数としてシグモイドが使用される場合、平均二乗誤差損失関数の代わりにクロスエントロピー損失関数が一般的に使用される。クロスエントロピー損失関数は、二乗損失関数の過度に遅い重みの更新を完全に解決することができ、誤差が大きい場合の速い重みの更新、および誤差が小さい場合の遅い重みの更新という良好な性能を有する。
ネットワークモデルでは、誤差に対して逆伝播が実行され、損失関数が使用され、勾配降下法がネットワークのパラメータを調整するために使用される。勾配降下法は、最適化アルゴリズムである。中心的な考え方は、最小(または最大)目的関数を達成するために、目的の関数の勾配方向にパラメータ値を更新することである。勾配降下法は、深層学習における一般的な最適化アルゴリズムである。勾配降下は損失関数のためのものであり、損失関数の最小値に対応する重みおよびオフセットをできるだけ早く見つけることが意図されている。逆伝播アルゴリズムの中核は、ニューロン誤差の特別な変数を定義することである。出力層から層ごとにニューロン誤差に対して逆伝播が実行される。次に、重みおよびオフセットの偏導関数が、式およびニューロン誤差に従って計算される。勾配降下は最小値を解くための方式であり、逆伝播は勾配計算を解くための方式である。
図2は、本出願の実施形態による、音声ウェイクアップ方法に関するシステムアーキテクチャの図である。図2を参照されたい。システムアーキテクチャは、ウェアラブルデバイス201およびスマートデバイス202を含むことができる。ウェアラブルデバイス201は、通信を実行するために有線またはワイヤレス方式でスマートデバイス202に接続される。スマートデバイス202は、本出願のこの実施形態でウェイクアップされるべきデバイスである。
本出願のこの実施形態では、ウェアラブルデバイス201は、音声信号を受信し、受信した音声信号に基づいてスマートデバイス202に命令を送信するように構成される。スマートデバイス202は、ウェアラブルデバイス201によって送信された命令を受信し、受信した命令に基づいて対応する動作を実行するように構成される。例えば、ウェアラブルデバイス201は、音声信号を収集し、収集された音声信号に含まれるコマンドワードを検出し、コマンドワードがウェイクアップワードを含むことが検出された場合、スマートデバイス202にウェイクアップ命令を送信して、スマートデバイス202をウェイクアップさせるように構成される。スマートデバイス202は、ウェイクアップ命令を受信し、次にスリープ状態から作業状態に入るように構成される。
骨伝導マイクロフォンは、ウェアラブルデバイス201に設置されている。骨伝導マイクロフォンの低消費電力のために、骨伝導マイクロフォンは常に作動状態にあり得る。骨伝導マイクロフォンは、作業状態において骨伝導信号を収集するように構成される。ウェアラブルデバイス201のプロセッサは、骨伝導信号に基づいて音声アクティビティ検出を実行し、音声入力があるかどうかを検出する。音声入力が検出されるとき、プロセッサは、骨伝導信号に基づいてウェイクアップワードを検出し、音源によって入力されたコマンドワードがウェイクアップワードを含むかどうかを検出する。コマンドワードがウェイクアップワードを含むことが検出されるとき、音声ウェイクアップが実行され、すなわち、ウェアラブルデバイス201は、スマートデバイス202にウェイクアップ命令を送信する。
本出願のこの実施形態では、ウェアラブルデバイス201は、例えば、ワイヤレスヘッドセット、スマートグラス、スマートウォッチ、またはスマートバンドである。スマートデバイス202(すなわち、ウェイクアップされるべきデバイス)は、例えば、スマートスピーカ、スマートアプライアンス、スマートトイ、またはスマートロボットである。任意選択で、いくつかの実施形態では、ウェアラブルデバイス201およびスマートデバイス202は同じデバイスである。
本出願の実施形態で記載されるシステムアーキテクチャおよびサービスシナリオは、本出願の実施形態の技術的解決策をより明確に記載することが意図されており、本出願の実施形態で提供される技術的解決策に限定を構築するものではないことに留意されたい。システムアーキテクチャの進化と新しいサービスの場面の出現とに伴い、本出願の実施形態で提供されている技術的解決手段が同様の技術的課題にも適用可能であることを当業者は認識する。
図3は、本出願の実施形態による電子デバイスの構造の概略図である。任意選択で、電子デバイスは、図2に示すウェアラブルデバイス201である。電子デバイスは、1つ以上のプロセッサ301と、通信バス302と、メモリ303と、1つ以上の通信インターフェース304と、骨伝導マイクロフォン308と、エアマイクロフォン309とを含む。
プロセッサ301は、汎用中央処理装置(central processing unit、CPU)、ネットワークプロセッサ(network processing、NP)、マイクロプロセッサ、または本出願の解決策を実施するように構成された1つ以上の集積回路、例えば、特定用途向け集積回路(application-specific integrated circuit、ASIC)、プログラマブル論理デバイス(programmable logic device、PLD)、もしくはこれらの組合せである。任意選択で、PLDは複合プログラマブル論理デバイス(complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、汎用アレイ論理(generic array logic、GAL)、またはこれらの任意の組合せである。
通信バス302は、前述の構成要素間で情報を伝送するように構成される。任意選択で、通信バス302は、アドレスバス、データバス、制御バスなどに分類される。表現を容易にするために、図ではバスを表すために1本の太線のみが使用されているが、これは、1つのバスしかまたは1つのタイプのバスしかないことを意味しない。
任意選択で、メモリ303は、読み出し専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically erasable programmable read-only memory、EEPROM)、光ディスク(コンパクトディスク読み出し専用メモリ(compact disc read-only memory、CD-ROM)、コンパクトディスク、レーザーディスク、デジタル多用途ディスク、もしくはブルーレイディスクなどを含む)、磁気ディスク記憶媒体もしくは別の磁気記憶デバイス、または命令もしくはデータ構造の形態のしかるべきプログラムコードを保持もしくは記憶するように使用されることができ、かつコンピュータによってアクセスされることができる任意の他の媒体である。ただし、これはこれに限定されない。メモリ303は独立して存在し、通信バス302を介してプロセッサ301に接続されるか、またはメモリ303はプロセッサ301と一体化される。
通信インターフェース304は、任意のトランシーバタイプの装置を使用することによって、別のデバイスまたは通信ネットワークと通信するように構成される。通信インターフェース304は、有線通信インターフェースを含み、またはワイヤレス通信インターフェースを任意選択で含んでもよい。有線通信インターフェースは、例えば、イーサネットインターフェースである。任意選択で、イーサネットインターフェースは、光インターフェース、電気インターフェース、またはこれらの組合せである。ワイヤレス通信インターフェースは、ワイヤレスローカルエリアネットワーク(wireless local area networks、WLAN)インターフェース、セルラーネットワーク通信インターフェース、またはこれらの組合せなどである。
任意選択で、一部の実施形態では、電子デバイスは、複数のプロセッサ、例えば、図2に示されているプロセッサ301およびプロセッサ305を含む。プロセッサの各々は、シングルコアプロセッサあるか、またはマルチコアプロセッサである。任意選択で、本明細書でのプロセッサは、データ(コンピュータプログラム命令など)を処理するための1つ以上のデバイス、回路、および/または処理コアである。
いくつかの実施形態では、電子デバイスは、出力デバイス306と入力デバイス307とをさらに含む。出力デバイス306は、プロセッサ301と通信し、複数の方式で情報を表示し得る。例えば、出力デバイス306は、液晶ディスプレイ(liquid crystal display、LCD)、発光ダイオード(light emitting diode、LED)表示デバイス、陰極線管(cathode ray tube、CRT)表示デバイス、またはプロジェクタ(projector)である。入力デバイス307は、プロセッサ301と通信し、複数の方式でユーザからの入力を受信し得る。例えば、入力デバイス307は、マウス、キーボード、タッチスクリーンデバイス、センサなどの1つ以上を含む。
本出願のこの実施形態では、入力デバイス307は、骨伝導マイクロフォン308およびエアマイクロフォン309を含む。骨伝導マイクロフォン308およびエアマイクロフォン309は、骨伝導信号および空気伝導信号を収集するようにそれぞれ構成されている。プロセッサ301は、本出願の実施形態で提供される音声ウェイクアップ方法を使用することによって、骨伝導信号に基づいて、または骨伝導信号および空気伝導信号に基づいて、スマートデバイスをウェイクアップさせるように構成される。任意選択で、スマートデバイスをウェイクアップさせた後、プロセッサ301は、骨伝導信号、空気伝導信号、または骨伝導信号および空気伝導信号に基づいて、タスクを実行するようにスマートデバイスを制御するようにさらに構成される。
一部の実施形態では、メモリ303は、本出願の解決策を実行するためのプログラムコード310を記憶するように構成され、プロセッサ301は、メモリ303に記憶されたプログラムコード310を実行し得る。プログラムコード310は、1つ以上のソフトウェアモジュールを含み、電子デバイスは、メモリ303のプロセッサ301およびプログラムコード310を使用することによって、図4の以下の実施形態で提供される音声ウェイクアップ方法を実装することができる。
図4は、本出願の実施形態による、音声ウェイクアップ方法のフローチャートである。方法は、ウェアラブルデバイスに適用される。図4を参照されたい。本方法は以下のステップを含む。
ステップ401:骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行し、骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含む。
上記から知見され得るように、ウェアラブルデバイスの低消費電力を実装するために、スマートデバイス(すなわち、ウェイクアップされるべきデバイス)がウェイクアップされる前に、骨伝導マイクロフォンの低消費電力に起因して、骨伝導マイクロフォンは骨伝導信号を収集するように構成され得、音声入力があるかどうかを検出するために、骨伝導信号に基づいて音声検出(例えば、音声アクティビティ検出VAD)が実行される。音声入力が検出されないとき、消費電力を低減するために、骨伝導マイクロフォン以外のウェアラブルデバイスの構成要素はスリープ状態にあり得る。音声入力が検出されるとき、ウェアラブルデバイスの別の構成要素がオンになるように制御される。例えば、ウェアラブルデバイスにエアマイクロフォンがさらに設置されている場合、エアマイクロフォンが高い消費電力のデバイスであるため、ポータブルウェアラブルデバイスに対し、消費電力を低減するために、エアマイクロフォンがオンおよびオフに制御される。音声入力が検出される(例えば、ユーザが話している)とき、エアマイクロフォンがオンにされて収音動作を実行し(すなわち、空気伝導信号を収集する)、ウェアラブルデバイスの電力消費を低減する。言い換えれば、スマートデバイスがウェイクアップされる前に、エアマイクロフォンは低消費電力を低減するためにスリープ状態にあり、音声入力が検出されるときにエアマイクロフォンがオンにされる。
ウェアラブルデバイスが骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声アクティビティ検出を実行する複数の実装形態があり得る。これは、本出願の本実施形態で限定されない。以下では、例を使用することによる音声アクティビティ検出のいくつかの実装形態を説明する。音声アクティビティ検出は、現在の入力信号に人の音声信号が存在するかどうかを検出するために、主に使用されることに留意されたい。音声アクティビティ検出は、音声セグメントを非音声セグメント(例えば、様々な背景雑音信号のみを有するセグメント)と区別するために入力信号を決定するために使用され、その結果、信号のセグメントに対して異なる処理方法が実行され得る。
任意選択で、音声アクティビティ検出は、入力信号の特徴を抽出することによって音声入力があるかどうかを検出するために使用される。例えば、入力信号の各フレームの短時間エネルギー(short time energy、STE)と短時間ゼロ交差率(zero cross counter、ZCC)の特徴を抽出することによって、音声入力が存在しているかが検出される、すなわち、エネルギーの特徴に基づいて音声アクティビティ検出が実行される。短時間エネルギーは、信号のフレームのエネルギーであり、ゼロ交差率は、時間領域信号のフレームが0(時間軸)を通過している回数である。別の例として、包括的な検出のために、エネルギーベースの特徴、周波数領域特徴、ケプストラム特徴、高調波特徴、および長時間特徴などの複数の特徴を抽出するために、高精度のいくつかのVAD方法が使用される。任意選択で、特徴抽出に加えて、入力信号のフレームが音声信号であるか非音声信号であるかは、閾値比較、統計的方法、または機械学習方法を参照してさらに決定されてもよい。以下、エネルギーベースの特徴、周波数領域特徴、ケプストラム特徴、高調波特徴、および長時間特徴などの特徴を簡単に説明する。
エネルギーベースの特徴:VADは、STEおよびZCCの特徴に基づいて実行される。信号対雑音比(signal-noise ratio、SNR)が大きい場合、音声セグメントについてはSTEが大きくZCCが小さく、非音声セグメントについてはSTEが小さくZCCが大きい。人の音声信号は通常エネルギーが大きく、低周波数帯域にはエネルギーが多く含まれ、雑音信号は通常エネルギーが小さく、高周波数帯域の情報を多く含む。したがって、入力信号の2つの特徴を抽出することによって、音声信号と非音声信号とは区別され得る。STEの計算方法は、スペクトルを使用することによって入力信号の各フレームのエネルギーの二乗和を計算することであり得る。短時間ゼロ交差率を計算するための方法は、時間領域における入力信号の各フレームに対応するゼロを交差する回数を計算することであり得る。例えば、フレームのすべてのサンプリング点が時間領域の一時点で左右に平行移動され、平行移動後のサンプリング点の振幅値および平行移動前のサンプリング点の振幅値が対応する点で乗算される。2つの対応するサンプリング点の得られた積の符号が負である場合、それは対応するサンプリング点がゼロ交差であることを示し、短時間ゼロ交差率は、フレームの負の積の量を計算することによって得られる。
周波数領域特徴:入力信号の時間領域信号は、スペクトルを得るために、短時間フーリエ変換または別の時間-周波数変換方法を使用することによって周波数領域信号に変換され、周波数領域特徴は、スペクトルに基づいて得られる。例えば、スペクトルに基づいて周波数帯域の包絡線特徴が抽出される。いくつかの実験では、SNRが0dBであるとき、いくつかの周波数帯域の長い時間エンベロープが使用され得、音声セグメントと雑音セグメントとを区別する。
ケプストラム特徴:ケプストラム特徴は、例えば、エネルギーケプストラムピークを含む。VADの場合、エネルギーケプストラムピークは音声信号の基本周波数(ピッチ)を決定する。いくつかの実施形態では、メル周波数ケプストラム係数(Mel-frequency cepstral coefficients、MFCC)がケプストラム特徴として使用される。
高調波に基づく特徴:音声信号の明らかな特徴は、音声信号が基本周波数および複数の高調波周波数を含むことである。強い雑音のシナリオであっても、高調波特徴が存在する。音声信号の基本周波数は、自己相関法を使用することによって見つけられることができる。
長時間特徴:音声信号は非定常信号である。通常、一般的な話速で毎秒10~15個の音素が発せられる。音素間のスペクトル分布は異なる。その結果、音声の統計的な特徴が時間とともに変化する。ほとんどの雑音は安定している、すなわちゆっくりと変化する、例えばホワイトノイズである。これを考慮して、長時間特徴が抽出され得、入力信号が音声信号であるか非音声信号であるかを決定する。
本出願のこの実施形態では、音声アクティビティ検出に使用される入力信号は、骨伝導マイクロフォンによって収集された骨伝導信号であり、音声アクティビティ検出は、音声入力が存在しているかを検出するために、受信された骨伝導信号の各フレームに対して実行されることに留意されたい。骨伝導マイクロフォンは常に作動状態にあるため、骨伝導マイクロフォンによって連続的に収集される骨伝導信号は、音源によって入力されたコマンドワードの完全な情報を含み、すなわち、骨伝導信号はヘッダを失わない。
任意選択で、骨伝導信号のサンプリングレートは、32kHz(キロヘルツ)、48kHzなどである。これは、本出願の本実施形態で限定されない。骨伝導マイクロフォンのセンサは非音響センサであり、周囲環境の雑音の影響を遮蔽することができ、強い耐雑音性能を有する。
ステップ402:音声入力が検出されるとき、骨伝導信号に基づいてウェイクアップワードを検出する。
本出願のこの実施形態では、音声入力が検出されるとき、ウェアラブルデバイスは、骨伝導信号に基づいてウェイクアップワードを検出し、コマンドワードがウェイクアップワードを含むかどうかを検出する。ウェアラブルデバイスが骨伝導信号に基づいてウェイクアップワードを検出する複数の実装形態があることに留意されたい。以下では、2つの実装形態について説明する。
第1の実装形態
本出願のこの実施形態では、ウェアラブルデバイスが骨伝導信号に基づいてウェイクアップワードを検出する実装形態は、骨伝導信号に基づいて融合信号を決定すること、および融合信号に対してウェイクアップワード検出を実行することである。
最初に、ウェアラブルデバイスが骨伝導信号に基づいて融合信号を決定する実装形態について説明される。ウェアラブルデバイスが骨伝導信号に基づいて融合信号を決定する複数の方式があることに留意されたい。以下で4つの方式を説明する。
骨伝導信号に基づいた融合信号の決定の方式1:骨伝導信号に基づいて融合信号が決定される前に、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集される。例えば、音声入力があることが検出されるとき、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集される。ウェアラブルデバイスは、骨伝導信号の開始部分と空気伝導信号とを融合して融合信号を得る。骨伝導信号の開始部分は、音声検出(例えば、VAD)の検出遅延に基づいて決定される。言い換えれば、ウェアラブルデバイスは、骨伝導信号および空気伝導信号を収集し、骨伝導信号の開始部分に基づいて空気伝導信号に対してヘッダロス補償を実行するので、得られた融合信号は、音源によって入力されたコマンドワードに関する情報も含む。加えて、融合信号の長さが短く、データ処理量がある程度低減され得る。任意選択で、本出願のこの実施形態では、信号連結を介して信号融合が実行される。いくつかの実施形態では、信号融合は、信号重畳などの方式で代替的に実行されてもよい。以下の実施形態では、信号連結を介して信号融合が実行される例が、説明のために使用される。
骨伝導信号と空気伝導信号は、同じ音源で生成された信号であり、骨伝導信号と空気伝導信号の伝送路は異なることに留意されたい。図5に示すように、骨伝導信号は、人体内部の骨や組織などの経路を介して振動信号(励起信号)を伝達することによって形成された信号であり、空気伝導信号は、空気を介して音波を伝達することによって形成された信号である。
図6は、本出願の実施形態による、信号の時系列の概略図である。信号の時系列の図は、骨伝導信号、空気伝導信号、VAD制御信号、およびユーザ音声信号の間の時系列関係を示している。音源が音声信号を送信するとき、骨伝導信号は高レベル信号に直ちに変化する。△t時間後、音声入力があると決定するためVADが使用され、またVAD制御信号が生成される。VAD制御信号は、エアマイクロフォンがオンにされるように制御し、空気伝導信号を収集する、すなわち、空気伝導信号が高レベル信号に変化する。骨伝導信号とユーザ音声信号は同期して変化し、空気伝導信号は骨伝導信号と比較して△t時間の遅延を有することが知見され得る。遅延は、VADの検出遅延に起因する。△tは、音声アクティビティ検出の検出遅延、すなわち音声入力が検出された瞬間とユーザが音声入力した実際の瞬間との時間差を示す。
本出願のこの実施形態では、VADが、骨伝導信号の音声セグメントおよび非音声セグメントを検出するために使用されることができ、終点の検出は、空気伝導信号の音声セグメントおよび非音声セグメントを検出し得ることに留意されたい。ウェアラブルデバイスは、骨伝導信号の開始部分と空気伝導信号とを融合する前に、VADの検出結果に基づいて骨伝導信号から音声セグメントを取り込み、終点の検出の検出結果に基づいて空気伝導信号から音声セグメントを取り込み、骨伝導信号における取り込まれた音声セグメントの開始部分と空気伝導信号における取り込まれた音声セグメントとを融合して融合信号を得る。図5が例として使用される。骨伝導信号から取り込まれた音声セグメントの時間範囲は[0,t]であり、骨伝導信号の開始部分(すなわち、取り込まれた音声セグメントの開始部分)の時間範囲は[0,t]であり、空気伝導信号から取り込まれた音声セグメントの時間範囲は[△t,t]であり、得られた融合信号の持続時間はtである。△tは音声アクティビティ検出の検出遅延を示し、tは実際の音声入力の総持続時間を示す。
図7は、本出願の実施形態による、信号融合方法の概略図である。例えば、信号連結によって信号融合が実行される。図7を参照すると、x1[n]は骨伝導信号の開始部分を示し、x2[n]は空気伝導信号を示し、f(x)は連結関数を示し、f(x):b[n]0,△t=concat[x1[n]0,△t+x2[n]0,△t,x2[n]△t,t]であり、x2[n]0,△tは0である。言い換えれば、骨伝導信号の開始部分(すなわち、0から△tまでの音声セグメント)と空気伝導信号(すなわち、△tからtまでの音声セグメント)とがf(x)に従って連結されて、融合信号b[n]を得る。
任意選択で、骨伝導信号の開始部分と空気伝導信号とが融合される前に、ウェアラブルデバイスは空気伝導信号を前処理し、前処理はフロントエンド強調を含む。フロントエンド強調は、異なる音源によって引き起こされるいくつかの雑音および影響を排除することができ、その結果、フロントエンド強調を通じて得られた空気伝導信号は、音声ウェイクアップの精度を向上させるために、音声の本質的な特徴をより良好に反映させ得る。空気伝導信号に対してフロントエンド強調を実行するための複数の方法、例えば、終点の検出および音声強調があることに留意されたい。音声強調は、例えば、エコーキャンセル、ビームフォーミングアルゴリズム、雑音消去、自動利得制御、残響除去を含む。終点の検出は、空気伝導信号の音声セグメントと非音声セグメントとを区別するために、すなわち音声セグメントの開始点を正確に決定するために使用され得る。終点の検出後、音声認識の精度およびリコール率を向上させるために、空気伝導信号の音声セグメントのみがその後処理され得る。音声強調は、音声セグメントに対する環境の雑音の影響を排除するために使用される。例えば、エコーキャンセルは、効果的なエコーキャンセルアルゴリズムを使用することによってリモート信号の干渉を抑制するためのものであり、ダブルトーク検出および遅延推定を主に含む。例えば、現在の通話モード(例えば、ニアトークモード、ファートークモード、またはダブルトークモード)が決定され、対応するポリシーが使用されて現在の通話モードに基づいてフィルタを調整し、空気伝導信号のリモートでの干渉がフィルタを使用することによってフィルタリング除去され、残留雑音の干渉がポストフィルタリングアルゴリズムを使用することによって除去される。別の例では、自動利得アルゴリズムが使用されて信号の利得調整を迅速に実行し、適切な音量に達する。この解決策では、空気伝導信号のすべてのサンプリング点は、単純な利得処理によって対応する利得係数によって乗算されることができ、対応する利得係数は、周波数領域の各周波数で乗算される。空気伝導信号の周波数は、等音量輪郭に基づいて重み付けされ得、各周波数の利得係数を決定するために、等音量輪郭に音量利得係数がマッピングされる。
任意選択で、骨伝導信号の開始部分と空気伝導信号とが融合される前に、ウェアラブルデバイスは骨伝導信号を前処理し、前処理はダウンサンプリングおよび/または利得調整を含む。ダウンサンプリングは、骨伝導信号のデータ量を低減し、データ処理効率を向上させるために使用され得る。利得調整は、調整された骨伝導信号のエネルギーを増加させるために使用される。例えば、骨伝導信号の平均エネルギーは、利得調整を介して、空気伝導信号の平均エネルギーと一致する。骨伝導信号に対してダウンサンプリングおよび/または利得調整を実行するための複数の方法があることに留意されたい。これは、本出願の本実施形態で限定されない。ダウンサンプリングは、信号のサンプリング周波数(サンプリングレートとも呼ばれる)を低減することであり、信号を再サンプリングする方式である。サンプリング周波数は、アナログ音声の波形がデジタル化された後、1秒あたりの音波振幅のサンプルを抽出する回数である。サンプリング周波数がFsであり、N個のサンプリング点を含む空気伝導信号x[n]をダウンサンプリングするプロセスでは、M-1個のサンプリング点ごとに1つのサンプリング点が抽出され、M個のサンプリング点を含む空気伝導信号y[m]を得る。ナイキストサンプリング定理によれば、ダウンサンプリングは信号のスペクトル交絡を引き起こす可能性がある。したがって、ダウンサンプリングの前に、低域通過非干渉化フィルタが使用され得、空気伝導信号を処理する、すなわちアンチエイリアシングフィルタ処理を実行して、後続のダウンサンプリングによって引き起こされるスペクトルの交絡を低減する。利得調整は、利得係数を使用することによって骨伝導信号のサンプリング点の振幅値を調整すること、または骨伝導信号の周波数のエネルギー値を調整することである。利得係数は、利得関数に従って決定され得る、または空気伝導信号および骨伝導信号の統計情報に基づいて決定され得る。これは、本出願の本実施形態で限定されない。
図8は、本出願の実施形態による、骨伝導信号に対してダウンサンプリングを実行する概略図である。図8を参照されたい。骨伝導信号のサンプリングレートは48kHzと仮定されている。収集された骨伝導信号x[n]は、アンチエイリアスフィルタH(z)に最初に送られ、信号エイリアシングを防止する。v[n]は、アンチエイリアスフィルタリングを介して得られた骨伝導信号を示し、サンプリングレートは変化しないままである。v[n]に対して3回のダウンサンプリングが実行され、3回のダウンサンプリングで得られた骨伝導信号y[m]を得て、サンプリングレートは16kHzまで低下される。
図9は、本出願の実施形態による、骨伝導信号に対して利得調整を実行する概略図である。図9を参照すると、x[n]は骨伝導信号、f(g)は利得関数、f(g):y[n]=G*x[n]を示す。言い換えれば、f(g)に従って決定された利得係数Gを使用することによってx[n]に対して利得調整が実行され、利得調整によって得られた骨伝導信号y[n]を得る。
骨伝導信号に基づいた融合信号の決定の方式2:骨伝導信号に基づいて融合信号が決定される前に、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集される。ウェアラブルデバイスは、骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号と空気伝導信号とを融合して融合信号を得る。骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される。言い換えれば、ウェアラブルデバイスは、骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号に基づいて収集された空気伝導信号に対してヘッダロス補償を実行するので、得られた融合信号は、音源によって入力されたコマンドワードに関する情報も含む。加えて、融合信号の長さが短く、データ処理量がある程度低減され得る。
骨伝導信号に基づいて融合信号を決定する方式1と方式2との違いは、骨伝導信号に基づいて融合信号を決定する方式2では、骨伝導信号の開始部分に基づいて強調開始信号が生成され、骨伝導信号の開始部分および空気伝導信号の代わりに、強調開始信号および空気伝導信号が融合されることであることに留意されたい。加えて、方式1で説明した他の内容は、方式2に適用可能である。方式2の詳細は再度説明されない。例えば、方式2では、音声セグメントを取り込むために、骨伝導信号および空気伝導信号に対して音声セグメント検出が実行されてもよく、データ処理量を低減するために、取り込まれた音声セグメントに基づいて、信号連結が実行される。ウェアラブルデバイスは、骨伝導信号および空気伝導信号をさらに前処理し、例えば、骨伝導信号に対してダウンサンプリングおよび/または利得調整を実行し、空気伝導信号に対して音声強調を実行することができる。
本出願のこの実施形態では、ウェアラブルデバイスは、生成ネットワークモデルによって出力された強調開始信号を得るために、骨伝導信号の開始部分を生成ネットワークモデルに入力することができる。生成ネットワークモデルは、深層学習のアルゴリズムに従って訓練することによって得られるモデルである。生成ネットワークモデルは、信号生成器と考えられることができ、入力信号に基づいて、入力信号に関する情報を含み、実際の音声に近い音声信号を生成し得る。本出願のこの実施形態では、強調開始信号は骨伝導信号の開始部分の信号情報を含み、強調開始信号は実際の音声信号に近い。生成ネットワークモデルのネットワーク構造、訓練方式、訓練デバイスなどは、本出願の本実施形態で限定されていないことに留意されたい。以下、例を使用することによって生成ネットワークモデルの訓練方法を説明する。
本出願のこの実施形態では、例えば、コンピュータデバイスは、生成ネットワークモデルを得るために訓練を実行する。コンピュータデバイスは、第1の訓練データセットを得、第1の訓練データセットは、複数の第1のサンプル信号対を含む。コンピュータデバイスは、初期生成ネットワークモデルによって出力される複数の強調開始サンプル信号を得るために、複数の第1のサンプル信号対における骨伝導サンプル信号の開始部分を初期生成ネットワークモデルに入力する。コンピュータデバイスは、初期判定ネットワークモデルによって出力される判定結果を得るために、複数の強調開始サンプル信号および複数の第1のサンプル信号対における空気伝導サンプル信号の開始部分を初期判定ネットワークモデルに入力する。コンピュータデバイスは、判定結果に基づいて初期生成ネットワークモデルのネットワークパラメータを調整して、訓練された生成ネットワークモデルを得る。1つの第1のサンプル信号対は、1つの骨伝導サンプル信号の開始部分および1つの空気伝導サンプル信号の開始部分を含み、1つの第1のサンプル信号対は、1つのコマンドワードに対応し、骨伝導サンプル信号および空気伝導サンプル信号は、対応するコマンドワードの完全な情報を含む。
任意選択で、コンピュータデバイスによって得られる第1のサンプル信号対は、骨伝導サンプル信号および空気伝導サンプル信号を含む。コンピュータデバイスは、骨伝導サンプル信号の開始部分および空気伝導サンプル信号の開始部分を取り込み、初期生成ネットワークモデルおよび初期判定ネットワークモデルの入力データを得る。言い換えれば、コンピュータデバイスは、訓練データを得るために、完全な音声信号を最初に得、次に開始部分を取り込む。代替的に、コンピュータデバイスによって得られる第1のサンプル信号対は、骨伝導サンプル信号の開始部分および空気伝導サンプル信号の開始部分のみを含む。
任意選択で、第1の訓練データセットは、直接収集された音声データ、公開音声データ、および/または第三者から購入された音声データを含む。任意選択で、訓練の前に、コンピュータデバイスは、前処理された第1の訓練データセットを得るために、得られた第1の訓練データセットを前処理し得る。前処理された第1の訓練データセットは、実際の音声データの分布をシミュレートするために使用されることができ、その結果、音声データは実際のシナリオにおける音声により近くなる。これは、訓練サンプルの多様性を増加させる。例えば、第1の訓練データセットがバックアップされる、すなわち、追加のデータが追加され、バックアップデータが前処理される。任意選択で、バックアップデータは複数に分割され、各データに対して前処理が実行される。各データに対して実行される前処理は異なっていてもよい。これは、総訓練データを2倍にし、データの完全性を保証し、性能と訓練のオーバーヘッドとの間の均衡を達成し、音声認識の精度および堅牢性をある程度向上させ得る。各データを前処理するための方法は、雑音付加(noise addition)、ボリューム強調、残響付加(add reverb)、タイムシフト(time shifting)、ピッチシフト(pitch shifting)、タイムストレッチ(time stretching)などのうちの1つまたは複数を含み得る。
例えば、雑音付加は、1つまたは複数のタイプの背景雑音を音声信号に混合することであり、その結果、訓練データは、より多くのタイプの雑音、例えば、オフィス、キャンテン、および路上の背景雑音を含めることができる。異なる信号対雑音比の雑音がさらに混合され得る。例えば、信号対雑音比は、信号対雑音比の平均が良好になるように正規分布の方式で選択され得る。平均は、10dB、20dBなどであり得、信号対雑音比は、10dB~30dBなどの範囲であり得る。コンピュータデバイスは、信号エネルギーSおよび信号対雑音比SNRに基づいて、式SNR=10*log10(S2/N2)に従って、雑音エネルギーNを計算することができる。音量強調は、音量変化係数に基づいて音声信号の音量を強調したり弱めたりするものであり、音量変化係数の値の範囲は、0.5から1.5、または別の値の範囲であり得る。残響付加は、音声信号に残響を付加する処理であり、空間環境における音声信号の反射により、残響が生成される。ピッチシフト、例えば、トレブル補正は、音速に影響を与えることなく音声信号のピッチを変更することである。タイムストレッチは、ピッチに影響を与えることなく音声信号の速度または持続時間、すなわち音声速度を変更することであり、その結果、訓練データは異なる音声速度を含めることができ、音声速度の変更範囲は0.9から1.1の間または別の範囲内とされ得る。
図10は、本出願の実施形態による生成ネットワークモデル訓練方法の概略図である。生成器(すなわち、初期生成ネットワークモデル)は、音声信号を生成するためのネットワークである。第1の訓練データセットの骨伝導サンプル信号の開始部分が、発生器に入力される。任意選択で、開始部分が発生器に入力される前に、ランダムな雑音が骨伝導サンプル信号に重畳される。入力された骨伝導サンプル信号は、発生器によって処理されて、強調開始サンプル信号を生成する。判定器(すなわち、初期判定ネットワークモデル)は、判定ネットワークであり、入力信号が実際の音声信号であるかどうかを決定するように構成される。判定器によって出力される判定結果は、入力信号が真の音声信号であるかを示す。出力判定結果が1であれば、それは、判定器が入力信号が真の音声信号であると決定したことを示す。出力判定結果が0であれば、それは、判定器が入力信号が真の音声信号ではないと決定したことを示す。生成器および判定器を訓練するために、生成器および判定器のパラメータが、判定結果が正確であるかどうかを決定することによって調整される。訓練プロセスにおいて、生成器の目標は、判定器を欺くために偽造の音声信号を生成することであり、判定器の目標は、入力信号が現実のものであるか生成されたものであるかを区別することである。生成器および判定器は、訓練データに基づいてゲームを本質的に実行するということが知見され得る。ゲームのプロセスで、生成器および判定器の能力が向上される。理想的な場合、訓練された判定器の精度は0.5付近である。
訓練が完了された後、訓練によって得られた生成ネットワークモデルがウェアラブルデバイスにおいて展開され、ウェアラブルデバイスは、生成ネットワークモデルによって出力された強調開始信号を得るために、収集された骨伝導信号の開始信号を生成ネットワークモデルに入力する。コンピュータデバイスは、強調開始信号を生成する方法に加えて、他の方法を使用することによって、骨伝導信号の開始信号に基づいて強調開始信号を代替的に生成し得ることに留意されたい。これは、本出願の本実施形態で限定されない。
骨伝導信号に基づいた融合信号の決定の方式3:骨伝導信号に基づいて融合信号が決定される前に、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集される。ウェアラブルデバイスは、骨伝導信号と空気伝導信号とを直接融合して融合信号を得る。このようにすると、得られた融合信号は、音源によって入力されたコマンドワードに関する情報も含む。加えて、融合信号は、骨伝導信号の完全音声情報と空気伝導信号の完全音声情報の両方を含むので、融合信号はより多くの音声特徴を含む。このことは、音声認識の精度をある程度向上させる。
骨伝導信号に基づいて融合信号を決定する方式1と方式3との違いは、骨伝導信号に基づいて融合信号を決定する方式3では、ウェアラブルデバイスが骨伝導信号と空気伝導信号とを直接融合することであることに留意されたい。加えて、方式1で説明した他の内容は、方式3に適用可能である。方式3の詳細は再度説明されない。例えば、方式3では、音声セグメントを取り込むために、骨伝導信号および空気伝導信号に対して音声セグメント検出が実行されてもよく、データ処理量を低減するために、取り込まれた音声セグメントが融合される。骨伝導信号および空気伝導信号はさらに前処理されてもよく、例えば、骨伝導信号に対してダウンサンプリングおよび/または利得調整が実行され、空気伝導信号に対して終点の検出および音声強調が実行される。
例えば、信号連結により信号融合が実行されると仮定される。例えば、x1[n]は骨伝導信号を示し、x2[n]は空気伝導信号を示し、f(x)は連結関数を示す。f(x):b[n]0,2t=concat[x1[n]0,t,x2[n]0,t]と仮定され、x2[n]0,△t=0である。言い換えれば、骨伝導信号(0からtまでの音声セグメント)と空気伝導信号(0からtまでの信号セグメント)とをf(x)に従って連結して、融合信号b[n]を得る。代替的に、f(x):b[n]0,2t-△t=concat[x1[n]0-t,x2[n]△t-t]。言い換えれば、骨伝導信号(0からtまでの音声セグメント)と空気伝導信号(△tからtまでの信号セグメント)とをf(x)に従って連結して、融合信号b[n]を得る。
骨伝導信号に基づいた融合信号の決定の方式4:ウェアラブルデバイスは、骨伝導信号を融合信号として決定する。言い換えれば、ウェイクアップワードは、骨伝導信号のみに基づいて検出され得る。
骨伝導信号に基づいて融合信号を決定する方式1と方式4との違いは、骨伝導信号に基づいて融合信号を決定する方式4では、骨伝導信号が融合信号として直接使用されることであることに留意されたい。加えて、方式1で説明した他の内容は、方式4に適用可能である。方式4の詳細は再度説明されない。例えば、方式4では、音声セグメントを取り込むために骨伝導信号に対して音声セグメント検出がまた実行され得、データ処理量を低減するために、取り込まれた音声セグメントが融合信号として使用される。骨伝導信号はさらに前処理されてもよく、例えば、ダウンサンプリングおよび/または利得調整が骨伝導信号に対して実行される。
以下では、ウェイクアップワードを検出するために、ウェアラブルデバイスが融合信号を認識する実装形態について説明する。
本出願のこの実施形態では、ウェアラブルデバイスは、第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、融合信号に含まれる複数のオーディオフレームを第1の音響モデルに入力する。ウェアラブルデバイスは、複数の事後確率ベクトルに基づいてウェイクアップワードを検出する。複数の事後確率ベクトルは、融合信号に含まれる複数のオーディオフレームに1対1で対応し、すなわち、1つの事後確率ベクトルは、融合信号に含まれる1つのオーディオフレームに対応し、複数の事後確率ベクトルのうちの第1の事後確率ベクトルは、複数のオーディオフレームのうちの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示し、すなわち、1つの事後確率ベクトルは、対応する1つのオーディオフレームの音素が複数の指定された音素に属する確率を示す。言い換えれば、ウェアラブルデバイスは、第1の音響モデルを使用することによって融合信号を処理して、融合信号に含まれる音素に関する情報を得、音素に関する情報に基づいてウェイクアップワードを検出する。任意選択で、本出願の本実施形態では、第1の音響モデルは、上述のネットワークモデル、または別の構造のモデルであり得る。融合信号を第1の音響モデルに入力した後、ウェアラブルデバイスは、第1の音響モデルを使用することにより、融合信号に含まれる各オーディオフレームを処理して、各オーディオフレームに対応する、第1の音響モデルによって出力される事後確率ベクトルを得る。
本出願のこの実施形態では、第1の音響モデルによって出力された複数の事後確率ベクトルを得た後、ウェアラブルデバイスは、複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、音源によって入力されたコマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含むという信頼度を決定する。信頼度が信頼度閾値を超えるとき、コマンドワードがウェイクアップワードを含むことが検出されたと決定される。言い換えれば、ウェアラブルデバイスは、信頼度閾値を決定するために、複数の事後確率ベクトルを復号する。ウェイクアップワードに対応する音素シーケンスは復号経路と呼ばれ、決定された信頼度は経路スコアと呼ばれ得て、信頼度閾値はウェイクアップ閾値と呼ばれ得る。
例えば、本出願のこの実施形態では、第1の音響モデルを使用することによって各オーディオフレームに対応する事後確率ベクトルが得られた後、複数の連続するオーディオフレームに対応する複数の事後確率ベクトルは、言語モデルおよび発音の辞書に基づいて構築された復号グラフ(状態ネットワークとも呼ばれる)に入力される。復号経路の各音素の確率が復号グラフで探索され、見つかった各音素の確率が加算されて信頼度を得るようにする。復号経路は、ウェイクアップワードに対応する音素シーケンスである。信頼度が信頼度閾値より大きい場合、コマンドワードがウェイクアップワードを含むことが検出されたと決定される。
任意選択で、偽りのウェイクアップ率を低減するために、信頼度が信頼度閾値を超え、複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たす場合、ウェアラブルデバイスは、音源によって入力されたコマンドワードがウェイクアップワードを含むことが検出されたと決定する。複数のテンプレートベクトルは、ウェイクアップワードの完全な情報を含む音声信号の音素が、複数の指定された音素に属する確率を示す。言い換えれば、現在の入力音声は、信頼度の条件を満たす必要があるだけでなく、テンプレートと一致する必要もある。本出願のこの実施形態では、信頼度閾値は、事前設定され得る、例えば、経験に基づいて設定され得るか、またはウェイクアップワード登録中のウェイクアップワードの完全な情報を含む骨伝導登録信号および/または空気伝導登録信号に基づいて決定され得る。具体的な実装形態が以下で説明される。複数のテンプレートベクトルは、骨伝導登録信号および/または空気伝導登録信号に基づいて決定される登録事後確率ベクトルである。具体的な実装形態が以下で説明される。
任意選択で、複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、距離の条件は、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む。複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、ウェアラブルデバイスは、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離を直接計算し、平均を計算することができることに留意されたい。例えば、現在の音源による音声入力の持続時間が、ウェイクアップワードの登録中のユーザによる音声入力の持続時間と一致する場合、複数の事後確率ベクトルは、複数のテンプレートベクトルに1対1で対応することができる。しかしながら、現在の音源による音声入力の持続時間が、ウェイクアップワードの登録中のユーザによる音声入力の持続時間と一致しない場合、複数の事後確率ベクトルは、複数のテンプレートベクトルに1対1で対応しないことがある。この場合、ウェアラブルデバイスは、動的時間伸縮(dynamic time warping、DTW)法を使用することによって複数の事後確率ベクトルと複数のテンプレートベクトルとの間のマッピング関係を確立し、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離を計算し得る。言い換えれば、ウェアラブルデバイスは、データの長さが異なる場合、DTWによってテンプレートのマッチングの問題を解決することができる。
上では、ウェアラブルデバイスが骨伝導信号に基づいてウェイクアップワードを検出する第1の実装形態について説明している。第1の実装形態では、ウェアラブルデバイスは、骨伝導信号(4つの方式を含む)に基づいて融合信号をまず決定し、次いで音響モデルを使用することによって融合信号を処理して、事後確率ベクトルを得る。次に、ウェアラブルデバイスは、音源によって現在入力されているコマンドワードに対応する信頼度を得るために、ウェイクアップワードに対応する復号経路に基づいて、得られた事後確率ベクトルを復号する。信頼度が信頼度閾値より大きいとき、ウェアラブルデバイスは、コマンドワードがウェイクアップワードを含むことが検出されたと決定する。代替的に、信頼度が信頼度閾値よりも大きく、得られた複数の事後確率ベクトルがテンプレートベクトルと一致する場合、ウェアラブルデバイスは、コマンドワードがウェイクアップワードを含むことが検出されたと決定する。以下では、ウェアラブルデバイスが骨伝導信号に基づいてウェイクアップワードを検出する第2の実装形態について説明する。
第2の実装形態
本出願のこの実施形態では、骨伝導信号に基づいてウェイクアップワードを検出する前に、ウェアラブルデバイスはエアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号が収集される。例えば、音声入力があることが検出されるとき、エアマイクロフォンがオンにされ、エアマイクロフォンを使用することによって空気伝導信号が収集される。ウェアラブルデバイスは、骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定し、複数の事後確率ベクトルに基づいてウェイクアップワードを検出する。複数の事後確率ベクトルは、骨伝導信号および空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルのうちの第1の事後確率ベクトルは、複数のオーディオフレームのうちの第1のオーディオフレームの音素が、複数の指定された音素に属する確率を示す。複数のオーディオフレームは、骨伝導信号に含まれるオーディオフレームと、空気伝導信号に含まれるオーディオフレームとを含むことに留意されたい。言い換えれば、複数の事後確率ベクトルのそれぞれは、骨伝導信号または空気伝導信号に含まれる1つのオーディオフレームに対応し、1つの事後確率ベクトルは、対応する1つのオーディオフレームの音素が、複数の指定された音素に属する確率を示す。
骨伝導信号および空気伝導信号の関連する説明については、骨伝導信号および空気伝導信号の生成原理、骨伝導信号および空気伝導信号の前処理などを含む第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。
まず、以下では、ウェアラブルデバイスが骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定する実装形態について説明する。ウェアラブルデバイスが骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定する複数の方式があることに留意されたい。以下、3つの方式を説明する。
骨伝導信号および空気伝導信号に基づいた複数の事後確率ベクトルの決定の方式1:ウェアラブルデバイスは、骨伝導信号の開始部分および空気伝導信号を第2の音響モデルに入力して、第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得る。骨伝導信号の開始部分は音声検出の検出遅延に基づいて決定され、第1の量の骨伝導事後確率ベクトルは1対1で骨伝導信号の開始部分に含まれるオーディオフレームに対応し、第2の量の空気伝導事後確率ベクトルは1対1で空気伝導信号に含まれるオーディオフレームに対応する。ウェアラブルデバイスは、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合して、第2の事後確率ベクトルを得る。第1の骨伝導事後確率ベクトルは骨伝導信号の開始部分の最後のオーディオフレームに対応し、最後のオーディオフレームの持続時間はフレームの持続時間より短く、第1の空気伝導事後確率ベクトルは空気伝導信号の最初のオーディオフレームに対応し、最初のオーディオフレームの持続時間はフレームの持続時間より短い。ウェアラブルデバイスによって最終的に決定される複数の事後確率ベクトルは、第2の事後確率ベクトル、第1の骨伝導事後確率ベクトル以外の第1の量の骨伝導事後確率ベクトル内のベクトル、および第1の空気伝導事後確率ベクトル以外の第2の量の空気伝導事後確率ベクトルのベクトルを含む。第1の量および第2の量は、同じであっても異なっていてもよい。
骨伝導信号の開始部分の関連する説明については、第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。本出願のこの実施形態では、骨伝導信号の開始部分の最後のオーディオフレームは完全なオーディオフレームでなくてもよい、すなわち、最後のオーディオフレームの持続時間はフレームの持続時間よりも短い。例えば、骨伝導信号の開始部分は、半フレーム期間のオーディオフレームを含む。空気伝導信号はヘッダを失うので、空気伝導信号の最初のオーディオフレームは完全なオーディオフレームでなくてもよい、すなわち、最初のオーディオフレームの持続時間はフレームの持続時間よりも短い。例えば、空気伝導信号の最初のオーディオフレームは、半フレーム期間のオーディオフレームを含む。加えて、骨伝導信号の開始部分の最後のオーディオフレームの持続時間と空気伝導信号の最初のオーディオフレームの持続時間との合計は、フレームの持続時間に等しくてもよい。要するに、音声検出(例えば、VAD)により引き起こされる、骨伝導信号の開始部分および空気伝導信号の第1のフレームが不完全であるため、骨伝導信号の開始部分および空気伝導信号の第1のフレームは、完全なオーディオフレームに関する情報を共に示す。完全なオーディオフレームは、実際のフレームではなく潜在的なオーディオフレームであることに留意されたい。任意選択で、ウェアラブルデバイスは、第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルを第1の空気伝導事後確率ベクトルに加算する。ウェアラブルデバイスによって得られる第2の事後確率ベクトルは、完全なオーディオフレームの音素が複数の指定された音素に属する確率を示す。
言い換えれば、音声検出の検出遅延がフレームの持続時間の整数倍でない場合、骨伝導信号の開始部分の最後のオーディオフレームの持続時間はフレームの持続時間よりも短く、空気伝導信号の最初のオーディオフレームの持続時間はフレームの持続時間よりも短い。ウェアラブルデバイスは、複数の事後確率ベクトルを得るために、第2の骨伝導事後確率ベクトルと第2の空気伝導事後確率ベクトルとを融合(例えば、加算)する必要がある。任意選択で、音声検出の検出遅延がフレームの持続時間の整数倍である場合、骨伝導信号の開始部分の最後のオーディオフレームの持続時間はフレームの持続時間に等しく、空気伝導信号の最初のオーディオフレームの持続時間はフレームの持続時間に等しい。ウェアラブルデバイスは、得られた第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを複数の事後確率ベクトルとして使用し、その後の処理を実行する。
図11は、本出願の実施形態による、別の音響モデルの構造の概略図である。図11に示す音響モデルは、本出願のこの実施形態における第2の音響モデルである。本出願のこの実施形態における第2の音響モデルは、2つの入力層(図示せず)、1つの共有ネットワーク層、および2つの出力層を含むことが知見され得る。2つの入力層は、骨伝導信号の開始部分と空気伝導信号とを別々に入力するために使用される。共有ネットワーク層は、2つの入力層で入力データを別々に処理し、骨伝導信号の開始部分および空気伝導信号の特徴を別々に抽出するために使用される。2つの出力層は、共有ネットワーク層で2つの出力データを別々に受信し、2つの出力データを別々に処理して、骨伝導信号の開始部分に対応する第1の量の骨伝導事後確率ベクトルおよび空気伝導信号に対応する第2の量の空気伝導事後確率ベクトルを出力するために使用される。言い換えれば、ウェアラブルデバイスは、第2の音響モデルを使用することによって、骨伝導信号の開始部分および空気伝導信号という2つの部分の信号を別々に処理して、2つの部分の信号に対応する2つの事後確率ベクトルのグループを得る。共有ネットワーク層が音響モデルに存在するため、信号の2つの部分はいくつかのネットワークパラメータを共有する。
本出願のこの実施形態では、ウェアラブルデバイスは、得られた第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合して第2の事後確率ベクトルを得、その結果、複数の骨伝導事後確率ベクトルと複数の空気伝導事後確率ベクトルとが融合されて、複数の事後確率ベクトルを得る。言い換えれば、ウェアラブルデバイスは、得られた複数の事後確率ベクトルが、音源によって入力されたコマンドワードに関する情報を含むように、信号の2つの部分の事後確率を融合する。これは、信号を直接融合する(例えば、連結する)ことによって補償を実行しないこと以外は、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償を実行するための方法と考えられることもできる。加えて、第2の音響モデルを使用することによって骨伝導信号の開始部分および空気伝導信号を処理する解決策は、マルチタスク(multi-task)の解決策と考えられることができる。言い換えれば、骨伝導信号の開始部分と空気伝導信号とが2つのタスクとして使用され、ネットワークパラメータを共有する方法を使用することによって対応する事後確率ベクトルが別々に決定されて、骨伝導信号の開始部分と空気伝導信号とを暗黙的に融合する。
骨伝導信号および空気伝導信号に基づいた複数の事後確率ベクトルの決定の方式2:ウェアラブルデバイスは、骨伝導信号の開始部分および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得る。骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される。骨伝導信号の開始部分の関連する説明については、第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。
本出願のこの実施形態では、図12に示すように、第3の音響モデルは、2つの入力層(例えば、1つの入力層は、DNNやCNNなどの層を含む)と、1つの連結層(concat層)と、1つのネットワークパラメータ層(例えば、RNNなどの層を含む)と、1つの出力層(例えば、softmax層などの層を含む)とを含む。2つの入力層は、骨伝導信号と空気伝導信号とを別々に入力するために使用され、連結層は、2つの入力層で出力データを連結するために使用され、ネットワークパラメータ層は、連結層で出力データを処理するために使用され、出力層は、事後確率ベクトルのグループを出力するために使用される。言い換えれば、ウェアラブルデバイスは、骨伝導信号の開始部分および空気伝導信号を同時に第3の音響モデルに入力し、第3の音響モデルの連結層を使用することによって骨伝導信号の開始部分および空気伝導信号を暗黙的に融合して、事後確率ベクトルのグループを得て、それにより、得られた複数の事後確率ベクトルは、音源によって入力されたコマンドワードに関する情報を含む。これは、信号を直接融合することによって補償を実行しないこと以外は、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償を実行するための方法と考えられることもできる。
骨伝導信号および空気伝導信号に基づいた複数の事後確率ベクトルの決定の方式3:ウェアラブルデバイスは、骨伝導信号および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得る。言い換えれば、ウェアラブルデバイスは、骨伝導信号と空気伝導信号とを同時に第3の音響モデルに直接入力し、第3の音響モデルを使用することによって事後確率ベクトルのグループを出力し、その結果、得られた複数の事後確率ベクトルは、音源によって入力されたコマンドワードに関する情報を含む。これは、信号を直接融合することによって補償を実行しないこと以外は、骨伝導信号に基づいて空気伝導信号に対してヘッダロス補償を実行するための方法と考えられることもできる。
以下では、ウェアラブルデバイスが複数の事後確率ベクトルに基づいてウェイクアップワードを検出する実装形態について説明する。
本出願のこの実施形態では、ウェアラブルデバイスは、複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、音源によって入力されたコマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定する。信頼度が信頼度閾値を超えるとき、ウェイクアップワードが検出されたと決定される。具体的な実装形態については、第1の実装形態の関連する説明を参照されたい。詳細は本明細書では再び説明されない。
任意選択で、偽りのウェイクアップ率を低減するために、信頼度が信頼度閾値を超え、複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たす場合、ウェアラブルデバイスは、コマンドワードがウェイクアップワードを含むことが検出されたと決定する。任意選択で、複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、距離の条件は、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む。具体的な実装形態については、第1の実装形態の関連する説明を参照されたい。詳細は本明細書では再び説明されない。
ステップ403:コマンドワードがウェイクアップワードを含むことが検出されたとき、ウェイクアップされるべきデバイスに対して音声ウェイクアップを実行する。
本出願のこの実施形態では、音源によって入力されたコマンドワードがウェイクアップワードを含むことが検出されるとき、ウェアラブルデバイスは音声ウェイクアップを実行する。例えば、ウェアラブルデバイスは、スマートデバイスをウェイクアップさせるために、ウェイクアップ命令をスマートデバイス(すなわち、ウェイクアップされるべきデバイス)に送信する。代替的に、ウェアラブルデバイスがスマートデバイスである場合、ウェアラブルデバイスは、ウェアラブルデバイス全体が作動状態に入ることができるように、骨伝導マイクロフォン以外の別の構成要素またはモジュールをウェイクアップさせる。
以上から、本出願のこの実施形態で提供される音声ウェイクアップ方法は、複数の実装形態、例えば上述の第1の実装形態および第2の実装形態を有することが知見され得る。2つの実装形態は、複数の特定の実装形態をさらに含む。以下では、図13~図18を参照して再度上述したいくつかの特定の実装形態について説明する。
図13は、本出願の実施形態による、別の音声ウェイクアップ方法のフローチャートである。図13は、第1の実装形態における方式1に対応する。例えば、音声ウェイクアップは、ウェアラブルデバイスの複数のモジュールを使用することによって実行される。ウェアラブルデバイスは、骨伝導マイクロフォンを使用することによって骨伝導信号を収集し、VAD制御モジュールを使用することによって骨伝導信号に対してVADを実行する。音声入力が検出されるとき、VAD制御モジュールは高レベルのVAD制御信号を出力する。音声入力が検出されないとき、VAD制御モジュールは低レベルのVAD制御信号を出力する。VAD制御モジュールは、VAD制御信号をエアマイクロフォン制御モジュール、フロントエンド強調モジュール、および認識エンジンにそれぞれ送信する。VAD制御信号は、エアマイクロフォン制御モジュール、フロントエンド強調モジュール、および認識エンジンのスイッチを制御するために使用される。VAD制御信号が高レベルにあるとき、エアマイクロフォン制御モジュールは、空気伝導信号を収集するためにオンにされるようにエアマイクロフォンを制御し、フロントエンド強調モジュールは、空気伝導信号に対してフロントエンド強調を実行するためにオンにされ、認識エンジンは、骨伝導信号および空気伝導信号に基づいてウェイクアップワードを検出するためにオンにされる。融合モジュールは、骨伝導信号に対してダウンサンプリングおよび/または利得調整などの前処理を実行し、前処理された骨伝導信号の開始部分に基づいて、フロントエンド強調を通じて得られた空気伝導信号に対してヘッダロス補償を実行して、融合信号を得る。融合モジュールは、融合信号を認識エンジンに送信し、認識エンジンは、第1の音響モデルを使用することによって融合信号を認識して、ウェイクアップワードの検出結果を得る。認識エンジンは、得られた検出結果をプロセッサ(例えば、図面に示されているマイクロコントローラユニット(micro-controller unit、MCU))に送信し、プロセッサは、検出結果に基づいて、スマートデバイスをウェイクアップさせるかどうかを決定する。検出結果が、音源によって入力されたコマンドワードがウェイクアップワードを含むことを示す場合、プロセッサは、スマートデバイスで音声ウェイクアップを実行する。検出結果が、ウェイクアップワードが検出されないことを示す場合、プロセッサは、スマートデバイスをウェイクアップさせない。
図14~図16は、本出願の実施形態による3つの他の音声ウェイクアップ方法のフローチャートである。図14、図15、および図16と、図13との間の別個の違いは、図14に示す方法では、融合モジュールが、前処理された骨伝導信号の開始部分に基づいて強調開始信号を生成し、融合信号を得るために、強調開始信号に基づいて、フロントエンド強調を介して得られた空気伝導信号に対してヘッダロス補償を実行することにある。図15に示す方法では、融合モジュールは、融合信号を得るために、前処理された骨伝導信号とフロントエンド強調によって得られた空気伝導信号とを直接連結して、空気伝導信号に対してヘッダロス補償を実行する。図16に示す方法では、VAD制御信号はエアマイクロフォン制御モジュールに送られる必要がなく、したがって、空気伝導信号は収集される必要がない。加えて、認識エンジンは、前処理された骨伝導信号を融合信号として直接決定する。
図17は、本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。図17と図13との違いは、図17に示す方法では、認識エンジンが、前処理された骨伝導信号の開始部分と、フロントエンド強調によって得られた空気伝導信号とを別々に第2の音響モデルに入力して、第2の音響モデルの2つの出力層によってそれぞれ出力される骨伝導事後確率ベクトルおよび空気伝導事後確率ベクトルを得て、事後確率対を得ることにある。認識エンジンは、骨伝導事後確率ベクトルと空気伝導事後確率ベクトルとを融合して複数の事後確率ベクトルを得、複数の事後確率ベクトルを復号してウェイクアップワードの検出結果を得る。
図18は、本出願の実施形態による、さらに別の音声ウェイクアップ方法のフローチャートである。図18と図17との違いは、図18に示す方法では、認識エンジンが、前処理された骨伝導信号の開始部分とフロントエンド強調によって得られた空気伝導信号とを別々に第3の音響モデルに入力するか、または前処理された骨伝導信号とフロントエンド強調によって得られた空気伝導信号とを第3の音響モデルに別々に入力して、第3の音響モデルの一方の出力層によって別々に出力された複数の事後確率ベクトルを得ることにある。
本出願のこの実施形態では、低消費電力を確実にするために、骨伝導マイクロフォンが音声検出のための骨伝導信号を収集するということが知見され得る。低消費電力が確実にされている場合、音声検出の遅延は、収集された空気伝導信号のヘッダロスを引き起こす可能性があり、その結果、音源から入力されたコマンドワードの完全な情報が含まれないと考えられる。しかしながら、骨伝導マイクロフォンによって収集される骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含み、すなわち、骨伝導信号はヘッダを失わない。したがって、この解決策は、骨伝導信号に基づいて、ウェイクアップワードを検出する。このようにすると、ウェイクアップワードの認識精度が高く、音声ウェイクアップの精度が高い。特定の実装の間、ヘッダロス補償は、骨伝導信号に基づいて空気伝導信号に対して直接または暗黙的に実行され得、またはウェイクアップワードは、骨伝導信号に基づいて直接検出され得る。
上では、ウェアラブルデバイスが骨伝導信号に基づいて音声ウェイクアップを実行する実装形態について説明している。本出願のこの実施形態では、ウェイクアップワードは、ウェアラブルデバイスにさらに登録され得る。任意選択で、前述の実施形態における信頼度閾値は、ウェイクアップワードが登録されるときにさらに決定されてもよく、前述の実施形態における複数のテンプレートベクトルが、さらに決定され得る。以下では、ウェイクアップワードの登録処理プロセスについて説明する。
本出願のこの実施形態では、ウェアラブルデバイスは、ウェイクアップワードに対応する音素シーケンスをまず決定する。次に、ウェアラブルデバイスは、骨伝導登録信号を得、骨伝導登録信号は、ウェイクアップワードの完全な情報を含む。ウェアラブルデバイスは、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する。任意選択で、ウェアラブルデバイスは、骨伝導信号に基づいて複数のテンプレートベクトルをさらに決定してもよい。
任意選択で、ウェアラブルデバイスは、入力されたウェイクアップワードを得、発音の辞書に従って、ウェイクアップワードに対応する音素シーケンスを決定する。例えば、ユーザは、ウェイクアップワードテキストをウェアラブルデバイスに入力する。ウェアラブルデバイスは、ユーザによって入力されたウェイクアップワードテキストを得、発音の辞書に従って、ウェイクアップワードに対応する音素シーケンスを決定する。任意選択で、ウェイクアップワード登録中に、ユーザがウェイクアップワードテキストを入力した後、ウェアラブルデバイスは、入力されたウェイクアップワードテキストがテキスト登録条件を満たすかをさらに検出してもよい。テキスト登録条件が満たされるとき、ウェアラブルデバイスは、発音の辞書に従って、ウェイクアップワードテキストに対応する音素シーケンスを決定する。
例えば、テキスト登録条件は、テキスト入力量要件、文字要件などを含む。例えば、テキスト入力量要件は、ユーザがウェイクアップワードテキストを1回または複数回入力する必要があることである。ウェアラブルデバイスがユーザによって入力されたウェイクアップワードのテキストを検出するたびに、ウェアラブルデバイスは、現在入力されているウェイクアップワードのテキストが文字要件を満たしているかどうかを検証するために、入力されたウェイクアップワードのテキストに対してテキスト検証および解析を実行する。ユーザによって入力されたウェイクアップワードのテキストが文字要件を満たさない場合、ウェアラブルデバイスは、テキストまたは音声を使用することによって、なぜウェイクアップワードのテキストが要件を満たしていないかの理由についてユーザをプロンプトし、再入力を要求する。1回以上ユーザによって入力されたウェイクアップワードのテキストが文字の要件を満たし、同じである場合、ウェアラブルデバイスは、発音の辞書に従って、ウェイクアップワードのテキストに対応する音素シーケンスを決定する。
任意選択で、ウェアラブルデバイスは、テキストの検証を通じて、現在入力されているウェイクアップワードのテキストが文字要件を満たしているかどうかを検出する。例えば、文字要件は、以下の要件、すなわち、中国語が必要とされること(中国語ではないテキストは、文字要件が満たされていないことを示す)、4~6文字が必要とされること(4文字未満または6文字超のテキストは、文字要件が満たされていないことを示す)、モーダル粒子が存在しないこと(モーダル粒子が存在する場合、特性要件は満たされない)、同じ発音の反復文字が3つ以下であること(同じ発音の4つ以上の繰り返される文字がある場合、文字要件が満たされない)、テキストがすべての既存のコマンドワードと異なること(テキストが任意の既存のコマンドワードと同じである場合、文字要件は満たされない)、既存のコマンドワードの音素と重複する音素の割合が70%を超えないこと(既存のコマンドワードの音素と重複する音素の割合が70%を超える場合、偽りの認識を防止するため、文字要件が満たされない)、および対応する音素が発音の辞書の音素に属すること(対応する音素が発音の辞書における音素に属していない場合、文字要件が満たされず、これは異常なケースである)のうちの1つまたは複数を含む。
上記はテキスト登録プロセスであり、テキスト登録は、ウェイクアップワードに対応する音素シーケンスを決定するために使用され得る。ウェイクアップワードに対応する音素シーケンスを決定した後、ウェアラブルデバイスは、その音素シーケンスをウェイクアップワードの復号経路としてその後使用することができ、復号経路は、音声ウェイクアップ中にウェイクアップワードを検出するために使用される。
テキスト登録に加えて、音声登録がさらに必要とされる。本出願のこの実施形態では、テキスト登録を完了した後、ウェアラブルデバイスは骨伝導登録信号を得る必要がさらにあり、骨伝導登録信号はウェイクアップワードの完全な情報を含む。任意選択で、ウェアラブルデバイスは、骨伝導登録信号を得るときに空気伝導登録信号をさらに得る。任意選択で、音声登録中に、例えば、ウェアラブルデバイスは、ユーザによって入力された骨伝導登録信号および空気伝導登録信号を得る。入力される骨伝導登録信号および入力される空気伝導登録信号を得た後、ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号が音声登録条件を満たすかどうかを検証する。音声登録条件が満たされているとき、ウェアラブルデバイスは、信頼度閾値を決定するために後続の処理を実行する。
例えば、音声登録条件は、音声入力量要件、信号対雑音比要件、経路スコア要件などを含む。例えば、音声入力量要件は、ユーザがウェイクアップワードの音声(骨伝導登録信号および空気伝導登録信号を含む)を3回入力する必要があることである。ウェアラブルデバイスがユーザによるウェイクアップワード音声入力を検出するたびに、ウェアラブルデバイスは、入力されたウェイクアップワード音声に対して発音の検証および解析を実行して、現在入力されているウェイクアップワード音声が信号対雑音比要件および経路スコア要件を満たすかどうかを検証する。ユーザによって入力されたウェイクアップワードのテキストが文字要件を満たさない場合、ウェアラブルデバイスは、テキストまたは音声を使用することによって、なぜウェイクアップワードのテキストが要件を満たしていないかの理由についてユーザをプロンプトし、再入力を要求する。3回のユーザによるウェイクアップワード音声入力が信号対雑音比要件および経路スコア要件を満たす場合、ウェアラブルデバイスは、ユーザによるウェイクアップワード音声入力が音声登録条件を満たすと決定し、その後の処理を実行する。
任意選択で、ウェアラブルデバイスは、入力されるウェイクアップワード音声が信号対雑音比要件を満たすかどうかをまず検出し、入力されるウェイクアップワード音声が信号対雑音比要件を満たすと決定した後で、入力されるウェイクアップワード音声が経路スコア要件を満たすかどうかを検出し得る。例えば、信号対雑音比要件は、信号対雑音比が信号対雑音比閾値以上であること(信号対雑音比が信号対雑音比閾値未満である場合、信号対雑音比要件は満たされない)を含む。例えば、骨伝導登録信号の信号対雑音比は、第1の信号対雑音比閾値以上である必要があり、および/または空気伝導登録信号の信号対雑音比は、第2の信号対雑音比閾値以上である必要がある。任意選択で、第1の信号対雑音比閾値は第2の信号対雑音比閾値より大きい。ユーザによるウェイクアップワード音声入力が信号対雑音比要件を満たさない場合、ウェアラブルデバイスは、現在の環境の雑音が大きく、登録に適していないことをユーザにプロンプトし、ユーザは、ウェイクアップワード音声を再入力するために静かな環境を見つける必要がある。経路スコア要件は、毎回のウェイクアップワード音声入力に基づいて得られた経路スコアが較正閾値以上であること、3回のウェイクアップワード音声入力に基づいて得られた3つの経路スコアの平均が較正閾値以上であること、および任意の2回のウェイクアップワード音声入力に基づいて得られた2つの経路スコア間の差が100ポイント(または別の値)以下であることを含む。ウェイクアップワード音声に基づいて経路スコアを得る実装形態のプロセスは、以下で説明され、音声ウェイクアップにおける骨伝導信号に基づいて信頼度を得るプロセスと本質的に同様である。
以下、ウェアラブルデバイスが、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する実装形態について説明する。この実装形態は、音声ウェイクアップにおける骨伝導信号に基づいて信頼度を得る実装形態と同様である。ウェアラブルデバイスは、複数の実装形態において信頼度閾値を決定することができる。以下では、2つの実装形態について説明する。
第1の実装形態
ウェアラブルデバイスは、骨伝導登録信号に基づいて融合登録信号を決定し、融合登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定する。
最初に、ウェアラブルデバイスが骨伝導登録信号に基づいて融合登録信号を決定する実装形態について説明される。ウェアラブルデバイスが骨伝導登録信号に基づいて融合登録信号を決定する複数の方式があることに留意されたい。以下で4つの方式を説明する。
骨伝導登録信号に基づいた融合登録信号の決定の方式1:骨伝導登録信号に基づいて融合登録信号が決定される前に、空気伝導登録信号が得られる。ウェアラブルデバイスは、骨伝導登録信号の開始部分と空気伝導登録信号とを融合して、融合登録信号を得る。骨伝導登録信号の開始部分は、音声検出の検出遅延に基づいて決定される。任意選択で、信号融合は、本出願のこの実施形態では信号連結を介して実行される。
ウェアラブルデバイスが骨伝導登録信号の開始部分と空気伝導登録信号とを融合する実装形態は、前述の実施形態における骨伝導信号に基づいて融合信号を決定する方式1の原理と同様であることに留意されたい。詳細は本明細書では再び説明されない。加えて、ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号に対して音声セグメント検出を実行して音声セグメントを取り込み、取り込まれた音声セグメントに基づいて信号連結を実行して、データ処理量を低減することもできる。骨伝導登録信号および空気伝導登録信号はさらに前処理されてもよく、例えば、骨伝導登録信号に対してダウンサンプリングおよび/または利得調整が実行され、空気伝導信号に対して音声強調が行われる。特定の実装形態は、前述の実施形態の関連する内容の原理と同様である。前述の実施形態を参照されたい。詳細は本明細書では再び説明されない。
骨伝導登録信号に基づいた融合登録信号の決定の方式2:骨伝導登録信号に基づいて融合登録信号が決定される前に、空気伝導登録信号が得られる。ウェアラブルデバイスは、骨伝導登録信号の開始部分に基づいて強調開始登録信号を生成し、強調開始登録信号と空気伝導登録信号とを融合して融合登録信号を得る。骨伝導登録信号の開始部分は、音声検出の検出遅延に基づいて決定される。
骨伝導登録信号に基づいて融合登録信号を決定する方式1と方式2との違いは、方式2では、ウェアラブルデバイスは、骨伝導登録信号の開始部分に基づいて強調開始登録信号を生成し、骨伝導登録信号の開始部分と空気伝導信号とを融合する代わりに、強調開始登録信号と空気伝導登録信号とを融合することであることに留意されたい。加えて、方式2で、ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号に対して音声セグメント検出を実行して音声セグメントを取り込み、取り込まれた音声セグメントに基づいて信号融合を実行して、データ処理量を低減することもできる。ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号をさらに前処理し、例えば、骨伝導登録信号に対してダウンサンプリングおよび/または利得調整を実行し、空気伝導信号に対して音声強調を実行することができる。特定の実装形態は、前述の実施形態の関連する内容の原理と同様である。前述の実施形態を参照されたい。詳細は本明細書では再び説明されない。
本出願のこの実施形態では、ウェアラブルデバイスは、生成ネットワークモデルによって出力された強調開始登録信号を得るために、骨伝導登録信号の開始部分を生成ネットワークモデルに入力することができる。生成ネットワークモデルは、上述した生成ネットワークモデルと同じであり得るか、または他の生成ネットワークモデルであり得る。これは、本出願の本実施形態で限定されない。生成ネットワークモデルのネットワーク構造、訓練方式、訓練デバイスなどは、本出願の本実施形態で限定されていない。
骨伝導登録信号に基づいた融合登録信号の決定の方式3:骨伝導登録信号に基づいて融合登録信号が決定される前に、空気伝導登録信号が得られる。ウェアラブルデバイスは、骨伝導登録信号と空気伝導登録信号とを直接融合して、融合登録信号を得る。
骨伝導登録信号に基づいて融合登録信号を決定する方式1と方式3との違いは、方式3では、ウェアラブルデバイスが、融合登録信号を得るために、骨伝導登録信号と空気伝導登録信号とを融合することであることに留意されたい。加えて、方式3で、ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号に対して音声セグメント検出を実行して音声セグメントを取り込み、取り込まれた音声セグメントに基づいて信号融合を実行して、データ処理量を低減することもできる。ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号をさらに前処理し、例えば、骨伝導登録信号に対してダウンサンプリングおよび/または利得調整を実行し、空気伝導信号に対して音声強調を実行することができる。特定の実装形態は、前述の実施形態の関連する内容の原理と同様である。前述の実施形態を参照されたい。詳細は本明細書では再び説明されない。
骨伝導登録信号に基づいた融合登録信号の決定の方式4:ウェアラブルデバイスは、骨伝導登録信号を融合登録信号として決定する。
骨伝導登録信号に基づいて融合登録信号を決定する方式1と方式4との違いは、方式4では、ウェアラブルデバイスが、融合登録信号として骨伝導登録信号を直接使用することであることに留意されたい。加えて、方式4では、ウェアラブルデバイスは、骨伝導登録信号に対して音声セグメント検出を実行して音声セグメントを取り込み、取り込まれた音声セグメントに基づいて後続の処理を実行して、データ処理量を低減することもできる。ウェアラブルデバイスは、骨伝導登録信号をさらに前処理し、例えば、骨伝導登録信号に対してダウンサンプリングおよび/または利得調整を実行することができる。特定の実装形態は、前述の実施形態の関連する内容の原理と同様である。前述の実施形態を参照されたい。詳細は本明細書では再び説明されない。
以下、ウェアラブルデバイスが、融合登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定する実装形態について説明する。
任意選択で、ウェアラブルデバイスは、第1の音響モデルによって出力された複数の登録事後確率ベクトルを得るために、融合登録信号に含まれる複数の登録オーディオフレームを第1の音響モデルに入力する。複数の登録事後確率ベクトルは、複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルのうちの第1の登録事後確率ベクトルは、複数の登録オーディオフレームのうちの第1の登録オーディオフレームの音素が、複数の指定された音素に属する確率を示す。言い換えれば、複数の登録事後確率ベクトルのそれぞれは、融合登録信号に含まれる1つの登録オーディオフレームに対応し、1つの登録事後確率ベクトルは、対応する1つの登録オーディオフレームの音素が、複数の指定された音素に属する確率を示す。ウェアラブルデバイスは、複数の登録事後確率ベクトルを複数のテンプレートベクトルとして決定する。ウェアラブルデバイスは、複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、信頼度閾値を決定する。言い換えれば、ウェアラブルデバイスは、第1の音響モデルを使用することによって融合登録信号を処理して、融合信号に含まれる音素に関する情報を得、すなわち登録事後確率ベクトルを得、登録事後確率ベクトルをテンプレートベクトルとして使用し、テンプレートベクトルを記憶する。ウェアラブルデバイスは、ウェイクアップワードに対応する音素シーケンス(すなわち、復号経路)に基づいて登録事後確率ベクトルをさらに復号して経路スコアを決定し、経路スコアを信頼度閾値として使用し、信頼度閾値を記憶する。第1の音響モデルの関連説明については、前述の実施形態を参照されたい。詳細は本明細書では再び説明されない。
上記で、ウェアラブルデバイスが、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する第1の実装形態について説明した。第1の実装形態では、ウェアラブルデバイスは、骨伝導登録信号(4つの方式を含む)に基づいて融合登録信号をまず決定し、次いで音響モデルを使用することによって融合登録信号を処理して、登録事後確率ベクトルを得る。次に、ウェアラブルデバイスは、信頼度閾値を得るために、ウェイクアップワードに対応する復号経路に基づいて、得られた登録事後確率ベクトルを復号する。任意選択で、ウェアラブルデバイスは、得られた登録事後確率ベクトルをテンプレートベクトルとして記憶する。以下、ウェアラブルデバイスが、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する第2の実装形態について説明する。
第2の実装形態
本出願のこの実施形態では、骨伝導登録信号とウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する前に、ウェアラブルデバイスは空気伝導登録信号を得る。ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定する。複数の登録事後確率ベクトルは、骨伝導登録信号および空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルのうちの第1の登録事後確率ベクトルは、複数の登録オーディオフレームのうちの第1の登録オーディオフレームの音素が、複数の指定された音素に属する確率を示す。複数の登録オーディオフレームは、骨伝導登録信号に含まれる登録オーディオフレームと、空気伝導登録信号に含まれる登録オーディオフレームとを含むことに留意されたい。言い換えれば、複数の登録事後確率ベクトルのそれぞれは、骨伝導登録信号または空気伝導登録信号に含まれる1つの登録オーディオフレームに対応し、1つの登録事後確率ベクトルは、対応する1つの登録オーディオフレームの音素が、複数の指定された音素に属する確率を示す。ウェアラブルデバイスは、複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、信頼度閾値を決定する。任意選択で、ウェアラブルデバイスは、複数の登録事後確率ベクトルを複数のテンプレートベクトルとして決定する。
骨伝導登録信号および空気伝導登録信号の関連する説明については、骨伝導登録信号および空気伝導登録信号の生成原理、骨伝導登録信号および空気伝導登録信号の前処理などを含む第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。
まず、以下では、ウェアラブルデバイスが骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定する実装形態について説明する。ウェアラブルデバイスが骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定する複数の方式があることに留意されたい。以下、3つの方式を説明する。
骨伝導登録信号および空気伝導登録信号に基づいた複数の登録事後確率ベクトルの決定の方式1:ウェアラブルデバイスは、骨伝導登録信号の開始部分および空気伝導登録信号を第2の音響モデルに入力して、第2の音響モデルによって出力される第3の量の骨伝導登録事後確率ベクトルおよび第4の量の空気伝導登録事後確率ベクトルを得る。ウェアラブルデバイスは、第1の骨伝導登録事後確率ベクトルと第1の空気伝導登録事後確率ベクトルとを融合して、第2の登録事後確率ベクトルを得る。骨伝導登録信号の開始部分は音声検出の検出遅延に基づいて決定され、第3の量の骨伝導登録事後確率ベクトルは1対1で骨伝導登録信号の開始部分に含まれる登録オーディオフレームに対応し、第4の量の空気伝導登録事後確率ベクトルは1対1で空気伝導登録信号に含まれる登録オーディオフレームに対応する。言い換えれば、1つの骨伝導登録事後確率ベクトルは、骨伝導登録信号の開始部分に含まれる1つの登録オーディオフレームに対応し、1つの空気伝導登録事後確率ベクトルは、空気伝導登録信号に含まれる1つの登録オーディオフレームに対応する。第1の骨伝導登録事後確率ベクトルは、骨伝導登録信号の開始部分の最後の登録オーディオフレームに対応し、最後の登録オーディオフレームの持続時間は、フレームの持続時間よりも短く、第1の空気伝導事後確率ベクトルは、空気伝導登録信号の最初の登録オーディオフレームに対応し、最初の登録オーディオフレームの持続時間は、フレームの持続時間よりも短い。ウェアラブルデバイスによって最終的に決定される複数の登録事後確率ベクトルは、第2の登録事後確率ベクトル、第1の骨伝導登録事後確率ベクトル以外の第3の量の骨伝導登録事後確率ベクトル内のベクトル、および第1の空気伝導登録事後確率ベクトル以外の第4の量の空気伝導登録事後確率ベクトル内のベクトルを含む。第3の量と第4の量は同じであっても異なっていてもよく、第3の量と第1の量は同じであっても異なっていてもよく、第4の量と第2の量は同じであっても異なっていてもよい。
任意選択で、ウェアラブルデバイスは、第2の登録事後確率ベクトルを得るために、第1の骨伝導登録事後確率ベクトルと第1の空気伝導登録事後確率ベクトルとを加算する。
骨伝導登録信号の開始部分の関連する説明については、第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。加えて、第2の音響モデルの関連する説明については、前述の実施形態の関連する内容を参照されたい。詳細は本明細書では再び説明されない。ウェアラブルデバイスが第2の音響モデルを使用することによって第3の量の骨伝導登録事後確率ベクトルおよび第4の量の空気伝導登録事後確率ベクトルを得る原理は、前述の実施形態における第2の音響モデルを使用することによって第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得る原理と一致する。詳細は本明細書では再び説明されない。
骨伝導登録信号および空気伝導登録信号に基づいた複数の登録事後確率ベクトルの決定の方式2:ウェアラブルデバイスは、骨伝導登録信号の開始部分および空気伝導登録信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の登録事後確率ベクトルを得る。骨伝導登録信号の開始部分は、音声検出の検出遅延に基づいて決定される。
骨伝導登録信号の開始部分の関連する説明については、第1の実装形態の内容を参照することに留意されたい。詳細は本明細書では再び説明されない。加えて、第3の音響モデルの関連する説明については、前述の実施形態の関連する内容を参照されたい。詳細は本明細書では再び説明されない。ウェアラブルデバイスが第3の音響モデルを使用することによって複数の登録事後確率ベクトルを得る原理は、前述の実施形態における第3の音響モデルを使用することによって複数の事後確率ベクトルを得る原理と一致する。詳細は本明細書では再び説明されない。
骨伝導登録信号および空気伝導登録信号に基づいた複数の登録事後確率ベクトルの決定の方式3:ウェアラブルデバイスは、骨伝導登録信号および空気伝導登録信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の登録事後確率ベクトルを得る。言い換えれば、ウェアラブルデバイスは、骨伝導登録信号と空気伝導登録信号とを同時に第3の音響モデルに直接入力し、第3の音響モデルを使用することによって登録事後確率ベクトルのグループを出力し、その結果、得られた複数の登録事後確率ベクトルは、音源によって入力されたウェイクアップワードの完全な情報を含む。
本出願のこの実施形態では、複数の登録事後確率ベクトルを決定した後、ウェアラブルデバイスは、複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する。原理は、ウェアラブルデバイスが複数の事後確率ベクトルとウェイクアップワードの音素シーケンスとに基づいて信頼度を決定する前述の原理と同様である。特定の実装形態については、前述の関連する説明を参照されたい。詳細は本明細書では再び説明されない。
図19~図24は、本出願の実施形態による6つのウェイクアップワード登録方法のフローチャートである。以下、図19~図24を参照して、ウェイクアップワードの登録処理について再度説明する。
図19は、ウェイクアップワード登録の第1の実装形態における方式1に対応する。ウェイクアップワードを登録するプロセスは、テキスト登録および音声登録を含む。例えば、ウェアラブルデバイスは複数のモジュールを使用することによってウェイクアップワードを登録し、ウェアラブルデバイスはテキスト登録をまず実行する。ウェアラブルデバイスのテキスト登録モジュールは、ユーザによって入力されたウェイクアップワードテキストを得、入力されたウェイクアップワードテキストに対してテキスト検証およびテキスト解析を実行し、発音の辞書に従って、テキスト登録要件を満たすウェイクアップワードテキストに対応する音素シーケンスを決定し、音素シーケンスを復号経路として決定し、復号経路を認識エンジンに送信する。認識エンジンは復号経路を記憶する。次いで、ウェアラブルデバイスは、音声登録を実行する。ウェアラブルデバイスの音声登録モジュールは、骨伝導登録信号および空気伝導登録信号を含む音声登録信号を得る。任意選択で、ウェアラブルデバイスは、VADを介して骨伝導登録信号および空気伝導登録信号を得、得られた骨伝導登録信号および空気伝導登録信号をさらに前処理することができる。次いで、音声登録モジュールは、骨伝導登録信号および空気伝導登録信号に対して発音検証を実行する。融合モジュールは、検証によって得られ、音声登録要件を満たす骨伝導登録信号および空気伝導登録信号を融合して、融合登録信号を得る。図19と図22とを区別するために、図19の融合登録信号は融合登録信号1と呼ばれる。音声登録モジュールは、第1の音響モデルを使用することによって融合登録信号1を処理して、複数の登録事後確率ベクトルを得、複数の登録事後確率ベクトルを復号して経路スコアを決定し、経路スコアをウェイクアップ閾値(すなわち、信頼度閾値)として認識エンジンに送信する。認識エンジンは、ウェイクアップ閾値を記憶し、ウェイクアップ閾値は、後続の音声ウェイクアップにおけるレベル1の偽りのウェイクアップを抑制するために使用される。任意選択で、音声登録モジュールは、得られた複数の登録事後確率ベクトルを複数のテンプレートベクトルとして認識エンジンに送信する。認識エンジンは、複数のテンプレートベクトルを記憶し、複数のテンプレートベクトルは、後続の音声ウェイクアップにおけるレベル2の偽りのウェイクアップを抑制するために使用される。
図20から図22は、ウェイクアップワード登録の第1の実装形態における方式2、方式3、および方式4に対応する。図19と図20との違いは、図20に示す方法では、ウェアラブルデバイスの音声登録モジュールが、骨伝導登録信号の開始部分に基づいて強調開始登録信号を生成し、強調開始登録信号と空気伝導登録信号とを融合して融合登録信号を得ることにある。図20の融合登録信号は融合登録信号2と呼ばれる。図21に示す方法では、音声登録モジュールは、骨伝導登録信号と空気伝導登録信号とを直接融合して、融合登録信号を得る。図21の融合登録信号は融合登録信号3と呼ばれる。図22に示す方法では、音声登録モジュールは、空気伝導登録信号を得ることなく、骨伝導登録信号を融合登録信号として直接決定することができる。図22の融合登録信号は融合登録信号4と呼ばれる。
図23は、ウェイクアップワード登録の第2の実装形態における方式1に対応する。図19と図23との違いは、図23に示す方法では、ウェアラブルデバイスの音声登録モジュールが、骨伝導登録信号の開始部分および空気伝導登録信号を第2の音響モデルに別々に入力して、第2の音響モデルによって別々に出力される第3の量の骨伝導登録事後確率ベクトルおよび第4の量の空気伝導登録事後確率ベクトルを得ることにある。音声登録モジュールは、複数の登録事後確率ベクトルを得るために、第3の量の骨伝導登録事後確率ベクトルおよび第4の量の空気伝導登録事後確率ベクトルを融合する。
図24は、ウェイクアップワード登録の第2の実装形態における方式2および方式3に対応する。図23と図24との違いは、図24に示す方法では、ウェアラブルデバイスの音声登録モジュールが、骨伝導登録信号の開始部分および空気伝導登録信号を第3の音響モデルに別々に入力するか、または骨伝導登録信号および空気伝導登録信号を第3の音響モデルに入力して、第3の音響モデルによって出力される複数の登録事後確率ベクトルを得ることにある。
以上から、ウェイクアップワード登録中に骨伝導登録信号および空気伝導登録信号を処理する手順は、音声ウェイクアップ中に骨伝導信号および空気伝導信号を処理する手順と同様であることが知見され得る。しかしながら、ウェイクアップワード登録時の手順は、ウェイクアップ閾値およびテンプレートベクトルを得るためのものであり、音声ウェイクアップ時の手順は、ウェイクアップワードを検出するためのものである。テンプレートベクトルは、この解決策の精度およびロバスト性を向上させるために使用され得る。この解決策では、ヘッダロス補償は、骨伝導信号に基づいて空気伝導信号に対して直接または暗黙的に実行されるか、またはウェイクアップワードは、骨伝導信号に基づいて直接検出される。骨伝導信号は、音源によって入力されたコマンドワードの情報を含む、すなわち、骨伝導信号は、ヘッダを失わず、ウェイクアップワードの認識精度が高く、音声ウェイクアップの精度が高い。
上記の実施形態では、音声ウェイクアップ処理およびウェイクアップワード登録処理について説明している。以上から、本出願のこの実施形態における音響モデルは事前の訓練によって得られる必要があることが知見され得る。例えば、第1の音響モデル、第2の音響モデル、および第3の音響モデルはすべて、事前の訓練によって得られる必要がある。以下では、コンピュータデバイスが音響モデルを訓練する例を使用することによって、音響モデルの訓練プロセスを説明する。
本出願のこの実施形態では、コンピュータデバイスは、第2の訓練データセットを最初に得る。第2の訓練データセットは複数の第2のサンプル信号対を含み、1つの第2のサンプル信号対は1つの骨伝導サンプル信号および1つの空気伝導サンプル信号を含み、1つの第2のサンプル信号対は1つのコマンドワードに対応する。任意選択で、第2の訓練データセットは、直接収集された音声データ、公開音声データ、および/または第三者から購入された音声データを含む。任意選択で、訓練の前に、コンピュータデバイスは、前処理された第2の訓練データセットを得るために、得られた第2の訓練データセットを前処理し得る。前処理された第2の訓練データセットは、実際の音声データの分布をシミュレートするために使用されることができ、その結果、音声データは実際のシナリオにおける音声により近くなる。これは、訓練サンプルの多様性を増加させる。例えば、第2の訓練データセットがバックアップされる、すなわち、追加のデータが追加され、バックアップデータが前処理される。任意選択で、バックアップデータは複数に分割され、各データに対して前処理が実行される。各データに対して実行される前処理は異なっていてもよい。これは、総訓練データを2倍にし、データの完全性を保証し、性能と訓練のオーバーヘッドとの間の均衡を達成し、音声認識の精度および堅牢性をある程度向上させ得る。各データを前処理するための方法は、雑音付加、ボリューム強調、残響付加、タイムシフト、ピッチシフト、タイムストレッチなどのうちの1つまたは複数を含むことができる。
例えば、第1の音響モデルは訓練によって得られる。コンピュータデバイスは、4つの方式で第2の訓練データセットに基づいて複数の融合サンプル信号を決定する。4つの方式は、ウェアラブルデバイスが、前述の実施形態における認識プロセス(すなわち、音声ウェイクアッププロセス)において骨伝導信号に基づいて融合信号を決定する4つの方式に、1対1で対応することに留意されたい。言い換えれば、ウェアラブルデバイスが認識プロセスにおいて骨伝導信号の開始部分と空気伝導信号とを融合して融合信号を得る場合、訓練プロセスにおいて、コンピュータデバイスは、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号の開始部分と空気伝導サンプル信号とを融合して複数の融合サンプル信号を得る。ウェアラブルデバイスが認識プロセスにおいて骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号と空気伝導信号とを融合して融合信号を得る場合、訓練プロセスにおいて、コンピュータデバイスは、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号の開始部分に基づいて強調開始サンプル信号を生成し、各強調開始サンプル信号と対応する空気伝導サンプル信号とを融合して複数の融合サンプル信号を得る。コンピュータデバイスが認識プロセスにおいて骨伝導信号と空気伝導信号とを直接融合して融合信号を得る場合、訓練プロセスにおいて、コンピュータデバイスは、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号と空気伝導サンプル信号とを直接融合して複数の融合サンプル信号を得る。ウェアラブルデバイスが認識プロセスにおいて融合信号として骨伝導信号を決定する場合、訓練プロセスにおいて、コンピュータデバイスは、複数の融合サンプル信号を得るために、複数の第2のサンプル信号対に含まれる骨伝導サンプル信号を決定する。骨伝導サンプル信号の開始部分は、音声検出または経験の検出遅延に基づいて決定される。次いで、コンピュータデバイスは、本出願のこの実施形態における第1の音響モデルを得るために、複数の融合サンプル信号に基づいて第1の初期音響モデルを訓練する。第1の初期音響モデルのネットワーク構造は、第1の音響モデルのネットワーク構造と同じである。
任意選択で、第2の訓練データセットに基づいて複数の融合サンプル信号を決定する前に、コンピュータデバイスは、第2の訓練データセットに含まれる骨伝導サンプル信号および空気伝導サンプル信号を前処理し、例えば、空気伝導サンプル信号に対してフロントエンド強調を実行し、骨伝導サンプル信号に対してダウンサンプリングおよび利得調整を実行する。任意選択で、コンピュータデバイスは、生成ネットワークモデルによって出力された強調開始サンプル信号を得るために、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号の開始部分を生成ネットワークモデルに入力する。生成ネットワークモデルおよび前述の実施形態における生成ネットワークモデルは、同じモデルであり得るし、異なるモデルであり得る。これは、本出願の本実施形態で限定されない。
例えば、図25~図28は、本出願の実施形態による上記の4つの方式で第1の音響モデルを別々に得る4つの概略図である。図25~図28を参照されたい。コンピュータデバイスによって得られる第2の訓練データセットは、骨伝導データ(骨伝導サンプル信号)および空気伝導データ(空気伝導サンプル信号)を含む。コンピュータデバイスは、融合モジュールを使用することによって骨伝導データに対してダウンサンプリングおよび/または利得調整を実行し、フロントエンド強調モジュールを使用することによって空気伝導データに対してフロントエンド強調を実行する。図25~図27は、4つの方式のうちの最初の3つの方式に対応する。融合モジュールは、訓練入力データを得るために、対応する方式で骨伝導データに基づいて空気伝導信号に対してヘッダロス補償を別個に実行する。図28は、4つの方式のうちの4つ目の方式に対応する。融合モジュールは、空気伝導データを得ることなく、骨伝導データを訓練入力データとして直接使用する。次いで、コンピュータデバイスは、訓練入力データに基づいてネットワークモデル(すなわち、第1の初期音響モデル)を訓練し、損失関数、勾配降下アルゴリズム、および誤差逆伝播を使用することによってネットワークモデルを調整して、訓練された第1の音響モデルを得る。
例えば、第2の音響モデルが訓練される。訓練プロセスは、方式1に対応し、方式1においてウェアラブルデバイスは、音声ウェイクアップ中に骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定する。訓練プロセスにおいて、コンピュータデバイスは、第2の音響モデルを得るために、第2の初期音響モデルを訓練するために、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号の開始部分および空気伝導サンプル信号を第2の初期音響モデルの入力として使用する。第2の初期音響モデルのネットワーク構造は、第2の音響モデルのネットワーク構造と同じである。言い換えれば、第2の初期音響モデルはまた、2つの入力層、1つの共有ネットワーク層、および2つの出力層を含む。
図29は、本出願の実施形態による、訓練によって第2の音響モデルを得る概略図である。図29を参照されたい。コンピュータデバイスによって得られる第2の訓練データセットは、骨伝導データ(骨伝導サンプル信号)および空気伝導データ(空気伝導サンプル信号)を含む。コンピュータデバイスは、骨伝導データに対してダウンサンプリングおよび/または利得調整を実行し、空気伝導データに対してフロントエンド強調を実行する。コンピュータデバイスは、骨伝導データを訓練入力データ1として使用し、空気伝導データを訓練入力データ2として使用する。コンピュータデバイスは、訓練入力データ1および訓練入力データ2に基づいてネットワークモデル(すなわち、第2の初期音響モデル)を訓練し、損失関数、勾配降下アルゴリズム、および誤差逆伝播を使用することによってネットワークモデルを調整して、訓練された第2の音響モデルを得る。訓練入力データ1および訓練入力データ2は、同じ損失関数または異なる損失関数に対応することができる。これは、本出願の本実施形態で限定されない。
例えば、第3の音響モデルが訓練される。訓練プロセスは、方式2に対応し、方式2においてウェアラブルデバイスは、音声ウェイクアップ中に骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定する。訓練プロセスにおいて、コンピュータデバイスは、第3の音響モデルを得るために、第3の初期音響モデルを訓練するために、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号の開始部分および空気伝導サンプル信号を第3の初期音響モデルの入力として使用する。代替的に、訓練プロセスは、方式3に対応し、方式3においてウェアラブルデバイスは、音声ウェイクアップ中に骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定する。訓練プロセスにおいて、コンピュータデバイスは、第3の音響モデルを得るために、第3の初期音響モデルを訓練するために、複数の第2のサンプル信号対の各々に含まれる骨伝導サンプル信号および空気伝導サンプル信号を第3の初期音響モデルの入力として使用する。第3の初期音響モデルのネットワーク構造は、第3の音響モデルのネットワーク構造と同じである。言い換えれば、第3の初期音響モデルはまた、2つの入力層、1つの連結層、1つのネットワークパラメータ層、および1つの出力層を含む。
例えば、図30は、本出願の実施形態による、訓練によって第3の音響モデルを得る概略図である。図30を参照されたい。コンピュータデバイスによって得られる第2の訓練データセットは、骨伝導データ(骨伝導サンプル信号)および空気伝導データ(空気伝導サンプル信号)を含む。コンピュータデバイスは、骨伝導データに対してダウンサンプリングおよび/または利得調整を実行し、空気伝導データに対してフロントエンド強調を実行する。コンピュータデバイスは、骨伝導データまたは骨伝導データの開始部分を訓練入力データ1とし、空気伝導データを訓練入力データ2として使用する。コンピュータデバイスは、訓練入力データ1および訓練入力データ2に基づいてネットワークモデル(すなわち、第3の初期音響モデル)を訓練し、損失関数、勾配降下アルゴリズム、および誤差逆伝播を使用することによってネットワークモデルを調整して、訓練された第3の音響モデルを得る。
結論として、本出願のこの実施形態では、訓練プロセスにおいて、ヘッダロス補償はまた、訓練された音響モデルを得るために、初期音響モデルを訓練するための訓練入力データを構築するために、骨伝導サンプル信号に基づいて空気伝導登録信号に対して直接または暗黙的に実行される。音声ウェイクアップ中、ヘッダロス補償は、骨伝導信号に基づいて空気伝導信号に対して直接または暗黙的に実行される。骨伝導信号は音源によって入力されたコマンドワードに関する情報を含むので、すなわち骨伝導信号はヘッダを失わないので、この解決策では、骨伝導信号に基づいてウェイクアップワードを検出する認識精度は高く、音声ウェイクアップの精度は高く、ロバスト性も向上される。
図31は、本出願の実施形態による音声ウェイクアップ装置3100の構造の概略図である。音声ウェイクアップ装置3100は、ソフトウェア、ハードウェア、またはそれらの組合せを使用することによって、電子デバイスの一部または全体として実装され得る。電子デバイスは、図2に示すウェアラブルデバイスであり得る。図31を参照されたい。装置3100は、音声検出モジュール3101と、ウェイクアップワード検出モジュール3102と、音声ウェイクアップモジュール3103とを含む。
音声検出モジュール3101は、骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行するように構成され、骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含む。
ウェイクアップワード検出モジュール3102は、音声入力が検出されるとき、骨伝導信号に基づいてウェイクアップワードを検出するように構成される。
音声ウェイクアップモジュール3103は、コマンドワードがウェイクアップワードを含むことが検出されたとき、ウェイクアップされるべきデバイスで音声ウェイクアップを実行するように構成される。
任意選択で、ウェイクアップワード検出モジュール3102は、
骨伝導信号に基づいて融合信号を決定するように構成された第1の決定サブモジュール、および
融合信号に対してウェイクアップワード検出を実行するように構成された、ウェイクアップワード検出サブモジュールを含む。
任意選択で、装置3100は、
エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するように構成された処理モジュールをさらに含む。
第1の決定サブモジュールは、
骨伝導信号の開始部分と空気伝導信号とを融合して融合信号を得て、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、
骨伝導信号の開始部分に基づいて強調開始信号を生成し、強調開始信号と空気伝導信号とを融合して融合信号を得、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、または
骨伝導信号と空気伝導信号とを直接融合して融合信号を得る
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、融合信号に含まれる複数のオーディオフレームを第1の音響モデルに入力し、複数の事後確率ベクトルは複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示し、
複数の事後確率ベクトルに基づいてウェイクアップワードを検出する
よう構成される。
任意選択で、装置3100は、
エアマイクロフォンをオンにし、エアマイクロフォンを使用することによって空気伝導信号を収集するように構成された処理モジュールをさらに含む。
ウェイクアップワード検出モジュール3102は、
骨伝導信号および空気伝導信号に基づいて複数の事後確率ベクトルを決定するように構成された第2の決定サブモジュールであって、複数の事後確率ベクトルは、骨伝導信号および空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、複数の事後確率ベクトルの第1の事後確率ベクトルは、複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、第2の決定サブモジュールと、
複数の事後確率ベクトルに基づいてウェイクアップワードを検出するように構成された、ウェイクアップワード検出サブモジュールと
を含む。
任意選択で、第2の決定サブモジュールが、
第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得るために、骨伝導信号の開始部分および空気伝導信号を第2の音響モデルに入力し、骨伝導信号の開始部分は音声検出の検出遅延に基づいて決定され、第1の量の骨伝導事後確率ベクトルは1対1で骨伝導信号の開始部分に含まれるオーディオフレームに対応し、第2の量の空気伝導事後確率ベクトルは1対1で空気伝導信号に含まれるオーディオフレームに対応し、
第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合し、第1の骨伝導事後確率ベクトルは骨伝導信号の開始部分の最後のオーディオフレームに対応し、最後のオーディオフレームの持続時間はフレームの持続時間より短く、第1の空気伝導事後確率ベクトルは空気伝導信号の最初のオーディオフレームに対応し、最初のオーディオフレームの持続時間はフレームの持続時間より短く、複数の事後確率ベクトルは、第2の事後確率ベクトルと、第1の骨伝導事後確率ベクトル以外の第1の量の骨伝導事後確率ベクトルのベクトルと、第1の空気伝導事後確率ベクトル以外の第2の量の空気伝導事後確率ベクトルのベクトルとを含む
ように構成される。
任意選択で、第2の決定サブモジュールは、
骨伝導信号の開始部分および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得て、骨伝導信号の開始部分は、音声検出の検出遅延に基づいて決定される、または
骨伝導信号および空気伝導信号を第3の音響モデルに入力して、第3の音響モデルによって出力された複数の事後確率ベクトルを得る
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定し、
信頼度が信頼度閾値を超えるとき、コマンドワードがウェイクアップワードを含むことが検出されたと決定する
ように構成される。
任意選択で、ウェイクアップワード検出サブモジュールは、
複数の事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて、コマンドワードに対応する音素シーケンスがウェイクアップワードに対応する音素シーケンスを含む信頼度を決定し、
信頼度が信頼度閾値を超え、複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たすときに、コマンドワードがウェイクアップワードを含むことが検出されたと決定し、複数のテンプレートベクトルは、ウェイクアップワードの完全な情報を含む音声信号の音素が複数の指定された音素に属する確率を示す
ように構成される。
任意選択で、複数の事後確率ベクトルが複数のテンプレートベクトルに1対1で対応する場合、距離の条件は、複数の事後確率ベクトルと対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む。
任意選択で、装置3100は、
骨伝導登録信号を得るように構成された取得モジュールであって、骨伝導登録信号がウェイクアップワードの完全な情報を含む、取得モジュールと、
骨伝導登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて信頼度閾値および複数のテンプレートベクトルを決定するように構成された決定モジュールと
をさらに含む。
任意選択で、決定モジュールは、
骨伝導登録信号に基づいて融合登録信号を決定するように構成された第3の決定サブモジュール、および
融合登録信号およびウェイクアップワードに対応する音素シーケンスに基づいて、信頼度閾値および複数のテンプレートベクトルを決定するように構成される、第4の決定サブモジュール
を含む。
任意選択で、第4の決定サブモジュールは、
第1の音響モデルによって出力される複数の登録事後確率ベクトルを得るために、融合登録信号に含まれる複数の登録オーディオフレームを第1の音響モデルに入力し、複数の登録事後確率ベクトルは複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示し、
複数の登録事後確率ベクトルを複数のテンプレートベクトルとして決定し、
複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定する
ように構成される。
任意選択で、装置3100は、
空気伝導登録信号を得るように構成される取得モジュールをさらに含む。
決定モジュールは、
骨伝導登録信号および空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定するように構成される第5の決定サブモジュールであって、複数の登録事後確率ベクトルは、骨伝導登録信号および空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、複数の登録オーディオフレームの第1の登録オーディオフレームの音素が複数の指定された音素に属する確率を示す、第5の決定サブモジュールと、
複数の登録事後確率ベクトルとウェイクアップワードに対応する音素シーケンスとに基づいて信頼度閾値を決定するように構成される、第6の決定サブモジュールと
を含む。
本出願の実施形態では、低消費電力を確実にするために、骨伝導マイクロフォンが音声検出のための骨伝導信号を収集する。加えて、音声検出の遅延は、収集された空気伝導信号のヘッダロスを引き起こす可能性があり、その結果、音源から入力されたコマンドワードの完全な情報が含まれないと考えられる。しかしながら、骨伝導マイクロフォンによって収集される骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含み、すなわち、骨伝導信号はヘッダを失わない。したがって、この解決策は、骨伝導信号に基づいてウェイクアップワードを検出する。このようにすると、ウェイクアップワードの認識の精度が高く、音声ウェイクアップの精度が高い。
前述の実施形態において提供される音声ウェイクアップ装置が音声ウェイクアップを実行するとき、前述の機能モジュールの分割が、説明のための一例として使用されているにすぎないことに留意されたい。実際の適用時、前述の機能は、要件に基づく実装のために異なる機能モジュールに割り当てられ得る。すなわち、デバイスの内部構造は、上記の機能のすべてまたは一部を実施するために異なる機能モジュールに分割される。加えて、前述の実施形態で提供される音声ウェイクアップ装置は、音声ウェイクアップ方法の実施形態と同じ概念に属する。音声ウェイクアップ装置の特定の実装形態のプロセスについて、方法および実施形態を参照されたく、詳細は本明細書で再び説明されない。
前述の実施形態の全部または一部は、ソフトウェア、ハードウェア、ファームウェア、またはこれらの任意の組合せによって実施され得る。ソフトウェアが実装形態のために使用される場合、実施形態のすべてまたは一部は、コンピュータプログラム製品の形態で実装され得る。コンピュータプログラム製品は1つまたは複数のコンピュータ命令を含む。コンピュータ命令がロードされ、コンピュータで実行されるとき、本出願の実施形態による手順または機能の全部または一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、またはその他のプログラマブル装置であり得る。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよいし、またはあるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、もしくはデジタル加入者回線(digital subscriber line、DSL))またはワイヤレス(例えば、赤外線、無線、もしくはマイクロ波)の方式で、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタに伝送され得る。コンピュータ可読記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、または1つ以上の使用可能な媒体を組み込んだ、サーバもしくはデータセンタなどのデータ記憶デバイスであり得る。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、または磁気テープ)、光媒体(例えば、デジタル多用途ディスク(digital versatile disc、DVD))、半導体媒体(例えば、ソリッドステートドライブ(solid state disk、SSD))などであり得る。本出願の本実施形態で言及されるコンピュータ可読記憶媒体は、不揮発性記憶媒体であってもよく、言い換えれば、非一時的記憶媒体であり得ることに留意されたい。
本明細書で言及されている「少なくとも1つ」は1つ以上を意味し、「複数の」は2つ以上を意味することを理解されたい。本出願の実施形態の説明では、特に明記しない限り、「/」は「または」を意味する。例えば、A/Bは、AまたはBを表し得る。本明細書では、「および/または」は、関連付けられた対象間の関連付け関係のみを説明し、3つの関係が存在し得ることを表す。例えば、Aおよび/またはBは、以下の3つの場合を、すなわちAのみが存在する場合と、AおよびBの両方が存在する場合と、Bのみが存在する場合と、を表す。加えて、本出願の実施形態の技術的解決手段を明確に説明するために、実質的に同じ機能および目的を持つ同じ事物または類似する物品を区別するのに本出願の実施形態では「第1」や「第2」などの用語が使用されている。当業者は、「第1の」および「第2の」などの用語が数または実行順序を限定せず、「第1の」および「第2の」などの用語が明確な違いを示さないことを理解し得る。
本出願の実施形態に関与する情報(限定はしないが、ユーザ機器情報、およびユーザ個人情報を含む)、データ(限定はしないが、解析のためのデータ、記憶されたデータ、および表示されたデータを含む)、および信号は、ユーザによって認可されるか、またはすべての当事者によって完全に認可され、関係するデータの収集、使用、および処理は、関係する国および領域の関係する法律、規制、および規格に準拠する必要があることに留意されたい。例えば、本出願の実施形態に関与する音声信号は、完全認証の場合に得られる。
前述の説明は、本出願において提供される実施形態であるが、本出願を限定することは意図されていない。本出願の趣旨および原理から逸脱せずに行われるいかなる修正、同等の置換、または改善も本出願の保護範囲内にあるものとする。
201 ウェアラブルデバイス
202 スマートデバイス
301 プロセッサ
302 通信バス
303 メモリ
304 通信インターフェース
305 プロセッサ
306 出力デバイス
307 入力デバイス
308 骨伝導マイクロフォン
309 エアマイクロフォン
310 プログラムコード
3100 音声ウェイクアップ装置
3101 音声検出モジュール
3102 ウェイクアップワード検出モジュール
3103 音声ウェイクアップモジュール

Claims (31)

  1. 音声ウェイクアップ方法であって、前記方法は、
    骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行するステップであって、前記骨伝導信号が、音源によって入力されたコマンドワードに関する情報を含む、ステップと、
    音声入力が検出されるとき、前記骨伝導信号に基づいてウェイクアップワードを検出するステップと、
    前記コマンドワードが前記ウェイクアップワードを含むことが検出されたときに、ウェイクアップされるべきデバイスに対して音声ウェイクアップを実行するステップと
    を含む、音声ウェイクアップ方法。
  2. 前記骨伝導信号に基づいてウェイクアップワードを検出する前記ステップが、
    前記骨伝導信号に基づいて融合信号を決定するステップと、
    前記融合信号に対してウェイクアップワード検出を実行するステップと
    を含む、請求項1に記載の方法。
  3. 前記骨伝導信号に基づいて融合信号を決定する前記ステップの前に、前記方法は、エアマイクロフォンをオンにするステップと、前記エアマイクロフォンを使用することによって空気伝導信号を収集するステップとをさらに含み、
    前記骨伝導信号に基づいて融合信号を決定する前記ステップが、
    前記骨伝導信号の開始部分と前記空気伝導信号とを融合して前記融合信号を得るステップであって、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、ステップ、
    前記骨伝導信号の開始部分に基づいて強調開始信号を生成し、前記強調開始信号と前記空気伝導信号とを融合して前記融合信号を得るステップであって、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、ステップ、または
    前記骨伝導信号と前記空気伝導信号とを直接融合して、前記融合信号を得るステップを含む、請求項2に記載の方法。
  4. 前記融合信号に対してウェイクアップワード検出を実行する前記ステップが、
    第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、前記融合信号に含まれる複数のオーディオフレームを前記第1の音響モデルに入力するステップであって、前記複数の事後確率ベクトルは前記複数のオーディオフレームに1対1で対応し、前記複数の事後確率ベクトルの第1の事後確率ベクトルは、前記複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、
    前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出するステップと
    を含む、請求項2または3に記載の方法。
  5. 前記骨伝導信号に基づいてウェイクアップワードを検出する前記ステップの前に、前記方法が、エアマイクロフォンをオンにするステップ、および前記エアマイクロフォンを使用することによって空気伝導信号を収集するステップをさらに含み、
    前記骨伝導信号に基づいてウェイクアップワードを検出する前記ステップが、
    前記骨伝導信号および前記空気伝導信号に基づいて複数の事後確率ベクトルを決定するステップであって、前記複数の事後確率ベクトルは、前記骨伝導信号および前記空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、前記複数の事後確率ベクトルの第1の事後確率ベクトルは、前記複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、ステップと、
    前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出するステップと
    を含む、請求項1に記載の方法。
  6. 前記骨伝導信号および前記空気伝導信号に基づいて複数の事後確率ベクトルを決定する前記ステップが、
    第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得るために、前記骨伝導信号の開始部分および前記空気伝導信号を前記第2の音響モデルに入力するステップであって、前記骨伝導信号の前記開始部分は前記音声検出の検出遅延に基づいて決定され、前記第1の量の骨伝導事後確率ベクトルは1対1で前記骨伝導信号の前記開始部分に含まれるオーディオフレームに対応し、前記第2の量の空気伝導事後確率ベクトルは1対1で前記空気伝導信号に含まれるオーディオフレームに対応する、ステップと、
    第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合するステップであって、前記第1の骨伝導事後確率ベクトルは前記骨伝導信号の前記開始部分の最後のオーディオフレームに対応し、前記最後のオーディオフレームの持続時間はフレームの持続時間より短く、前記第1の空気伝導事後確率ベクトルは前記空気伝導信号の最初のオーディオフレームに対応し、前記最初のオーディオフレームの持続時間は前記フレームの持続時間より短く、前記複数の事後確率ベクトルは、前記第2の事後確率ベクトルと、前記第1の骨伝導事後確率ベクトル以外の前記第1の量の骨伝導事後確率ベクトルのベクトルと、前記第1の空気伝導事後確率ベクトル以外の前記第2の量の空気伝導事後確率ベクトルのベクトルとを含む、ステップと
    を含む、請求項5に記載の方法。
  7. 前記骨伝導信号および前記空気伝導信号に基づいて複数の事後確率ベクトルを決定する前記ステップが、
    前記骨伝導信号の開始部分および前記空気伝導信号を第3の音響モデルに入力して、前記第3の音響モデルによって出力された前記複数の事後確率ベクトルを得るステップであって、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、ステップ、または
    前記骨伝導信号および前記空気伝導信号を第3の音響モデルに入力して、前記第3の音響モデルによって出力された前記複数の事後確率ベクトルを得るステップ
    を含む、請求項5に記載の方法。
  8. 前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出する前記ステップが、
    前記複数の事後確率ベクトルと前記ウェイクアップワードに対応する音素シーケンスとに基づいて、前記コマンドワードに対応する音素シーケンスが前記ウェイクアップワードに対応する前記音素シーケンスを含む信頼度を決定するステップと、
    前記信頼度が信頼度閾値を超えるときに、前記コマンドワードが前記ウェイクアップワードを含むことが検出されたと決定するステップと
    を含む、請求項4から7のいずれか一項に記載の方法。
  9. 前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出する前記ステップが、
    前記複数の事後確率ベクトルと前記ウェイクアップワードに対応する音素シーケンスとに基づいて、前記コマンドワードに対応する音素シーケンスが前記ウェイクアップワードに対応する前記音素シーケンスを含む信頼度を決定するステップと、
    前記信頼度が信頼度閾値を超え、前記複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たすときに、前記コマンドワードが前記ウェイクアップワードを含むことが検出されたと決定するステップであって、前記複数のテンプレートベクトルは、前記ウェイクアップワードの完全な情報を含む音声信号の音素が前記複数の指定された音素に属する確率を示す、ステップと
    を含む、請求項4から7のいずれか一項に記載の方法。
  10. 前記複数の事後確率ベクトルが前記複数のテンプレートベクトルに1対1で対応するとき、前記距離の条件は、前記複数の事後確率ベクトルと前記対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む、請求項9に記載の方法。
  11. 前記方法が、
    骨伝導登録信号を得るステップであって、前記骨伝導登録信号が前記ウェイクアップワードの前記完全な情報を含む、ステップと、
    前記骨伝導登録信号および前記ウェイクアップワードに対応する前記音素シーケンスに基づいて前記信頼度閾値および前記複数のテンプレートベクトルを決定するステップと
    をさらに含む、請求項9または10に記載の方法。
  12. 前記骨伝導登録信号および前記ウェイクアップワードに対応する前記音素シーケンスに基づいて前記信頼度閾値および前記複数のテンプレートベクトルを決定する前記ステップが、
    前記骨伝導登録信号に基づいて融合登録信号を決定するステップと、
    前記融合登録信号と前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて、前記信頼度閾値と前記複数のテンプレートベクトルとを決定するステップと
    を含む、請求項11に記載の方法。
  13. 前記融合登録信号および前記ウェイクアップワードに対応する前記音素シーケンスに基づいて前記信頼度閾値および前記複数のテンプレートベクトルを決定する前記ステップが、
    第1の音響モデルによって出力される複数の登録事後確率ベクトルを得るために、前記融合登録信号に含まれる複数の登録オーディオフレームを前記第1の音響モデルに入力するステップであって、前記複数の登録事後確率ベクトルは前記複数の登録オーディオフレームに1対1で対応し、前記複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、前記複数の登録オーディオフレームの第1の登録オーディオフレームの音素が前記複数の指定された音素に属する確率を示す、ステップと、
    前記複数の登録事後確率ベクトルを前記複数のテンプレートベクトルとして決定するステップと、
    前記複数の登録事後確率ベクトルと前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定するステップと
    を含む、請求項12に記載の方法。
  14. 前記骨伝導登録信号と前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定する前記ステップの前に、前記方法は、空気伝導登録信号を得るステップをさらに含み、
    前記骨伝導登録信号と前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定する前記ステップが、
    前記骨伝導登録信号および前記空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定するステップであって、前記複数の登録事後確率ベクトルは、前記骨伝導登録信号および前記空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、前記複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、前記複数の登録オーディオフレームの第1の登録オーディオフレームの音素が前記複数の指定された音素に属する確率を示す、ステップと、
    前記複数の登録事後確率ベクトルと前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定するステップと
    を含む、請求項11に記載の方法。
  15. 音声ウェイクアップ装置であって、前記装置は、
    骨伝導マイクロフォンによって収集された骨伝導信号に基づいて音声検出を実行するように構成された音声検出モジュールであって、前記骨伝導信号は、音源によって入力されたコマンドワードに関する情報を含む、音声検出モジュールと、
    音声入力が検出されるとき、前記骨伝導信号に基づいてウェイクアップワードを検出するように構成された、ウェイクアップワード検出モジュールと、
    前記コマンドワードが前記ウェイクアップワードを含むことが検出されるとき、ウェイクアップされるべきデバイスで音声ウェイクアップを実行するように構成された、音声ウェイクアップモジュールと
    を含む、音声ウェイクアップ装置。
  16. 前記ウェイクアップワード検出モジュールは、
    前記骨伝導信号に基づいて融合信号を決定するように構成された第1の決定サブモジュール、および
    前記融合信号に対してウェイクアップワード検出を実行するように構成された、ウェイクアップワード検出サブモジュール
    を含む、請求項15に記載の装置。
  17. 前記装置が、
    エアマイクロフォンをオンにし、前記エアマイクロフォンを使用することによって空気伝導信号を収集するように構成された処理モジュール、をさらに含み、
    前記第1の決定サブモジュールは、
    前記骨伝導信号の開始部分と前記空気伝導信号とを融合して前記融合信号を得て、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、
    前記骨伝導信号の開始部分に基づいて強調開始信号を生成し、前記強調開始信号と前記空気伝導信号とを融合して前記融合信号を得、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、または
    前記骨伝導信号と前記空気伝導信号とを直接融合して前記融合信号を得る
    ように構成される、請求項16に記載の装置。
  18. 前記ウェイクアップワード検出サブモジュールが、
    第1の音響モデルによって出力された複数の事後確率ベクトルを得るために、前記融合信号に含まれる複数のオーディオフレームを前記第1の音響モデルに入力し、前記複数の事後確率ベクトルは前記複数のオーディオフレームに1対1で対応し、前記複数の事後確率ベクトルの第1の事後確率ベクトルは、前記複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示し、
    前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出する
    よう構成される、請求項16または17に記載の装置。
  19. 前記装置は、エアマイクロフォンをオンにし、前記エアマイクロフォンを使用することによって空気伝導信号を収集するように構成された処理モジュールをさらに含み、
    前記ウェイクアップワード検出モジュールは、
    前記骨伝導信号および前記空気伝導信号に基づいて複数の事後確率ベクトルを決定するように構成された第2の決定サブモジュールであって、前記複数の事後確率ベクトルは、前記骨伝導信号および前記空気伝導信号に含まれる複数のオーディオフレームに1対1で対応し、前記複数の事後確率ベクトルの第1の事後確率ベクトルは、前記複数のオーディオフレームの第1のオーディオフレームの音素が複数の指定された音素に属する確率を示す、第2の決定サブモジュールと、
    前記複数の事後確率ベクトルに基づいて前記ウェイクアップワードを検出するように構成された、ウェイクアップワード検出サブモジュールと
    を含む、請求項15に記載の装置。
  20. 前記第2の決定サブモジュールが、
    第2の音響モデルによって出力される第1の量の骨伝導事後確率ベクトルおよび第2の量の空気伝導事後確率ベクトルを得るために、前記骨伝導信号の開始部分および前記空気伝導信号を前記第2の音響モデルに入力し、前記骨伝導信号の前記開始部分は前記音声検出の検出遅延に基づいて決定され、前記第1の量の骨伝導事後確率ベクトルは1対1で前記骨伝導信号の前記開始部分に含まれるオーディオフレームに対応し、前記第2の量の空気伝導事後確率ベクトルは1対1で前記空気伝導信号に含まれるオーディオフレームに対応し、
    第2の事後確率ベクトルを得るために、第1の骨伝導事後確率ベクトルと第1の空気伝導事後確率ベクトルとを融合し、前記第1の骨伝導事後確率ベクトルは前記骨伝導信号の前記開始部分の最後のオーディオフレームに対応し、前記最後のオーディオフレームの持続時間はフレームの持続時間より短く、前記第1の空気伝導事後確率ベクトルは前記空気伝導信号の最初のオーディオフレームに対応し、前記最初のオーディオフレームの持続時間は前記フレームの持続時間より短く、前記複数の事後確率ベクトルは、前記第2の事後確率ベクトルと、前記第1の骨伝導事後確率ベクトル以外の前記第1の量の骨伝導事後確率ベクトルのベクトルと、前記第1の空気伝導事後確率ベクトル以外の前記第2の量の空気伝導事後確率ベクトルのベクトルとを含む
    ように構成される、請求項19に記載の装置。
  21. 前記第2の決定サブモジュールが、
    前記骨伝導信号の開始部分および前記空気伝導信号を第3の音響モデルに入力して、前記第3の音響モデルによって出力された前記複数の事後確率ベクトルを得て、前記骨伝導信号の前記開始部分は、前記音声検出の検出遅延に基づいて決定される、または
    前記骨伝導信号および前記空気伝導信号を第3の音響モデルに入力して、前記第3の音響モデルによって出力された前記複数の事後確率ベクトルを得る
    ように構成される、請求項19に記載の装置。
  22. 前記ウェイクアップワード検出サブモジュールが、
    前記複数の事後確率ベクトルと前記ウェイクアップワードに対応する音素シーケンスとに基づいて、前記コマンドワードに対応する音素シーケンスが前記ウェイクアップワードに対応する前記音素シーケンスを含む信頼度を決定し、
    前記信頼度が信頼度閾値を超えるとき、前記コマンドワードが前記ウェイクアップワードを含むことが検出されたと決定する
    ように構成される、請求項18から21のいずれか一項に記載の装置。
  23. 前記ウェイクアップワード検出サブモジュールが、
    前記複数の事後確率ベクトルと前記ウェイクアップワードに対応する音素シーケンスとに基づいて、前記コマンドワードに対応する音素シーケンスが前記ウェイクアップワードに対応する前記音素シーケンスを含む信頼度を決定し、
    前記信頼度が信頼度閾値を超え、前記複数の事後確率ベクトルおよび複数のテンプレートベクトルが距離の条件を満たすときに、前記コマンドワードが前記ウェイクアップワードを含むことが検出されたと決定し、前記複数のテンプレートベクトルは、前記ウェイクアップワードの完全な情報を含む音声信号の音素が前記複数の指定された音素に属する確率を示す
    ように構成される、請求項18から21のいずれか一項に記載の装置。
  24. 前記複数の事後確率ベクトルが前記複数のテンプレートベクトルに1対1で対応するとき、前記距離の条件は、前記複数の事後確率ベクトルと前記対応するテンプレートベクトルとの間の距離の平均が距離閾値未満であることを含む、請求項23に記載の装置。
  25. 前記装置が、
    骨伝導登録信号を得るように構成された取得モジュールであって、前記骨伝導登録信号が前記ウェイクアップワードの前記完全な情報を含む、取得モジュールと、
    前記骨伝導登録信号および前記ウェイクアップワードに対応する前記音素シーケンスに基づいて前記信頼度閾値および前記複数のテンプレートベクトルを決定するように構成された決定モジュールと
    をさらに含む、請求項23または24に記載の装置。
  26. 前記決定モジュールは、
    前記骨伝導登録信号に基づいて融合登録信号を決定するように構成された第3の決定サブモジュール、および
    前記融合登録信号および前記ウェイクアップワードに対応する前記音素シーケンスに基づいて、前記信頼度閾値および前記複数のテンプレートベクトルを決定するように構成される、第4の決定サブモジュール
    を含む、請求項25に記載の装置。
  27. 前記第4の決定サブモジュールが、
    第1の音響モデルによって出力される複数の登録事後確率ベクトルを得るために、前記融合登録信号に含まれる複数の登録オーディオフレームを前記第1の音響モデルに入力し、前記複数の登録事後確率ベクトルは前記複数の登録オーディオフレームに1対1で対応し、前記複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、前記複数の登録オーディオフレームの第1の登録オーディオフレームの音素が前記複数の指定された音素に属する確率を示し、
    前記複数の登録事後確率ベクトルを前記複数のテンプレートベクトルとして決定し、
    前記複数の登録事後確率ベクトルと前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定する
    ように構成される、請求項26に記載の装置。
  28. 前記装置は、空気伝導登録信号を得るように構成される取得モジュールをさらに含み、
    前記決定モジュールは、
    前記骨伝導登録信号および前記空気伝導登録信号に基づいて複数の登録事後確率ベクトルを決定するように構成される第5の決定サブモジュールであって、前記複数の登録事後確率ベクトルは、前記骨伝導登録信号および前記空気伝導登録信号に含まれる複数の登録オーディオフレームに1対1で対応し、前記複数の登録事後確率ベクトルの第1の登録事後確率ベクトルは、前記複数の登録オーディオフレームの第1の登録オーディオフレームの音素が前記複数の指定された音素に属する確率を示す、第5の決定サブモジュールと、
    前記複数の登録事後確率ベクトルと前記ウェイクアップワードに対応する前記音素シーケンスとに基づいて前記信頼度閾値を決定するように構成される、第6の決定サブモジュールと
    を含む、請求項25に記載の装置。
  29. 電子デバイスであって、前記電子デバイスは、メモリおよびプロセッサを備え、
    前記メモリは、コンピュータプログラムを記憶するように構成されており、
    前記プロセッサは、請求項1から14のいずれか一項に記載の方法のステップを実装するべく、前記コンピュータプログラムを実行するように構成されている、電子デバイス。
  30. コンピュータ可読記憶媒体であって、前記記憶媒体はコンピュータプログラムを記憶し、前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1から14のいずれか一項に記載の方法のステップが実装される、コンピュータ可読記憶媒体。
  31. コンピュータ命令を含むコンピュータプログラム製品であって、前記コンピュータ命令がプロセッサによって実行されるとき、請求項1から14のいずれか一項に記載の方法のステップが実装される、コンピュータプログラム製品。
JP2024513453A 2021-08-30 2022-05-27 音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品 Pending JP2024534198A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111005443.6 2021-08-30
CN202111005443.6A CN115731927A (zh) 2021-08-30 2021-08-30 语音唤醒的方法、装置、设备、存储介质及程序产品
PCT/CN2022/095443 WO2023029615A1 (zh) 2021-08-30 2022-05-27 语音唤醒的方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
JP2024534198A true JP2024534198A (ja) 2024-09-18

Family

ID=85290866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024513453A Pending JP2024534198A (ja) 2021-08-30 2022-05-27 音声ウェイクアップ方法および装置、デバイス、記憶媒体、ならびにプログラム製品

Country Status (5)

Country Link
US (1) US20240203408A1 (ja)
EP (1) EP4379712A4 (ja)
JP (1) JP2024534198A (ja)
CN (1) CN115731927A (ja)
WO (1) WO2023029615A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862604B (zh) * 2022-11-24 2024-02-20 镁佳(北京)科技有限公司 语音唤醒模型训练及语音唤醒方法、装置及计算机设备
CN115985323B (zh) * 2023-03-21 2023-06-16 北京探境科技有限公司 语音唤醒方法、装置、电子设备及可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
CN110574103B (zh) * 2018-06-29 2020-10-23 华为技术有限公司 一种语音控制方法、可穿戴设备及终端
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
JP2020122819A (ja) * 2019-01-29 2020-08-13 オンキヨー株式会社 電子機器及びその制御方法
CN110010143B (zh) * 2019-04-19 2020-06-09 出门问问信息科技有限公司 一种语音信号增强系统、方法及存储介质
CN112581970B (zh) * 2019-09-12 2024-10-22 深圳市韶音科技有限公司 用于音频信号生成的系统和方法
CN113053371A (zh) * 2019-12-27 2021-06-29 阿里巴巴集团控股有限公司 语音控制系统和方法、语音套件、骨传导及语音处理装置
CN113259793B (zh) * 2020-02-07 2022-12-06 杭州智芯科微电子科技有限公司 智能麦克风及其信号处理方法

Also Published As

Publication number Publication date
WO2023029615A1 (zh) 2023-03-09
EP4379712A1 (en) 2024-06-05
US20240203408A1 (en) 2024-06-20
EP4379712A4 (en) 2024-10-09
CN115731927A (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
US11189272B2 (en) Dialect phoneme adaptive training system and method
US10847137B1 (en) Trigger word detection using neural network waveform processing
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
US8543399B2 (en) Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US20240203408A1 (en) Speech Wakeup Method and Apparatus, Device, Storage Medium, and Program Product
CN109036381A (zh) 语音处理方法及装置、计算机装置及可读存储介质
US11741943B2 (en) Method and system for acoustic model conditioning on non-phoneme information features
US11302329B1 (en) Acoustic event detection
KR20090123396A (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
JP2006227628A (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
EP4018437A1 (en) Optimizing a keyword spotting system
Ge et al. Deep neural network based wake-up-word speech recognition with two-stage detection
US11355112B1 (en) Speech-processing system
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
CN107039035A (zh) 一种语音起始点和终止点的检测方法
CN111833878A (zh) 基于树莓派边缘计算的中文语音交互无感控制系统和方法
Herbig et al. Self-learning speaker identification: a system for enhanced speech recognition
EP3574499A1 (en) Methods and apparatus for asr with embedded noise reduction
CN114187921A (zh) 语音质量评价方法和装置
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
Fu et al. A survey on Chinese speech recognition
US11735178B1 (en) Speech-processing system
CN112259077B (zh) 语音识别方法、装置、终端和存储介质
Narayanan et al. Coupling binary masking and robust ASR

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240409

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240409