[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106373564B - 个性化热词检测模型 - Google Patents

个性化热词检测模型 Download PDF

Info

Publication number
CN106373564B
CN106373564B CN201610586197.0A CN201610586197A CN106373564B CN 106373564 B CN106373564 B CN 106373564B CN 201610586197 A CN201610586197 A CN 201610586197A CN 106373564 B CN106373564 B CN 106373564B
Authority
CN
China
Prior art keywords
acoustic data
candidate
language
hot word
candidate acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610586197.0A
Other languages
English (en)
Other versions
CN106373564A (zh
Inventor
拉吉尔·阿尔瓦雷茨·格瓦拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN106373564A publication Critical patent/CN106373564A/zh
Application granted granted Critical
Publication of CN106373564B publication Critical patent/CN106373564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及个性化热词检测模型。本公开提供了方法、系统和设备,其包括在计算机存储介质上被编码的用于在系统中呈现通知的计算机程序。在一个方面中,方法包括如下动作:获得表示用户所讲的登记话语的登记声学数据,获得表示其他用户所讲的话语的候选声学数据集,为所述候选声学数据集中的每个候选声学数据确定相似性得分,该相似性得分表示在所述登记声学数据与所述候选声学数据之间的相似性,至少部分地基于所述相似性得分来从所述候选声学数据集中选择候选声学数据子集,基于所述候选声学数据子集来生成检测模型,以及提供所述检测模型以用于在检测所述用户所讲的话语中使用。

Description

个性化热词检测模型
技术领域
本公开大体上涉及使用语音命令来控制计算机。
背景技术
计算机可以对用户的话语进行分析并且响应地执行动作。例如,用户可以说“DRIVE HOME(开车回家)”并且计算机可以用用户从其当前位置开车回家的路线指引做出响应。
发明内容
一般来说,本说明书所描述的主题的方面可以包括用于生成个性化热词检测模型的过程。如本说明书所使用的,“热词”可以指将装置从睡眠状态或者休眠状态唤醒的词项和/或触发关于词项或者跟随该词项的一个或者多个词项(例如,关于跟随该热词的语音命令)的语义解释的词项。
例如,在话语“OK COMPUTER,DRIVE HOME(好的计算机,开车回家)”中,词项“OKCOMPUTER(好的计算机)”可以是触发关于以下词项“DRIVE HOME(开车回家)”的语义解释的热词,并且词项“DRIVE HOME”可以与用于提供至用户的家的路线指引的语音命令对应。当系统接收到与话语“OK COMPUTER,DRIVE HOME”对应的声音时,系统可以确定话语开始于热词“OK COMPUTER”,响应地,转录该声音,执行关于语音命令“DRIVE HOME”的转录的语义解释,并且输出用户开车回家的路线指引。
热词对于可以潜在地拾取未被指向系统的声音的“永远开启”系统可能有用。例如,热词的使用可以帮助系统在给定话语被指向至系统时作出分辨,这与被指向至环境中存在的另一个人的话语相反。这样做时,系统可以避免对于不包括热词的声音或话语的计算昂贵的处理,例如语义解释。
热词的使用可以提高基于语音的系统的可靠性。例如,在识别用户所发出的语音命令并且根据该语音命令执行动作的系统中,热词的使用可以确保系统更高比例地识别用户的预期语音命令。要了解,这使系统更可靠并且也提高了系统对于用户的易用性。另一效果在于,系统的用户为了通过该系统识别预期语音命令作为语音命令而必须重复预期语音命令的频率降低。这能够通过潜在地降低系统必须解释或者重复解释来自用户的声音或者话语的频率来节省系统中的计算资源(例如,存储器和处理资源)。
系统可以基于热词检测模型来检测包括热词的话语。然而,不同的用户可能用不同的方式来对相同的热词发音。因此,在一些用户讲出热词时,系统可能检测不到。系统可以基于生成个性化热词检测模型来增加热词的检测。然而,生成热词检测模型可能使用成千上万的话语,但是用户可能不期望提供成千上万的登记话语。因此,在接收到用户所讲的一个或者多个登记话语之后,系统可以识别其他用户所讲的该热词的其它话语,选择与该用户的登记话语相似的话语,并且使用选定的话语和登记话语来生成个性化热词检测模型。
在一些方面中,本说明书所描述的主题可以体现在方法中,所述方法可以包括如下动作:获得表示用户所讲的登记话语的登记声学数据,获得表示其他用户所讲的话语的候选声学数据集,为候选声学数据集中的每个候选声学数据确定相似性得分,该相似性得分表示在登记声学数据与候选声学数据之间的相似性,至少部分地基于相似性得分来从候选声学数据集中选择候选声学数据子集,基于候选声学数据子集来生成检测模型,以及提供检测模型以用于在检测用户所讲的话语中使用。
其它版本包括对应的系统、设备、以及在计算机存储装置上被编码的配置为执行方法的动作的计算机程序。
这些和其它版本可以各自可选地包括以下特征中的一个或者多个。例如,在一些实施方式中,获得表示用户所讲的登记话语的登记声学数据包括获得用户所讲的预定短语的多个话语的登记声学数据。
在某些方面中,获得表示其他用户所讲的话语的候选声学数据集包括确定登记话语具有预定短语,并且识别表示其他用户所讲的预定短语的话语的候选声学数据。
在一些方面中,为候选声学数据集中的每个候选声学数据确定相似性得分包括确定在登记声学数据与候选声学数据之间的距离,以及基于该距离来确定相似性得分。
在一些实施方式中,为候选声学数据集中的每个候选声学数据确定相似性得分包括基于讲出由该候选声学数据所表示的话语的其他用户的人口统计信息和讲出登记话语的用户的人口统计信息来确定相似性得分。
在某些方面中,至少部分地基于候选声学数据的相似性得分来从候选声学数据集中选择候选声学数据子集是基于选择预定数目的候选声学数据,该相似性得分表示在登记声学数据与候选声学数据之间的相似性。
在一些方面中,基于候选声学数据子集来生成检测模型包括使用候选声学数据子集来对神经网络进行训练。在一些实施方式中,附加动作包括使用检测模型来检测预定短语的话语。
在附图和以下描述中阐释了本说明书所描述的主题的一个或者多个实施方式的细节。本主题的其它潜在特征、方面和优点将通过描述、附图及权利要求书变得显而易见。
附图说明
图1和图2是用于生成个性化热词检测模型的示例系统的框图的图示。
图3是用于生成个性化热词检测模型的示例过程的流程图。
图4是示例性计算装置的示意图。
在各个附图中相同的附图标记指示相同的元件。
具体实施方式
图1是用于生成个性化热词检测模型的示例系统100的框图。简言之,并且如下面进一步详细描述的,系统100可以包括客户端装置120和服务器130,该服务器130包括候选声学数据计分器134、候选声学数据选择器136、和热词检测模型生成器140。
客户端装置120可以是智能电话、膝上型计算机、平板计算机、桌面型计算机、或者配置为在用户110说出热词时进行检测的一些其它计算装置。例如,客户端装置120可以被配置为在用户110说出“OK COMPUTER”时进行检测。
客户端装置120可以使用热词检测模型来在用户110讲出热词时进行检测。例如,客户端装置120可以使用热词检测模型来检测到用户正在讲“OK COMPUTER”,所述热词检测模型已经经过训练以检测到与讲出热词“OK COMPUTER”时相对应的声音。
然而,不同的用户可能用不同的方式来对相同的热词发音。例如,用户110可以将“OK COMPUTER”发音为“OK COM-UT-ER”,并且热词检测模型可能不能将“OK COM-UT-ER”检测为“OK COMPUTER”。因此,客户端装置120可以基于经过训练以在用户110说出热词时检测到的个性化热词检测模型152来增加用户110所讲的热词的检测。例如,可以对个性化热词检测模型152进行训练以检测“OK COM-UT-ER”作为用户110对热词“OK COMPUTER”的发音。
为了获得个性化热词检测模型152,客户端装置120可以提示用户提供登记话语。例如,为了获得用于检测热词“OK COMPUTER”的个性化热词检测模型,客户端装置120可以向用户110提供提示“现在对热词检测进行个性化,请说三次‘OK COMPUTER’”。客户端装置120可以包括捕捉声音作为声学数据的声学数据生成器。例如,客户端装置120可以包括麦克风,该麦克风捕捉用户110正在将“OK COMPUTER”说成“OK COM-UT-ER”作为信号,并且将该信号编码为由Mel频率倒频系数表示的登记声学数据122。
客户端装置120可以向服务器130提供登记声学数据122并且作为响应接收个性化热词检测模型152。例如,客户端装置120可以向服务器130提供表示用户110将“OKCOMPUTER”说成“OK COM-UT-ER”的登记声学数据122,并且作为响应接收至少部分地基于登记声学数据而被训练的个性化热词检测模型152。
客户端装置120然后可以使用个性化热词检测模型152来在用户讲出热词时检测到。例如,使用基于表示用户110将“OK COMPUTER”说成“OK COM-UT-ER”的登记声学数据122而被训练的个性化热词检测模型152,当用户说出“OK COM-UT-ER”时,客户端装置120可以检测到用户110正在说出热词“OK COMPUTER”。
服务器130可以被配置为基于登记声学数据来生成个性化热词检测模型。例如,服务器130可以接收表示用户110将“OK COMPUTER”说成“OK COM-UT-ER”的登记声学数据122,并且至少部分地基于该登记声学数据来对个性化热词检测模型152进行训练。
然而,生成热词检测模型可以使用成千上万的话语,并且用户可能不期望提供成千上万的登记话语。另外,服务器130对来自用户的成千上万的话语进行的接收和存储需要相对大量的存储器。因此,在接收到用户的一个或者多个登记话语之后,服务器130可以识别其他用户的热词的其它话语,选择与该用户的登记话语相似的话语,并且使用所选的话语和登记话语来生成个性化热词检测模型152。除其它益处外,以这种方式生成个性化热词检测模型具有减少在服务器130中所需的存储器的总量的潜力,尤其在系统为大量个人用户生成并且提供个性化检测模型的时候。如下面所阐释的,这至少部分地是因为来自其他用户的话语在创建新的个人语音检测模型中的有效、高效使用。
更详细地,服务器130的候选声学数据库132可以存储表示各个用户的话语的声学数据。例如,服务器130的候选声学数据库132可以存储表示不同用户的成千上万的话语的声学数据。候选声学数据库132可以存储具有指示被发出的热词的数据的每个声学数据。例如,候选声学数据库132可以存储标记为热词“OK COMPUTER”的话语的50000个声学数据集以及标记为不同热词“MY BUTLER”的话语的50000个声学数据集。在一些实施方式中,候选声学数据库132可以将声学数据与描述用户的人口数据关联。例如,候选声学数据库132可以将声学数据与用户讲出热词时该用户所在的位置关联。在另一示例中,候选声学数据库132可以将声学数据与用户的性别、用户的年龄范围、或者描述用户的一些其它信息关联。
服务器130的候选声学数据计分器134可以配置为:获得来自候选声学数据库132的登记声学数据122和候选声学数据;以及生成表示在登记声学数据122与候选声学数据之间的相似性的相似性得分。例如,候选声学数据计分器134可以接收用户正在说出“OKCOMPUTER”的登记声学数据122和表示另一用户正在说出“OK COMPUTER”的候选声学数据,确定90%的相似性,并且将0.9的得分与候选声学数据关联。在该示例中,候选声学数据计分器134然后可以获得表示又一用户正在说出“OK COMPUTER”的第二候选声学数据集,确定与登记声学数据122的30%的相似性,并且将0.3的得分与第二候选声学数据集关联。
表示特定话语的候选声学数据的相似性得分可以反映在特定话语与登记话语之间的声学相似性。例如,相似性得分的范围可以从0至1,其中,较高的相似性得分反映更高的声学相似性,并且较低的得分反映更低的声学相似性。在其它示例中,可以使用其它类型的得分和范围,例如,1-5、A-F、或者0%-100%。
候选声学数据计分器134可以基于在登记声学数据与候选声学数据之间的距离来生成得分。例如,候选声学数据计分器134可以在多个帧上来聚合在登记声学数据和候选声学数据的Mel频率倒谱系数之间的差异,并且确定相似性得分,其中,更大的聚合距离结果是反映较小相似性的得分,并且较小的聚合距离结果是反映更多相似性的得分。
在一些实施方式中,候选声学数据计分器134可以基于其他用户的人口统计信息来确定得分。例如,替代选择表示相同性别的用户的话语的候选声学数据,候选声学数据计分器134可以获得表示不同性别的用户的话语的候选声学数据,确定讲出由候选声学数据表示的话语的用户的性别是否与用户110的性别匹配,并且响应于确定匹配,将更高的相似性得分分配给表示与用户110性别相同的用户的话语的候选声学数据。
在一些实施方式中,候选声学数据计分器134可以从在候选声学数据库132中存储的多个候选声学数据中选择候选声学数据。例如,在热词“OK COMPUTER”被讲出的情况下,候选声学数据计分器134可以选择接收来自候选声学数据库132的声学数据。候选声学数据计分器134可以利用登记声学数据来获得所讲出的热词的指示或者说出该热词的用户的类型的指示中的一个或者多个,并且在候选声学数据库132中查询说出相同热词的用户或者与说出热词的用户类型相似的用户的声学数据。例如,候选声学数据计分器134可以获得女性用户讲出热词“OK COMPUTER”的指示,并且相应地,在候选声学数据库132中查询表示女性用户正在讲出热词“OK COMPUTER”的声学数据。
候选声学数据选择器136可以获得来自候选声学数据计分器134的计分候选声学数据和登记声学数据122,并且生成用于对个性化热词检测模型152进行训练的声学数据的训练集138。例如,候选声学数据选择器136可以获得表示用户110正在讲“OK COMPUTER”的登记声学数据并且获得表示不同其他用户正在说“OK COMPUTER”的50000个候选声学数据,其中,候选声学数据中的每个候选声学数据与反映在该候选声学数据与登记声学数据122之间的相似性的相似性得分相关联,并且生成包括50000个候选声学数据中的10000个候选声学数据以及登记声学数据122的声学数据训练集。
候选声学数据选择器136可以基于至少基于相似性得分来选择候选声学数据子集来生成训练集138。例如,候选声学数据选择器136可以获得50000个候选声学数据的集合并且选择具有相似性得分的该集合的10000个候选声学数据的子集,该相似性得分反映了在所述候选声学数据相比于其他候选声学数据与登记声学数据122之间更高的相似性。
候选声学数据选择器136可以基于选择预定数目(例如,1000、3000、10000、50000)个候选声学数据来选择候选声学数据子集。例如,候选声学数据选择器136可以获得表示单个话语“OK COMPUTER”的登记声学数据,并且选择具有相似性得分的3000个候选声学数据的子集,该相似性得分反映在候选声学数据与登记声学数据之间的更高的相似性。
另外或者替选地,候选声学数据选择器136可以基于选择满足阈值相似性得分的候选声学数据来选择候选声学数据子集。例如,候选声学数据选择器136可以选择高于阈值相似性得分的、得分范围从0.0到1.0的0.8、0.85、0.9的相似性得分的候选声学数据,并且包括在训练集138中的所选的候选声学数据。
在一些实施方式中,候选声学数据选择器136可以对在训练集138中的声学数据进行加权。例如,候选声学数据选择器136可以多次将登记声学数据包括在训练集138中或者将在训练集138中的登记声学数据与比候选声学数据更大的权重关联。
在一些实施方式中,候选声学数据选择器136可以基于多个登记声学数据来选择候选声学数据子集。例如,候选声学数据选择器136可以接收针对用户110的三个话语“OKCOMPUTER”的登记声学数据,并且为每个登记声学数据选择在训练集138中包括的具有反映最大相似性的相似性得分的3000个候选声学数据。因此,如果针对多个登记声学数据选择了候选声学数据,则一些候选声学数据可以多次出现在训练集138中。在一些实施方式中,候选声学数据选择器136可以将重复候选声学数据从训练集138移除或者防止在训练集138中包括重复候选声学数据。
在一些实施方式中,候选声学数据选择器136可以基于由候选声学数据选择器136接收到的登记声学数据的数目来确定要为登记声学数据选择的候选声学数据的数目。例如,候选声学数据选择器136可以接收5个登记声学数据,确定热词检测模型生成器应该接收至少10000个声学数据的训练集,并且作为响应,为接收到的每个登记声学数据选择在具有登记声学数据的训练集中包括的至少1999个候选声学数据。在另一示例中,候选声学数据选择器136可以接收10个登记声学数据,确定热词检测模型生成器应该接收至少10000个声学数据的训练集,并且作为响应,为接收到的每个登记声学数据选择在具有登记声学数据的训练集中包括的至少999个候选声学数据。
在另一示例中,候选声学数据选择器136可以基于为多个登记声学数据中的每一个登记声学数据确定子相似性得分来为候选声学数据确定相似性得分。例如,候选声学数据选择器136可以接收三个登记声学数据,并且为每个候选声学数据确定三个子相似性得分,每个子相似性得分与登记声学数据中的一个登记声学数据对应,并且基于对子相似性得分取平均值来确定相似性得分。在又一示例中,候选声学数据选择器可以将候选声学数据的子相似性得分的中值、最小值或者最大值当作相似性得分。
热词检测模型生成器140可以接收来自候选声学数据选择器136的训练集138并且生成个性化热词检测模型152。例如,热词检测模型生成器140可以接收包括9997个选定的候选声学数据和3个登记声学数据的训练集,并且基于训练集生成个性化热词检测模型152。
热词检测模型生成器140可以基于对神经网络进行训练以检测在训练集138中的表示热词的话语的声学数据来生成个性化热词检测模型152。例如,热词检测模型生成器140可以基于在训练集138中的声学数据来生成对热词“OK COMPUTER”进行检测的个性化热词检测模型152。
可以使用系统100的不同配置,其中,可以将客户端装置120和包括候选声学数据计分器134、候选声学数据选择器136和热词检测模型生成器140的服务器130结合在一起、进一步分离、分布或者互换。可以用单个装置来实现系统100或者将该系统100分布到多个装置。
图2是用于生成个性化热词检测模型的示例服务器130的框图。服务器130可以是在图1中描述的服务器。如上面所描述的,服务器130可以包括候选声学数据库132、候选声学数据计分器134、候选声学数据选择器136、和热词检测模型生成器140。
候选声学数据库132可以包括正在说热词“OK COMPUTER”的各个用户的多个候选声学数据。例如,候选声学数据库132可以包括将“OK COMPUTER”说成“OK COM-PU-TER”的“用户A”的候选声学数据、将“OK COMPUTER”说成“OOK COM-PU-TER”的“用户B”的候选声学数据、将“OK COMPUTER”说成“OK COP-TER”的“用户C”的候选声学数据、将“OK COMPUTER”说成“OK COM-U-TER”的“用户D”的候选声学数据、将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据、将“OK COMPUTER”说成“OK COM-PUT-EW”的“用户F”的候选声学数据、以及说出“OK COMPUTER”的其他用户的其它候选声学数据。
候选声学数据计分器134可以接收用户的登记声学数据202并且获得来自候选声学数据库132的候选声学数据集。例如,候选声学数据计分器134可以接收将“OK COMPUTER”说成“OK COM-UT-ER”的用户的登记声学数据202,并且作为响应获得来自候选声学数据库132的候选声学数据集,该候选声学数据库132包括将“OK COMPUTER”说成“OK COM-PU-TER”的“用户A”的候选声学数据、将“OK COMPUTER”说成“OOK COM-PU-TER”的“用户B”的候选声学数据、将“OK COMPUTER”说成“OK COP-TER”的“用户C”的候选声学数据、将“OK COMPUTER”说成“OK COM-U-TER”的“用户D”的候选声学数据、将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据、将“OK COMPUTER”说成“OK COM-PUT-EW”的“用户F”的候选声学数据、以及说出“OK COMPUTER”的其他用户的其它候选声学数据。
候选声学数据计分器134可以为候选声学数据集中的每一个候选声学数据生成相似性得分。例如,对于将“OK COMPUTER”说成“OK COM-UT-ER”的用户110的登记声学数据,候选声学数据计分器134可以生成得分:反映将“OK COMPUTER”说成“OK COM-PU-TER”的“用户A”的候选声学数据的中等相似性的相似性得分0.6、反映将“OK COMPUTER”说成“OOK COM-PU-TER”的“用户B”的候选声学数据的中等相似性的相似性得分0.5、反映将“OK COMPUTER”说成“OK COP-TER”的“用户C”的候选声学数据的低相似性的相似性得分0.3、反映将“OKCOMPUTER”说成“OK COM-U-TER”的“用户D”的候选声学数据的高相似性的相似性得分0.9、反映将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据的高相似性的相似性得分0.8、以及反映将“OK COMPUTER”说成“OK COM-PUT-EW”的“用户F”的候选声学数据的中等相似性的相似性得分0.5。
候选声学数据选择器136可以接收来自候选声学数据计分器134的计分候选声学数据204并且生成声学数据训练集138。例如,候选声学数据选择器136可以接收:反映将“OKCOMPUTER”说成“OK COM-PU-TER”的“用户A”的候选声学数据的中等相似性的相似性得分0.6、反映将“OK COMPUTER”说成“OOK COM-PU-TER”的“用户B”的候选声学数据的中等相似性的相似性得分0.5、反映将“OK COMPUTER”说成“OK COP-TER”的“用户C”的候选声学数据的低相似性的相似性得分0.3、反映将“OK COMPUTER”说成“OK COM-U-TER”的“用户D”的候选声学数据的高相似性的相似性得分0.9、反映将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据的高相似性的相似性得分0.8、反映将“OK COMPUTER”说成“OKCOM-PUT-EW”的“用户F”的候选声学数据的中等相似性的相似性得分0.5、对应的候选声学数据以及登记声学数据,并且可以作为响应生成声学数据训练集,该声学数据训练集包括将“OK COMPUTER”说成“OK COM-U-TER”的“用户D”的候选声学数据、将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据、和将“OK COMPUTER”说成“OK COM-UT-ER”的用户的登记声学数据。
候选声学数据选择器136可以基于相似性得分通过选择候选声学数据集中的子集来生成训练集。例如,候选声学数据选择器136以确定热词检测模型生成器应该接收三个声学数据的训练集、确定存在一个登记声学数据、确定选择两个候选声学数据来获得总共三个声学数据、并且选择具有相似性得分0.9和0.8的候选声学数据,该相似性得分0.9和0.8反映在所有候选声学数据中与登记声学数据的最大相似性。
热词检测模型生成器140可以接收训练集138并且生成个性化热词检测模型152。例如,热词检测模型生成器140可以接收训练集,该训练集包括将“OK COMPUTER”说成“OKCOM-U-TER”的“用户D”的候选声学数据、将“OK COMPUTER”说成“OK COM-MUT-ER”的“用户E”的候选声学数据、和将“OK COMPUTER”说成“OK COM-UT-ER”的用户的登记声学数据,并且对神经网络进行训练以检测到表示用户110所讲出的热词“OK COMPUTER”的这些声学数据。
图3是用于生成个性化热词检测模型的示例过程的流程图。下文描述了由参照图1描述的系统100的组件执行的过程300。然而,可以通过其它系统或者系统配置来执行过程300。
过程300可以包括获得表示用户所讲的登记话语的登记声学数据(310)。例如,在由客户端装置120提示以提供用于对客户端装置120进行训练以在用户说出热词“MYBUTLER”时检测到的采样登记话语之后,候选声学数据计分器134可以获得表示用户说出热词“MY BUTLER”的来自客户端120的登记声学数据。
过程300可以包括获得表示其他用户所讲的话语的候选声学数据集(320)。例如,候选声学数据计分器134可以确定登记声学数据是针对由在20岁至30之间的男性讲出的热词“MY BUTLER”,并且作为响应,从候选声学数据库132获得候选声学数据,该候选声学数据表示在20岁至30岁之间的其它男性用户说出热词“MY BUTLER”。
该过程可以包括为候选声学数据集中的每个候选声学数据确定相似性得分,该相似性得分表示在登记声学数据与候选声学数据之间的相似性(330)。例如,对于从候选声学数据库132获得的每个候选声学数据,候选声学数据计分器134可以确定表示用户正在说热词“MY BUTLER”的登记声学数据和表示另一用户正在说热词“MY BUTLER”的候选声学数据。
该过程可以包括至少部分地基于相似性得分来从候选声学数据集中选择候选声学数据子集(340)。例如,候选声学数据选择器136可以选择具有相似性得分的预定数目(例如,1000、5000、20000或者一些其它数目)个候选声学数据,该相似性得分反映与登记声学数据的最大相似性。在另一示例中,候选声学数据选择器136可以选择具有相似性得分的候选声学数据,该相似性得分满足阈值相似性得分,例如,0.7、0.8、0.9或者一些其它数量。
该过程可以包括基于候选声学数据的子集来生成检测模型(350)。例如,热词检测模型生成器140可以使用选定的正在说“MY BUTLER”的其他用户的候选声学数据,基于对神经网络进行训练以在用户讲出热词“MY BUTLER”时检测到,来生成个性化热词检测模型。
该过程可以包括提供检测模型用于检测用户所讲的话语(360)。例如,服务器130可以向客户端装置120提供由热词检测模型生成器140生成的个性化热词检测模型152。客户端装置120然后可以使用用于在用户说出热词“MY BUTLER”时检测到的个性化热词检测模型152。
图4示出了可以用于实现此处所描述的技术的计算装置400和移动计算装置450的示例。计算装置400旨在表示各种形式的数字计算机,诸如,膝上型、桌面型、工作站、个人数字助理、服务器、刀片服务器、主机和其它合适的计算机。移动计算装置450旨在表示各种形式的移动计算装置,诸如,个人数字助理、蜂窝电话、智能电话、和其它相似的计算装置。此处所示的组件、它们的连接和关系、以及它们的功能仅仅意味示例性的,而并不意味限制性的。
计算装置400包括处理器402、存储器404、存储装置406、连接至存储器404的和多个高速扩展端口410的高速接口408、以及连接至低速扩展端口414和存储装置406的低速接口412。处理器402、存储器404、存储装置406、高速接口408、高速扩展端口410、和低速接口412中的每一个使用各种总线而被互连,并且可以酌情被安装在公共主板上或者以其它方式互连。处理器402可以处理在计算装置400内执行的指令,包括在存储器404中或者在存储装置406上存储的为在外部输入/输出装置上的图形用户界面(GUI)(诸如,耦合至高速接口408的显示器416)显示图形信息。在其它实施方式中,可以酌情使用多个处理器和/或多个总线连同多个存储器和多种类型的存储器。同样,多个计算装置可以被连接,其中每个装置提供部分必要操作(例如,服务器银行、一组刀片服务器、或者多处理器系统)。
存储器404存储在计算装置400内的信息。在一些实施方式中,存储器404是一个或多个易失性存储器单元。在一些实施方式中,存储器404是一个或多个非易失性存储器单元。存储器404也可以是另一种形式的计算机可读介质,诸如,磁盘或者光盘。
存储装置406能够为计算装置400提供大容量存储。在一些实施方式中,存储装置406可以是或者包含计算机可读介质,诸如,软盘装置、硬盘装置、光盘装置、或者磁带装置、闪存或者其它相似的固态存储装置、或者装置阵列,包括在存储区域网络或者其它配置中的装置。可以将指令存储在信息载体中。指令在被一个或者多个处理装置(例如,处理器402)执行时执行一个或者多个方法,诸如,上述这些方法。指令也可以由诸如计算机可读介质或者机器可读介质(例如,存储器404、存储装置406、或者在处理器402上的存储器)的一个或者多个存储装置存储。
高速接口408为计算装置400管理带宽密集型操作,而低速接口412管理较低带宽密集型操作。这种功能分配仅仅是示例性的。在一些实施方式中,高速接口408耦合至存储器404和显示器416(例如,通过图形处理器或者加速器)并且耦合至可以接受各种扩展卡(未示出)的高速扩展端口410。在实施方式中,低速接口412耦合至存储装置406和低速扩展端口414。可能包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以耦合至一个或者多个输入/输出装置,诸如键盘、指示装置、扫描仪,或者诸如交换机或者路由器的联网装置,例如通过网络适配器。
可以以多种不同形式来实施计算装置400,如图所示。例如,可以将计算装置实施为标准服务器420,或者很多时候用一组这种服务器来实施该计算装置。另外,可以用诸如膝上型计算机422的个人计算机来实施计算装置。也可以将计算装置实施为机架式服务器系统424的部分。可替选地,可以将计算装置400的组件与在诸如移动计算装置450的移动计算装置(未示出)中的其它组件结合在一起。这种装置中的每一个可以包括计算装置400和移动计算装置450中的一个或者多个,并且整个系统可以由彼此通信的多个计算装置构成。
除了其它组件之外,移动计算装置450包括处理器452、存储器464、诸如显示器454的输入/输出装置、通信接口466、和收发器468。移动计算装置450也可以设置有提供附加存储的存储装置(诸如,微驱动器或者其它装置)。使用各种总线来使处理器452、存储器464、显示器454、通信接口466和收发器468中的每一个互连,并且酌情可以将组件中的几个安装在公共主板上或者以其它方式来互连。
处理器452可以执行在移动计算装置450内的指令,包括在存储器464中存储的指令。可以将处理器452实施为芯片的芯片集,其包括分立的多个模拟和数字处理器。例如,处理器452可以为移动计算装置450的其它组件提供协调,诸如,用户接口的控制、由移动计算装置450运行的应用、和由移动计算装置450进行的无线通信。
处理器452可以通过耦合至显示器454的控制接口458和显示接口456与用户通信。例如,显示器454可以是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机电致发光二极管)显示器,或者其它合适的显示技术。显示接口456可以包括用于驱动显示器454向用户呈现图形和其它信息的合适的电路系统。控制接口458可以接收来自用户的命令并且将它们转换用于提交给处理器452。另外,外部接口462可以提供与处理器452的通信,以使移动计算装置450能够与其它装置通信。例如,外部接口462在一些实施方式中提供有线通信,或者在其它实施方式中提供无线通信,并且也可以使用多个接口。
存储器464存储在移动计算装置450内的信息。可以将存储器464实施为计算机可读介质或者媒体、一个或多个易失性存储单元、或者一个或多个非易失性存储单元中的一个或者多个。也可以提供扩展存储器474并且该扩展存储器474通过扩展接口472连接至移动计算装置450,例如,该扩展接口472可以包括SIMM(单列直插存储器模块)卡接口。扩展存储器474可以为移动计算装置450提供额外存储空间,或者也存储用于移动计算装置450的应用或者其它信息。具体地,扩展存储器474可以包括执行或者补充上述过程的指令,并且也可以包括安全信息。由此,例如,可以提供扩展存储器474作为用于移动计算装置450的安全模块,并且可以利用允许安全使用移动计算装置450的指令来对该扩展存储器474进行编程。另外,可以经由SIMM卡连同附加信息(诸如,以无法被黑客破坏的方式将识别信息放置在SIMM卡上)来提供安全应用。
例如,存储器可以包括闪存和/或NVRAM存储器(非易失性随机存取存储器),如下面所讨论的。在一些实施方式中,将指令存储在信息载体中,其中,所述指令在被一个或者多个处理装置(例如,处理器452)执行时执行一个或者多个方法,诸如上述这些方法。指令也可以由诸如一个或多个计算机可读介质或者机器可读介质(例如,存储器464、扩展存储器474、或者在处理器452上的存储器)的一个或者多个存储装置存储。在一些实施方式中,可以在传播信号中接收指令,例如,通过收发器468或者外部接口462。
移动计算装置450可以通过通信接口466进行无线通信,该通信接口466必要时可以包括数字信号处理电路系统。通信接口466可以提供在各种模式或者协议下的通信,所述各种模式或者协议诸如,GSM语音呼叫(移动通信全球系统)、SMS(短消息服务)、EMS(增强消息服务)、或者MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA 2000、或者GPRS(通用分组无线业务)等。例如,这种通信可能通过使用射频的收发器468发生。另外,短距通信可以发生,诸如使用蓝牙、WiFi或者其它这种收发器(未示出)。另外,GPS(全球定位系统)接收器模块470可以向移动计算装置450提供附加导航和位置相关的无线数据,该移动计算装置450可以酌情由在移动计算装置450上运行的应用使用。
移动计算装置450也可以使用音频编解码器460来进行可听见的通信,该音频编解码器460可以接收来自用户的语言信息,并且将其转换为可用数字信息。音频编解码器460同样可以例如在移动计算装置450的听筒中诸如通过扬声器来为用户生成可听见的声音。这种声音可以包括来自语音电话的声音,可以包括记录的声音(例如语音信息、音乐文件等)并且也可以包括由在移动计算装置450上操作的应用生成的声音。
可以以多种不同形式来实施移动计算装置450,如图所示。例如,可以将移动计算装置实施为蜂窝电话480。也可以将该移动计算装置实施为智能电话482、个人数字助理、或者其它相似的移动计算装置的部分。
可以利用数字电子电路系统,或者利用有形地体现的计算机软件或者固件,利用包括本说明书中所公开的结构和其等同物的计算机硬件,或者它们中的一个或者多个的组合来实施本说明书中所描述的主题、功能操作和过程的实施例。可以将本说明书中所描述的主题的实施例实施为一个或者多个计算机程序,即,在有形非易失性程序载体上被编码的、由数据处理设备执行或者控制该数据处理设备的操作的计算机程序指令的一个或者多个模块。可替选地或者另外地,可以在人工生成的传播信号(例如,被生成以对用于传输至由数据处理设备执行的合适的接收器设备的信息进行编码的机器生成的电气、光学或者电磁信号)上对程序指令进行编码。计算机存储介质可以是机器可读存储装置、机器可读存储基板、随机或者串行存取存储器装置、或者它们中的一个或者多个的组合。
术语“数据处理设备”涵盖用于处理数据的各种设备、装置和机器,包括例如可编程处理器、计算机、或者多个处理器或者计算机。设备可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外,设备也可以包括:为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。
可以用任何形式的编程语言(包括编译语言或者解译语言、说明性语言或者过程语言)来编写计算机程序(也称为程序、软件、软件应用、模块、软件模块、脚本、或者代码),并且可以以任何形式(包括作为独立程序或者模块、组件、子例程、或者适合用于计算环境的其它单元)来部署该计算机程序。计算机程序可以与文件系统中的文件对应,但是不是必要的。可以将程序存储在保持其它程序或者数据(例如,存储在标记语言文档中的一个或者多个脚本)的文件的部分中、在专用于所讨论的程序的单个文件中、或者在多个协作文件(例如,存储一个或者多个模块、子程序、或者代码部分的文件)中。可以将计算机程序部署为在一个计算机上或者在多个计算机上执行,该多个计算机位于一个站点处或者分布在多个站点之中并且通过通信网络互连。
本说明书中所描述的过程和逻辑流程可以由一个或者多个可编程计算机执行,该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据进行操作和生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路))执行,并且也可以将设备实施为专用逻辑电路系统。
适合计算机程序的执行的计算机例如可以是基于通用微处理器或者专用微处理器或者两者、或者任何其它种类的中央处理单元。一般来说,中央处理单元接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的基本元件是用于进行或者执行指令的中央处理单元和用于存储指令和数据的一个或者多个存储器装置。一般来说,计算机也包括用于存储数据的一个或者多个大容量存储装置(例如,磁盘、磁光盘、或者光盘),或者可以操作地耦合至该大容量存储装置以接收来自其的数据或者将数据传输至该大容量存储装置或者进行两者。然而,计算机不必具有这类装置。此外,计算机可以被嵌入到另一装置中,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储装置(例如,通用串行总线(USB)闪存盘),仅列举几个选择。
适合存储计算机程序指令和数据的装置包括所有形式的非易失性存储器、媒体和存储器装置,包括例如半导体存储装置(例如,EPROM、EEPROM和闪存装置);磁盘(例如,内部硬盘或者可移动磁盘);磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者可以并入该专用逻辑电路中。
为了提供与用户的交互,可以在计算机上实施本说明书中所描述的主题的实施例,该计算机具有用于向用户显示信息的显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器;以及用户可以通过其将输入提供给计算机的键盘和指示装置,例如鼠标或者轨迹球。其它种类的装置也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈、或者触觉反馈;并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。另外,计算机可以通过将文档发送到由用户所使用的装置并且接收来自该装置的文档(例如,通过响应于从网络浏览器接收到的请求来将网页发送至在用户的客户端上的web浏览器)来与用户交互。
可以利用计算系统来实施本说明书中所描述的主题的实施例,该计算系统包括后端组件(例如如数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如,具有图形用户界面或者web浏览器的客户端计算机,用户可以通过该图形用户界面或者该web浏览器来与本发明中所描述的主题的实施方式交互);或者该后端组件、中间件组件或者前端组件中的一个或者多个的任何组合。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来使系统的组件互连。通信网络的示例包括局域网(“LAN”)和例如互联网的广域网(“WAN”)。
计算系统可以包括客户端和服务器。客户端和服务器大体上彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包括许多具体实施方式细节,但是该细节不应被当作对可能被要求的内容的限制,而是可能特定于具体实施例的特征的描述。也可以结合单个实施例来实施在分立的实施例的场境下在本说明书中被描述的某些特征。相反地,也可以用多个分立的实施例或者用任何合适的子组合来实施在单个实施例的场境下被描述的各种特征。此外,虽然上面可能将特征描述作为某些组合来起作用,并且最初甚至同样地要求如此,但是可以从组合中删除来自所要求的组合的一个或者多个特征,并且所要求的组合可以涉及子组合或者子组合的变化。
同样,虽然在附图中按照特定顺序示出了操作,但是这不应该理解为:需要按照所示的特定顺序或者按照相继顺序来进行这类操作,或者进行了所有所示操作以实现期望结果。在某些环境中,多任务处理和并行处理可以是有利的。此外,不应该将在上述实施例中的各种系统组件的分离理解为在所有实施例中需要这种分离,并且应该理解,所描述的程序组件和系统通常可以被一起集成在单一软件产品中或者被封装在多个软件产品中。
已经描述了主题的具体实施例。其他实施例在以下权利要求书的范围内。例如,在权利要求书中所引用的动作可以按照不同的顺序进行并且仍然可以实现期望结果。作为一个示例,在附图中所示的过程不一定需要所示的特定顺序或者相继顺序来完成期望结果。在某些实施方式中,多任务处理和并行处理可以是有利的。可以提供其它步骤,或者可以从所描述的过程中消除步骤。因此,其它实施方式在以下权利要求书的范围内。

Claims (16)

1.一种计算机实现的方法,包括:
获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据;
获得表示其他用户先前所讲的话语的候选声学数据集,其中所述话语属于所述用户在与所述移动设备相关联的所述登记过程中所讲的相同的特定预定义热词;
为所述候选声学数据集中的每个候选声学数据确定相似性得分,所述相似性得分表示在所述登记声学数据与所述候选声学数据之间的相似性;
为所述候选声学数据集中的每个候选声学数据确定与所述候选声学数据相关联的所述相似性得分是否满足阈值相似性得分;
从所述候选声学数据集中选择候选声学数据子集,其中与所述子集中的每个候选声学数据相关联的所述相似性得分满足所述阈值相似性得分;
使用所述登记声学数据和所选择的候选声学数据子集来生成基于神经网络的热词检测模型;以及
提供所述基于神经网络的热词检测模型以用于检测所述用户随后所讲的所述特定预定义热词的话语。
2.根据权利要求1所述的方法,其中,获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据包括:
获得所述用户所讲的所述特定预定义热词的多个话语的登记声学数据。
3.根据权利要求1所述的方法,其中,获得表示其他用户先前所讲的话语的候选声学数据集包括:
对于每个话语,确定该话语属于所述特定预定义热词;以及
识别表示其他用户所讲的所述特定预定义热词的话语的候选声学数据。
4.根据权利要求1所述的方法,其中,为所述候选声学数据集中的每个候选声学数据确定表示所述登记声学数据和所述候选声学数据之间的相似性的相似性得分包括:
确定在所述登记声学数据与所述候选声学数据之间的声学距离;以及
基于所述声学距离来确定所述相似性得分。
5.根据权利要求1所述的方法,其中,为所述候选声学数据集中的每个候选声学数据确定表示所述登记声学数据和所述候选声学数据之间的相似性的相似性得分包括:
基于讲出由该候选声学数据所表示的话语的特定用户的人口统计信息和讲出所述登记话语的所述用户的人口统计信息来确定所述相似性得分。
6.根据权利要求1所述的方法,其中,从所述候选声学数据集中选择候选声学数据子集包括选择预定数目的候选声学数据。
7.一种系统,包括:
一个或者多个计算机;以及
存储指令的一个或者多个存储装置,所述指令在由所述一个或者多个计算机执行时能够使得所述一个或者多个计算机执行操作,所述操作包括:
获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据;
获得表示其他用户先前所讲的话语的候选声学数据集,其中所述话语属于所述用户在与所述移动设备相关联的所述登记过程中所讲的相同的特定预定义热词;
为所述候选声学数据集中的每个候选声学数据确定相似性得分,所述相似性得分表示在所述登记声学数据与所述候选声学数据之间的相似性;
为所述候选声学数据集中的每个候选声学数据确定与所述候选声学数据相关联的所述相似性得分是否满足阈值相似性得分;
从所述候选声学数据集中选择候选声学数据子集,其中与所述子集中的每个候选声学数据相关联的所述相似性得分满足所述阈值相似性得分;
使用所述登记声学数据和所选择的候选声学数据子集来生成基于神经网络的热词检测模型;以及
提供所述基于神经网络的热词检测模型以用于检测所述用户随后所讲的所述特定预定义热词的话语。
8.根据权利要求7所述的系统,其中,获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据包括:
获得所述用户所讲的所述特定预定义热词的多个话语的登记声学数据。
9.根据权利要求7所述的系统,其中,获得表示其他用户先前所讲的话语的候选声学数据集包括:
对于每个话语,确定该话语属于所述特定预定义热词;以及
识别表示其他用户所讲的所述特定预定义热词的话语的候选声学数据。
10.根据权利要求7所述的系统,其中,为所述候选声学数据集中的每个候选声学数据确定表示所述登记声学数据和所述候选声学数据之间的相似性的相似性得分包括:
确定在所述登记声学数据与所述候选声学数据之间的声学距离;以及
基于所述声学距离来确定所述相似性得分。
11.根据权利要求7所述的系统,其中,为所述候选声学数据集中的每个候选声学数据确定表示所述登记声学数据和所述候选声学数据之间的相似性的相似性得分包括:
基于讲出由该候选声学数据所表示的话语的特定用户的人口统计信息和讲出所述登记话语的所述用户的人口统计信息来确定所述相似性得分。
12.根据权利要求7所述的系统,其中,从所述候选声学数据集中选择候选声学数据子集包括选择预定数目的候选声学数据。
13.一种存储能够由一个或者多个计算机执行的指令的非暂时性计算机可读介质,所述指令在这样执行时使得所述一个或者多个计算机执行操作,所述操作包括:
获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据;
获得表示其他用户先前所讲的话语的候选声学数据集,其中所述话语属于所述用户在与所述移动设备相关联的所述登记过程中所讲的相同的特定预定义热词;
为所述候选声学数据集中的每个候选声学数据确定相似性得分,所述相似性得分表示在所述登记声学数据与所述候选声学数据之间的相似性;
为所述候选声学数据集中的每个候选声学数据确定与所述候选声学数据相关联的所述相似性得分是否满足阈值相似性得分;
从所述候选声学数据集中选择候选声学数据子集,其中与所述子集中的每个候选声学数据相关联的所述相似性得分满足所述阈值相似性得分;
使用所述登记声学数据和所选择的候选声学数据子集来生成基于神经网络的热词检测模型;以及
提供所述基于神经网络的热词检测模型以用于检测所述用户随后所讲的所述特定预定义热词的话语。
14.根据权利要求13所述的介质,其中,获得表示用户在与移动设备相关联的登记过程中所讲的特定预定义热词的话语的登记声学数据包括:
获得所述用户所讲的所述特定预定义热词的多个话语的登记声学数据。
15.根据权利要求13所述的介质,其中,获得表示其他用户先前所讲的话语的候选声学数据集包括:
对于每个话语,确定该话语属于所述特定预定义热词;以及
识别表示其他用户所讲的所述特定预定义热词的话语的候选声学数据。
16.根据权利要求13所述的介质,其中,为所述候选声学数据集中的每个候选声学数据确定表示所述登记声学数据和所述候选声学数据之间的相似性的相似性得分包括:
确定在所述登记声学数据与所述候选声学数据之间的声学距离;以及
基于所述声学距离来确定所述相似性得分。
CN201610586197.0A 2015-07-22 2016-07-22 个性化热词检测模型 Active CN106373564B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/805,753 2015-07-22
US14/805,753 US10438593B2 (en) 2015-07-22 2015-07-22 Individualized hotword detection models

Publications (2)

Publication Number Publication Date
CN106373564A CN106373564A (zh) 2017-02-01
CN106373564B true CN106373564B (zh) 2019-11-22

Family

ID=56204080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610586197.0A Active CN106373564B (zh) 2015-07-22 2016-07-22 个性化热词检测模型

Country Status (5)

Country Link
US (3) US10438593B2 (zh)
EP (2) EP3125234B1 (zh)
JP (2) JP6316884B2 (zh)
KR (2) KR101859708B1 (zh)
CN (1) CN106373564B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10437837B2 (en) * 2015-10-09 2019-10-08 Fujitsu Limited Generating descriptive topic labels
WO2017151443A1 (en) * 2016-02-29 2017-09-08 Myteamcalls Llc Systems and methods for customized live-streaming commentary
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
KR102321396B1 (ko) 2017-04-20 2021-11-03 구글 엘엘씨 장치에 대한 다중 사용자 인증
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
JP2019066702A (ja) 2017-10-02 2019-04-25 東芝映像ソリューション株式会社 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法
JP2019086903A (ja) 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
WO2019128550A1 (en) * 2017-12-31 2019-07-04 Midea Group Co., Ltd. Method and system for controlling home assistant devices
US10244286B1 (en) * 2018-01-30 2019-03-26 Fmr Llc Recommending digital content objects in a network environment
JP2019210197A (ja) 2018-06-07 2019-12-12 株式会社Ihi セラミック基複合材料
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP6926241B2 (ja) * 2018-06-25 2021-08-25 グーグル エルエルシーGoogle LLC ホットワード認識音声合成
KR102622357B1 (ko) * 2018-07-13 2024-01-08 구글 엘엘씨 종단 간 스트리밍 키워드 탐지
KR102563817B1 (ko) 2018-07-13 2023-08-07 삼성전자주식회사 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR20200023088A (ko) * 2018-08-24 2020-03-04 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
EP3667512A1 (en) * 2018-12-11 2020-06-17 Siemens Aktiengesellschaft A cloud platform and method for efficient processing of pooled data
US10964324B2 (en) 2019-04-26 2021-03-30 Rovi Guides, Inc. Systems and methods for enabling topic-based verbal interaction with a virtual assistant
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
EP3888084A4 (en) * 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE
GB2588689B (en) * 2019-11-04 2024-04-24 Nokia Technologies Oy Personalized models
CN113261056B (zh) 2019-12-04 2024-08-02 谷歌有限责任公司 使用说话者相关语音模型的说话者感知
US11341954B2 (en) * 2019-12-17 2022-05-24 Google Llc Training keyword spotters
CN111105788B (zh) * 2019-12-20 2023-03-24 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
JP7274441B2 (ja) * 2020-04-02 2023-05-16 日本電信電話株式会社 学習装置、学習方法および学習プログラム
US11315575B1 (en) * 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11798530B2 (en) * 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6073096A (en) 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP2000089780A (ja) 1998-09-08 2000-03-31 Seiko Epson Corp 音声認識方法および音声認識装置
US6978238B2 (en) 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US20040236573A1 (en) * 2001-06-19 2004-11-25 Sapeluk Andrew Thomas Speaker recognition systems
CN1409527A (zh) 2001-09-13 2003-04-09 松下电器产业株式会社 终端器、服务器及语音辨识方法
JP2005107550A (ja) 2001-09-13 2005-04-21 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
US7203652B1 (en) * 2002-02-21 2007-04-10 Nuance Communications Method and system for improving robustness in a speech system
DE60327020D1 (de) 2002-05-27 2009-05-20 Pioneer Corp Vorrichtung, Verfahren und computerlesbares Aufzeichnungsmedium zur Erkennung von Schlüsselwörtern in spontaner Sprache
US7212613B2 (en) 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
US7552055B2 (en) * 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US20070055517A1 (en) 2005-08-30 2007-03-08 Brian Spector Multi-factor biometric authentication
JP2007111169A (ja) * 2005-10-19 2007-05-10 Nelson Precision Casting Co Ltd ゴルフクラブヘッドのワックスパターンの製造方法
US20090106025A1 (en) 2006-03-24 2009-04-23 Pioneer Corporation Speaker model registering apparatus and method, and computer program
CA2680210A1 (en) * 2007-03-05 2008-09-12 Paxfire, Inc. Internet lookup engine
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US9092781B2 (en) 2007-06-27 2015-07-28 Verizon Patent And Licensing Inc. Methods and systems for secure voice-authenticated electronic payment
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
CN101593519B (zh) 2008-05-29 2012-09-19 夏普株式会社 检测语音关键词的方法和设备及检索方法和系统
WO2010008722A1 (en) * 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
CN101447185B (zh) 2008-12-08 2012-08-08 深圳市北科瑞声科技有限公司 一种基于内容的音频快速分类方法
JP5610304B2 (ja) 2011-06-24 2014-10-22 日本電信電話株式会社 モデルパラメータ配列装置とその方法とプログラム
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US8818810B2 (en) 2011-12-29 2014-08-26 Robert Bosch Gmbh Speaker verification in a health monitoring system
AU2013203139B2 (en) * 2012-01-24 2016-06-23 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9323912B2 (en) 2012-02-28 2016-04-26 Verizon Patent And Licensing Inc. Method and system for multi-factor biometric authentication
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
KR102380145B1 (ko) 2013-02-07 2022-03-29 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US9620123B2 (en) * 2013-05-02 2017-04-11 Nice Ltd. Seamless authentication and enrollment
JP2014232258A (ja) * 2013-05-30 2014-12-11 株式会社東芝 連携業務支援装置、方法およびプログラム
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US10019985B2 (en) * 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
CN103559881B (zh) 2013-11-08 2016-08-31 科大讯飞股份有限公司 语种无关的关键词识别方法及系统
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9548979B1 (en) * 2014-09-19 2017-01-17 United Services Automobile Association (Usaa) Systems and methods for authentication program enrollment
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system

Also Published As

Publication number Publication date
EP3121809A1 (en) 2017-01-25
KR101859708B1 (ko) 2018-05-18
US20170025125A1 (en) 2017-01-26
CN106373564A (zh) 2017-02-01
JP6630765B2 (ja) 2020-01-15
EP3125234B1 (en) 2019-05-15
KR20180010923A (ko) 2018-01-31
EP3125234A1 (en) 2017-02-01
US20170186433A1 (en) 2017-06-29
EP3121809B1 (en) 2018-06-06
US20170194006A1 (en) 2017-07-06
JP2017027049A (ja) 2017-02-02
US10438593B2 (en) 2019-10-08
US10535354B2 (en) 2020-01-14
KR102205371B1 (ko) 2021-01-20
KR20170012112A (ko) 2017-02-02
JP6316884B2 (ja) 2018-04-25
JP2018109789A (ja) 2018-07-12

Similar Documents

Publication Publication Date Title
CN106373564B (zh) 个性化热词检测模型
US12094472B2 (en) Server side hotwording
JP6701206B2 (ja) ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US10666583B2 (en) System and method for visually understanding and programming conversational agents of electronic devices
CN107924483B (zh) 通用假设排序模型的生成与应用
JP6474827B2 (ja) 発話者の検証のための動的な閾値
US10691897B1 (en) Artificial intelligence based virtual agent trainer
CN103558964B (zh) 电子设备中的多层次话音反馈
US11861315B2 (en) Continuous learning for natural-language understanding models for assistant systems
CN103959282B (zh) 用于文本识别系统的选择性反馈
US20230072352A1 (en) Speech Recognition Method and Apparatus, Terminal, and Storage Medium
US20190027147A1 (en) Automatic integration of image capture and recognition in a voice-based query to understand intent
CN108257608B (zh) 自动语音发音归属
US8965763B1 (en) Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
CN104584119A (zh) 确定热词适合度
US8938405B2 (en) Classifying activity using probabilistic models
JP2022121386A (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
US11976931B2 (en) Method and apparatus for guiding voice-packet recording function, device and computer storage medium
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
US11960841B2 (en) Incomplete problem description determination for virtual assistant user input handling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant