[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107066494B - 语音查询的搜索结果预获取 - Google Patents

语音查询的搜索结果预获取 Download PDF

Info

Publication number
CN107066494B
CN107066494B CN201611247711.4A CN201611247711A CN107066494B CN 107066494 B CN107066494 B CN 107066494B CN 201611247711 A CN201611247711 A CN 201611247711A CN 107066494 B CN107066494 B CN 107066494B
Authority
CN
China
Prior art keywords
utterance
previously received
search query
received search
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611247711.4A
Other languages
English (en)
Other versions
CN107066494A (zh
Inventor
C.B.坦迪奥诺
M.布坎南
N.D.霍华德
I.拉宾诺维茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107066494A publication Critical patent/CN107066494A/zh
Application granted granted Critical
Publication of CN107066494B publication Critical patent/CN107066494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

方法、系统以及设备,包含编码在计算机储存介质上的计算机程序,用于接收编码话语的音频数据;获得话语的中间转录;在获得话语的最终转录之前:i)确定话语的中间转录与之前接收的搜索查询相关联,ii)获得识别为响应于之前接收的搜索查询的一个或多个结果,以及iii)储存结果中的一个或多个;获得话语的最终转录;确定话语的最终转录也与之前接收的搜索查询相关联;以及响应于确定话语的最终转录也与之前接收的搜索查询相关联,提供储存的一个或多个结果用于输出。

Description

语音查询的搜索结果预获取
技术领域
本说明书涉及语音识别。
背景技术
通常,搜索查询包含当用户请求搜索引擎执行搜索时用户提交的一个或多个查询条件。除其它途径之外,用户可以通过语音查询的语境来输入搜索查询的查询条件,即,通过说出查询条件到移动装置的麦克风。可以使用语音识别技术处理语音查询。
发明内容
根据本说明书中描述的主题的一些创新方面,在检测由用户提供的话语的同时,基于话语的中间转录识别初步搜索结果。一经检测完整话语,基于完整话语的最终转录,可以将初步搜索结果中的一个或多个提供到用户。
在一个示例实现方式中,用户可以提问关于历史地标的问题。用户可以提问“帝国大厦有多高?”的问题。在用户说出完整问题之前,用户的移动装置可以检测问题的初始部分并且将其提供到计算系统。计算系统可以计算问题的初始部分的中间转录——例如“有多高”——并且在计算完整问题的最终转录之前,识别可能与问题的初始部分相关联的其它过去的查询。例如,计算系统可以将之前的查询“帝国大厦有多高”和“华盛顿纪念碑有多高”识别为与当前查询的初始部分相关联。获得或重新获得搜索结果以用于在先查询,并且储存在缓存中。一经接收完整问题“帝国大厦有多高”,计算系统将之前的查询“帝国大厦有多高”识别为与当前查询相关联。然后对于当前查询“帝国大厦有多高”,计算系统可以在生成搜索结果之前不等待转录完整问题的情况下,将与之前的查询“帝国大厦有多高”相关联的储存的搜索结果提供到用户。这缩短了将搜索结果返回到用户所用的时间。
本说明书中描述的主题的创新方面可以实施为计算机实施的方法,其包含以下操作:接收编码话语的数据;获得话语的中间转录;在获得话语的最终转录之前:i)确定话语的中间转录与之前接收的搜索查询相关联,ii)获得识别为响应于之前接收的搜索查询的一个或多个结果,以及iii)储存结果中的一个或多个;获得话语的最终转录;确定话语的最终转录也与之前接收的搜索查询相关联;以及响应于确定话语的最终转录也与之前接收的搜索查询相关联,提供储存的一个或多个结果用于输出。话语的中间转录可以为话语的初始部分的转录。
这些方面的其它实施例包含对应的系统、设备以及计算机程序,其配置为进行编码在计算机储存装置上的方法的动作。例如,这些方面的另一实施例包含计算机可读介质,其可以为非瞬态计算机可读介质,储存包括由一个或多个计算机可执行的指令的软件,一经这样的执行,指令使一个或多个计算机进行包括以下操作:接收编码话语的音频数据;获得话语的中间转录;在获得话语的最终转录之前:确定话语的中间转录与之前接收的搜索查询相关联,获得识别为响应于之前接收的搜索查询的一个或多个结果,并且储存结果中的一个或多个;获得话语的最终转录;确定话语的最终转录也与之前接收的搜索查询相关联;以及响应于确定话语的最终转录也与之前接收的搜索查询相关联,提供储存的一个或多个结果用于输出。
这些和其它实施例可以各自可选地包含以下特征中的一个或多个。例如,确定话语的中间转录具有阈值大小,其中仅在确定中间转录具有阈值大小之后,确定话语的中间转录与之前接收的搜索查询相关联。由连续语音识别器生成话语的中间转录,并且其中从搜索引擎获得一个或多个结果。在确定话语的中间转录与之前接收的搜索查询相关联之后,提交之前接收的搜索查询用于由搜索引擎重新执行。确定与话语相关联的位置跟与之前接收的搜索查询相关联的位置相关联。
特征还包含,例如,确定话语的中间转录跟由与话语相关联的相同用户提交的之前接收的搜索查询相关联。确定话语的中间转录跟由与话语相关联的用户不同的用户提交的之前接收的搜索查询相关联。话语是除语音查询之外的语音命令。确定话语的中间转录与之前接收的搜索查询的一部分相同。确定话语的中间转录与之前接收的搜索查询的一部分在阈值相似度内。
本说明书中所描述的主体的一个或多个实施例的细节随附图和下面的说明提出。主题的其它潜在的特征、方面以及优点从说明书、附图以及权利要求将变得显而易见。应当认识到,方面和实现方式可以组合,并且一个方面或实现方式的语境中描述的特征可以在其它方面或实现方式的语境中实现。
附图说明
图1a图示了用于基于话语的中间转录获得搜索结果的系统。
图1b图示了用于对话语的最终转录提供搜索结果的系统。
图2图示了用于基于话语的中间转录获得搜索结果的示例过程的流程图。
图3图示了用于对话语的最终转录提供搜索结果的示例过程的流程图。
图4图示了可以用来实现本文描述的技术的计算机装置和移动计算机装置。
具体实施方式
图1a图示了系统100,其用于基于话语的中间转录获得搜索结果。简言之,系统100可以获得话语的中间转录,并且在获得话语的最终转录之前,确定中间转录与之前接收的搜索查询相关联,并且获得响应于之前接收的搜索查询的结果。系统100包含移动计算装置102、前端引擎104、连续语音识别器106、完成引擎108、查询日志110、搜索引擎112以及缓存114。在一些示例中,连续语音识别器106、完成引擎108以及搜索引擎112中的一个或多个可以包含于前端引擎104。移动计算装置102在一个或多个网络上与前端引擎104通信。移动计算装置102可以包含麦克风、照相机,或用于检测来自用户116的话语的其它检测构件。
在一些示例中,用户116希望了解他最喜欢的球队正在打的比赛的分数。因此,用户116可以提问关于这样的分数的问题——例如,口头自然语言查询。然而,在提供之前——即,完成问题或提供完整问题之前——移动计算装置102检测问题的初始部分的话语。在示意性示例中,在完成用户116的问题之前,移动计算装置102检测问题的初始部分——例如,“分数是什么”——作为在用户116提供完整问题之前的时间t0的话语。
在一些示例中,话语可以包含除语音查询之外的语音命令。例如,语音命令可以包含“热门词”——例如,“注意词”或“语音操作开始命令”——其为说出以唤起系统100的注意的预定条件。
前端引擎104例如,在一个或多个网络上接收编码来自移动计算装置102的话语的音频数据。当移动装置已经检测到话语的初始部分的情况下,一经已检测到初始部分,即使用户尚未提供完整问题,编码该初始部分的音频数据可以由移动装置发送到前端引擎。在一些示例中,音频数据可以还包含环境数据,包含移动计算装置102的位置数据。前端引擎104可以适当地处理音频数据,包含从音频数据提取话语,并且将话语提供到连续语音识别器106。
连续语音识别器106生成话语的中间转录,其可以为话语的初始部分的转录。生成话语的中间转录可以包含连续语音识别器106转录话语为文字或文字相关的数据。在一些示例中,连续语音识别器106可以提供话语的书写形式的语言的表示。例如,连续语音识别器106转录话语以生成“分数是什么”的转录。连续语音识别器106提供中间转录到前端引擎104。
在时间t1,前端引擎104从连续语音识别器106获得话语的中间转录。前端引擎104可以适当地处理中间转录,并且提供中间转录到完成引擎108。为该目的,在示意性示例中,完成引擎108接收中间转录“分数是什么”,并且在获得话语的最终转录之前——例如,通过前端引擎104和/或连续语音识别器106——适当地处理话语的中间转录,如下所述。
特别地,完成引擎108确定话语的中间转录与之前接收的搜索查询相关联。在示意性示例中,完成引擎108访问查询日志110,查询日志110包含之前接收的搜索查询,示出为查询Q1、Q2、…、QN。完成引擎108确定话语的中间转录“分数是什么”与之前接收的搜索查询Q1,“鲨鱼队比赛分的数是什么”相关联,并且也与之前接收的搜索查询Q2,“比目鱼队比赛的分数是什么”相关联。
在一些示例中,完成引擎108确定话语的中间转录与之前接收的搜索查询的一部分相同。特别地,完成引擎108确定话语的中间转录与之前接收的搜索查询的初始部分或前缀相同,例如,匹配或相同。在示意性示例中,完成引擎108确定话语的中间转录“分数是什么”与之前接收的搜索查询Q1“鲨鱼队比赛分的数是什么”初始部分相同,并且与之前接收的搜索查询Q2“比目鱼队比赛的分数是什么”的初始部分相同。
在一些示例中,完成引擎108确定话语的中间转录在之前接收的搜索查询的一部分的阈值相似度内或在预定编辑距离之内。特别地,完成引擎108确定话语的中间转录与之前接收的搜索查询的初始部分或前缀在阈值相似度内。例如,完成引擎108可以确定话语的中间转录“分数是什么”与之前接收的搜索查询“鲨鱼队比赛的分数是什么”的初始部分在阈值相似度内。完成引擎108确定话语的中间转录“分数是什么”与之前接收的搜索查询“分数是什么”的初始部分在阈值相似度内。在一些示例中,阈值相似度为基于话语的中间转录与之前接收的搜索查询的一部分,例如初始部分——之间的编辑距离。
在一些示例中,仅在确定话语的中间转录具有阈值大小或长度之后,完成引擎108确定话语的中间转录与之前接收的搜索查询相关联。完成引擎108将话语的中间转录与阈值大小相比,并且响应于话语的中间转录至少为阈值大小,确定话语的中间转录与之前接收的搜索查询相关联。例如,完成引擎108可以将话语的中间转录“分数是什么”与阈值大小相比较,并且作为响应,确定话语的中间转录“分数是什么”与之前接收的搜索查询Q1“鲨鱼队比赛分的数是什么”相关联,并且与之前接收的搜索查询Q2“比目鱼队比赛的分数是什么”相关联。在一些示例中,阈值大小是基于音素、音节或词的阈值数目。
在一些示例中,完成引擎108确定与话语相关联的位置跟与之前接收的搜索查询相关联的位置相关联。特别地,前端引擎104可以提供与话语相关联的位置——如由来自移动计算装置102的音频数据提供的——到完成引擎108。基于确定与话语相关联的位置跟与之前接收的搜索查询相关联的位置相关联,完成引擎108还可以确定话语的中间转录与之前接收的搜索查询相关联。在一些示例中,完成引擎108可以确定话语的中间转录与之前接收的搜索查询相关联,并且还确定与话语相关联的位置跟与之前接收的搜索查询相关联的位置相关联。例如,在示意性示例中,由用户116在时间t0提供的话语可以与用户116的家位置相关联。完成引擎108可以确定之前接收的搜索查询Q1和Q2中的一个或两者也与家位置相关联。
在一些示例中,完成引擎108确定话语的中间转录与由用户116提交的之前接收的搜索查询相关联。特别地,之前接收的搜索查询由相同用户提交,例如,与话语相关联的用户116。从而,基于确定话语与之前接收的搜索查询与诸如用户116的相同用户相关联,完成引擎108还可以确定话语的中间转录与之前接收的搜索查询相关联。例如,在示意性示例中,话语和之前接收的搜索查询Q1和Q2都与用户116相关联。
在一些示例中,完成引擎108确定话语的中间转录跟由与用户116不同的用户提交的之前接收的搜索查询相关联。特别地,之前接收的搜索查询由跟与话语相关联的用户116不同的用户提交。从而,基于确定话语和之前接收的搜索查询与不同的用户相关联,完成引擎108还可以确定话语的中间转录与之前接收的搜索查询相关联。
在时间t2,完成引擎108提供之前接收的搜索查询Q1和Q2到前端引擎104。前端引擎104获得识别为响应于之前接收的搜索查询Q1和Q2的结果。特别地,在时间t3,前端引擎104提供之前接收的搜索查询Q1和Q2到搜索引擎112用于由搜索引擎112重新执行。搜索引擎112对于查询Q1和Q2中的每一个进行电子文档的搜索,以识别分别响应于查询Q1和Q2的结果R1和R2。在时间t4,搜索引擎112提供结果R1和R2到前端引擎104。在时间t5,前端引擎104将结果R1和R2储存在缓存114中。特别地,在示意性示例中,前端引擎104将查询Q1、结果R1以及查询Q1与结果R1之间的关联性储存在缓存114中,并且还将查询Q2、结果R2以及查询Q2与结果R2之间的关联性储存在缓存114中。
例如,上述实现方式中,在移动装置102中检测话语的初始部分。然而,发明不限于此,并且话语的初始部分可以可替代地在其它位置检测,例如由前端引擎104或连续语音识别器106。
图1b图示了系统100,其用于对话语的最终转录提供搜索结果。简言之,系统100还可以获得话语的最终转录,确定话语的最终转录也与之前接收的搜索查询相关联,并且提供之前储存的结果用于输出。
在一些示例中,用户116完成问题,即,提供在时间t0初始地提供的完整问题。在示意性示例中,在时间t6,移动计算装置102检测问题的最终部分的话语,例如,“鲨鱼队比赛的”。在一些示例中,时间t6可以发生在时间t2与t5之间。系统100可以开始处理话语的初始部分“分数是什么”,即,获得话语的中间转录,确定中间转录与之前接收的搜索查询相关联,和/或在检测问题的最终部分的话语——例如,“鲨鱼队比赛的”——之前和/或同时获得响应于之前接收的搜索查询的结果。
前端引擎104例如在一个或多个网络上接收编码来自移动计算装置102的话语的音频数据。前端引擎104可以适当地处理音频数据,包含从音频数据提取话语,并且提供话语到连续语音识别器106。在一些示例中,前端引擎104提供完整话语“鲨鱼队比赛分的数是什么”到连续语音识别器106。在一些示例中,前端引擎104提供话语的剩余部分“鲨鱼队比赛的”到连续语音识别器106。
连续语音识别器106生成话语的最终转录。生成话语的最终转录可以包含连续语音识别器106转录话语为文字或文字相关的数据。在一些示例中,连续语音识别器106可以提供话语的书写形式语言的表示。例如,连续语音识别器106转录整个话语以生成“鲨鱼队比赛分的数是什么”的最终转录。连续语音识别器106提供最终转录到前端引擎104。
在时间t7,前端引擎104获得来自连续语音识别器106的最终转录。前端引擎104可以适当地处理最终转录,并且提供最终转录到完成引擎108。为该目的,在示意性示例中,完成引擎108接收最终转录“鲨鱼队比赛分的数是什么”并且适当地处理话语的最终转录,如下所述。
在一些实现方式中,在时间t8,完成引擎108确定话语的最终转录也与之前接收的搜索查询相关联。特别地,完成引擎108访问识别为与话语的中间转录相关联的之前接收的搜索查询Q1和Q2。在一些示例中,完成引擎108将话语的最终转录与之前接收的搜索查询Q1和Q2中的每一个作比较。完成引擎108确定最终转录“鲨鱼队比赛分的数是什么”与之前接收的搜索查询Q1“鲨鱼队比赛分的数是什么”相关联。此外,在一些示例中,完成引擎108确定最终转录“鲨鱼队比赛分的数是什么”与之前接收的搜索查询Q2“比目鱼队比赛的分数是什么”不相关联。
在一些示例中,完成引擎108确定话语的最终转录与之前接收的搜索查询相同。完成引擎108确定话语的最终转录相似或相同于——例如匹配或相同或相似于——之前接收的搜索查询。在示意性示例中,完成引擎108确定话语的最终转录“鲨鱼队比赛分的数是什么”相同于之前接收的搜索查询Q1“鲨鱼队比赛分的数是什么”。
在一些示例中,完成引擎108确定话语的最终转录与之前接收的搜索查询在阈值相似度内。完成引擎108确定话语的最终转录与之前接收的搜索查询在阈值相似度内。例如,完成引擎108可以确定话语的最终转录“鲨鱼队比赛分的数是什么”与之前接收的搜索查询“鲨鱼队比赛的分数是什么”在阈值相似度内。完成引擎108确定话语的最终转录“鲨鱼队比赛分的数是什么”与之前接收的搜索查询的“鲨鱼队比赛的分数是什么”在阈值相似度内。在一些示例中,阈值相似度基于话语的最终转录与之前接收的搜索查询之间的编辑距离。
完成引擎108提供之前接收的搜索查询Q1到前端引擎104,或提供之前接收的搜索查询Q1的指示到前端引擎104。前端引擎104访问缓存114以识别与之前接收的搜索查询Q1相关联的各自的结果。特别地,在时间t9,前端引擎104识别之前接收的搜索查询Q1与结果R1之间的关联性——如由缓存114储存的——并且接收结果R1。在一些示例中,响应于识别之前接收的搜索查询Q1与结果R1之间的关联性,前端引擎104从缓存114移除查询Q2、结果R2以及查询Q2与结果R2之间的关联性。
在时间t10,完成引擎108提供储存的结果R1用于输出到移动计算装置102。响应于完成引擎108确定话语的最终转录“鲨鱼队比赛分的数是什么”与之前接收的搜索查询Q1相关联,前端引擎104提供储存的结果R1用于输出到移动计算装置102。
图2图示了示例过程200的流程图,其用于基于话语的中间转录获得搜索结果。可以使用一个或多个计算装置执行示例过程200。例如,移动计算装置102、前端引擎104、连续语音识别器106、完成引擎108,和/或搜索引擎112可以用来执行示例过程200。
接收编码话语的音频数据(202)。特别地,前端引擎104从移动计算装置102接收音频数据。例如,音频数据包含话语的初始部分,例如,“订航班到”。
获得话语的中间转录(204)。特别地,连续语音识别器106生成话语的中间转录。例如,连续语音识别器106转录话语以生成转录“订航班到”。前端引擎104从连续语音识别器106获得话语的中间转录。
确定话语的中间转录与之前接收的搜索查询相关联(206)。特别地,在获得话语的最终转录之前,完成引擎108确定话语的中间转录与之前接收的搜索查询相关联。例如,完成引擎108确定话语的中间转录“订航班到”与之前接收的搜索查询QA“订航班到奥斯汀”相关联,并且也与之前接收的搜索查询QB“订航班到墨西哥”相关联。
获得响应于之前接收的搜索查询的结果(208)。特别地,在获得话语的最终转录之前,搜索引擎112执行之前接收的搜索查询以识别响应于之前接收的搜索查询的结果。例如,搜索引擎112对于查询QA和QB中的每一个进行电子文档的搜索,以识别分别响应于查询QA和QB的结果RA和RB。前端引擎104从搜索引擎获得结果RA和RB
储存结果(210)。特别地,在获得话语的最终转录之前,前端引擎储存结果在缓存中。例如,前端引擎104将查询QA、结果RA以及查询QA与结果RA之间的关联性储存在缓存114中,并且还将查询QB、结果RB以查询QB与结果RB之间的关联性储存在缓存114中。
图3图示了示例过程300的流程图,其用于对话语的最终转录的提供搜索结果。可以使用一个或多个计算装置执行示例过程300。例如,移动计算装置102、前端引擎104、连续语音识别器106、完成引擎108,和/或搜索引擎112可以用来执行示例过程300。
获得话语的最终转录(302)。特别地,连续语音识别器106生成话语的最终转录。例如,连续语音识别器106转录整个话语以生成最终转录“订航班到奥斯汀”。前端引擎104从连续语音识别器106获得话语的最终转录。
确定话语的最终转录也与之前接收的搜索查询相关联(304)。特别地,完成引擎108确定话语的最终转录也与之前接收的搜索查询相关联。例如,完成引擎108确定最终转录“订航班到奥斯汀”与之前接收的搜索查询QA“订航班到奥斯汀”相关联。
响应于确定话语的最终转录也与之前接收的搜索查询相关联,提供储存的结果用于输出。特别地,前端引擎104访问缓存114以识别与之前接收的搜索查询相关联的各自的结果。响应于完成引擎108确定话语的最终转录“订航班到奥斯汀”也与之前接收的搜索查询QA相关联,前端引擎104提供储存的结果RA用于输出到移动计算装置102。
图4示出了通用计算机装置400和通用移动计算机装置440的示例,其可以与本文描述的技术一起使用。计算装置400意图表示各种形式的数字计算机,比如膝上式、台式、工作站、个人数字助理、服务器、叶片服务器、大型机以及其它适当的计算机。计算装置440意图表示各种形式的移动装置,比如个人数字助理、蜂窝电话、智能电话以及其它相似的计算装置。本文所示的组件,它们的连接和关系以及它们的功能仅为示例性的,而不意图限制本文件中所描述和/或所要求保护的本发明的实现方式。
计算装置400包含处理器402、存储器404、储存装置406、连接到存储器404的高速接口408以及高速扩展端口410,以及连接到低速总线414和储存装置406的低速接口412。组件402、404、406、408、410以及412中的每一个使用各种总线互连,并且可以安装在共同的母板上,或以其它适当的方式安装。处理器402可以处理用于在计算装置400内执行的指令,包含储存在存储器404中或储存装置406的指令以将GUI的图形信息显示在外部输入/输出装置上,比如耦接到高速接口408的显示器416。在其它实现方式中,可以适当使用多个处理器和/或多个总线,连同多个存储器和存储器的类型。此外,可以连接多个计算装置400,每个装置提供必要操作的一部分(例如,作为服务器库、叶片服务器组或多处理器系统)。
存储器404在计算装置400内储存信息。在一种实现方式中,存储器404为一个或多个易失性存储器单元。在另一实现方式中,存储器404为一个或多个非易失性存储器单元。存储器404也可以为其它形式的计算机可读介质,比如磁盘或光盘。
储存装置406能够为计算装置400提供大量存储。在一种实现方式中,储存装置406可以为或含有计算机可读介质,比如软盘装置、硬盘装置、光盘装置或磁带装置,闪存或其它相似固态存储器装置,或者装置的阵列,包含储存区域网络中的装置或其它配置。计算机程序产品可以为实体地实施为信息载体。计算机程序产品还可以含有指令,当执行时,进行比如上面描述的那些的一个或多个方法。信息载体为计算机或机器可读介质,比如存储器404、储存装置406或处理器402上的存储器。
高速控制器408为计算装置400管理带宽密集的操作,而低速控制器412管理较低带宽密集的操作。这样的功能的分配仅为示例的。在一种实现方式中,高速控制器408耦接到存储器404、显示器416(例如,通过图形处理器或加速器),并且耦接到高速扩展端口410,其可以接受各种扩展卡(未示出)。在实现方式中,低速控制器412耦接到储存装置406和低速扩展端口414。低速扩展端口,其可以包含各种通信端口(例如,USB、蓝牙、以太网、无线以太网),通信端口可以连接到一个或多个输入/输出装置,比如键盘、指向装置、扫描仪或网络装置,比如交换机或路由器,例如,通过网络适配器。在一些示例中,储存装置406耦接到高速总线。
计算装置400可以实现为若干不同形式,如图所示。例如,其可以实现为标准服务器420,或在一组这样的服务器中实现多次。其也可以实现为机架服务器系统424的一部分。此外,其可以实现在诸如膝上式计算机422的个人计算机中。可替代地,来自计算装置400的组件可以与诸如装置440的移动装置(未示出)中的其它组件组合。这样的装置中的每一个可以含有计算装置400、440中的一个或多个,并且整个系统可以由彼此通信的多个计算装置400、440构成。
计算装置440包含处理器452、存储器464、比如显示器454的输入/输出装置、通信接口476以及收发器468,以及其它组件。也可以用储存装置提供装置440,储存装置为比如微驱动器或其它装置,以提供额外储存。组件440、452、464、454、476以及468中的每一个使用各种总线互连,并且组件中的若干个可以安装在共同的母板上或以其它适当方式安装。
处理器452可以在计算装置640内执行指令,包含储存在存储器464中的指令。处理器可以实现为芯片的芯片集,其包含分开且多个的模拟和数字处理器。处理器可以提供例如装置440的其它组件的协调,比如用户界面的控制,由装置440运行的程序以及由装置440的无线通信。
处理器452可以通过控制界面468和耦接到显示器454的显示界面446与用户通信。显示器454可以为例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器,或其它适当的显示技术。显示界面446可以包括适当电路用于驱动显示器454向用户呈现图形和其它信息。控制界面448可以接收来自用户的命令,并且将它们转换用于提交到处理器452。此外,可以提供与处理器452通信的外部接口462,从而允许装置440与其它装置的附近区域通信。在一些实现方式中,外部接口462可以提供例如连线的通信或在其它实现方式中用于无线通信,并且也可以使用多个接口。
存储器464储存信息在计算装置440内。存储器464可以实现为一个或多个计算机可读媒介或介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元。也可以提供扩展存储器444,并且通过扩展接口442将其连接到装置440,扩展接口442可以包含例如SIMM(单一直插存储器模块)卡接口。这样的扩展存储器444可以为装置440提供额外储存空间,或也可以为装置440储存应用或其它信息。特别地,扩展存储器444可以包含指令,以进行或补充上面描述的过程,并且还可以包含安全信息。从而,例如,可以提供扩展存储器444作为装置440的安全模块,并且可以用指令编程,指令允许装置440的安全使用。此外,可以经由SIMM卡,连同附加信息——比如在SIMM卡上以不可篡改的方式设置识别信息——提供安全应用。
存储器可以包含例如闪存和/或NVRAM存储器,如下所讨论。在一种实现方式中,计算机程序产品实体地实施在信息载体中。计算机程序产品含有指令,当执行时,进行比如上述那些的一个或多个方法。信息载体为计算机或机器可读介质,比如存储器464、扩展存储器444、处理器452上的存储器或传播的信号,其可以接收在例如收发器468或外部接口462上。
装置440可以通过通信接口476无线地通信,在需要的情况下,其可以包含数字信号处理电路。通信接口476可以在各种模式或协议下提供通信,该模式或协议比如GSM语音通话、SMS、EMS或MMS信息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS,以及其它。这样的通信可以例如通过无线电频率收发器468发生。此外,短程通信可以比如使用蓝牙、WiFi或其它这样的收发器(未示出)发生。此外,GPS(全球定位系统)接收器模块440可以提供附加的导航和位置相关的无线数据到装置440,其可由装置440上操作的应用适当使用。
装置440还可以使用音频编码解码器460音频通信,音频编码解码器460可以接收从用户说出的信息并且将其转换为可用的数字信息。音频编码解码器460可以相似地为用户生成音频声音,比如通过在例如装置440的头戴耳机中的扬声器。这样的声音可以包含来自语音电话通话的声音,可以包含记录的声音(例如,语音信息、音乐文件,等等)并且还可以包含由装置440上运行的应用生成的声音。
计算装置440可以实现为若干不同形式,如图所示。例如,其可实现为蜂窝电话480。其可实现为智能电话482、个人数字助理或其它相似移动装置的一部分。
本文描述的系统和技术的各种实现方式可以实现为数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合。这些各种实现方式可以包含一个或多个计算机程序中的实现方式,计算机程序为包含至少一个可编程处理器的可编程系统上可执行和/或可解读的,处理器为专用或通用,连接以从储存系统、至少一个输入装置以及至少一个输出装置接收数据和指令并向其传输数据和指令。
这些计算机程序(也被称为程序、软件、软件应用或代码)包含用于可编程处理器的机器指令,并且可以实现为高级程序和/或面向对象编程语言、和/或实现为汇编/机器语言。如本文中所用,术语“机器可读介质”“计算机可读介质”是指任意计算机程序产品、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),其用来提供机器指令和/或数据到可编程处理器,包含将机器指令接收为机器可读信号的机器可读介质。术语“机器可读信号”是指用来提供机器指令和/或数据到可编程处理器的任意信号。
为提供与用户的交互,本文描述的系统和技术可实施在具有用于显示信息到用户的显示装置(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及通过其用户可以提供输入到计算机的键盘和指向装置(例如,鼠标或轨迹球)的计算机上。其它种类的装置也可以用来提供与用户的交互;例如,提供到用户的反馈可以为任意形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且来自用户的输入能够以任意形式接收,包含声音、语音或触觉输入。
本文描述的系统和技术可以实施在计算系统中,计算机系统包含后端组件(例如,作为数据服务器),或包含中间件组件(例如,应用服务器),或包含前端组件(例如,具有图形用户界面或网络浏览器的客户端计算机、通过图形用户界面或网络浏览器、用户可以与本文描述的系统和技术的实现方式交互),或这样的后端组件、中间件,或前端组件的任意组合。系统的组件可以由任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包含局域网络(“LAN”)、广域网络(“WAN”)以及互联网。
计算系统可以包含客户端和服务器。客户端和服务器通常彼此远离,并且典型地通过通信网络交互。凭借操作在各自的计算机上且具有彼此的客户端-服务器关系的计算机程序产生客户端与服务器的关系。
尽管本公开包含一些具体细节,这些不应认为限制本公开或所要求保护的内容的范围,反之作为本公开的实现方式的特征的描述。本公开中在分开的实现方式的语境中描述的某些特征也可以提供在单个实现方式中的组合。相反地,在单个实现方式的语境中描述的各种特征也可以分开地或以任意适当子组合提供在多个实现方式中。此外,尽管特征在上面描述为在某些组合中起作用,并且甚至初始地要求保护如此,来自所要求保护的组合的一个或多个特征在某些情况下可以从组合中剔除,并且所要求的组合可能针对子组合或子组合的变形。
相似地,尽管操作在附图中以特定顺序图示,这不应理解成为了达到所需结果,要求这样的操作按所示的特定顺序或次序执行,或要求执行全部所示的操作。在某些环境下,多任务和平行处理可为有利的。此外,上面的实现方式中描述的各种系统组件的分离不应理解为在全部实现方式中要求这样的分离,并且应当理解所描述的程序组件和系统系统通常可以在单个软件产品中整合在一起,或封装到多个软件产品中。
从而,已经描述了本公开的特定实现方式。其它实现方式在下面的的范围内。例如,权利要求中列举的操作能够以不同顺序执行,仍实现所需的结果。已经描述了若干实现方式。然而,应当理解,可以在不背离本空开的精神和范围的情况下,进行各种修改。例如,上面所示的流程的各种形式可以使用为步骤的重新排序、增加和移除。相应地,其它实现方式在下面的权利要求的范围内。

Claims (17)

1.一种用于获得搜索结果的方法,包括:
接收编码话语的音频数据;
获得所述话语的中间转录;
在获得所述话语的最终转录之前:
i)确定所述话语的所述中间转录与之前接收的搜索查询相关联,
ii)获得响应于所述之前接收的搜索查询而识别的一个或多个结果,以及
iii)储存所述结果中的一个或多个;
获得所述话语的所述最终转录;
确定所述话语的所述最终转录也与所述之前接收的搜索查询相关联;以及
响应于确定所述话语的所述最终转录也与所述之前接收的搜索查询相关联,提供储存的一个或多个结果用于输出。
2.如权利要求1所述的方法,还包括通过将所述话语的所述中间转录与阈值长度进行比较来确定所述话语的所述中间转录具有至少阈值长度,其中,仅在确定所述中间转录具有至少所述阈值长度之后,才将所述话语的所述中间转录确定为与所述之前接收的搜索查询相关联。
3.如权利要求1所述的方法,其中所述话语的所述中间转录由连续语音识别器生成,并且其中所述一个或多个结果从搜索引擎获得。
4.如权利要求1所述的方法,还包括在确定所述话语的所述中间转录与所述之前接收的搜索查询相关联之后,提交所述之前接收的搜索查询用于由搜索引擎重新执行。
5.如权利要求1所述的方法,其中确定所述话语的所述中间转录与所述之前接收的搜索查询相关联包括:确定与所述话语相关联的位置跟与所述之前接收的搜索查询相关联的位置相关联。
6.如权利要求1所述的方法,其中确定所述话语的所述中间转录与所述之前接收的搜索查询相关联包括:确定所述话语的所述中间转录跟由与所述话语相关联的相同用户提交的之前接收的搜索查询相关联。
7.如权利要求1所述的方法,其中确定所述话语的所述中间转录与所述之前接收的搜索查询相关联包括:确定所述话语的所述中间转录跟由与所述话语相关联的用户不同的用户提交的之前接收的搜索查询相关联。
8.如权利要求1所述的方法,其中所述话语为除语音查询之外的语音命令。
9.如权利要求1所述的方法,其中确定所述话语的所述中间转录与之前接收的搜索查询相关联还包括:确定所述话语的所述中间转录与所述之前接收的搜索查询的一部分相同。
10.如权利要求1所述的方法,其中确定所述话语的所述中间转录与之前接收的搜索查询相关联还包括:确定所述话语的所述中间转录与所述之前接收的搜索查询的一部分在阈值相似度内。
11.一种用户获得搜索结果的系统,包括:
一个或多个计算机,以及储存指令的一个或多个储存装置,所述指令当被所述一个或多个计算机执行时,可操作以使所述一个或多个计算机进行操作,所述操作包括:
接收编码话语的音频数据;
获得所述话语的中间转录;
在获得所述话语的最终转录之前:
i)确定所述话语的所述中间转录与之前接收的搜索查询相关联,
ii)获得响应于所述之前接收的搜索查询而识别的一个或多个结果,以及
iii)储存所述结果中的一个或多个;
获得所述话语的所述最终转录;
确定所述话语的所述最终转录也与所述之前接收的搜索查询相关联;以及
响应于确定所述话语的所述最终转录也与所述之前接收的搜索查询相关联,提供储存的一个或多个结果用于输出。
12.如权利要求11所述的系统,所述操作还包括通过将所述话语的所述中间转录与阈值长度进行比较来确定所述话语的所述中间转录具有至少阈值长度,其中仅在确定所述中间转录具有至少所述阈值长度之后,才将所述话语的所述中间转录确定为与所述之前接收的搜索查询相关联。
13.如权利要求11或12所述的系统,其中所述话语的所述中间转录由连续语音识别器生成,并且其中所述一个或多个结果从搜索引擎获得。
14.如权利要求11所述的系统,所述操作还包括在确定所述话语的所述中间转录与所述之前接收的搜索查询相关联之后,提交所述之前接收的搜索查询用于由搜索引擎重新执行。
15.如权利要求11所述的系统,其中确定所述话语的所述中间转录与所述之前接收的搜索查询相关联包括:确定与所述话语相关联的位置跟与所述之前接收的搜索查询相关联的位置相关联。
16.如权利要求11所述的系统,其中确定所述话语的所述中间转录与所述之前接收的搜索查询相关联包括:确定所述话语的所述中间转录跟由与所述话语相关联的相同用户提交的之前接收的搜索查询相关联。
17.一种计算机可读介质,其储存软件,所述软件包括可由一个或多个计算机执行的指令,所述指令一经这样的执行,使所述一个或多个计算机进行包括如权利要求1-10中任一项所限定的方法的操作。
CN201611247711.4A 2016-01-06 2016-12-29 语音查询的搜索结果预获取 Active CN107066494B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/988,990 US10133821B2 (en) 2016-01-06 2016-01-06 Search result prefetching of voice queries
US14/988,990 2016-01-06

Publications (2)

Publication Number Publication Date
CN107066494A CN107066494A (zh) 2017-08-18
CN107066494B true CN107066494B (zh) 2021-01-12

Family

ID=57472107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611247711.4A Active CN107066494B (zh) 2016-01-06 2016-12-29 语音查询的搜索结果预获取

Country Status (8)

Country Link
US (1) US10133821B2 (zh)
EP (1) EP3350725B1 (zh)
JP (1) JP6487120B2 (zh)
KR (1) KR102021556B1 (zh)
CN (1) CN107066494B (zh)
DE (2) DE102016125141B4 (zh)
RU (1) RU2701082C1 (zh)
WO (1) WO2017119956A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
CN107644095A (zh) * 2017-09-28 2018-01-30 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置
CN109976696B (zh) * 2017-12-28 2022-05-10 深圳市优必选科技有限公司 获取音频数据的方法及装置、设备、计算机可读存储介质
KR102685523B1 (ko) * 2018-03-27 2024-07-17 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
US11710480B2 (en) * 2019-08-07 2023-07-25 International Business Machines Corporation Phonetic comparison for virtual assistants
KR20210042520A (ko) 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104969288A (zh) * 2013-01-04 2015-10-07 谷歌公司 基于话音记录日志提供话音识别系统的方法和系统

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4592086A (en) 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
US5615296A (en) 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US20060161541A1 (en) 2005-01-19 2006-07-20 Microsoft Corporation System and method for prefetching and caching query results
US7461059B2 (en) * 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
US7516124B2 (en) 2005-12-20 2009-04-07 Yahoo! Inc. Interactive search engine
US8719265B1 (en) 2005-11-07 2014-05-06 Google Inc. Pre-fetching information in anticipation of a user request
US7565157B1 (en) * 2005-11-18 2009-07-21 A9.Com, Inc. System and method for providing search results based on location
US8874591B2 (en) * 2006-01-31 2014-10-28 Microsoft Corporation Using user feedback to improve search results
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8260809B2 (en) * 2007-06-28 2012-09-04 Microsoft Corporation Voice-based search processing
US8190627B2 (en) 2007-06-28 2012-05-29 Microsoft Corporation Machine assisted query formulation
US20100049678A1 (en) 2008-08-25 2010-02-25 Alcatel-Lucent System and method of prefetching and caching web services requests
US8903793B2 (en) 2009-12-15 2014-12-02 At&T Intellectual Property I, L.P. System and method for speech-based incremental search
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8521526B1 (en) 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
US8612418B2 (en) 2011-07-14 2013-12-17 Google Inc. Mobile web browser for pre-loading web pages
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
EP2706470A1 (en) * 2012-09-10 2014-03-12 Google Inc. Answering questions using environmental context
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
WO2014039106A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
US9368106B2 (en) 2013-07-30 2016-06-14 Verint Systems Ltd. System and method of automated evaluation of transcription quality
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104969288A (zh) * 2013-01-04 2015-10-07 谷歌公司 基于话音记录日志提供话音识别系统的方法和系统

Also Published As

Publication number Publication date
JP2018533790A (ja) 2018-11-15
CN107066494A (zh) 2017-08-18
US20170193111A1 (en) 2017-07-06
EP3350725A1 (en) 2018-07-25
JP6487120B2 (ja) 2019-03-20
DE102016125141B4 (de) 2024-05-23
US10133821B2 (en) 2018-11-20
KR20180056723A (ko) 2018-05-29
DE202016008204U1 (de) 2017-05-10
KR102021556B1 (ko) 2019-11-04
WO2017119956A1 (en) 2017-07-13
DE102016125141A1 (de) 2017-07-06
RU2701082C1 (ru) 2019-09-24
EP3350725B1 (en) 2019-07-10

Similar Documents

Publication Publication Date Title
US11682396B2 (en) Providing pre-computed hotword models
US10535354B2 (en) Individualized hotword detection models
CN107066494B (zh) 语音查询的搜索结果预获取
JP6507316B2 (ja) 外部データソースを用いた音声の再認識

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant