[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108604179A - 设备上语音助理的实现 - Google Patents

设备上语音助理的实现 Download PDF

Info

Publication number
CN108604179A
CN108604179A CN201780009238.2A CN201780009238A CN108604179A CN 108604179 A CN108604179 A CN 108604179A CN 201780009238 A CN201780009238 A CN 201780009238A CN 108604179 A CN108604179 A CN 108604179A
Authority
CN
China
Prior art keywords
equipment
voice assistant
voice
library
electronic equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780009238.2A
Other languages
English (en)
Inventor
肯尼斯·米克斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN108604179A publication Critical patent/CN108604179A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4112Peripherals receiving signals from specially adapted client devices having fewer capabilities than the client, e.g. thin client having less processing power or no tuning capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4751End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)
  • Stored Programmes (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在具有音频输入系统的电子设备处的方法,包括:接收设备处的口头输入;处理口头输入;向远程系统传送请求,所述请求包括基于口头输入确定的信息;接收对请求的响应,其中所述响应是由远程系统根据基于口头输入的信息生成的;以及根据响应执行操作,其中所述接收、处理、传送、接收和执行中的一个或多个由在电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在电子设备上执行或可执行的一个或多个应用程序和/或操作软件可访问的多个语音处理操作。

Description

设备上语音助理的实现
技术领域
本申请大体涉及计算机技术,包括但不限于用于设备的语音助理和相关库。
背景技术
通过音频/语音输入和输出与用户交互的基于语音的助理随着互联网和云计算的发展而日益普及。这些助理可以为数字媒体消费提供界面,并提供各种类型的信息,包括新闻、体育比分、天气和股票等等。
用户可以具有期望基于语音的助理功能的多个设备。期望有基于语音的助理,其可以跨各种设备实施和使用、可以跨各种设备提供一致的体验、并且可以支持特定于特定设备的功能。
发明内容
本说明书中描述的实施方式旨在以实现控制用于各种操作系统平台的本地设备的方式在嵌入式系统和/或设备中嵌入或包括语音助理。
根据一些实施方式,精简的、低资源使用设备侧库具有包括本地处理音频数据、侦听唤醒词(wakewords)或热词(hotwords)以及发送用户请求的特征。其他功能还包括与云大脑、可扩展的语音动作控制系统、可允许集成到多种不同的操作环境中的移植性层的连接,以及与其余的客户端软件异步更新的能力。
所描述的实施方式具有提供用于在许多不同设备上与语音助理进行交互的类似用户体验的优点。
所描述的实施方式具有另一优点,实现在来自从设备本身使能的创新中的语音助理能力中的解耦创新。例如,如果创建了改进的识别管道,它可以推送到设备,而设备制造商不需要做任何事情来接收它,并且仍然可以从先前的语音命令中受益。
根据一些实施方式,在具有音频输入系统、一个或多个处理器以及存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备处的方法包括:接收设备处的口头输入;处理口头输入;向远程系统传送请求,所述请求包括基于口头输入确定的信息;接收对请求的响应,其中所述响应是由远程系统根据基于口头输入的信息生成的;以及根据所述响应执行操作,其中所述接收、处理、传送、接收和执行中的一个或多个由在电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在电子设备上执行或可执行的一个或多个应用程序和/或操作软件可访问的多个语音处理操作。
在一些实施方式中,用于包括音频输入系统的电子设备的设备不可知语音助理库包括:一个或多个语音处理模块,其被配置为在多个不同电子设备类型上实现的公共操作系统上执行,所述语音处理模块提供在电子设备上执行的应用程序和操作软件可访问的多个语音处理操作,由此实现被配置为与一个或多个语音处理操作交互的语音使能应用的可移植性。
在一些实施方式中,电子设备包括音频输入系统,一个或多个处理器以及存储要由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于执行以下步骤的指令:接收设备处的口头输入;处理口头输入;向远程系统传送请求,所述请求包括基于口头输入确定的信息;接收对请求的响应,其中所述响应是由远程系统根据基于口头输入的信息生成的;以及根据响应执行操作,其中所述接收、处理、传送、接收和执行中的一个或多个由在电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在电子设备上执行或可执行的一个或多个应用程序和/或操作软件可访问的多个语音处理操作。
在一些实施方式中,非暂时性计算机可读存储介质存储一个或多个程序。一个或多个程序包括当由具有音频输入系统和一个或多个处理器的电子设备执行时使所述电子设备执行以下操作的指令接收设备处的口头输入;处理口头输入;向远程系统传送请求,所述请求包括基于口头输入确定的信息;接收对请求的响应,其中所述响应是由远程系统根据基于口头输入的信息生成的;以及根据响应执行操作,其中所述接收、处理、传送、接收和执行中的一个或多个由在电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在电子设备上执行或可执行的一个或多个应用程序和/或操作软件可访问的多个语音处理操作。
附图说明
图1是示出根据一些实施方式的示例网络环境的框图。
图2是示出根据一些实施方式的示例语音助理客户端设备的图。
图3是示出根据一些实施方式的示例服务器系统的图。
图4是示出根据一些实施方式的语音助理库的功能视图的框图。
图5是根据一些实施方式的用于处理设备上的口头输入的方法的流程图。
在整个附图中,相同的附图标记指代对应的部件。
具体实施方式
现在将详细参照各种实施方式,其示例在附图中示出。在以下具体实施方式中,阐述了许多具体细节以提供对本发明和所描述的实施方式的透彻理解。然而,可以在没有这些具体细节的情况下实践本发明。在其他实例中,未详细描述众所周知的方法、过程、组件和电路,以免不必要地模糊实施方式的方面。
在一些实施方式中,语音助理的目的是向用户提供在各种设备上都可用的个性化语音界面,并且启用各种各样的用例,在整个用户日提供一致的体验。语音助理和/或相关功能可以被集成到第一方和第三方产品和设备中。
示例用例涉及媒体。语音命令可用于通过语音启动对音乐、收音机、播客、新闻和其他音频媒体的回放和控制。例如,用户可以发出语音命令(例如“播放爵士乐(play jazzmusic)”、“播放107.5FM(play 107.5FM)”、“跳到下一首歌曲(skip to next song)”、“播放‘系列音乐’(play‘Serial’)”)来播放或控制各种类型的音频媒体。此外,这样的命令可以用于播放来自各种来源的音频媒体,诸如地面无线电台的在线流媒体、音乐订阅服务、本地存储、远程存储等。此外,语音助理可以利用投射设备(casting device)可用的集成来支持附加内容。
另一个示例用例涉及远程回放。用户可以向包括语音助理功能的投射设备发出语音命令,并且根据语音命令,媒体被重放(例如,被投射到)在命令中指定的设备上、在一个或多个设备的指定组中的设备上、或者在命令中指定的区域中的一个或多个设备上。用户还可以在命令中指定通用类别或特定内容,并且根据命令中指定的类别或内容来播放适当的媒体。
另一示例用例是非媒体,诸如生产率特征(例如定时器、警报闹钟、日历)、家庭自动化、由搜索引擎供电的问题和答案(例如,搜索查询)、有趣的(例如,助理人物、笑话、游戏、复活节彩蛋)和日常任务(如交通、导航、食品、金融、礼品等)。
在一些实施方式中,语音助理被提供为投射设备的可选特征,并且语音助理功能可以被更新为投射设备的一部分。
在一些实施方式中,应用处理器(例如,在用户说出语音命令或口头输入的客户端设备或投射设备处执行)执行来自用户的语音命令以及口头输入中的热词或关键词的检测。在一些实施方式中,通过外部数字信号处理器来执行(例如,与用户对其说出语音命令或口头输入的客户端或投射设备相反,由处理语音命令的服务器系统执行)热词的检测。
在一些实施方式中,具有语音助理特征的设备包括以下中的一个或多个:远场支持、“即按即助(push to assist)”或“即按即说(push to talk)”(例如,发起语音助理功能的按钮)以及AC功率。
在一些实施方式中,语音助理包括用于以下各项中的一个或多个的应用程序编程接口(API):音频输入(例如麦克风,用于正在进行回放的媒体回送)、麦克风状态(例如开/关)、回避(例如,当通过热词或即按即说触发助理时,降低所有输出的音量)、以及新的助理事件和状态消息(例如,助理被触发(例如听到热词、按下助理按钮)、听话音、在服务器上等待、响应、响应完成、闹钟/定时器正在播放)。
在一些实施方式中,具有语音助理功能的设备可以出于配置目的而与另一设备通信(例如,利用智能手机上的配置应用),以启用或促进设备上的语音助理的功能(例如,在设备上设置语音助理功能,向用户提供教程)。配置或设置可以包括指定设备位置、与用户账户关联、用户选择进入语音控制、链接到媒体服务(例如,视频流传输服务、音乐流传输服务)并优先化、以及家庭自动化配置等。
在一些实施方式中,具有语音助理的设备可以包括一个或多个用户界面元件或向用户的指示。一个或多个用户界面元件是物理的(例如,作为使用一个或多个LED显示的光图案、作为由扬声器输出的声音图案),并且可以包括以下一个或多个:不依赖于热词的“即按即助”或“即按即助说”触发器,“静音麦克风(mute microphone)”触发器和视觉状态指示,“等待热词状态(awaiting hotword status)”视觉指示,“检测到的热词(hotworddetected)”视觉指示,在一定距离(例如15英尺)处可见的“助理正在主动收听(assistantis actively listening)”视觉指示,“助理正在工作/思考(assistant is working/thinking)”视觉指示,“语音消息/通知可用(voice message/notification isavailable)”视觉指示,“音量级别(volume level)”控制方法和状态指示器,以及“暂停/恢复(pause/resume)”控制方法。在一些实施方式中,这些物理用户界面元件由客户端设备或投射设备提供。在一些实施方式中,语音助理支持在不同设备上通用的用户界面元件或指示集合,以便在不同设备上的体验的一致性。
在一些实施方式中,语音助理支持特定于设备的命令和/或热词以及标准化的、预定义的命令和/或热词集合。
图1示出了根据一些实施方式的网络环境100。网络环境100包括投射设备106和/或语音助理客户端设备104。投射设备106(例如,GOOGLE INC.的CHROMECAST)直接或以其他方式通信地耦合到音频输入设备108(例如,麦克风)和音频输出设备110(例如,一个或多个扬声器)。在一些实施方式中,音频输入设备108和音频输出设备110都是通信地耦合到投射设备106的设备(例如,扬声器系统、电视机、声音棒)的组件。在一些实施方式中,音频输入设备108是投射设备106的组件,并且音频输出设备110是投射设备106通信地耦合的设备的组件,反之亦然。在一些实施方式中,音频输入设备108和音频输出设备110是投射设备106的组件。
在一些实施方式中,投射设备106通信地耦合到客户端102。客户端102可包括促进配置投射设备106的应用或模块(例如,投射设备设置应用程序),包括语音助理特征。
在一些实施方式中,投射设备106耦合到显示器144。
在一些实施方式中,投射设备106包括一个或多个视觉指示器142(例如,LED灯)。
在一些实施方式中,投射设备106包括接收器模块146。在一些实施方式中,例如,接收器模块146操作包括硬件功能和与内容源通信的投射设备106。在一些实施方式中,在投射设备106处存在用于不同内容源的不同接收器模块146。在一些实施方式中,接收器模块146包括用于不同内容源的相应子模块。
语音助理客户端设备104(例如具有GOOGLE INC.的GOOGLE ASSISTANT,GOOGLEINC.的GOOGLE HOME的智能电话、膝上型计算机或台式计算机、平板计算机、语音命令设备、移动设备或车载系统)包括音频输入设备132(例如,麦克风)和音频输出设备134(例如,一个或多个扬声器、耳机)。在一些实施方式中,语音助理客户端设备104(例如,具有由GOOGLEINC.的GOOGLE ASSISTANT,GOOGLE INC.的GOOGLE HOME的语音命令设备、移动设备或车载系统)通信地耦合到客户端140(例如,智能手机、平板计算机设备)。客户端140可包括促进配置语音助理客户端设备104的应用或模块(例如,语音命令设备设置应用程序),包括语音助理特征。
在一些实施方式中,语音助理客户端设备104包括一个或多个视觉指示器152(例如,LED灯)。具有可视指示器(例如,LED灯)的语音助理客户端设备的示例在2016年5月13日提交的名称为“LED Design Language for Visual Affordance of Voice UserInterfaces”的美国暂时申请No.62/336,566的图4A中示出,该申请通过引用整体并入本文。
投射设备106和语音助理客户端设备104包括语音助理模块或库136的相应实例。语音助理模块/库136是跨各种设备(例如,投射设备106、语音助理客户端设备104)实现语音助理功能的模块/库。语音助理功能在各种设备中保持一致,同时仍实现特定于设备的特征(例如,通过语音助理支持控制特定于设备的特征)。在一些实施方式中,语音助理模块或库136在设备之间是相同的或相似的;相同库的实例可以包含在各种设备中。
在一些实施方式中,取决于设备的类型,语音助理模块/库136被包括在安装到设备中、在设备操作系统中或嵌入设备中(例如嵌入在固件中)的应用中。
在一些实施方式中,投射设备106处的语音助理模块/库136-1与接收器模块146通信以执行语音助理操作。
在一些实施方式中,投射设备106处的语音助理模块/库136-1可以控制或以其他方式影响视觉指示器142。
在一些实施方式中,语音助理客户端设备104处的语音助理模块/库136-2可以控制或以其他方式影响视觉指示器152。
投射设备106和语音助理客户端设备104通过一个或多个通信网络112(例如局域网、广域网、因特网)通信地耦合到服务器系统114。语音助理模块/库136检测(例如接收)由音频输入设备108/132拾取(例如,捕获)的口头输入,处理口头输入(例如,检测热词),并且将处理后的口头输入或将处理后的口头输入编码传送到服务器114。服务器114接收处理后的口头输入或其编码,并处理所接收的口头输入以确定对口头输入的适当响应。适当响应可以是对投射设备106或语音助理客户端设备104执行功能或操作的内容、信息或指令或命令或元数据。服务器114将该响应发送到投射设备106或语音助理客户端设备104,在那里输出内容或信息(例如,通过音频输出设备110/134输出)和/或执行功能。作为处理的一部分,服务器114可以与一个或多个内容或信息源138通信以获得用于响应的内容或信息,或对其的引用。在一些实施方式中,内容或信息源138例如包括搜索引擎、数据库、与用户的账户相关联的信息(例如日历、任务列表、电子邮件)、网站和媒体流传输服务。在一些实施方式中,语音助理客户端设备104和投射设备106可以彼此通信或交互。2016年5月13日提交的名称为“LED Design Language for Visual Affordance of Voice User Interfaces”的美国临时申请No.62/336,566,2016年5月13日提交的名称为“Voice-Controlled ClosedCaption Display”的美国临时申请No.62/336,569和2016年5月13日提交的名称为“MediaTransfer among Media Output Devices”的美国临时申请No.62/336,565中描述了这种通信或交互的示例以及语音助理客户端设备104的示例操作(例如,GOOGLE INC.的GOOGLEHOME),所有这些通过引用整体并入本文。
在一些实施方式中,语音助理模块/库136接收由音频输入设备108/132捕获的口头输入并且将口头输入(没有或很少处理)或其编码传送到服务器114。服务器114处理口头输入以检测热词,确定适当的响应,并且将该响应发送给投射设备106或语音助理客户端设备104。
如果服务器114确定口头输入包括用于投射设备106或语音助理客户端设备104执行功能的命令,则服务器114在响应中传送指令或元数据,该指令或元数据指示投射设备106或语音助理客户端设备104执行该功能。该功能可以是该设备特有的,并且用于在语音助理中支持这些功能的能力可以作为添加或链接到语音助理模块/库136的定制模块或功能而被包括在投射设备106或客户端104中。
在一些实施方式中,服务器114包括或耦合到语音处理后端148,所述语音处理后端148执行口头输入处理操作并确定对口头输入的响应。
在一些实施方式中,服务器114包括可下载的语音助理库150。可下载的语音助理库150(例如,与语音助理库136相同或其更新)可以包括新的特征和功能或更新,并且可以被下载以将语音助理库添加到设备或更新语音助理库136。
图2是示出根据一些实施方式的网络环境100的示例语音助理客户端设备104或者投射设备106的框图。语音助理客户端设备104的示例包括但不限于移动电话、平板计算机、膝上型计算机、台式计算机、无线扬声器(例如,GOOGLE INC.的GOOGLE HOME)、语音命令设备(例如,GOOGLE INC.的GOOGLE HOME)、电视、条形音箱、投射设备(例如GOOGLE INC.的CHROMECAST)、媒体流设备、家用电器、消费电子设备、车载系统、和可穿戴的个人设备。语音助理客户端设备104(例如,GOOGLE INC.的GOOGLE HOME,具有GOOGLE ASSISTANT能力的移动设备)或投射设备106(例如,GOOGLE INC.的CHROMECAST)通常包括一个或多个处理单元(CPU)202,网络接口204,存储器206以及用于互连这些组件的一个或多一个或多个通信总线208(有时称为芯片集)。语音助理客户端设备104或投射设备106包括促进用户输入的一个或多个输入设备210,其包括音频输入设备108或132(例如,语音命令输入单元或麦克风)以及可选的其他输入设备,诸如键盘、鼠标、触摸屏显示器、触敏输入板、手势捕获相机或其他输入按钮或控件)。在一些实施方式中,语音助理客户端设备102使用麦克风和语音识别或相机和手势识别来补充或替代键盘。语音助理客户端设备104或投射设备106还包括一个或多个输出设备212,其包括音频输出设备110或134(例如,一个或多个扬声器,耳机等),以及可选的一个或多个视觉显示器(例如,显示器144)和/或能够呈现用户界面并显示内容和信息的一个或多个视觉指示器142或152(例如,LED)。可选地,语音助理客户端设备104或者投射设备106包括用于确定语音助理客户端设备104或者投射设备106的位置的位置检测单元214,诸如GPS(全球定位卫星)或者其他地理位置接收器。语音助理客户端设备104或投射设备106可任选地还可以包括接近度检测设备215,例如IR传感器,用于确定语音助理客户端设备104或者投射设备106与其他对象(例如,用户,在穿戴式个人设备的情况下为穿着者)。可选地,语音助理客户端设备104或投射设备106包括传感器213(例如,加速度计、陀螺仪等)。
存储器206包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备,一个或多个光盘存储设备,一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器206可选地包括远离一个或多个处理单元202的一个或多个存储设备。存储器206或备选地存储器206内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中,存储器206或存储器206的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集:
·操作系统216,包括用于处理各种基本系统服务和用于执行硬件相关任务的过程;
·网络通信模块218,用于经由一个或多个网络接口204(有线或无线)以及一个或多个网络112(例如因特网、其他广域网、局域网、城域网等等)将语音助理客户端设备104或者投射设备106连接到其他设备(例如,服务器系统114,客户端102,140,其他语音助理客户端设备104或者投射设备106);
·用户界面模块220,用于使得能够经由一个或多个输出设备212(例如,显示器、扬声器等)在语音助理客户端设备104或者投射设备106上呈现信息;
·输入处理模块222,用于处理由一个或多个输入设备210捕获或接收的一个或多个用户输入或交互,并解释该输入或交互;
·语音助理模块136,用于处理口头输入,向服务器114提供口头输入,接收来自服务器114的响应以及输出该响应;和
·客户端数据226,用于存储至少与语音助理模块136相关联的数据,包括:
o语音助理设置228,用于存储与语音助理模块136和语音助理功能的设置和配置相关联的信息;
o内容/信息源230和类别232,用于存储预定义和/或用户指定的源以及内容或信息的类别;
o使用历史234,用于存储与语音助理模块136的操作和使用相关联的信息(例如,日志),诸如接收到的命令和请求,对命令和请求的响应,响应于命令和请求而执行的操作等;和
o用户账户和授权236,用于存储一个或多个用户的授权和认证信息以访问内容/信息源230处的用户的相应账户以及这些授权账户的账户信息;和
o接收器模块146,用于操作投射设备106的投射功能,包括与内容源通信以接收用于回放的内容。
在一些实施方式中,语音助理客户端设备104或者投射设备106包括一个或者多个库以及用于语音助理和相关功能的一个或者多个应用编程接口(API)。这些库可以被包括在语音助理模块136或接收器模块146中或由语音助理模块136或接收器模块146链接。该库包括与语音助理功能或促进语音助理功能的其他功能相关联的模块。API为硬件和其他软件(例如,操作系统、其他应用)提供接口,以促进语音助理功能。例如,语音助理客户端库240,调试库242,平台API 244和POSIX API 246可以存储在存储器206中。这些库和API在下面参照图4进一步描述。
在一些实施方式中,语音助理客户端设备104或者投射设备106包括使用语音助理客户端库240的模块和功能的语音应用250,以及可选的调试库242,平台API 244和POSIXAPI 246。在一些实施方式中,语音应用250是通过使用语音助理客户端库240而语音使能的第一方或第三方应用等。
每个上述识别的元件可以存储在一个或多个前述存储器设备中,并且对应于用于执行上述功能的指令集。以上识别的模块或程序(即,指令集)不需要被实现为单独的软件程序、过程、模块或数据结构,并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中,存储器206可选地存储以上识别的模块和数据结构的子集。此外,存储器206可选地存储上面没有描述的附加模块和数据结构。
图3是示出根据一些实施方式的网络环境100的示例服务器系统114的框图。服务器114通常包括一个或多个处理单元(CPU)302,一个或多个网络接口304,存储器306以及用于互连这些组件(有时称为芯片集)的一个或多个通信总线308。服务器114可选地包括促进用户输入的一个或多个输入设备310,诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获照相机、或其他输入按钮或控件。此外,服务器114可以使用麦克风和语音识别或相机和手势识别来补充或替代键盘。在一些实施方式中,服务器114可选地包括一个或多个照相机,扫描仪或光传感器单元,用于捕获例如印制在电子设备上的图形系列代码的图像。服务器114可选地还包括使得能够呈现用户界面和显示内容的一个或多个输出设备312,包括一个或多个扬声器和/或一个或多个视觉显示器。
存储器306包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备,一个或多个光盘存储设备,一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器306可选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器306或备选地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中,存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集:
·操作系统316,包括用于处理各种基本系统服务和用于执行硬件相关任务的过程;
·网络通信模块318,用于经由一个或多个网络接口304(有线或无线)以及一个或多个网络112(例如因特网、其他广域网、局域网、城域网等等)将服务器系统114连接到其他设备(例如,语音助理客户端设备104,投射设备106,客户端102,客户端140)等;
·接近度/位置确定模块320,用于基于客户端设备104或者投射设备106的位置信息来确定语音助理客户端设备104或者投射设备106的接近度和/或位置;
·语音助理后端116,用于处理语音助理口头输入(例如,从语音助理客户端设备104和投射设备106接收的口头输入),包括以下一项或多项:
o口头输入处理模块324,处理口头输入以识别口头输入中的命令和请求;
o内容/信息收集模块326,收集对命令和请求的内容和信息响应;和
o响应生成模块328,响应于命令和请求而产生口头输出并用响应内容和信息填充口头输出;和
·服务器系统数据330,至少存储与语音助理平台的操作相关联的数据,包括:
o用户数据332,用于存储与语音助理平台的用户相关联的信息,包括:
·用户语音助理设置334,用于存储对应于语音助理设置228的语音助理设置信息,以及对应于内容/信息源230和类别232的信息;
·用户历史336,用于用语音助理(例如,日志)存储用户的历史,包括命令和请求的历史以及相应的响应;和
·用户账户和授权338,用于存储用户的授权和认证信息以访问内容/信息源230处的用户的相应账户以及与用户账户和授权236相对应的那些授权账户的账户信息。
每个上述识别的元件可以存储在一个或多个前述存储器设备中,并且对应于用于执行上述功能的指令集。以上识别的模块或程序(即,指令集)不需要被实现为单独的软件程序、过程、模块或数据结构,并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中,存储器306可选地存储以上识别的模块和数据结构的子集。此外,存储器306可选地存储上面没有描述的附加模块和数据结构。
在一些实施方式中,语音助理模块136(图2)包括一个或多个库。库包括执行相应功能的模块或子模块。例如,语音助理客户端库包含执行语音助理功能的模块。语音助理模块136还可以包括用于与特定硬件(例如客户端或投射设备上的硬件),特定操作软件或远程系统协作的一个或多个应用程序编程接口(API)。
在一些实施方式中,库包括支持音频信号处理操作的模块,包括例如带通、滤波、擦除和热词检测。在一些实施方式中,库包括用于连接到后端(例如,基于服务器)的话音处理系统的模块。在一些实施方式中,库包括用于调试的模块(例如,调试话音识别、调试硬件问题、自动化测试)。
图4示出了可以存储在语音助理客户端设备104或者投射设备106中并且由语音助理模块136或者另一应用运行的库和API。库和API可以包括语音助理客户端库240,调试库242,平台API 244和POSIX API246。在语音助理客户端设备104或者投射设备106(例如,语音助理模块136,可能希望支持与语音助理的协作的其他应用)可以包括或链接到库和API并运行以在应用中提供或语音使能助理功能。在一些实施方式中,语音助理客户端库240和调试库242是单独的库;保持语音助理客户端库240和调试库242的库分离促进解释这些库的不同安全含义的不同释放和更新过程。
在一些实施方式中,库是柔性的;库可以在各种设备类型上使用,并包含相同的语音助理功能。
在一些实施方式中,库依赖于标准共享对象(例如,标准Linux共享对象),并且因此与使用这些标准分片对象的不同操作系统或平台兼容(例如,嵌入式Linux的各种Linux发行版和特色版(flavor))。
在一些实施方式中,POSIX API 246提供用于与各种操作系统兼容的标准API。因此,语音助理客户端库240可以被包括在不同POSIX兼容操作系统的设备中,并且POSIX API246提供语音助理客户端库240与不同操作系统之间的兼容性接口。
在一些实施方式中,库包括支持和促进在实现语音助理(例如,定时器、警报、音量控制)的不同类型的设备上可用的基本用例的模块。
在一些实施方式中,语音助理客户端库240包括控制器接口402,其包括用于启动、配置并且与语音助理交互的功能或模块。在一些实施方式中,控制器接口402包括用于在设备处启动语音助理的“开始()(Start())”功能或模块404;用于利用语音助理注册动作的“注册动作()(RegisterAction())”功能或模块406(例如,使得该动作是通过语音助理可动作的),用于以更新的设置重新配置语音助理的“重新配置()(Reconfigure())”408功能,以及用于利用该助理注册用于基本事件的一组功能的“注册事件观察器()(RegisterEventObserver())”功能410。
在一些实施方式中,语音助理客户端库240包括与特定语音助理功能相关联的多个功能或模块。例如,热词检测模块412处理语音输入以检测热词。话音处理模块414处理语音输入中的话音,并且将话音转换为文本或反之(例如,识别单词和短语,话音到文本数据转换,文本数据到话音转换)。动作处理模块416响应于口头输入来执行动作和操作。本地定时器/警报/音量控制模块418有助于设备处的警报闹钟、定时器和音量控制功能以及通过语音输入(例如,在设备处维护定时器、时钟、警报闹钟)对其进行控制。日志/度量模块420记录(例如日志)语音输入和响应,以及确定并记录相关度量(例如,响应时间、空闲时间等)。音频输入处理模块422处理语音输入的音频。MP3解码模块424解码MP3编码的音频。音频输入模块426通过音频输入设备(例如,麦克风)捕获音频。音频输出模块428通过音频输出设备(例如扬声器)输出音频。事件排队和状态跟踪模块430用于在设备处排队与语音助理相关联的事件并跟踪设备处的语音助理的状态。
在一些实施方式中,调试库242提供用于调试的模块和功能。例如,HTTP服务器模块432促进调试连接问题,并且调试服务器/音频流模块434用于调试音频问题。
在一些实施方式中,平台API 244提供语音助理客户端库240与设备的硬件功能之间的接口。例如,平台API包括用于捕获设备上的按钮输入的按钮输入接口436,用于捕获环回音频的环回音频接口438,用于记录和确定度量的日志和度量接口440,用于捕获音频输入的音频输入接口442,用于输出音频的音频输出接口444以及用于使用可以与语音助理交互的其他服务来认证用户的认证接口446。图4所示的语音助理客户端库组织的优点在于,它可以在具有一致的API和语音助理功能集的各种语音助理设备类型上提供相同或类似的语音处理功能。此一致性支持语音助理应用的可移植性和语音助理操作的一致性,这继而又促进了一致的用户交互,以及对不同设备类型上执行的语音助理应用和功能的熟悉。在一些实施方式中,可以在服务器114处提供全部或部分语音助理客户端库240以支持基于服务器的语音助理应用(例如,对传送到服务器114进行处理的语音输入进行操作的服务器应用)。
下面示出了对应于控制器402(“控制器”)和相关类的类和函数的示例代码。这些类和函数可以由在各种设备上可执行的应用经由通用API采用。
下面的类“动作模块(ActionModule)”促进应用注册其自己的模块以处理由语音助理服务器提供的命令:
下面的类“构建信息(BuildInfo)”可用于描述运行语音助理客户端库240或语音助理客户端设备104本身的应用(例如,用该应用、平台和/或设备的标识符或版本号):
下面的类“事件委托(EventDelegate)”定义与基本事件相关联的函数,例如话音识别的开始,语音助理输出语音响应的开始和完成等:
下面的类“默认事件委托(DefaultEventDelegate)”定义了用于某些事件的不作为重写(do-nothing overrides)的函数:
下面的类“设置(Settings)”定义了可以被提供给控制器402的设置(例如,场所、地理位置、文件系统目录)。
下面的类“控制器(Controller)”对应于控制器402,并且Start(),Reconfigure(),RegisterAction()和RegisterEventObserver()函数分别对应于函数Start()404,Reconfigure()408,RegisterAction()406和RegisterEventObserver()410。
在一些实施方式中,语音助理客户端设备104或者投射设备106实现平台(例如,用于使用相同平台与其他设备进行通信的接口集以及被配置为支持该接口集的操作系统)。下面的示例代码示出了与语音助理客户端库402同平台进行交互的接口相关联的函数。
下面的类“认证(Authentication)”定义了用于以特定账户认证语音助理的用户的认证令牌:
下面的类“输出流类型(OutputStreamType)”定义了音频输出流的类型:
下面的类“样本格式(SampleFormat)”定义了支持的音频样本格式(例如,PCM格式):
下面的“缓冲器格式(BufferFormat)”定义了存储在设备处的音频缓冲器中的数据的格式:
类“音频缓冲器(AudioBuffer)”定义用于音频数据的缓冲器:
下面的类“音频输出(AudioOutput)”定义了用于音频输出的接口:
下面的类“音频输入(AudioInput)”定义了用于捕获音频输入的接口:
下面的类“资源(Resources)”定义对系统资源的访问:
下面的类“平台Api(PlatformApi)”为语音助理客户端库240指定平台API(例如,平台API 244):
在一些实施方式中,可以在语音助理客户端库240之外处理音量控制。例如,系统音量可以由设备在语音助理客户端库240的控制之外维持。作为另一示例,语音助理客户端库240仍然可以支持音量控制,但是对语音助理客户端库240的音量控制请求被定向到设备。
在一些实施方式中,语音助理客户端库240中的警报和定时器功能可以由用户禁用或当在设备处实现库时被禁用。
在一些实施方式中,语音助理客户端库240还支持到设备上的LED的接口,以促进在设备LED上显示LED动画。
在一些实施方式中,语音助理客户端库240可以被包括在投射设备106处的投射接收器模块(例如,接收器模块146)中或由其链接。语音助理客户端库240与接收器模块146之间的链接可以包括例如对附加动作(例如,本地媒体播放)的支持,以及对投射设备106上的LED的控制的支持。
图5示出了根据一些实施方式的用于处理设备上的口头输入的方法500的流程图。方法500在具有音频输入系统(例如音频输入设备108/132),一个或多个处理器(例如,处理单元202)以及存储由一个或多个处理器执行的一个或多个程序的存储器(例如,存储器206)的电子设备(例如,语音助理客户端设备104,投射设备106)处执行。在一些实施方式中,电子设备包括音频输入系统(例如音频输入设备108/132),一个或多个处理器(例如,处理单元202)和存储由一个或多个处理器执行的一个或多个程序的存储器(例如,存储器206),一个或多个程序包括用于执行方法500的指令。在一些实施方式中,非暂时性计算机可读存储介质存储一个或多个程序,一个或多个程序包括当由具有音频输入系统(例如,音频输入设备108/132)和一个或多个处理器(例如,处理单元202)的电子设备执行时,使电子设备执行方法500的指令。用于执行方法500的程序或指令可以被包括在以上参照图2-4描述的模块、库等中。
设备接收(502)设备处的口头输入。客户端设备104/投射设备106捕获由用户发出的口头输入(例如,语音输入)。
设备处理(504)口头输入。客户端设备104/投射设备106处理口头输入。该处理可以包括热词检测,到文本数据的转换以及与用户提供的命令、请求和/或参数相对应的单词和短语的标识。在一些实施方式中,处理可以是最小的,或者可以根本没有处理。例如,处理可以包括对口头输入音频进行编码以便传输到服务器114,或者准备所捕获的口头输入的原始音频以便传输到服务器114。
设备向远程系统传送(506)请求,该请求包括基于口头输入确定的信息。客户端设备104/投射设备106通过处理口头输入来确定来自口头输入的请求,以识别来自口头输入的请求和一个或多个相关参数。客户端设备104/投射设备106将所确定的请求传送到远程系统(例如,服务器114),其中远程系统确定并产生对该请求的响应。在一些实施方式中,客户端设备104/投射设备106将语音输入(例如,作为编码音频、作为原始音频数据)传送到服务器114,并且服务器114处理口头输入以确定请求和相关参数。
设备接收(508)对请求的响应,其中响应是由远程系统根据基于口头输入的信息生成的。远程系统(例如,服务器114)确定并生成对该请求的响应,并将该响应传送到客户端设备104/投射设备106。
设备根据响应执行(510)操作。客户端设备104/投射设备106根据接收到的响应执行一个或多个操作。例如,如果响应是通过音频向设备输出某些信息的命令,则客户端设备104/投射设备106检索信息,将信息转换为话音音频输出,并且通过扬声器输出话音音频。作为另一示例,如果响应是设备播放媒体内容的命令,则客户端设备104/投射设备106检索媒体内容并播放媒体内容。
通过在电子设备上执行的语音助理库的一个或多个语音处理模块执行接收、处理、传送、接收和执行中的一个或多个,语音处理模块提供多个语音处理操作,所述语音处理操作是在电子设备(512)上执行或可执行的一个或多个应用程序和/或操作软件可访问的。客户端设备104/投射设备106可以具有语音助理客户端库240,其包括用于执行接收、处理、传送、接收和执行步骤中的一个或多个的功能和模块。语音助理客户端库240的模块提供多个语音处理和助理操作,所述语音处理操作是在包括或链接到库240的客户端设备104/投射设备106处的应用、操作系统和平台软件处可访问的(例如,运行库240和相关的API)。
在一些实施方式中,在远程系统上执行与语音处理模块相关联的至少一些语音处理操作,该远程系统经由广域网与电子设备互连。例如,用于确定请求的口头输入的处理可以由服务器114执行,服务器114通过网络112与客户端设备104/投射设备106连接。
在一些实施方式中,语音助理库是在多个不同设备类型上可操作的公共操作系统上可执行的,由此实现被配置为与语音处理操作中的一个或多个交互的语音使能应用的可移植性。语音助理客户端库240(以及相关库和API,例如调试库242、平台API 244、POSIXAPI 246)使用预定义操作系统(例如,Linux)的标准元件(例如,对象),并且因此在运行预定义操作系统的发行版或特色版的各种设备上(例如,不同的Linux或基于Linux的发行版或特色版)上是可操作的。以这种方式,语音助理功能可用于各种设备,并且语音助理体验在各种设备中是一致的。
在一些实施方式中,可以在设备处处理请求和响应。例如,对于设备本地的基本功能,例如定时器、警报闹钟、时钟和音量控制,客户端设备104/投射设备106可以处理口头输入并且确定该请求对应于这些基本功能中的一个,确定设备处的响应,并根据响应执行一个或多个操作。为了记录目的,设备仍然可以向服务器114报告请求和响应。
在一些实施方式中,用于包括音频输入系统的电子设备的设备不可知语音助理库包括一个或多个语音处理模块,该一个或多个语音处理模块被配置为在多个不同电子设备类型上实现的公共操作系统上执行,语音处理模块提供可在电子设备上执行的应用程序和操作软件访问的多个语音处理操作,从而实现被配置为与一个或多个语音处理操作交互的语音使能应用的可移植性。语音助理客户端库240是可以在与库共享相同的预定义操作系统基础的各种设备上运行的库(例如,库和设备操作系统是基于Linux的),因此库是设备不可知。库240提供用于在各种设备上的应用可访问的语音助理功能的多个模块。
在一些实施方式中,与语音处理模块相关联的至少一些语音处理操作在经由广域网与电子设备互连的后端服务器上执行。例如,库240包括与服务器114通信以将口头输入传送到服务器114以进行处理来确定请求的模块。
在一些实施方式中,语音处理操作包括被配置为控制与电子设备耦合(例如,直接或通信地)的设备的特定于设备的操作。库240可以包括用于控制耦合到客户端设备104/投射设备106的其他设备(例如无线扬声器、智能电视等)的功能或模块。
在一些实施方式中,语音处理操作包括信息和媒体请求操作,其被配置为向电子设备的用户或在与电子设备耦合(例如,直接或通信地)的设备上的用户提供所请求的信息和/或媒体内容。库240可以包括用于检索信息或媒体并且在客户端设备104/投射设备106上或在耦合的设备上提供信息或媒体(例如,大声读出电子邮件、大声朗读新闻文章、播放流式音乐)的功能或模块。
应该理解,虽然术语“第一”、“第二”等可以在本文用于描述各种元件,但是这些元件不应该受这些术语的限制。这些术语仅用于区分一个元件与和另一个元件。例如,第一接触可以被称为第二接触,并且类似地,第二接触可以被称为第一接触,这更改了描述的含义,只要所有发生的“第一接触”被一致地重命名并且所有发生的第二接触都一致地重命名。第一接触和第二接触都是接触,但它们不是同一接触。
本文使用的术语仅用于描述特定实施方式的目的,而不意图限制权利要求。如在实施方式和所附权利要求的描述中所使用的,除非上下文另外清楚地指出,否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还将理解的是,本文所使用的术语“和/或”是指并且包含一个或多个相关所列项目的任何和所有可能的组合。将进一步理解的是,当在本说明书中使用时,术语“包括”和/或“包含”指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合。
如本文所使用的,术语“如果”根据上下文可被解释为意指“当”或“在…时”或“响应于确定”或“根据确定”或“响应于检测”到先决条件为真。类似地,短语“如果确定[所陈述的先决条件为真]”或“如果[所陈述的先决条件为真]”或“当[所陈述的先决条件为真”]根据上下文可以被解释为“在确定时”或“响应于确定”或“根据确定”或“根据检测”或“响应于检测”到所陈述的先决条件为真。
现在将详细参照各种实施方式,其示例在附图中示出。在以下详细描述中,阐述了许多具体细节以提供对本发明和所描述的实施方式的透彻理解。然而,可以在没有这些具体细节的情况下实施本发明。在其他实例中,众所周知的方法、过程、组件和电路未被详细描述,以免不必要地模糊实施方式的方面。
为了解释的目的,前面的描述已经参照具体实施方式进行了描述。然而,以上的说明性讨论并非旨在穷举或将本发明限制于所公开的确切形式。鉴于上述教导,许多修改和变化是可能的。选择和描述实施方式是为了最好地解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够最佳地利用本发明以及具有适合于预期的特定用途的各种修改的各种实施方式。

Claims (15)

1.一种方法,包括:
在包括音频输入系统、一个或多个处理器和存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备处:
接收所述设备处的口头输入;
处理所述口头输入;
向远程系统传送请求,所述请求包括基于所述口头输入确定的信息;
接收对所述请求的响应,其中所述响应是由所述远程系统根据基于所述口头输入的所述信息生成的;以及
根据所述响应执行操作,
其中所述接收、处理、传送、接收和执行中的一个或多个由在所述电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在所述电子设备上执行或能够执行的一个或多个应用程序和/或操作软件能够访问的多个语音处理操作。
2.根据权利要求1所述的方法,其中与所述语音处理模块相关联的至少一些语音处理操作在所述远程系统上执行,所述远程系统经由广域网与所述电子设备互连。
3.根据任一前述权利要求所述的方法,其中所述语音助理库是在多个不同设备类型上能够操作的公共操作系统上能够执行的,由此实现被配置成与所述语音处理操作中的一个或多个交互的语音使能应用的可移植性。
4.一种用于包括音频输入系统的电子设备的设备不可知的语音助理库,包括:
一个或多个语音处理模块,所述一个或多个语音处理模块被配置成在多个不同的电子设备类型上实现的公共操作系统上执行,所述语音处理模块提供多个语音处理操作,所述多个语音处理操作是对在所述电子设备上执行的应用程序和操作软件能够访问的,由此实现被配置成与所述语音处理操作中的一个或多个交互的语音使能应用的可移植性。
5.根据任一前述权利要求所述的语音助理库,其中与所述语音处理模块相关联的至少一些语音处理操作在经由广域网与所述电子设备互连的后端服务器上执行。
6.根据任一前述权利要求所述的语音助理库,其中所述语音处理操作包括被配置成控制与所述电子设备耦合的设备的特定于设备的操作。
7.根据任一前述权利要求所述的语音助理库,其中所述语音处理操作包括信息和媒体请求操作,所述信息和媒体请求操作被配置成向所述电子设备的用户或与所述电子设备耦合的设备上的用户提供所请求的信息和/媒体内容。
8.一种电子设备,包括:
音频输入系统;
一个或多个处理器;和
存储器,所述存储器存储要由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于以下的指令:
接收在所述设备处的口头输入;
处理所述口头输入;
向远程系统传送请求,所述请求包括基于所述口头输入确定的信息;
接收对所述请求的响应,其中所述响应是由所述远程系统根据基于所述口头输入的所述信息生成的;以及
根据所述响应执行操作,
其中所述接收、处理、传送、接收和执行中的一个或多个由在所述电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在所述电子设备上执行或能够执行的一个或多个应用程序和/或操作软件能够访问的多个语音处理操作。
9.根据权利要求8所述的设备,其中与所述语音处理模块相关联的至少一些语音处理操作在所述远程系统上执行,所述远程系统经由广域网与所述电子设备互连。
10.根据任一前述权利要求所述的设备,其中所述语音助理库是在多个不同设备类型上能够操作的公共操作系统上能够执行的,由此实现被配置成与所述语音处理操作中的一个或多个交互的语音使能应用的可移植性。
11.一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由具有音频输入系统和一个或多个处理器的电子设备执行时使所述电子设备:
接收在所述设备处的口头输入;
处理所述口头输入;
向远程系统传送请求,所述请求包括基于所述口头输入确定的信息;
接收对所述请求的响应,其中所述响应是由所述远程系统根据基于所述口头输入的所述信息生成的;以及
根据所述响应执行操作,
其中所述接收、处理、传送、接收和执行中的一个或多个由在所述电子设备上执行的语音助理库的一个或多个语音处理模块来执行,所述语音处理模块提供对在所述电子设备上执行或能够执行的一个或多个应用程序和/或操作软件能够访问的多个语音处理操作。
12.根据权利要求11所述的计算机可读存储介质,其中与所述语音处理模块相关联的至少一些语音处理操作在所述远程系统上执行,所述远程系统经由广域网与所述电子设备互连。
13.根据任一前述权利要求所述的计算机可读存储介质,其中所述语音助理库是在多个不同设备类型上能够操作的公共操作系统上能够执行的,由此实现被配置成与所述语音处理操作中的一个或多个交互的语音使能应用的可移植性。
14.一种电子设备,包括:
音频输入系统;
一个或多个处理器;以及
存储器,所述存储器存储要由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行根据权利要求1-3中任一项所述的方法的指令。
15.一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由具有音频输入系统和一个或多个处理器的电子设备执行时使所述电子设备执行权利要求1-3中任一项所述的方法。
CN201780009238.2A 2016-05-10 2017-05-10 设备上语音助理的实现 Pending CN108604179A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201662334434P 2016-05-10 2016-05-10
US62/334,434 2016-05-10
US201662336551P 2016-05-13 2016-05-13
US201662336569P 2016-05-13 2016-05-13
US201662336566P 2016-05-13 2016-05-13
US201662336565P 2016-05-13 2016-05-13
US62/336,569 2016-05-13
US62/336,551 2016-05-13
US62/336,565 2016-05-13
US62/336,566 2016-05-13
PCT/US2017/032002 WO2017197010A1 (en) 2016-05-10 2017-05-10 Implementations for voice assistant on devices

Publications (1)

Publication Number Publication Date
CN108604179A true CN108604179A (zh) 2018-09-28

Family

ID=58765933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780009238.2A Pending CN108604179A (zh) 2016-05-10 2017-05-10 设备上语音助理的实现

Country Status (6)

Country Link
US (11) US10332516B2 (zh)
EP (1) EP3455719A1 (zh)
JP (2) JP2019523918A (zh)
KR (2) KR102168974B1 (zh)
CN (1) CN108604179A (zh)
WO (1) WO2017197010A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113424256A (zh) * 2019-04-01 2021-09-21 谷歌有限责任公司 在可再充电设备上的播送请求和/或用户输入的自适应管理

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9665339B2 (en) 2011-12-28 2017-05-30 Sonos, Inc. Methods and systems to select an audio track
US11922974B1 (en) * 2012-05-02 2024-03-05 James E. Plankey System and method for creating and managing multimedia sales promotions
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9672213B2 (en) 2014-06-10 2017-06-06 Sonos, Inc. Providing media items from playback history
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
CN105848374A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种灯光控制系统及方法
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
SG10201604137QA (en) * 2016-05-24 2017-12-28 Creative Tech Ltd An apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106993227B (zh) * 2016-01-20 2020-01-21 腾讯科技(北京)有限公司 一种进行信息展示的方法和装置
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10010806B2 (en) * 2016-05-24 2018-07-03 Creative Technology Ltd Apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US10111345B2 (en) * 2016-05-25 2018-10-23 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10149080B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Method of manufacturing sound output apparatus and method of manufacturing grille for the apparatus
US10146255B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Accessory communication device
US10139856B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory assembly
US10204513B2 (en) 2016-05-25 2019-02-12 Lg Electronics Inc. Accessory having a communication function for Internet of Things
US10440456B2 (en) 2016-05-25 2019-10-08 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, and method of manufacturing the apparatus and grille for the apparatus
US10097640B2 (en) 2016-05-25 2018-10-09 Lg Electronics Inc. Accessory having a communication function for internet of things
US9992036B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10139857B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory
US10356499B2 (en) 2016-05-25 2019-07-16 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, method of manufacturing the apparatus, and grille for the apparatus
US10110974B2 (en) 2016-05-25 2018-10-23 Lg Electronics Inc. Accessory having a communication function for internet of things
US9990002B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10257363B2 (en) * 2016-07-22 2019-04-09 Lenovo (Singapore) Pte. Ltd. Coordinating input on multiple local devices
DK179471B1 (en) 2016-09-23 2018-11-26 Apple Inc. IMAGE DATA FOR ENHANCED USER INTERACTIONS
US10535966B2 (en) * 2016-10-03 2020-01-14 Google Llc Planar electrical connector for an electronic device
GB2554815B (en) 2016-10-03 2021-03-31 Google Llc Voice-activated electronic device assembly with separable base
US10448520B2 (en) 2016-10-03 2019-10-15 Google Llc Voice-activated electronic device assembly with separable base
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
JP6915262B2 (ja) * 2016-11-25 2021-08-04 セイコーエプソン株式会社 ウェアラブル機器、情報端末装置、通信システム、電子機器、及び通信制御方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US20180267614A1 (en) * 2017-03-16 2018-09-20 Swan Solutions Inc. Control system for a terminal device with two sensors and power regulation
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10380852B2 (en) 2017-05-12 2019-08-13 Google Llc Systems, methods, and devices for activity monitoring via a home assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3410679A1 (en) * 2017-06-02 2018-12-05 Harman International Industries, Incorporated Microphone disabling system
US10564928B2 (en) * 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US11798544B2 (en) * 2017-08-07 2023-10-24 Polycom, Llc Replying to a spoken command
CA3070524A1 (en) * 2017-08-08 2019-02-14 General Electric Company Multi-purpose voice activated lighting apparatus
KR102371752B1 (ko) * 2017-08-31 2022-03-07 삼성전자주식회사 가전 기기 및 그의 제어방법
US10706845B1 (en) * 2017-09-19 2020-07-07 Amazon Technologies, Inc. Communicating announcements
US11024303B1 (en) 2017-09-19 2021-06-01 Amazon Technologies, Inc. Communicating announcements
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10600419B1 (en) 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) * 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US20190196779A1 (en) * 2017-12-21 2019-06-27 Harman International Industries, Incorporated Intelligent personal assistant interface system
CN107886954A (zh) * 2017-12-26 2018-04-06 安徽声讯信息技术有限公司 一种使用蓝牙音箱的智能语音听说平板
KR102580837B1 (ko) * 2018-03-02 2023-09-21 삼성전자 주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制系统
US11169772B2 (en) * 2018-03-19 2021-11-09 Gopro, Inc. Image capture device control using mobile platform voice recognition
US11328724B2 (en) 2018-03-23 2022-05-10 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10623246B1 (en) * 2018-03-27 2020-04-14 Amazon Technologies, Inc. Device configuration by natural language processing system
US20190311046A1 (en) * 2018-04-06 2019-10-10 Geoffrey S. Stern Interactive presentation apparatus and method
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
AU2019100487B4 (en) 2018-05-07 2020-01-16 Apple Inc. User interfaces for viewing live video feeds and recorded video
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN108762851A (zh) * 2018-06-04 2018-11-06 联想(北京)有限公司 电子设备的操作方法和电子设备
US11429192B2 (en) 2018-06-05 2022-08-30 Google Llc Confidence-based application-specific user interactions
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US12001614B2 (en) 2019-05-07 2024-06-04 Google Llc Confidence-based application-specific user interactions
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US11437029B2 (en) * 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
CN108769745A (zh) * 2018-06-29 2018-11-06 百度在线网络技术(北京)有限公司 视频播放方法和装置
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US10924848B2 (en) * 2018-07-23 2021-02-16 PeeQ Technologies, LLC Throwable microphone lighting with light indication
US11085777B2 (en) * 2018-07-27 2021-08-10 Adobe Inc. Generating digital event sequences utilizing a dynamic user preference interface to modify recommendation model reward functions
US11164576B2 (en) 2018-09-04 2021-11-02 Google Llc Multimodal responses
CN110543290B (zh) 2018-09-04 2024-03-05 谷歌有限责任公司 多模态响应
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10643607B2 (en) * 2018-09-28 2020-05-05 Dish Network L.L.C. Vocal triggering of presentation transitions
US10762893B2 (en) * 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US11100349B2 (en) 2018-09-28 2021-08-24 Apple Inc. Audio assisted enrollment
US10860096B2 (en) 2018-09-28 2020-12-08 Apple Inc. Device control using gaze information
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN109347707A (zh) * 2018-10-11 2019-02-15 上海阳淳电子股份有限公司 智能家居可视化语音控制方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US10880515B2 (en) 2018-12-14 2020-12-29 Sony Corporation Audio-video reproduction for closed caption display control based on multi-media content
CN113366508A (zh) 2019-01-04 2021-09-07 蒂普爱可斯有限公司 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和系统
KR102227512B1 (ko) * 2019-01-04 2021-03-12 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020171809A1 (en) * 2019-02-20 2020-08-27 Google Llc Utilizing pre-event and post-event input streams to engage an automated assistant
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11003419B2 (en) 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11509479B2 (en) 2019-06-04 2022-11-22 Vmware, Inc. Service authentication through a voice assistant
US11122423B2 (en) * 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
EP3994591A1 (en) * 2019-07-01 2022-05-11 Google LLC Mobile-enabled voice search of media items for displaying on alternative playback devices
US11079875B2 (en) 2019-07-24 2021-08-03 Google Llc Compact home assistant having touch sensitive housing
US11553265B2 (en) 2019-07-24 2023-01-10 Google Llc Compact home assistant having a controlled sound path
EP4004911A1 (en) * 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Multi-modal smart audio device system attentiveness expression
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US10915227B1 (en) * 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110764425A (zh) * 2019-09-16 2020-02-07 恒大智慧科技有限公司 家居设备的重定向方法、智能家居app及存储介质
US11676589B2 (en) * 2019-09-17 2023-06-13 Global Strategies International LLC Systems and methods for voice search and response retrieval
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210043107A (ko) * 2019-10-11 2021-04-21 삼성전자주식회사 서로 다른 전자 장치들 사이의 통신 방법, 이를 지원하는 서버 및 전자 장치
KR20210053072A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11636855B2 (en) * 2019-11-11 2023-04-25 Sonos, Inc. Media content based on operational data
US11204737B2 (en) 2019-11-11 2021-12-21 Sonos, Inc. Playback queues for shared experiences
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
US11553254B2 (en) * 2019-12-11 2023-01-10 Google Llc Methods, systems, and media for providing dynamic media sessions with audio stream expansion features
CN111161714B (zh) * 2019-12-25 2023-07-21 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
US12063214B2 (en) 2020-01-02 2024-08-13 VMware LLC Service authentication through a voice assistant
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US12088585B2 (en) 2020-01-06 2024-09-10 VMware LLC Voice skill session lifetime management
US11482231B2 (en) 2020-01-06 2022-10-25 Vmware, Inc. Skill redirections in a voice assistant
CN111261160B (zh) * 2020-01-20 2023-09-19 联想(北京)有限公司 一种信号处理方法及装置
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备
US11328721B2 (en) 2020-02-04 2022-05-10 Soundhound, Inc. Wake suppression for audio playing and listening devices
US11212330B2 (en) * 2020-02-06 2021-12-28 Lenovo (Singapore) Pte. Ltd. Casting content based on device capabilities
US11792470B2 (en) * 2020-02-07 2023-10-17 Arris Enterprises Llc Transfer of media content viewing experience using EPG guide
US11113933B1 (en) * 2020-02-28 2021-09-07 Therm-Omega-Tech, Inc. Visual indication system for feedback controller
US20230093165A1 (en) * 2020-03-23 2023-03-23 Sony Group Corporation Information processing apparatus, information processing method, and program
US11722474B2 (en) * 2020-04-30 2023-08-08 Vmware, Inc. Embedding content in audio content through a voice assistant
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11079913B1 (en) * 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
CN112289307B (zh) * 2020-11-12 2022-07-22 四川云从天府人工智能科技有限公司 基于GRPC实现Kaldi语音识别服务的方法、系统及介质
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质
EP4264460A1 (en) 2021-01-25 2023-10-25 Apple Inc. Implementation of biometric authentication
CN112803907B (zh) * 2021-03-17 2021-07-16 统信软件技术有限公司 一种提供音频播放服务的系统和方法
US20220309175A1 (en) * 2021-03-29 2022-09-29 Aipex Technologies, Inc. Content management techniques for voice assistant
US12046234B1 (en) * 2021-06-28 2024-07-23 Amazon Technologies, Inc. Predicting on-device command execution
DE102021206690A1 (de) 2021-06-28 2022-12-29 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Unterhaltungssystems eines Kraftfahrzeugs, Unterhaltungssystem sowie Kraftfahrzeug
US20230080895A1 (en) * 2021-09-15 2023-03-16 International Business Machines Corporation Dynamic operation of a voice controlled device
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
US12118994B2 (en) 2022-02-09 2024-10-15 Google Llc Providing contextual automated assistant action suggestion(s) via a vehicle computing device
EP4248304A1 (en) 2022-02-09 2023-09-27 Google LLC Providing contextual automated assistant action suggestion(s) via a vehicle computing device
US12039979B2 (en) * 2022-04-15 2024-07-16 Google Llc Multiple concurrent voice assistants
US11909611B2 (en) * 2022-07-20 2024-02-20 Google Llc Standardizing analysis metrics across multiple devices

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909063A (zh) * 2005-08-04 2007-02-07 哈曼贝克自动系统股份有限公司 集成语音对话系统
US20100185446A1 (en) * 2009-01-21 2010-07-22 Takeshi Homma Speech recognition system and data updating method
CN102148031A (zh) * 2011-04-01 2011-08-10 无锡大核科技有限公司 语音识别与交互系统及方法
CN102289374A (zh) * 2011-08-31 2011-12-21 中兴通讯股份有限公司 一种构建跨平台软件运行环境的方法及装置
WO2012103321A2 (en) * 2011-01-28 2012-08-02 Amazon Technologies Inc. Audio-based application architecture
CN103095325A (zh) * 2011-10-21 2013-05-08 通用汽车环球科技运作有限责任公司 具有远程服务接口的移动语音平台架构
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN103501382A (zh) * 2013-09-17 2014-01-08 小米科技有限责任公司 语音服务提供方法、装置和终端
US20150006182A1 (en) * 2013-07-01 2015-01-01 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and Methods for Dynamic Download of Embedded Voice Components
CN104506944A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景及语音助手的语音交互辅助方法及系统
US20150331666A1 (en) * 2014-05-15 2015-11-19 Tyco Safety Products Canada Ltd. System and Method for Processing Control Commands in a Voice Interactive System

Family Cites Families (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659665A (en) 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5760754A (en) * 1995-12-04 1998-06-02 Motorola, Inc. Light pipe assembly and electrical device using same
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US6681380B1 (en) 2000-02-15 2004-01-20 International Business Machines Corporation Aggregating constraints and/or preferences using an inference engine and enhanced scripting language
GB2372864B (en) 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7426505B2 (en) 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
US7302634B2 (en) 2001-03-14 2007-11-27 Microsoft Corporation Schema-based services for identity-based data access
US20030120744A1 (en) 2001-12-20 2003-06-26 Gordon Kessler Method and apparatus for providing downlaoded audio data
US7493259B2 (en) 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7260538B2 (en) * 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
US20040001095A1 (en) * 2002-07-01 2004-01-01 Todd Marques Method and apparatus for universal device management
JP2004102415A (ja) 2002-09-05 2004-04-02 Toshiba Corp データ伝送装置およびデータ伝送方法並びに車載用電子機器
US20060276230A1 (en) 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7911358B2 (en) 2002-10-08 2011-03-22 Johnson Controls Technology Company System and method for enrollment of a remotely controlled device in a trainable transmitter
JP4292789B2 (ja) * 2002-11-20 2009-07-08 日本電気株式会社 ブラウザ機能拡張方法
US7925754B2 (en) 2003-11-21 2011-04-12 Microsoft Corporation Method and computer program product to provide synch notifications to client devices
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050164681A1 (en) 2004-01-22 2005-07-28 Jenkins William W. Voice message storage in a push-to-talk communication system
US20050212684A1 (en) * 2004-03-23 2005-09-29 Flora Huang Indicating apparatus combined with flash
US20060075429A1 (en) 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
TWM260059U (en) 2004-07-08 2005-03-21 Blueexpert Technology Corp Computer input device having bluetooth handsfree handset
JP2006286275A (ja) 2005-03-31 2006-10-19 Koizumi Sangyo Corp 照明器具の制御装置
US8104054B2 (en) 2005-09-01 2012-01-24 At&T Intellectual Property I, L.P. Methods, systems, and devices for bandwidth conservation
US7996228B2 (en) * 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US8516087B2 (en) 2006-02-14 2013-08-20 At&T Intellectual Property I, L.P. Home automation system and method
US7721313B2 (en) 2006-06-30 2010-05-18 Microsoft Corporation Multi-DVR node communication
US20080010652A1 (en) 2006-07-07 2008-01-10 General Instrument Corporation Association of Network Terminals to a Common Account
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US20080180572A1 (en) 2007-01-29 2008-07-31 Microsoft Corporation Enabling access to closed captioning data present in a broadcast stream
JP4315986B2 (ja) * 2007-02-08 2009-08-19 富士通株式会社 発光ダイオードを備えた電子機器
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
WO2008144638A2 (en) * 2007-05-17 2008-11-27 Redstart Systems Inc. Systems and methods of a structured grammar for a speech recognition command system
US8160426B2 (en) 2007-10-12 2012-04-17 Rovi Guides, Inc. Storage management of a recording device in a multi-user system
US8521766B1 (en) 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8789107B2 (en) * 2008-01-09 2014-07-22 Verizon Patent And Licensing Inc. Intelligent automatic digital video recorder
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US20100265397A1 (en) 2009-04-20 2010-10-21 Tandberg Television, Inc. Systems and methods for providing dynamically determined closed caption translations for vod content
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20120253822A1 (en) * 2009-12-11 2012-10-04 Thomas Barton Schalk Systems and Methods for Managing Prompts for a Connected Vehicle
US20110161085A1 (en) 2009-12-31 2011-06-30 Nokia Corporation Method and apparatus for audio summary of activity for user
US9401099B2 (en) 2010-05-11 2016-07-26 AI Squared Dedicated on-screen closed caption display
US8750687B2 (en) 2010-06-16 2014-06-10 Verizon Patent And Licensing Inc. Method and apparatus for managing digital video recorders
US9633656B2 (en) 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US20120096497A1 (en) 2010-10-14 2012-04-19 Sony Corporation Recording television content
CN102064985B (zh) 2010-11-24 2013-04-24 深圳市同洲电子股份有限公司 基于互动电视应用的数字智能家电远程控制系统和方法
US20120136658A1 (en) 2010-11-30 2012-05-31 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US20120226981A1 (en) 2011-03-02 2012-09-06 Microsoft Corporation Controlling electronic devices in a multimedia system through a natural user interface
US20120260192A1 (en) 2011-04-11 2012-10-11 Detweiler Sean D Automated browser mode based on user and access point
CN102196207B (zh) 2011-05-12 2014-06-18 深圳市车音网科技有限公司 语音控制电视机的方法、装置和系统
WO2013012107A1 (ko) 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
US20130046773A1 (en) 2011-08-18 2013-02-21 General Instrument Corporation Method and apparatus for user-based tagging of media content
US10387536B2 (en) 2011-09-19 2019-08-20 Personetics Technologies Ltd. Computerized data-aware agent systems for retrieving data to serve a dialog between human user and computerized system
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
WO2013055518A1 (en) 2011-10-11 2013-04-18 Serge Media, Inc. System and methods for content-search carousel for mobile-computing devices
US9847083B2 (en) 2011-11-17 2017-12-19 Universal Electronics Inc. System and method for voice actuated configuration of a controlling device
US8954330B2 (en) 2011-11-28 2015-02-10 Microsoft Corporation Context-aware interaction system using a semantic model
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9836545B2 (en) 2012-04-27 2017-12-05 Yahoo Holdings, Inc. Systems and methods for personalized generalized content recommendations
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US20130332159A1 (en) 2012-06-08 2013-12-12 Apple Inc. Using fan throttling to enhance dictation accuracy
US9679330B2 (en) 2012-06-10 2017-06-13 Apple Inc. Interface for enhanced continuity of browsing experience
KR20130140423A (ko) 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US20130339859A1 (en) * 2012-06-15 2013-12-19 Muzik LLC Interactive networked headphones
US10620797B2 (en) 2012-06-29 2020-04-14 Spotify Ab Systems and methods for multi-context media control and playback
US9195383B2 (en) 2012-06-29 2015-11-24 Spotify Ab Systems and methods for multi-path control signals for media presentation devices
US9779757B1 (en) * 2012-07-30 2017-10-03 Amazon Technologies, Inc. Visual indication of an operational state
US9786294B1 (en) * 2012-07-30 2017-10-10 Amazon Technologies, Inc. Visual indication of an operational state
US9106957B2 (en) 2012-08-16 2015-08-11 Nuance Communications, Inc. Method and apparatus for searching data sources for entertainment systems
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
JP5986468B2 (ja) * 2012-09-25 2016-09-06 富士通テン株式会社 表示制御装置、表示システム及び表示制御方法
US9043210B1 (en) 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
US9230560B2 (en) 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
WO2014064531A1 (en) 2012-10-22 2014-05-01 Spotify Ab Systems and methods for pre-fetching media content
PL401346A1 (pl) 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Generowanie spersonalizowanych programów audio z zawartości tekstowej
US9337674B2 (en) 2012-11-02 2016-05-10 Chen-Source Inc. Desktop charger
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US9292832B2 (en) 2013-02-25 2016-03-22 Qualcomm Incorporated Collaborative intelligence and decision-making in an IoT device group
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9304736B1 (en) * 2013-04-18 2016-04-05 Amazon Technologies, Inc. Voice controlled assistant with non-verbal code entry
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9116619B2 (en) 2013-05-10 2015-08-25 Seagate Technology Llc Displaying storage device status conditions using multi-color light emitting diode
US9811087B2 (en) 2013-05-15 2017-11-07 Deere & Company Method for controlling a vehicle and a vehicle guidance system
US9843623B2 (en) 2013-05-28 2017-12-12 Qualcomm Incorporated Systems and methods for selecting media items
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US20140365887A1 (en) 2013-06-10 2014-12-11 Kirk Robert CAMERON Interactive platform generating multimedia from user input
US9324322B1 (en) 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US9554632B2 (en) 2013-06-21 2017-01-31 Logitech Europe S.A. Portable device case and accessories
US9431004B2 (en) 2013-09-05 2016-08-30 International Business Machines Corporation Variable-depth audio presentation of textual information
KR20150029974A (ko) * 2013-09-11 2015-03-19 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9443527B1 (en) 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US8988232B1 (en) 2013-10-07 2015-03-24 Google Inc. Smart-home hazard detector providing useful follow up communications to detection events
US9484025B2 (en) 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US9706007B2 (en) 2013-10-17 2017-07-11 Blue Syntax Consulting LLC System and method for querying disparate data sources in real time
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9804820B2 (en) 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9571645B2 (en) 2013-12-16 2017-02-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9721570B1 (en) 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN112102824B (zh) 2014-06-06 2024-08-02 谷歌有限责任公司 基于环境的主动聊天信息系统
US10440499B2 (en) * 2014-06-16 2019-10-08 Comcast Cable Communications, Llc User location and identity awareness
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104135697A (zh) 2014-07-31 2014-11-05 上海素控控制技术有限公司 基于蓝牙的智能共振音箱及其控制方法
US9767794B2 (en) 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
CN104135197A (zh) 2014-08-18 2014-11-05 济南大学 一种无传感器永磁同步电机调速控制策略
KR101579292B1 (ko) * 2014-08-29 2015-12-21 서울대학교 산학협력단 범용 음성인식 제어 장치 및 제어 방법
CN107004410B (zh) 2014-10-01 2020-10-02 西布雷恩公司 语音和连接平台
KR101891451B1 (ko) 2014-10-30 2018-08-24 어댑티브 스펙트럼 앤드 시그널 얼라인먼트, 인크. 무선랜(wlan)에 대한 성능 및 사용 정보를 제공하기 위한 방법 및 장치
WO2016066760A1 (en) 2014-10-31 2016-05-06 Piksel, Inc Personalised channel
JPWO2016092924A1 (ja) 2014-12-09 2017-09-14 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9811312B2 (en) 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US10284618B2 (en) 2015-04-28 2019-05-07 Apple Inc. Dynamic media content
US10038757B2 (en) 2015-04-29 2018-07-31 Microsoft Technology Licensing, Llc Providing personalized greetings on a digital assistant
US9766596B2 (en) 2015-07-08 2017-09-19 Google Inc. Wake up to a cast alarm or an alarm plus content prompt
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671665B2 (en) 2015-09-25 2020-06-02 Oath Inc. Personalized audio introduction and summary of result sets for users
JP6532021B2 (ja) 2015-09-29 2019-06-19 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3157265B1 (en) 2015-09-30 2019-10-23 Apple Inc. Wireless earbuds with electronic contacts
US10102201B2 (en) * 2015-11-30 2018-10-16 Soundhound, Inc. Natural language module store
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US20170221322A1 (en) * 2016-02-01 2017-08-03 Brian M. Ignomirello System and method of multimodal status indication
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US20170262537A1 (en) 2016-03-14 2017-09-14 Amazon Technologies, Inc. Audio scripts for various content
EP3594814B1 (en) 2016-04-18 2022-04-06 Google LLC Automated assistant invocation of appropriate agent
US9990002B2 (en) 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
WO2017203366A1 (en) 2016-05-27 2017-11-30 Mobile Synergy 26 International Limited Multifunctional connection systems for various devices and methods of use thereof
US10832684B2 (en) 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909063A (zh) * 2005-08-04 2007-02-07 哈曼贝克自动系统股份有限公司 集成语音对话系统
US20100185446A1 (en) * 2009-01-21 2010-07-22 Takeshi Homma Speech recognition system and data updating method
WO2012103321A2 (en) * 2011-01-28 2012-08-02 Amazon Technologies Inc. Audio-based application architecture
CN102148031A (zh) * 2011-04-01 2011-08-10 无锡大核科技有限公司 语音识别与交互系统及方法
CN102289374A (zh) * 2011-08-31 2011-12-21 中兴通讯股份有限公司 一种构建跨平台软件运行环境的方法及装置
CN103095325A (zh) * 2011-10-21 2013-05-08 通用汽车环球科技运作有限责任公司 具有远程服务接口的移动语音平台架构
US20150006182A1 (en) * 2013-07-01 2015-01-01 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and Methods for Dynamic Download of Embedded Voice Components
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN103501382A (zh) * 2013-09-17 2014-01-08 小米科技有限责任公司 语音服务提供方法、装置和终端
US20150331666A1 (en) * 2014-05-15 2015-11-19 Tyco Safety Products Canada Ltd. System and Method for Processing Control Commands in a Voice Interactive System
CN104506944A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景及语音助手的语音交互辅助方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113424256A (zh) * 2019-04-01 2021-09-21 谷歌有限责任公司 在可再充电设备上的播送请求和/或用户输入的自适应管理
CN113424256B (zh) * 2019-04-01 2024-06-18 谷歌有限责任公司 在可再充电设备上的播送请求和/或用户输入的自适应管理

Also Published As

Publication number Publication date
US10304450B2 (en) 2019-05-28
US20170332035A1 (en) 2017-11-16
US20180308324A1 (en) 2018-10-25
US10332516B2 (en) 2019-06-25
US10679623B2 (en) 2020-06-09
US20190279634A1 (en) 2019-09-12
US11341964B2 (en) 2022-05-24
US11990126B2 (en) 2024-05-21
US10861461B2 (en) 2020-12-08
US20200294504A1 (en) 2020-09-17
KR20200121915A (ko) 2020-10-26
US20220293104A1 (en) 2022-09-15
US11922941B2 (en) 2024-03-05
US20220358923A1 (en) 2022-11-10
US20170329573A1 (en) 2017-11-16
JP2023051963A (ja) 2023-04-11
US11935535B2 (en) 2024-03-19
US11355116B2 (en) 2022-06-07
KR102307976B1 (ko) 2021-09-30
US20170329572A1 (en) 2017-11-16
KR20190005885A (ko) 2019-01-16
US20230368789A1 (en) 2023-11-16
US20190279635A1 (en) 2019-09-12
EP3455719A1 (en) 2019-03-20
KR102168974B1 (ko) 2020-10-22
US10235997B2 (en) 2019-03-19
JP2019523918A (ja) 2019-08-29
WO2017197010A1 (en) 2017-11-16
US20170330429A1 (en) 2017-11-16
US10535343B2 (en) 2020-01-14

Similar Documents

Publication Publication Date Title
CN108604179A (zh) 设备上语音助理的实现
CN110826358B (zh) 动物情绪的识别方法、装置及存储介质
KR20190047445A (ko) 전자 장치 및 전자 장치에서 외부 장치를 이용한 태스크 수행 방법
JP2017010516A (ja) 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器
JP2020520206A (ja) アプリケーションエコシステムを備える、ウェアラブルマルチメディアデバイス及びクラウドコンピューティングプラットフォーム
CN107112014A (zh) 在基于语音的系统中的应用焦点
US9812104B2 (en) Sound providing method and electronic device for performing the same
CN110083411A (zh) 用于从模板生成用户界面的设备和方法
US20200193992A1 (en) Method of performing function of electronic device and electronic device using same
US20190235916A1 (en) Methods to present the context of virtual assistant conversation
US20200258517A1 (en) Electronic device for providing graphic data based on voice and operating method thereof
US10891959B1 (en) Voice message capturing system
CN111524501A (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
KR20170054868A (ko) 콘텐트를 제공하는 방법 및 이를 지원하는 전자 장치
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
US20190129517A1 (en) Remote control by way of sequences of keyboard codes
CN111739528A (zh) 一种交互方法、装置和耳机
Shazhaev et al. Personal voice assistant: from inception to everyday application
CN114827651B (zh) 信息处理方法、装置、电子设备及存储介质
KR20200040562A (ko) 사용자 발화를 처리하기 위한 시스템
JP2024507734A (ja) 音声類似度決定方法及び装置、プログラム製品
CN112002326A (zh) 一种交互方法及机器人设备
JPWO2020149031A1 (ja) 応答処理装置及び応答処理方法
CN113282472B (zh) 性能测试方法及装置
US12147808B2 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination