[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111161720A - 车辆及其控制方法 - Google Patents

车辆及其控制方法 Download PDF

Info

Publication number
CN111161720A
CN111161720A CN201910185588.5A CN201910185588A CN111161720A CN 111161720 A CN111161720 A CN 111161720A CN 201910185588 A CN201910185588 A CN 201910185588A CN 111161720 A CN111161720 A CN 111161720A
Authority
CN
China
Prior art keywords
name
threshold
name candidate
user
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910185588.5A
Other languages
English (en)
Other versions
CN111161720B (zh
Inventor
李京澈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN111161720A publication Critical patent/CN111161720A/zh
Application granted granted Critical
Publication of CN111161720B publication Critical patent/CN111161720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
    • H04M1/6083Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)
  • Transportation (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

本发明涉及车辆及其控制方法。一种车辆,包括:通信装置,被配置为与能够提供通信功能的终端进行通信;传感器,被配置为接收用户的语音;存储器,被配置为存储与用户的呼叫模式相关的用户模式;以及控制器,被配置为当接收到输入语音时搜索与输入语音相对应的至少一个姓名候选,基于用户模式确定至少一个姓名候选的置信度分数的阈值,并且基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名。

Description

车辆及其控制方法
技术领域
本公开涉及一种能够识别用户的语音并基于语音来识别执行特定功能的车辆及其控制方法。
背景技术
随着车辆技术的发展,除了基本的驾驶功能外,车辆还为用户提供了各种便捷的功能。
由于可以由车辆执行的功能是多样化的,因此由用户操纵的负担与日俱增,这分散了用户在驾驶时的注意力,并且从而威胁到安全驾驶。
因此,需要对用户界面进行研究和开发,以减少要由用户操纵的这种负载。特别地,期望识别用户的语音并执行与语音相对应的功能的语音识别技术能够有效地减少当应用于车辆时由用户操纵的负担。
发明内容
本公开提供了一种能够识别用户的语音并提供与用户的语音相对应的功能的车辆及其控制方法。
根据本公开的一个方面,车辆包括:通信装置,被配置为与能够提供通信功能的终端进行通信;语音输入装置,被配置为接收用户的语音;存储器,被配置为存储与用户的呼叫模式相关的用户模式;以及控制器,被配置为当接收到输入语音时搜索与输入语音相对应的至少一个姓名候选,基于用户模式确定至少一个姓名候选的置信度分数的阈值,并且基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名。
控制器可以从终端接收电话簿信息和呼叫历史信息,并且基于接收到的电话簿信息和呼叫历史信息来创建用户模式。
控制器可以从姓名候选中选择与输入语音相对应的姓名,每个姓名候选具有超过第一阈值的置信度分数。
当存在具有超过第一阈值的置信度分数的一个姓名候选时,控制器可以确定该一个姓名候选的置信度分数是否超过第二阈值,并且当该一个姓名候选的置信度分数超过第二阈值时,选择该一个姓名候选作为与输入语音相对应的姓名。
当超过第一阈值的一个姓名候选的置信度分数不超过第二阈值时,控制器可以请求用户确认该一个姓名候选。
当存在均具有超过第一阈值的置信度分数的多个姓名候选时,控制器可以基于多个姓名候选的置信度分数来确定多个姓名候选的优先级,将具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差与第三阈值进行比较,并且基于比较来选择与输入语音相对应的姓名。
当具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差超过第三阈值时,控制器可以选择具有第一优先级的姓名候选作为与输入语音相对应的姓名。
当具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值时,控制器可以请求用户确认具有第一优先级的姓名候选。
当接收到电话簿信息时,控制器可以在终端的电话簿信息中搜索与输入语音相对应的至少一个姓名候选,并且基于所搜索的至少一个姓名候选的数目来改变第一阈值、第二阈值或第三阈值中的至少一个。
当所搜索的至少一个姓名候选的数目不超过预设的第一参考数目时,控制器可以增大第二阈值并减小第三阈值。
控制器可以确定从电话簿搜索的至少一个姓名候选的类别的数目,并且基于类别的数目改变第一阈值、第二阈值和第三阈值中的至少一个。
当类别的数目不超过预设的第二参考数目时,控制器可以增加第二阈值并减小第三阈值。
控制器可以控制通信装置向终端发送关于所选姓名的控制命令。
根据本公开的另一方面,车辆的控制方法包括:接收用户的语音;当接收到输入语音时,搜索与输入语音相对应的至少一个姓名候选;基于用户模式确定至少一个姓名候选的置信度分数的阈值;以及基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名。
控制方法还可以包括从终端接收电话簿信息和呼叫历史信息,并且基于所接收的电话簿信息和呼叫历史信息创建用户模式。
基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名可以包括:从姓名候选中选择与输入语音相对应的姓名,每个姓名候选具有超过第一阈值的置信度分数。
基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名可以包括:当存在具有超过第一阈值的置信度分数的一个姓名候选时,确定该一个姓名候选的置信度分数是否超过第二阈值;并且当该一个姓名候选的置信度分数超过第二阈值时,选择该一个姓名候选作为与输入语音相对应的姓名。
控制方法还可以包括,当超过第一阈值的一个姓名候选的置信度分数不超过第二阈值时,请求用户确认该一个姓名候选。
基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名可以包括:当存在均具有超过第一阈值的置信度分数的多个姓名候选时,基于多个姓名候选的置信度分数来确定多个姓名候选的优先级;将具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差与第三阈值进行比较;并且基于比较来选择与输入语音相对应的姓名。
基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名可以包括:当具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差超过第三阈值时,选择具有第一优先级的姓名候选作为与输入语音相对应的姓名。
基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名可以包括:当具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值时,请求用户确认具有第一优先级的姓名候选。
搜索至少一个姓名候选可以包括:当接收到电话簿信息时,搜索终端的电话簿信息,以搜索与输入语音相对应的至少一个姓名候选;基于用户模式确定至少一个姓名候选的置信度分数的阈值;以及基于所搜索的至少一个姓名候选的数目来改变第一阈值、第二阈值和第三阈值中的至少一个。
基于所搜索的至少一个姓名候选的数目来改变第一阈值、第二阈值和第三阈值中的至少一个可以包括:当所搜索的至少一个姓名候选的数目不超过预设的第一参考数目时,增大第二阈值并减少第三阈值。
基于用户模式确定至少一个姓名候选的置信度分数的阈值可以包括:确定从电话簿搜索的姓名候选的类别的数目,并且基于类别的数目改变第一阈值、第二阈值和第三阈值中的至少一个。
改变第一阈值、第二阈值和第三阈值中的至少一个可以包括,当类别的数目不超过预设的第二参考数目时,增加第二阈值并减少第三阈值。
控制方法还可以包括向终端发送关于所选姓名的控制命令。
附图说明
通过参考附图详细描述本公开的示例性实施方式,本公开的上述和其他目的、特征和优点对于本领域普通技术人员将变得更加明显,其中:
图1是根据本公开的实施方式的车辆的控制框图;
图2示出根据本公开的实施方式的车辆的内部特征;
图3是用于说明根据本公开的实施方式的控制器的示图;
图4和图5示出根据本公开的实施方式的示例性识别结果;
图6示出根据本公开的实施方式的示例性用户模式;
图7至图8示出根据本公开的实施方式的显示在显示器上的示例性屏幕;以及
图9和图10是示出根据本公开的实施方式的车辆的控制方法的流程图。
具体实施方式
在整个说明书中,相同的数字表示相同的元件。并不描述本公开实施方式的所有元件,并且将省略对本领域中公知的内容或实施方式中彼此重叠的内容的描述。在整个说明书中使用的术语,诸如“~部件”、“~模块”、“~构件”、“~块”等,可以在软件和/或硬件中实现,并且多个“~部件”、“~模块”、“~构件”或“~块”可以在单个元件中实现,或者单个“~部件”、“~模块”、“~构件”或“~块”可以包括多个元件。
还应当理解,术语“连接”或其派生是指直接连接和间接连接,并且间接连接包括通过无线通信网络的连接。
除非另有说明,术语“包括”或“包含”是包容性的或开放式的,并且不排除附加的、未叙述的元件或方法步骤。
在整个说明书中,当提及一个构件位于另一构件“上”时,这不仅意味着该构件位于另一构件附近,而且意味着在两个构件之间存在第三构件。
应当理解,尽管术语第一、第二、第三等在本文中可以用于描述各种元件、组件、区域、层和/或部,但这些元件、组件、区域、层和/或部不应受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部与另一区域、层或部区分开来。
应当理解,除非上下文另有明确指示,单数形式“一(a)”、“一个(an)”和“该(the)”包括复数指代。
用于方法步骤的参考标号仅为了便于解释,而不是为了限制步骤的顺序。因此,除非上下文另有明确说明,否则书面顺序可以采用其他方式。
现在将参考附图描述本公开的原理和实施方式。
图1是根据本公开的实施方式的车辆的控制框图,并且图2示出了根据本公开的实施方式的车辆的内部特征。
参考图1和图2,根据实施方式的车辆1可以包括语音输入装置110、通信装置120、扬声器151、显示器152、控制器130、存储器140和输入装置160。
车辆1可以通过语音输入装置110从用户接收控制命令的语音。语音输入装置110可以是传感器,并且可以将输入语音转换为电信号并输出电信号。为此,语音输入装置110是硬件装置,并且可以由麦克风实现,但不限于此。
为了更有效地接收语音,语音输入装置110可以安装在车顶蓬64上,如图2所示,或者安装在仪表板61或方向盘65上,但不限于此。此外,语音输入装置110可以安装在适合于接收用户的语音的任何地方。
通信装置120可以是用各种电子电路实现的硬件装置,以经由无线或陆线(landline)连接发送和接收信号。
通信装置120可以与外部服务器或终端2进行通信。通信装置120可以与终端2交换各种信息。具体地,通信装置120可以从终端2接收电话簿信息和呼叫历史信息。
电话簿信息可以包括姓名、按姓名的电话号码、按姓名的收藏夹设置和按姓名的类别。按姓名的类别是指按姓名的电话号码的类型,并且例如可以包括“移动”、“家庭”和“办公室”中的至少一个。
呼叫历史信息可以包括关于姓名、按姓名发送和接收的呼叫以及按姓名发送和接收的呼叫的时间的信息。呼叫历史信息可以在来自最近呼叫的时间序列中列出。呼叫历史信息的列表可以被单独地划分为已发送呼叫和已接收呼叫,或者可以在时间序列中列出,而不管呼叫是已发送呼叫还是已接收呼叫。
终端2是指能够执行通信的装置。终端2可以由能够通过网络访问车辆1的计算机或便携式终端实现。计算机可以包括,例如具有在其上安装WEB浏览器的笔记本、膝上型笔记本、平板个人计算机(平板电脑),触屏平板电脑等,并且便携式终端可以是保证便携性和移动性的无线通信装置,包括任何类型的基于手持的无线通信装置,诸如个人通信系统(PCS)、全球移动通信系统(GSM)、个人数字蜂窝(PDC)、个人手持电话系统(PHS)、个人数字助理(PDA)、国际移动电信(IMT)-2000装置、码分多址(CDMA)-2000装置、W-CDMA装置、无线宽带互联网(WiBro)终端、智能电话等,以及可穿戴装置,诸如手表、戒指、手镯、项链、眼镜、隐形眼镜、头戴式装置(HMD)等。
通信装置120可以包括能够与外部装置进行通信的一个或多个通信模块,例如短距离通信模块、有线通信模块和无线通信模块中的至少一个。
短距离通信模块可以包括用于在无线通信网络上发送和接收短距离内的信号的各种短距离通信模块,诸如蓝牙模块、红外通信模块、射频识别(RFID)通信模块、无线本地接入网(WLAN)通信模块、近场通信(NFC)模块、Zigbee通信模块等。
有线通信模块不仅可以包括各种有线通信模块中的一个,诸如局域网(LAN)模块、广域网(WAN)模块或增值网络(VAN)模块,而且可以包括各种电缆通信模块中的一个,诸如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、数字视频接口(DVI)、推荐标准(RS)232、电源线或普通旧电话服务(POTS)。
无线通信模块可以包括无线保真(WiFi)模块、无线宽带(Wibro)模块和/或用于支持各种无线通信方案的任何无线通信装置,诸如全球移动通信系统(GSM)模块、码分多址(CDMA)模块、宽带码分多址(WCDMA)模块、通用移动电信系统(UMTS)、时分多址(TDMA)模块、长期演进(LTE)模块等。
无线通信模块可以包括用于信号发送和接收的天线、发射机和接收机。
此外,无线通信模块可以包括信号转换模块,用于将数字控制信号调制为模拟无线电信号,并通过无线通信接口将接收到的模拟无线电信号解调为数字控制信号。
通信装置120还可以包括用于在车辆1中的电子装置之间通信的本地通信模块。车辆1的本地通信可以使用诸如控制器局域网(CAN)、本地互连网络(LIN)、FlexRay、以太网等协议。
通信装置120可以通过无线通信模块与外部服务器交换数据,或者通过短距离通信模块或有线通信模块与移动装置交换数据。
位于车辆1的仪表板61的中心区域中的中控仪表盘62可以具有用于显示对车辆执行包括音频播放、视频播放、导航或呼叫功能的控制所需的屏幕的显示器152和用于从用户接收控制命令的输入装置160。
显示器152可以用各种显示器中的一种来实现,诸如阴极射线管(CRT)、数字光处理(DLP)面板、等离子体显示面板(PDP)、液晶显示(LCD)面板、电致发光(EL)面板、电泳显示(EPD)面板、电致变色显示(ECD)面板、发光二极管(LED)面板、有机发光二极管(OLED)面板等。
输入装置160可以被用户操纵以输入控制车辆1的命令。输入装置160可以在与显示器152相邻的区域中以硬键类型实现,如图2所示。如果显示器152以触摸屏类型实现,则显示器152还可以用作输入装置160。
输入装置160还可以设置在方向盘上,以允许驾驶员输入控制车辆1的命令,而无需将他/她的手从方向盘上取下。
此外,输入装置160可以设置在旋钮式或硬键式的中心输入装置43中,并且可以包括可以输入与对车辆1的控制相关的命令的任何组件。
车辆1可以配备有扬声器151,用于输出提供用户期望的服务所需的声音。例如,扬声器151可以设置在驾驶员座椅侧的车门71L或乘客座椅侧的车门71R的内侧。
扬声器151可以输出用于支持呼叫功能的声音、支持导航方向的声音、包括在音频/视频内容中的声音、用于提供用户期望的信息或服务的声音、响应于用户所说的话而创建的声音等。
控制器130可以对车辆1的内部组件执行总体控制。
控制器130可以控制通信装置120与终端2交换各种信息。具体地,控制器130可以控制通信装置120从终端2接收包括电话簿信息和呼叫历史信息的各种信息。
控制器130可以基于从终端2接收到的电话簿信息和呼叫历史信息来创建用户模式。具体地,控制器130可以通过基于电话簿信息和呼叫历史信息提取或收集确定用户的呼叫历史的特征所需的信息来创建用户模式。
用户模式可以指关于用户的呼叫模式的信息,并且特别地,指每次用户的呼叫历史的特征信息。用户模式可以包括电话簿信息的姓名、按姓名的类别、按姓名的呼叫次数、按姓名的发送呼叫时间、按姓名的接收呼叫时间、按姓名的发送类别的呼叫时间、按姓名的接收类别的呼叫时间等。用户模式还可以包括确定用户的呼叫模式所需的各种信息,例如按姓名的置信度分数、按姓名的置信度分数的至少一个阈值、按姓名的推荐动作、是否按姓名执行推荐动作等。
当通过语音输入装置110输入用户的语音时,控制器130可以控制通信装置120向终端2发送控制与输入语音相对应的姓名的命令。
此时,控制器130可以控制通信装置120向终端2发送命令,以向与用户的语音相对应的姓名发送呼叫。控制器130可以发送与具有匹配电话号码的用户的语音相对应的姓名,并且通过通信装置120向终端2发送用于发送对该姓名的呼叫的命令。
为此,控制器130可以搜索与用户的语音相对应的至少一个姓名候选,并且基于用户模式确定姓名候选的置信度分数的阈值。控制器130可以基于所确定的阈值从至少一个姓名候选中选择与输入语音相对应的姓名。这将在后面详细描述。
控制器130可以用存储器(未示出)和处理器(未示出)实现,存储器存储用于控制车辆1中的组件的操作的算法或关于实现该算法的程序的数据,且处理器使用存储在存储器中的数据执行上述操作。存储器和处理器可以在单独的芯片中实现。可选地,存储器和处理器可以在单个芯片中实现。
控制器130可以存储各种信息,诸如从终端2接收的电话簿信息和呼叫历史信息、用户模式等。
此外,存储器140可以存储关于语音识别的各种信息,诸如声学模型、语言模型、单词信息等。
存储器140可以用非易失性存储器装置(诸如高速缓存、只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM))、易失性存储器装置(诸如随机存取存储器(RAM))或存储介质(诸如硬盘驱动器(HDD)或光盘(CD)ROM)中的至少一种来实现,但不限于此。存储器140可以是相对于控制器130用与前述处理器分离的芯片实现的存储器,或者可以在单个芯片中与处理器集成地实现。
可以添加或省略与图1所示的车辆1的组件的性能相对应的至少一个组件。此外,对于本领域普通技术人员来说显而易见的是,组件的相对位置可以改变以对应于系统性能或结构。
图1所示的车辆100的组件可以用软件或硬件来实现,诸如现场可编程门阵列(FGGA)和专用集成电路(ASIC)。
现在将详细描述控制器130的操作。
图3是用于说明根据本公开的实施方式的控制器的示图。
参考图3,控制器130可以包括一个或多个处理器,其可以包括用于从语音输入装置110接收的输入信号中消除噪声的预处理器131、用于识别用户的输入语音并以文本格式输出话语的语音识别处理器132以及用于从识别结果中选择与用户的语音相对应的姓名的后处理器133。
预处理器131、语音识别处理器132和后处理器133分别可以是执行软件指令的电路,由此其执行下文所述的各种功能。
一个或多个处理器中的预处理器131可以对从语音输入装置110接收的输入信号执行噪声消除。预处理器131还可以通过诸如信号放大的各种信号处理从输入信号中消除噪声。
预处理器131可以监控从语音输入装置110发送的输入信号,以确定是否输入了用户的语音。
到目前为止,操纵了一个即按即说(PTT)按钮以打开麦克风,或者通过说出额外的命令来输入触发信号以激活语音识别,以便用户输入语音。在本公开的实施方式中,车辆1具有总是打开的语音输入装置110,并且预处理器131可以实时监控通过语音输入装置110输入的信号以确定是否输入了用户的语音。
当确定输入了用户的语音时,预处理器131可以从输入信号中消除噪声,并将经过信号处理的语音信号发送到语音识别处理器132。
一个或多个处理器中的语音识别处理器132可以从输入语音信号识别用户产生的语音并输出识别结果。从语音识别处理器132输出的识别结果可以是文本格式的话语。
为此,语音识别处理器132可以包括语音识别引擎,其可以将语音识别算法应用于输入语音以识别用户产生的语音,并产生识别结果。
语音识别处理器132可以采用对语音的信号特性进行建模和比较的声学模型,以及对单词或音节的语言顺序关系进行建模的语言模型。为此,存储器140可以存储声学模型数据库(DB)141和语言模型DB 142。
对单词或音节的语言顺序关系建模的语言模型可以通过将构成语言的单元之间的顺序关系应用于从语音识别获得的单元来减少声学歧义和识别中的错误。语言模型可以包括统计语言模型和基于有限状态自动机(FSA)的模型。作为统计语言模型,使用单词的链概率,诸如一元模型、二元模型、三元模型等。
语音识别处理器132可以使用上述方法中的任何一种来识别语音。例如,可以使用具有应用于其上的隐藏马尔可夫模型的声学模型,或者可以使用组合声学模型和语言模型的N最佳搜索方法。N最佳搜索方法可以包括使用声学模型和语言模型搜索多达N个识别结果候选,并重新评估候选的优先级,从而提高识别性能。
语音识别处理器132可以计算置信度分数以确保对识别结果的置信度。置信度分数是指示语音识别结果的可靠性的度量。例如,识别结果(音素或单词)可以由相对于从其他音素或单词产生语音的概率的相对值来定义。因此,置信度分数可以用0至1或0至10,00的范围内的值来表示,而不限于此。
此外,语音识别处理器132可以从文本格式的话语中提取姓名,该话语是从用户的语音输出的。在这种情况下,语音识别处理器132可以搜索与用户的语音相对应的姓名的至少一个姓名候选,并且识别结果可以包括该至少一个姓名候选。识别结果还可以包括姓名候选的置信度分数。
例如,利用上述N种最佳搜索方法,语音识别处理器132可以搜索多达N个姓名候选。语音识别处理器132可以通过评估N个姓名候选的优先级并计算N个姓名候选的置信度分数来输出识别结果。
由语音识别处理器132产生的识别结果可以被发送到一个或多个处理器中的后处理器133。后处理器133可以从识别结果中选择与用户的语音相对应的姓名,并且控制通信装置120向终端2发送与所选姓名相关的各种控制命令。
例如,后处理器133可以控制通信装置120向终端2发送命令,以向对应于用户的语音的姓名发送呼叫。后处理器133可以发送与具有匹配电话号码的用户的语音相对应的姓名,并且通过通信装置120向终端2发送用于发送对该姓名的呼叫的命令。
在这方面,后处理器133可以从识别结果中包括的至少一个姓名候选中选择与用户的语音相对应的姓名。
具体地,后处理器133可以基于预设阈值从识别结果中包括的至少一个姓名候选中选择与用户的语音相对应的姓名。预设阈值可以指识别结果的置信度分数的至少一个阈值。
后处理器133可以将至少一个阈值存储在置信度分数DB 144中。识别结果的阈值可以针对每个姓名或输入语音的用户来存储。
后处理器133可以从置信度分数超过预设的第一阈值的姓名候选中选择与用户的语音相对应的姓名,从而能够执行与所选姓名相关的操作。第一阈值指的是确保识别结果中的最小置信度的置信度分数。
如果在识别结果中包括的至少一个姓名候选中不存在置信度分数超过第一阈值的姓名候选,则后处理器133可以拒绝识别结果,因为不能确保识别结果的置信度。即,可以确定为识别失败。在这种情况下,后处理器132可以通过显示器152或扬声器151要求用户重新输入语音。
此外,如果在识别结果中包括的至少一个姓名候选中存在其置信度分数超过第一阈值的一个姓名候选,则后处理器133可以确定姓名候选的置信度分数是否超过第二阈值,并且基于该确定选择与用户的语音相对应的姓名。
第二阈值指的是确保识别结果中的最大置信度的置信度分数,该第二阈值高于第一阈值。
具体地,如果姓名候选具有超过第一阈值甚至超过第二阈值的置信度分数,则后处理器133可以确定姓名候选确保高置信度,并且选择姓名候选作为与输入语音相对应的姓名。
如果姓名候选具有超过第一阈值但不超过第二阈值的置信度分数,则后处理器133可以确定姓名候选不确保高置信度,并以视觉方式或听觉方式请求用户以确认姓名候选。
在这方面,后处理器133可以控制显示器152或扬声器151请求用户确认关于姓名候选的信息,并且如果用户确认姓名候选,则后处理器133可以选择姓名候选作为与用户的语音相对应的姓名。
如果存在置信度分数超过第一阈值的多个姓名候选,则后处理器133可以基于多个姓名候选的置信度分数来确定它们的优先级。例如,后处理器133可以比较具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差,并且基于该比较,选择与用户的语音相对应的姓名。
第三阈值可以指的是确保对识别结果之间的置信度分数差的置信度的阈值,并且可以具有低于第一阈值和第二阈值的置信度分数。
如果具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差超过第三阈值,这意味着确保具有第一优先级的姓名候选的置信度,因此后处理器133可以选择具有第一优先级的姓名候选作为与用户的语音相对应的姓名。
如果具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值,这意味着不能确保具有第一优先级的姓名候选的置信度,因此后处理器133可以以视觉或听觉的方式请求用户以确认具有第一优先级的姓名候选。
换句话说,后处理器133可以选择具有第一优先级的姓名候选作为与用户的语音相对应的姓名,而不是立即选择,而是在用户对具有第一优先级的姓名候选进行确认之后选择。
此外,如果具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值,则后处理器133可以确定对于具有第一优先级的姓名候选是否存在多个类别。
如果不存在用于具有第一优先级的姓名候选的多个类别,即,如果具有第一优先级的姓名候选具有单个类别,则后处理器133可以以视觉或听觉的方式请求用户以确认具有第一优先级的姓名候选。
在具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值的情况下,这意味着不能确保具有第一优先级的姓名候选的置信度,因此后处理器133可以不立即选择具有第一优先级的姓名候选作为与用户的语音相对应的姓名,而是请求用户确认。当用户进行确认时,后处理器133可以通过选择具有第一优先级的姓名候选作为与用户的语音相对应的姓名来提高语音识别的准确性。
如果存在针对具有第一优先级的姓名候选的多个类别,即,如果具有第一优先级的姓名候选具有多个类别,则后处理器133可以基于所存储的用户模式确定多个类别中的每个类别的概率值。
在这方面,后处理器133可以基于用户模式中按姓名的类别的发送时间或接收时间中的至少一个来确定多个类别中的每一个的概率值。
后处理器133可以基于多个类别的概率值来选择具有最高概率值的类别,并且确定所选择的类别的概率值是否超过预设置信度分数。
如果所选类别的概率值超过预设置信度分数,则后处理器133可以对所选类别执行控制。例如,后处理器133可以发送命令以向将姓名候选的所选类别与第一优先级匹配的电话号码发送呼叫。
在这种情况下,后处理器133可以基于反映用户的呼叫特征的用户模式发送更准确的命令以发送呼叫。因此,可以基于语音识别提供更准确的呼叫功能,从而增加可用性和舒适性。
如果所选类别的概率值不超过预设的置信度分数,则后处理器133可以要求用户选择类别。在这种情况下,后处理器133不立即执行对所选类别的控制,而是可以通过为用户显示预设数目的类别候选来请求用户选择类别。
当用户选择类别时,后处理器133可以对所选择的类别执行控制。例如,后处理器133可以发送命令以向电话号码发送呼叫,该电话号码将姓名候选的所选类别与第一优先级相匹配。
这可以使得能够提供更精确的用户-语音识别功能,并且随着语音识别的成功率的提高,用户舒适性也可以提高。
此外,后处理器133可以改变预设阈值。具体地,后处理器133可以基于与用户的呼叫模式相关的用户模式来确定至少一个阈值。
在这方面,后处理器133可以基于终端2的电话簿信息和呼叫历史信息来创建用户模式,并且将用户模式存储在用户模式DB 143中。
具体地,后处理器133可以通过基于电话簿信息和呼叫历史信息提取或收集确定用户的呼叫历史的特征所需的信息来创建用户模式。
用户模式可以指关于用户的呼叫模式的信息,并且具体地,指每次用户的呼叫历史的特征信息。用户模式可以包括电话簿信息的姓名、按姓名的类别、按姓名的呼叫次数、按姓名的发送呼叫时间、按姓名的接收呼叫时间、按姓名的发送类别的呼叫时间、按姓名的接收类别的呼叫时间等。用户模式还可以包括确定用户的呼叫模式所需的各种信息,例如按姓名的置信度分数、按姓名的置信度分数的至少一个阈值、按姓名的推荐动作、是否按姓名执行推荐动作等。
此外,后处理器133可以在终端2的电话簿中搜索与用户的语音相对应的至少一个姓名候选,并且基于所搜索的姓名候选的数目来改变至少一个阈值。具体地,后处理器133可以改变第一阈值、第二阈值或第三阈值中的至少一个。
更具体地,如果搜索的姓名候选的数目不超过预设的第一参考数目,则后处理器133可以增大第二阈值。存在等于或小于所搜索的姓名候选的预设第一参考数目可能意味着在电话簿中不存在类似的姓名。在这种情况下,搜索与用户的语音相对应的准确姓名的概率可能变得比电话簿中存在许多相似姓名的情况下高。也就是说,这可能是具有高识别率的情况。因此,后处理器133可以通过增大第二阈值来减少识别结果中包括的姓名候选的数目,并且可以使得能够立即执行对所选姓名的控制。这可以增加用户的可用性。
如果搜索的姓名候选的数目不超过预设的第一参考数目,则后处理器133可以降低第三阈值。在这种情况下,即使当识别结果之间的置信度分数差很小时,也可以在不请求用户确认的情况下选择具有第一优先级的姓名候选,从而增加用户的可用性。
如果搜索的姓名候选的数目大于预设的第一参考数目,则后处理器133可以降低第一阈值和第二阈值中的至少一个。存在多于预设的姓名候选的第一参考数目的搜索可能意味着在电话簿中有许多相似的姓名。在这种情况下,搜索与用户的语音相对应的准确姓名的概率可能变得低于电话簿中几乎没有类似姓名的情况。也就是说,这可能是识别率低的情况。
因此,后处理器133可以通过减小第一阈值和第二阈值中的至少一个来增大识别结果中包括的姓名候选的数目,并且可以防止对所选姓名的立即控制。这可以提高语音识别的准确率和识别率。
如果搜索的姓名候选的数目大于预设的第一参考数目,则后处理器133可以增大第三阈值。在这种情况下,即使当识别结果之间的置信度分数差很大时,也可以请求用户确认,从而提高语音识别的准确性和识别率。
此外,后处理器133可以确定在终端2的电话簿信息中搜索的姓名候选的类别的数目,并且基于所确定的类别的数目来改变至少一个阈值。
具体地,如果所搜索的姓名候选的类别的数目不超过预设的第二参考数目,则后处理器133可以增加第一阈值和第二阈值中的至少一个。
存在等于或小于所搜索的姓名候选的类别的预设第二参考数目可能意味着与该姓名匹配的电话号码的类型很少。在这种情况下,提供满足用户需求的功能的概率可能高于存在多种与姓名匹配的电话号码的情况。也就是说,这可能是具有高识别率的情况。
因此,后处理器133可以通过增大第一阈值和第二阈值中的至少一个来减少识别结果中包括的姓名候选的数量,并且可以促进对所选姓名的立即控制。这可以增加用户的舒适性。
如果所搜索的姓名候选的类别的数目不超过预设的第二参考数目,则后处理器133可以降低第三阈值。在这种情况下,即使识别结果之间的置信度分数差很小,也可以在不询问用户确认的情况下选择具有第一优先级的姓名候选,从而增加用户的舒适性。
如果所搜索的姓名候选的类别的数目大于预设的第二参考数目,则后处理器133可以降低第一阈值和第二阈值中的至少一个。
存在多于所搜索的姓名候选的类别的预设第二参考数目可能意味着有许多类型的电话号码与姓名匹配。在这种情况下,提供满足用户需求的功能的概率可能高于存在与姓名匹配的小种类电话号码的情况。也就是说,这可能是识别率低的情况。
因此,后处理器133可以通过减小第一阈值和第二阈值中的至少一个来增加识别结果中包括的姓名候选的数目。后处理器133可以通过不立即执行对所选姓名的控制而是请求用户确认来增加语音识别的准确性和识别率。
如果所搜索的姓名候选的类别的数目大于预设的第二参考数目,则后处理器133可以增大第三阈值。在这种情况下,即使当识别结果之间的置信度分数差大时,也可以请求用户确认,并且可以选择由用户确认的姓名候选。这可以提高语音识别的准确率和识别率。
后处理器133可以更新通过将阈值存储在置信度分数DB 144中而改变的至少一个阈值。此外,后处理器133可以为改变的阈值创建用户模式,或者通过将包括在用户模式中的阈值改变为改变的阈值来更新存储的用户模式。
预处理器131、语音识别处理器132和后处理器133可以分别包括单独的存储器和处理器,或者可以在它们之间共享一些存储器和处理器。
存储器和处理器可以以多个使用,在这种情况下,多个存储器和处理器可以集成在单个芯片中或者布置在物理上分离的位置。
可以添加或省略至少一个组件以对应于图3所示的控制器130的组件的性能。此外,对于本领域的普通技术人员来说显而易见的是,组件的相对位置可以改变以对应于系统性能或结构。
图4示出根据本公开的实施方式的示例性识别结果。
参考图4,当用户说出“呼叫James”时,控制器130可以从用户的语音中提取‘James’。
控制器130可以搜索用户所说的‘James’的至少一个姓名候选,并计算各个姓名候选的置信度分数。
控制器130可以从置信度分数超过预设的第一阈值T1的姓名候选(James、Jason、Jameson、Jaden、Jane、Mason和Jeremy)中选择与用户的语音相对应的姓名,并且从识别结果中排除置信度分数不超过第一阈值T1的姓名候选(Jade、Johnson和John)。第一阈值T1可以具有置信度值X8和X7之间的值。
由于存在置信度分数超过预设的第一阈值T1的多个姓名候选,因此控制器130可以确定具有第一优先级的姓名候选James和具有第二优先级的姓名候选Jason之间的置信度分数差是否超过第三阈值T3。
当具有第一优先级的姓名候选James和具有第二优先级的姓名候选Jason之间的置信度分数差超过第三阈值T3时,控制器130可以根据具有第一优先级的姓名候选James的置信度分数是否超过第二阈值T2来确定是否请求用户确认。
当具有第一优先级的姓名候选James的置信度分数超过第二阈值T2时,可以选择具有第一优先级的姓名候选James作为与用户的语音相对应的姓名。
控制器130可以发送命令以向通信装置120发送对所选姓名James的呼叫,以便对匹配‘James’的号码进行呼叫。
另一方面,当具有第一优先级的姓名候选James的置信度分数不超过第二阈值T2时,这意味着选择具有第一优先级的姓名候选James的置信度没有保证,因此控制器130可以请求用户确认具有第一优先级的姓名候选James。
当具有第一优先级的姓名候选James和具有第二优先级的姓名候选Jason之间的置信度分数差不超过第三阈值T3时,控制器130可以以视觉或听觉的方式请求用户以确认具有第一优先级的姓名候选James。因此,在不确保置信度的情况下,控制器130可以通过适当地请求用户的确认来提高语音识别的准确性。
图5示出根据本公开的实施方式的示例性识别结果。
参考图5,当用户说话“呼叫James”时,控制器130可以从用户的语音中提取‘James’。控制器130可以搜索用户所说的‘James’的至少一个姓名候选,并计算各个姓名候选的置信度分数。
在终端2的电话簿信息中与‘James’相对应的至少一个姓名候选的数目不超过预设的第一数目的情况下,并且在搜索的姓名候选的类别的数目不超过预设的第二数目的情况下,控制器130可以增加第一阈值T1和第二阈值T2并且减小第三阈值T3。
控制器130可以通过增加第一阈值T1来将要被遗漏的姓名候选的数目从两个(Johnson和John)增加到五个(Mason、Jeremy、Jade、Johnson、和John)。换句话说,控制器130可以减少要考虑的姓名候选的数量。
此外,控制器130可以通过增加第二阈值T2来促进对所选姓名的立即控制。例如,当用户处于具有高识别率的条件下时,可以在没有用户的确认的情况下执行对所选姓名的控制。
此外,即使当具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差小时,控制器130可以通过减小第三阈值T3来促进对所选姓名的立即控制。在这种情况下,即使当识别结果之间的置信度分数差很小时,也可以在不请求用户确认的情况下选择具有第一优先级的姓名候选,从而增加用户的可用性。
这可以使控制器130能够检测用户处于具有相对高的识别率的条件下,并且提高语音识别的处理速度。因此,可以实现更准确和快速的语音识别。
图6示出根据本公开的实施方式的示例性用户模式。
参考图6,当用户输入语音时,控制器130可以响应于输入语音创建具有所选姓名的用户模式。
控制器130可以包括并存储用户模式中的信息,当用户使用语音识别功能时,这些信息已经被用作控制的基础。例如,控制器130可以包括用户模式中的信息,这些信息已经用于选择与输入的用户语音相对应的姓名。
例如,控制器130可以存储用于所选姓名‘HongGildong’的用户模式,该用户模式包括类别信息,例如移动、置信度分数(例如5100)、第一阈值(例如3000)、第二阈值(例如5000)和第三阈值(例如500)。可以创建用户模式以进一步包括推荐动作,例如直接呼叫以及是否执行该动作(例如,是)。
在这种情况下,推荐动作可以指示由控制器130生成的控制命令的类型,其可以包括在不请求用户确认的情况下生成向所选姓名发送呼叫的命令(例如,直接呼叫)的情况、在用户确认姓名之后生成向姓名发送呼叫的命令(例如,确认呼叫)的情况、以及在请求用户从多个候选中选择姓名之后生成向所选姓名发送呼叫的命令(例如,N最佳呼叫)的情况。
此外,每当用户使用语音识别功能时,控制器130可以为所选姓名(例如,HongGildong)创建用户模式,利用用户模式建立数据库,并且在将来确定阈值时使用该数据库。因此,可以提供适合于每个人的环境的语音识别功能。
图7示出根据本公开的实施方式的在显示器上显示的示例性屏幕。
参考图7,当从用户输入语音(例如,“呼叫James”)时,控制器130可以通过显示与输入语音的所说姓名James相对应的至少一个姓名候选152a来请求用户选择姓名。
用户可以选择姓名候选152a中的一个,并且在从用户接收到与用户的语音相对应的姓名时,控制器130可以向通信装置120发送关于所选姓名的控制命令。具体地说,控制器130可以向通信装置120发送命令以发送对所选姓名的呼叫。
此外,控制器130不仅可以请求选择与用户的语音相对应的姓名,而且可以请求选择该姓名的类别。
具体地,当对应于用户的语音的姓名的类别的概率值不超过预设置信度分数时,控制器130可以请求用户选择类别。在这种情况下,控制器130可以通过为用户显示预设数量的类别候选来请求用户选择类别。
当用户选择类别时,控制器130可以对所选择的类别执行控制。例如,控制器130可以发送命令以向与所选类别相匹配的电话号码发送呼叫。
图8示出根据本公开的实施方式的在显示器上显示的另一示例性屏幕。
参考图8,控制器130可以以视觉方式请求用户以确认与用户的语音(例如,“呼叫James”)相对应的姓名候选(例如,James)。控制器130可以通过显示关于姓名候选的信息来请求用户确认所选姓名候选,例如James。关于所选姓名候选(例如,James)的信息可以包括姓名(例如,James)、类别(例如,移动)和电话号码(例如,01234567890)。
当所显示的姓名对应于输入语音中的姓名时,用户可以通过显示在显示器152上的确认界面152b或未确认界面152c来确认或不确认姓名候选。
当用户确认姓名候选时,可以选择姓名候选作为与用户的语音相对应的姓名,并且对所选姓名执行控制。例如,控制器130可以发送命令以向与所选姓名匹配的电话号码发送呼叫。
图9是示出根据本公开的实施方式的车辆的控制方法的流程图。
参考图9,在实施方式中,在701中,车辆1确定是否从用户输入了语音。
当确定从用户输入了语音时(在701中为“是”),在702中,车辆1执行语音识别并搜索与输入的语音相对应的姓名。具体地,车辆1可以搜索与输入语音相对应的至少一个姓名候选。
在703中,车辆1计算至少一个姓名候选中的每一个的置信度分数。例如,车辆1可以通过使用N最佳搜索方法来搜索多达N个姓名候选。车辆1可以评估N个姓名候选的优先级并输出识别结果,并且计算N个姓名候选的置信度分数。
随后,在704中,车辆1确定每个姓名候选的置信度分数是否超过预设的第一阈值,并且确定在搜索的姓名候选中是否存在置信度分数超过第一阈值的姓名候选。第一阈值可以指确保识别结果中的最小置信度的置信度分数。
当在搜索的姓名候选中存在置信度分数超过第一阈值的姓名候选时(在704中为“是”),在705中,车辆1在搜索的姓名候选中提取置信度分数超过当前第一阈值的姓名候选,并且确定提取的姓名候选的数目是否为1。
当在识别结果中包括的至少一个姓名候选中确定存在置信度分数超过第一阈值的一个姓名候选时(在705中为“是”),在706中,车辆1选择所搜索的姓名候选作为与用户的语音相对应的姓名,并且在707中确定所选姓名候选的置信度分数是否超过第二阈值。
第二阈值可以指确保识别结果中的最大置信度的置信度分数,其高于第一阈值。
当所选姓名候选的置信度分数超过第二阈值(在707中为“是”)时,在708中,车辆1对所选姓名执行控制。具体地,车辆1可以通过向终端2发送向所选姓名发送呼叫的命令来执行向所选姓名发送呼叫的操作。
随后,车辆1在709中确定是否取消在所选姓名上遵循控制命令的操作,并且当取消操作时(在709中为“是”),在710中更新置信度分数DB。
具体地,车辆1可以改变存储在置信度分数DB中的识别结果的置信度分数。例如,在用户取消操作的情况下,可以解释为识别结果中存在错误,并且因此可以降低识别结果的置信度分数。这可以提高车辆1的语音识别的准确性。
在另一示例中,当所选姓名候选的置信度分数不超过第二阈值(在707中为“否”)时,在714中,车辆1请求用户确认所选姓名。
当用户确认姓名候选时,车辆1可以选择姓名候选作为与用户的语音相对应的姓名。然后,车辆1在708至710中执行与上述相同的操作。
在另一示例中,当在搜索的姓名候选中不存在置信度分数超过第一阈值的姓名候选时(在704中为“否”),可能无法确保对识别结果的置信度,因此车辆1在711中拒绝识别结果。即,可以确定为识别失败。在这种情况下,车辆1可以通过显示器152或扬声器151请求用户重新输入语音。
在另一示例中,当在识别结果中包括的至少一个姓名候选中存在置信度分数超过第一阈值的多个姓名候选时(705中为“否”),在712中,车辆基于多个姓名候选的置信度分数来确定多个姓名候选的优先级,并且确定在多个姓名候选中具有第一优先级和第二优先级的姓名候选之间的置信度分数差是否超过第三阈值。
第三阈值可以指确保对识别结果之间的置信度分数差的置信度的阈值,并且可以具有低于第一阈值和第二阈值的置信度分数。
当多个姓名候选中的具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差超过第三阈值(在712中为是)时,这意味着具有第一优先级的姓名候选的置信度分数有保证,因此在713中,车辆1选择具有第一优先级的姓名候选作为与用户的语音相对应的姓名。然后,车辆1在708至710中执行与上述相同的操作。
在另一示例中,现在将结合图10描述在多个姓名候选中具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值(在712中为“否”)时车辆1的操作。
图10是示出根据本公开的实施方式的车辆的控制方法的流程图。
参考图10,当多个姓名候选中具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差不超过第三阈值(图9的712中为“是”)时,在801中,车辆1确定具有第一优先级的姓名候选是否存在多个类别。
类别是指电话号码的类型,并且可以具有“移动”、“家庭”和“办公”中的至少一个。
当存在具有第一优先级的姓名候选的多个类别时(在801中为“是”),在802中,车辆1基于用户模式选择类别。
具体地,车辆1可以基于用户模式中按姓名的类别的发送时间或接收时间中的至少一个来确定多个类别中的每一个的概率值。车辆1可以基于多个类别的概率值来选择具有最高概率值的类别。
然后,在803中,车辆1确定所选类别的概率值是否超过第四阈值。第四阈值可以指可存储在置信度分数DB 144中的预设置信度分数。
当所选类别的概率值超过第四阈值(在803中为“是”)时,在804中,车辆1对所选类别执行控制。例如,车辆1可以发送命令以向将姓名候选的所选类别与第一优先级匹配的电话号码发送呼叫。
在这种情况下,车辆1可以基于反映用户的呼叫特征的用户模式发送更准确的命令以发送呼叫。因此,可以基于语音识别提供更准确的呼叫功能,从而增加可用性和舒适性。
在另一示例中,当所选类别的概率值不超过第四阈值(在803中为“否”)时,在806中,车辆1请求用户选择类别。在这种情况下,车辆1不立即对所选类别执行控制,而是可以通过为用户显示预设数目的类别候选来请求用户选择类别。
在807中车辆1确定是否从用户接收到类别的选择,并且当从用户接收到类别的选择时(在807中为“是”),对所选类别执行控制。例如,车辆1可以发送命令以向将姓名候选的所选类别与第一优先级匹配的电话号码发送呼叫。
这可以使得能够提供更精确的用户-语音识别功能,并且随着语音识别的成功率的提高,用户舒适性也可以提高。
在另一示例中,当不存在具有第一优先级的姓名候选的多个类别时(在801中为“否”),在805中,车辆1请求用户选择类别。在这种情况下,车辆1不是立即对所选类别执行控制,而是可以通过为用户显示预设数目的类别候选来请求用户选择类别。
当用户选择类别时,车辆1可以对所选类别执行控制。例如,车辆1可以发送命令以向将姓名候选的所选类别与第一优先级匹配的电话号码发送呼叫。
这可以使得能够提供更精确的用户-语音识别功能,并且随着语音识别的成功率的提高,用户舒适性也可以提高。
根据本公开的实施方式,车辆及其控制方法可以提供更准确和快速的语音识别功能,从而增加用户的便利性。
同时,本公开的实施方式可以以用于存储要由计算机执行的指令的记录介质的形式来实现。在本公开的实施方式中,指令可以以程序代码的形式存储,并且当由处理器执行时,可以生成程序模块以执行操作。记录介质可以对应于计算机可读记录介质。
计算机可读记录介质包括其上存储有数据的任何类型的记录介质,该数据随后可以由计算机读取。例如,它可以是ROM、RAM、磁带、磁盘、闪存、光数据存储装置等。
上面已经描述了几个实施方式,但是本领域普通技术人员将明白和理解,在不脱离本公开的范围的情况下可以进行各种修改。因此,对于本领域普通技术人员来说显而易见的是,技术保护的真正范围仅由所附权利要求书限定。

Claims (26)

1.一种车辆,包括:
通信装置,被配置为与能够提供通信功能的终端进行通信;
传感器,被配置为接收用户的语音;
存储器,被配置为存储与所述用户的呼叫模式相关的用户模式;以及
控制器,被配置为:
当接收到输入语音时,搜索与所述输入语音相对应的至少一个姓名候选,
基于所述用户模式确定所述至少一个姓名候选的置信度分数的阈值,以及
基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名。
2.根据权利要求1所述的车辆,其中,所述控制器被配置为从所述终端接收电话簿信息和呼叫历史信息,并且基于所接收的电话簿信息和呼叫历史信息来创建所述用户模式。
3.根据权利要求1所述的车辆,其中,所述控制器被配置为从所述姓名候选中选择与所述输入语音相对应的姓名,每个所述姓名候选具有超过第一阈值的置信度分数。
4.根据权利要求3所述的车辆,其中,所述控制器被配置为,当存在具有超过所述第一阈值的置信度分数的一个姓名候选时,确定所述一个姓名候选的置信度分数是否超过第二阈值,并且当所述一个姓名候选的置信度分数超过所述第二阈值时,选择所述一个姓名候选作为与所述输入语音相对应的姓名。
5.根据权利要求4所述的车辆,其中,所述控制器被配置为,当超过所述第一阈值的所述一个姓名候选的置信度分数不超过所述第二阈值时,请求所述用户确认所述一个姓名候选。
6.根据权利要求3所述的车辆,其中,当存在均具有超过所述第一阈值的置信度分数的多个姓名候选时,所述控制器被配置为:
基于所述多个姓名候选的置信度分数来确定所述多个姓名候选的优先级,
将具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差与第三阈值进行比较,并且
基于所述比较来选择与所述输入语音相对应的姓名。
7.根据权利要求6所述的车辆,其中,所述控制器被配置为,当具有所述第一优先级的姓名候选和具有所述第二优先级的姓名候选之间的置信度分数差超过所述第三阈值时,选择具有所述第一优先级的姓名候选作为与所述输入语音相对应的姓名。
8.根据权利要求6所述的车辆,其中,所述控制器被配置为,当具有所述第一优先级的姓名候选和具有所述第二优先级的姓名候选之间的置信度分数差不超过所述第三阈值时,请求所述用户确认具有所述第一优先级的姓名候选。
9.根据权利要求1所述的车辆,其中,所述控制器被配置为当接收到电话簿信息时,在所述终端的电话簿信息中搜索与所述输入语音相对应的至少一个姓名候选,并且基于所搜索的所述至少一个姓名候选的数目来改变第一阈值、第二阈值和第三阈值中的至少一个。
10.根据权利要求9所述的车辆,其中,所述控制器被配置为,当所搜索的所述至少一个姓名候选的数目不超过预设的第一参考数目时,增大所述第二阈值并减小所述第三阈值。
11.根据权利要求9所述的车辆,其中,所述控制器被配置为确定从所述电话簿搜索的所述至少一个姓名候选的类别的数目,并且基于所述类别的数目来改变所述第一阈值、所述第二阈值和所述第三阈值中的至少一个。
12.根据权利要求11所述的车辆,其中,所述控制器被配置为当所述类别的数目不超过预设的第二参考数目时,增大所述第二阈值并减小所述第三阈值。
13.根据权利要求1所述的车辆,其中,所述控制器被配置为控制所述通信装置向所述终端发送关于所选姓名的控制命令。
14.一种车辆的控制方法,所述控制方法包括以下步骤:
由传感器接收用户的语音;
当接收到输入语音时,由所述控制器搜索与所述输入语音相对应的至少一个姓名候选;
由所述控制器基于用户模式确定所述至少一个姓名候选的置信度分数的阈值;以及
由所述控制器基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名。
15.根据权利要求14所述的控制方法,还包括以下步骤:由所述控制器从终端接收电话簿信息和呼叫历史信息,并且由所述控制器基于所接收的电话簿信息和呼叫历史信息来创建所述用户模式。
16.根据权利要求14所述的控制方法,其中,基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名包括:
从所述姓名候选中选择与所述输入语音相对应的姓名,每个所述姓名候选具有超过第一阈值的置信度分数。
17.根据权利要求16所述的控制方法,其中,基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名包括:
当存在具有超过所述第一阈值的置信度分数的一个姓名候选时,确定所述一个姓名候选的置信度分数是否超过第二阈值,并且当所述一个姓名候选的置信度分数超过所述第二阈值时,选择所述一个姓名候选作为与所述输入语音相对应的姓名。
18.根据权利要求17所述的控制方法,还包括:当超过所述第一阈值的所述一个姓名候选的置信度分数不超过所述第二阈值时,请求所述用户确认所述一个姓名候选。
19.根据权利要求16所述的控制方法,其中,基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名包括:
当存在均具有超过所述第一阈值的置信度分数的多个姓名候选时,基于所述多个姓名候选的置信度分数来确定所述多个姓名候选的优先级;
将具有第一优先级的姓名候选和具有第二优先级的姓名候选之间的置信度分数差与第三阈值进行比较;并且
基于所述比较来选择与所述输入语音相对应的姓名。
20.根据权利要求19所述的控制方法,其中,基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名包括:
当具有所述第一优先级的姓名候选和具有所述第二优先级的姓名候选之间的置信度分数差超过所述第三阈值时,选择具有所述第一优先级的姓名候选作为与所述输入语音相对应的姓名。
21.根据权利要求19所述的控制方法,其中,基于所确定的阈值从所述至少一个姓名候选中选择与所述输入语音相对应的姓名包括:
当具有所述第一优先级的姓名候选和具有所述第二优先级的姓名候选之间的置信度分数差不超过所述第三阈值时,请求所述用户确认具有所述第一优先级的姓名候选。
22.根据权利要求14所述的控制方法,其中,搜索所述至少一个姓名候选包括:
当接收到电话簿信息时,在终端的电话簿信息中搜索与所述输入语音相对应的至少一个姓名候选;
基于用户模式确定所述至少一个姓名候选的置信度分数的阈值;并且
基于所搜索的所述至少一个姓名候选的数目来改变第一阈值、第二阈值和第三阈值中的至少一个。
23.根据权利要求22所述的控制方法,其中,基于所搜索的所述至少一个姓名候选的数目来改变所述第一阈值、第二阈值和第三阈值中的所述至少一个包括:
当所搜索的所述至少一个姓名候选的数目不超过预设的第一参考数目时,增加所述第二阈值并减小所述第三阈值。
24.根据权利要求22所述的控制方法,其中,基于用户模式确定所述至少一个姓名候选的置信度分数的阈值包括:
确定从所述电话簿搜索的所述姓名候选的类别的数目,并且基于所述类别的数目来改变所述第一阈值、所述第二阈值和所述第三阈值中的至少一个。
25.根据权利要求24所述的控制方法,其中,改变所述第一阈值、所述第二阈值和所述第三阈值中的至少一个包括:
当所述类别的数目不超过预设的第二参考数目时,增加所述第二阈值并减小所述第三阈值。
26.根据权利要求14所述的控制方法,还包括:向终端发送关于所选姓名的控制命令。
CN201910185588.5A 2018-11-08 2019-03-12 车辆及其控制方法 Active CN111161720B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0136845 2018-11-08
KR1020180136845A KR102613210B1 (ko) 2018-11-08 2018-11-08 차량 및 그 제어방법

Publications (2)

Publication Number Publication Date
CN111161720A true CN111161720A (zh) 2020-05-15
CN111161720B CN111161720B (zh) 2024-10-18

Family

ID=70551822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910185588.5A Active CN111161720B (zh) 2018-11-08 2019-03-12 车辆及其控制方法

Country Status (3)

Country Link
US (1) US11189276B2 (zh)
KR (1) KR102613210B1 (zh)
CN (1) CN111161720B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024078460A1 (zh) * 2022-10-13 2024-04-18 广州小鹏汽车科技有限公司 语音处理方法、语音交互方法、服务器及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220256223A1 (en) * 2019-05-30 2022-08-11 Sony Group Corporation Information processing apparatus, operation terminal, and information processing method
US11748629B2 (en) * 2020-01-21 2023-09-05 Moxa Inc. Device and method of handling anomaly detection
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
EP4210047A1 (en) * 2022-01-05 2023-07-12 Honeywell International Inc. Contextual editable speech recognition methods and systems
CN114067799A (zh) * 2022-01-05 2022-02-18 广州小鹏汽车科技有限公司 语音交互方法、终端设备、车辆及存储介质
US20230267274A1 (en) * 2022-02-22 2023-08-24 Onetrust Llc Mapping entities in unstructured text documents via entity correction and entity resolution

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1611056A (zh) * 2001-09-04 2005-04-27 李文燮 使用通过语音识别构建的个人电话本数据库的自动语音呼叫连接服务方法
US20060215821A1 (en) * 2005-03-23 2006-09-28 Rokusek Daniel S Voice nametag audio feedback for dialing a telephone call
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN105323350A (zh) * 2014-07-11 2016-02-10 现代自动车株式会社 用于在车辆中控制呼出呼叫的方法和设备
CN105355202A (zh) * 2014-08-22 2016-02-24 现代自动车株式会社 语音识别装置、具有语音识别装置的车辆及其控制方法
KR101675312B1 (ko) * 2015-06-15 2016-11-11 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
US20170294188A1 (en) * 2016-04-12 2017-10-12 Fujitsu Limited Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
US20170351532A1 (en) * 2016-06-07 2017-12-07 Google Inc. Nondeterministic task initiation by a personal assistant module

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697638B1 (en) 1999-10-29 2004-02-24 Denso Corporation Intelligent portable phone with dual mode operation for automobile use
US6983244B2 (en) 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
KR20070113045A (ko) * 2006-05-24 2007-11-28 엘지전자 주식회사 음성 인식 시스템 및 그 방법
US8521235B2 (en) * 2008-03-27 2013-08-27 General Motors Llc Address book sharing system and method for non-verbally adding address book contents using the same
US8903714B2 (en) * 2011-12-21 2014-12-02 Nuance Communications, Inc. Concept search and semantic annotation for mobile messaging
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
KR101598948B1 (ko) * 2014-07-28 2016-03-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
US10810212B2 (en) * 2016-07-29 2020-10-20 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Validating provided information in a conversation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1611056A (zh) * 2001-09-04 2005-04-27 李文燮 使用通过语音识别构建的个人电话本数据库的自动语音呼叫连接服务方法
US20060215821A1 (en) * 2005-03-23 2006-09-28 Rokusek Daniel S Voice nametag audio feedback for dialing a telephone call
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN105323350A (zh) * 2014-07-11 2016-02-10 现代自动车株式会社 用于在车辆中控制呼出呼叫的方法和设备
CN105355202A (zh) * 2014-08-22 2016-02-24 现代自动车株式会社 语音识别装置、具有语音识别装置的车辆及其控制方法
KR101675312B1 (ko) * 2015-06-15 2016-11-11 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
US20170294188A1 (en) * 2016-04-12 2017-10-12 Fujitsu Limited Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
US20170351532A1 (en) * 2016-06-07 2017-12-07 Google Inc. Nondeterministic task initiation by a personal assistant module

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024078460A1 (zh) * 2022-10-13 2024-04-18 广州小鹏汽车科技有限公司 语音处理方法、语音交互方法、服务器及存储介质

Also Published As

Publication number Publication date
US20200152188A1 (en) 2020-05-14
KR102613210B1 (ko) 2023-12-14
US11189276B2 (en) 2021-11-30
KR20200053341A (ko) 2020-05-18
CN111161720B (zh) 2024-10-18

Similar Documents

Publication Publication Date Title
CN111161720B (zh) 车辆及其控制方法
CN108242236B (zh) 对话处理装置及其车辆和对话处理方法
US10818286B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
CN107851437B (zh) 语音操作系统、服务器装置、车载设备和语音操作方法
CN111095400A (zh) 选择系统和方法
US11004447B2 (en) Speech processing apparatus, vehicle having the speech processing apparatus, and speech processing method
CN105222797B (zh) 利用口授和部分匹配搜索的导航系统的系统和方法
JP2009530666A (ja) 外部ユーザの自動音声認識、口述、録音および再生を提供する方法
KR20180130670A (ko) 차량용 음성 인식 장치, 상기 차량용 음성 인식 장치를 포함하는 차량, 차량용 음성 인식 시스템 및 상기 차량용 음성 인식 장치의 제어 방법
KR20200098079A (ko) 대화 시스템 및 대화 처리 방법
US10573308B2 (en) Apparatus and method for determining operation based on context, vehicle for determining operation based on context, and method of controlling the vehicle
US20200320996A1 (en) On-board agent system, on-board agent system control method, and storage medium
CN110580901B (zh) 语音识别设备、包括该设备的车辆及该车辆控制方法
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2020129130A (ja) 情報処理装置
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
KR20170089670A (ko) 차량 및 그 제어방법
KR101875440B1 (ko) 차량 및 그 제어방법
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
CN111726772B (zh) 智能体系统及其控制方法、服务器装置、存储介质
KR102594310B1 (ko) 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
JP2018194849A (ja) 情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant