WO2019024692A1

WO2019024692A1 - 语音输入方法、装置、计算机设备和存储介质

Info

Publication number: WO2019024692A1
Application number: PCT/CN2018/096412
Authority: WO
Inventors: 桂浩群
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2017-08-02
Filing date: 2018-07-20
Publication date: 2019-02-07
Also published as: CN107785021B; CN107785021A

Abstract

一种语音输入方法，包括：根据预设的语音采集指令采集语音信息（S302）；根据预设的语音识别学习算法识别语音信息，获取识别出的文本信息（S304）；确定文本信息的目标输入位置（S306）；在目标输入位置输入文本信息的至少部分内容（S308）。该语音输入方法，可以根据采集到语音信息，自动确定目标输入位置并将识别出的文本信息输入到目标输入位置，用户通过读出语音信息即可实现输入，从而简化了输入流程，提升了输入效率。还提供了一种语音输入装置、计算机设备及计算机可读存储介质。

Description

语音输入方法、装置、计算机设备和存储介质

本申请要求于2017年08月02日提交中国专利局，申请号为2017106533198，申请名称为“语音输入方法、装置、计算机设备和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种语音输入方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术和终端技术的发展，用户可以通过终端页面如网页或应用程序页面等进行社交、购物、理财等活动。一般终端页面提供输入框，用户在输入框中输入所需提交的信息，并通过页面中的操作按钮提交所输入的信息。

通常用户在终端页面中输入信息的方式为：点击输入框空白处插入光标，同时调用输入法应用，通过物理按键或输入法应用的虚拟键盘输入所需输入的字符。这种输入方式比较繁琐、效率较低，而且容易输入错误。例如，用户在通过网银或手机银行进行转账、理财等业务时，通常需要输入银行卡号，由于银行卡号包含的数字较多，需要边看边输入，容易导致输入错误。虽然目前有些输入法能提供语音识别功能，但其需要在调用输入法应用后，由用户在输入法应用的操作界面中手动选择语音识别功能，还需用户手动选择输入位置，使得输入信息的过程更加繁琐。因此，如何简化输入流程及提升输入准确率成为目前需要解决的一个技术问题。

发明内容

根据本申请公开的各种实施例，提供一种语音输入方法、装置、计算机设备和存储介质。

一种语音输入方法，包括：

根据预设的语音采集指令采集语音信息；

根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。

一种语音输入装置，包括：

采集模块，用于根据预设的语音采集指令采集语音信息；

识别模块，用于根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定模块，用于确定所述文本信息的目标输入位置；及

输入模块，用于在所述目标输入位置输入所述文本信息的至少部分内容。

在其中一个实施例中，所述文本信息中包括指示字段和待输入字段；

所述确定模块，用于确定与所述指示字段相关联的输入位置为目标输入位置；

所述输入模块，用于将所述待输入字段输入所述目标输入位置。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

根据预设的语音采集指令采集语音信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

根据预设的语音采集指令采集语音信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中语音输入方法的应用环境图；

图2为根据一个或多个实施例中计算机设备的内部框图；

图3为根据一个或多个实施例中语音输入方法的流程示意图；

图4为根据一个或多个实施例中语音识别方法的流程示意图；

图5为根据一个或多个实施例中语音输入装置的框图；

图6为根据一个或多个实施例中语音识别装置的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中所提供的语音输入方法，可应用于如图1所示的应用环境中。参考图1，计算机设备10与服务器20之间建立通信相连。计算机设备10或服务器20上存储有语音识别数据库，语音识别数据库中包含语音样本。计算机设备10存储有语音采集指令，当语音采集指令被触发时，计算机设备10采集用户输入的语音信息。可选地，计算机设备10根据本地存储的语音识别数据库中的语音样本对语音信息进行识别，得到文本信息。或者，计算机设备10与服务器20建立通信连接，向服务器20发送采集到的语音信息，由服务器20根据语音识别数据库中的语音样本对语音信息进行识别，得到文本信息，计算机设备10获取服务器20识别出的文本信息。其中，计算机设备10还确定文本信息的目标输入位置，在目标输入位置输入文本信息的至少部分内容。由此准确、高效地在页面中输入信息。其中，计算机设备10是能够采集语音信息的终端，可以是台式电脑、笔记本电脑、平板电脑、掌上电脑、销售终端或者智能手机等。

在一个实施例中，提供了一种计算机设备，如图2所示，该计算机设备10可以包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该数据库可以是语音识别数据库。该非易失性存储介质可以是非易失性计算机可读存储介质。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音样本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音输入方法。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图3所示，提供了一种语音输入方法30，以该方法应用于图1或图2所示的计算机设备10为例进行说明，具体包括以下步骤：

步骤S302，根据预设的语音采集指令采集语音信息。

其中，计算机设备预先存储语音采集指令，当该语音采集指令被触发时，响应该语音采集指令采集语音信息。其中，该语音采集指令通过特定的用户操作触发。

在一个实施例中，计算机设备所显示的页面中提供用于调用该语音采集指令的图标，当该图标被点击或触控时，触发该语音采集指令以采集语音信息。其中，该图标可设置于页面中的任意位置，例如可设置于页面的上部、下部、左侧或右侧等。优选地，该图标的位置根据页面中的输入框的位置设置，例如该图标设置于输入框内，或该图标设置于输入框的一侧。为了便于使用者理解该图标代表语音输入，优选地，该图标为嘴唇形状的图标。

在一个实施例中，计算机设备提供用于调用该语音采集指令的按键，该按键可选的为物理按键或虚拟按键，当检测到该按键被按压或触控时，触发该语音采集指令以采集语音信息。其中，该按键可由用户在计算机设备的多个按键中自定义选择设置。

在一个实施例中，当检测到计算机设备被来回摇晃时，触发预存的语音采集指令以采集语音信息。具体地，通过计算机设备内部设置的传感器检测计算机设备的晃动。

步骤S304，根据预设的语音识别学习算法识别语音信息，获取识别出的文本信息。

在一个实施例中，计算机设备本地预先设置有语音识别学习算法及对应的语音识别数据库，根据语音识别学习算法，将采集得到的语音信息与语音识别数据库中的语音样本进行对比计算，识别出文本信息。

在一个实施例中，计算机设备与服务器建立通信连接，将采集得到的语音信息发送至服务器。例如，计算机设备可通过网络接口与服务器建立通信连接，其中，网络接口可以是以太网卡或无线网卡等。服务器根据预设的语音识别学习算法识别语音信息，得到文本信息，并将识别出的文本信息反馈给计算机设备，计算机设备从服务器获取识别出的文本信息。

步骤S306，确定文本信息的目标输入位置。

其中，若计算机设备所显示的页面中仅包括一个输入位置，则将该输入位置确定为目标输入位置。若计算机设备显示的页面中包含至少两个输入位置，一种实施方式是，根据识别出的文本信息确定目标输入位置。具体地，识别出的文本信息中不仅包括待输入的文本信息，还包括用于指示目标输入位置的指示信息，可根据指示信息确定目标输入位置。例如待输入的文本信息为待输入字段，指示信息为指示字段。计算机设备预先设置各输入位置所关联的关键词，当识别出的文本信息包括与关键词相匹配的指示字段时，将与该指示字段相关联的输入位置确定为目标输入位置。

举例来说，计算机设备显示的页面中包括用于输入卡号的第一输入位置和用于输入验证码的第二输入位置，其中第一输入位置被设置与关键词“卡号”相关联，第二输入位置被设置与关键词“验证码”相关联，当识别出的文本信息中包括“卡号”这一关键词时，则将与“卡号”关键词相关联的第一输入位置确定为目标输入位置。

若计算机设备显示的页面中包含至少两个输入位置，在根据预设的语音采集指令采集语音信息之前，该语音输入方法还包括：接收语音采集指令，语音采集指令中携带有目标输入位置的指示信息。此时，步骤S306的另一种实施方式是，在步骤S304之前或之后，根据语音采集指令中的指示信息确定目标输入位置。具体地，接收用户通过点击页面中的特定位置生成的语音采集指令，该语音采集指令中包括根据该特定位置生成的指示信息。其中，该特定位置可以是页面中的输入框，或者是在输入框旁边与输入框相关联的位置。例如，当用户点击页面中的输入框时，生成携带有该输入框的指示信息的语音采集指令，根据语音采集指令中的指示信息可将该输入框确定为目标输入位置。又如，当用户点击输入框中的预设图标或点击输入框旁边与该输入框相关联的预设图标时，生成携带有该输入框的指示信息的语音采集指令，根据语音采集指令中的指示信息可将该输入框确定为目标输入位置。优选地，为了便于用户理解预设图标代表语音输入，预设图标可以为嘴唇形状的图标。

步骤S308，在目标输入位置输入文本信息的至少部分内容。

具体地，当识别出的文本信息包括待输入字段和指示字段时，在目标输入位置输入该待输入字段；或者说，当识别出的文本信息包括指示字段时，过滤掉文本信息中的指示字段，将文本信息中除指示字段之外的其他内容输入目标输入位置。当识别出的文本信息不包括指示字段时，在目标输入位置输入直接输入识别出的文本信息。

本实施例中，对采集到的语音信息进行识别，自动确定目标输入位置并将识别出的文本信息输入到目标输入位置，用户通过读出语音信息即可实现输入，不用边看边打字，从而提升输入效率及准确率。而且，由于自动确定目标输入位置且无需调用输入法，因此能够简化输入流程，提升输入效率。

在一个实施例中，可采用上述语音输入方法输入银行卡号。例如，一些银行卡的卡号为凸起图案，盲人或视力不佳人群可通过触摸银行卡并读出卡号来输入银行卡号。又如，用户通过电脑等计算机设备输入卡号时，无法扫卡输入，采用上述语音识别方法可方便快捷地输入卡号。又如，银行的客服人员在进行客户服务时，复述客户读出的卡号即可准确输入卡号，避免由于按键盘出错导致输入错误。

在一个实施例中，计算机设备的存储器中存有多个语音识别数据库，每个语音识别数据库存有不同语言类型的语音样本。例如，A语音识别数据库中存有普通话的语音样本，B语音识别数据库中存有粤语的语音样本，C语音识别数据库中存有重庆话的语音样本，D语音识别数据库中存有英语的语音样本等。其中，每种语言的语音识别数据库中存有0～9共10个数字的语音样本。优选地，每种语言的语音识别数据库中还存有银行领域、金融领域中常见词汇的语音样本。例如，每种语言的语音识别数据库中还存有“卡号”、“账号”、“借记卡”、“信用卡”、“取款”、“金额”、“余额”及各银行的名称等的语音样本。

其中，采集到的语音信息中包括多个语音片段；步骤S304的一种实施方式是，将各语音片段分别与各语音识别数据库中的各语音样本进行匹配度计算，将匹配度最高且高于预设阈值的语音样本所对应的文本字符作为该语音片段的识别结果，根据各语音片段的识别结果生成语音信息所对应的文本信息。

为了提升识别效率，步骤S304的另一种实施方式是，根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；将匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；根据该语音识别学习算法将各语音片段与目标语音识别数据库中的语音样本进行匹配，获取各语音片段对应的文本字符；根据各语音片段对应的文本字符生成文本信息。即，在步骤S304中，先根据语音信息中的部分语音片段确定语音信息的语言类型，进而采用预设的语音识别学习算法，根据该语言类型对应的语音识别数据库中的语音样本对其他语音片段进行语音识别，由于过滤了其他语言类型对应的语音识别数据库，减少了语音识别时的计算量，因此能提高语音识别效率。举例来说，当用户采用普通话顺序读出“1、2、3、4、5、6、7、8、9”时，根据顺序，先识别数字“1”，将数字“1”的语音片段与各语音识别数据库中的语音样本进行匹配度计算，在匹配度大于预设阈值的语音样本中选择匹配度最高的一个作为数字“1”的匹配结果，将该匹配结果所在的A语音识别数据库确定为目标语音识别数据库，后续识别其他数字时，将其他数字的语音片段与A语音识别数据库中的样本进行比对即可。其中，目标语音识别数据库的数量可以大于1，例如，当几个语音识别数据库中都存在与“1”的普通话发音相近的语音样本时，识别数字“1”时出现多个匹配结果，则先将该多个匹配结果对应的语音识别数据库都确认为初级目标语音识别数据库；识别数字“2”时，将数字“2”的语音片段与初级目标语音识别数据库中的语音样本进行对比，当一些初级目标语音识别数据库中不存在数字“2”的匹配结果时，将其过滤掉，余下的记为二级目标语音识别数据库；识别数字“3”时，数字“3”的语音片段与二级目标语音识别数据库中的语音样本进行对比即可，以此类推，可以不断过滤需要对比的语音识别数据库，减少语音识别的计算量，从而提高对比效率。

具体地，计算语音片段与语音样本的匹配度时，可分别计算语音片段与语音样本的波形相似度和波长相似度，根据波形相似度、波长相似度及预设的权重比例，计算语音片段与语音样本的匹配度。

在一个实施例中，若不存在匹配度大于预设阈值的语音样本，则将匹配度最高的至少两种语音样本对应的文本字符作为待选字符，输出待选字符以供用户选择。

在一个实施例中，该语音输入方法30还包括：当识别出的文本信息包括至少两个待选文本信息时，检测用户对一个待选文本信息的选择操作；此时，步骤S308为：将用户选择的待选文本信息的至少部分内容填入目标输入位置。

在一个实施例中，步骤S308之后，该语音输入方法30还包括：将语音信息与文本信息关联存储为语音识别学习算法的新增样本；根据新增样本更新语音识别学习算法。其中，当语音信息识别出多个待选文本信息时，将用户所选择的文本信息与采集到的语音信息管理存储为语音识别学习算法的新增样本。其中，若步骤S304中通过服务器进行语音识别，则将采集到的语音信息与用户选择的文本信息上传至服务器，以使服务器将该语音信息及用户选择的文本信息关联存储为对应的语音识别数据库中的新增样本。优选地，计算机设备或服务器按照一定的时间间隔或根据累计新增样本数更新语音识别算法；以根据累计新增样本数更新语音识别算法为例，每新增一个样本，则累计新增样本数加一，当累计新增样本数达到预设更新阈值时，更新语音识别算法并将累计新增样本数清零。

本实施例中，通过不断增加语音样本库中的语音样本及更新语音识别学习算法，能够提升语音识别的准确率。

在一个实施例中，步骤S308之前，该语音输入方法30还包括：判断识别出的文本信息的字段格式与目标输入位置规定的字段格式是否一致，是则执行步骤S308，否则生成提示信息，以提示用户输入错误。举例来说，验证码输入框规定的字段格式为6位数字，若识别出的文本信息不是6位数字，例如识别出的文本信息包括非数字字符、或识别出的文本信息为7位数字等，则生成提示信息，以提示用户输入错误。可选地，提示信息的形式可以是弹窗信息、语音信息、震动信息中的一种或多种。

本实施例中，能准确识别用户错误输入的信息并及时提示用户，避免输入及提交错误的信息，提升信息输入的准确性。

在一个实施例中，如图4所示，提供了一种语音识别方法40，以该方法应用于图2所示的服务器20为例进行说明，具体包括以下步骤：

S402，与计算机设备建立通信连接，并接收计算机设备上传的语音信息。

S404，根据预设的语音识别学习算法识别语音信息，得到识别出的文本信息。

S406，向计算机设备发送识别出的文本信息。

在一个实施例中，服务器预先设置有语音识别学习算法及对应的语音识别数据库，根据语音识别学习算法，将接收到的语音信息与语音识别数据库中的语音样本进行对比计算，识别出文本信息。

具体地，服务器存有多个语音识别数据库，每个语音识别数据库存有不同语言类型的语音样本。例如，A语音识别数据库中存有普通话的语音样本，B语音识别数据库中存有粤语的语音样本，C语音识别数据库中存有重庆话的语音样本，D语音识别数据库中存有英语的语音样本等。其中，每种语言的语音识别数据库中存有0～9共10个数字的语音样本。优选地，每种语言的语音识别数据库中还存有银行领域、金融领域中常见词汇的语音样本。例如，每种语言的语音识别数据库中还存有“卡号”、“账号”、“借记卡”、“信用卡”、“取款”、“金额”、“余额”及各银行的名称等的语音样本。

其中，接收到的语音信息中包括多个语音片段；步骤S404的一种实施方式是，将各语音片段分别与各语音识别数据库中的各语音样本进行匹配度计算，将匹配度最高且高于预设阈值的语音样本所对应的文本字符作为该语音片段的识别结果，根据各语音片段的识别结果生成语音信息所对应的文本信息。

为了提升识别效率，步骤S404的另一种实施方式是，根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；将匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；根据该语音识别学习算法将各字符的语音片段与目标语音识别库语音识别数据库中的语音样本进行匹配，获取各字符的语音片段对应的文本字符；根据各语音片段对应的文本字符生成文本信息。即，在步骤S404中，先根据语音信息中的部分语音片段确定语音信息的语言类型，进而根据该语言类型对应的语音识别数据库中的语音样本对其他语音片段进行语音识别，由于过滤了其他语言类型对应的语音识别数据库，减少了语音识别时的计算量，因此能提高语音识别效率。举例来说，当用户采用普通话顺序读出“1、2、3、4、5、6、7、8、9”时，根据顺序，先识别数字“1”，将数字“1”的语音片段与各语音识别数据库中的语音样本进行匹配度计算，在匹配度大于预设阈值的语音样本中选择匹配度最高的一个作为数字“1”的匹配结果，将该匹配结果所在的A语音识别数据库确定为目标语音识别数据库，后续识别其他数字时，将其他数字的语音片段与A语音识别数据库中的样本进行比对即可。其中，目标语音识别数据库的数量可以大于1，例如，当几个语音识别数据库中都存在与“1”的普通话发音相近的语音样本时，识别数字“1”时出现多个匹配结果，则先将该多个匹配结果对应的语音识别数据库都确认为初级目标语音识别数据库；识别数字“2”时，将数字“2”的语音片段与初级目标语音识别数据库中的语音样本进行对比，当一些初级目标语音识别数据库中不存在数字“2”的匹配结果时，将其过滤掉，余下的记为二级目标语音识别数据库；识别数字“3”时，数字“3”的语音片段与二级目标语音识别数据库中的语音样本进行对比即可，以此类推，可以不断过滤需要对比的语音识别数据库，减少语音识别的计算量，从而提高对比效率。

本实施例中，对接收到的语音信息进行识别并向计算机设备发送识别出的文本信息，使得用户可通过计算机设备实现语音输入，不用边看边打字，从而提升输入效率及准确率。

在一个实施例中，若不存在与语音片段的匹配度大于预设阈值的语音样本，可将与语音片段的匹配度最高的至少两种语音样本对应的文本字符作为待选字符，根据至少两个待选字符生成待选的至少两条文本信息，向计算机设备发送待选的至少两条文本信息以供用户选择。

在一个实施例中，在步骤S406之前，语音识别方法40还包括：判断识别出的文本信息的字段格式与目标输入位置的规定字段格式是否一致，是则执行步骤S406，否则向计算机设备发送提示信息，以提示用户输入错误。

在一个实施例中，服务器接收到的语音信息中携带目标输入位置的指示信息，根据该指示信息确定目标输入位置的规定字段格式，在识别出文本信息之后，判断文本信息的字段格式与模板输入位置的规定字段格式是否一致。

在一个实施例中，服务器预先存储多个关键词及各关键词对应的规定字段格式，其中该关键词用于指示目标输入位置。识别出文本信息之后，若文本信息中包括预先存储的关键词，服务器根据该关键词确定对应的规定字段格式及目标输入位置，进而判断文本信息中除关键词之外的待输入字段与该规定字段格式是否一致，是则执行步骤S406，否则向计算机设备发送提示信息，以提示用户输入错误。本实施例中，能准确识别用户错误输入的信息并及时提示用户，避免输入及提交错误的信息，提升信息输入的准确性。

应该理解的是，虽然图3和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种语音输入装置，以该语音输入装置50应用于图1或图2所示的计算机设备10为例进行说明，该语音输入装置50包括：采集模块502、识别模块504、确定模块506及输入模块508，其中：

采集模块502，用于根据预设的语音采集指令采集语音信息。

识别模块504，用于根据预设的语音识别学习算法识别语音信息，获取识别出的文本信息。

确定模块506，用于确定文本信息的目标输入位置。

输入模块508，用于在目标输入位置输入文本信息的至少部分内容。

在一个实施例中，文本信息中包括指示字段和待输入字段；确定模块506，还用于确定与指示字段相关联的输入位置为目标输入位置；输入模块508，还用于将待输入字段输入目标输入位置。

在一个实施例中，语音输入装置50还包括：指令接收模块，用于接收语音采集指令，语音采集指令中携带有目标输入位置的指示信息；输入模块508还用于：根据指示信息确定文本信息的目标输入位置。

在一个实施例中，语音输入装置50还包括：检测模块，用于当语音信息对应的文本信息包括至少两个待选文本信息时，检测用户对一个待选文本信息的选择操作；输入模块508还用于将用户选择的待选文本信息中的至少部分内容输入目标输入位置。

在一个实施例中，语音输入装置50还包括：存储模块，用于将语音信息与文本信息关联存储为语音识别学习算法的新增样本；更新模块，用于根据新增样本更新语音识别学习算法。

在一个实施例中，语音信息包括多个语音片段；识别模块504包括：计算单元，用于根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；设置单元，用于将匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；匹配单元，用于根据语音识别学习算法将各语音片段与目标语音识别数据库中的语音样本进行匹配，获取各语音片段对应的文本字符；生成单元，用于根据各语音片段对应的文本字符生成文本信息。

上述语音输入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。其中，网络接口可以是以太网卡或无线网卡等。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中，也可以以软件形式存储于服务器中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。

在一个实施例中，如图6所示，提供了一种语音识别装置，以该语音识别装置60应用于图2所示的服务器20为例进行说明，该语音识别装置60包括通信模块602及识别模块604。

通信模块602用于与计算机设备建立通信连接，并接收计算机设备上传的语音信息。识别模块604，用于根据预设的语音识别学习算法识别语音信息，得到识别出的文本信息。

通信模块602还用于向计算机设备发送识别出的文本信息。

在一个实施例中，接收到的语音信息中包括多个语音片段；识别模块604用于：用于将各语音片段分别与各语音识别数据库中的各语音样本进行匹配度计算，将匹配度最高且高于预设阈值的语音样本所对应的文本字符作为该语音片段的识别结果，根据各语音片段的识别结果生成语音信息所对应的文本信息。

为了提升识别效率，识别模块604用于：根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；将匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；根据预设的语音识别学习算法将各字符的语音片段与目标语音识别库语音识别数据库中的语音样本进行匹配，获取各字符的语音片段对应的文本字符；根据各语音片段对应的文本字符生成文本信息。

在一个实施例中，语音识别装置60还包括判断模块，用于判断识别出的文本信息的字段格式与目标输入位置的规定字段格式是否一致，是则通信模块602向计算机设备发送识别出的文本信息，否则通信模块602向计算机设备发送提示信息，以提示用户输入错误。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的程序可存储于非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音输入方法，包括：

根据预设的语音采集指令采集语音信息；

根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。
根据权利要求1所述的方法，其特征在于，所述文本信息中包括指示字段和待输入字段；

所述确定所述文本信息的目标输入位置包括：确定与所述指示字段相关联的输入位置为目标输入位置；及

所述在所述目标输入位置输入所述文本信息的至少部分内容包括：将所述待输入字段输入所述目标输入位置。
根据权利要求1所述的方法，其特征在于，在所述根据预设的语音采集指令采集语音信息的步骤之前，所述方法还包括：

接收语音采集指令，所述语音采集指令中携带有目标输入位置的指示信息；及

所述确定所述文本信息的目标输入位置包括：根据所述指示信息确定所述文本信息的目标输入位置。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述语音信息对应的文本信息包括至少两个待选文本信息时，检测用户对一个所述待选文本信息的选择操作；及

所述在所述目标输入位置输入所述文本信息的至少部分内容包括：将用户选择的所述待选文本信息中的至少部分内容输入所述目标输入位置。
根据权利要求1所述的方法，其特征在于，在所述目标输入位置输入所述文本信息的至少部分内容之后，所述方法还包括：

将所述语音信息与所述文本信息关联存储为所述语音识别学习算法的新增样本；及

根据所述新增样本更新所述语音识别学习算法。
根据权利要求1所述的方法，其特征在于，所述语音信息包括多个语音片段；所述根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息包括：

根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；

将所述匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；

根据所述语音识别学习算法将各所述语音片段与所述目标语音识别数据库中的语音样本进行匹配，获取各所述语音片段对应的文本字符；及

根据各语音片段对应的文本字符生成所述文本信息。
一种语音输入装置，包括：

采集模块，用于根据预设的语音采集指令采集语音信息；

识别模块，用于根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定模块，用于确定所述文本信息的目标输入位置；及

输入模块，用于在所述目标输入位置输入所述文本信息的至少部分内容。
根据权利要求7所述的装置，其特征在于，所述文本信息中包括指示字段和待输入字段；

所述确定模块，用于确定与所述指示字段相关联的输入位置为目标输入位置；

所述输入模块，用于将所述待输入字段输入所述目标输入位置。
一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

根据预设的语音采集指令采集语音信息；

根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。
根据权利要求9所述的计算机设备，其特征在于，所述文本信息中包括指示字段和待输入字段；所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

确定与所述指示字段相关联的输入位置为目标输入位置；及

将所述待输入字段输入所述目标输入位置。
根据权利要求9所述的计算机设备，其特征在于，在所述根据预设的语音采集指令采集语音信息的步骤之前，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

接收语音采集指令，所述语音采集指令中携带有目标输入位置的指示信息；及

根据所述指示信息确定所述文本信息的目标输入位置。
根据权利要求9所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

接收语音采集指令，所述语音采集指令中携带有目标输入位置的指示信息；及

根据所述指示信息确定所述文本信息的目标输入位置。
根据权利要求9所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

当所述语音信息对应的文本信息包括至少两个待选文本信息时，检测用户对一个所述待选文本信息的选择操作；及

将用户选择的所述待选文本信息中的至少部分内容输入所述目标输入位置。
根据权利要求9所述的计算机设备，其特征在于，所述语音信息包括多个语音片段；所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；

将所述匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；

根据所述语音识别学习算法将各所述语音片段与所述目标语音识别数据库中的语音样本进行匹配，获取各所述语音片段对应的文本字符；及

根据各语音片段对应的文本字符生成所述文本信息。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

根据预设的语音采集指令采集语音信息；

根据预设的语音识别学习算法识别所述语音信息，获取识别出的文本信息；

确定所述文本信息的目标输入位置；及

在所述目标输入位置输入所述文本信息的至少部分内容。
根据权利要求15所述的非易失性计算机可读存储介质，其特征在于，所述文本信息中包括指示字段和待输入字段；所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

确定与所述指示字段相关联的输入位置为目标输入位置；及

将所述待输入字段输入所述目标输入位置。
根据权利要求15所述的非易失性计算机可读存储介质，其特征在于，在所述根据预设的语音采集指令采集语音信息的步骤之前，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

接收语音采集指令，所述语音采集指令中携带有目标输入位置的指示信息；及

根据所述指示信息确定所述文本信息的目标输入位置。
根据权利要求15所述的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

接收语音采集指令，所述语音采集指令中携带有目标输入位置的指示信息；及

根据所述指示信息确定所述文本信息的目标输入位置。
根据权利要求15所述的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

当所述语音信息对应的文本信息包括至少两个待选文本信息时，检测用户对一个所述待选文本信息的选择操作；及

将用户选择的所述待选文本信息中的至少部分内容输入所述目标输入位置。
根据权利要求15所述的非易失性计算机可读存储介质，其特征在于，所述语音信息包括多个语音片段；所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

根据预设的语音识别学习算法计算至少一个语音片段与多个预设的语音识别数据库中的语音样本的匹配度；

将所述匹配度最高的语音样本所在的语音识别数据库设置为目标语音识别数据库；

根据所述语音识别学习算法将各所述语音片段与所述目标语音识别数据库中的语音样本进行匹配，获取各所述语音片段对应的文本字符；及

根据各语音片段对应的文本字符生成所述文本信息。