CN106503744A

CN106503744A - 对聊天过程中的输入表情进行自动纠错的方法及装置

Info

Publication number: CN106503744A
Application number: CN201610943311.0A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Dove Software Co Ltd
Current assignee: Changsha Dove Software Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-15

Abstract

本发明提供的对聊天过程中的输入表情进行自动纠错的方法及装置，通过采集训练样本的聊天属性信息；基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；根据特征向量训练分类器，获得检错模型以及根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错，解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题，一方面通过利用检错模型对聊天过程中的输入表情实现自动检错，另一方面对不准确的输入表情实现自动纠错。

Description

对聊天过程中的输入表情进行自动纠错的方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种对聊天过程中的输入表情进行自动纠错的方法及装置。

背景技术

随着IM（Instant Messenger，即时通讯）应用、Blog（博客）以及SMS（ShortMessaging Service，短消息服务）应用的推广和普及，用户已经愈加依赖于这些具有信息收发功能的应用进行彼此间的交流和联系。

用户在使用上述应用进行交流时，为了增加输入内容的趣味性，往往需要输入一些表情以表达特殊含义，或者丰富输入内容。然而，一个应用往往包含有几十甚至几百个表情供用户选择，故在聊天过程中可能会因为错选表情或误解表情含义导致输入表情不准确。针对该问题，本发明提供了一种对聊天过程中的输入表情进行自动纠错的方法及装置。

发明内容

本发明提供了一种对聊天过程中的输入表情进行自动纠错的方法及装置，以解决由于错选表情或误解表情含义导致输入表情不准确的技术问题。

根据本发明的一方面，提供了一种对聊天过程中的输入表情进行自动纠错的方法，包括：

采集训练样本的聊天属性信息，其中，训练样本包括输入表情有错误和输入表情无错误的训练样本;

基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；

根据特征向量训练分类器，获得检错模型；

根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错。

进一步地，根据检错模型，判断待检测的输入表情是否准确包括：

检测当前输入是否包含表情符号，若是，则将表情符号作为待检测的输入表情；

采集待检测的输入表情的聊天属性信息；

基于待检测的输入表情和待检测的输入表情的聊天属性信息，提取待检测的输入表情的特征向量；

将待检测的输入表情的特征向量输入检错模型，判断待检测的输入表情是否准确。

进一步地，对待检测的输入表情进行纠错包括：

在预设的表情数据库中，匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情；

将纠错表情替换待检测的输入表情。

进一步地，在预设的表情数据库中，匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情包括：

预先对预设的表情数据库中的表情进行文本标识，获得文本表情；

提取与文本表情对应的词向量，获得文本表情词向量；

提取与待检测的输入表情的聊天属性信息对应的词向量，获得聊天属性词向量；

计算聊天属性词向量与文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。

进一步地，聊天属性信息包括：

聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。

根据本发明的另一方面，提供了一种对聊天过程中的输入表情进行自动纠错的装置，包括：

采集装置，用于采集训练样本的聊天属性信息，其中，训练样本包括输入表情有错误和输入表情无错误的训练样本;

特征向量提取装置，用于基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；

训练装置，用于根据特征向量训练分类器，获得检错模型；

纠错装置，用于根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错。

进一步地，纠错装置包括：

检测装置，用于检测当前输入是否包含表情符号，若是，则将表情符号作为待检测的输入表情；

聊天属性信息采集装置，用于采集待检测的输入表情的聊天属性信息；

输入表情特征向量提取装置，用于基于待检测的输入表情和待检测的输入表情的聊天属性信息，提取待检测的输入表情的特征向量；

判断装置，用于将待检测的输入表情的特征向量输入检错模型，判断待检测的输入表情是否准确。

进一步地，纠错装置还包括：

匹配装置，用于在预设的表情数据库中，匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情；

替换装置，用于将纠错表情替换待检测的输入表情。

进一步地，匹配装置包括：

标识装置，用于预先对预设的表情数据库中的表情进行文本标识，获得文本表情；

文本表情词向量获取装置，用于提取与文本表情对应的词向量，获得文本表情词向量；

聊天属性词向量获取装置，用于提取与待检测的输入表情的聊天属性信息对应的词向量，获得聊天属性词向量；

相似度计算装置，用于计算聊天属性词向量与文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例的对聊天过程中的输入表情进行自动纠错的方法流程图；

图2是本发明优选实施例针对的一个精简实施例的对聊天过程中的输入表情进行自动纠错的方法流程图；

图3是本发明优选实施例的对聊天过程中的输入表情进行自动纠错的装置的结构框图。

附图标记说明：

10、采集装置；20、特征向量提取装置；30、训练装置；40、纠错装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种对聊天过程中的输入表情进行自动纠错的方法，包括：

步骤S101，采集训练样本的聊天属性信息，其中，训练样本包括输入表情有错误和输入表情无错误的训练样本;

步骤S102，基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；

步骤S103，根据特征向量训练分类器，获得检错模型；

步骤S104，根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错。

本发明提供的对聊天过程中的输入表情进行自动纠错的方法，通过采集训练样本的聊天属性信息；基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；根据特征向量训练分类器，获得检错模型以及根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错，解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题，一方面通过利用检错模型对聊天过程中的输入表情实现自动检错，另一方面对不准确的输入表情实现自动纠错。

具体地，本实施例采用基于检错模型对输入表情进行自动纠错，巧妙地将纠错过程中的检错问题转换为分类问题，从而简化了现有技术对输入表情进行检错的繁琐操作，大大提高了对输入表情进行检错的效率和检错率，为后续提高对输入表情进行纠错的纠错效率和纠错率奠定基础；其次本实施例通过利用训练样本的聊天属性信息建立并训练检错模型，使得建立的检错模型充分结合了输入表情的聊天属性信息，从而具有较高的检错率，进一步提高了对输入表情的纠错率，体现了较高的智能化纠错水平。

根据日常聊天可知，输入表情是否正确或合适不仅与输入表情本身的含义有关，还与输入表情的聊天属性信息相关（例如聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息等等）。例如，针对两个不同聊天关系的聊天场景中，使用同一个输入表情可能在其中一个聊天场景中正确，而在另一个聊天场景中不正确。针对该问题，本实施例在训练并建立检错模型时，充分结合输入表情的聊天属性信息，从而具有较高的检错率，进一步提高了对输入表情的纠错率，体现了较高的智能化纠错水平。

在实际的实施过程中，为了尽可能提高利用检错模型对输入表情进行检错的检错率，本实施例应当选取足够的训练样本训练分类器，且输入表情有错误和输入表情无错误的训练样本的数目尽量相当。

可选地，根据检错模型，判断待检测的输入表情是否准确包括：

采集待检测的输入表情的聊天属性信息；

本实施例在训练好用于对输入表情进行检错的检错模型后，就可以利用该检错模型判断待检测的输入表情是否准确。具体地，首先检测当前输入是否包含表情符号，若是，则将表情符号作为待检测的输入表情，然后采集待检测的输入表情的聊天属性信息，并基于待检测的输入表情和待检测的输入表情的聊天属性信息，提取待检测的输入表情的特征向量，最后将待检测的输入表情的特征向量输入检错模型，判断待检测的输入表情是否准确。

具体地，本实施例检测当前输入是否包含表情符号可以是实时的，也可以是非实时的，也即可以实时检测聊天输入的内容是否属于或包括表情符号，也可以按预设的输入量阶段性地检测当前输入是否属于或包含表情符号。在具体的实施过程中，本实施例可以具体设置输入量为多少字符时开始检测聊天输入的内容是否属于或包括表情符号，例如可以设置输入量为5个字符，也即每输入5个字符时，判断该5个字符是否属于或包括表情符号。需要说明的是，只有在检测到当前输入包含表情符号时，才将其作为待检测的输入表情并判断其是否准确，且待检测的输入表情的聊天属性信息具体可以是待检测的输入表情的聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。

本实施例通过将纠错过程中的检错问题转换为分类问题，从而简化了现有技术对输入表情进行检错的繁琐操作，大大提高了对输入表情进行检错的效率和检错率，为后续提高对输入表情进行纠错的纠错效率和纠错率奠定基础。且本实施例利用训练好的检错模型实现对待检测的输入表情的检错，充分结合了待检测的输入表情的聊天属性信息，大大提高了对待检测的输入表情的检错率。

可选地，对待检测的输入表情进行纠错包括：

将纠错表情替换待检测的输入表情。

本实施例在根据训练好的检错模型检测出输入表情不准确时，对不准确的输入表情进行自动纠错。具体地，首先在预设的表情数据库中，匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情，然后将纠错表情替换待检测的输入表情。本实施例通过在预设的表情数据库中，自动匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情，并将纠错表情替换待检测的输入表情，实现了对不准确的输入表情进行自动纠错，无需人工参与，纠错效率高；此外，本实施例结合待检测的输入表情的聊天属性信息匹配与其最匹配的纠错表情，智能化程度高。

可选地，在预设的表情数据库中，匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情包括：

提取与文本表情对应的词向量，获得文本表情词向量；

计算聊天属性词向量和与文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。

由于待检测的输入表情的聊天属性信息可能包括多个，故为了在预设的表情数据库中尽量匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情，本实施例预先对预设的表情数据库中的表情进行文本标识，获得文本表情，然后分别提取与文本表情对应的词向量以及与待检测的输入表情的聊天属性信息对应的词向量，从而获得文本表情词向量聊天属性词向量，最后通过计算这两个词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。

本实施例所指的文本表情具体是指对表情进行文本标识后获得的文本标识内容，例如对一个大哭的表情文本标识为“哭”，则“哭”文本标识内容就是文本表情。且在提取与文本表情对应的词向量时，是提取该文本标识内容对应的词向量。此外，本实施例提取与输入表情的聊天属性信息对应的词向量时，具体是与聊天属性信息对应的词向量。例如，假设针对输入表情A的聊天属性信息包括{s1、s2、 s3}，则与之对应的词向量就是将聊天属性中的每一个聊天属性内容转换成词向量，假设为{ c1、c 2、 c 3}，从而获得聊天属性词向量为{ c1、c 2、 c 3}。

可选地，聊天属性信息包括：

具体地，本实施例中的聊天属性信息不限于包括聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合，具体为根据需要自定义。

下面针对一个精简实施例对本发明的对聊天过程中的输入表情进行自动纠错的方法进行更进一步说明。

参照图2，本实施例中对聊天过程中的输入表情进行自动纠错的方法包括：

步骤S201，采集训练样本的聊天属性信息，其中，训练样本包括输入表情有错误和输入表情无错误的训练样本。

具体地，本实施例通过采集大量的输入表情有错误和输入表情无错误的样本作为训练样本，且为了尽可能提高利用检错模型对输入表情进行检错的检错率，本实施例选取的输入表情有错误和输入表情无错误的训练样本的数目尽量相当。

步骤S202，基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量。

具体地，本实施例在提取训练样本的特征向量前需先获取训练样本的聊天属性信息，且在获取训练样本的聊天属性信息时，本实施例首先设定属性条目（例如聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置条目等等），然后基于设定的属性条目获取训练样本的聊天属性信息。假设本实施例预先设定的属性条目包括聊天主题、聊天时间、聊天对象关系。并在获取到训练样本的聊天属性信息后提取训练样本的特征向量。具体地，该特征向量由聊天属性信息对应的词向量组成。

步骤S203，根据特征向量训练分类器，获得检错模型。

具体地，本实施例中的分类器可以是贝叶斯分类器，支持向量机分类器、最大熵分类器等等。

步骤S204，检测当前输入是否包含表情符号，若是，则将表情符号作为待检测的输入表情。

具体地，本实施例实时检测当前输入是否包含表情符号，假设用户在当前输入的内容为“节日快乐+母亲节祝福的表情符号”，则当系统检测到用户输入“母亲节祝福的表情符号”时，将“母亲节祝福的表情符号”的表情符号作为待检测的输入表情。

步骤S205，采集待检测的输入表情的聊天属性信息。

由于本实施例在采集训练样本的聊天属性信息时，预先设定的属性条目包括聊天主题、聊天时间、聊天对象关系，故在采集待检测的输入表情的聊天属性信息，也采用上述属性条目。假设根据上述属性条目，采集到待检测的输入表情的聊天属性信息为：{聊天主题=节日祝福，聊天时间=3月8日，聊天对象关系=朋友}。

步骤S206，基于待检测的输入表情和待检测的输入表情的聊天属性信息，提取待检测的输入表情的特征向量。

具体地，本实施例提取的待检测的输入表情的特征向量也即待检测的输入表情和待检测的输入表情的聊天属性信息对应的词向量的组合。

步骤S207，将待检测的输入表情的特征向量输入检错模型，判断待检测的输入表情是否准确。

具体地，假设本实施例将待检测的输入表情的特征向量输入检错模型后，检测出该输入表情是不准确，则执行步骤S208。

步骤S208，预先对预设的表情数据库中的表情进行文本标识，获得文本表情。

具体地，本实施例首先对预设的表情数据库中的表情进行文本标识，从而获得用文本标识的文本表情。

步骤S209，提取与文本表情对应的词向量，获得文本表情词向量。

具体地，通过分别提取与每一个文本表情对应的词向量，从而获得与每一个表情对应的文本表情词向量。

步骤S210，提取与待检测的输入表情的聊天属性信息对应的词向量，获得聊天属性词向量。

具体地，本实施例要获取的聊天属性词向量也即与待检测的输入表情的聊天属性信息对应的词向量，也即与{聊天主题=节日祝福，聊天时间=3月8日，聊天对象关系=朋友}对应的词向量。

步骤S211，计算聊天属性词向量与文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。

具体地，假设通过相似度计算，本实施例获得与待检测的输入表情的聊天属性信息最匹配的纠错表情的“妇女节祝福的表情符号”。

步骤S212，将纠错表情替换待检测的输入表情。

具体地，根据步骤S211获得的纠错表情，本实施例将“妇女节祝福的表情符号”替换“母亲节祝福的表情符号”。

参照图3，本发明的优选实施例提供的对聊天过程中的输入表情进行自动纠错的装置，包括：

采集装置10，用于采集训练样本的聊天属性信息，其中，训练样本包括输入表情有错误和输入表情无错误的训练样本;

特征向量提取装置20，用于基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；

训练装置30，用于根据特征向量训练分类器，获得检错模型；

纠错装置40，用于根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错。

可选地，纠错装置40包括：

可选地，纠错装置40还包括：

替换装置，用于将纠错表情替换待检测的输入表情。

可选地，匹配装置包括：

本发明提供的对聊天过程中的输入表情进行自动纠错的装置，通过采集训练样本的聊天属性信息；基于训练样本和训练样本的聊天属性信息，提取训练样本的特征向量；根据特征向量训练分类器，获得检错模型以及根据检错模型，判断待检测的输入表情是否准确，若否，则对待检测的输入表情进行纠错，解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题，一方面通过利用检错模型对聊天过程中的输入表情实现自动检错，另一方面对不准确的输入表情实现自动纠错。

本实施例对聊天过程中的输入表情进行自动纠错的装置的具体工作过程和工作原理可参照本实施例的对聊天过程中的输入表情进行自动纠错的方法的工作过程和工作原理。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对聊天过程中的输入表情进行自动纠错的方法，其特征在于，包括：

采集训练样本的聊天属性信息，其中，所述训练样本包括输入表情有错误和输入表情无错误的训练样本;

基于所述训练样本和所述训练样本的聊天属性信息，提取所述训练样本的特征向量；

根据所述特征向量训练分类器，获得检错模型；

根据所述检错模型，判断待检测的输入表情是否准确，若否，则对所述待检测的输入表情进行纠错。

2.根据权利要求1所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，根据所述检错模型，判断待检测的输入表情是否准确包括：

检测当前输入是否包含表情符号，若是，则将所述表情符号作为待检测的输入表情；

采集所述待检测的输入表情的聊天属性信息；

基于所述待检测的输入表情和所述待检测的输入表情的聊天属性信息，提取所述待检测的输入表情的特征向量；

将所述待检测的输入表情的特征向量输入所述检错模型，判断所述待检测的输入表情是否准确。

3.根据权利要求2所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，对所述待检测的输入表情进行纠错包括：

在预设的表情数据库中，匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情；

将所述纠错表情替换所述待检测的输入表情。

4.根据权利要求3所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，在预设的表情数据库中，匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情包括：

提取与所述文本表情对应的词向量，获得文本表情词向量；

提取与所述待检测的输入表情的聊天属性信息对应的词向量，获得聊天属性词向量；

计算所述聊天属性词向量与所述文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与所述待检测的输入表情的聊天属性信息最匹配的纠错表情。

5.根据权利要求4所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，所述聊天属性信息包括：

6.一种对聊天过程中的输入表情进行自动纠错的装置，其特征在于，

采集装置，用于采集训练样本的聊天属性信息，其中，所述训练样本包括输入表情有错误和输入表情无错误的训练样本;

特征向量提取装置，用于基于所述训练样本和所述训练样本的聊天属性信息，提取所述训练样本的特征向量；

训练装置，用于根据所述特征向量训练分类器，获得检错模型；

纠错装置，用于根据所述检错模型，判断待检测的输入表情是否准确，若否，则对所述待检测的输入表情进行纠错。

7.根据权利要求6所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，所述纠错装置包括：

检测装置，用于检测当前输入是否包含表情符号，若是，则将所述表情符号作为待检测的输入表情；

聊天属性信息采集装置，用于采集所述待检测的输入表情的聊天属性信息；

输入表情特征向量提取装置，用于基于所述待检测的输入表情和所述待检测的输入表情的聊天属性信息，提取所述待检测的输入表情的特征向量；

判断装置，用于将所述待检测的输入表情的特征向量输入所述检错模型，判断所述待检测的输入表情是否准确。

8.根据权利要求7所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，所述纠错装置还包括：

匹配装置，用于在预设的表情数据库中，匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情；

替换装置，用于将所述纠错表情替换所述待检测的输入表情。

9.根据权利要求8所述的对聊天过程中的输入表情进行自动纠错的方法，其特征在于，所述匹配装置包括：

文本表情词向量获取装置，用于提取与所述文本表情对应的词向量，获得文本表情词向量；

聊天属性词向量获取装置，用于提取与所述待检测的输入表情的聊天属性信息对应的词向量，获得聊天属性词向量；

相似度计算装置，用于计算所述聊天属性词向量与所述文本表情词向量之间的相似度，并将相似度最高的文本表情词向量对应的表情作为与所述待检测的输入表情的聊天属性信息最匹配的纠错表情。