[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106503744A - 对聊天过程中的输入表情进行自动纠错的方法及装置 - Google Patents

对聊天过程中的输入表情进行自动纠错的方法及装置 Download PDF

Info

Publication number
CN106503744A
CN106503744A CN201610943311.0A CN201610943311A CN106503744A CN 106503744 A CN106503744 A CN 106503744A CN 201610943311 A CN201610943311 A CN 201610943311A CN 106503744 A CN106503744 A CN 106503744A
Authority
CN
China
Prior art keywords
expression
input
chat
detected
input expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610943311.0A
Other languages
English (en)
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Dove Software Co Ltd
Original Assignee
Changsha Dove Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Dove Software Co Ltd filed Critical Changsha Dove Software Co Ltd
Priority to CN201610943311.0A priority Critical patent/CN106503744A/zh
Publication of CN106503744A publication Critical patent/CN106503744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的对聊天过程中的输入表情进行自动纠错的方法及装置,通过采集训练样本的聊天属性信息;基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;根据特征向量训练分类器,获得检错模型以及根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错,解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题,一方面通过利用检错模型对聊天过程中的输入表情实现自动检错,另一方面对不准确的输入表情实现自动纠错。

Description

对聊天过程中的输入表情进行自动纠错的方法及装置
技术领域
本发明涉及通信技术领域,具体涉及一种对聊天过程中的输入表情进行自动纠错的方法及装置。
背景技术
随着IM(Instant Messenger,即时通讯)应用、Blog(博客)以及SMS(ShortMessaging Service,短消息服务)应用的推广和普及,用户已经愈加依赖于这些具有信息收发功能的应用进行彼此间的交流和联系。
用户在使用上述应用进行交流时,为了增加输入内容的趣味性,往往需要输入一些表情以表达特殊含义,或者丰富输入内容。然而,一个应用往往包含有几十甚至几百个表情供用户选择,故在聊天过程中可能会因为错选表情或误解表情含义导致输入表情不准确。针对该问题,本发明提供了一种对聊天过程中的输入表情进行自动纠错的方法及装置。
发明内容
本发明提供了一种对聊天过程中的输入表情进行自动纠错的方法及装置,以解决由于错选表情或误解表情含义导致输入表情不准确的技术问题。
根据本发明的一方面,提供了一种对聊天过程中的输入表情进行自动纠错的方法,包括:
采集训练样本的聊天属性信息,其中,训练样本包括输入表情有错误和输入表情无错误的训练样本;
基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;
根据特征向量训练分类器,获得检错模型;
根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错。
进一步地,根据检错模型,判断待检测的输入表情是否准确包括:
检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情;
采集待检测的输入表情的聊天属性信息;
基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量;
将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
进一步地,对待检测的输入表情进行纠错包括:
在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情;
将纠错表情替换待检测的输入表情。
进一步地,在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情包括:
预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
提取与文本表情对应的词向量,获得文本表情词向量;
提取与待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
计算聊天属性词向量与文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
进一步地,聊天属性信息包括:
聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。
根据本发明的另一方面,提供了一种对聊天过程中的输入表情进行自动纠错的装置,包括:
采集装置,用于采集训练样本的聊天属性信息,其中,训练样本包括输入表情有错误和输入表情无错误的训练样本;
特征向量提取装置,用于基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;
训练装置,用于根据特征向量训练分类器,获得检错模型;
纠错装置,用于根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错。
进一步地,纠错装置包括:
检测装置,用于检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情;
聊天属性信息采集装置,用于采集待检测的输入表情的聊天属性信息;
输入表情特征向量提取装置,用于基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量;
判断装置,用于将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
进一步地,纠错装置还包括:
匹配装置,用于在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情;
替换装置,用于将纠错表情替换待检测的输入表情。
进一步地,匹配装置包括:
标识装置,用于预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
文本表情词向量获取装置,用于提取与文本表情对应的词向量,获得文本表情词向量;
聊天属性词向量获取装置,用于提取与待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
相似度计算装置,用于计算聊天属性词向量与文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
本发明具有以下有益效果:
本发明提供的对聊天过程中的输入表情进行自动纠错的方法及装置,通过采集训练样本的聊天属性信息;基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;根据特征向量训练分类器,获得检错模型以及根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错,解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题,一方面通过利用检错模型对聊天过程中的输入表情实现自动检错,另一方面对不准确的输入表情实现自动纠错。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:
图1是本发明优选实施例的对聊天过程中的输入表情进行自动纠错的方法流程图;
图2是本发明优选实施例针对的一个精简实施例的对聊天过程中的输入表情进行自动纠错的方法流程图;
图3是本发明优选实施例的对聊天过程中的输入表情进行自动纠错的装置的结构框图。
附图标记说明:
10、采集装置;20、特征向量提取装置;30、训练装置;40、纠错装置。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种对聊天过程中的输入表情进行自动纠错的方法,包括:
步骤S101,采集训练样本的聊天属性信息,其中,训练样本包括输入表情有错误和输入表情无错误的训练样本;
步骤S102,基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;
步骤S103,根据特征向量训练分类器,获得检错模型;
步骤S104,根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错。
本发明提供的对聊天过程中的输入表情进行自动纠错的方法,通过采集训练样本的聊天属性信息;基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;根据特征向量训练分类器,获得检错模型以及根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错,解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题,一方面通过利用检错模型对聊天过程中的输入表情实现自动检错,另一方面对不准确的输入表情实现自动纠错。
具体地,本实施例采用基于检错模型对输入表情进行自动纠错,巧妙地将纠错过程中的检错问题转换为分类问题,从而简化了现有技术对输入表情进行检错的繁琐操作,大大提高了对输入表情进行检错的效率和检错率,为后续提高对输入表情进行纠错的纠错效率和纠错率奠定基础;其次本实施例通过利用训练样本的聊天属性信息建立并训练检错模型,使得建立的检错模型充分结合了输入表情的聊天属性信息,从而具有较高的检错率,进一步提高了对输入表情的纠错率,体现了较高的智能化纠错水平。
根据日常聊天可知,输入表情是否正确或合适不仅与输入表情本身的含义有关,还与输入表情的聊天属性信息相关(例如聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息等等)。例如,针对两个不同聊天关系的聊天场景中,使用同一个输入表情可能在其中一个聊天场景中正确,而在另一个聊天场景中不正确。针对该问题,本实施例在训练并建立检错模型时,充分结合输入表情的聊天属性信息,从而具有较高的检错率,进一步提高了对输入表情的纠错率,体现了较高的智能化纠错水平。
在实际的实施过程中,为了尽可能提高利用检错模型对输入表情进行检错的检错率,本实施例应当选取足够的训练样本训练分类器,且输入表情有错误和输入表情无错误的训练样本的数目尽量相当。
可选地,根据检错模型,判断待检测的输入表情是否准确包括:
检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情;
采集待检测的输入表情的聊天属性信息;
基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量;
将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
本实施例在训练好用于对输入表情进行检错的检错模型后,就可以利用该检错模型判断待检测的输入表情是否准确。具体地,首先检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情,然后采集待检测的输入表情的聊天属性信息,并基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量,最后将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
具体地,本实施例检测当前输入是否包含表情符号可以是实时的,也可以是非实时的,也即可以实时检测聊天输入的内容是否属于或包括表情符号,也可以按预设的输入量阶段性地检测当前输入是否属于或包含表情符号。在具体的实施过程中,本实施例可以具体设置输入量为多少字符时开始检测聊天输入的内容是否属于或包括表情符号,例如可以设置输入量为5个字符,也即每输入5个字符时,判断该5个字符是否属于或包括表情符号。需要说明的是,只有在检测到当前输入包含表情符号时,才将其作为待检测的输入表情并判断其是否准确,且待检测的输入表情的聊天属性信息具体可以是待检测的输入表情的聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。
本实施例通过将纠错过程中的检错问题转换为分类问题,从而简化了现有技术对输入表情进行检错的繁琐操作,大大提高了对输入表情进行检错的效率和检错率,为后续提高对输入表情进行纠错的纠错效率和纠错率奠定基础。且本实施例利用训练好的检错模型实现对待检测的输入表情的检错,充分结合了待检测的输入表情的聊天属性信息,大大提高了对待检测的输入表情的检错率。
可选地,对待检测的输入表情进行纠错包括:
在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情;
将纠错表情替换待检测的输入表情。
本实施例在根据训练好的检错模型检测出输入表情不准确时,对不准确的输入表情进行自动纠错。具体地,首先在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情,然后将纠错表情替换待检测的输入表情。本实施例通过在预设的表情数据库中,自动匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情,并将纠错表情替换待检测的输入表情,实现了对不准确的输入表情进行自动纠错,无需人工参与,纠错效率高;此外,本实施例结合待检测的输入表情的聊天属性信息匹配与其最匹配的纠错表情,智能化程度高。
可选地,在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情包括:
预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
提取与文本表情对应的词向量,获得文本表情词向量;
提取与待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
计算聊天属性词向量和与文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
由于待检测的输入表情的聊天属性信息可能包括多个,故为了在预设的表情数据库中尽量匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情,本实施例预先对预设的表情数据库中的表情进行文本标识,获得文本表情,然后分别提取与文本表情对应的词向量以及与待检测的输入表情的聊天属性信息对应的词向量,从而获得文本表情词向量聊天属性词向量,最后通过计算这两个词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
本实施例所指的文本表情具体是指对表情进行文本标识后获得的文本标识内容,例如对一个大哭的表情文本标识为“哭”,则“哭”文本标识内容就是文本表情。且在提取与文本表情对应的词向量时,是提取该文本标识内容对应的词向量。此外,本实施例提取与输入表情的聊天属性信息对应的词向量时,具体是与聊天属性信息对应的词向量。例如,假设针对输入表情A的聊天属性信息包括{s1、s2、 s3},则与之对应的词向量就是将聊天属性中的每一个聊天属性内容转换成词向量,假设为{ c1、c 2、 c 3},从而获得聊天属性词向量为{ c1、c 2、 c 3}。
可选地,聊天属性信息包括:
聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。
具体地,本实施例中的聊天属性信息不限于包括聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合,具体为根据需要自定义。
下面针对一个精简实施例对本发明的对聊天过程中的输入表情进行自动纠错的方法进行更进一步说明。
参照图2,本实施例中对聊天过程中的输入表情进行自动纠错的方法包括:
步骤S201,采集训练样本的聊天属性信息,其中,训练样本包括输入表情有错误和输入表情无错误的训练样本。
具体地,本实施例通过采集大量的输入表情有错误和输入表情无错误的样本作为训练样本,且为了尽可能提高利用检错模型对输入表情进行检错的检错率,本实施例选取的输入表情有错误和输入表情无错误的训练样本的数目尽量相当。
步骤S202,基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量。
具体地,本实施例在提取训练样本的特征向量前需先获取训练样本的聊天属性信息,且在获取训练样本的聊天属性信息时,本实施例首先设定属性条目(例如聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置条目等等),然后基于设定的属性条目获取训练样本的聊天属性信息。假设本实施例预先设定的属性条目包括聊天主题、聊天时间、聊天对象关系。并在获取到训练样本的聊天属性信息后提取训练样本的特征向量。具体地,该特征向量由聊天属性信息对应的词向量组成。
步骤S203,根据特征向量训练分类器,获得检错模型。
具体地,本实施例中的分类器可以是贝叶斯分类器,支持向量机分类器、最大熵分类器等等。
步骤S204,检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情。
具体地,本实施例实时检测当前输入是否包含表情符号,假设用户在当前输入的内容为“节日快乐+母亲节祝福的表情符号”,则当系统检测到用户输入“母亲节祝福的表情符号”时,将“母亲节祝福的表情符号”的表情符号作为待检测的输入表情。
步骤S205,采集待检测的输入表情的聊天属性信息。
由于本实施例在采集训练样本的聊天属性信息时,预先设定的属性条目包括聊天主题、聊天时间、聊天对象关系,故在采集待检测的输入表情的聊天属性信息,也采用上述属性条目。假设根据上述属性条目,采集到待检测的输入表情的聊天属性信息为:{聊天主题=节日祝福,聊天时间=3月8日,聊天对象关系=朋友}。
步骤S206,基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量。
具体地,本实施例提取的待检测的输入表情的特征向量也即待检测的输入表情和待检测的输入表情的聊天属性信息对应的词向量的组合。
步骤S207,将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
具体地,假设本实施例将待检测的输入表情的特征向量输入检错模型后,检测出该输入表情是不准确,则执行步骤S208。
步骤S208,预先对预设的表情数据库中的表情进行文本标识,获得文本表情。
具体地,本实施例首先对预设的表情数据库中的表情进行文本标识,从而获得用文本标识的文本表情。
步骤S209,提取与文本表情对应的词向量,获得文本表情词向量。
具体地,通过分别提取与每一个文本表情对应的词向量,从而获得与每一个表情对应的文本表情词向量。
步骤S210,提取与待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量。
具体地,本实施例要获取的聊天属性词向量也即与待检测的输入表情的聊天属性信息对应的词向量,也即与{聊天主题=节日祝福,聊天时间=3月8日,聊天对象关系=朋友}对应的词向量。
步骤S211,计算聊天属性词向量与文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
具体地,假设通过相似度计算,本实施例获得与待检测的输入表情的聊天属性信息最匹配的纠错表情的“妇女节祝福的表情符号”。
步骤S212,将纠错表情替换待检测的输入表情。
具体地,根据步骤S211获得的纠错表情,本实施例将“妇女节祝福的表情符号”替换“母亲节祝福的表情符号”。
本发明提供的对聊天过程中的输入表情进行自动纠错的方法,通过采集训练样本的聊天属性信息;基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;根据特征向量训练分类器,获得检错模型以及根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错,解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题,一方面通过利用检错模型对聊天过程中的输入表情实现自动检错,另一方面对不准确的输入表情实现自动纠错。
参照图3,本发明的优选实施例提供的对聊天过程中的输入表情进行自动纠错的装置,包括:
采集装置10,用于采集训练样本的聊天属性信息,其中,训练样本包括输入表情有错误和输入表情无错误的训练样本;
特征向量提取装置20,用于基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;
训练装置30,用于根据特征向量训练分类器,获得检错模型;
纠错装置40,用于根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错。
可选地,纠错装置40包括:
检测装置,用于检测当前输入是否包含表情符号,若是,则将表情符号作为待检测的输入表情;
聊天属性信息采集装置,用于采集待检测的输入表情的聊天属性信息;
输入表情特征向量提取装置,用于基于待检测的输入表情和待检测的输入表情的聊天属性信息,提取待检测的输入表情的特征向量;
判断装置,用于将待检测的输入表情的特征向量输入检错模型,判断待检测的输入表情是否准确。
可选地,纠错装置40还包括:
匹配装置,用于在预设的表情数据库中,匹配与待检测的输入表情的聊天属性信息最匹配的纠错表情;
替换装置,用于将纠错表情替换待检测的输入表情。
可选地,匹配装置包括:
标识装置,用于预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
文本表情词向量获取装置,用于提取与文本表情对应的词向量,获得文本表情词向量;
聊天属性词向量获取装置,用于提取与待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
相似度计算装置,用于计算聊天属性词向量与文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与待检测的输入表情的聊天属性信息最匹配的纠错表情。
本发明提供的对聊天过程中的输入表情进行自动纠错的装置,通过采集训练样本的聊天属性信息;基于训练样本和训练样本的聊天属性信息,提取训练样本的特征向量;根据特征向量训练分类器,获得检错模型以及根据检错模型,判断待检测的输入表情是否准确,若否,则对待检测的输入表情进行纠错,解决了由于错选表情或误解表情含义导致输入表情不准确的技术问题,一方面通过利用检错模型对聊天过程中的输入表情实现自动检错,另一方面对不准确的输入表情实现自动纠错。
本实施例对聊天过程中的输入表情进行自动纠错的装置的具体工作过程和工作原理可参照本实施例的对聊天过程中的输入表情进行自动纠错的方法的工作过程和工作原理。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种对聊天过程中的输入表情进行自动纠错的方法,其特征在于,包括:
采集训练样本的聊天属性信息,其中,所述训练样本包括输入表情有错误和输入表情无错误的训练样本;
基于所述训练样本和所述训练样本的聊天属性信息,提取所述训练样本的特征向量;
根据所述特征向量训练分类器,获得检错模型;
根据所述检错模型,判断待检测的输入表情是否准确,若否,则对所述待检测的输入表情进行纠错。
2.根据权利要求1所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,根据所述检错模型,判断待检测的输入表情是否准确包括:
检测当前输入是否包含表情符号,若是,则将所述表情符号作为待检测的输入表情;
采集所述待检测的输入表情的聊天属性信息;
基于所述待检测的输入表情和所述待检测的输入表情的聊天属性信息,提取所述待检测的输入表情的特征向量;
将所述待检测的输入表情的特征向量输入所述检错模型,判断所述待检测的输入表情是否准确。
3.根据权利要求2所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,对所述待检测的输入表情进行纠错包括:
在预设的表情数据库中,匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情;
将所述纠错表情替换所述待检测的输入表情。
4.根据权利要求3所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,在预设的表情数据库中,匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情包括:
预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
提取与所述文本表情对应的词向量,获得文本表情词向量;
提取与所述待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
计算所述聊天属性词向量与所述文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与所述待检测的输入表情的聊天属性信息最匹配的纠错表情。
5.根据权利要求4所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,所述聊天属性信息包括:
聊天对象关系、聊天时间、聊天主题、聊天上下文以及聊天地理位置信息中的一种或多种组合。
6.一种对聊天过程中的输入表情进行自动纠错的装置,其特征在于,
采集装置,用于采集训练样本的聊天属性信息,其中,所述训练样本包括输入表情有错误和输入表情无错误的训练样本;
特征向量提取装置,用于基于所述训练样本和所述训练样本的聊天属性信息,提取所述训练样本的特征向量;
训练装置,用于根据所述特征向量训练分类器,获得检错模型;
纠错装置,用于根据所述检错模型,判断待检测的输入表情是否准确,若否,则对所述待检测的输入表情进行纠错。
7.根据权利要求6所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,所述纠错装置包括:
检测装置,用于检测当前输入是否包含表情符号,若是,则将所述表情符号作为待检测的输入表情;
聊天属性信息采集装置,用于采集所述待检测的输入表情的聊天属性信息;
输入表情特征向量提取装置,用于基于所述待检测的输入表情和所述待检测的输入表情的聊天属性信息,提取所述待检测的输入表情的特征向量;
判断装置,用于将所述待检测的输入表情的特征向量输入所述检错模型,判断所述待检测的输入表情是否准确。
8.根据权利要求7所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,所述纠错装置还包括:
匹配装置,用于在预设的表情数据库中,匹配与所述待检测的输入表情的聊天属性信息最匹配的纠错表情;
替换装置,用于将所述纠错表情替换所述待检测的输入表情。
9.根据权利要求8所述的对聊天过程中的输入表情进行自动纠错的方法,其特征在于,所述匹配装置包括:
标识装置,用于预先对预设的表情数据库中的表情进行文本标识,获得文本表情;
文本表情词向量获取装置,用于提取与所述文本表情对应的词向量,获得文本表情词向量;
聊天属性词向量获取装置,用于提取与所述待检测的输入表情的聊天属性信息对应的词向量,获得聊天属性词向量;
相似度计算装置,用于计算所述聊天属性词向量与所述文本表情词向量之间的相似度,并将相似度最高的文本表情词向量对应的表情作为与所述待检测的输入表情的聊天属性信息最匹配的纠错表情。
CN201610943311.0A 2016-10-26 2016-10-26 对聊天过程中的输入表情进行自动纠错的方法及装置 Pending CN106503744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610943311.0A CN106503744A (zh) 2016-10-26 2016-10-26 对聊天过程中的输入表情进行自动纠错的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610943311.0A CN106503744A (zh) 2016-10-26 2016-10-26 对聊天过程中的输入表情进行自动纠错的方法及装置

Publications (1)

Publication Number Publication Date
CN106503744A true CN106503744A (zh) 2017-03-15

Family

ID=58321895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610943311.0A Pending CN106503744A (zh) 2016-10-26 2016-10-26 对聊天过程中的输入表情进行自动纠错的方法及装置

Country Status (1)

Country Link
CN (1) CN106503744A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491493A (zh) * 2017-07-22 2017-12-19 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置
CN110188274A (zh) * 2019-05-30 2019-08-30 口口相传(北京)网络技术有限公司 搜索纠错方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823561A (zh) * 2014-02-27 2014-05-28 广州华多网络科技有限公司 表情输入方法和装置
CN104053131A (zh) * 2013-03-12 2014-09-17 华为技术有限公司 一种文本通讯信息处理方法及相关设备
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104463231A (zh) * 2014-12-31 2015-03-25 合一网络技术(北京)有限公司 对表情识别内容标注后进行纠错的方法
CN104484058A (zh) * 2014-12-19 2015-04-01 天脉聚源(北京)科技有限公司 一种输出即时表情图像的方法及装置
CN104598127A (zh) * 2014-12-31 2015-05-06 广东欧珀移动通信有限公司 一种在对话界面插入表情的方法及装置
US20160110058A1 (en) * 2011-12-19 2016-04-21 Machine Zone, Inc. Systems and methods for identifying and suggesting emoticons
CN106021599A (zh) * 2016-06-08 2016-10-12 维沃移动通信有限公司 一种表情符号推荐方法及移动终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110058A1 (en) * 2011-12-19 2016-04-21 Machine Zone, Inc. Systems and methods for identifying and suggesting emoticons
CN104053131A (zh) * 2013-03-12 2014-09-17 华为技术有限公司 一种文本通讯信息处理方法及相关设备
CN103823561A (zh) * 2014-02-27 2014-05-28 广州华多网络科技有限公司 表情输入方法和装置
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104484058A (zh) * 2014-12-19 2015-04-01 天脉聚源(北京)科技有限公司 一种输出即时表情图像的方法及装置
CN104463231A (zh) * 2014-12-31 2015-03-25 合一网络技术(北京)有限公司 对表情识别内容标注后进行纠错的方法
CN104598127A (zh) * 2014-12-31 2015-05-06 广东欧珀移动通信有限公司 一种在对话界面插入表情的方法及装置
CN106021599A (zh) * 2016-06-08 2016-10-12 维沃移动通信有限公司 一种表情符号推荐方法及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆玉清等: "对聊天过程中的输入表情进行自动纠错的方法", 《中文信息学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491493A (zh) * 2017-07-22 2017-12-19 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置
CN110188274A (zh) * 2019-05-30 2019-08-30 口口相传(北京)网络技术有限公司 搜索纠错方法及装置
CN110188274B (zh) * 2019-05-30 2021-06-08 口口相传(北京)网络技术有限公司 搜索纠错方法及装置

Similar Documents

Publication Publication Date Title
CN112528850B (zh) 人体识别方法、装置、设备和存储介质
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN107146099B (zh) 一种营销方法及营销系统
CN104270275B (zh) 一种异常原因的辅助分析方法、服务器以及智能设备
CN108491720B (zh) 一种应用识别方法、系统以及相关设备
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
US11429923B2 (en) Method and device for determining mail path information
CN104252479A (zh) 信息的处理方法、装置和系统
CN107918629A (zh) 一种告警故障的关联方法和装置
CN103580939A (zh) 一种基于账号属性的异常消息检测方法及设备
CN110781805A (zh) 一种目标物体检测方法、装置、计算设备和介质
CN106156105A (zh) 电子邮件聚合分类方法和装置
CN105631641A (zh) 流程处理方法和装置
CN106503744A (zh) 对聊天过程中的输入表情进行自动纠错的方法及装置
CN109213858B (zh) 一种网络水军的自动识别方法及系统
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN103595614A (zh) 一种基于用户反馈的垃圾邮件检测方法
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN103634760A (zh) 用于个人通讯录管理的系统和方法
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
CN104052650A (zh) 发送邮件的方法和设备
CN107526779A (zh) 一种挖掘代跑客户的方法及装置
CN107391695A (zh) 一种基于大数据的信息提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315