CN104915327A

CN104915327A - 一种文本信息的处理方法及装置

Info

Publication number: CN104915327A
Application number: CN201410097479.5A
Authority: CN
Inventors: 刘杰; 李映辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2015-09-16
Anticipated expiration: 2034-03-14
Also published as: US10262059B2; US20160283583A1; CN104915327B; WO2015135452A1

Abstract

本发明实施例公开一种文本信息的处理及装置，其中方法可包括：对目标文本由预设固定分词策略进行分词，并比较分词结果和预设分词列表得到新词；将新词添加到预设分词列表中，得到测试分词列表；根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本；比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词；将目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表对目标文本进行分类。采用本发明实施例，可识别新词，并将目标新词添加到预设分词列表得到目标分词列表，根据目标分析列表对目标文本进行分类，提高了对文本信息分类的精准度。

Description

一种文本信息的处理方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种文本信息的处理方法及装置。

背景技术

现有技术中，可将用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息进行分类，可对文本信息进行分词，从文本信息中识别出词典中已收录的词条，通过预先设计的算法，将文本信息分成预设的分类，例如，可获取一年时间内所有用户对一应用程序的评论信息，对获取到的评论信息进行分词，与电子词典库中已收录的词条进行匹配，识别到电子词典库中已收到的词，通过支持矢量机分类算法，将该产品的评价信息分类到“好评”和“差评”两个类别中。现有技术中，词典中收录的词条为固定词库的词，若出现新词，无法在词典中固定词库中找到该新词，则无法识别该新词，导致对文本信息分类的精准度降低。

发明内容

本发明实施例提供一种文本信息的处理方法及装置，可解决现有技术中在对文本信息分类过程中无法识别新词导致对文本信息分类的精准度低的技术问题。

本发明第一方面提供了一种文本信息的处理方法，可包括：

对目标文本由预设固定分词策略进行分词，并比较所述分词结果和预设分词列表得到新词；

将所述新词添加到所述预设分词列表中，得到测试分词列表；

根据所述预设分词列表对测试文本进行分类，得到第一文本，根据所述测试分词列表对所述测试文本进行分类，得到第二文本；

比较所述第一文本的分类准确率和所述第二文本的分类准确率，根据比较结果从所述新词中确定目标新词；

将所述目标新词添加到所述预设分词列表中，得到目标预设分词列表，根据所述目标预设分词列表对所述目标文本进行分类。

本发明第二方面提供了一种文本信息的处理装置，可包括：

新词处理模块，用于对目标文本由预设固定分词策略进行分词，并比较所述分词结果和所述预设分词列表得到新词；

添加模块，用于将所述新词添加到所述预设分词列表中，得到测试分词列表；

测试文本分类模块，用于根据所述预设分词列表对测试文本进行分类，得到第一文本，根据所述测试分词列表对测试文本进行分类，得到第二文本；

目标新词确定模块，用于比较所述第一文本的分类准确率和所述第二文本的分类准确率，根据比较结果从所述新词中确定目标新词；

目标文本分类模块，用于将所述目标新词添加到所述预设分词列表中，得到目标预设分词列表，根据所述目标预设分词列表对所述目标文本进行分类。

本发明第三方面提供了一种终端，可包括：如上述第二方面所述的装置。

实施本发明实施例，具有如下有益效果：

可由预设固定分词策略对目标文本进行分词，比较分词结果和预设分词列表可得到新词，可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率，从而根据比较结果可从新词中确定目标新词，进而将目标新词添加到预设分词列表中得到目标预设分词列表，可根据目标预设分词列表对目标文本进行分类，实现了识别新词，并将目标新词添加到分词列表进而对目标文本进行分类，提高了对文本信息分类的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本信息的处理方法的流程示意图；

图2是本发明实施例提供的一种文本信息的处理装置的结构示意图；

图3是本发明实施例提供的新词处理模块的结构示意图；

图4是本发明实施例提供的测试文本分类模块的结构示意图；

图5是本发明实施例提供的目标新词确定模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，一种文本信息的处理装置可以为：个人电脑、平板电脑、智能手机等终端，也可以通过终端中的客户端模块实现，例如：邮件分类客户端、评论分类客户端等。

本发明实施例中的文本信息具体可以包括：用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息，具体不受本发明实施例的限制。本发明实施例中，文本信息包括：目标文本、测试文本或训练文本等。目标文本为需要进行分类的文本信息，测试文本为在分类模型中用于测试分类准确率的文本信息，训练文本为用于构造分类模型时进行分类训练的文本信息。

具体的，文本信息的分类可通过预设分类算法实现。进一步可选的，预设分类算法可以包括：统计方法、机器学习方法或决策树等。其中，分类的目的是根据数据集的特点构造一个分类函数或分类模型（也称作分类器），分类器需要由人工标注的分类训练语料训练得到。构造模型的过程可包括训练和测试两个阶段。在构造模型之前，可将数据集随机地分为训练数据集和测试数据集。在训练阶段，使用训练数据集，通过分析由属性描述的数据库元组来构造模型，假定每个元组属于一个预定义的类，由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练文本，一个具体训练文本的形式可以为：（u₁，u₂，……u_i；c）；其中u_i表示属性值，c表示类别。在测试阶段，使用测试数据集来评估模型的分类准确率，测试数据集中的单个元组也称作测试文本，如果模型的准确率满足预设条件，则可用该模型对其它数据元组进行分类。

而现有技术中，词典中收录的词条为固定词库的词，若出现新词，无法在词典中固定词库中找到该新词，则无法识别该新词，导致对文本信息分类的精准度降低。通过本发明实施例，可识别新词，将目标新词添加到预设分词列表中得到目标预设分词列表，可根据目标预设分词列表对目标文本进行分类，提高了对文本信息分类的精准度。

下面将结合附图1，对本发明实施例提供的文本信息的处理方法进行详细介绍。

请参见图1，为本发明实施例提供了一种文本信息的处理方法的流程示意图，该方法可以包括以下步骤：S101～S105。

S101，对目标文本由预设固定分词策略进行分词，并比较分词结果和预设分词列表得到新词。

作为一种可选的实施方式，对目标文本由预设固定分词策略进行分词具体可以包括：

对目标文本从第1个字开始，每N个字进行截取，得到多个词串，每个词串的字数为N，N为大于1的正整数。

具体的，例如，对于目标文本1：“抓狂，盗号的太垃圾了，由把我的号码盗走了，请允悲，还好有密保手机，帮我找回来了，感谢”，N可设为3，则从第一个字开始，每N个字进行截取，具体实现中，可以为对每个句子进行每N个字进行截取，对于句子中不足3个字的，则直接将其截取为一个词，则对于目标文本1的分词结果可以为：抓狂、盗号的、号的太、的太垃、太垃圾、垃圾了、由把我、把我的、我的号、的号码、号码盗、码盗走、盗走了、请允悲、还好有、好有密、有密保、密保手、保手机、帮我找、我找回、找回来、回来了、感谢”，进一步的，还可以将N设为2或4等，可对同一目标文本对应不同N值进行分词。

具体实现中，可判断分词结果中的词是否与预设分词列表中的词匹配，若不匹配，统计不匹配的词的特征值，特征值包括不匹配的词在目标文本中出现的频率；若不匹配的词的特征值满足预设特征值，则将不匹配的词确定为新词。

其中，预设分词列表与预设分类算法关联，预设分类算法可根据预设分词列表对文本信息进行分词以及对文本信息进行分类。本发明实施例中，可将分词结果中的词与预设分词列表中的词匹配，若预设分词列表中不存在与分词结果中的词匹配的词，则计算该词的特征值，具体的，可以计算该词在该单个目标文本中的特征值，也可以为在包括多个目标文本的情况下，计算该词在所有目标文本中的特征值，进一步的，特征值包括不匹配的词在目标文本中出现的频率。若不匹配的词的特征值满足预设特征值，则将不匹配的词确定为新词。

进一步可选的，特征值还可以包括不匹配的词在目标文本中出现的概率等，具体不受本发明实施例的限制。

S102，将新词添加到预设分词列表中，得到测试分词列表。

作为一种可选的实施方式，将步骤S101中得到的新词添加到预设分词列表中，得到测试分词列表，其中，测试分词列表用于对测试文本进行分类。

S103，根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本。

作为一种可选的实施方式，根据预设分类算法对测试文本进行分类，得到第一文本，预设分类算法与预设分词列表关联；根据预设分类算法对测试文本进行分类，得到第二文本，预设分类算法与测试分词列表关联。在分类过程中，测试文本保持不变，由预设分类算法对应不同的分词列表对测试文本进行分类，预设分词列表对应第一文本，测试文本对应第二文本，其中，第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。

S104，比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词。

作为一种可选的实施方式，可分别计算第一文本的分类准确率和第二文本的分类准确率，具体的，若为多个新词，对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率；判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值，若是，将新词确定为目标新词。其中，若为多个新词，则可逐一将新词添加到预设分词列表中，每个新词对应一个测试分词列表，则每个新词对应得到的第二文本不同，每个新词对应的第二文本的准确率不同，而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值，为正数，即第二文本的分类准确率大于第一文本的分类准确率，预设差值例如0.1%～5%等。进一步的，可通过预设分类算法中的测试模型计算分类准确率。

S105，将目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表对目标文本进行分类。

作为一种可选的实施方式，可将确定的目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表校准预设分类算法，并根据校准的预设分类算法对目标文本进行分类。

本发明实施例提供一种文本信息的处理方法，可由预设固定分词策略对目标文本进行分词，比较分词结果和预设分词列表可得到新词，可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率，从而根据比较结果可从新词中确定目标新词，进而将目标新词添加到预设分词列表中得到目标预设分词列表，可根据目标预设分词列表对目标文本进行分类，实现了识别新词，并将目标新词添加到分词列表进而对目标文本进行分类，提高了对文本信息分类的精准度。

下面将结合附图2～图5，对本发明实施例提供的文本信息的处理装置进行详细介绍。需要说明的是，附图2～图5任一所示的装置，用于执行本发明图1所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1所示的实施例。

请参见图2，为本发明实施例提供了一种文本信息的处理装置的结构示意图。如图2所示，本发明实施例的文本信息的处理装置可包括：新词处理模块201、添加模块202、测试文本分类模块203、目标新词确定模块204和目标文本分类模块205。

新词处理模块201，用于对目标文本由预设固定分词策略进行分词，并比较分词结果和预设分词列表得到新词。

作为一种可选的实施方式，新词处理模块201对目标文本由预设固定分词策略进行分词具体可以包括：

作为一种可选的实施方式，如图3所示，为本发明实施例提供的新词处理模块的结构示意图，如图所示，新词处理模块201可以包括第二判断单元2011、统计单元2012以及第二确定单元2013。其中：

第二判断单元2011，用于判断分词结果中的词是否与预设分词列表中的词匹配。

统计单元2012，用于当第二判断单元的判断结果为否时，统计不匹配的词的特征值，特征值包括不匹配的词在所述目标文本中出现的频率。

第二确定单元2013，用于在不匹配的词的特征值满足预设特征值时，则将不匹配的词确定为新词。

添加模块202，用于将新词添加到预设分词列表中，得到测试分词列表。

作为一种可选的实施方式，添加模块202将新词处理模块201得到的新词添加到预设分词列表中，得到测试分词列表，其中，测试分词列表用于对测试文本进行分类。

测试文本分类模块203，用于根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本。

作为一种可选的实施方式，如图4所示，为本发明实施例提供的测试文本分类模块的结构示意图，如图所示，测试文本分类模块203可以包括：第一分类单元2031和第二分类单元2032。

第一分类单元2031，用于根据预设分类算法对测试文本进行分类，得到第一文本，预设分类算法与预设分词列表关联。

第二分类单元2032，用于根据预设分类算法对测试文本进行分类，得到第二文本，预设分类算法与测试分词列表关联。

具体的，在分类过程中，测试文本保持不变，由预设分类算法对应不同的分词列表对测试文本进行分类，预设分词列表对应第一文本，测试文本对应第二文本，其中，第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。

目标新词确定模块204，用于比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词。

作为一种可选的实施方式，可分别计算第一文本的分类准确率和第二文本的分类准确率，具体的，若为多个新词，如图5所示，为本发明实施例提供的目标新词确定模块的结构示意图，如图所示，目标新词确定模块204可以包括：计算单元2041、第一判断单元2042和第一确定单元2043。其中：

计算单元2041，用于对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率。

第一判断单元2042，用于判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值。

第一确定单元2043，用于当第一判断单元的判断结果为是时，将新词确定为目标新词。

具体的，若为多个新词，则可逐一将新词添加到预设分词列表中，每个新词对应一个测试分词列表，则每个新词对应得到的第二文本不同，每个新词对应的第二文本的准确率不同，而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值，为正数，即第二文本的分类准确率大于第一文本的分类准确率，预设差值例如0.1%～5%等。进一步的，可通过预设分类算法中的测试模型计算分类准确率。

目标文本分类模块205，用于将目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表对目标文本进行分类。

本发明实施例提供一种文本信息的处理装置，新词处理模块可根据预设固定分词策略对目标文本进行分词，比较分词结果和预设分词列表得到新词，目标新词确定模块可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率，从而根据比较结果可从新词中确定目标新词，目标文本分类模块可将目标新词添加到预设分词列表中得到目标预设分词列表，可根据目标预设分词列表对目标文本进行分类，实现了识别新词，并将目标新词添加到分词列表进而对目标文本进行分类，提高了对文本信息分类的精准度。

本发明实施例还公开了一种终端，包括图2～图5任一所示的装置；该装置的结构和功能可参见图2～图5任一所示实施例的相关描述，在此不赘述。需要说明的是，本实施例的终端可应用于上述方法中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本信息的处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述比较所述第一文本的分类准确率和所述第二文本的分类准确率，根据比较结果从所述新词中确定目标新词包括：

对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率；

判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值，若是，将所述新词确定为所述目标新词。

3.如权利要求1所述的方法，其特征在于，所述对目标文本由预设固定分词策略进行分词，并比较所述分词结果和预设分词列表得到新词包括：

判断所述分词结果中的词是否与所述预设分词列表中的词匹配，若不匹配，统计所述不匹配的词的特征值，所述特征值包括所述不匹配的词在所述目标文本中出现的频率；

若所述不匹配的词的特征值满足预设特征值，则将所述不匹配的词确定为所述新词。

4.如权利要求1所述的方法，其特征在于，所述对目标文本由预设固定分词策略进行分词包括：

对所述目标文本从第1个字开始，每N个字进行截取，得到多个词串，每个词串的字数为N，N为大于1的正整数。

5.如权利要求1～4任一所述的方法，其特征在于，所述根据所述预设分词列表对测试文本进行分类，得到第一文本，根据所述测试分词列表对所述测试文本进行分类，得到第二文本包括：

根据预设分类算法对所述测试文本进行分类，得到所述第一文本，所述预设分类算法与所述预设分词列表关联；

根据所述预设分类算法对所述测试文本进行分类，得到所述第二文本，所述预设分类算法与所述测试分词列表关联；

所述根据所述目标预设分词列表对所述目标文本进行分类包括：

根据所述目标预设分词列表校准所述预设分类算法，并根据所述校准的预设分类算法对所述目标文本进行分类。

6.一种文本信息的处理装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述目标新词确定模块包括：

计算单元，用于对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率；

第一判断单元，用于判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值；

第一确定单元，用于当所述第一判断单元的判断结果为是时，将所述新词确定为所述目标新词。

8.如权利要求6所述的装置，其特征在于，所述新词处理模块包括：

第二判断单元，用于判断所述分词结果中的词是否与所述预设分词列表中的词匹配；

统计单元，用于当所述第二判断单元的判断结果为否时，统计所述不匹配的词的特征值，所述特征值包括所述不匹配的词在所述目标文本中出现的频率；

第二确定单元，用于在所述不匹配的词的特征值满足预设特征值时，则将所述不匹配的词确定为所述新词。

9.如权利要求6所述的装置，其特征在于，所述新词处理模块对目标文本由预设固定分词策略进行分词具体包括：

10.如权利要求6～9任一所述的装置，其特征在于，所述测试文本分类模块包括：

第一分类单元，用于根据预设分类算法对所述测试文本进行分类，得到所述第一文本，所述预设分类算法与所述预设分词列表关联；

第二分类单元，用于根据所述预设分类算法对所述测试文本进行分类，得到所述第二文本，所述预设分类算法与所述测试分词列表关联；

所述目标文本分类模块根据所述目标预设分词列表对所述目标文本进行分类包括：

11.一种终端，其特征在于，包括如权利要求6～10任一所述的装置。