[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104915327A - 一种文本信息的处理方法及装置 - Google Patents

一种文本信息的处理方法及装置 Download PDF

Info

Publication number
CN104915327A
CN104915327A CN201410097479.5A CN201410097479A CN104915327A CN 104915327 A CN104915327 A CN 104915327A CN 201410097479 A CN201410097479 A CN 201410097479A CN 104915327 A CN104915327 A CN 104915327A
Authority
CN
China
Prior art keywords
text
neologisms
target
participle
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410097479.5A
Other languages
English (en)
Other versions
CN104915327B (zh
Inventor
刘杰
李映辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410097479.5A priority Critical patent/CN104915327B/zh
Priority to PCT/CN2015/073864 priority patent/WO2015135452A1/en
Publication of CN104915327A publication Critical patent/CN104915327A/zh
Priority to US15/174,607 priority patent/US10262059B2/en
Application granted granted Critical
Publication of CN104915327B publication Critical patent/CN104915327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种文本信息的处理及装置,其中方法可包括:对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词;将新词添加到预设分词列表中,得到测试分词列表;根据预设分词列表对测试文本进行分类,得到第一文本,根据测试分词列表对测试文本进行分类,得到第二文本;比较第一文本的分类准确率和第二文本的分类准确率,根据比较结果从新词中确定目标新词;将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。采用本发明实施例,可识别新词,并将目标新词添加到预设分词列表得到目标分词列表,根据目标分析列表对目标文本进行分类,提高了对文本信息分类的精准度。

Description

一种文本信息的处理方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种文本信息的处理方法及装置。
背景技术
现有技术中,可将用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息进行分类,可对文本信息进行分词,从文本信息中识别出词典中已收录的词条,通过预先设计的算法,将文本信息分成预设的分类,例如,可获取一年时间内所有用户对一应用程序的评论信息,对获取到的评论信息进行分词,与电子词典库中已收录的词条进行匹配,识别到电子词典库中已收到的词,通过支持矢量机分类算法,将该产品的评价信息分类到“好评”和“差评”两个类别中。现有技术中,词典中收录的词条为固定词库的词,若出现新词,无法在词典中固定词库中找到该新词,则无法识别该新词,导致对文本信息分类的精准度降低。
发明内容
本发明实施例提供一种文本信息的处理方法及装置,可解决现有技术中在对文本信息分类过程中无法识别新词导致对文本信息分类的精准度低的技术问题。
本发明第一方面提供了一种文本信息的处理方法,可包括:
对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词;
将所述新词添加到所述预设分词列表中,得到测试分词列表;
根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本;
比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;
将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。
本发明第二方面提供了一种文本信息的处理装置,可包括:
新词处理模块,用于对目标文本由预设固定分词策略进行分词,并比较所述分词结果和所述预设分词列表得到新词;
添加模块,用于将所述新词添加到所述预设分词列表中,得到测试分词列表;
测试文本分类模块,用于根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对测试文本进行分类,得到第二文本;
目标新词确定模块,用于比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;
目标文本分类模块,用于将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。
本发明第三方面提供了一种终端,可包括:如上述第二方面所述的装置。
实施本发明实施例,具有如下有益效果:
可由预设固定分词策略对目标文本进行分词,比较分词结果和预设分词列表可得到新词,可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率,从而根据比较结果可从新词中确定目标新词,进而将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,实现了识别新词,并将目标新词添加到分词列表进而对目标文本进行分类,提高了对文本信息分类的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本信息的处理方法的流程示意图;
图2是本发明实施例提供的一种文本信息的处理装置的结构示意图;
图3是本发明实施例提供的新词处理模块的结构示意图;
图4是本发明实施例提供的测试文本分类模块的结构示意图;
图5是本发明实施例提供的目标新词确定模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,一种文本信息的处理装置可以为:个人电脑、平板电脑、智能手机等终端,也可以通过终端中的客户端模块实现,例如:邮件分类客户端、评论分类客户端等。
本发明实施例中的文本信息具体可以包括:用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息,具体不受本发明实施例的限制。本发明实施例中,文本信息包括:目标文本、测试文本或训练文本等。目标文本为需要进行分类的文本信息,测试文本为在分类模型中用于测试分类准确率的文本信息,训练文本为用于构造分类模型时进行分类训练的文本信息。
具体的,文本信息的分类可通过预设分类算法实现。进一步可选的,预设分类算法可以包括:统计方法、机器学习方法或决策树等。其中,分类的目的是根据数据集的特点构造一个分类函数或分类模型(也称作分类器),分类器需要由人工标注的分类训练语料训练得到。构造模型的过程可包括训练和测试两个阶段。在构造模型之前,可将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练文本,一个具体训练文本的形式可以为:(u1,u2,……ui;c);其中ui表示属性值,c表示类别。在测试阶段,使用测试数据集来评估模型的分类准确率,测试数据集中的单个元组也称作测试文本,如果模型的准确率满足预设条件,则可用该模型对其它数据元组进行分类。
而现有技术中,词典中收录的词条为固定词库的词,若出现新词,无法在词典中固定词库中找到该新词,则无法识别该新词,导致对文本信息分类的精准度降低。通过本发明实施例,可识别新词,将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,提高了对文本信息分类的精准度。
下面将结合附图1,对本发明实施例提供的文本信息的处理方法进行详细介绍。
请参见图1,为本发明实施例提供了一种文本信息的处理方法的流程示意图,该方法可以包括以下步骤:S101~S105。
S101,对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词。
作为一种可选的实施方式,对目标文本由预设固定分词策略进行分词具体可以包括:
对目标文本从第1个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于1的正整数。
具体的,例如,对于目标文本1:“抓狂,盗号的太垃圾了,由把我的号码盗走了,请允悲,还好有密保手机,帮我找回来了,感谢”,N可设为3,则从第一个字开始,每N个字进行截取,具体实现中,可以为对每个句子进行每N个字进行截取,对于句子中不足3个字的,则直接将其截取为一个词,则对于目标文本1的分词结果可以为:抓狂、盗号的、号的太、的太垃、太垃圾、垃圾了、由把我、把我的、我的号、的号码、号码盗、码盗走、盗走了、请允悲、还好有、好有密、有密保、密保手、保手机、帮我找、我找回、找回来、回来了、感谢”,进一步的,还可以将N设为2或4等,可对同一目标文本对应不同N值进行分词。
具体实现中,可判断分词结果中的词是否与预设分词列表中的词匹配,若不匹配,统计不匹配的词的特征值,特征值包括不匹配的词在目标文本中出现的频率;若不匹配的词的特征值满足预设特征值,则将不匹配的词确定为新词。
其中,预设分词列表与预设分类算法关联,预设分类算法可根据预设分词列表对文本信息进行分词以及对文本信息进行分类。本发明实施例中,可将分词结果中的词与预设分词列表中的词匹配,若预设分词列表中不存在与分词结果中的词匹配的词,则计算该词的特征值,具体的,可以计算该词在该单个目标文本中的特征值,也可以为在包括多个目标文本的情况下,计算该词在所有目标文本中的特征值,进一步的,特征值包括不匹配的词在目标文本中出现的频率。若不匹配的词的特征值满足预设特征值,则将不匹配的词确定为新词。
进一步可选的,特征值还可以包括不匹配的词在目标文本中出现的概率等,具体不受本发明实施例的限制。
S102,将新词添加到预设分词列表中,得到测试分词列表。
作为一种可选的实施方式,将步骤S101中得到的新词添加到预设分词列表中,得到测试分词列表,其中,测试分词列表用于对测试文本进行分类。
S103,根据预设分词列表对测试文本进行分类,得到第一文本,根据测试分词列表对测试文本进行分类,得到第二文本。
作为一种可选的实施方式,根据预设分类算法对测试文本进行分类,得到第一文本,预设分类算法与预设分词列表关联;根据预设分类算法对测试文本进行分类,得到第二文本,预设分类算法与测试分词列表关联。在分类过程中,测试文本保持不变,由预设分类算法对应不同的分词列表对测试文本进行分类,预设分词列表对应第一文本,测试文本对应第二文本,其中,第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。
S104,比较第一文本的分类准确率和第二文本的分类准确率,根据比较结果从新词中确定目标新词。
作为一种可选的实施方式,可分别计算第一文本的分类准确率和第二文本的分类准确率,具体的,若为多个新词,对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率;判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值,若是,将新词确定为目标新词。其中,若为多个新词,则可逐一将新词添加到预设分词列表中,每个新词对应一个测试分词列表,则每个新词对应得到的第二文本不同,每个新词对应的第二文本的准确率不同,而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值,为正数,即第二文本的分类准确率大于第一文本的分类准确率,预设差值例如0.1%~5%等。进一步的,可通过预设分类算法中的测试模型计算分类准确率。
S105,将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。
作为一种可选的实施方式,可将确定的目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表校准预设分类算法,并根据校准的预设分类算法对目标文本进行分类。
本发明实施例提供一种文本信息的处理方法,可由预设固定分词策略对目标文本进行分词,比较分词结果和预设分词列表可得到新词,可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率,从而根据比较结果可从新词中确定目标新词,进而将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,实现了识别新词,并将目标新词添加到分词列表进而对目标文本进行分类,提高了对文本信息分类的精准度。
下面将结合附图2~图5,对本发明实施例提供的文本信息的处理装置进行详细介绍。需要说明的是,附图2~图5任一所示的装置,用于执行本发明图1所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1所示的实施例。
请参见图2,为本发明实施例提供了一种文本信息的处理装置的结构示意图。如图2所示,本发明实施例的文本信息的处理装置可包括:新词处理模块201、添加模块202、测试文本分类模块203、目标新词确定模块204和目标文本分类模块205。
新词处理模块201,用于对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词。
作为一种可选的实施方式,新词处理模块201对目标文本由预设固定分词策略进行分词具体可以包括:
对目标文本从第1个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于1的正整数。
具体的,例如,对于目标文本1:“抓狂,盗号的太垃圾了,由把我的号码盗走了,请允悲,还好有密保手机,帮我找回来了,感谢”,N可设为3,则从第一个字开始,每N个字进行截取,具体实现中,可以为对每个句子进行每N个字进行截取,对于句子中不足3个字的,则直接将其截取为一个词,则对于目标文本1的分词结果可以为:抓狂、盗号的、号的太、的太垃、太垃圾、垃圾了、由把我、把我的、我的号、的号码、号码盗、码盗走、盗走了、请允悲、还好有、好有密、有密保、密保手、保手机、帮我找、我找回、找回来、回来了、感谢”,进一步的,还可以将N设为2或4等,可对同一目标文本对应不同N值进行分词。
作为一种可选的实施方式,如图3所示,为本发明实施例提供的新词处理模块的结构示意图,如图所示,新词处理模块201可以包括第二判断单元2011、统计单元2012以及第二确定单元2013。其中:
第二判断单元2011,用于判断分词结果中的词是否与预设分词列表中的词匹配。
统计单元2012,用于当第二判断单元的判断结果为否时,统计不匹配的词的特征值,特征值包括不匹配的词在所述目标文本中出现的频率。
第二确定单元2013,用于在不匹配的词的特征值满足预设特征值时,则将不匹配的词确定为新词。
其中,预设分词列表与预设分类算法关联,预设分类算法可根据预设分词列表对文本信息进行分词以及对文本信息进行分类。本发明实施例中,可将分词结果中的词与预设分词列表中的词匹配,若预设分词列表中不存在与分词结果中的词匹配的词,则计算该词的特征值,具体的,可以计算该词在该单个目标文本中的特征值,也可以为在包括多个目标文本的情况下,计算该词在所有目标文本中的特征值,进一步的,特征值包括不匹配的词在目标文本中出现的频率。若不匹配的词的特征值满足预设特征值,则将不匹配的词确定为新词。
进一步可选的,特征值还可以包括不匹配的词在目标文本中出现的概率等,具体不受本发明实施例的限制。
添加模块202,用于将新词添加到预设分词列表中,得到测试分词列表。
作为一种可选的实施方式,添加模块202将新词处理模块201得到的新词添加到预设分词列表中,得到测试分词列表,其中,测试分词列表用于对测试文本进行分类。
测试文本分类模块203,用于根据预设分词列表对测试文本进行分类,得到第一文本,根据测试分词列表对测试文本进行分类,得到第二文本。
作为一种可选的实施方式,如图4所示,为本发明实施例提供的测试文本分类模块的结构示意图,如图所示,测试文本分类模块203可以包括:第一分类单元2031和第二分类单元2032。
第一分类单元2031,用于根据预设分类算法对测试文本进行分类,得到第一文本,预设分类算法与预设分词列表关联。
第二分类单元2032,用于根据预设分类算法对测试文本进行分类,得到第二文本,预设分类算法与测试分词列表关联。
具体的,在分类过程中,测试文本保持不变,由预设分类算法对应不同的分词列表对测试文本进行分类,预设分词列表对应第一文本,测试文本对应第二文本,其中,第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。
目标新词确定模块204,用于比较第一文本的分类准确率和第二文本的分类准确率,根据比较结果从新词中确定目标新词。
作为一种可选的实施方式,可分别计算第一文本的分类准确率和第二文本的分类准确率,具体的,若为多个新词,如图5所示,为本发明实施例提供的目标新词确定模块的结构示意图,如图所示,目标新词确定模块204可以包括:计算单元2041、第一判断单元2042和第一确定单元2043。其中:
计算单元2041,用于对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率。
第一判断单元2042,用于判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值。
第一确定单元2043,用于当第一判断单元的判断结果为是时,将新词确定为目标新词。
具体的,若为多个新词,则可逐一将新词添加到预设分词列表中,每个新词对应一个测试分词列表,则每个新词对应得到的第二文本不同,每个新词对应的第二文本的准确率不同,而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值,为正数,即第二文本的分类准确率大于第一文本的分类准确率,预设差值例如0.1%~5%等。进一步的,可通过预设分类算法中的测试模型计算分类准确率。
目标文本分类模块205,用于将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。
作为一种可选的实施方式,可将确定的目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表校准预设分类算法,并根据校准的预设分类算法对目标文本进行分类。
本发明实施例提供一种文本信息的处理装置,新词处理模块可根据预设固定分词策略对目标文本进行分词,比较分词结果和预设分词列表得到新词,目标新词确定模块可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率,从而根据比较结果可从新词中确定目标新词,目标文本分类模块可将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,实现了识别新词,并将目标新词添加到分词列表进而对目标文本进行分类,提高了对文本信息分类的精准度。
本发明实施例还公开了一种终端,包括图2~图5任一所示的装置;该装置的结构和功能可参见图2~图5任一所示实施例的相关描述,在此不赘述。需要说明的是,本实施例的终端可应用于上述方法中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (11)

1.一种文本信息的处理方法,其特征在于,所述方法包括:
对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词;
将所述新词添加到所述预设分词列表中,得到测试分词列表;
根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本;
比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;
将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。
2.如权利要求1所述的方法,其特征在于,所述比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词包括:
对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率;
判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值,若是,将所述新词确定为所述目标新词。
3.如权利要求1所述的方法,其特征在于,所述对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词包括:
判断所述分词结果中的词是否与所述预设分词列表中的词匹配,若不匹配,统计所述不匹配的词的特征值,所述特征值包括所述不匹配的词在所述目标文本中出现的频率;
若所述不匹配的词的特征值满足预设特征值,则将所述不匹配的词确定为所述新词。
4.如权利要求1所述的方法,其特征在于,所述对目标文本由预设固定分词策略进行分词包括:
对所述目标文本从第1个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于1的正整数。
5.如权利要求1~4任一所述的方法,其特征在于,所述根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本包括:
根据预设分类算法对所述测试文本进行分类,得到所述第一文本,所述预设分类算法与所述预设分词列表关联;
根据所述预设分类算法对所述测试文本进行分类,得到所述第二文本,所述预设分类算法与所述测试分词列表关联;
所述根据所述目标预设分词列表对所述目标文本进行分类包括:
根据所述目标预设分词列表校准所述预设分类算法,并根据所述校准的预设分类算法对所述目标文本进行分类。
6.一种文本信息的处理装置,其特征在于,所述装置包括:
新词处理模块,用于对目标文本由预设固定分词策略进行分词,并比较所述分词结果和所述预设分词列表得到新词;
添加模块,用于将所述新词添加到所述预设分词列表中,得到测试分词列表;
测试文本分类模块,用于根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对测试文本进行分类,得到第二文本;
目标新词确定模块,用于比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;
目标文本分类模块,用于将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。
7.如权利要求6所述的装置,其特征在于,所述目标新词确定模块包括:
计算单元,用于对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率;
第一判断单元,用于判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值;
第一确定单元,用于当所述第一判断单元的判断结果为是时,将所述新词确定为所述目标新词。
8.如权利要求6所述的装置,其特征在于,所述新词处理模块包括:
第二判断单元,用于判断所述分词结果中的词是否与所述预设分词列表中的词匹配;
统计单元,用于当所述第二判断单元的判断结果为否时,统计所述不匹配的词的特征值,所述特征值包括所述不匹配的词在所述目标文本中出现的频率;
第二确定单元,用于在所述不匹配的词的特征值满足预设特征值时,则将所述不匹配的词确定为所述新词。
9.如权利要求6所述的装置,其特征在于,所述新词处理模块对目标文本由预设固定分词策略进行分词具体包括:
对所述目标文本从第1个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于1的正整数。
10.如权利要求6~9任一所述的装置,其特征在于,所述测试文本分类模块包括:
第一分类单元,用于根据预设分类算法对所述测试文本进行分类,得到所述第一文本,所述预设分类算法与所述预设分词列表关联;
第二分类单元,用于根据所述预设分类算法对所述测试文本进行分类,得到所述第二文本,所述预设分类算法与所述测试分词列表关联;
所述目标文本分类模块根据所述目标预设分词列表对所述目标文本进行分类包括:
根据所述目标预设分词列表校准所述预设分类算法,并根据所述校准的预设分类算法对所述目标文本进行分类。
11.一种终端,其特征在于,包括如权利要求6~10任一所述的装置。
CN201410097479.5A 2014-03-14 2014-03-14 一种文本信息的处理方法及装置 Active CN104915327B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410097479.5A CN104915327B (zh) 2014-03-14 2014-03-14 一种文本信息的处理方法及装置
PCT/CN2015/073864 WO2015135452A1 (en) 2014-03-14 2015-03-09 Text information processing method and apparatus
US15/174,607 US10262059B2 (en) 2014-03-14 2016-06-06 Method, apparatus, and storage medium for text information processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410097479.5A CN104915327B (zh) 2014-03-14 2014-03-14 一种文本信息的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104915327A true CN104915327A (zh) 2015-09-16
CN104915327B CN104915327B (zh) 2019-01-29

Family

ID=54070928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410097479.5A Active CN104915327B (zh) 2014-03-14 2014-03-14 一种文本信息的处理方法及装置

Country Status (3)

Country Link
US (1) US10262059B2 (zh)
CN (1) CN104915327B (zh)
WO (1) WO2015135452A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975480A (zh) * 2016-04-20 2016-09-28 广州精点计算机科技有限公司 一种指令识别方法及系统
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质
CN112115260A (zh) * 2020-07-17 2020-12-22 网娱互动科技(北京)股份有限公司 一种自动计算汉语词语分类的方法
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092588B (zh) * 2016-02-18 2022-09-09 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
CN106980870B (zh) * 2016-12-30 2020-07-28 中国银联股份有限公司 短文本之间的文本匹配度计算方法
CN109753646B (zh) * 2017-11-01 2022-10-21 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法
CN109189932B (zh) * 2018-09-06 2021-02-26 北京京东尚科信息技术有限公司 文本分类方法和装置、计算机可读存储介质
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置
CN109471944B (zh) * 2018-11-12 2021-07-16 中山大学 文本分类模型的训练方法、装置及可读存储介质
US11694029B2 (en) * 2019-08-19 2023-07-04 Oracle International Corporation Neologism classification techniques with trigrams and longest common subsequences
CN110826318A (zh) * 2019-10-14 2020-02-21 浙江数链科技有限公司 物流信息识别的方法、设备、计算机设备和存储介质
CN110750984B (zh) * 2019-10-24 2023-11-21 深圳前海微众银行股份有限公司 命令行字符串处理方法、终端、装置及可读存储介质
CN111191448A (zh) * 2019-12-25 2020-05-22 国网北京市电力公司 词处理方法、装置、存储介质以及处理器
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备
CN111753185B (zh) * 2020-01-22 2024-10-22 京东安联财产保险有限公司 目标对象确定方法及装置、存储介质、电子设备
CN111400439A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 网络不良数据监控方法、装置及存储介质
CN111523308B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111460148A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111708862B (zh) * 2020-06-02 2024-03-15 上海硬通网络科技有限公司 文本匹配方法、装置及电子设备
CN112183074A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 一种数据增强方法、装置、设备及介质
CN113779186A (zh) * 2020-11-17 2021-12-10 北京沃东天骏信息技术有限公司 一种文本生成方法和装置
CN112738487B (zh) * 2020-12-24 2022-10-11 阿波罗智联(北京)科技有限公司 图像投射方法、装置、设备及存储介质
CN113836917B (zh) * 2021-09-28 2023-07-18 广州华多网络科技有限公司 文本分词处理方法及其装置、设备与介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110147A1 (en) * 2001-12-08 2003-06-12 Li Ziqing Method for boosting the performance of machine-learning classifiers
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
US20120016660A1 (en) * 1998-03-25 2012-01-19 International Business Machines Corporation Parsing culturally diverse names
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
CN100578500C (zh) * 2006-12-20 2010-01-06 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN100592293C (zh) * 2007-04-28 2010-02-24 李树德 基于智能本体的知识搜索引擎及其实现方法
CN102622373B (zh) * 2011-01-31 2013-12-11 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9286534B2 (en) * 2012-10-17 2016-03-15 Cognex Corporation System and method for selecting and displaying segmentation parameters for optical character recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016660A1 (en) * 1998-03-25 2012-01-19 International Business Machines Corporation Parsing culturally diverse names
US20030110147A1 (en) * 2001-12-08 2003-06-12 Li Ziqing Method for boosting the performance of machine-learning classifiers
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALAA ALAHMADI ET AL.: "A New Text Representation Scheme Combining Bag-of-Words and Bag-of-Concepts Approaches for Automatic Text Classification", 《2013 IEEE GCC CONFERENCE AND EXHIBITION》 *
吴春颖 等: "一种基于新词发现的Web文本表示方法", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975480A (zh) * 2016-04-20 2016-09-28 广州精点计算机科技有限公司 一种指令识别方法及系统
CN105975480B (zh) * 2016-04-20 2019-06-07 广东精点数据科技股份有限公司 一种指令识别方法及系统
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN110990571B (zh) * 2019-12-02 2024-04-02 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质
CN112115260A (zh) * 2020-07-17 2020-12-22 网娱互动科技(北京)股份有限公司 一种自动计算汉语词语分类的方法
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
US10262059B2 (en) 2019-04-16
US20160283583A1 (en) 2016-09-29
CN104915327B (zh) 2019-01-29
WO2015135452A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
CN104915327A (zh) 一种文本信息的处理方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN105808526A (zh) 商品短文本核心词提取方法和装置
CN105243389A (zh) 公司名称的行业分类标签的确定方法和装置
CN104216876A (zh) 信息文本过滤方法及系统
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110990529B (zh) 企业的行业明细划分方法及系统
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN112241458A (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN111241269B (zh) 一种短信文本分类方法、装置、电子设备及存储介质
CN109359274A (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
CN110750643A (zh) 上市公司非定期公告的分类方法、装置及存储介质
CN105512145A (zh) 信息分类方法及装置
CN115827867A (zh) 文本类型的检测方法及装置
CN115062132A (zh) 识别模型训练方法及装置、意图类别识别方法及装置
CN108108371A (zh) 一种文本分类方法及装置
CN113554474B (zh) 模型的验证方法及装置、电子设备和计算机可读存储介质
CN114139541B (zh) 命名实体识别方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190730

Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.