[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109783804B - 低质言论识别方法、装置、设备及计算机可读存储介质 - Google Patents

低质言论识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109783804B
CN109783804B CN201811544011.0A CN201811544011A CN109783804B CN 109783804 B CN109783804 B CN 109783804B CN 201811544011 A CN201811544011 A CN 201811544011A CN 109783804 B CN109783804 B CN 109783804B
Authority
CN
China
Prior art keywords
low
quality
type
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811544011.0A
Other languages
English (en)
Other versions
CN109783804A (zh
Inventor
曹宇慧
冯仕堃
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811544011.0A priority Critical patent/CN109783804B/zh
Publication of CN109783804A publication Critical patent/CN109783804A/zh
Application granted granted Critical
Publication of CN109783804B publication Critical patent/CN109783804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种低质言论识别方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过语言模型计算言论数据的困惑度值,根据言论数据的困惑度值,识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各识别模型对应低质类型的低质言论进行识别,也就是分别针对各低质类型对言论数据进行识别;确定言论数据为低质言论后,还可确定言论数据的低质类型;提高了低质言论识别的准确性和效率,且语言模型和识别模型有很好的泛化能力,应用范围非常广。

Description

低质言论识别方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种低质言论识别方法、装置、设备及计算机可读存储介质。
背景技术
随着各类信息流的用户量日益增多,越来越多的用户在信息流中的新闻下发表评论。然而,随着用户发表的评论越来越多,低质的评论也越来越多,例如无内容、无意义、或含不良内容的评论等等。在信息流新闻中,好的评论能够提高其他用户的阅读体验,而低质的评论对其他用户会产生不适的阅读体验,并且部分低质的评论违反道德、违法、涉政。如果这些低质评论被越来越多的用户看见甚至被点赞、被回复,那信息流新闻的评论区的质量和氛围将越来越差。
为了肃清信息流新闻的评论区环境,目前基于人工词典和规则通过词典匹配和人工审核的方法识别低质评论。但是基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低。
发明内容
本发明实施例提供一种低质言论识别方法、装置、设备及计算机可读存储介质,用以解决现有的基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低的问题。
本发明实施例的一个方面是提供一种低质言论识别方法,包括:
通过语言模型计算言论数据的困惑度值;
根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;
如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。
本发明实施例的另一个方面是提供一种低质言论识别装置,包括:
语言模型模块,用于通过语言模型计算言论数据的困惑度值;
所述语言模型模块还用于根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;
识别模型模块,用于如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。
本发明实施例的另一个方面是提供一种低质言论识别设备,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现上述所述的方法。
本发明实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,
所述计算机程序被处理器执行时实现上述所述的方法。
本发明实施例提供的低质言论识别方法、装置、设备及计算机可读存储介质,通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,能够识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各个识别模型对应低质类型的低质言论进行识别,也就是分别针对每个低质类型对言论数据是否为低质言论进行识别;在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
附图说明
图1为本发明实施例一提供的低质言论识别方法流程图;
图2为本发明实施例二提供的低质言论识别方法流程图;
图3为本发明实施例二提供的LSTM-RNN分类模型结构示意图;
图4为本发明实施例三提供的低质言论识别装置的结构示意图;
图5为本发明实施例四提供的低质言论识别装置的结构示意图;
图6为本发明实施例五提供的低质言论识别设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
本发明实施例所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的低质言论识别方法流程图。本发明实施例针对现有的基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低的问题,提供了低质言论识别方法。如图1所示,该方法具体步骤如下:
步骤S101、通过语言模型计算言论数据的困惑度值。
其中,言论数据可以是用户通过各种网络平台发表的评论、状态等等言论。
语言模型主要用于计算所给定词组成的句子的概率,也即是判断所组成的句子是否符合客观语言表达习惯。
本实施例中,将语言数据输入语言模型,计算出该言论数据的困惑度(Perplexity,简称ppl)值,以对言论数据是否是无意义类型的低质言论进行判断,以此来识别出乱打字输入的不通顺的句子。
具体的,言论数据的困惑度值越低,表示言论数据的句子越通顺,越符合客观语言表达习惯,言论数据是无意义类型的低质言论的可能性越低。言论数据的困惑度值越高,表示言论数据的句子越不通顺,越不符合客观语言表达习惯,是无意义类型的低质言论的可能性越高。
例如,言论数据可以是一个中文句子,将言论数据输入语言模型,语言模型输出的是该句子经过切词后,得到的每个词在本句中的概率,以及该句子的ppl值,这组概率值越高说明句子越通顺,ppl值越低表示句子越通顺。对于ppl值较高的句子,则判定该句子为不符合客观语言表达习惯的句子。例如,该句子可能是乱打字输入的不通顺的句子。
步骤S102、根据言论数据的困惑度值,确定言论数据是否为无意义类型。
对于困惑度值高于预设困惑度阈值的言论数据,则可以确定言论数据是无意义类型的低质言论,也即是言论数据属于无意义类型。例如,该言论数据可能是用户胡乱敲击键盘输入的内容。其中,预设困惑度阈值可以由技术人员根据经验进行设定,本实施例此处不做具体限定。
步骤S103、如果言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,识别出言论数据是否为识别模型对应低质类型的低质言论,其中每个识别模型是通过对应低质类型的训练集训练得到的。
通常,低质评论的类型包括:
色情类型:含有违反国家规定的色情内容。
恶意推广类型:有疑似广告、推广的评论内容。例如,“来某地旅游就找吉师傅,带路,拍照,讲解,专业的技术,专业的水准,让你的旅行不再单调,解除你的一切旅行烦恼,联系方式为……”等等。
地域黑类型:包含对某地域进行极端的人身攻击的内容。例如,“哎,素我直言,某地人是真滴垃圾,没有素质”等等。
反动类型:含有违反国家政策的反动信息。
违法类型:含有违反国家法律的内容。例如,涉及枪支买卖的内容等。
辱骂类型:含有辱骂性文字。
人身攻击类型:含有明显人身攻击,无明显正面价值观的内容。
无意义类型:随便乱打字,胡乱输入的毫无逻辑的内容。例如“无咯木哈哈都提前可分我有我的”等。
重复输入类型:纯粹重复打字凑字数,无实质性内容。例如“哈哈哈哈哈哈哈哈哈哈哈哈哈哈”、“好的好的好的好的好的好的”等等。
无内容类型:只包括表情、数字、符合,无实质性内容。例如“123456”等。
本实施例中,预先利用对应不同低质类型的数据集进行模型训练,得到多个对应不同低质类型的识别模型。每个识别模型用于识别言论数据是否为该识别模型对应的低质类型的低质言论,并且可以计算得到言论数据对应于该低质类型的低质分数。低质分数越高,表示该言论数据属于该低质类型的低质言论的可能性越高。
具体包括:对应于色情类型的色情言论识别模型,对应于恶意推广类型的恶意推广言论识别模型,对应于地域黑类型的地域黑言论识别模型,对应于反动类型的反动言论识别模型,对应于违法类型的违法言论识别模型,对应于辱骂类型的辱骂言论识别模型,和,对应于人身攻击类型的人身攻击言论识别模型。
该步骤中,若言论数据不是无意义类型的低质言论,将言论数据分别输入多个对应不同低质类型的识别模型,每个识别模型针对一种低质类型对言论数据是否为该低质类型的低质言论进行识别,得到该识别模型的识别结果;综合多个对应不同低质类型的识别模型的识别结果,可以确定言论数据是否是低质言论,并且在言论数据是低质言论时,可以进一步确定言论数据的低质类型。
本发明实施例通过语言模型计算言论数据的困惑度值;根据言论数据的困惑度值,能够识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各个识别模型对应低质类型的低质言论进行识别,也就是分别针对每个低质类型对言论数据是否为低质言论进行识别;在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
实施例二
图2为本发明实施例二提供的低质言论识别方法流程图。在上述实施例一的基础上,本实施例中,将言论数据输入多个对应不同低质类型的识别模型,识别出言论数据是否为对应低质类型的低质言论之前,还包括:判断言论数据是否满足无内容规则,无内容规则为只包括以下一种或者几种内容:表情、数字、符号;若满足无内容规则,则确定言论数据为无内容类型的低质言论。和/或,将言论数据输入多个对应不同低质类型的识别模型,识别出言论数据是否为对应低质类型的低质言论之前,还包括:判断言论数据是否满足重复输入规则,重复输入规则为至少一半的内容是某个词的连续重复输入;若满足重复输入规则,则确定言论数据为重复输入类型的低质评论。
如图2所示,该方法具体步骤如下:
步骤S201、通过语言模型计算言论数据的困惑度值。
其中,言论数据可以是用户通过各种网络平台发表的评论、状态等等言论。
语言模型主要用于计算所给定词组成的句子的概率,也即是判断所组成的句子是否符合客观语言表达习惯。语言模型计算得到的困惑度值可以是语言模型的ppl值。
例如,言论数据可以是一个中文句子,将言论数据输入语言模型,语言模型输出的是该句子经过切词后,得到的每个词在本句中的概率,以及该句子的ppl值,这组概率值越高说明句子越通顺,ppl值越低表示句子越通顺。对于ppl值较高的句子,则判定该句子为不符合客观语言表达习惯的句子。例如,该句子可能是乱打字输入的不通顺的句子。
步骤S202、根据言论数据的困惑度值,确定言论数据的困惑度值是否大于困惑度阈值。
本实施例中,将语言数据输入语言模型,计算出该言论数据的困惑度值,以对言论数据是否是无意义类型的低质言论进行判断,以此来识别出乱打字输入的不通顺的句子。
言论数据的困惑度值越低,表示言论数据的句子越通顺,越符合客观语言表达习惯,言论数据是无意义类型的低质言论的可能性越低。言论数据的困惑度值越高,表示言论数据的句子越不通顺,越不符合客观语言表达习惯,是无意义类型的低质言论的可能性越高。对于困惑度值高于预设困惑度阈值的言论数据,则可以判确定言论数据是无意义类型的低质言论。例如,该言论数据可能是用户胡乱敲击键盘输入的内容。其中,预设困惑度阈值可以由技术人员根据经验进行设定,本实施例此处不做具体限定。
具体的,该步骤具体可以采用如下方式实现:
比较言论数据的困惑度值与困惑度阈值的大小;若言论数据的困惑度值大于困惑度阈值,则确定言论数据属于无意义类型,也即是言论数据是无意义类型的低质言论;若言论数据的困惑度值小于或者等于困惑度阈值,则确定言论数据不属于无意义类型,也即是言论数据不是无意义类型的低质言论。
若言论数据的困惑度值大于困惑度阈值,则执行步骤S203;若言论数据的困惑度值小于或者等于困惑度阈值,则执行步骤S204。
步骤S203、若言论数据的困惑度值大于困惑度阈值,则确定言论数据属于无意义类型。
上述步骤S201-S203为通过语言模型确定言论数据是否是无意义类型的低质言论的过程。
步骤S204、若言论数据的困惑度值小于或者等于困惑度阈值,则判断言论数据是否满足无内容规则。
本实施例中,若言论数据的困惑度值大于困惑度阈值,那么可以确定言论数据不是无意义类型的低质言论,则该步骤中继续判断言论数据是否满足无内容规则,从而判断言论数据是否为无内容类型,也即是判断言论数据是否是无内容类型的低质言论。
通常,低质言论的类型还包括无内容类型,无内容类型的低质言论只包括表情、数字、符合,无实质性内容。例如“123456”等。
其中,无内容规则为只包括以下一种或者几种内容:表情、数字、符号。
可选的,对于中文网络平台上发布的言论数据,无内容规则还可以是:只包括以下一种或者几种内容:表情、数字、符号和英文字母。
本实施例中的无内容规则可以由技术人员根据具体的应用场景和经验进行设定,本实施例此处不做具体限定。
若言论数据满足无内容规则,则执行步骤S205;若言论数据满足无内容规则,则执行步骤S206,继续判断言论数据是否为重复输入类型。
步骤S205、若满足无内容规则,则确定言论数据为无内容类型。
上述步骤S204-S205为确定言论数据是否为无内容类型的过程。
步骤S206、若不满足无内容规则,判断言论数据是否满足重复输入规则。
其中,重复输入规则为至少一半的内容是某个词的连续重复输入。
可选的,重复输入规则为至少一半的内容是预设长度的词的连续重复输入。其中,预设长度可以为1、2、3、4或5,预设长度可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
例如,一半以上的内容为1-5个字组成的词的连续重复,如“好的好的好的好的好的好的”。
另外,重复输入规则还可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。
若满足重复输入规则,则执行步骤S207;若不满足重复输入规则,则执行步骤S208,继续判断言论数据是否为其他识别模型对应低质类型的低质言论。
步骤S207、若满足重复输入规则,则确定言论数据为重复输入类型。
上述步骤S206-S207为确定言论数据是否为重复输入类型的低质评论的过程。
上述步骤S201-S203确定言论数据是否为无意义类型的过程,上述步骤S204-S205为确定言论数据是否为无内容类型的过程,上述步骤S206-S207为确定言论数据是否为重复输入类型的过程,这三个过程的执行顺序可以根据实际需要进行调换,本实施例中仅以一种顺序为例进行示例性地说明,本实施例的其他实施方式中还可以采用其他任意一种执行顺序实现,本实施例此处对于这三个过程的执行顺不做具体限定。
另外,本实施例的其他实施方式中,还可以根据实际应用场景的需要增加其他的判定规则,并根据添加的判断规则对其他类型的低质评论进行识别,具体实现方式与步骤S204-S205和步骤S206-S207的过程类似,本实施例此处不再赘述。
步骤S208、将言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,识别结果包括言论数据是否是低质言论,以及言论数据的低质分数。
本实施例中,通过识别模型能够识别的低质类型至少包括:色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。
其中,多个对应不同低质类型的识别模型至少包括:对应于色情类型的色情言论识别模型,对应于恶意推广类型的恶意推广言论识别模型,对应于地域黑类型的地域黑言论识别模型,对应于反动类型的反动言论识别模型,对应于违法类型的违法言论识别模型,对应于辱骂类型的辱骂言论识别模型,和,对应于人身攻击类型的人身攻击言论识别模型。
本实施例中,在同识别模型进行识别之前,首先需要采用各低质类型的训练集,训练得到个低质类型的识别模型。
具体的,对于任意一种低质类型,获取该低质类型的训练集,训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数。利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型。
可选的,预设二分类模型为基于长短时记忆型循环神经网络分类模型(简记为LSTM-RNN分类模型)。LSTM-RNN分类模型的一种结构如图3所示,LSTM-RNN分类模型包括输入层、LSTM层、平均池化层和逻辑回归层。其中,x0,x1,…,xn表示言论数据进行分词处理后得到的n个词,n表示言论数据分词处理后得到的词的总数,h0,h1,…,hn分别表示x0,x1,…,xn经过LSTM层处理后得到的向量。
该步骤中,将言论数据进行分词处理,得到言论数据的多个词,将多个词输入识别模型,识别模型对多个词分别通过LSTM层进行处理,得到对应的向量,然后通过平均池化层对每个词的向量求平均处理,得到一个均值向量,根据均值向量通过逻辑回归层进行处理得到分类结果,也即是得到该识别模型的识别结果。
本实施例中,对应不同低质类型的识别模型均使用同一个LSTM-RNN分类模型结构。但是,对应不同低质类型的识别模型所使用的训练集不同。训练识别模型所使用的训练集是该识别模型对应低质类型的训练集。
对于任意一种低质类型的训练集,训练集中包括多条言论样本及每条言论样本对应于该低质类型的标注数据。每条言论样对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数。
例如,色情言论识别模型使用的训练集包括言论样本以及言论样本对应于色情类型的标注数据,言论样本对应于色情类型的标注数据包括:该言论样本是否是色情类型的低质言论,以及该言论样本对应于色情类型的低质分数。
地域黑言论识别模型使用的训练集包括言论样本以及言论样本对应于地域黑类型的标注数据,言论样本对应于地域黑类型的标注数据包括:该言论样本是否是地域黑类型的低质言论,以及该言论样本对应于地域黑类型的低质分数。
其他识别模型使用的训练集类似,本实施例此处不再赘述。
本实施例中,各识别模型均为二分类模型,识别模型的识别结果包括:言论数据是否是低质言论,以及言论数据的低质分数。其中,言论数据是否是低质言论是指言论数据是否是该识别模型对应低质类型的低质言论;言论数据的低质分数是指言论数据对应于该识别模型对应低质类型的低质分数。
以识别模型包括色情言论识别模型,恶意推广言论识别模型,地域黑言论识别模型,反动言论识别模型,违法言论识别模型,辱骂言论识别模型,和人身攻击言论识别模型这7个模型为例,该步骤中,将言论数据分别输入这7个识别模型,得到这7个识别模型分别对应的7组识别结果。
例如,色情言论识别模型的识别结果包括:言论数据是否是色情类型的低质言论,以及言论数据对应于色情类型的低质分数。恶意推广言论识别模型的识别结果包括:言论数据是否是恶意推广类型的低质言论,以及言论数据对应于恶意推广类型的低质分数。
其他识别模型的识别结果与色情言论识别模型和恶意推广言论识别模型类似,本实施例此处不再赘述。
步骤S209、若所有识别模型的识别结果均为言论数据不是该识别模型对应低质类型的低质言论,则确定言论数据不是低质言论。
以识别模型包括色情言论识别模型,恶意推广言论识别模型,地域黑言论识别模型,反动言论识别模型,违法言论识别模型,辱骂言论识别模型,和人身攻击言论识别模型这7个模型为例,将言论数据分别输入这7个识别模型,得到这7个识别模型分别对应的7组识别结果。
若色情言论识别模型的识别结果为言论数据不是色情类型的低质言论,且恶意推广言论识别模型的识别结果为言论数据不是恶意推广类型的低质言论,且地域黑言论识别模型的识别结果为言论数据不是地域黑类型的低质言论,且反动言论识别模型的识别结果为言论数据不是反动类型的低质言论,且违法言论识别模型的识别结果为言论数据不是违法类型的低质言论,且辱骂言论识别模型的识别结果为言论数据不是辱骂类型的低质言论,且人身攻击言论识别模型的识别结果为言论数据不是人身攻击类型的低质言论,则确定言论数据不是低质言论。
步骤S210、若存在至少一个识别模型的识别结果为言论数据是低质言论,则确定言论数据为低质言论。
例如,若地域黑言论识别模型的识别结果为言论数据是地域黑类型的低质言论,且辱骂言论识别模型的识别结果为言论数据是辱骂类型的低质言论,且其他5个识别模型的识别结果均为言论数据不是对应低质类型的低质言论,那么,可以确定言论数据是低质言论,也可以确定言论数据同时是地域黑类型和辱骂类型的低质言论。
步骤S211、根据至少一个识别模型的识别结果确定言论数据的低质类型。
本实施例中,可以确定言论数据的一个或者多个低质类型。
可选的,可以将识别结果为言论数据是低质言论的、至少一个识别模型对应的低质类型,均作为言论数据的低质类型。
可选的,根据至少一个识别模型的识别结果确定言论数据的低质类型还可以采用如下方式实现:
比较至少一个识别模型的识别结果中言论数据的低质分数的大小;将识别结果中言论数据的低质分数最大的识别模型对应的低质类型,确定为言论数据的低质类型。
本发明实施例综合语言模型,预定义的无内容规则和重复输入规则,以及利用不同的低质类型的训练集训练得到的多个对应不同低质类型的识别模型,多粒度、多角度地对言论模型是否为低质言论进行识别,在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
实施例三
图4为本发明实施例三提供的低质言论识别装置的结构示意图。本发明实施例提供的低质言论识别装置可以执行低质言论识别方法实施例提供的处理流程。如图3所示,该低质言论识别装置30包括:语言模型模块301和识别模型模块302。
具体地,语言模型模块301用于通过语言模型计算言论数据的困惑度值。
语言模型模块301还用于根据言论数据的困惑度值,确定言论数据是否为无意义类型。
识别模型模块302用于如果言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,识别出言论数据是否为识别模型对应低质类型的低质言论,其中每个识别模型是通过对应低质类型的训练集训练得到的。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过语言模型计算言论数据的困惑度值;根据言论数据的困惑度值,能够识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各个识别模型对应低质类型的低质言论进行识别,也就是分别针对每个低质类型对言论数据是否为低质言论进行识别;在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
实施例四
图5为本发明实施例四提供的低质言论识别装置的结构示意图。在上述实施例三的基础上,本实施例中,如图5所示,低质言论识别装置30还包括:无内容识别模块303和/或重复输入识别模块304。
本实施例中,低质类型至少包括:
色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。
多个对应不同低质类型的识别模型至少包括:
对应于色情类型的色情言论识别模型,对应于恶意推广类型的恶意推广言论识别模型,对应于地域黑类型的地域黑言论识别模型,对应于反动类型的反动言论识别模型,对应于违法类型的违法言论识别模型,对应于辱骂类型的辱骂言论识别模型,和,对应于人身攻击类型的人身攻击言论识别模型。
可选的,识别模型模块302还用于:
将言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,识别结果包括言论数据是否是低质言论,以及言论数据的低质分数;若存在至少一个识别模型的识别结果为言论数据是低质言论,则确定言论数据为低质言论;根据至少一个识别模型的识别结果确定言论数据的低质类型。
可选的,识别模型模块302还用于:
若所有识别模型的识别结果均为言论数据不是该识别模型对应低质类型的低质言论,则确定言论数据不是低质言论。
本实施例中,无内容识别模块303用于:
判断言论数据是否满足无内容规则,无内容规则为只包括以下一种或者几种内容:表情、数字、符号;若满足无内容规则,则确定言论数据为无内容类型的低质言论。
重复输入识别模块304用于:
判断言论数据是否满足重复输入规则,重复输入规则为至少一半的内容是某个词的连续重复输入;若满足重复输入规则,则确定言论数据为重复输入类型的低质评论。
可选的,语言模型模块301还用于:
比较言论数据的困惑度值与困惑度阈值的大小;若言论数据的困惑度值大于困惑度阈值,则确定言论数据是无意义类型的低质言论;若言论数据的困惑度值小于或者等于困惑度阈值,则确定言论数据不是无意义类型的低质言论。
可选的,如图5所示,低质言论识别装置30还包括:识别模型训练模块305。
识别模型训练模块305用于:
对于任意一种低质类型,获取该低质类型的训练集,训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数;利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型。
可选的,预设二分类模型为基于长短时记忆型循环神经网络分类模型。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例综合语言模型,预定义的无内容规则和重复输入规则,以及利用不同的低质类型的训练集训练得到的多个对应不同低质类型的识别模型,多粒度、多角度地对言论模型是否为低质言论进行识别,在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
实施例五
图6为本发明实施例五提供的低质言论识别设备的结构示意图。如图6所示,该低质言论识别设备50包括:处理器501,存储器502,以及存储在存储器502上并可由处理器501执行的计算机程序。
处理器501在执行存储在存储器502上的计算机程序时实现上述任一方法实施例提供的低质言论识别方法。
本发明实施例通过语言模型计算言论数据的困惑度值;根据言论数据的困惑度值,能够识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各个识别模型对应低质类型的低质言论进行识别,也就是分别针对每个低质类型对言论数据是否为低质言论进行识别;在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。
另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例提供的低质言论识别方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (16)

1.一种低质言论识别方法,其特征在于,包括:
通过语言模型计算言论数据的困惑度值;
根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;
如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,所述识别结果包括所述言论数据是否为低质言论;其中每个所述识别模型是通过对应低质类型的训练集训练得到的;
若存在至少一个识别模型的识别结果为所述言论数据是低质言论,则确定所述言论数据为低质言论;
根据所述至少一个识别模型的识别结果确定所述言论数据的低质类型;
将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为对应低质类型的低质言论之前,还包括:
对于任意一种低质类型,获取该低质类型的训练集,所述训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样本对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数;
利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型;
所述预设二分类模型为基于长短时记忆型循环神经网络分类模型。
2.根据权利要求1所述的方法,其特征在于,所述识别结果还包括所述言论数据的低质分数。
3.根据权利要求1所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果之后,还包括:
若所有识别模型的识别结果均为所述言论数据不是该识别模型对应低质类型的低质言论,则确定所述言论数据不是低质言论。
4.根据权利要求1所述的方法,其特征在于,根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型,包括:
比较所述言论数据的困惑度值与困惑度阈值的大小;
若所述言论数据的困惑度值大于所述困惑度阈值,则确定所述言论数据是无意义类型;
若所述言论数据的困惑度值小于或者等于所述困惑度阈值,则确定所述言论数据不是无意义类型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:
判断所述言论数据是否满足无内容规则,所述无内容规则为仅包括以下一种或者几种内容:表情、数字、符号;
若满足无内容规则,则确定所述言论数据为无内容类型。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:
判断所述言论数据是否满足重复输入规则,所述重复输入规则为至少一半的内容是某个词的连续重复输入;
若满足重复输入规则,则确定所述言论数据为重复输入类型。
7.根据权利要求1所述的方法,其特征在于,所述低质类型至少包括:
色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。
8.根据权利要求7所述的方法,其特征在于,所述多个对应不同低质类型的识别模型至少包括:
对应于色情类型的色情言论识别模型,
对应于恶意推广类型的恶意推广言论识别模型,
对应于地域黑类型的地域黑言论识别模型,
对应于反动类型的反动言论识别模型,
对应于违法类型的违法言论识别模型,
对应于辱骂类型的辱骂言论识别模型,
和,对应于人身攻击类型的人身攻击言论识别模型。
9.一种低质言论识别装置,其特征在于,包括:
语言模型模块,用于通过语言模型计算言论数据的困惑度值;
所述语言模型模块还用于根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;
识别模型模块,用于如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,所述识别结果包括所述言论数据是否为低质言论;其中每个所述识别模型是通过对应低质类型的训练集训练得到的;
若存在至少一个识别模型的识别结果为所述言论数据是低质言论,则确定所述言论数据为低质言论;
根据所述至少一个识别模型的识别结果确定所述言论数据的低质类型;
识别模型训练模块,用于对于任意一种低质类型,获取该低质类型的训练集,所述训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数;利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型;所述预设二分类模型为基于长短时记忆型循环神经网络分类模型。
10.根据权利要求9所述的装置,其特征在于,所述识别结果还包括所述言论数据的低质分数。
11.根据权利要求9所述的装置,其特征在于,所述识别模型模块还用于:
若所有识别模型的识别结果均为所述言论数据不是该识别模型对应低质类型的低质言论,则确定所述言论数据不是低质言论。
12.根据权利要求9-11任一项所述的装置,其特征在于,所述装置还包括:无内容识别模块,用于:
判断所述言论数据是否满足无内容规则,所述无内容规则为只包括以下一种或者几种内容:表情、数字、符号;
若满足无内容规则,则确定所述言论数据为无内容类型的低质言论。
13.根据权利要求9-11任一项所述的装置,其特征在于,所述装置还包括:重复输入识别模块,用于:
判断所述言论数据是否满足重复输入规则,所述重复输入规则为至少一半的内容是某个词的连续重复输入;
若满足重复输入规则,则确定所述言论数据为重复输入类型的低质评论。
14.根据权利要求9所述的装置,其特征在于,所述低质类型至少包括:
色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。
15.一种低质言论识别设备,其特征在于,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现如权利要求1-8中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,存储有计算机程序,
所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201811544011.0A 2018-12-17 2018-12-17 低质言论识别方法、装置、设备及计算机可读存储介质 Active CN109783804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811544011.0A CN109783804B (zh) 2018-12-17 2018-12-17 低质言论识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811544011.0A CN109783804B (zh) 2018-12-17 2018-12-17 低质言论识别方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109783804A CN109783804A (zh) 2019-05-21
CN109783804B true CN109783804B (zh) 2023-07-07

Family

ID=66497472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811544011.0A Active CN109783804B (zh) 2018-12-17 2018-12-17 低质言论识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109783804B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863499B (zh) * 2021-01-13 2023-01-24 北京小米松果电子有限公司 语音识别方法及装置、存储介质
CN112989816B (zh) * 2021-04-20 2021-10-01 中译语通科技股份有限公司 文本内容质量评估方法及系统
CN113902038A (zh) * 2021-11-08 2022-01-07 咪咕文化科技有限公司 一种信息识别方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694673A (zh) * 2011-03-25 2012-09-26 腾讯科技(深圳)有限公司 一种网络言论监控方法、设备及系统
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243071B1 (en) * 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
CN106407332B (zh) * 2016-09-05 2020-01-07 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106503066B (zh) * 2016-09-29 2019-10-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN108255857B (zh) * 2016-12-29 2021-10-15 北京国双科技有限公司 一种语句检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694673A (zh) * 2011-03-25 2012-09-26 腾讯科技(深圳)有限公司 一种网络言论监控方法、设备及系统
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于统计分析及文本分类的网络论坛言论领袖识别;段振辰 等;Proceedings of 2010 International Conference on Management Science and Engineering (MSE 2010);237-240 *

Also Published As

Publication number Publication date
CN109783804A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
US9720901B2 (en) Automated text-evaluation of user generated text
EP2803031B1 (en) Machine-learning based classification of user accounts based on email addresses and other account information
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109697291B (zh) 文本的语义段落识别方法和装置
CN109241526B (zh) 一种段落分割方法和装置
CN109783804B (zh) 低质言论识别方法、装置、设备及计算机可读存储介质
CN110569354B (zh) 弹幕情感分析方法及装置
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN107633077B (zh) 一种多策略清洗社交媒体文本数据的系统和方法
CN111753086A (zh) 一种垃圾邮件识别方法和装置
CN112052331A (zh) 一种处理文本信息的方法及终端
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
US20150212976A1 (en) System and method for rule based classification of a text fragment
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN110674370A (zh) 域名识别方法及装置、存储介质及电子设备
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
Shaikh et al. Extended approximate string matching algorithms to detect name aliases
CN115186647A (zh) 文本相似度的检测方法、装置、电子设备及存储介质
CN112818681A (zh) 文本情感分析方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant