CN109145117A - 传销项目的奖金制度识别方法、装置及电子设备 - Google Patents
传销项目的奖金制度识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109145117A CN109145117A CN201811034567.5A CN201811034567A CN109145117A CN 109145117 A CN109145117 A CN 109145117A CN 201811034567 A CN201811034567 A CN 201811034567A CN 109145117 A CN109145117 A CN 109145117A
- Authority
- CN
- China
- Prior art keywords
- webpage
- picture
- multiple level
- level marketing
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种传销项目的奖金制度识别方法、装置及电子设备,涉及网络传销识别技术领域,该方法包括:获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;从多个关联网页中筛选出待检验网页;其中,待检验网页含有预设的奖金制度关键字符;基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。本发明提供的上述方式以奖金制度作为传销项目的判定指标,通过对网页内容进行识别,判断网页中是否存在传销项目的奖金制度,能够有效地发现存在传销项目的网页。
Description
技术领域
本发明涉及网络传销识别技术领域,尤其是涉及一种传销项目的奖金制度识别方法、装置及电子设备。
背景技术
随着传销项目的数量迅速的上涨,网络传销的比重也逐渐增加。由于线上操作隐秘,扩散遍历,可快速复制,使得发现和打击网络传销变得十分困难。目前,对于网络传销的识别定性比较困难,在互联网上海量的网页中,如何发现和识别出传销项目成为了最大的难题。
发明内容
有鉴于此,本发明的目的在于提供一种传销项目的奖金制度识别方法、装置及电子设备,以奖金制度作为传销项目的判定指标,通过识别传销项目的奖金制度,能够有效地发现存在传销项目的网页。
第一方面,本发明实施例提供了一种传销项目的奖金制度识别方法,该方法包括:获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;从多个关联网页中筛选出待检验网页;其中,待检验网页含有预设的奖金制度关键字符;基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,获取传销项目的多个关联网页的步骤,包括:根据预设的第一关键词,从互联网网页中筛选与第一关键词相匹配的网页;获取网页的html文件中的文本内容,并确定文本内容中的核心词汇;判断文本内容中的核心词汇是否与传销项目的名称相匹配;如果是,确定网页为传销项目的关联网页。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,确定文本内容中的核心词汇的步骤,包括:基于预设的分词工具,对文本内容进行分词以得到多种词汇;采用TF-IDF算法分别计算得到每种词汇的TF-IDF值;将TF-IDF值大于预设第一阈值的词汇确定为文本内容的核心词汇。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,当上述关联网页的页面上展示有文章时,从关联网页中筛选出待检验网页的步骤,包括:根据预设的第二关键词,从获取的多个关联网页中初步筛选出目标网页;其中,目标网页中的文章包含有第二关键词;判断目标网页是否符合预设的判断条件;其中,预设的判断条件包括:目标网页中的文章的标题和文本主体均包含有第二关键词,且,第二关键词出现的次数大于预设第一次数,且,目标网页中的文章中的数字出现的次数大于预设第二次数;如果是,将目标网页确定为待检验网页。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,当上述关联网页的页面上展示有图片时,从关联网页中筛选出待检验网页的步骤,包括:通过预设的图片识别工具对图片进行解析,得到图片中的字符;其中,字符包括数字串和文字;判断字符的数量是否高于预设第二阈值;如果是,基于数字串在图片中的点位及图片的尺寸,在图片中构建聚合簇类;判断聚合簇类中的各特征参数值是否符合预设标准;其中,聚合簇类中的特征参数值包括数字串的数量和数字串之间的偏离度;如果是,将图片对应的关联网页确定为待检验网页。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,通过预设的图片识别工具对图片进行解析的步骤,包括:判断图片的大小是否小于预设第三阈值;如果否,通过预设的图片识别工具对图片进行解析。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,上述预设分类模型是基于贝叶斯方法所构建的;预设分类模型的训练样本包括图片样本和文章样本;其中,图片样本和文章样本中均含有传销项目的奖金制度。
第二方面,本发明实施例提供了一种传销项目的奖金制度识别装置,该装置包括:网页获取模块,用于获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;待检验网页确定模块,用于从多个网页中筛选出待检验网页;其中,待检验网页含有预设的奖金制度关键字符;传销项目的奖金制度判断模块,用于基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面至第一方面的第六种可能的实施方式中任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行第一方面至第一方面的第六种可能的实施方式中任一项所述的方法的步骤。
本发明实施例提供了一种传销项目的奖金制度识别方法、装置及电子设备,涉及网络传销识别技术领域,可以获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;然后从多个关联网页中筛选出含有预设的奖金制度关键字符的待检验网页;进而基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。本发明实施例提供的上述方式以奖金制度作为传销项目的判定指标,通过对网页内容进行识别,判断网页中是否存在传销项目的奖金制度,能够有效地发现存在传销项目的网页,为打击非法网络传销提供帮助。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种传销项目的奖金制度识别方法的流程图;
图2为本发明实施例提供的一种聚合簇类的结构示意图;
图3为本发明实施例提供的另一种传销项目的奖金制度识别方法的流程图;
图4为本发明实施例提供的一种传销项目的奖金制度识别装置的结构框图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着传销项目的数量迅速的上涨,网络传销的比重也逐渐增加。由于线上操作隐秘,扩散遍历,可快速复制,使得发现和打击网络传销变得十分困难。目前,对于网络传销的识别定性比较困难,在互联网上海量的网页中,如何发现和识别出传销项目成为了最大的难题。
基于此,本发明实施例提供的一种传销项目的奖金制度识别方法、装置以及电子设备,以奖金制度作为传销项目的判定指标,通过识别传销项目的奖金制度,能够有效地发现存在传销项目的网页。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种传销项目的奖金制度识别方法进行详细介绍。
参见图1所示的一种传销项目的奖金制度识别方法的流程图,该方法包括如下步骤:
步骤S102,获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;
具体的,可依据预先设定的关键词,通过爬虫从互联网大量的网页中初步爬取涉及传销项目的网页;其中,关键词可以是实际传销项目在对诸如其项目名称、奖金制度和运营模式等描述时所使用的惯用词汇。进而依据前述关键词在网页中出现的次数,判定爬取出的网页与传销项目的关联程度,将关联程度较大的网页作为传销项目的关联网页。
步骤S104,从多个关联网页中筛选出待检验网页;其中,待检验网页含有预设的奖金制度关键字符;
考虑到传销项目在宣传时通常会介绍相关奖金制度,且传销项目的奖金制度具备一定特征,故可以将传销项目对于奖金制度描述的特征作为判定依据。当获取到的传销项目的多个关联网页后,判断关联网页页面上展示的文章或/和图片中是否存在传销项目的奖金制度疑似特征信息,诸如奖金数额及奖金数额呈梯度分布的特征信息,如果存在则将该关联网页确定为待检验网页。上述预设的奖金制度关键字符包括奖金数额。
步骤S106,基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。
在一种可选的方式中,可基于贝叶斯方法预先构建上述分类模型;选取大量的描述传销项目,也即包含有传销项目奖金制度的文章和图片作为分类模型的训练样本对分类模型进行训练,以使分类模型可识别出传销项目奖金制度的特征信息。采用该分类模型对上述待检验网页中的文章或/和图片进行检验,通过判断待检验网页中的文章或/和图片中的传销项目的奖金制度疑似特征信息是否可与训练样本中传销项目奖金制度的特征信息相匹配,从而确定待检验网页中是否存在传销项目的奖金制度。
本发明实施例提供了一种传销项目的奖金制度识别方法,可以获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;然后从多个关联网页中筛选出含有预设的奖金制度关键字符的待检验网页;进而基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。本发明实施例提供的上述方式以奖金制度作为传销项目的判定指标,通过识别传销项目的奖金制度,能够有效地发现存在传销项目的网页,以为打击非法网络传销提供帮助。
为便于理解,本发明实施例提供了上述步骤S102的一种具体的实施方式,也即获取传销项目的多个关联网页可参照以下步骤实施:
(1)根据预设的第一关键词,从互联网网页中筛选与第一关键词相匹配的网页;其中,第一关键词包括传销项目的名称、奖金制度和运营模式。实际应用时,可通过爬虫从互联网网页中筛选出包含第一关键词的网页。
(2)获取网页的html文件中的文本内容,并确定文本内容中的核心词汇;
具体的,可采用xml解析工具对网页的html文件进行解析以获取网页的html文件中的文本内容;其中,文本内容包括html文件中的标题、网页描述标签、标签内的文本和标签上的中文文本等。
(3)判断文本内容中的核心词汇是否与传销项目的名称相匹配;如果是,确定网页为传销项目的关联网页。具体的,实际应用时判断文本内容中的核心词汇是否包含传销项目的名称或者传销项目名称中的部分文本,诸如传销项目名称的前4个文字;如果是,则确定网页为为传销项目的关联网页。
本发明实施例提供的上述获取传销项目的关联网页的方式,首先根据第一关键词从互联网网页中筛选出涉及传销项目或具有奖金制度偏向性的网页;进而通过判断网页的html文件中文本内容的核心词汇是否与传销项目的名称相匹配,也即通过分析传销项目的名称在html文件中文本内容出现的次数以确定网页和传销项目的关联程度,将关联程度强的网页作为传销项目的关联网页。通过这样的方式,可以过滤掉一些可能包含有奖金制度介绍的招聘网页,将后续识别的范围缩小至与传销项目关联性较强的网页内,能够有效地提升识别的效率。
具体的,在一种可选的实施方式中,上述确定文本内容中的核心词汇,可参照以下步骤实施:
(1)基于预设的分词工具,对文本内容进行分词以得到多种词汇;其中,分词工具能够根据用户词典将文本内容依据词典内的词汇进行分词;此外分词工具还具有新词发现功能,可以发现词典中没有的,但是结合紧密有可能组成一个新词的字或词。实际应用时,可采取NLPIR汉语分词系统作为前述分词工具。
(2)采用TF-IDF算法分别计算得到每种词汇的TF-IDF值;其中,TF-IDF(TermFrequency–Inverse Document Frequency,词频-逆向文件频率)算法是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在此以各词汇的TF-IDF值度量各词汇在前述文本内容中的重要程度。
(3)将TF-IDF值大于预设第一阈值的词汇确定为文本内容的核心词汇。实际应用时,可将第一阈值设为0.1。
进一步,当关联网页的页面上展示有文章时,上述从关联网页中筛选出待检验网页的步骤,包括:
(1)根据预设的第二关键词,从获取的多个关联网页中初步筛选出目标网页;其中,目标网页中的文章包含有第二关键词;前述第二关键词为描述传销项目的奖金制度的特征词汇,诸如奖金、级别和等级等。此外,实际应用时,还可设置过滤关键词,诸如招聘,过滤掉干扰文章,进一步缩小目标网页的范围。
(2)判断目标网页是否符合预设的判断条件;
其中,预设的判断条件包括:目标网页中的文章的标题和文本主体均包含有第二关键词,且,第二关键词出现的次数大于预设第一次数,且,目标网页中的文章中的数字出现的次数大于预设第二次数;具体的,实际应用时,参考描述传销项目的文章中奖金制度关键词的出现的次数及数字,也即奖金数额的特征分别设置前述第一次数和第二次数;诸如可设置第一次数为3;设置第二次数为50。
(3)当目标网页符合前述判断条件时,将目标网页确定为待检验网页。
进一步,当关联网页的页面上展示有图片时,上述从关联网页中筛选出待检验网页的步骤,包括:
(1)通过预设的图片识别工具对图片进行解析,得到图片中的字符;其中,字符包括数字串和文字;图片识别,是一种利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。前述图片识别工具还可以解析前述字符在图片中的坐标位置。
(2)判断字符的数量是否高于预设第二阈值;如果是,执行(3);如果否,过滤掉数量低于预设第二阈值的图片。通过这样的方式可以过滤掉仅含有少量字符不足以描述奖金制度的图片,能够减少后续对图片进行检验的工作量,实际应用时,可将前述第二阈值设置为10。
(3)基于数字串在图片中的点位及图片的尺寸,在图片中构建聚合簇类;具体的,可基于数字串在图片中的点位(也即,坐标位置)及根据图片宽度所设置的聚合半径,在图中构建聚合簇类;实际应用时,可以将图片宽度的1/4作为聚合半径构建聚合簇类,该聚合簇类整体呈圆形,其中包含一个或多个数字串。为便于理解,参见图2,本发明实施例提供了一种聚合簇类的结构示意图。在图2中示出了图片202、聚合簇类204和多个数字串(具体的,分别为第一数字串206a、第二数字串206b和第三数字串206c)。
(4)判断聚合簇类中的各特征参数值是否符合预设标准;其中,聚合簇类中的特征参数值包括数字串的数量和数字串之间的偏离度;实际应用时,前述预设标准包括数字串的数量大于等于3;构成数字串的数字点位的筛选范围大于10px;偏离度不超过20px范围内存在三个数字串,并呈梯度分布,也即可构成数字梯度矩阵等。其中,梯度矩阵是指在向量微积分中标量场的梯度是一个向量场,标量场中某一点的梯度指向在这点标量场增长最快的方向,梯度的绝对值是长度为1的方向中函数最大的增加率。此外,实际应用时,考虑到通常存在数字与百分号结合的形式以描述比例,当数字梯度与百分号梯度同时存在覆盖,仅记录其中一种梯度,诸如剔除数字梯度,保留百分号梯度。
(5)当图片的聚合簇类中的各特征参数值符合预设标准时,将图片对应的关联网页确定为待检验网页。
进一步,考虑到实际应用时网页中存在诸如图标等页面设计所设置的资源占用较少的图片,为排除其干扰以减轻对图片进行识别的工作量,在上述通过预设的图片识别工具对图片进行解析时,首先判断图片的大小是否小于预设第三阈值;如果是,过滤掉该图片,不对其进行识别;如果否,通过预设的图片识别工具对图片进行解析。实际应用时,第三阈值可以设置为30k。
进一步,为便于实施,本发明实施例还提供了另一种传销项目的奖金制度识别方法的流程图,参见图3,具体的,该方法包括:首先可通过爬虫在互联网中爬取出涉及传销项目的具有奖金制度偏向性的网页,然后通过判断筛选出的网页与传销项目的关联程度以确定传销项目的关联网页;进而基于图片识别、奖金制度特征和奖金数额梯度等,判断关联网页中的图片和/或文章是否存在传销项目奖金制度的疑似特征信息以筛选出存在传销项目奖金制度的疑似特征信息的待检验网页;最终基于预设的分类模型检验待检验网页中是否存在传销项目的奖金制度特征,以确定存在传销项目的网页。本发明实施例提供的上述方法能够有效地发现互联网中的非法传销项目,从而为打击非法传销提供有力的支持。
对应上述方法,本发明实施例提供了一种传销项目的奖金制度识别装置的结构框图,参见图4,该装置包括:
网页获取模块402,用于获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;
待检验网页确定模块404,用于从多个网页中筛选出待检验网页;其中,待检验网页含有预设的奖金制度关键字符;
传销项目的奖金制度判断模块406,用于基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。
本发明实施例提供的上述一种传销项目的奖金制度识别装置,涉及网络传销识别技术领域,可以获取传销项目的多个关联网页;其中,关联网页的页面上展示有文章或/和图片;然后从多个关联网页中筛选出含有预设的奖金制度关键字符的待检验网页;进而基于预设的分类模型对待检验网页中的文章或/和图片进行检验,以判断待检验网页中是否存在传销项目的奖金制度。本发明实施例以奖金制度作为传销项目的判定指标,通过识别传销项目的奖金制度,能够有效地发现存在传销项目的网页,以为打击非法网络传销提供帮助。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
进一步,对应上述方法和装置,本发明实施例还提供了一种电子设备,包括存储器和处理器,存储器中存储有可在所处理器上运行的计算机程序,处理器执行计算机程序时实现上述传销项目的奖金制度识别方法的步骤。
参见图5所示的一种电子设备的结构示意图,示出了电子设备500,包括:处理器50,存储器51,总线52和通信接口53,处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序501,处理器50在接收到执行指令后,执行程序501,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
进一步,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项传销项目的奖金制度识别方法的步骤。具体实现可参见方法实施例,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种传销项目的奖金制度识别方法,其特征在于,所述方法包括:
获取传销项目的多个关联网页;其中,所述关联网页的页面上展示有文章或/和图片;
从多个所述关联网页中筛选出待检验网页;其中,所述待检验网页含有预设的奖金制度关键字符;
基于预设的分类模型对所述待检验网页中的文章或/和图片进行检验,以判断所述待检验网页中是否存在传销项目的奖金制度。
2.根据权利要求1所述的方法,其特征在于,所述获取传销项目的多个关联网页的步骤,包括:
根据预设的第一关键词,从互联网网页中筛选与所述第一关键词相匹配的网页;
获取所述网页的html文件中的文本内容,并确定所述文本内容中的核心词汇;
判断所述文本内容中的核心词汇是否与所述传销项目的名称相匹配;
如果是,确定所述网页为传销项目的关联网页。
3.根据权利要求2所述的方法,其特征在于,确定所述文本内容中的核心词汇的步骤,包括:
基于预设的分词工具,对所述文本内容进行分词以得到多种词汇;
采用TF-IDF算法分别计算得到每种所述词汇的TF-IDF值;
将所述TF-IDF值大于预设第一阈值的所述词汇确定为所述文本内容的核心词汇。
4.根据权利要求1所述的方法,其特征在于,当所述关联网页的页面上展示有文章时,所述从所述关联网页中筛选出待检验网页的步骤,包括:
根据预设的第二关键词,从获取的多个所述关联网页中初步筛选出目标网页;其中,所述目标网页中的文章包含有所述第二关键词;
判断所述目标网页是否符合预设的判断条件;
其中,所述预设的判断条件包括:所述目标网页中的文章的标题和文本主体均包含有第二关键词,且,所述第二关键词出现的次数大于预设第一次数,且,所述目标网页中的文章中的数字出现的次数大于预设第二次数;
如果是,将所述目标网页确定为待检验网页。
5.根据权利要求1所述的方法,其特征在于,当所述关联网页的页面上展示有图片时,所述从所述关联网页中筛选出待检验网页的步骤,包括:
通过预设的图片识别工具对所述图片进行解析,得到所述图片中的字符;其中,所述字符包括数字串和文字;
判断所述字符的数量是否高于预设第二阈值;
如果是,基于所述数字串在所述图片中的点位及所述图片的尺寸,在所述图片中构建聚合簇类;
判断所述聚合簇类中的各特征参数值是否符合预设标准;其中,所述聚合簇类中的特征参数值包括所述数字串的数量和所述数字串之间的偏离度;
如果是,将所述图片对应的所述关联网页确定为待检验网页。
6.根据权利要求5所述的方法,其特征在于,所述通过预设的图片识别工具对所述图片进行解析的步骤,包括:
判断所述图片的大小是否小于预设第三阈值;
如果否,通过预设的图片识别工具对所述图片进行解析。
7.根据权利要求1所述的方法,其特征在于,所述预设分类模型是基于贝叶斯方法所构建的;所述预设分类模型的训练样本包括图片样本和文章样本;其中,所述图片样本和所述文章样本中均含有传销项目的奖金制度。
8.一种传销项目的奖金制度识别装置,其特征在于,所述装置包括:
网页获取模块,用于获取传销项目的多个关联网页;其中,所述关联网页的页面上展示有文章或/和图片;
待检验网页确定模块,用于从多个所述网页中筛选出待检验网页;其中,所述待检验网页含有预设的奖金制度关键字符;
传销项目的奖金制度判断模块,用于基于预设的分类模型对所述待检验网页中的文章或/和图片进行检验,以判断所述待检验网页中是否存在传销项目的奖金制度。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811034567.5A CN109145117A (zh) | 2018-09-05 | 2018-09-05 | 传销项目的奖金制度识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811034567.5A CN109145117A (zh) | 2018-09-05 | 2018-09-05 | 传销项目的奖金制度识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145117A true CN109145117A (zh) | 2019-01-04 |
Family
ID=64827244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811034567.5A Pending CN109145117A (zh) | 2018-09-05 | 2018-09-05 | 传销项目的奖金制度识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145117A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN112328936A (zh) * | 2020-11-02 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 一种网站识别方法、装置、设备及计算机可读存储介质 |
CN112328942A (zh) * | 2020-11-25 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 基于网站的目标行为识别方法、装置和电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN107122450A (zh) * | 2017-04-26 | 2017-09-01 | 广州图匠数据科技有限公司 | 一种网络图片舆情监测方法 |
CN107547555A (zh) * | 2017-09-11 | 2018-01-05 | 北京匠数科技有限公司 | 一种网站安全监测方法及装置 |
CN107562814A (zh) * | 2017-08-14 | 2018-01-09 | 中国农业大学 | 一种地震应急和灾情信息获取分类方法及系统 |
-
2018
- 2018-09-05 CN CN201811034567.5A patent/CN109145117A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN107122450A (zh) * | 2017-04-26 | 2017-09-01 | 广州图匠数据科技有限公司 | 一种网络图片舆情监测方法 |
CN107562814A (zh) * | 2017-08-14 | 2018-01-09 | 中国农业大学 | 一种地震应急和灾情信息获取分类方法及系统 |
CN107547555A (zh) * | 2017-09-11 | 2018-01-05 | 北京匠数科技有限公司 | 一种网站安全监测方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442775A (zh) * | 2019-08-13 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 传销网站宣传地址的获取方法、装置及电子设备 |
CN112328936A (zh) * | 2020-11-02 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 一种网站识别方法、装置、设备及计算机可读存储介质 |
CN112328942A (zh) * | 2020-11-25 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 基于网站的目标行为识别方法、装置和电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102279875B (zh) | 钓鱼网站的识别方法和装置 | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN107346326A (zh) | 用于生成神经网络模型的方法和系统 | |
CN110602045B (zh) | 一种基于特征融合和机器学习的恶意网页识别方法 | |
CN103678528B (zh) | 基于段落抄袭检测的电子作业反抄袭系统和方法 | |
CN101794311A (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN109598124A (zh) | 一种webshell检测方法以及装置 | |
CN102446255A (zh) | 一种检测页面篡改的方法及装置 | |
CN110019163A (zh) | 对象特征的预测、推荐的方法、系统、设备和存储介质 | |
CN110287409A (zh) | 一种网页类型识别方法及装置 | |
CN109145117A (zh) | 传销项目的奖金制度识别方法、装置及电子设备 | |
CN106445907A (zh) | 一种领域词典的生成方法及装置 | |
CN108229131A (zh) | 仿冒app识别方法及装置 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
CN107229614A (zh) | 用于分类数据的方法和装置 | |
CN111339396B (zh) | 提取网页内容的方法、装置和计算机存储介质 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
CN109101491B (zh) | 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质 | |
CN113762303B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN103049557A (zh) | 一种站点资源管理方法及装置 | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN110442807A (zh) | 一种网页类型识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |
|
RJ01 | Rejection of invention patent application after publication |