[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104484388A - 稀缺信息页面的筛选方法和装置 - Google Patents

稀缺信息页面的筛选方法和装置 Download PDF

Info

Publication number
CN104484388A
CN104484388A CN201410759482.9A CN201410759482A CN104484388A CN 104484388 A CN104484388 A CN 104484388A CN 201410759482 A CN201410759482 A CN 201410759482A CN 104484388 A CN104484388 A CN 104484388A
Authority
CN
China
Prior art keywords
participle
page
rare
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410759482.9A
Other languages
English (en)
Inventor
魏少俊
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410759482.9A priority Critical patent/CN104484388A/zh
Publication of CN104484388A publication Critical patent/CN104484388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种稀缺信息页面的筛选方法和装置,该方法包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。本发明提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。并且,本发明是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。

Description

稀缺信息页面的筛选方法和装置
技术领域
本发明涉及信息搜索领域,特别是一种稀缺信息页面的筛选方法和装置。
背景技术
搜索引擎所抓取的页面集合较为庞大,从成本和效率的角度考虑,搜索引擎会从中选取部分页面作为索引,筛选的依据主要是页面内容的重复程度和页面内容本身的质量。
上述筛选可以对庞大的页面集合进行精减处理,删除大量重复性页面,提高索引集合的信息提供效率。但是,搜索过程中存在部分因不同原因(例如重复程度较低)容易被忽略的信息,比如某些人名、偏远地名或商品型号等。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的稀缺信息页面的筛选方法和装置。
依据本发明的一个方面,提供了一种稀缺信息页面的筛选方法,包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。
可选地,在所述多个分词中查找稀缺词,包括:对于每个分词,查找索引中包含该分词的页面的数量;确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。
可选地,确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词,包括:确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。
可选地,在所述多个分词中查找稀缺词,包括:对于每个分词,确定包含该分词的页面的数量;根据确定的数量,计算每个分词的逆向文件词频(IDF,Inverse Document Frequency)值;在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
可选地,对于每个分词,确定包含该分词的页面的数量之前,还包括:计算所述多个分词中每个分词在各自所在页面中的出现频率;在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。
可选地,对搜索引擎抓取的页面作分词处理,包括:抽取搜索引擎抓取的页面的内容文本;对抽取的内容文本作分词处理。
可选地,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。
可选地,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,还包括:对所述稀缺信息页面进行筛选处理;将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。
可选地,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。
依据本发明的另一方面,还提供了一种稀缺信息页面的筛选装置,包括:
分词生成器,适于对搜索引擎抓取的页面作分词处理,生成多个分词;
稀缺词查找器,适于在所述多个分词中查找稀缺词;
稀缺信息页面筛选器,适于筛选出包含所述稀缺词的页面作为稀缺信息页面。
可选地,所述稀缺词查找器还适于:对于每个分词,查找索引中包含该分词的页面的数量;确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。
可选地,所述稀缺词查找器还适于:确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。
可选地,所述稀缺词查找器还适于:对于每个分词,确定包含该分词的页面的数量;根据确定的数量,计算每个分词的IDF值;在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
可选地,对于每个分词,确定包含该分词的页面的数量之前,所述稀缺词查找器还适于:计算所述多个分词中每个分词在各自所在页面中的出现频率;在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。
可选地,所述分词生成器还适于:抽取搜索引擎抓取的页面的内容文本;对抽取的内容文本作分词处理。
可选地,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。
可选地,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,所述稀缺信息页面筛选器还适于:对所述稀缺信息页面进行筛选处理;将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。
可选地,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。
本发明提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。进一步地,通过分词处理等手段对搜索引擎抓取的页面进行处理,从中查找到稀缺词,进而筛选出稀缺信息页面,从而在用户查询时能够准确、高效地提供包含稀缺信息页面的搜索结果,解决了现有的搜索引擎因稀缺信息页面内容重复程度较低等原因导致搜索时容易被忽略的问题。并且,本发明是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的稀缺信息页面的筛选方法的流程图;以及
图2示出了根据本发明一个实施例的稀缺信息页面的筛选装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种稀缺信息页面的筛选方法。图1示出了根据本发明一个实施例的稀缺信息页面的筛选方法的流程图。参见图1,该方法至少包括步骤S102至步骤S106。
步骤S102、对搜索引擎抓取的页面作分词处理,生成多个分词。
步骤S104、在多个分词中查找稀缺词。
步骤S106、筛选出包含稀缺词的页面作为稀缺信息页面。
本发明提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。进一步地,通过分词处理等手段对搜索引擎抓取的页面进行处理,从中查找到稀缺词,进而筛选出稀缺信息页面,从而在用户查询时能够准确、高效地提供包含稀缺信息页面的搜索结果,解决了现有的搜索引擎因稀缺信息页面内容重复程度较低等原因导致搜索时容易被忽略的问题。并且,本发明是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。
上文步骤S102中对搜索引擎抓取的页面作分词处理,生成多个分词,本发明实施例提供了一种优选的处理方式,即抽取搜索引擎抓取的页面的内容文本,进而对抽取的内容文本作分词处理。这里,抽取页面的内容文本是指对页面中的编程语句进行过滤,将HTML(Hypertext Markup Language,超文本标记语言)标记、脚本语言等都去除后,剩下来代表实质内容的文本。即不仅仅是content(内容)正文,也包含title(标题)、abstract(摘要)、author(作者)、time(时间)等内容的文本。进一步地,对抽取的内容文本作分词处理,可以把一段内容文本分割成常用的词,例如“北京市酒仙桥路798艺术区”作分词处理之后为“北京市/酒仙桥路/798/艺术/区”。
在步骤S102中对搜索引擎抓取的页面作分词处理,生成多个分词之后,步骤S104在多个分词中查找稀缺词,本发明实施例提供了一种优选的方案,在该方案中,对于每个分词,查找索引中包含该分词的页面的数量,之后确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。这里的稀缺词可以是具备实词含义、能够示意事件内容的分词。从语法的角度进行分析,在文字类语句中,出现频率较高的分词的类型通常是不具备实词意义的,例如常见的语气词、连词、助词、具有类型性的名称等等。语气词通常是指对语言进行语气幅度增强类的词语,例如啊、哇、呀等等,这类词本身没有具体含义,仅用于增加语气幅度。连词是用于连接不同的主语、谓语、宾语等,常见的连词如和、或者、除非等等。助词通常是指谓语的辅助用词,例如跟在动词后的地。其它具有类型性的名称,是指某一类事物的名称,但这一类事物本身不能示意具体事件内容,无法形成区分性,例如公司、团队、协会等等。另外,这里的事件可以是一个较大的事件概念,例如时间事件、地点事件、人物事件、联系方式事件,等等。因稀缺词能够示意事件内容,因此稀缺词相应的可以为时间、地点、人物、电话号码、邮箱地址等具备事件意义的词。
进一步地,考虑到存在笔误或者其它原因,页面里容易出现一些“假”稀缺信息(比如一个拼写错误的英语单词),实际应用中需要把这类信息剔除掉。为此,在本发明的优选方案中,确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,第二数量阈值小于第一数量阈值。这里,第一数量阈值和第二数量阈值的取值可以由数据抽样分析来决定。设定好这样的区间后,假稀缺信息就基本被排除在外了。
在本发明的一种优选的方案中,步骤S104在多个分词中查找稀缺词可以实施为对于每个分词,确定包含该分词的页面的数量,进而根据确定的数量,计算每个分词的IDF值,随后在多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。需要说明的是,IDF(逆向文件词频)是文本检索中的术语,指一个词在所有文档中的出现概率的倒数(通常还会再取对数),词的IDF值越高表示越不常见。因而,在本发明提供的实施例中,对于每个分词,可以计算该分词在所有页面中出现概率的倒数(通常还会再取对数),计算得到该分词的IDF值越高表示越不常见,那么可以标记于IDF值大于指定数值阈值的分词为稀缺词。进一步地,本发明实施例还提供了防作弊的处理方式,即对于每个分词,确定包含该分词的页面的数量之前,计算多个分词中每个分词在各自所在页面中的出现频率,随后在多个分词中,过滤掉出现频率大于指定频率阈值的分词。举例来说,包含某个分词的页面的数量为2,但是该分词在这两个页面中出现的频率分别为50和60,此时可以过滤掉该分词。
在步骤S106筛选出包含稀缺词的页面作为稀缺信息页面之后,本发明实施例还可以对稀缺信息页面进行筛选处理,进而将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。这里的筛选处理的方式可以为去重、去垃圾、反作弊等等。此处进行筛选处理是因为稀缺信息页面很多是质量较低的页面,需要过滤其中的垃圾和重复的页面。在本发明的优选方案中,可以通过去重处理实现去垃圾处理。普通页面的去重处理一般会对页面做个签名(最长句子签名是其中的一种),签名相同的则为相同的页面。稀缺信息页面去重需要在此基础上对稀缺词做个签名,即为稀缺信息页面进行页面签名,以及为稀缺信息页面中的稀缺词生成词签名,进而对页面签名以及词签名均相同的多个页面,保留其中一个。采用这一处理方式保证了稀缺信息页面的质量,且能够保留更多包含不同稀缺词的稀缺信息页面,为用户查询时提供更丰富的搜索结果。
以上介绍了图1所示的实施例中各环节的多种实现方式,下面以具体实施例对本发明实施例提供的稀缺信息页面的筛选方法做进一步说明。在该实施例中,搜索引擎抓取的页面包括如下一段文本:“易名中国2月19日讯,据悉,近日360搜索的开放平台oneBox(应用盒子)正式上线,该平台启用so二级域名onebox.so.com,该平台提供新闻、明星、影视、旅游票务、医疗健康等多种垂直信息的特型展现。”
首先,对搜索引擎抓取的页面做分词处理,分词处理后为“易名/中国/2月/19日/讯/,/据悉/,/近日/360搜索/的/开放平台/oneBox/(/应用盒子/)/正式/上线/,/该/平台/启用/so/二级域名/onebox.so.com/,/该/平台/提供/新闻/、/明星/、/影视/、/旅游/票务/、/医疗/健康/等/多种/垂直信息/的/特型/展现/。/”,其中的“/”作为分词分隔符出现。
其次,过滤掉出现频率较高的分词的类型,例如一些不具备实词意义的语气词、连词、助词、具有类型性的名称等等。过滤掉这些是为了后续处理的方便,否则会产生大量的计算。
随后,对于剩下来的每个分词,查找索引中包含该分词的页面的数量,之后确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词。或者,对于剩下来的每个分词,查找索引中包含该分词的页面的数量,进而根据确定的数量,计算每个分词的IDF值,之后在多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。这里的稀缺词可以是具备实词含义、能够示意事件内容的分词,例如稀缺词可以为时间、地点、人物、电话号码、邮箱地址等具备事件意义的词。进一步地,本发明实施例还提供了一种防作弊的处理方式,即对于每个分词,确定包含该分词的页面的数量之前,计算多个分词中每个分词在各自所在页面中的出现频率,随后在多个分词中,过滤掉出现频率大于指定频率阈值的分词。举例来说,包含某个分词的页面的数量为2,但是该分词在这两个页面中出现的频率分别为50和60,此时可以过滤掉该分词。
之后,筛选出包含稀缺词的页面作为稀缺信息页面。
最后,对稀缺信息页面进行筛选处理,进而将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。这里的筛选处理的方式可以为去重、去垃圾、反作弊等等。此处进行筛选处理是因为稀缺信息页面很多是质量较低的页面,需要过滤其中的垃圾和重复的页面。
基于同一发明构思,本发明实施例还提供了一种稀缺信息页面的筛选装置,以实现上述稀缺信息页面的筛选方法。
图2示出了根据本发明一个实施例的稀缺信息页面的筛选装置的结构示意图。参见图2,该装置至少包括:分词生成器210、稀缺词查找器220以及稀缺信息页面筛选器230。
现介绍本发明实施例的稀缺信息页面的筛选装置的各组成或器件的功能以及各部分间的连接关系:
分词生成器210,适于对搜索引擎抓取的页面作分词处理,生成多个分词;
稀缺词查找器220,与分词生成器210相耦合,适于在多个分词中查找稀缺词;
稀缺信息页面筛选器230,与稀缺词查找器220相耦合,适于筛选出包含稀缺词的页面作为稀缺信息页面。
在本发明的一个实施例中,分词生成器210还适于抽取搜索引擎抓取的页面的内容文本,进而对抽取的内容文本作分词处理。这里,抽取页面的内容文本是指对页面中的编程语句进行过滤,将HTML标记、脚本语言等都去除后,剩下来代表实质内容的文本。即不仅仅是content(内容)正文,也包含title(标题)、abstract(摘要)、author(作者)、time(时间)等内容的文本。进一步地,对抽取的内容文本作分词处理,可以把一段内容文本分割成常用的词,例如“北京市酒仙桥路798艺术区”作分词处理之后为“北京市/酒仙桥路/798/艺术/区”。
在本发明的一个实施例中,稀缺词查找器220还适于对于每个分词,查找索引中包含该分词的页面的数量,之后确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。这里的稀缺词可以是具备实词含义、能够示意事件内容的分词。因稀缺词能够示意事件内容,因此稀缺词相应的可以为时间、地点、人物、电话号码、邮箱地址等具备事件意义的词。
在本发明的一个实施例中,考虑到存在笔误或者其它原因,页面里容易出现一些“假”稀缺信息(比如一个拼写错误的英语单词),实际应用中需要把这类信息剔除掉。为此,稀缺词查找器220还适于确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,第二数量阈值小于第一数量阈值。这里,第一数量阈值和第二数量阈值的取值可以由数据抽样分析来决定。设定好这样的区间后,假稀缺信息就基本被排除在外了。
在本发明的一个实施例中,稀缺词查找器220还适于对于每个分词,确定包含该分词的页面的数量,进而根据确定的数量,计算每个分词的IDF值,随后在多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
在本发明的一个实施例中,为了防作弊,对于每个分词,确定包含该分词的页面的数量之前,稀缺词查找器220还适于计算多个分词中每个分词在各自所在页面中的出现频率,随后在多个分词中,过滤掉出现频率大于指定频率阈值的分词。
在本发明的一个实施例中,稀缺信息页面筛选器230筛选出包含稀缺词的页面作为稀缺信息页面之后,稀缺信息页面筛选器230还适于:对稀缺信息页面进行筛选处理,进而将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。这里的筛选处理的方式可以为去重、去垃圾、反作弊等等。此处进行筛选处理是因为稀缺信息页面很多是质量较低的页面,需要过滤其中的垃圾和重复的页面。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
本发明提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。进一步地,通过分词处理等手段对搜索引擎抓取的页面进行处理,从中查找到稀缺词,进而筛选出稀缺信息页面,从而在用户查询时能够准确、高效地提供包含稀缺信息页面的搜索结果,解决了现有的搜索引擎因稀缺信息页面内容重复程度较低等原因导致搜索时容易被忽略的问题。并且,本发明是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。
本发明还公开了:
A1、一种稀缺信息页面的筛选方法,包括:
对搜索引擎抓取的页面作分词处理,生成多个分词;
在所述多个分词中查找稀缺词;
筛选出包含所述稀缺词的页面作为稀缺信息页面。
A2、根据A1所述的方法,其中,在所述多个分词中查找稀缺词,包括:
对于每个分词,查找索引中包含该分词的页面的数量;
确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。
A3、根据A1-A2任一项所述的方法,其中,确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词,包括:
确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。
A4、根据A1-A3任一项所述的方法,其中,在所述多个分词中查找稀缺词,包括:
对于每个分词,确定包含该分词的页面的数量;
根据确定的数量,计算每个分词的逆向文件词频IDF值;
在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
A5、根据A1-A4任一项所述的方法,其中,对于每个分词,确定包含该分词的页面的数量之前,还包括:
计算所述多个分词中每个分词在各自所在页面中的出现频率;
在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。
A6、根据A1-A5任一项所述的方法,其中,对搜索引擎抓取的页面作分词处理,包括:
抽取搜索引擎抓取的页面的内容文本;
对抽取的内容文本作分词处理。
A7、根据A1-A6任一项所述的方法,其中,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。
A8、根据A1-A7任一项所述的方法,其中,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,还包括:
对所述稀缺信息页面进行筛选处理;
将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。
A9、根据A1-A8任一项所述的方法,其中,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。
B10、一种稀缺信息页面的筛选装置,包括:
分词生成器,适于对搜索引擎抓取的页面作分词处理,生成多个分词;
稀缺词查找器,适于在所述多个分词中查找稀缺词;
稀缺信息页面筛选器,适于筛选出包含所述稀缺词的页面作为稀缺信息页面。
B11、根据B10所述的装置,其中,所述稀缺词查找器还适于:
对于每个分词,查找索引中包含该分词的页面的数量;
确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。
B12、根据B10-B11任一项所述的装置,其中,所述稀缺词查找器还适于:
确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。
B13、根据B10-B12任一项所述的装置,其中,所述稀缺词查找器还适于:
对于每个分词,确定包含该分词的页面的数量;
根据确定的数量,计算每个分词的逆向文件词频IDF值;
在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
B14、根据B10-B13任一项所述的装置,其中,对于每个分词,确定包含该分词的页面的数量之前,所述稀缺词查找器还适于:
计算所述多个分词中每个分词在各自所在页面中的出现频率;
在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。
B15、根据B10-B14任一项所述的装置,其中,所述分词生成器还适于:
抽取搜索引擎抓取的页面的内容文本;
对抽取的内容文本作分词处理。
B16、根据B10-B15任一项所述的装置,其中,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。
B17、根据B10-B16任一项所述的装置,其中,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,所述稀缺信息页面筛选器还适于:
对所述稀缺信息页面进行筛选处理;
将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。
B18、根据B10-B17任一项所述的装置,其中,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的稀缺信息页面的筛选装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (10)

1.一种稀缺信息页面的筛选方法,包括:
对搜索引擎抓取的页面作分词处理,生成多个分词;
在所述多个分词中查找稀缺词;
筛选出包含所述稀缺词的页面作为稀缺信息页面。
2.根据权利要求1所述的方法,其中,在所述多个分词中查找稀缺词,包括:
对于每个分词,查找索引中包含该分词的页面的数量;
确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。
3.根据权利要求1-2任一项所述的方法,其中,确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词,包括:
确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。
4.根据权利要求1-3任一项所述的方法,其中,在所述多个分词中查找稀缺词,包括:
对于每个分词,确定包含该分词的页面的数量;
根据确定的数量,计算每个分词的逆向文件词频IDF值;
在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。
5.根据权利要求1-4任一项所述的方法,其中,对于每个分词,确定包含该分词的页面的数量之前,还包括:
计算所述多个分词中每个分词在各自所在页面中的出现频率;
在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。
6.根据权利要求1-5任一项所述的方法,其中,对搜索引擎抓取的页面作分词处理,包括:
抽取搜索引擎抓取的页面的内容文本;
对抽取的内容文本作分词处理。
7.根据权利要求1-6任一项所述的方法,其中,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。
8.根据权利要求1-7任一项所述的方法,其中,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,还包括:
对所述稀缺信息页面进行筛选处理;
将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。
9.根据权利要求1-8任一项所述的方法,其中,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。
10.一种稀缺信息页面的筛选装置,包括:
分词生成器,适于对搜索引擎抓取的页面作分词处理,生成多个分词;
稀缺词查找器,适于在所述多个分词中查找稀缺词;
稀缺信息页面筛选器,适于筛选出包含所述稀缺词的页面作为稀缺信息页面。
CN201410759482.9A 2014-12-10 2014-12-10 稀缺信息页面的筛选方法和装置 Pending CN104484388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410759482.9A CN104484388A (zh) 2014-12-10 2014-12-10 稀缺信息页面的筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410759482.9A CN104484388A (zh) 2014-12-10 2014-12-10 稀缺信息页面的筛选方法和装置

Publications (1)

Publication Number Publication Date
CN104484388A true CN104484388A (zh) 2015-04-01

Family

ID=52758929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410759482.9A Pending CN104484388A (zh) 2014-12-10 2014-12-10 稀缺信息页面的筛选方法和装置

Country Status (1)

Country Link
CN (1) CN104484388A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016000511A1 (zh) * 2014-06-30 2016-01-07 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042709A (zh) * 2007-04-11 2007-09-26 芦树鹏 主动式搜索
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白凡: "改进的K近邻算法在网页文本分类中的应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016000511A1 (zh) * 2014-06-30 2016-01-07 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置

Similar Documents

Publication Publication Date Title
CN102831248B (zh) 网络热点挖掘方法及装置
CN104077402B (zh) 数据处理方法和数据处理系统
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN104951512A (zh) 一种基于互联网的舆情数据采集方法及系统
CN102710795B (zh) 热点聚合方法及装置
CN102207961B (zh) 一种网页自动分类方法及装置
CN104462508A (zh) 基于知识图谱的人物关系搜索方法和装置
CN102945290A (zh) 微博热点话题挖掘装置及方法
CN102982157A (zh) 用于挖掘微博热点话题的装置及方法
GB2509773A (en) Automatic genre determination of web content
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN106021418A (zh) 新闻事件的聚类方法及装置
CN104618132A (zh) 一种应用程序识别规则生成方法和装置
CN103455758A (zh) 恶意网站的识别方法及装置
CN104462504A (zh) 基于搜索中提供推理过程数据的方法和装置
Arshad et al. A multilayered semantic framework for integrated forensic acquisition on social media
CN105095391A (zh) 利用分词程序识别机构名称的装置及方法
CN104331438A (zh) 对小说网页内容选择性抽取方法和装置
CN104933171A (zh) 兴趣点数据关联方法和装置
CN112948664A (zh) 一种敏感词自动处理方法和系统
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
Barbaresi Finding viable seed URLs for web corpora: a scouting approach and comparative study of available sources
CN103399874B (zh) 对同一域名下网页抓取进行优化的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401