CN104699851A - 一种大数据环境下业务标签的扩展方法 - Google Patents
一种大数据环境下业务标签的扩展方法 Download PDFInfo
- Publication number
- CN104699851A CN104699851A CN201510162777.2A CN201510162777A CN104699851A CN 104699851 A CN104699851 A CN 104699851A CN 201510162777 A CN201510162777 A CN 201510162777A CN 104699851 A CN104699851 A CN 104699851A
- Authority
- CN
- China
- Prior art keywords
- url
- keyword
- label
- service
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网数据获取与应用技术领域,提供了一种大数据环境下业务标签的扩展方法,包括:获取实际业务的内容,抽取出一个代表该业务的标签;通过搜索引擎对标签进行检索,获取与该标签相关的关键词和网页地址URL的初始集合;根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出权重大小;判断权重大小是否都符合某一阈值,是否加入到该标签的结果集合下;判断结果集合的规模是否大于或等于规模阈值。本发明具有方便业务人员通过简单的操作就能扩展出业务标签及其所属的关键词和URL,从而大大提高了生产效率,满足各种业务发展的需求的优点。
Description
技术领域
本发明属于互联网数据获取与应用技术领域,特别涉及一种大数据环境下业务标签的扩展方法。
背景技术
在以业务为中心的企业中,由于各种业务的类型、目的和范围都不相同,如何获取、管理和扩展各种不同的业务标签是一个紧迫的问题,具有非常巨大的意义。其中,获取业务标签主要通过简单的关键词提取工具和人工标记,而管理业务标签则主要通过标签分类体系来完成,都不太涉及外部数据源。最重要的一个任务是扩展业务标签下属的实体,例如:关键词和网页地址URL,尚未有成熟的系统。
扩展业务标签存在如下形式:(1)采取人工扩展的形式,不仅需要消耗巨大的人力资源,而且扩展结果还带有较大的主观性。(2)使用程序进行自动化扩展,缺乏必要的外部数据源,而最大的外部数据源就是互联网。如今互联网发展迅速,互联网上有价值的数据正以几何级数增长,互联网数据在实际业务中的应用正在不断地增加。
通过互联网数据来对业务标签进行扩展,其主要方法就是针对性地从互联网上获取与业务相关的关键词和网页地址URL。互联网数据虽多,但是其异构性和复杂性也很显著,这使得数据利用率较难得到保证,因此,扩展任务对系统的处理能力和准确性要求较高,实施起来存在很大的困难,并且目前没有任何一种技术能够实现。
因此,互联网数据获取与应用技术领域急需一种方便业务人员通过简单的操作就能扩展出业务标签及其所属的关键词和URL,从而大大提高了生产效率,满足各种业务发展的需求的大数据环境下业务标签的扩展方法。
发明内容
本发明所要解决的技术问题是业务标签的扩展方法,本方法克服了针对业务标签的人工扩展或无外部数据源的自动化扩展的缺陷,提供了一种大数据环境下业务标签的扩展方法,技术方案如下:
一种大数据环境下业务标签的扩展方法,包括如下步骤:
步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务的标签;
步骤二、通过搜索引擎对步骤一中抽取出的标签进行检索,获取与该标签相关的关键词和网页地址URL的初始集合;
步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出每一个关键词和URL对于该标签的权重大小;
步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签的结果集合下,否则将该关键词或URL丢弃;
步骤五、判断步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开始之前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集合中已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复步骤三至五的步骤。
优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的K中心距算法的是指:如果一个关键词或URL与该标签共同出现的频数越高,则其权重越大,故需要通过搜索引擎获得该关键词或URL与该标签共同出现的频数。
优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的朴素贝叶斯算法是指:如果一个关键词或URL与该标签共同出现的频数越高,且与其他标签共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签共同出现的频数。
优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的点互信息算法是指:如果一个关键词或URL与该标签及其所属的其他关键词和URL共同出现的频数越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知所有关键词和URL共同出现的频数。
本发明的有益效果:
本发明通过设置权重阈值和扩展规模阈值来准确控制每次业务标签扩展的规模,并利用了K中心距算法在小规模扩展时效果较好、朴素贝叶斯算法在中等规模扩展时效果较好、点互信息算法在大规模扩展时效果较好的特点,根据实际扩展规模的要求来运行效果最好的算法,科学地计算了关键词和URL在分类标签下的权重,使得每一次扩展的准确性能够最大化,克服了针对业务标签的人工扩展或无外部数据源的自动化扩展的缺陷,能够适应业务的发展,方便业务人员通过详细描述实际业务的各项属性或者直接将实际业务抽象成标签的形式,基于搜索引擎来获得业务人员所需要的关键词和URL,不需要修改程序,极大地提高了标签的利用率和管理效率,并且能够有效地、稳定地、持续地运转,大大地简化了业务人员的工作流程,满足了市场的需求,具有广泛的适用性。
附图说明
下面结合附图和具体实施方式来详细说明本发明:
图1为一种大数据环境下业务标签的扩展方法的流程图。
具体实施方式
为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
图1为一种大数据环境下业务标签的扩展方法的流程图,一种大数据环境下业务标签的扩展方法,包括如下步骤:
步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务的标签;
上述业务类型、目的和范围,主要由上游企业提供;
上述业务标签抽取主要依赖于中科院分词程序和根据业务类型、目的和范围来人工定义;
步骤二、通过搜索引擎对步骤一中抽取出的标签进行检索,获取与该标签相关的关键词和网页地址URL的初始集合;
上述搜索引擎主要使用百度搜索和360搜索,亦可以使用必应、谷歌或搜狗搜索;
步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出每一个关键词和URL对于该标签的权重大小;
上述K中心距算法的是指:如果一个关键词或URL与该标签共同出现的频数越高,则其权重越大,故需要通过搜索引擎获得该关键词或URL与该标签共同出现的频数;
上述朴素贝叶斯算法的是指:如果一个关键词或URL与该标签共同出现的频数越高,且与其他标签共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签共同出现的频数;
上述点互信息算法的是指:如果一个关键词或URL与该标签及其所属的其他关键词和URL共同出现的频数越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知所有关键词和URL共同出现的频数;
步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签的结果集合下,否则将该关键词或URL丢弃;
步骤五、判断步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开始之前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集合中已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复步骤三至五的步骤。
上述结果集合的规模即扩展任务中通过搜索引擎获得的与该标签相关的关键词数目的上限。
为了便于本领域内的技术人员理解,下面结合具体的实施例对本发明的一种大数据环境下业务标签的扩展方法进行说明:
实施例1:
用户有深度了解与体育彩票相关的实际业务需求,通过抽取以后获得了该业务的标签为“体育彩票”。
首先,对具体数据配置如下:
系统运行参数:
参数名 | 参数值 |
业务标签 | 体育彩票 |
权重阈值 | 10 |
扩展规模阈值 | 1000 |
进一步地,用户采用上述系统运行参数启动系统,即可以获得关键词和URL的扩展结果。为简便起见,此处只列出扩展结果中权重排名前十的关键词和URL如下:
相关关键词 | 权重 |
体彩大乐透 | 240 |
彩票走势图 | 237 |
双色球走势图2 | 235 |
双色球基本走势图 | 232 |
双色球预测 | 229 |
大乐透 | 224 |
大赢家 | 219 |
中国体彩网 | 219 |
福利彩票双色球 | 217 |
七星彩 | 216 |
… | … |
相关URL | 权重 |
http://www.lottery.gov.cn/ | 1073500 |
http://cp.360.cn/?agent=700018 | 978940 |
http://www.zhcw.com/ssq/ | 884000 |
http://trend.baidu.lecai.com/dlt/ | 871800 |
http://trend.baidu.lecai.com/fc3d/ | 800000 |
http://trend.baidu.lecai.com/ssq/ | 800000 |
http://www.zgzcw.com/ | 784500 |
http://cp.360.cn/slt/ | 744500 |
http://www.zhcw.com/ | 697200 |
http://baidu.lecai.com/lottery/draw/ | 684500 |
… | … |
进一步地,判断所有权重大小是否大于权重阈值10,从上表可知列出的所有数据都满足权重阈值要求,加入到该体育彩票的结果集合下;
进一步地,判断步骤四中结果集合的规模是否大于等于扩展规模阈值1000,如果满足则结束工作,完成大数据环境下的业务标签的扩展业务,否则对得到的关键词进行搜索,获得更多的关键词及URL,重复上述计算权重的步骤,直至满足扩展规模阈值的要求为止。
本发明通过设置权重阈值和扩展规模阈值以及根据K中心距、朴素贝叶斯、点互信息算法计算每一个关键词和URL的权重,将权重和权重阈值进行比较,克服了针对业务标签的人工扩展或无外部数据源的自动化扩展的缺陷,能够适应业务的发展,方便业务人员通过详细描述实际业务的各项属性或者直接将实际业务抽象成标签的形式,基于搜索引擎来获得业务人员所需要的关键词和URL,不需要修改程序,极大地提高了标签的利用率和管理效率,并且能够有效地、稳定地、持续地运转,大大地简化了业务人员的工作流程,满足了市场的需求。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.一种大数据环境下业务标签的扩展方法,其特征在于,包括如下步骤:
步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务的标签;
步骤二、通过搜索引擎对所述步骤一中抽取出的标签进行检索,获取与该标签相关的关键词和网页地址URL的初始集合;
步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出每一个关键词和URL对于该标签的权重大小;
步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签的结果集合下,否则将该关键词或URL丢弃;
步骤五、判断所述步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开始之前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集合中已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复所述步骤三至五的步骤。
2.根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述步骤三中的K中心距算法是指,一个关键词或URL与该标签共同出现的频数越高,则其权重越大,故需要通过搜索引擎获得该关键词或URL与该标签共同出现的频数。
3.根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述步骤三中的朴素贝叶斯算法是指,一个关键词或URL与该标签共同出现的频数越高,且与其他标签共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签共同出现的频数。
4.根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述步骤三中的点互信息算法是指,一个关键词或URL与该标签及其所属的其他关键词和URL共同出现的频数越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知所有关键词和URL共同出现的频数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510162777.2A CN104699851A (zh) | 2015-04-08 | 2015-04-08 | 一种大数据环境下业务标签的扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510162777.2A CN104699851A (zh) | 2015-04-08 | 2015-04-08 | 一种大数据环境下业务标签的扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104699851A true CN104699851A (zh) | 2015-06-10 |
Family
ID=53346971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510162777.2A Pending CN104699851A (zh) | 2015-04-08 | 2015-04-08 | 一种大数据环境下业务标签的扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699851A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105706088A (zh) * | 2016-01-31 | 2016-06-22 | 深圳市博信诺达经贸咨询有限公司 | 大数据的应用方法及系统 |
CN106940711A (zh) * | 2017-02-27 | 2017-07-11 | 北京神州绿盟信息安全科技股份有限公司 | 一种url检测方法及检测装置 |
CN107016018A (zh) * | 2015-10-23 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据库索引创建方法及装置 |
CN107402932A (zh) * | 2016-05-20 | 2017-11-28 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN111737400A (zh) * | 2020-06-15 | 2020-10-02 | 上海理想信息产业(集团)有限公司 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
CN112035750A (zh) * | 2020-09-17 | 2020-12-04 | 上海二三四五网络科技有限公司 | 一种用户标签扩展的控制方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020074775A (ko) * | 2001-03-22 | 2002-10-04 | (주)리얼엔터텍 | 인터넷에서의 정보 검색 시스템 및 이를 이용한 정보 검색서비스 방법 |
US6879978B2 (en) * | 2000-10-12 | 2005-04-12 | Hitachi, Ltd. | System and method of searching for electronic data |
CN101604324A (zh) * | 2009-07-15 | 2009-12-16 | 中国科学技术大学 | 一种基于元搜索的视频服务网站的搜索方法及系统 |
CN103699573A (zh) * | 2013-11-28 | 2014-04-02 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签聚类方法和装置 |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
-
2015
- 2015-04-08 CN CN201510162777.2A patent/CN104699851A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879978B2 (en) * | 2000-10-12 | 2005-04-12 | Hitachi, Ltd. | System and method of searching for electronic data |
KR20020074775A (ko) * | 2001-03-22 | 2002-10-04 | (주)리얼엔터텍 | 인터넷에서의 정보 검색 시스템 및 이를 이용한 정보 검색서비스 방법 |
CN101604324A (zh) * | 2009-07-15 | 2009-12-16 | 中国科学技术大学 | 一种基于元搜索的视频服务网站的搜索方法及系统 |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
CN103699573A (zh) * | 2013-11-28 | 2014-04-02 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签聚类方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016018A (zh) * | 2015-10-23 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据库索引创建方法及装置 |
CN105706088A (zh) * | 2016-01-31 | 2016-06-22 | 深圳市博信诺达经贸咨询有限公司 | 大数据的应用方法及系统 |
CN107402932A (zh) * | 2016-05-20 | 2017-11-28 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN107402932B (zh) * | 2016-05-20 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN106940711A (zh) * | 2017-02-27 | 2017-07-11 | 北京神州绿盟信息安全科技股份有限公司 | 一种url检测方法及检测装置 |
CN106940711B (zh) * | 2017-02-27 | 2020-02-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种url检测方法及检测装置 |
CN111737400A (zh) * | 2020-06-15 | 2020-10-02 | 上海理想信息产业(集团)有限公司 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
CN111737400B (zh) * | 2020-06-15 | 2023-06-20 | 上海理想信息产业(集团)有限公司 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
CN112035750A (zh) * | 2020-09-17 | 2020-12-04 | 上海二三四五网络科技有限公司 | 一种用户标签扩展的控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699851A (zh) | 一种大数据环境下业务标签的扩展方法 | |
CN104008109B (zh) | 基于用户兴趣的Web信息推送服务系统 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN102169503A (zh) | 一种获取与用户查询序列相对应的搜索结果的方法与设备 | |
CN103020123B (zh) | 一种搜索不良视频网站的方法 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
JP2018509664A (ja) | モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
CN106875278A (zh) | 基于随机森林的社交网络用户画像方法 | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN102855245A (zh) | 一种用于确定图片相似度的方法与设备 | |
CN107688563B (zh) | 一种同义词的识别方法及识别装置 | |
CN102567392A (zh) | 一种基于时间窗口兴趣主题挖掘的控制方法 | |
CN103020083B (zh) | 需求识别模板的自动挖掘方法、需求识别方法及对应装置 | |
CN103853771B (zh) | 一种搜索结果的推送方法及系统 | |
CN106126681B (zh) | 一种增量式流式数据聚类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150610 |