[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109033358B - 新闻聚合与智能实体关联的方法 - Google Patents

新闻聚合与智能实体关联的方法 Download PDF

Info

Publication number
CN109033358B
CN109033358B CN201810832345.1A CN201810832345A CN109033358B CN 109033358 B CN109033358 B CN 109033358B CN 201810832345 A CN201810832345 A CN 201810832345A CN 109033358 B CN109033358 B CN 109033358B
Authority
CN
China
Prior art keywords
news
entity
name
text
geographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810832345.1A
Other languages
English (en)
Other versions
CN109033358A (zh
Inventor
李辰洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810832345.1A priority Critical patent/CN109033358B/zh
Publication of CN109033358A publication Critical patent/CN109033358A/zh
Application granted granted Critical
Publication of CN109033358B publication Critical patent/CN109033358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种新闻聚合与智能实体关联的方法,通过轮询用户感兴趣的网站上的新增新闻,采用爬虫抓取网页,并利用支持向量机进行0‑1分类以提取新闻正文,对新闻正文进行自然语言处理后,对文本中出现的人物和地理名称在Wikidata知识图谱中搜索对应实体,通过上位词确定实体类型,将新闻六元组(标题,时间,URL,正文,人物实体,地理实体)存入本地文档数据库,在用户搜索相关实体时,列出相关新闻,并通过地图展示关联到Wikida的新闻地点,通过卡片展示关联到Wikida中的人物档案。通过本发明的技术方案,提供了一种关联知识推送的具有背景知识的增强型新闻阅读方式,改善了用户的阅读体验。

Description

新闻聚合与智能实体关联的方法
技术领域
本发明涉及信息检索方法技术领域,尤其涉及一种新闻聚合与智能实体关联。
背景技术
随着互联网Web2.0、社交网络、移动互联网的发展,新闻发生到经过社交网络、门户网站、主流媒体的传播几乎成为秒级事件,特别是机器参与新闻的采集、生成和转发,导致了海量新闻充斥网络,使用户处于数据汪洋之中,难以发现有价值的新闻数据。实际上,在舆情监控领域,用户关注的是与自身密切相关的主题和关键词的新闻传播与事件影响力。对于普通用户,希望通过聚合新闻,了解天下大事,需要读取新闻的同时了解相关的新闻发生地理信息和人物信息,以洞悉新闻事件的背景资料和关联知识。因此,通过知识图谱实现文本的智能实体标注提供有背景知识的新闻成为一种带有普遍性的用户需求。
(1)国内著名的新闻聚合网站有百度新闻、今日头条、UC头条、天天快报、电力头条等。这些网站通过爬虫聚合全网新闻数据,通过算法和人工推荐,实现用户的定制化新闻阅读,提高信息获取效率。该方法存在对用户个体兴趣和群体点击的过拟合,导致推荐有效性不高,存在泛娱乐化问题。此外,这些方法仅提供了新闻正文,没能有效利用新闻背景信息进行信息增强和可视化展示。
(2)带有噪声抑制的主题爬虫研究概况。2014年斯坦福大学的Ziyan Zhou等采用DOM树标签、CSS样式和页面元素几何特征输入SVM分类器识别网页正文。2015年,Mozilla公司的Matthew E.Peters等人采用页面元素的文本统计特征进行线性分类,达到了商业产品级的使用性能,并作为新功能嵌入了Mozilla公司的Firefox浏览器。
支持向量机(SVM)基于结构风险最小化理论在特征空间中构建最优超平面,使得学习器得到全局最优化。支持向量机属于统计学习方法,建立在坚实的理论基础上,有着不需要特定领域的专业知识、易于迁移、适合高维数据的处理、能解决小样本问题、泛化性能较好等优点,在文本分类、图像识别等分类问题中有良好的表现。
实际上,正文提取就是在XML/HTML上的文本分类,通常正文文本HTML元素具有段落元素多、元素样式类中包含类似“content”“body”关键词、页面几何占比大的特征。Christian Kohlschütter等开发的Boilerpipe正文提取框架,基于SVM提取正文,并提供API。
(3)命名实体识别技术。斯坦福大学自然语言处理组的Jenny Rose Finkel等采用具有全局特征的条件随机场(CRF)实现了命名实体识别,具有业界领先的识别性能。
国内,杨东华等在大数据清洗过程优化中计算实体相似度,采用并行实体聚类,实现实体识别。王宏志李亚坤等研究了数据质量管理中的实体识别,用于错误检测、不一致数据发现等,将传统文本实体识别推广到XML数据、图数据和复杂网络上。孙琛琛等研究了面向关联数据的联合式实体识别,将相似度算法应用在对象图上,迭代地收缩相似节点,实现实体聚类。寇月等利用关联实体识别技术对异构网络中主题相关的实体检测并整合,更好地帮助用户理解搜索目标。高俊平等基于条件随机场研究了面向中文维基百科领域知识的演化关系抽取方法,利用语法分析特征,挖掘演化关系模式,构建演化关系推理模型。
(4)知识图谱技术。2007年,美国公司Metaweb创立了开放知识图谱Freebase,其采用实体关系模型,通过维基百科词条生成高度结构化的数据,后被Google收购,一度成为世界上最大的知识图谱,但该项目在2014年停止运营。2012年,Wikimedia基金会创立了Wikidata(维基数据)计划,透过与维基百科的开放互动接口,实现维基百科半结构化数据的结构化重建,是目前全世界最大的开放知识图谱。Wikidata是基于群智完成的知识图谱,错误率较低,且提供了易用API,目前包含5100万实体。Wikidata全部数据可以下载,以CC0协议发布,放弃著作权,允许复制、修改、发行和演绎,属于公共领域知识图谱。国内百度基于搜索引擎的大数据,建立了知识图谱,并应用于智能问答、实体推荐、对话系统和智能客服。
(5)MongoDB文档数据库。MongoDB是由MongoDB.Inc开发的基于JSON的文档数据库,相较传统RDBMS,MongoDB具有无模型、半结构化的特点,更适合新闻文本存储任务。
(6)地理信息可视化技术。D3.JS是全世界最著名的开源可视化工具包,通过TopoJSON传入地图边界数据,标注地理位置。ECharts是百度开源的数据可视化工具包,也可以完成上述功能。
发明内容
针对上述问题中的至少之一,本发明提供了一种新闻聚合与智能实体关联的方法,通过轮询用户感兴趣的网站上的新增新闻,采用爬虫抓取网页,并利用支持向量机进行0-1分类以提取新闻正文,对新闻正文进行自然语言处理后,对文本中出现的人物和地理名称在Wikidata知识图谱中搜索对应实体,通过上位词确定实体类型,将新闻六元组(标题,时间,URL,正文,人物实体,地理实体)存入数据库,在用户搜索相关实体时,列出相关新闻,并通过地图展示关联到Wikidata的新闻地点,通过卡片展示关联到Wikidata的人物档案,提供了一种关联知识推送的具有背景知识的增强型新闻阅读方式。
为实现上述目的,本发明提供了一种新闻聚合与智能实体关联的方法,包括:对所配置的RSS新闻源进行轮询爬取,获取所述RSS新闻源的新闻列表,并遍历所述新闻列表中的每条新闻生成对应的新闻三元组;对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页;利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文;对所述新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串;在Wikidata知识图谱中搜索与所述词串中的人物名称和地理名称对应的实体,实现所述人物名称和所述地理名称与Wikidata中所述实体的关联;将所述新闻网页对应的新闻六元组存储入文档型数据库中;在接收到用户对所述实体的搜索指令时,列出所述新闻网页,并通过地图展示对应的地理名称关联的Wikidata中地点信息、通过卡片展示所述Wikidata中对应的人物名称资料,其中,所述新闻三元组包括标题、时间和URL,所述新闻六元组包括标题、时间、URL、正文、人物实体和地理实体。
在上述技术方案中,优选地,所述对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页具体包括:计算所述新闻列表中的每条新闻对应的URL计算哈希值,查询本地爬取列表的哈希表中是否存在相同哈希值;若本地爬取列表中不存在,则查询所述文档型数据库中是否存在该新闻,若所述文档型数据库和所述本地爬取列表中均不存在该新闻,则将该新闻插入爬取队列中进行爬取,否则处理下一条新闻。
在上述技术方案中,优选地,所述利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文具体包括:向该新闻的URL请求HTML格式的新闻网页,并通过网页降噪规则去除页面噪声;利用支持向量机对去除噪声后的页面元素进行0-1分类识别,并提取新闻正文。
在上述技术方案中,优选地,所述对所述新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串具体包括:采用Stanford NLP自然语言处理框架对所述新闻正文进行分词、断句、词性标注、命名实体识别,以提取人物名称和地理名称。
在上述技术方案中,优选地,所述在Wikidata知识图谱中搜索与所述词串中的人物名称和地理名称对应的实体,实现所述人物名称和所述地理名称与Wikidata中所述实体的关联具体包括:在Wikidata中利用HTTP API接口向Wikidata提取人物名称和地理名称对应的实体,并通过该实体的上位词进行消歧;在所述人物名称和人物实体之间、所述地理名称和地理实体之间分别建立映射关系,实现所述人物名称和所述地理名称与Wikidata中对应实体的关联,其中,带有经纬信息的实体也作为地理实体。
在上述技术方案中,优选地,在将所述新闻网页对应的新闻六元组存储入文档型数据库的过程中,将所述新闻网页的原始正文和转化出的具有实体标签的词串同样存入所述文档型数据库。
在上述技术方案中,优选地,所述地图为世界地图或局部地区地图,所述人物名称资料包括人物照片、人物姓名和人物简介。
在上述技术方案中,优选地,所述对新闻源的轮询爬取间隔为5分钟。
在上述技术方案中,优选地,在接收到用户对所述实体的搜索指令时,根据时间由新到旧的列出所述新闻网页。
在上述技术方案中,优选地,所述知识图谱为维基知识图谱Wikidata,所述文档型数据库选择MongoDB。
与现有技术相比,本发明的有益效果为:通过轮询用户感兴趣的网站上的新增新闻,采用爬虫抓取网页,并利用支持向量机进行0-1分类以提取新闻正文,对新闻正文进行自然语言处理后,对文本中出现的人物和地理名称在Wikidata知识图谱中搜索对应实体,通过上位词确定实体类型,将新闻六元组(标题,时间,URL,正文,人物实体,地理实体)存入数据库,在用户搜索相关实体时,列出相关新闻,并通过地图展示新闻地点,通过卡片展示关联到的人物档案,提供了一种关联知识推送的具有背景知识的增强型新闻阅读方式。
附图说明
图1为本发明一种实施例公开的新闻聚合与智能实体关联的方法的流程示意图;
图2为本发明一种实施例公开的新闻聚合与智能实体关联的部署环境示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种新闻聚合与智能实体关联的方法,包括:步骤S101,对所配置的RSS新闻源进行轮询爬取,获取RSS新闻源的新闻列表,并遍历新闻列表中的每条新闻生成对应的新闻三元组;步骤S102,对新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页;步骤S103,利用支持向量机对新闻网页进行分类识别,以提取新闻正文;步骤S104,对新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串;步骤S105,在Wikidata知识图谱中搜索与词串中的人物名称和地理名称对应的实体,实现人物名称和地理名称与Wikidata中实体的关联;步骤S106,将新闻网页对应的新闻六元组存储入文档型数据库中;步骤S107,在接收到用户对实体的搜索指令时,列出新闻网页,并通过地图展示对应的地理名称关联到Wikidata的地点信息、通过卡片展示Wikidata中对应的人物名称资料,其中,新闻三元组包括标题、时间和URL,新闻六元组包括标题、时间、URL、正文、人物实体和地理实体。
在该实施例中,根据用户兴趣,配置新闻网站来源。配置支持RSS的新闻网站列表,默认配置腾讯新闻、百度新闻、新浪新闻,也可配置其他支持RSS格式的新闻源,通过轮询RSS新闻源,计算新闻网址的哈希值去重复,采用爬虫增量抓取新闻网页。其中,对RSS新闻源的轮询时间优选为5分钟。
具体地,爬虫模块基于Java实现,数据库采用MongoDB,采用Node.JS实现了HTTP面向前端的接口,前端采用Facebook React和D3.JS实现交互界面和可视化,本发明提出的方法搭建的系统部署在微软WindowsAzure服务器上,访问地址http://analy.news/。系统爬虫模块包括:5个包、15个类、7个内部依赖关系。
爬虫模块的配置采用YAML(YAML Ain't Markup Language)格式,其中各配置项为:Delay:配置项指两次爬取的休息时间,以毫秒为单位,默认五分钟;Concurrent:配置项指自然语言分析器线程池的并行线程数,默认为4个线程;MongoUri和database:配置项指MongoDB数据库的地址和数据库名,数据库默认端口为27017,采用了本地部署的数据库;Cache:配置项是本地最近爬取列表的长度,默认为1024,该值大小应该略大于所有RSS新闻源新闻列表的总长,减少缓存未命中情况下的数据库查询次数;Feeds:配置项为RSS新闻源列表,每个新闻源有三个属性:name名称、url新闻源地址、lang新闻源语言,新闻源语言代码遵循RFC5646规范,如简体中文为zh-Hans。
爬虫模块的最外层布局包括crawler、analyzer、model、mongo、tagger五个包、ConfigManager类和config.Config一个依赖类。其中,Crawler包实现了爬虫主函数;Analyzer包实现了新闻的正文提取、去重、分析、入库工作流;Model包包含了所有爬虫用到的所有POJO格式(Plain Ordinary Java Object,简单的Java对象)数据模型类;Mongo包实现了MongoDB数据库增删改查辅助代码;Tagger包实现了自然语言处理、实体关联主要算法。
ConfigManager为配置管理器类,实现了YAML格式爬虫配置的读取,通过单例模式向其他程序提供程序运行过程中唯一的model.Config外部类实例。crawler包内部布局中,共有2个类,2个依赖类。Crawler类为整个项目的主类,包含一个入口点程序,引导读取配置文件、连接数据库、配置定时爬取任务,其依赖analyzer.Analyzer和mongo.MongoManager两个类。CrawlerJob类实现了定时轮询新闻源,并把所有新闻放入任务队列,供分析器处理。
MongoDB数据库模型中,model包内部布局共有6个类。News类为单条新闻的数据模型,包括数据库id、基于url哈希的全局唯一标识uuid、新闻url、新闻标题title、新闻纯文本正文content、新闻语言lang、新闻发布日期pubDate、经过自然语言处理标注的新闻正文tagged、正文中出现的地理实体gpeTag、正文中出现的人物实体personTag。
配置管理的各个数据模型中:Config类为配置文件数据模型;Feed类为配置文件中单个新闻源的数据模型,包括名称name,新闻源RSS端点url,新闻源语言lang;GeoEntity类为地理实体数据模型,包括该实体的Wikidata知识图谱唯一标识id、经度longitude、维度latitude、别名names、出现次数hits;PersonEntity类为人物实体数据模型,包括该实体的Wikidata知识图谱唯一标识id、别名names、出现次数hits;Term类为经过自然语言处理标注的新闻中单个词的数据模型,包括词组n、识别出的实体类型t。
在该实施例中,通过HTTP协议向当前RSS源请求RSS XML,该XML描述了该新闻源最近发布的新闻列表。遍历新闻列表,对每条新闻生成新闻三元组(标题,时间,URL)。对于当前RSS源中的每条新闻依次处理,该源中新闻处理完毕后,请求下一个RSS源。
在上述实施例中,优选地,对新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页具体包括:计算新闻列表中的每条新闻对应的URL计算哈希值,查询本地爬取列表的哈希表中是否存在相同哈希值;若本地爬取列表中不存在,则查询文档型数据库中是否存在该新闻,若文档型数据库和本地爬取列表中均不存在该新闻,则将该新闻插入爬取队列中进行爬取,否则处理下一条新闻。
其中,具体的,新闻列表中的新闻可能是之前已经抓取过的,对三元组中URL计算哈希,利用哈希值在本地爬取列表构成的哈希表中寻找对应项目,若本地列表中不存在该新闻,则向MongoDB发起查询,请求数据库中是否存在该新闻。若该新闻已被爬取过,则丢弃并处理下一条新闻;若没有爬取过,插入分析队列,进行后续分析。利用哈希表缓存,显著减少了数据库去重查询,降低了后端数据库负载,从而提高了去重效率。
mongo包内部仅有1个类。MongoManager类通过MongoDB的JavaAPI实现了对MongoDB数据库的操作,包括连接数据库、checkExist查询某条新闻是否已收录、insertNews插入一条新闻。对于查询收录,实现了基于LRU(Least recently used,最近最少使用)的本地缓存以提高查询性能。
在上述实施例中,优选地,利用支持向量机对新闻网页进行分类识别,以提取新闻正文具体包括:向该新闻的URL请求HTML格式的新闻网页,并通过Adblock提供的网页降噪规则去除页面中广告、视频、动态图片、Flash控件、Java Applet控件等页面噪声;将剩余页面元素输入SVM分类器,利用支持向量机对去除噪声后的页面元素进行0-1分类识别,并提取新闻正文,形成新闻四元组(标题,时间,URL,正文)。
在上述实施例中,优选地,对新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串具体包括:采用Stanford NLP自然语言处理框架对新闻正文进行分词、断句、词性标注、命名实体识别,以提取人物名称和地理名称,将非结构化文本流转化为有实体标签的词串。
例如:
当地时间5月5日,中国赠送马克思雕像在德国揭幕。
经分词、断句、词性标注、命名实体识别后得到:
当地/时间/5月/5日/,/中国/赠送/马克思/雕像/在/德国/揭幕/。
analyzer包的内部共有2个类,1个依赖类。Analyzer类用于接收上游Crawler产生的单条新闻任务,加入到任务队列中,并通过AnalyzerJob类描述的过程进行处理。AnalyzerJob类调用MongoManager类实现了新闻去重,调用Boilerpipe正文提取库实现了正文提取,调用tagger包下的各个标注算法实现了对单条新闻的分析,最后将新闻插入数据库。
在上述实施例中,优选地,在Wikidata知识图谱中搜索与词串中的人物名称和地理名称对应的实体,实现人物名称和地理名称与Wikidata中实体的关联具体包括:在Wikidata中利用HTTP API接口向Wikidata提取人物名称和地理名称对应的实体,并通过该实体的上位词进行消歧;在人物名称和人物实体之间、地理名称和地理实体之间分别建立映射关系,实现人物名称和地理名称与Wikidata中对应实体的关联,其中,带有经纬信息的实体也作为地理实体。
具体地,知识图谱为维基数据Wikidata时,利用Wikidata知识图谱,完成人物、地理实体消歧,建立名称-实体的映射。对于词串中识别出的人名、地名,利用Wikidata HTTPAPI向知识图谱发起请求,搜索该名称相关的实体。对于识别出的人名,从返回的实体列表中寻找具有上位词“人”的实体;对于识别出的地名,从返回的实体列表中寻找具有上位词“地点”或具有经纬度数据的实体。
这种简单实体消歧,可以通过知识图谱上位词分类的方法,使人名“马克思”不会识别成抽象实体“马克思主义”。构造名称-实体映射,形成新闻六元组(标题,时间,URL,正文,人物列表,地理列表),存入MongoDB数据库。表1展示了一个短新闻的数据库条目。
表1存储在MongoDB中的新闻六元组
Figure BDA0001743791860000091
Figure BDA0001743791860000101
tagger包用于实现NLP与智能实体关联相关算法,包括3个类。NERTagger类调用StanfordNLP包的API实现了对新闻正文的分词、断句、词性标注、命名实体识别。PersonMapper类调用Wikidata知识图谱API实现了对新闻正文人物实体的智能消歧。GPEMapper类调用Wikidata知识图谱API实现对新闻正文地理实体的智能消歧。
Wikidata的HTTP API入口为:https://www.wikidata.org/w/api.php,以“马克思”为例,如果要访问“马克思”的全部实体信息,其在Wikidata中的实体ID为Q9061,访问:api.php?action=wbgetclaims&entity=Q9061&format=json,会返回一个JSON文档。
Wikidata的知识图谱模型分为实体和属性两类,每个实体具有一个以Q开头的编码,如“马克思”的实体编码为Q9061,“德国”为Q183,每个属性具有一个以P开头的编码,如“性质”属性为P31,“地理坐标”属性为P625。
在该实施例中,优选地,可采用Facebook的React前端框架和D3.JS实现新闻展示。React视图采用包含以自定义HTML标记规定的其他组件来渲染组件。React提供了一种子组件不能直接影响外层组件“data flows down”的模型,数据改变时对HTML文档及时更新,实现与单页应用中组件之间干净分离。系统前端采用Facebook React和D3.JS实现。表2展示了项目前端的依赖,bootstrap为前端UI框架、D3为前端可视化框架、fetch-jsonp用于使FetchAPI兼容JSONP请求规范、leaflet用于展示用户可读的时间。
表2一种新闻聚合与智能实体关联方法的前端依赖软件列表
Figure BDA0001743791860000111
通过W3C规定的HTML5下一代资源获取接口Fetch API,浏览器端的代码向Node.JS实现的REST API发起请求,获取数据库中对应的新闻条目。在前端通过fetch-jsonp库实现与Wikidata HTTP API的基于JSONP通信规范的跨域通信,向Wikidata请求新闻中实体的图片和属性描述。
如图2所示为本发明提供的新闻聚合与智能实体关联的方法的部署的软件栈,优选地,本方法实现的系统部署在云服务器上,双核CPU,内存2.5G,安装Ubuntu 16.04LTS操作系统,绑定域名analy.news,需要安装的软件包括:MongoDB3.6、OpenJDK8、Node.JS 9、Lighttpd1.4。
优选地,用户访问网站时,首屏默认随机展示一条新闻的正文、地理分布和人物卡片。用户搜索人名、地名时,利用Wikidata HTTP API向知识图谱发起请求,搜索该名称相关的实体,并从数据库中取出相关新闻。
在上述实施例中,优选地,在将新闻网页对应的新闻六元组存储入MongoDB文档型数据库的过程中,将新闻网页的原始正文和转化出的具有实体标签的词串同样存入MongoDB文档型数据库。
在上述实施例中,优选地,地图为世界地图或局部地区地图,人物名称资料包括人物照片、人物姓名和人物简介。
在上述实施例中,优选地,对新闻源的轮询爬取间隔为5分钟。
在上述实施例中,优选地,在接收到用户对实体的搜索指令时,根据时间由新到旧的列出新闻网页。
以上所述为本发明的实施方式,根据本发明提出的新闻聚合与智能实体关联的方法,通过轮询用户感兴趣的网站上的新增新闻,采用爬虫抓取网页,并利用支持向量机进行0-1分类以提取新闻正文,对新闻正文进行自然语言处理后,对文本中出现的人物和地理名称在Wikidata知识图谱中搜索对应实体,通过上位词确定实体类型,将新闻六元组(标题,时间,URL,正文,人物实体,地理实体)存入数据库,在用户搜索相关实体时,列出相关新闻,并通过地图展示新闻地点,通过卡片展示关联到的人物档案,提供了一种关联知识推送的具有背景知识的增强型新闻阅读方式,改善了用户的阅读体验。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种新闻聚合与智能实体关联的方法,其特征在于,包括:
对所配置的RSS新闻源进行轮询爬取,获取所述RSS新闻源的新闻列表,并遍历所述新闻列表中的每条新闻生成对应的新闻三元组;
对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页;
利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文;
采用Stanford NLP自然语言处理框架对所述新闻正文进行分词、断句、词性标注、命名实体识别的自然语言处理,将非结构化文本流转化为具有实体标签的词串,以提取人物名称和地理名称;
在Wikidata知识图谱中搜索与所述词串中的人物名称和地理名称对应的实体,实现所述人物名称和所述地理名称与Wikidata中所述实体的关联,具体包括:
在Wikidata中利用HTTP API接口向Wikidata提取人物名称和地理名称对应的实体,并通过该实体的上位词进行消歧;
在所述人物名称和人物实体之间、所述地理名称和地理实体之间分别建立名称-实体的映射关系,实现所述人物名称和所述地理名称与Wikidata中对应实体的关联,其中,带有经纬信息的实体也作为地理实体;将所述新闻网页对应的新闻六元组存储入文档型数据库中;
在接收到用户对所述实体的搜索指令时,列出所述新闻网页,并通过地图展示对应的地理名称所关联的Wikidata中地点信息、通过卡片展示所述Wikidata中对应的人物名称资料,
其中,所述新闻三元组包括标题、时间和URL,所述新闻六元组包括标题、时间、URL、正文、人物实体和地理实体。
2.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页具体包括:
计算所述新闻列表中的每条新闻对应的URL计算哈希值,查询本地爬取列表的哈希表中是否存在相同哈希值;
若本地爬取列表中不存在,则查询所述文档型数据库中是否存在该新闻,若所述文档型数据库和所述本地爬取列表中均不存在该新闻,则将该新闻插入爬取队列中进行爬取,否则处理下一条新闻。
3.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文具体包括:
向该新闻的URL请求HTML格式的新闻网页,并通过网页降噪规则去除页面噪声;
利用支持向量机对去除噪声后的页面元素进行0-1分类识别,并提取新闻正文。
4.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,在将所述新闻网页对应的新闻六元组存储入文档型数据库的过程中,将所述新闻网页的原始正文和转化出的具有实体标签的词串同样存入所述文档型数据库。
5.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述地图为世界地图或局部地区地图,所述人物名称资料包括人物照片、人物姓名和人物简介。
6.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述对新闻源的轮询爬取间隔为5分钟。
7.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,在接收到用户对所述实体的搜索指令时,根据时间由新到旧的列出所述新闻网页。
8.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述知识图谱为维基知识图谱Wikidata,所述文档型数据库选择MongoDB。
CN201810832345.1A 2018-07-26 2018-07-26 新闻聚合与智能实体关联的方法 Active CN109033358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810832345.1A CN109033358B (zh) 2018-07-26 2018-07-26 新闻聚合与智能实体关联的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810832345.1A CN109033358B (zh) 2018-07-26 2018-07-26 新闻聚合与智能实体关联的方法

Publications (2)

Publication Number Publication Date
CN109033358A CN109033358A (zh) 2018-12-18
CN109033358B true CN109033358B (zh) 2022-06-10

Family

ID=64645532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810832345.1A Active CN109033358B (zh) 2018-07-26 2018-07-26 新闻聚合与智能实体关联的方法

Country Status (1)

Country Link
CN (1) CN109033358B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670099A (zh) * 2018-12-21 2019-04-23 全通教育集团(广东)股份有限公司 基于教育网络信息主题采集方法
CN110275935A (zh) * 2019-05-10 2019-09-24 平安科技(深圳)有限公司 政策信息的处理方法、装置、及存储介质、电子装置
CN110472066B (zh) * 2019-08-07 2022-03-25 北京大学 一种城市地理语义知识图谱的构建方法
CN111431962B (zh) * 2020-02-20 2021-10-01 北京邮电大学 基于情景感知计算的跨域资源接入物联网服务发现方法
CN111324828B (zh) * 2020-02-21 2023-04-28 上海软中信息技术有限公司 一种科技新闻大数据可视化互动式显示系统及方法
CN111753197B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 新闻要素的提取方法、装置、计算机设备和存储介质
CN111901450B (zh) * 2020-07-15 2023-04-18 安徽淘云科技股份有限公司 实体的地址确定方法、装置、设备及存储介质
CN111881277A (zh) * 2020-07-27 2020-11-03 新华智云科技有限公司 多维度高度可定制的新闻聚合方法
CN112328876B (zh) * 2020-11-03 2023-08-11 平安科技(深圳)有限公司 基于知识图谱的电子卡片生成推送方法、装置
CN112307364B (zh) * 2020-11-25 2021-10-29 哈尔滨工业大学 一种面向人物表征的新闻文本发生地抽取方法
CN113626668B (zh) * 2021-07-02 2024-05-14 武汉大学 一种面向地图的新闻多尺度可视化方法
CN113626536B (zh) * 2021-07-02 2023-08-15 武汉大学 一种基于深度学习的新闻地理编码方法
CN113609309B (zh) * 2021-08-16 2024-02-06 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN114969236B (zh) * 2022-07-25 2022-11-25 倍智智能数据运营有限公司 一种基于React实现自定义地图标注的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN105022827A (zh) * 2015-07-23 2015-11-04 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN105022827A (zh) * 2015-07-23 2015-11-04 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN106095762A (zh) * 2016-02-05 2016-11-09 中科鼎富(北京)科技发展有限公司 一种基于本体模型库的新闻推荐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于新闻网页主题要素的网页去重方法研究;王鹏;《计算机工程与应用》;20071203;全文 *
网页去重策略;高凯;《上海交通大学学报》;20060531;全文 *

Also Published As

Publication number Publication date
CN109033358A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US10235681B2 (en) Text extraction module for contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US8554800B2 (en) System, methods and applications for structured document indexing
US9990422B2 (en) Contextual analysis engine
CN105706080B (zh) 扩增并呈现捕获的数据
US9122769B2 (en) Method and system for processing information of a stream of information
US20130031087A1 (en) Systems and methods for contextual personalized searching
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US20080098300A1 (en) Method and system for extracting information from web pages
US20150067476A1 (en) Title and body extraction from web page
US8984414B2 (en) Function extension for browsers or documents
WO2010042199A1 (en) Indexing online advertisements
JP2006522381A (ja) 地域情報検索結果の提供方法およびシステム
US20150287047A1 (en) Extracting Information from Chain-Store Websites
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US20090083266A1 (en) Techniques for tokenizing urls
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
US9465814B2 (en) Annotating search results with images
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
Ly et al. Automated information extraction from web APIs documentation
JP2010128917A (ja) 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
JPWO2018056299A1 (ja) 情報収集システム、情報収集方法、及び、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant