[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102214208B - 一种基于非结构化文本生成结构化信息实体的方法与设备 - Google Patents

一种基于非结构化文本生成结构化信息实体的方法与设备 Download PDF

Info

Publication number
CN102214208B
CN102214208B CN201110107222.XA CN201110107222A CN102214208B CN 102214208 B CN102214208 B CN 102214208B CN 201110107222 A CN201110107222 A CN 201110107222A CN 102214208 B CN102214208 B CN 102214208B
Authority
CN
China
Prior art keywords
classification
centre word
attribute
information entity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110107222.XA
Other languages
English (en)
Other versions
CN102214208A (zh
Inventor
王京津
夏寅
耿磊
王坤
陆海霞
曹建栋
严孙荣
肖琦
左莉
苏上海
李博
王丽宝
李永强
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110107222.XA priority Critical patent/CN102214208B/zh
Publication of CN102214208A publication Critical patent/CN102214208A/zh
Application granted granted Critical
Publication of CN102214208B publication Critical patent/CN102214208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种基于非结构化文本生成结构化信息实体的方法与设备。其中,信息实体生成设备获取与中心词相关的非结构化文本;基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;根据所述分类,生成所述中心词的结构化信息实体。与现有技术相比,本发明根据中心词的非结构化文本,生成该中心词对应的结构化信息实体,由此便于对该中心词所包含的内容进行数据挖掘,并降低中心词内容维护的成本。

Description

一种基于非结构化文本生成结构化信息实体的方法与设备
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种基于非结构化文本生成结构化信息实体的方法与设备。
背景技术
在现有技术中,诸如维基百科、互动百科、搜搜百科等网络百科的词条主要基于非结构化的文本进行描述,其中,所述“非结构化文本”意指不方便用数据库二维逻辑表来表现的文本数据,由此导致百科词条所包含的大量文本内容难于被分析与维护,而结构化文本则可通过数据库的二维表结构来逻辑表达,因而便于文本内容的维护及基于该结构化文本进行数据挖掘。
因此,需要提供一种能够基于非结构化文本自动生成结构化信息实体的方法。
发明内容
本发明的目的是提供一种基于非结构化文本生成结构化信息实体的方法与设备。
根据本发明的一个方面,提供一种基于非结构化文本生成结构化信息实体的方法,其中,该方法包括以下步骤:
a获取与中心词相关的非结构化文本;
b基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;
c根据所述分类,生成所述中心词的结构化信息实体。
根据本发明的一个方面,提供一种基于非结构化文本生成结构化信息实体的设备,其中,该设备包括:
文本获取装置,用于获取与中心词相关的非结构化文本;
分类获取装置,用于基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;
生成装置,用于根据所述分类,生成所述中心词的结构化信息实体。
与现有技术相比,本发明根据中心词的非结构化文本,生成该中心词对应的结构化信息实体,由此便于对该中心词所包含的内容进行数据挖掘,并降低中心词内容维护的成本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面基于非结构化文本生成结构化信息实体的设备示意图;
图2示出根据本发明另一个方面基于非结构化文本生成结构化信息实体的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面基于非结构化文本生成结构化信息实体的设备示意图。信息实体生成设备1包括文本获取装置11、分类获取装置12和生成装置13。在此,信息实体生成设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,文本获取装置11获取与中心词相关的非结构化文本。更具体地,文本获取装置11定期或应事件触发实时地获取与中心词相关的非结构化文本,例如根据中心词,在中心词数据库中进行匹配查询,以获得与该中心词的非结构化文本,或者定期地通过约定的通信方式直接从第三方设备读取该中心词的非结构化文本。在此,所述“中心词”意指该非结构化文本紧紧围绕进行阐述的词语。例如,假设信息实体生成设备1为网络百科服务器,文本获取装置11根据预置的中心词列表中的中心词“周杰伦”在中心词数据库中进行匹配查询,获得该中心词的非结构化文本内容为“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业,出演电影不能说的秘密”。再如,文本获取装置11按一定周期,将预置的中心词作为输入参数定期地通过调用设定的应用编程接口(API)向第三方设备发送获取该中心词的非结构化文本的请求,并接收该第三方设备基于该请求返回的非结构化文本。在此,上述中心词数据库用于存储已存在的所有中心词的相关信息,该中心词数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取中心词的非结构化文本的方式仅为举例,其他现有的或今后可能出现的获取中心词的非结构化文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,分类获取装置12基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类。具体地,分类获取装置12例如基于利用诸如决策树、支持向量机(SVM)等机器学习方法而获得的用于对语料所属分类进行分类预测的预定分类模型,对文本获取装置11所提供的中心词的非结构化文本进行分类分析,获得该非结构化文本所属不同分类的概率,并据此获取该中心词的分类,或者将文本获取装置11所提供的中心词的非结构化文本在如分类数据库的简单分类模型中进行匹配查询,以获得该中心词的分类。例如,分类获取装置12根据文本获取装置11获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业,出演电影不能说的秘密”,在由第三方设备提供的分类模型中进行分类分析,获得该中心词属于“歌手/歌唱家”分类的概率为0.9,属于“演员”分类的概率为0.7,属于其他分类的概率小于0.1,据此将所属概率最大的“歌手/歌唱家”作为“周杰伦”的分类。再如,分类获取装置12对文本获取装置11获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业。”利用正向最大匹配分词算法对该非结构化文本进行分词处理,获得的分词包括“中国”,“台湾”,“流行歌手”,“音乐专辑”,“电影”等,将该些分词作为分类关键词在分类数据库中进行匹配查询,以获得各分类关键词所对应的分类,并将其作为中心词所属的分类如“歌手/歌唱家”,“演员”和“导演”。在此,上述分类数据库中已预置分类关键词与分类的映射关系,例如关键词“歌手”与分类“歌手/歌唱家”相对应,关键词“电影”与分类“演员”相对应,关键词“电影”还可与“导演”相对应。本领域技术人员应能理解上述获取中心词的分类的方式仅为举例,其他现有的或今后可能出现的获取中心词的分类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,生成装置13根据所述分类,生成所述中心词的结构化信息实体。具体地,生成装置13根据分类获取装置12获得的中心词的分类,获得与该分类相对应的预定义信息实体数据结构,并据此生成该中心词的结构化信息实体。在此,所述“信息实体”意指具有结构化特征的数据,包括但不限于网络百科中的词条,电子商务网站中的商品信息,电子图书馆中的图书条目,电子期刊网站中的期刊、论文信息等。例如,假设分类获取装置12获得的中心词“七里香”的分类为“音乐专辑”,生成装置13根据该分类获得预置的与“音乐专辑”分类相对应的信息实体数据结构,其中包括属性“专辑名称”,“表演者”,“发行时间”,“发行公司”,“专辑曲目”等,并基于该数据结构生成“七里香”的信息实体。再如,假设分类获取装置12获得的中心词“周杰伦”的分类为“歌手/歌唱家”,生成装置13根据该分类,在属性模板库中进行匹配查询以获得该分类所对应的一个或多个属性模板,如“发行音乐专辑”、“所获音乐奖项”,“举办演唱会”等,然后生成包含该(等)属性模板的中心词“周杰伦”的信息实体。在此,所述“属性模板”包括与该分类相对应的一个或多个特定属性,用以描述属于该分类的信息实体的某一个方面的相关信息。在此,所述“属性”意指用于描述信息实体信息项的最小单位,例如,属性模板“发行音乐专辑”用于描述分类为“歌手/歌唱家”的信息实体“周杰伦”发行的所有音乐专辑信息,其包括属性“发行专辑名称”、“发行时间”、“曲目名称”等。在此,上述属性模板库用于存储分类与该分类相对应的已有属性模板的映射信息,该属性模板库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述生成结构化信息实体的方式仅为举例,其他现有的或今后可能出现的生成结构化信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
优选地,文本获取装置11和分类获取装置12和生成装置13之间是持续不断地工作。具体地,文本获取装置11获取与中心词相关的非结构化文本;随后,分类获取装置12基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;接着,生成装置13根据所述分类,生成所述中心词的结构化信息实体;在此,本领域技术人员应理解“持续”是指各装置分别按照设定的或实时调整的工作模式要求进行与中心词相关的非结构化信息实体的获取、中心词分类的获取、及结构化信息实体的生成,直至文本获取装置11在较长时间内停止对与中心词相关的非结构化文本的获取。
优选地,分类获取装置12还包括分词获取单元(未示出)和第一获取单元(未示出),其中,分词获取单元对所述非结构文本进行分词处理,获得多个分词;接着,第一获取单元基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词的分类。具体地,分词获取单元例如通过诸如正向最大匹配等分词算法对文本获取装置11获取的与中心词相关的非结构化文本进行分词处理,获得该非结构文本的多个分词;然后,第一获取单元基于该预定分类模型,例如对分词获取单元获得的该些分词进行特征提取,获得多条特征信息,然后对该多条特征进行权重计算,并基于加权的该多条特征对各分词进行分类预测,据此获得该中心词的分类。例如,分词获取单元对文本获取装置11获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾的流行歌手...”利用正向最大匹配分词算法对该非结构化文本进行分词处理,获得的分词结果为“周杰伦/是/中国/台湾/的/流行/歌手...”;接着,第一获取单元根据该预定分类模型,对该分词结果中的每个分词进行词性标注、词频(TF)及反文档频率(IDF)获取等操作以获得该非结构化文本的特征信息,例如,该非结构化文本中名词的比例为0.3,据此获得特征“名词:比例:0.3”;再如该非结构化文本的分词结果中分词的总数为100个,而分词“歌曲”出现20次,由此获得“歌曲”的词频为0.2(=20/100),并据此获得特征“歌曲:TF:0.2”,然后,第一获取单元根据预定规则对该各特征信息进行加权,例如,若分词的词频(TF)较高则该分词的词频特征的权重较大,反之,则权重较小,接着,第一获取单元利用在该预定分类模型中实现的基于支持向量机(SVM)的文本分类方法对每个分词进行分类预测,例如,在该100个分词中,80个分词的分类预测结果为“歌手/歌唱家”,10个分词的分类预测结果为“演员”,10个分词的分类预测结果为“导演”,据此获得中心词“周杰伦”的分类为“歌手/歌唱家”。在此,所述实施例中的分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。在此,所述实施例中的文本分类方法包括但不限于Rocchio法,K临近法,决策树,朴素贝叶斯,支持向量机(SVM)等等。本领域技术人员还应能理解上述对非结构化文本进行分词及获取中心词的方式仅为举例,其他现有的或今后可能出现的对非结构化文本进行分词及获取中心词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,第一获取单元还包括概率获取单元(未示出)和分类获取单元(未示出),其中,概率获取单元基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词所属各候选分类的概率;接着,分类获取单元根据所述概率,从所述各候选分类中确定所述中心词的分类。具体地,概率获取单元基于所述预定分类模型,对分词获取单元获取的分词结果进行分类分析,以获取中心词属于各候选分类的概率;接着,分类获取单元根据概率获取单元获得的该中心词属于各候选分类的概率,例如将各候选分类中该中心词所属概率最大的分类作为该中心词的分类,或者将各候选分类中概率大于预设概率阈值的一个或多个分类均作为该中心词的分类。例如,概率获取单元基于该预定分类模型,对分词获取单元获得的与中心词“周杰伦”相关的非结构化文本的分词结果进行分类分析,并据此获得该中心词属于分类“歌手/歌唱家”的概率为0.92,属于分类“演员”的概率为0.78,而属于分类“导演”的概率为0.5;接着,分类获取单元根据概率获取单元获得的该中心词属于各候选分类的概率,按照中心词所属分类的概率需大于概率阈值0.7的规则,确定中心词“周杰伦”的分类为“歌手/歌唱家”和“演员”。本领域技术人员还应能理解上述获取分类概率及确定中心词分类的方式仅为举例,其他现有的或今后可能出现的获取分类概率及确定中心词分类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图1),信息实体生成设备1还包括模型获取装置(未示出),该模型获取装置基于预置语料及其对应分类信息的语料库,对该语料库进行机器学习,以获得用于对语料所属分类进行概率性分析的所述预定分类模型。以下参照图1对该另一优选实施例进行详细描述,其中,文本获取装置11获取与中心词相关的非结构化文本;随后,分类获取装置12基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;接着,生成装置13根据所述分类,生成所述中心词的结构化信息实体;其具体过程与前述参照图1所描述的实施例中文本获取装置11、分类获取装置12和生成装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,例如在语料库中预先放置一定数量的语料及对该些语料人为赋予的预定义分类信息,如,“七里香:歌曲”、“不能说的秘密:电影”、“刘翔:运动员”,模型获取装置基于该语料库通过诸如决策树分析、支持向量机(SVM)等机器学习方法进行机器学习,并据此获得用于对语料所属分类进行概率性分析的所述预定分类模型。在此,所述上述“语料库”意指承载在语言的实际使用中真实出现过的语言材料,及对其中的语言材料进行加工(分析和处理)而获得的相应分类信息,其可保存存储在各种类型的数据库、文本文件等中,以供查询之用。。本领域技术人员还应能理解上述获取分类模型的方式仅为举例,其他现有的或今后可能出现的获取分类模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图1),信息实体生成设备1还包括模板获取装置(未示出),该模板获取装置根据所述分类,获取与所述分类相对应的属性模板;其中,生成装置13根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。以下参照图1对该又一优选实施例进行详细描述,其中,文本获取装置11获取与中心词相关的非结构化文本;随后,分类获取装置12基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;其具体过程与前述参照图1所描述的实施例中文本获取装置11和分类获取装置12所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,模板获取装置根据分类获取装置12所提供的中心词的分类,例如通过在属性模板库中进行匹配查询,以获取与该分类相对应的一个或多个预定义属性模板,将该分类的缺省属性模板作为将包含在该中心词的信息实体中的属性模板,或者将满足预定规则的该分类的属性模板作为将包含在该中心词的信息实体中的属性模板;接着,生成装置13根据分类获取装置12获取的中心词的分类和模板获取装置获取的将包含于该中心词的信息实体中的属性模板,生成包含该(些)属性模板的该中心词的结构化信息实体。在此,所述“属性模板”包括与该分类相对应的一个或多个特定属性,用以描述属于该分类的信息实体的某一个方面的相关信息。在此,所述“属性”意指用于描述该信息实体的信息项最小单位。在此,属性模板库用于存储分类与该分类相对应的已有属性模板的映射信息,该属性模板库包括但不限于关系数据库,内存存储器,硬盘存储器等。例如,假设分类获取装置12获得的中心词“周杰伦”的分类为“歌手/歌唱家”和“演员”,模板获取装置根据该2个分类,在属性模板库中进行匹配查询,获得分类“歌手/歌唱家”的属性模板包括“发行音乐专辑”、“所获音乐奖项”、“举办演唱会”、“签约经纪公司”,分类“演员”的属性模板包括“出演电影”、“出演电视剧”、“所获影视奖项”;假设将包含在中心词“周杰伦”的信息实体中的属性模板需要满足的预定规则为:超过80%的具有相同分类的其他信息实体包含该属性模板,模板获取装置根据分类“歌手/歌唱家”,在信息实体数据库中进行匹配查询,以获得具有该分类的所有其他信息实体,然后,在该所有其他信息实体中依次遍历其包含的属性模板,并获得包含“发行音乐专辑”、“所获音乐奖项”、“举办演唱会”、“签约经纪公司”的其他信息实体在该所有其他信息实体中所占的比例依次为:100%、85%、70%、75%,据此确定将包含于中心词“周杰伦”的信息实体中的属性模板为“发行音乐专辑”和“所获音乐奖项”,执行同样的操作确定分类“演员”的属性模板“出演电影”将包含于该中心词的信息实体中;接着,生成装置13根据模板获取装置获取的将包含于该中心词的信息实体中属性模板“发行音乐专辑”、“所获音乐奖项”和“出演电影”,为该中心词生成包含该些属性模板的结构化信息实体,使该信息实体具有该些属性模板所包括的属性,如属性模板“发行音乐专辑”包括属性“专辑名称”、“发行时间”、“曲目名称”,属性模板“所获音乐奖项”包括属性“奖项名称”、“获奖时间”,属性模板“出演电影”包括属性“电影名称”、“饰演角色”。本领域技术人员还应能理解上述获取属性模板及生成信息实体的方式仅为举例,其他现有的或今后可能出现的获取属性模板及生成信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,信息实体生成设备1还包括模板更新装置(未示出),该模板更新装置根据所述信息实体的历史访问信息,更新所述信息实体中的所述属性模板。具体地,模板更新装置根据生成装置13生成的结构化信息实体的历史访问信息,例如添加新的属性模板到该信息实体中,或者从该信息实体中的删除其包含的某(些)属性模板。例如,假设信息实体的历史访问信息为该信息实体的属性模板中各属性的属性内容的累计浏览次数,模板更新装置根据生成装置13生成的中心词“周杰伦”的信息实体,基于该信息实体的历史访问日志进行统计分析,获得与该信息实体包含的每个属性模板中各属性的属性内容相对应的网页页面的累计浏览次数,其中属性模板“发行音乐专辑”中各属性的属性内容的累计浏览次数为20000次,属性模板“所获音乐奖项”中各属性的属性内容的累计浏览次数为20次,据此,获得属性模板“所获音乐奖项”所对应的累计浏览次数小于累计浏览次数阈值100次,则将该属性模板从该信息实体中删除。再如,假设信息实体的历史访问信息为所述信息实体的用户历史行为记录,模板更新装置根据生成装置13生成的中心词“周杰伦”的信息实体,基于信息实体的用户历史行为记录进行统计分析获得在用户的10000条“周杰伦”信息实体点击记录中有9000条的该点击记录后紧随“兰亭序”信息实体和“可爱女人”信息实体的点击记录,而在用户的8000条“王力宏”信息实体点击记录中有7000条的该点击记录后紧随“唯一”信息实体和“龙的传人”信息实体的点击记录,通过对该统计分析结果进行聚类,获得“周杰伦”、“王力宏”与“兰亭序”、“可爱女人”、“唯一”、“龙的传人”之间存在“歌手-歌曲”的关系,则据此为“周杰伦”信息实体添加“表演歌曲”属性模板,该属性模板包括属性“歌曲名称”。本领域技术人员应能理解上述更新信息实体属性模板的方式仅为举例,其他现有的或今后可能出现的更新信息实体属性模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述历史访问信息包括但不限于以下至少任一项:
-所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数;
-所述信息实体的所述属性模板中各属性的属性内容的浏览频次;
-所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数;
-所述信息实体的所述属性模板中各属性的属性内容的编辑频次;
-所述信息实体的用户历史行为记录。
具体地,若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数,则模板更新装置在该累计浏览次数低于预设的累计浏览次数阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的浏览频次,则模板更新装置在该浏览频次低于预设的浏览频次阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数,则模板更新装置在该累计编辑次数低于预设的累计编辑阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的编辑频次,则模板更新装置在该编辑频次低于预设的编辑频次阈值时,将该属性模板从该信息实体中删除。在此,上述累计浏览次数,浏览频次,累计编辑次数,编辑频次可通过对信息实体的历史访问日志进行统计分析获得,也可通过预定的通信方式第三方设备读取。本领域技术人员应能理解上述每项历史访问信息不仅可以单独用于更新信息实体的属性模板,还可以相互结合后用以加权更新信息实体的属性模板。本领域技术人员应能理解上述历史访问信息仅为举例,其他现有的或今后可能出现的历史访问信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,信息实体生成设备1还包括中心词获取装置(未示出)、属性获取装置(未示出)和添加装置(未示出),其中,中心词获取装置根据所述非结构化文本,在中心词数据库中进行匹配查询,以获取所述非结构化文本中的中心词文本及其分类;随后,属性获取装置从所述信息实体的属性模板中获取与所述中心词文本具有相同分类的属性;接着,添加装置将所述中心词文本作为所述属性的属性内容添加到所述信息实体中。具体地,中心词获取装置例如对文本获取装置11获取的非结构化文本通过诸如正向最大匹配等分词算法进行分词处理,然后将获得的每个分词在中心词数据库中进行匹配查询,以获取该非结构化文本中包含的中心词文本及该(些)中心词文本对应的分类;随后,属性获取装置对生成装置13生成的信息实体中包含的各属性模板中的属性进行遍历,直到获得某个属性的预置分类与该中心词文本所对应的分类相同;接着,添加装置将中心词获取装置获取的中心词文本作为在属性获取装置获取的与该中心词文本对应的所述属性的属性内容添加到所述信息实体中。例如,假设文本获取装置11获取的中心词“周杰伦”非结构化文本“周杰伦是中国台湾著名流行歌手,代表音乐专辑作品包括“跨时代”等,并曾出演电影“不能说的秘密”,中心词获取装置对该非结构化文本利用正向最大匹配算法进行分词处理,获取的分词包括“中国”,“跨时代”“不能说的秘密”等等,将该些分词依次在中心词数据库中进行匹配查询,获得在中心词数据库中未查询到名称为“中国”的中心词,但查询到名称为“跨时代”和“不能说的秘密”的中心词及其与该中心词对应的分类,据此,将分词“跨时代”和“不能说的秘密”作为该非结构化文本的中心词文本,并将在中心词数据库中查询到的与名称为“跨时代”和“不能说的秘密”中心词对应的分类作为相应的中心词文本的分类,如“跨时代”的分类为“音乐专辑”,“不能说的秘密”的分类为“电影”;随后,属性获取装置对生成装置13生成的中心词“周杰伦”的信息实体中包含的各属性模板中的属性进行遍历,获得属性模板“发行音乐专辑”中的属性“专辑名称”的预置分类与中心词文本“跨时代”的分类相同,执行上述同样的操作,获得属性模板“出演电影”中的属性“电影名称”的预置分类与中心词文本“不能说的秘密”的分类相同;接着,添加装置将中心词文本“跨时代”作为属性模板“发行音乐专辑”中的属性“专辑名称”的属性内容添加到“周杰伦”信息实体,同样,将中心词文本“不能说的秘密”作为属性模板“出演电影”中的属性“电影名称”的属性内容添加到“周杰伦”信息实体。在此,上述中心词数据库用于存储已存在的所有中心词的相关信息,该中心词数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取中心词文本,获取属性模板中的属性及添加属性内容的方式仅为举例,其他现有的或今后可能出现的获取中心词文本,获取属性模板中的属性及添加属性内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,信息实体生成设备1还包括数据库更新装置(未示出),该数据库更新装置根据所述中心词的分类,建立或更新所述中心词数据库。具体地,数据库更新装置将中心词及分类获取装置12获得的该中心词的分类写入到中心词数据库中,以更新该中心词数据库;若检测到该中心词数据库未建立,则先行初始化该中心词数据库,然后将所述中心词及其分类写入到该中心词数据库中。例如,数据库更新装置将中心词“周杰伦”及分类获取装置12获得的该中心词的分类“歌手/歌唱家”,插入到该中心词数据库中,以更新该中心词数据库。本领域技术人员应能理解上述建立或更新中心词数据库的方式仅为举例,其他现有的或今后可能出现的建立或更新中心词数据库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图2示出根据本发明一个方面基于非结构化文本生成结构化信息实体的方法流程图。在此,信息实体生成设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,在步骤S1中,信息实体生成设备1获取与中心词相关的非结构化文本。更具体地,在步骤S1中,信息实体生成设备1定期或应事件触发实时地获取与中心词相关的非结构化文本,例如在步骤S1中,根据中心词在中心词数据库中进行匹配查询,以获得与该中心词的非结构化文本,或者定期地通过约定的通信方式直接从第三方设备读取该中心词的非结构化文本。在此,所述“中心词”意指该非结构化文本紧紧围绕进行阐述的词语。例如,假设信息实体生成设备1为网络百科服务器,在步骤S1中,信息实体生成设备1根据预置的中心词列表中的中心词“周杰伦”在中心词数据库中进行匹配查询,获得该中心词的非结构化文本内容为“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业,出演电影不能说的秘密”。再如,在步骤S1中,信息实体生成设备1按一定周期,将预置的中心词作为输入参数定期地通过调用设定的应用编程接口(API)向第三方设备发送获取该中心词的非结构化文本的请求,并接收该第三方设备基于该请求返回的非结构化文本。在此,上述中心词数据库用于存储已存在的所有中心词的相关信息,该中心词数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取中心词的非结构化文本的方式仅为举例,其他现有的或今后可能出现的获取中心词的非结构化文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S2中,信息实体生成设备1基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类。具体地,在步骤S2中,信息实体生成设备1例如基于利用诸如决策树、支持向量机(SVM)等机器学习方法而获得的用于对语料所属分类进行分类预测的预定分类模型,对信息实体生成设备1在步骤S1中所提供的中心词的非结构化文本进行分类分析,获得该非结构化文本所属不同分类的概率,并据此获取该中心词的分类,或者将信息实体生成设备1在步骤S1中所提供的中心词的非结构化文本在如分类数据库的简单分类模型中进行匹配查询,以获得该中心词的分类。例如,在步骤S2中,信息实体生成设备1根据其在步骤S1中获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业,出演电影不能说的秘密”,在由第三方设备提供的分类模型中进行分类分析,获得该中心词属于“歌手/歌唱家”分类的概率为0.9,属于“演员”分类的概率为0.7,属于其他分类的概率小于0.1,据此将所属概率最大的“歌手/歌唱家”作为“周杰伦”的分类。再如,在步骤S2中,信息实体生成设备1对其在步骤S1中获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾华语流行歌手,发行诸多音乐专辑。近年涉足电影行业。”利用正向最大匹配分词算法对该非结构化文本进行分词处理,获得的分词包括“中国”,“台湾”,“流行歌手”,“音乐专辑”,“电影”等,将该些分词作为分类关键词在分类数据库中进行匹配查询,以获得各分类关键词所对应的分类,并将其作为中心词所属的分类如“歌手/歌唱家”,“演员”和“导演”。在此,上述分类数据库中已预置分类关键词与分类的映射关系,例如关键词“歌手”与分类“歌手/歌唱家”相对应,关键词“电影”与分类“演员”相对应,关键词“电影”还可与“导演”相对应。本领域技术人员应能理解上述获取中心词的分类的方式仅为举例,其他现有的或今后可能出现的获取中心词的分类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S3中,信息实体生成设备1根据所述分类,生成所述中心词的结构化信息实体。具体地,在步骤S3中,信息实体生成设备1根据其在步骤S2中获得的中心词的分类,获得与该分类相对应的预定义信息实体数据结构,并据此生成该中心词的结构化信息实体。在此,所述“信息实体”意指具有结构化特征的数据,包括但不限于网络百科中的词条,电子商务网站中的商品信息,电子图书馆中的图书条目,电子期刊网站中的期刊、论文信息等。例如,假设在步骤S2中,信息实体生成设备1获得的中心词“七里香”的分类为“音乐专辑”,在步骤S3中,信息实体生成设备1根据该分类获得预置的与“音乐专辑”分类相对应的信息实体数据结构,其中包括属性“专辑名称”,“表演者”,“发行时间”,“发行公司”,“专辑曲目”等,并基于该数据结构生成“七里香”的信息实体。再如,假设在步骤S2中,信息实体生成设备1获得的中心词“周杰伦”的分类为“歌手/歌唱家”,在步骤S3中,信息实体生成设备1根据该分类,在属性模板库中进行匹配查询以获得该分类所对应的一个或多个属性模板,如“发行音乐专辑”、“所获音乐奖项”,“举办演唱会”等,然后生成包含该(等)属性模板的中心词“周杰伦”的信息实体。在此,所述“属性模板”包括与该分类相对应的一个或多个特定属性,用以描述属于该分类的信息实体的某一个方面的相关信息。在此,所述“属性”意指用于描述信息实体信息项的最小单位,例如,属性模板“发行音乐专辑”用于描述分类为“歌手/歌唱家”的信息实体“周杰伦”发行的所有音乐专辑信息,其包括属性“发行专辑名称”、“发行时间”、“曲目名称”等。在此,上述属性模板库用于存储分类与该分类相对应的已有属性模板的映射信息,该属性模板库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述生成结构化信息实体的方式仅为举例,其他现有的或今后可能出现的生成结构化信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
优选地,信息实体生成设备1在步骤S1、步骤S2和步骤S3中是持续不断地工作。具体地,在步骤S1中,信息实体生成设备1获取与中心词相关的非结构化文本;随后,在步骤S2中,信息实体生成设备1基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;接着,在步骤S3中,信息实体生成设备1根据所述分类,生成所述中心词的结构化信息实体;在此,本领域技术人员应理解“持续”是指各步骤分别按照设定的或实时调整的工作模式要求进行与中心词相关的非结构化信息实体的获取、中心词分类的获取、及结构化信息实体的生成,直至信息实体生成设备1在较长时间内停止对与中心词相关的非结构化文本的获取。
优选地,在步骤S2中,该过程还包括步骤S21(未示出)和步骤S22(未示出),其中,在步骤S21中,信息实体生成设备1对所述非结构文本进行分词处理,获得多个分词;接着,在步骤S22中,信息实体生成设备1基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词的分类。具体地,在步骤S21中,信息实体生成设备1例如通过诸如正向最大匹配等分词算法对信息实体生成设备1在步骤S1中获取的与中心词相关的非结构化文本进行分词处理,获得该非结构文本的多个分词;然后,在步骤S22中,信息实体生成设备1基于该预定分类模型,例如对其在步骤S21中获得的该些分词进行特征提取,获得多条特征信息,然后对该多条特征进行权重计算,并基于加权的该多条特征对各分词进行分类预测,据此获得该中心词的分类。例如,在步骤S21中,信息实体生成设备1对其在步骤S1中获取的中心词“周杰伦”的非结构化文本“周杰伦是中国台湾的流行歌手...”利用正向最大匹配分词算法对该非结构化文本进行分词处理,获得的分词结果为“周杰伦/是/中国/台湾/的/流行/歌手...”;接着,在步骤S22中,信息实体生成设备1根据该预定分类模型,对该分词结果中的每个分词进行词性标注、词频(TF)及反文档频率(IDF)获取等操作以获得该非结构化文本的特征信息,例如,该非结构化文本中名词的比例为0.3,据此获得特征“名词:比例:0.3”;再如该非结构化文本的分词结果中分词的总数为100个,而分词“歌曲”出现20次,由此获得“歌曲”的词频为0.2(=20/100),并据此获得特征“歌曲:TF:0.2”,然后,信息实体生成设备1根据预定规则对该各特征信息进行加权,例如,若分词的词频(TF)较高则该分词的词频特征的权重较大,反之,则权重较小,接着,信息实体生成设备1利用在该预定分类模型中实现的基于支持向量机(SVM)的文本分类方法对每个分词进行分类预测,例如,在该100个分词中,80个分词的分类预测结果为“歌手/歌唱家”,10个分词的分类预测结果为“演员”,10个分词的分类预测结果为“导演”,据此获得中心词“周杰伦”的分类为“歌手/歌唱家”。在此,所述实施例中的分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。在此,所述实施例中的文本分类方法包括但不限于Rocchio法,K临近法,决策树,朴素贝叶斯,支持向量机(SVM)等等。本领域技术人员还应能理解上述对非结构化文本进行分词及获取中心词的方式仅为举例,其他现有的或今后可能出现的对非结构化文本进行分词及获取中心词的的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,在步骤S22中,该过程还包括步骤S221(未示出)和步骤S222(未示出),其中,在步骤S221中,信息实体生成设备1基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词所属各候选分类的概率;接着,在步骤S222中,信息实体生成设备1根据所述概率,从所述各候选分类中确定所述中心词的分类。具体地,在步骤S221中,信息实体生成设备1基于所述预定分类模型,对其在步骤S21中获取的分词结果进行分类分析,以获取中心词属于各候选分类的概率;接着,在步骤S222中,信息实体生成设备1根据其在步骤S221中获得的该中心词属于各候选分类的概率,例如将各候选分类中该中心词所属概率最大的分类作为该中心词的分类,或者将各候选分类中概率大于预设概率阈值的一个或多个分类均作为该中心词的分类。例如,在步骤S221中,信息实体生成设备1基于该预定分类模型,对其在步骤S21中获得的与中心词“周杰伦”相关的非结构化文本的分词结果进行分类分析,并据此获得该中心词属于分类“歌手/歌唱家”的概率为0.92,属于分类“演员”的概率为0.78,而属于分类“导演”的概率为0.5;接着,在步骤S222中,信息实体生成设备1根据其在步骤S221中获得的该中心词属于各候选分类的概率,按照中心词所属分类的概率需大于概率阈值0.7的规则,确定中心词“周杰伦”的分类为“歌手/歌唱家”和“演员”。本领域技术人员还应能理解上述获取分类概率及确定中心词分类的方式仅为举例,其他现有的或今后可能出现的获取分类概率及确定中心词分类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图2),该过程还包括步骤S4(未示出),在步骤S4中,信息实体生成设备1基于预置语料及其对应分类信息的语料库,对该语料库进行机器学习,以获得用于对语料所属分类进行概率性分析的所述预定分类模型。以下参照图2对该另一优选实施例进行详细描述,其中,在步骤S1中,信息实体生成设备1获取与中心词相关的非结构化文本;随后,在步骤S2中,信息实体生成设备1基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;接着,在步骤S3中,信息实体生成设备1根据所述分类,生成所述中心词的结构化信息实体;其具体过程与前述参照图2所描述的实施例中信息实体生成设备1在步骤S1、步骤S2和步骤S3中所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,例如在语料库中预先放置一定数量的语料及对该些语料人为赋予的预定义分类信息,如,“七里香:歌曲”、“不能说的秘密:电影”、“刘翔:运动员”,在步骤S4中,信息实体生成设备1基于该语料库通过诸如决策树分析、支持向量机(SVM)等机器学习方法进行机器学习,并据此获得用于对语料所属分类进行概率性分析的所述预定分类模型。在此,所述“语料库”意指承载在语言的实际使用中真实出现过的语言材料,及对其中的语言材料进行加工(分析和处理)而获得的相应分类信息,其可存储在各种类型的数据库、文本文件等,以供查询之用。本领域技术人员还应能理解上述获取分类模型的方式仅为举例,其他现有的或今后可能出现的获取分类模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图2),该过程还包括步骤S5(未示出),在步骤S5中,信息实体生成设备1根据所述分类,获取与所述分类相对应的属性模板;其中,在步骤S3中,信息实体生成设备1根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。以下参照图2对该又一优选实施例进行详细描述,其中,在步骤S1中,信息实体生成设备1获取与中心词相关的非结构化文本;随后,在步骤S2中,信息实体生成设备1基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;其具体过程与前述参照图2所描述的实施例中信息实体生成设备1在步骤S 1、步骤S2中所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S5中,信息实体生成设备1根据其在步骤S2中所提供的中心词的分类,例如通过在属性模板库中进行匹配查询,以获取与该分类相对应的一个或多个预定义属性模板,将该分类的缺省属性模板作为将包含在该中心词的信息实体中的属性模板,或者将满足预定规则的该分类的属性模板作为将包含在该中心词的信息实体中的属性模板;接着,在步骤S3中,信息实体生成设备1根据其在步骤S2中获取的中心词的分类和信息实体生成设备1在步骤S5中获取的将包含于该中心词的信息实体中的属性模板,生成包含该(些)属性模板的该中心词的结构化信息实体。在此,所述上述“属性模板”包括与该分类相对应的一个或多个特定属性,用以描述属于该分类的信息实体的某一个方面的相关信息。在此,所述“属性”意指用于描述该信息实体的信息项最小单位。在此,属性模板库用于存储分类与该分类相对应的已有属性模板的映射信息,该属性模板库包括但不限于关系数据库,内存存储器,硬盘存储器等。例如,假设在步骤S2中,信息实体生成设备1获得的中心词“周杰伦”的分类为“歌手/歌唱家”和“演员”,在步骤S5中,信息实体生成设备1根据该2个分类,在属性模板库中进行匹配查询,获得分类“歌手/歌唱家”的属性模板包括“发行音乐专辑”、“所获音乐奖项”、“举办演唱会”、“签约经纪公司”,分类“演员”的属性模板包括“出演电影”、“出演电视剧”、“所获影视奖项”;假设将包含在中心词“周杰伦”的信息实体中的属性模板需要满足的预定规则为:超过80%的具有相同分类的其他信息实体包含该属性模板,在步骤S5中,信息实体生成设备1根据分类“歌手/歌唱家”,在信息实体数据库中进行匹配查询,以获得具有该分类的所有其他信息实体,然后,在该所有其他信息实体中依次遍历其包含的属性模板,并获得包含“发行音乐专辑”、“所获音乐奖项”、“举办演唱会”、“签约经纪公司”的其他信息实体在该所有其他信息实体中所占的比例依次为:100%、85%、70%、75%,据此确定将包含于中心词“周杰伦”的信息实体中的属性模板为“发行音乐专辑”和“所获音乐奖项”,执行同样的操作确定分类“演员”的属性模板“出演电影”将包含于该中心词的信息实体中;接着,在步骤S3中,信息实体生成设备1根据其在步骤S5中获取的将包含于该中心词的信息实体中属性模板“发行音乐专辑”、“所获音乐奖项”和“出演电影”,为该中心词生成包含该些属性模板的结构化信息实体,使该信息实体具有该些属性模板所包括的属性,如属性模板“发行音乐专辑”包括属性“专辑名称”、“发行时间”、“曲目名称”,属性模板“所获音乐奖项”包括属性“奖项名称”、“获奖时间”,属性模板“出演电影”包括属性“电影名称”、“饰演角色”。本领域技术人员还应能理解上述获取属性模板及生成信息实体的方式仅为举例,其他现有的或今后可能出现的获取属性模板及生成信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该过程还包括步骤S6(未示出),在步骤S6中,信息实体生成设备1根据所述信息实体的历史访问信息,更新所述信息实体中的所述属性模板。具体地,在步骤S6中,信息实体生成设备1根据其在步骤S3中生成的结构化信息实体的历史访问信息,例如添加新的属性模板到该信息实体中,或者从该信息实体中的删除其包含的某(些)属性模板。例如,假设信息实体的历史访问信息为该信息实体的属性模板中各属性的属性内容的累计浏览次数,在步骤S6中,信息实体生成设备1根据其在步骤S3中生成的中心词“周杰伦”的信息实体,基于该信息实体的历史访问日志进行统计分析,获得与该信息实体包含的每个属性模板中各属性的属性内容相对应的网页页面的累计浏览次数,其中属性模板“发行音乐专辑”中各属性的属性内容的累计浏览次数为20000次,属性模板“所获音乐奖项”中各属性的属性内容的累计浏览次数为20次,据此,获得属性模板“所获音乐奖项”所对应的累计浏览次数小于累计浏览次数阈值100次,则将该属性模板从该信息实体中删除。再如,假设信息实体的历史访问信息为所述信息实体的用户历史行为记录,在步骤S6中,信息实体生成设备1根据其在步骤S3中生成的中心词“周杰伦”的信息实体,基于信息实体的用户历史行为记录进行统计分析获得在用户的10000条“周杰伦”信息实体点击记录中有9000条的该点击记录后紧随“兰亭序”信息实体和“可爱女人”信息实体的点击记录,而在用户的8000条“王力宏”信息实体点击记录中有7000条的该点击记录后紧随“唯一”信息实体和“龙的传人”信息实体的点击记录,通过对该统计分析结果进行聚类,获得“周杰伦”、“王力宏”与“兰亭序”、“可爱女人”、“唯一”、“龙的传人”之间存在“歌手-歌曲”的关系,则据此为“周杰伦”信息实体添加“表演歌曲”属性模板,该属性模板包括属性“歌曲名称”。本领域技术人员应能理解上述更新信息实体属性模板的方式仅为举例,其他现有的或今后可能出现的更新信息实体属性模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述历史访问信息包括但不限于以下至少任一项:
-所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数;
-所述信息实体的所述属性模板中各属性的属性内容的浏览频次;
-所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数;
-所述信息实体的所述属性模板中各属性的属性内容的编辑频次;
-所述信息实体的用户历史行为记录。
具体地,若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数,则在步骤S6中,信息实体生成设备1在该累计浏览次数低于预设的累计浏览次数阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的浏览频次,则在步骤S6中,信息实体生成设备1在该浏览频次低于预设的浏览频次阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数,则在步骤S6中,信息实体生成设备1在该累计编辑次数低于预设的累计编辑阈值时,将该属性模板从该信息实体中删除。若历史访问信息包括所述信息实体的所述属性模板中各属性的属性内容的编辑频次,则在步骤S6中,信息实体生成设备1在该编辑频次低于预设的编辑频次阈值时,将该属性模板从该信息实体中删除。在此,上述累计浏览次数,浏览频次,累计编辑次数,编辑频次可通过对信息实体的历史访问日志进行统计分析获得,也可通过预定的通信方式从第三方设备读取。本领域技术人员应能理解上述每项历史访问信息不仅可以单独用于更新信息实体的属性模板,还可以相互结合后用以加权更新信息实体的属性模板。本领域技术人员应能理解上述历史访问信息仅为举例,其他现有的或今后可能出现的历史访问信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,该过程还包括步骤S7(未示出)、步骤S8(未示出)和步骤S9(未示出),其中,在步骤S7中,信息实体生成设备1根据所述非结构化文本,在中心词数据库中进行匹配查询,以获取所述非结构化文本中的中心词文本及其分类;随后,在步骤S8中,信息实体生成设备1从所述信息实体的属性模板中获取与所述中心词文本具有相同分类的属性;接着,在步骤S9中,信息实体生成设备1将所述中心词文本作为所述属性的属性内容添加到所述信息实体中。具体地,在步骤S7中,信息实体生成设备1例如对其在步骤S1中获取的非结构化文本通过诸如正向最大匹配等分词算法进行分词处理,然后将获得的每个分词在中心词数据库中进行匹配查询,以获取该非结构化文本中包含的中心词文本及该(些)中心词文本对应的分类;随后,在步骤S8中,信息实体生成设备1对其在步骤S3中生成的信息实体中包含的各属性模板中的属性进行遍历,直到获得某个属性的预置分类与该中心词文本所对应的分类相同;接着,在步骤S9中,信息实体生成设备1将其在步骤S7中获取的中心词文本作为信息实体生成设备1在步骤S8中获取的与该中心词文本对应的所述属性的属性内容添加到所述信息实体中。例如,假设在步骤S1中,信息实体生成设备1获取的中心词“周杰伦”非结构化文本“周杰伦是中国台湾著名流行歌手,代表音乐专辑作品包括“跨时代”等,并曾出演电影不能说的秘密”,在步骤S7中,信息实体生成设备1对该非结构化文本利用正向最大匹配算法进行分词处理,获取的分词包括“中国”,“跨时代”“不能说的秘密”等等,将该些分词依次在中心词数据库中进行匹配查询,获得在中心词数据库中未查询到名称为“中国”的中心词,但查询到名称为“跨时代”和“不能说的秘密”的中心词及其与该中心词对应的分类,据此,将分词“跨时代”和“不能说的秘密”作为该非结构化文本的中心词文本,并将在中心词数据库中查询到的与名称为“跨时代”和“不能说的秘密”中心词对应的分类作为相应的中心词文本的分类,如“跨时代”的分类为“音乐专辑”,“不能说的秘密”的分类为“电影”;随后,在步骤S8中,信息实体生成设备1对其在步骤S3中生成的中心词“周杰伦”的信息实体中包含的各属性模板中的属性进行遍历,获得属性模板“发行音乐专辑”中的属性“专辑名称”的预置分类与中心词文本“跨时代”的分类相同,执行上述同样的操作,获得属性模板“出演电影”中的属性“电影名称”的预置分类与中心词文本“不能说的秘密”的分类相同;接着,在步骤S9中,信息实体生成设备1将中心词文本“跨时代”作为属性模板“发行音乐专辑”中的属性“专辑名称”的属性内容添加到“周杰伦”信息实体,同样,将中心词文本“不能说的秘密”作为属性模板“出演电影”中的属性“电影名称”的属性内容添加到“周杰伦”信息实体。在此,上述中心词数据库用于存储已存在的所有中心词的相关信息,该中心词数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取中心词文本,获取属性模板中的属性及添加属性内容的方式仅为举例,其他现有的或今后可能出现的获取中心词文本,获取属性模板中的属性及添加属性内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,该过程还包括步骤S10(未示出),在步骤S10中,信息实体生成设备1根据所述中心词的分类,建立或更新所述中心词数据库。具体地,在步骤S10中,信息实体生成设备1将中心词及信息实体生成设备1在步骤S2中获得的该中心词的分类写入到中心词数据库中,以更新该中心词数据库;若检测到该中心词数据库未建立,则先行初始化该中心词数据库,然后将所述中心词及其分类写入到该中心词数据库中。例如,在步骤S10中,信息实体生成设备1将中心词“周杰伦”及信息实体生成设备1在步骤S2中获得的该中心词的分类“歌手/歌唱家”,插入到该中心词数据库中,以更新该中心词数据库。本领域技术人员应能理解上述建立或更新中心词数据库的方式仅为举例,其他现有的或今后可能出现的建立或更新中心词数据库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种计算机实现的基于非结构化文本生成结构化信息实体的方法,其中,该方法包括以下步骤:
a获取与中心词相关的非结构化文本,其中,所述中心词表示所述非结构化文本所阐述的词语;
b基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;
c根据所述分类,生成所述中心词的结构化信息实体;
其中,该方法还包括:
-根据所述分类,获取与所述分类相对应的属性模板;
其中,所述步骤c包括:
-根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-对所述非结构文本进行分词处理,获得多个分词;
X基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词的分类。
3.根据权利要求2所述的方法,其中,所述步骤X包括:
-基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词所属各候选分类的概率;
-根据所述概率,从所述各候选分类中确定所述中心词的分类。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-基于预置语料及其对应分类信息的语料库,对该语料库进行机器学习,以获得用于对语料所属分类进行概率性分析的所述预定分类模型。
5.根据权利要求1所述的方法,其中,该方法还包括:
-根据所述信息实体的历史访问信息,更新所述信息实体中的所述属性模板。
6.根据权利要求5所述的方法,其中,所述历史访问信息包括以下至少任一项:
-所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数;
-所述信息实体的所述属性模板中各属性的属性内容的浏览频次;
-所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数;
-所述信息实体的所述属性模板中各属性的属性内容的编辑频次;
-所述信息实体的用户历史行为记录。
7.根据权利要求1所述的方法,其中,所述步骤b包括:
-根据所述非结构化文本,在中心词数据库中进行匹配查询,以获取所述非结构化文本中的中心词文本及其分类;
其中,该方法还包括:
-从所述信息实体的属性模板中获取与所述中心词文本具有相同分类的属性;
-将所述中心词文本作为所述属性的属性内容添加到所述信息实体中。
8.根据权利要求7所述的方法,其中,该方法还包括:
-根据所述中心词的分类,建立或更新所述中心词数据库。
9.一种计算机实现的基于非结构化文本生成结构化信息实体的设备,其中,该设备包括:
文本获取装置,用于获取与中心词相关的非结构化文本,其中,所述中心词表示所述非结构化文本所阐述的词语;
分类获取装置,用于基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;
生成装置,用于根据所述分类,生成所述中心词的结构化信息实体;
其中,该设备还包括:
模板获取装置,用于根据所述分类,获取与所述分类相对应的属性模板;
其中,所述生成装置用于根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。
10.根据权利要求9所述的设备,其中,所述分类获取装置包括:
分词获取单元,用于对所述非结构文本进行分词处理,获得多个分词;
第一获取单元,用于基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词的分类。
11.根据权利要求10所述的设备,其中,所述第一获取单元包括:
概率获取单元,用于基于所述预定分类模型,对所述多个分词进行分类分析,以获取所述中心词所属各候选分类的概率;
分类获取单元,用于根据所述概率,从所述各候选分类中确定所述中心词的分类。
12.根据权利要求9至11中任一项所述的设备,其中,该设备还包括:
模型获取装置,用于基于预置语料及其对应分类信息的语料库,对该语料库进行机器学习,以获得用于对语料所属分类进行概率性分析的所述预定分类模型。
13.根据权利要求9所述的设备,其中,该设备还包括:
模板更新装置,用于根据所述信息实体的历史访问信息,更新所述信息实体中的所述属性模板。
14.根据权利要求13所述的设备,其中,所述历史访问信息包括以下至少任一项:
-所述信息实体的所述属性模板中各属性的属性内容的累计浏览次数;
-所述信息实体的所述属性模板中各属性的属性内容的浏览频次;
-所述信息实体的所述属性模板中各属性的属性内容的累计编辑次数;
-所述信息实体的所述属性模板中各属性的属性内容的编辑频次;
-所述信息实体的用户历史行为记录。
15.根据权利要求9所述的设备,其中,所述分类获取装置包括:
中心词获取装置,用于根据所述非结构化文本,在中心词数据库中进行匹配查询,以获取所述非结构化文本中的中心词文本及其分类;
其中,该设备还包括:
属性获取装置,用于从所述信息实体的属性模板中获取与所述中心词文本具有相同分类的属性;
添加装置,用于将所述中心词文本作为所述属性的属性内容添加到所述信息实体中。
16.根据权利要求15所述的设备,其中,该设备还包括:
数据库更新装置,用于根据所述中心词的分类,建立或更新所述中心词数据库。
CN201110107222.XA 2011-04-27 2011-04-27 一种基于非结构化文本生成结构化信息实体的方法与设备 Active CN102214208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110107222.XA CN102214208B (zh) 2011-04-27 2011-04-27 一种基于非结构化文本生成结构化信息实体的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110107222.XA CN102214208B (zh) 2011-04-27 2011-04-27 一种基于非结构化文本生成结构化信息实体的方法与设备

Publications (2)

Publication Number Publication Date
CN102214208A CN102214208A (zh) 2011-10-12
CN102214208B true CN102214208B (zh) 2014-04-09

Family

ID=44745516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110107222.XA Active CN102214208B (zh) 2011-04-27 2011-04-27 一种基于非结构化文本生成结构化信息实体的方法与设备

Country Status (1)

Country Link
CN (1) CN102214208B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106220B (zh) * 2011-11-15 2016-08-03 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN104077320B (zh) * 2013-03-29 2019-12-17 北京百度网讯科技有限公司 一种用于生成待发布信息的方法和装置
CN103617290B (zh) * 2013-12-13 2017-02-15 江苏名通信息科技有限公司 中文机器阅读系统
JP6201792B2 (ja) * 2014-02-06 2017-09-27 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN105677768A (zh) * 2015-12-30 2016-06-15 芜湖乐锐思信息咨询有限公司 基于复杂产品网络化分类分析系统
CN106682527B (zh) * 2016-12-25 2019-11-15 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统
CN108228542A (zh) * 2017-12-14 2018-06-29 浪潮软件股份有限公司 一种非结构化文本的处理方法及装置
CN109033267A (zh) * 2018-07-09 2018-12-18 广州极天信息技术股份有限公司 一种智能化的知识灌入系统及方法
CN111144099A (zh) * 2019-12-31 2020-05-12 厦门快商通科技股份有限公司 一种基于词性的实体标注的质检方法和装置以及设备
CN112035449B (zh) * 2020-07-22 2024-06-14 大箴(杭州)科技有限公司 数据处理方法及装置、计算机设备、存储介质
CN112487811B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 基于强化学习的级联信息提取系统及方法
CN115687622A (zh) * 2022-11-09 2023-02-03 易元数字(北京)大数据科技有限公司 利用图数据库存储艺术品数据的方法、装置及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101788988B (zh) * 2009-01-22 2012-06-27 蔡亮华 信息抓取方法
EP2438543A2 (en) * 2009-06-01 2012-04-11 West Services, Inc. Advanced features, service and displays of legal and regulatory information
CN101937436B (zh) * 2009-06-29 2013-09-25 华为技术有限公司 一种文本分类方法及装置

Also Published As

Publication number Publication date
CN102214208A (zh) 2011-10-12

Similar Documents

Publication Publication Date Title
CN102214208B (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
US9031992B1 (en) Analyzing big data
WO2018072071A1 (zh) 知识图谱构建系统及方法
US9361320B1 (en) Modeling big data
US9110977B1 (en) Autonomous real time publishing
CN103608809B (zh) 推荐数据富集
US20130060769A1 (en) System and method for identifying social media interactions
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
Yang et al. Mining Chinese social media UGC: a big-data framework for analyzing Douban movie reviews
WO2014090119A1 (zh) 电子书的提供方法、系统及云端服务器
US20140006369A1 (en) Processing structured and unstructured data
Zadel et al. Web Services for Music Information Retrieval.
Jiang et al. Application intelligent search and recommendation system based on speech recognition technology
US20140149465A1 (en) Feature rich view of an entity subgraph
CN105007314A (zh) 面向海量读者阅读数据的大数据处理系统
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN110737824B (zh) 内容查询方法和装置
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
TW201428515A (zh) 在電子閱讀器環境中基於內容及物件元資料的搜尋
CN107430633B (zh) 用于数据存储的系统及方法和计算机可读介质
Piccialli et al. S-InTime: A social cloud analytical service oriented system
Adam et al. Bigdata: Issues, challenges, technologies and methods
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
Al-Barhamtoshy et al. A data analytic framework for unstructured text
CN110727672A (zh) 数据映射关系查询方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant