[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107918657A - 一种数据源的匹配方法和装置 - Google Patents

一种数据源的匹配方法和装置 Download PDF

Info

Publication number
CN107918657A
CN107918657A CN201711159895.3A CN201711159895A CN107918657A CN 107918657 A CN107918657 A CN 107918657A CN 201711159895 A CN201711159895 A CN 201711159895A CN 107918657 A CN107918657 A CN 107918657A
Authority
CN
China
Prior art keywords
entry
data
data source
basic
metamessage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711159895.3A
Other languages
English (en)
Other versions
CN107918657B (zh
Inventor
王聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711159895.3A priority Critical patent/CN107918657B/zh
Publication of CN107918657A publication Critical patent/CN107918657A/zh
Application granted granted Critical
Publication of CN107918657B publication Critical patent/CN107918657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据源的匹配方法和装置,用于提高视频数据源融合的效率和准确性,且不需要人工参与就可以自动完成。在该方法中,从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,元信息包括:相应条目的多个数据属性;通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到;当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。

Description

一种数据源的匹配方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据源的匹配方法和装置。
背景技术
为方便用户选择能够符合用户需要的视频数据源,需要能够聚合来自多个视频数据源的视频链接,此时就产生了视频数据源的融合方法。
在现有技术中,目前常用的视频数据源融合方法主要包括如下两种:1)、人工添加的方式,即通过大量编辑人员去人工的进行判断,再根据人工的判断结果将多个视频链接聚合在一起;2)通过关键字匹配的方式,例如可通过标题内容的匹配方式,将具有相同标题的多个视频链接聚合在一起。
针对上述现有技术的视频数据源融合方法,这两种方式都有各自的缺陷:
1)针对人工添加的方式,这需要大量的编辑人员的人工投入,持续进行运营,而目前各大视频网站都有近百人的编辑团队来进行视频数据源聚合,这种方法不仅耗时耗力,而且每个编辑人员对视频内容的了解不一致,所以视频数据源融合的效率和准确性都无法得到保证;
2)针对关键字匹配的方式,这种方法只能解决标题内容的命名方式都很规范的情况,因此匹配成功率较低。
发明内容
本发明实施例提供了一种数据源的匹配方法和装置,用于提高视频数据源融合的效率和准确性,且不需要人工参与就可以自动完成。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种数据源的匹配方法,包括:
从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括:相应条目的多个数据属性;
通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性;
当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
第二方面,本发明实施例还提供一种数据源的匹配装置,包括:
元信息获取模块,用于从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括;相应条目的多个数据属性信息;
模型匹配模块,用于通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性信息;
数据源聚合模块,用于当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,然后通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,以及通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性,当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。由于本发明实施例中采用条目匹配决策模型可以为第一条目和第二条目分别匹配基础条目存储库,因此整个过程可以通过机器学习的方式自动完成,第一条目和第二条目分别与基础条目可以实现精准匹配,在第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,可以将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上,从而可以实现数据源之间基于基础条目的自动聚合。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据源的匹配方法的流程方框示意图;
图2为本发明实施例提供的数据源的匹配方法的一种应用场景示意图;
图3为本发明实施例提供的决策树模型的生成过程示意图;
图4为本发明实施例提供的数据源的聚合方式的一种应用场景示意图;
图5为本发明实施例提供的数据源聚合结果在移动终端上的一种显示方式示意图;
图6-a为本发明实施例提供的一种数据源的匹配装置的组成结构示意图;
图6-b为本发明实施例提供的另一种数据源的匹配装置的组成结构示意图;
图6-c为本发明实施例提供的另一种数据源的匹配装置的组成结构示意图;
图6-d为本发明实施例提供的一种模型匹配模块的组成结构示意图;
图6-e为本发明实施例提供的另一种模型匹配模块的组成结构示意图;
图6-f为本发明实施例提供的另一种数据源的匹配装置的组成结构示意图;
图7为本发明实施例提供的数据源的匹配方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种数据源的匹配方法和装置,用于提高视频数据源融合的效率和准确性,且不需要人工参与就可以自动完成。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明实施例提供的数据源的匹配方法,适用于对多种数据源进行融合的场景,尤其是这些数据源提供相同条目时的聚合。其中数据源可以是视频数据源、文字数据源和图片数据源,举例说明,文字数据源可以是小说数据源,图片数据源可以是动漫数据源。请参阅图1所示,本发明一个实施例提供的数据源的匹配方法,可以包括如下步骤:
101、从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,元信息包括:相应条目的多个数据属性。
在本发明实施例中,数据源的匹配装置可以获取到多个数据源,在每个数据源中包括有电子数据,例如电子数据可以是视频、图片和文字,数据源中的不同电子数据通过条目来标识,例如条目可以是专指一部电影、一部电视剧、一部综艺节目等电子资源。数据源的匹配装置可以通过爬虫技术获取到多个数据源,然后针对每个数据源进行条目分析,例如可以从每个数据源中提取到多个条目的数据属性,这些获取到的数据属性构成条目的元信息,其中,条目的数据属性是指与条目有关的数据内容属性,例如条目的数据属性可以包括:电子数据的标题、内容类型、数据规格、数据字段值等信息。以数据源是视频数据源为例,视频数据源中视频条目的数据属性可以包括:标题、演职员、年份、类型、播放链接等信息。以数据源是文字数据源为例,文字数据源中文字条目的数据属性可以包括:标题、小说作者、年份、类型、小说存储地址、主要人物等信息。
在本发明实施例中,为便于描述,接下来以数据源的匹配装置对第一数据源和第二数据源的匹配过程为例进行说明,不限定的是,数据源的匹配装置获取到的多个数据源中还可以包括其它的数据源,例如多个数据源中还可以包括第三数据源和第四数据源等。以第一数据源和第二数据源的处理为例,对于第一数据源,数据源的匹配装置首先从第一数据源中获取到第一条目的元信息,对于第二数据源,数据源的匹配装置从第二数据源中获取到第二条目的元信息,在每个条目的元信息中都包括有相应条目的多个数据属性,对于条目的多个数据属性,可以具体场景下的数据源的实现方式来确定。
102、通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,以及通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性。
在本发明实施例中,通过前述步骤101可获取到第一条目的元信息和第二条目的元信息,在第一条目的元信息中包括有第一条目的多个数据属性,在第二条目的元信息中包括有第二条目的多个数据属性,因此第一条目的多个数据属性和第二条目的数据属性是与基础条目存储库进行条目匹配的依据。为解决数据源中条目的关键词不规范的问题,本发明实施例中使用条目匹配决策模型实现数据源中的元信息与基础条目存储库的匹配。其中,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,该条目匹配决策模型采用决策树来实现,决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,本质上决策树是通过一系列规则对数据进行分类的过程。详细的,本发明实施例中可以采用决策树算法对训练集进行训练以生成决策树,并采用决策树算法对测试集进行测试以及更新决策树。具体的,在决策树模型训练中,可以将训练集中的数据分成两部分,将一部分数据用来做训练生成决策树,一部分数据用来做测试,通过测试集完成整个测试过程。上述的决策树算法包括但不限于:ID3、C4.5和C5.0生成树算法或随机森林算法。而且在对训练集进行训练和输入输出时,可以使用目前的开源工具,如wake工具。
在本发明实施例中,对于第一条目和第二条目可以分别使用条目匹配决策模型,通过条目匹配决策模型与基础条目存储库进行匹配,可以从基础条目存储库中分别查找到与第一条目的元信息匹配的基础条目、第二条目的元信息匹配的基础条目。其中,基础条目存储库中存储有大量的基础条目,每个基础条目可以包括:该基础条目的多个数据属性,基础条目存储库是用于与数据源中条目进行匹配的数据库,以数据源是视频数据源为例,基础条目存储库可以是媒资库,在该媒资库中存储有多个视频条目的元信息,媒资库保存的视频条目的元信息包括:标题、演职员、年份、类型、播放链接等等。
在本发明的一些实施例中,步骤102通过条目匹配决策模型分别查找基础条目存储库中与第一条目的元信息匹配的基础条目之前,本发明实施例提供的数据源的匹配方法还包括如下步骤:
A1、按照每个数据属性分别对历史数据源样本数据进行划分,得到每个数据属性所对应的数据划分结果;
A2、分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点;
A3、按照分割点将历史数据源样本数据划分为两个样本数据子集,对于每个样本数据子集重新计算各个数据属性的信息增益,并按照信息增益最大的原则继续划分样本数据子集,直至一个样本数据子集中的样本数据都属于相同的类,输出分裂完成后的决策树模型。
其中,步骤A1至步骤A3对决策树模型的建立过程进行了详细说明,首先获取到历史数据源样本数据,以使用ID3算法进行决策树训练为例进行说明,决策树的训练的过程如下:首先遍历所有历史数据源样本数据,将每个数据属性看作一种划分方式,然后计算每种划分方式的信息熵,选择整体信息增益最大的类别,作为分割点,例如历史数据源样本数据采用某一种信息增益最大的数据属性来分割,得到成两个样本数据子集N1和N2,对N1和N2继续执行前述方式的分割,直到每个样本数据子集下的条目都具有相同的属性。
接下来对决策树的建树过程进行举例说明,通过信息增益最大的方式对历史数据源样本数据进行递归划分,具体划分步骤如下:历史数据源样本数据按照不同的数据属性进行划分,每次划分后得到一种数据划分结果,分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点。该分割点作为决策树的分裂属性的取值,得到决策树分支,数据集将被划分成多个子集,对于每个子树重新计算各个属性的信息增益值,依次类推,直至一个样本数据子集中的样本数据都属于相同的类,停止建树,输出分裂完成后的决策树模型。
进一步的,在本发明的一些实施例中,前述步骤A3输出分裂完成后的决策树模型之后,本发明实施例提供的数据源的匹配方法还包括:
B1、使用先验数据源样本数据对决策树模型进行精确度校验。
其中,先验数据源样本数据可以用作决策树的校验,该先验数据源样本数据可以通过对多个数据源的历史样本数据进行收集得到,通过先验数据源样本数据可以使得构造出的决策树模型具有更高的匹配精确度,使得数据源中的条目能够更精确的匹配出基础条目。
在本发明的一些实施例中,步骤102通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,包括:
C1、通过条目匹配决策模型计算基础条目存储库中每一个基础条目分别与第一条目的元信息的匹配分值;
C2、从多个匹配分值中选择最大分值的基础条目作为与第一条目的元信息匹配的基础条目。
其中,条目匹配决策模型可以用于数据源中条目与基础条目的匹配分值预测,例如,基础条目存储库中包括有N个基础条目时,通过条目匹配决策模型分别预测N个基础条目与第一条目的元信息的匹配分值,则可以预测出N个匹配分值,通过这N个匹配分值,可以从中选择出分值最大的基础条目作为与第一条目的元信息匹配的基础条目。
进一步的,在本发明的一些实施例中,前述步骤C2中选择了多个匹配分值中选择最大分值的基础条目作为与第一条目的元信息匹配的基础条目,这种情况适用于计算出的匹配分值都不相同时的处理情况,若多个匹配分值中最大分值为多个时,步骤102通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,除了包括步骤C1和C2,还可以包括:
C3、当最大分值的基础条目为至少两个基础条目时,获取每个数据属性对应的权重;
C4、根据每个数据属性对应的权重计算至少两个基础条目各自的总权重分数,总权重分数为一个基础条目中每个数据属性与对应该数据属性的权重乘积的总和;
C5、从至少两个的总权重分数中选择最大分数的基础条目作为与第一条目的元信息匹配的基础条目。
其中,当最大分值的基础条目为至少两个基础条目时,无法再通过步骤C2中选择最大值的方式来确定与第一条目匹配的基础条目,因此需要执行步骤C3至步骤C5的处理方式。如果最大分值都相同,还会引入各数据属性的权重,取权重得分最高的条目,举例说明如下,条目的元信息可以条目的八个数据属性,分别为:数据属性1、数据属性2、数据属性3、数据属性4、数据属性5、数据属性6、数据属性7和数据属性8,对于八个数据属性可以分配权重,对于各个数据属性的权重大小可以根据应用场景确定。例如,权重顺序如下:数据属性1>数据属性2>数据属性3>数据属性4>数据属性5>数据属性6>数据属性7>数据属性8,对每个数据属性设置的权重分数,总权重分数=数据属性1*10000000+数据属性2*1000000+数据属性3*10000+数据属性4*10000+数据属性5*1000+数据属性6*100+数据属性7*10+数据属性8*1。最终结合决策树打分结果和权重分数,从多个总权重分数中选择最大分数的基础条目作为与第一条目最佳匹配的基础条目。需要说明的是,上述权重的个数以及权重对应的分数为示意说明,在实际应用中可以根据需要重新设置,此处仅作示意说明。
在本发明的一些实施例中,步骤102通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,包括:
D1、通过条目匹配决策模型计算基础条目存储库中每一个基础条目分别与第二条目的元信息的匹配分值;
D2、从多个匹配分值中选择最大分值的基础条目作为与第二条目的元信息匹配的基础条目。
其中,对第二条目的匹配过程与前述实施例相类似。举例说明如下,通过条目匹配决策模型可以预测出第二条目与基础条目的匹配分值,得到的结果可包括:融合、新增、可疑这三种,融合是指通过条目匹配决策模型能准确判断属于同一条目的数据,例如匹配分值在大于等于20分时,可以输出匹配结果为融合。新增是指通过条目匹配决策模型可判断不属于同一条目,例如匹配分值在小于10分时,可以输出匹配结果为新增,可疑是指通过条目匹配决策模型无法判断是否属于同一条目,例如匹配分值在10至19分之间时,可以输出匹配结果为可疑。
103、当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。
在本发明实施例中,通过前述步骤102可以使用条目匹配决策模型为第一条目匹配出一个基础条目,同样的,使用该条目匹配决策模型为第二条目匹配出一个基础条目,若数据源的匹配装置爬取到多个数据源时,数据源的匹配装置根据前述第一条目和第二条目的匹配方式,数据源的匹配装置还可以为每个数据源的匹配出相应的基础条目。接下来,数据源的匹配装置可以对每个条目匹配到的基础条目进行判断,以确定不同数据源的条目是否匹配到了相同的基础条目,其中,基础条目存储库中对于每个基础条目可以设置条目标识(IDentifier,ID),通过条目标识可以确定出基础条目是否相同,在第一条目和第二条目从基础条目存储库中匹配到相同的基础条目的情况下,说明第一条目和第二条目具有相同的条目元信息,该第一条目属于第一数据源,第二条目可以属于第二数据源,因此可以将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上,例如在移动终端上需要显示某一基础条目时,可以显示该基础条目所关联到的第一数据源和第二数据源,从而方便用户可以通过基础条目存储库中的基础条目同时获取到第一数据源和第二数据源,用户可以继续选择对第一数据源还是第二数据源进行下一步的操作。举例说明,数据源是视频数据源为例,用户通过移动终端可以看到第一视频数据源和第二视频数据源都为某一个视频条目提供播放,用户可以继续选择点击第一视频数据源,或者点击第二视频数据源。
在本发明实施例中,步骤102和步骤103中具体描述了数据源中的条目匹配到基础条目存储库中基础条目的情况,而对于基础条目存储库中没有存储于数据源中的条目匹配的基础条目时,本发明实施例还提供了聚类的方式来完成数据源之间的关联。例如,本发明的一些实施例中,数据源的匹配方法还包括如下步骤:
E1、当通过条目匹配决策模型没有为第一条目和第二条目匹配到基础条目时,对第一条目和第二条目进行聚类分析;
E2、当第一条目和第二条目被划分到相同的类目时,将第一数据源和第二数据源关联到相同的类目上。
其中,通过条目匹配决策模型没有为第一条目和第二条目匹配到基础条目时,无法再通过该条目匹配决策模型实现数据源之间的关联,此时可以对第一条目和第二条目进行聚类分析,聚类分析是研究条目分类的统计分析方法,聚类分析是由若干模式组成,模式是一个度量的向量,或者是多维空间中的一个点,聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,因此当第一条目和第二条目被划分到相同的类目时,说明通过聚类分析可以将第一条目和第二条目归入到相同的类型目,则将第一数据源和第二数据源关联到相同的类目上。举例说明,第一条目和第二条目通过聚类分析,确定这两个条目都具有相同的引用关系时,可以被划分到相同的类目下。
进一步的,在本发明的一些实施例中,步骤E1对第一条目和第二条目进行聚类分析,包括:
E11、获取第一条目的交叉收录数据源,以及获取第二条目的交叉收录数据源;
E12、若第一条目和第二条目具有相同的交叉收录数据源时,确定第一条目和第二条目被划分到相同的类目。
其中,对于不同条目的元信息中存在很多各数据属性差异较大但确实为同一条目的情况,本发明实施例中可以不使用决策树模型进行匹配,而是通过聚类算法进行匹配。举例说明,以数据源是视频数据源为例,各视频数据源网站有数据源交叉收录的特点,条目A1属于视频数据源1,条目A2属于视频数据源2,因为标题不同,通过决策树模型不能判断是同一条目。但是条目A1与条目A2都有相同的交叉收录视频数据数据源,因此可以直接确定第一条目和第二条目被划分到相同的类目,此时可以将视频数据源1和视频数据源2聚合在一起。
通过以上实施例对本发明实施例的描述可知,在本发明实施例中,首先从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,然后通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,以及通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性,当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。由于本发明实施例中采用条目匹配决策模型可以为第一条目和第二条目分别匹配基础条目存储库,因此整个过程可以通过机器学习的方式自动完成,第一条目和第二条目分别与基础条目可以实现精准匹配,在第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,可以将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上,从而可以实现数据源之间基于基础条目的自动聚合。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
以数据源是视频数据源为例,本发明实施例中可以将多个视频数据源聚合在一起,以统一的视频应用程序向用户推送。例如本发明实施例中的视频应用程序可以聚合来自不同视频数据源的条目到媒资库中,其中,条目可以专指一部电影、一部电视剧、一部综艺。媒资库是指视频数据源聚合后,保存在服务器后台的条目信息,包括:标题、演职员、年份、类型、数据源等等。
本发明实施例中可以由服务器做全网视频数据源的聚合功能,需要将相同影片的播放链接聚合在一起,展示给用户。当通过爬虫抓取到全网视频后,本发明实施例可以通过机器学习的方法,对大数据进行分析,进行自动分类,并能在运营中通过少量的人工标注,不断优化算法,极大的提升了匹配准确率,降低人工运营成本。本发明实施例用到的算法是决策树算法和聚类算法,具体主要包括如下过程,首先对历史匹配样本进行学习,用决策树算法生成自动融合的条目匹配决策模型。融合是指将不同视频数据源合并在一个视频条目下。在运营过程中,通过对可疑视频进行标注,机器学习这些标注样本,进一步优化决策树算法。对于各视频数据源有播放链接交叉收录的情况,通过聚类算法进行融合,优化决策树算法覆盖不到的场景。
如图2所示,为本发明实施例提供的数据源的匹配方法的一种应用场景示意图,本发明实施例提供的数据源的匹配方法主要包括决策树算法、聚类算法和机器学习。如图2所示,本发明实施例中数据流侧处理过程包括:数据源通过爬虫或者接口获取-->数据预处理-->条目匹配-->条目聚类-->合并入库,接下来对各个过程进行详细举例说明。
本发明实施例中,服务器可以采集多个数据源中的条目,例如多个数据源包括:数据源1、数据源2、…、数据源N,得到数据源的条目之后,可以对数据进行预处理,例如对数据进行清洗。各视频网站视频对于视频的元信息定义不一样,例如视频的元信息可包括视频的标题、演职员、年份、类型、语言等固有属性,影片的标题会有季数、副标题、年份等情况,演职员中会有同义字、外文等情况。为了让后续的条目匹配过程能高效、准确运行,需要首先对这些关键信息进行标准化处理,并且去掉脏数据。脏数据是指数据源中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在数据源中存在不规范的编码和含糊的业务逻辑,对于这些脏数据,可以进行清洗,以提高条目匹配的效率,其中本发明实施例中可以采用字符串正则替换的方式完成对条目数据的预处理。
在数据预处理完成后得到预处理后的数据,接下来根据该预处理后的数据进行匹配。本发明实施例中条目匹配可使用决策树模型,首先根据已有的经验数据,整理出如下表格1,其中,1表示一致,0表示不一致,一致和不一致是表示判断条目的元信息是否一致。yes表示匹配,no-表示不匹配,maybe表示不确定,匹配和不匹配用于判断是否属于同一条目。
表1为数据属性的匹配结果:
接下来以使用ID3算法进行决策树训练为例进行详细说明,训练的过程如下:
1)、遍历所有数据,将每个数据属性(标题、导演等等)看作一种划分方式。
2)、计算每种划分方式的信息熵。
3)、选择整体信息增益最大的类别,作为分割点,其中信息增益最大是指信息熵最大。
4)、通过分割点的分割,得到两个节点N1和N2。
其中,选择信息增益最大的那个元数据节点进行分割,例如按照标题分割,把数据分为标题一样、标题不一样两类。
5)、对N1和N2继续执行1-4步骤,直到每个节点下的实体,都具有相同的属性,其中,每个节点代表一种类别。
如图3所示,为本发明实施例提供的决策树模型的生成过程示意图。匹配分值在大于等于20分时,可以输出匹配结果为融合。新增是指通过条目匹配决策模型可判断不属于同一条目,例如匹配分值在小于10分时,可以输出匹配结果为新增,可疑是指通过条目匹配决策模型无法判断是否属于同一条目,例如匹配分值在10至19分之间时,可以输出匹配结果为可疑。
在图3所示的决策树中,首先以标题或别名作为分割点,当标题或别名相同时再以导演或者演员作为分割点,当标题或者别名不相同时再以基础条目ID为分割点,输出的分数为21时表示融合,输出的分数为6时表示新增。
当导演或者演员相同时再以年份为分割点,当导演或者演员相同时再以基础条目ID为分割点。
当年份相同时再以语言和类型为分割点,当年份不相同时输出的分数为17表示可疑。当基础条目ID相同时,输出的分数为20表示融合,当基础条目ID不相同时再以导演和演员为空作为分割点。
当语言和类型相同时以类型为分割点,当语言和类型不相同时以版本作为分割点。当导演和演员为空时以年份和语言和地区和类型作为分割点,当导员和演员不为空时以简介相似为分割点。
当类型相同时输出的分数为24表示融合,当类型不相同时以季数为分割点。当版本相同时输出的分数为19表示可疑,当版本不相同时输出的分数为18表示可疑。当年份和语言和地区和类型相同时输出的分数为22表示融合,当年份和语言和地区和类型不相同时输出的分数为9表示新增。当简介相似时输出的分数为20表示融合,当简介不相似时输出的分数为7表示新增。
当季数相同时输出的分数为23表示融合,当季数不相同时输出的分数为16表示可疑。
通过上述方法生成决策树模型之后,如图2所示,当条目匹配时可以将数据源入库到基础条目存储库中,当数据源的条目的字段不匹配时,再通过聚类算法进行数据源聚合,当数据源对应于多条目时可以通过运营系统进行调整,例如人员可以通过运营系统进行字段/数据源的信息纠错,然后保存到预处理的数据中。在通过聚类算法进行数据源聚合、条目信息完成时的字段聚合之后,再将数据源入库到基础条目存储库中。在字段聚合时可以通过运营系统根据经验值进行细微调整,例如引入第三方平台已经关联好基础条目ID的判断,例如对于爬取的视频网站,有些条目已经包含了基础条目,可以直接匹配,因为媒资库里的条目也关联了基础条目ID,并对决策树的结果进行计分。
接下来对数据源中条目与媒资库中的基础条目的匹配过程进行举例说明,匹配的过程是把爬取的视频数据源与系统已存在的媒资库进行逐一匹配,通过决策树模型,找出与媒资库匹配的最高分。其中,媒资库可提供基础条目的标准数据,其他视频数据源需要和媒资库的基础条目进行融合,决策树模型可以用于将数据源中条目和媒资库中的基础条目进行匹配,例如,在决策树模型中设置24分为最高分,是把决策树模型的输出结果转换为得分。
如果得分相同,还会引入各数据属性的权重,取权重得分最高的条目,权重顺序如下:标题>导演>演员>年份>季数(季、部)>类型>地区>语言。
对每个字段设置权重分数,可以通过如下公式计算:
总权重分数=标题*10000000+导演*1000000+演员*10000+年份*10000+季数(季、部)*1000+类型*100+地区*10+语言*1。
最终结合决策树打分结果和权重分数,得到最佳匹配的条目。
需要说明的是,在本发明实施例中,先通过决策树模型输出所有条目的匹配分值,取决策树结果最高分的条目作为匹配数据源中条目的基础条目,如果最高分条目不止1条,再取总权重分数最高的条目作为匹配数据源中条目的基础条目。
接下来对本发明实施例中的条目聚类过程进行详细说明,实际的数据中确认存在很多各字段差异较大,但确实为同一条目的情况,对于这类情况,使用决策树模型已经无法进行匹配,这里需要使用聚类算法。
如图4所示,为本发明实施例提供的数据源的聚合方式的一种应用场景示意图。各视频数据源网站有数据源交叉收录的特点,视频源L4的条目A1、视频源L5的条目A2、基础条目存储库的条目A3,因为标题不同通过决策树模型,不能判断是同一条目。但是视频源L4的条目A1与视频源L5的条目A2都有相同的数据源L2,这里主要是判断播放的播放地址是否一样,视频源L5的条目A2和基础条目存储库的条目A3都有相同的视频源L1,通过数据源进行聚类,视频源L4的条目A1、视频源L5的条目A2都属于基础条目存储库的条目A3。
在本发明实施例中,接下来对机器学习和模型优化进行简单说明,使用已有数据(即历史数据)训练出决策树模型,在无法匹配所有情况时,再通过聚类算法进行聚类,另外还可以通过运营系统进行纠错,定期优化更新决策树模型,使得后续新的数据匹配成功率更高。如图5所示,为本发明实施例提供的数据源聚合结果在移动终端上的一种显示方式示意图。用户使用移动终端访问视频应用程序(APPlication,APP),移动终端可以检测用户的输入指令,移动终端根据该输入指令向服务器发送播放请求,以请求服务器返回相应的视频资源,服务器接收到移动终端的播放请求之后,服务器可以通过条目匹配决策模型查找多个数据源中的各个条目的元信息,对于具有相同基础条目的多个数据源中的条目进行关联,例如服务器整合来自多个数据源的同一部电视剧资源,将不同视频数据源的播放链接进行聚合,对于不同数据源的同一集视频内容会聚合在一起。服务器完成视频资源的整合之后,服务器可以将整合结果发送给移动终端,移动终端通过视频应用程序展示向用户展示来自不同数据源的相同视频资源,例如图5所示,移动终端可以显示同一个视频资源的三个视频数据源:视频数据源1、视频数据源2和视频数据源3,用户可以根据实际情况选择在使用哪个数据源播放,同时也起到了对合作视频网站推广的效果。图5为本发明实施例的一种举例说明,主要强调不同数据源融合的效果,在每一集视频内容上都可以进行视频数据源的聚合,例如“31”这里包含了多个视频数据源的第31集视频内容。
通过前述的举例说明可知,本发明实施例通过在视频数据源自动匹配过程可以全自动完成,对人力的需求很少,另外本发明实施例聚合全网所有视频数据源,能够保证具有相同条目的视频数据源被聚合在一起,从而向用户推送聚合后的视频数据源,方便于用户选择视频数据源。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图6-a所示,本发明实施例提供的一种数据源的匹配装置600,可以包括:元信息获取模块601、模型匹配模块602、数据源聚合模块603,其中,
元信息获取模块601,用于从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括;相应条目的多个数据属性信息;
模型匹配模块602,用于通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性信息;
数据源聚合模块603,用于当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
在本申请的一些实施例中,请参阅图6-b所示,所述数据源的匹配装置600,还包括:
样本数据划分模块604,用于所述模型匹配模块602通过条目匹配决策模型分别查找基础条目存储库中与所述第一条目的元信息匹配的基础条目之前,按照每个数据属性分别对所述历史数据源样本数据进行划分,得到每个数据属性所对应的数据划分结果;
分割点确定模块605,用于分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点;
模型训练模块606,用于按照所述分割点将所述历史数据源样本数据划分为两个样本数据子集,对于每个样本数据子集重新计算各个数据属性的信息增益,并按照信息增益最大继续划分样本数据子集,直至一个样本数据子集中的样本数据都属于相同的类,输出分裂完成后的决策树模型。
在本申请的一些实施例中,请参阅图6-c所示,相对于图6-b所示,所述数据源的匹配装置600,还包括:
模型校验模块607,用于所述模型训练模块606输出分裂完成后的决策树模型之后,使用先验数据源样本数据对所述决策树模型进行精确度校验。
在本申请的一些实施例中,请参阅图6-d所示,所述模型匹配模块602,包括:
匹配分值计算模块6021,用于通过所述条目匹配决策模型计算所述基础条目存储库中每一个基础条目分别与所述第一条目的元信息的匹配分值;
基础条目选择模块6022,用于从多个所述匹配分值中选择最大分值的基础条目作为与所述第一条目的元信息匹配的基础条目。
在本申请的一些实施例中,请参阅图6-e所示,相对于图6-d所示,所述模型匹配模块602,还包括:权重计算模块6023,其中,
所述权重计算模块6023,用于当最大分值的基础条目为至少两个基础条目时,获取每个数据属性信息对应的权重;根据所述每个数据属性信息对应的权重计算所述至少两个基础条目的总权重分数,所述总权重分数为一个基础条目中每个数据属性与对应该数据属性的权重乘积的总和;
所述基础条目选择模块6022,还用于从至少两个的总权重分数中选择最大分数的基础条目作为与所述第一条目的元信息匹配的基础条目。
在本申请的一些实施例中,请参阅图6-f所示,相对于图6-a所示,所述数据源的匹配装置600还包括:聚类模块608,其中,
所述聚类模块608,用于当通过所述条目匹配决策模型没有为所述第一条目和所述第二条目匹配到基础条目时,对所述第一条目和所述第二条目进行聚类分析;
所述数据源聚合模块603,还用于当所述第一条目和所述第二条目被划分到相同的类目时,将所述第一数据源和所述第二数据源关联到所述相同的类目上。
进一步的,在本发明的一些实施例中,所述聚类模块608,具体用于获取所述第一条目的交叉收录数据源,以及获取所述第二条目的交叉收录数据源;若所述第一条目和所述第二条目具有相同的交叉收录数据源时,确定所述第一条目和所述第二条目被划分到相同的类目。
通过以上实施例对本发明实施例的描述可知,在本发明实施例中,首先从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,然后通过条目匹配决策模型查找基础条目存储库中与第一条目的元信息匹配的基础条目,以及通过条目匹配决策模型查找基础条目存储库中与第二条目的元信息匹配的基础条目,条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性,当第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上。由于本发明实施例中采用条目匹配决策模型可以为第一条目和第二条目分别匹配基础条目存储库,因此整个过程可以通过机器学习的方式自动完成,第一条目和第二条目分别与基础条目可以实现精准匹配,在第一条目和第二条目从基础条目存储库中匹配到相同的基础条目时,可以将第一数据源和第二数据源关联到基础条目存储库中的同一个基础条目上,从而可以实现数据源之间基于基础条目的自动聚合。
图7是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的数据源的匹配方法步骤可以基于该图7所示的服务器结构。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种数据源的匹配方法,其特征在于,包括:
从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括:相应条目的多个数据属性;
通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过使用历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性;
当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
2.根据权利要求1所述的方法,其特征在于,所述通过条目匹配决策模型分别查找基础条目存储库中与所述第一条目的元信息匹配的基础条目之前,所述方法还包括:
按照每个数据属性分别对所述历史数据源样本数据进行划分,得到每个数据属性所对应的数据划分结果;
分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点;
按照所述分割点将所述历史数据源样本数据划分为两个样本数据子集,对于每个样本数据子集重新计算各个数据属性的信息增益,并按照信息增益最大的原则继续划分样本数据子集,直至一个样本数据子集中的样本数据都属于相同的类,输出分裂完成后的决策树模型。
3.根据权利要求2所述的方法,其特征在于,所述输出分裂完成后的决策树模型之后,所述方法还包括:
使用先验数据源样本数据对所述决策树模型进行精确度校验。
4.根据权利要求2所述的方法,其特征在于,所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,包括:
通过所述条目匹配决策模型计算所述基础条目存储库中每一个基础条目分别与所述第一条目的元信息的匹配分值;
从多个所述匹配分值中选择最大分值的基础条目作为与所述第一条目的元信息匹配的基础条目。
5.根据权利要求4所述的方法,其特征在于,所述通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,还包括:
当最大分值的基础条目为至少两个基础条目时,获取每个数据属性对应的权重;
根据所述每个数据属性对应的权重计算所述至少两个基础条目各自的总权重分数,所述总权重分数为一个基础条目中每个数据属性与对应该数据属性的权重乘积的总和;
从至少两个的总权重分数中选择最大分数的基础条目作为与所述第一条目的元信息匹配的基础条目。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
当通过所述条目匹配决策模型没有为所述第一条目和所述第二条目匹配到基础条目时,对所述第一条目和所述第二条目进行聚类分析;
当所述第一条目和所述第二条目被划分到相同的类目时,将所述第一数据源和所述第二数据源关联到所述相同的类目上。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一条目和所述第二条目进行聚类分析,包括:
获取所述第一条目的交叉收录数据源,以及获取所述第二条目的交叉收录数据源;
若所述第一条目和所述第二条目具有相同的交叉收录数据源时,确定所述第一条目和所述第二条目被划分到相同的类目。
8.一种数据源的匹配装置,其特征在于,包括:
元信息获取模块,用于从第一数据源中获取到第一条目的元信息,以及从第二数据源中获取到第二条目的元信息,所述元信息包括;相应条目的多个数据属性信息;
模型匹配模块,用于通过条目匹配决策模型查找基础条目存储库中与所述第一条目的元信息匹配的基础条目,以及通过所述条目匹配决策模型查找所述基础条目存储库中与所述第二条目的元信息匹配的基础条目,所述条目匹配决策模型通过历史数据源样本数据对决策树模型进行训练与测试得到,所述历史数据源样本数据包括:在多个数据源中每个条目样本的历史数据属性信息;
数据源聚合模块,用于当所述第一条目和所述第二条目从所述基础条目存储库中匹配到相同的基础条目时,将所述第一数据源和所述第二数据源关联到所述基础条目存储库中的同一个基础条目上。
9.根据权利要求8所述的装置,其特征在于,所述数据源的匹配装置,还包括:
样本数据划分模块,用于所述模型匹配模块通过条目匹配决策模型分别查找基础条目存储库中与所述第一条目的元信息匹配的基础条目之前,按照每个数据属性分别对所述历史数据源样本数据进行划分,得到每个数据属性所对应的数据划分结果;
分割点确定模块,用于分别计算每个数据划分结果的信息增益,并选择信息增益最大的数据划分结果对应的数据属性作为分割点;
模型训练模块,用于按照所述分割点将所述历史数据源样本数据划分为两个样本数据子集,对于每个样本数据子集重新计算各个数据属性的信息增益,并按照信息增益最大继续划分样本数据子集,直至一个样本数据子集中的样本数据都属于相同的类,输出分裂完成后的决策树模型。
10.根据权利要求8所述的装置,其特征在于,所述数据源的匹配装置,还包括:
模型校验模块,用于所述模型训练模块输出分裂完成后的决策树模型之后,使用先验数据源样本数据对所述决策树模型进行精确度校验。
11.根据权利要求9所述的装置,其特征在于,所述模型匹配模块,包括:
匹配分值计算模块,用于通过所述条目匹配决策模型计算所述基础条目存储库中每一个基础条目分别与所述第一条目的元信息的匹配分值;
基础条目选择模块,用于从多个所述匹配分值中选择最大分值的基础条目作为与所述第一条目的元信息匹配的基础条目。
12.根据权利要求10所述的装置,其特征在于,所述模型匹配模块,还包括:权重计算模块,其中,
所述权重计算模块,用于当最大分值的基础条目为至少两个基础条目时,获取每个数据属性信息对应的权重;根据所述每个数据属性信息对应的权重计算所述至少两个基础条目的总权重分数,所述总权重分数为一个基础条目中每个数据属性与对应该数据属性的权重乘积的总和;
所述基础条目选择模块,还用于从至少两个的总权重分数中选择最大分数的基础条目作为与所述第一条目的元信息匹配的基础条目。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述数据源的匹配装置还包括:聚类模块,其中,
所述聚类模块,用于当通过所述条目匹配决策模型没有为所述第一条目和所述第二条目匹配到基础条目时,对所述第一条目和所述第二条目进行聚类分析;
所述数据源聚合模块,还用于当所述第一条目和所述第二条目被划分到相同的类目时,将所述第一数据源和所述第二数据源关联到所述相同的类目上。
14.根据权利要求13所述的装置,其特征在于,所述聚类模块,具体用于获取所述第一条目的交叉收录数据源,以及获取所述第二条目的交叉收录数据源;若所述第一条目和所述第二条目具有相同的交叉收录数据源时,确定所述第一条目和所述第二条目被划分到相同的类目。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7任意一项所述的方法。
CN201711159895.3A 2017-11-20 2017-11-20 一种数据源的匹配方法和装置 Active CN107918657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711159895.3A CN107918657B (zh) 2017-11-20 2017-11-20 一种数据源的匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159895.3A CN107918657B (zh) 2017-11-20 2017-11-20 一种数据源的匹配方法和装置

Publications (2)

Publication Number Publication Date
CN107918657A true CN107918657A (zh) 2018-04-17
CN107918657B CN107918657B (zh) 2021-10-08

Family

ID=61897424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159895.3A Active CN107918657B (zh) 2017-11-20 2017-11-20 一种数据源的匹配方法和装置

Country Status (1)

Country Link
CN (1) CN107918657B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764348A (zh) * 2018-05-30 2018-11-06 口口相传(北京)网络技术有限公司 基于多个数据源的数据采集方法及系统
CN109447276A (zh) * 2018-09-17 2019-03-08 烽火通信科技股份有限公司 一种机器学习方法、系统、设备及应用方法
CN110096504A (zh) * 2019-03-29 2019-08-06 北京奇安信科技有限公司 流式事件特征匹配方法及装置
CN110929111A (zh) * 2019-11-19 2020-03-27 支付宝(杭州)信息技术有限公司 用于匹配私有数据的匹配模式自动生成方法、装置及设备
CN110942078A (zh) * 2018-09-22 2020-03-31 北京微播视界科技有限公司 聚合兴趣点数据的方法、装置、媒体文件服务器及存储介质
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111563545A (zh) * 2020-04-27 2020-08-21 平安医疗健康管理股份有限公司 一种医学实体对码方法、装置、计算机设备和存储介质
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112836087A (zh) * 2021-01-26 2021-05-25 湖南快乐阳光互动娱乐传媒有限公司 一种视频属性信息采集方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823907A (zh) * 2014-03-19 2014-05-28 北京奇虎科技有限公司 一种整合在线视频资源地址的方法、装置及引擎
WO2015094311A1 (en) * 2013-12-20 2015-06-25 Thomson Licensing Quote and media search method and apparatus
US20150296228A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Performing Multi-Modal Video Datastream Segmentation
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN106127114A (zh) * 2016-06-16 2016-11-16 北京数智源科技股份有限公司 智能视频分析方法
CN106484774A (zh) * 2016-09-12 2017-03-08 北京歌华有线电视网络股份有限公司 一种多源视频元数据的关联方法及系统
CN106886565A (zh) * 2017-01-11 2017-06-23 北京众荟信息技术股份有限公司 一种基础房型自动聚合方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094311A1 (en) * 2013-12-20 2015-06-25 Thomson Licensing Quote and media search method and apparatus
CN103823907A (zh) * 2014-03-19 2014-05-28 北京奇虎科技有限公司 一种整合在线视频资源地址的方法、装置及引擎
US20150296228A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Performing Multi-Modal Video Datastream Segmentation
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN106127114A (zh) * 2016-06-16 2016-11-16 北京数智源科技股份有限公司 智能视频分析方法
CN106484774A (zh) * 2016-09-12 2017-03-08 北京歌华有线电视网络股份有限公司 一种多源视频元数据的关联方法及系统
CN106886565A (zh) * 2017-01-11 2017-06-23 北京众荟信息技术股份有限公司 一种基础房型自动聚合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAO,XIAOJIAN等: "Video recommendation over multiple information sources", 《MULTIMEDIA SYSTEM》 *
石燕志: "一种多源视频融合系统设计方法", 《中国安防》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764348A (zh) * 2018-05-30 2018-11-06 口口相传(北京)网络技术有限公司 基于多个数据源的数据采集方法及系统
CN108764348B (zh) * 2018-05-30 2020-07-10 口口相传(北京)网络技术有限公司 基于多个数据源的数据采集方法及系统
CN109447276A (zh) * 2018-09-17 2019-03-08 烽火通信科技股份有限公司 一种机器学习方法、系统、设备及应用方法
CN109447276B (zh) * 2018-09-17 2021-11-02 烽火通信科技股份有限公司 一种机器学习系统、设备及应用方法
CN110942078B (zh) * 2018-09-22 2024-01-12 北京微播视界科技有限公司 聚合兴趣点数据的方法、装置、媒体文件服务器及存储介质
CN110942078A (zh) * 2018-09-22 2020-03-31 北京微播视界科技有限公司 聚合兴趣点数据的方法、装置、媒体文件服务器及存储介质
CN110096504A (zh) * 2019-03-29 2019-08-06 北京奇安信科技有限公司 流式事件特征匹配方法及装置
CN110096504B (zh) * 2019-03-29 2021-08-20 奇安信科技集团股份有限公司 流式事件特征匹配方法及装置
CN110929111A (zh) * 2019-11-19 2020-03-27 支付宝(杭州)信息技术有限公司 用于匹配私有数据的匹配模式自动生成方法、装置及设备
CN110929111B (zh) * 2019-11-19 2023-03-31 支付宝(杭州)信息技术有限公司 用于匹配私有数据的匹配模式自动生成方法、装置及设备
CN111241056B (zh) * 2019-12-31 2024-03-01 国网浙江省电力有限公司营销服务中心 一种基于决策树模型的电力用能数据存储优化方法
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111563545A (zh) * 2020-04-27 2020-08-21 平安医疗健康管理股份有限公司 一种医学实体对码方法、装置、计算机设备和存储介质
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112836087A (zh) * 2021-01-26 2021-05-25 湖南快乐阳光互动娱乐传媒有限公司 一种视频属性信息采集方法及装置

Also Published As

Publication number Publication date
CN107918657B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN107918657A (zh) 一种数据源的匹配方法和装置
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
CN112667877A (zh) 一种基于旅游知识图谱的景点推荐方法及设备
CN108205766A (zh) 信息推送方法、装置及系统
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN114418035A (zh) 决策树模型生成方法、基于决策树模型的数据推荐方法
CN108665148B (zh) 一种电子资源质量评价方法、装置和存储介质
CN106557480A (zh) 查询改写的实现方法及装置
CN108629358A (zh) 对象类别的预测方法及装置
CN113010705B (zh) 标签预测方法、装置、设备及存储介质
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN110737805A (zh) 图模型数据的处理方法、装置和终端设备
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
CN116362790A (zh) 客户类型预测方法、装置、电子设备、介质和程序产品
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN112598405B (zh) 一种基于大数据的商业项目数据管理方法及系统
CN116150470A (zh) 内容推荐方法、装置、设备、存储介质及程序产品
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111859146A (zh) 信息挖掘方法、装置及电子设备
CN107291722B (zh) 一种描述词的分类方法及设备
CN108345620A (zh) 品牌信息处理方法、装置、存储介质及电子设备
CN104615605B (zh) 用于预测数据对象的类目的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant