CN112487160B

CN112487160B - 技术文档溯源方法及装置、计算机设备、计算机存储介质

Info

Publication number: CN112487160B
Application number: CN202011337966.6A
Authority: CN
Inventors: 殷达; 谭咏霖; 丁铭; 唐杰; 刘德兵; 仇瑜
Original assignee: Beijing Zhipu Huazhang Technology Co Ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-01-04
Anticipated expiration: 2040-11-25
Also published as: CN112487160A

Abstract

本发明能够提供技术文档溯源方法及装置、计算机设备、计算机存储介质。技术文档溯源方法可包括：基于目标技术文档查找存在关联关系的多个参考技术文档。创建各技术文档的特征向量，特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征。基于特征向量对参考技术文档进行聚类处理，以形成多个文档集合。对于每个文档集合，根据时间关系排列参考技术文档构成溯源路线。生成用于表征目标技术文档溯源结果的树形图。本发明能为技术文档进行溯源分析，挖掘出技术文档之间的影响关系和有用信息，并快速生成表征目标技术文档溯源结果的溯源树，生动刻画技术或思想的演变过程，以满足科研人员等用户定位到真正需要深入阅读的内容的需求。

Description

技术文档溯源方法及装置、计算机设备、计算机存储介质

技术领域

本发明涉及技术文档处理技术领域，更为具体来说，本发明提供了技术文档溯源方法及装置、计算机设备、计算机存储介质。

背景技术

随着学术研究的日益繁荣，越来越多的学术论文正以越来越快的速度产生。对于踏入新领域的研究人员、学生或爱好者来说，在阅读学术论文时往往需要大量的检索和阅读论文中提到的基础知识点相关内容，由于对新领域的熟悉程度较低，检索过程中需要花费大量时间，而且经常会出现学习方向错误而大量阅读无关材料等问题，获取有用知识效率较低。对于前沿科研人员来说，有时需要概括和总结技术发展历程以求再创新，这个过程要求前沿科研人员对海量的学术论文等技术文档进行人工分析，往往占用大量的宝贵时间，而且该人工分析过程对人员的经验、主观重视程度等因素依赖过大。

因此，如何能够有效地辅助研究人员或前沿科技人员等用户提高获取有用知识的效率，尽可能地缩短检索过程所花费的时间和人工分析时间，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为解决现有技术存在有用知识获取效率低、人工分析技术文档时间长等问题，本发明提供技术文档溯源方法及装置、计算机设备、计算机存储介质，达到辅助用户提高知识获取效率、缩短检索和分析时间等目的。

为实现上述的技术目的，本发明一个或多个实施例能够提供一种技术文档溯源方法，该技术文档溯源方法可包括但不限于如下的至少一个步骤。

基于给定的目标技术文档查找得到与所述目标技术文档存在关联关系的多个参考技术文档。

创建各技术文档的特征向量，所述特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；所述技术文档包括目标技术文档和参考技术文档。

基于所述特征向量对所述参考技术文档进行聚类处理，以形成多个文档集合。

对于每个文档集合，根据时间关系排列所述参考技术文档构成溯源路线。

以所述目标技术文档作为根节点，以所述参考技术文档作为叶子节点，按照所述溯源路线连接所述根节点和所述叶子节点，生成用于表征目标技术文档溯源结果的树形图。

进一步地，该技术文档溯源方法还包括：

根据文档集合中参考技术文档的关键词信息，分别生成各个文档集合的标签。

为树形图中的各溯源路线分别对应设置标签。

进一步地，该技术文档溯源方法还包括：

根据所述各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值。

根据所述影响力值区分地标记所述树形图中的各溯源路线。

进一步地，所述创建各技术文档的特征向量包括：

抽取各技术文档中文本数据，利用所述文本数据创建文本特征向量，所述文本特征向量用于表征技术文档的文本特征。

基于所述文本特征向量、第一关联关系以及第二关联关系创建图特征向量，所述图特征向量用于表征不同技术文档之间的关联特征；其中，所述第一关联关系为所述目标技术文档与各所述参考技术文档之间的关联关系，所述第二关联关系为不同的参考技术文档相互间的关联关系。

根据所述文本特征向量和所述图特征向量创建所述各技术文档的特征向量。

进一步地，所述利用所述文本数据创建文本特征向量包括：

基于词频-逆文本频率指数的方式从所述文本数据中提取出第一向量。

基于句子-来自变换器的双向编码器表征量的方式从所述文本数据中提取出第二向量。

根据所述第一向量和所述第二向量创建所述文本特征向量。

进一步地，所述基于所述特征向量对所述参考技术文档进行聚类处理包括：

以参考技术文档的特征向量、所述第一关联关系及所述第二关联关系为依据对所述参考技术文档进行聚类处理。

进一步地，所述目标技术文档为论文，所述参考技术文档为被所述论文直接引用的论文和/或被所述论文间接引用的论文，所述关联关系为引用关系。

为实现上述的技术目的，本发明一个或多个实施例还可提供一种技术文档溯源装置，该技术文档溯源装置可包括包括但不限于文档查找模块、向量创建模块、聚类处理模块、溯源路线生成模块以及树形图生成模块。

文档查找模块，用于基于给定的目标技术文档查找得到与所述目标技术文档存在关联关系的多个参考技术文档。

向量创建模块，用于创建各技术文档的特征向量，所述特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；所述技术文档包括目标技术文档和参考技术文档。

聚类处理模块，用于基于所述特征向量对所述参考技术文档进行聚类处理，以形成多个文档集合。

溯源路线生成模块，用于对于每个文档集合根据时间关系排列所述参考技术文档构成溯源路线。

树形图生成模块，用于以所述目标技术文档作为根节点、以所述参考技术文档作为叶子节点，按照所述溯源路线连接所述根节点和所述叶子节点，生成用于表征目标技术文档溯源结果的树形图。

为实现上述的技术目的，本发明还能够提供一种计算机设备，计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行本发明任一实施例中的技术文档溯源方法的步骤。

为实现上述的技术目的，本发明还可以提供一种计算机存储介质，该计算机存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如本发明任一实施例中的技术文档溯源方法的步骤。

本发明有益效果：本发明能为给定的技术文档进行溯源分析，挖掘出技术文档之间的影响关系和有用信息，并快速生成表征目标技术文档溯源结果的溯源树，以实现通过论文图谱的方式生动地刻画技术或思想的演变过程，以满足科研人员等用户的准确、快速、直观地定位到真正需要深入阅读的内容的需求。

对于踏入新领域的研究人员、学生或爱好者来说，本发明能够为这些用户提供待学习的学术论文涉及的相关知识点的相关论文，极大地缩减了用户检索花费的时间和节省了阅读相关度较低的文献时间。对于前沿科研人员，本发明能够为其提供一项或多项技术的溯源分析和演变历程，辅助用户对技术发展和技术演变进行准确且快速地概括，有助于启发用户揭示可能下一个潜在的技术创新点。相比于常规技术，本发明彻底解决了有用知识获取效率较低、人工分析技术文档时间过长等问题，对前沿科研人员、学生、爱好者等用户提供了极大帮助。

附图说明

图1示出了本发明一个或者多个实施例中技术文档溯源方法的流程示意图。

图2示出了本发明一个或者多个实施例中形成完整的技术文档溯源树的流程示意图。

图3示出了本发明一个实施例中生成的用于表征目标论文溯源结果的完整论文溯源树的示意图。

图4示出了本发明一个或者多个实施例中技术文档溯源装置组成的示意图。

图5示出了本发明一个或者多个实施例中的计算机设备内部的结构示意图。

具体实施方式

下面结合说明书附图对本发明提供的一种技术文档溯源方法及装置、计算机设备、计算机存储介质进行详细地解释和说明。

如图1所示，可结合图2，本发明的一个或多个实施例能够提供一种技术文档溯源方法，可形成用于表征目标技术文档溯源结果的完整的技术文档溯源树，该技术文档溯源方法可包括但不限于如下的至少一个步骤。

步骤100，基于给定的目标技术文档查找得到与目标技术文档存在关联关系的多个参考技术文档。本发明目标技术文档可以为论文，参考技术文档为被论文直接引用的论文和/或被论文间接引用的论文，关联关系为引用关系。可见本发明能够用于对学术论文演变根源的自动化分析，达到自动化分析学术论文思想根源等目的。当然，目标技术文档还可以是专利文献、期刊等技术文档。

以论文为例，本发明能够从论文库中查找到目标论文所引用的论文。本发明可在论文引用关系网络上从目标论文出发按照广度优先搜索进行，在同一深度搜索结束后，若得到的论文集合数量多于设定的被引用的论文数量，则停止搜索；反之则加深一层继续搜索，直至能达到设定的被引用的论文数量。本实施例在查找参考技术文档(例如所引用的论文)时，若得到的论文集合数量多于设定的被引用的论文数量，本发明还包括被目标论文引用的论文的筛选步骤。筛选步骤包括：对得到的参考技术文档进行排序，排序方式是将得到的候选论文重构成引用关系网络，计算每篇论文得分，得分计算的方法可以是但不限于网页排名(PageRank)算法，得分计算的方法例如还可以是论文的被引用次数等；然后按照＜阶数，得分＞对各候选论文进行排序，排序方式可以是阶数小的论文在前，阶数大的论文在后，阶数相等的论文得分高的排在前；最后可按照排序结果而从前到后筛选出设定数量的候选论文。

本发明将被论文直接引用的论文形成集合R1，将被论文间接引用的论文形成集合R2，被论文间接引用的论文包括二阶引用以及更高阶引用。可理解的是，集合R2中的论文是被集合R1中的论文直接引用或者间接引用的论文。本发明一些实施例可以聚焦与目标论文关系较为紧密的重要论文，所以对最终形成的论文溯源树中的被引用的论文数量可进行设定，默认配置下为100。

如图2所示，对目标论文有重要影响的论文，被目标论文直接引用的论文例如GPT[Radford，2018]、ELMo[Peters，2018]、GloVe[Pennington，2014]等，被目标论文间接引用的论文例如Seq2Seq[Sutskever，2014]。

步骤200，创建各技术文档的特征向量，特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征。技术文档包括目标技术文档和参考技术文档。本发明将目标技术文档溯源过程转化为特征向量的计算过程，基于各个特征向量得到论文溯源树。以一篇前言论文q为例，可将本发明抽象为计算论文q的论文溯源树(V，E，C，W)。其中，V表示溯源树的节点，各节点为一篇相关的引用论文；E表示溯源树的边，每个边表示论文演变的潜在路线；C表示若干数量的溯源路线，每条路线包括一些引用论文和其内容的代表性标签；W表示影响力值(或分数)，每篇引用论文都含有一个对于目标论文影响力的值(或分数)。

本发明步骤200可包括步骤201～203，即创建各技术文档的特征向量包括如下的步骤201～203。

步骤201，抽取各技术文档中文本数据，利用文本数据创建文本特征向量，文本特征向量用于表征技术文档的文本特征。其中，利用文本数据创建文本特征向量包括：基于词频-逆文本频率指数(term frequency-inverse document frequency，TF-IDF)的方式从文本数据中提取出第一向量，本发明可使用词频-逆文本频率指数的方式提取稀疏向量，将稀疏向量作为第一向量；而且可在文本数据处理时进行词干化处理，以把不同形式的同含义词语变成同一形式，例如doing、done、did统一为do等；还可利用n-gram方法提取在设定长度(如1-5个词之间)的所有词语和短语，可仅计算出现频率最高的设定数量(如2000个)词语。基于句子-来自变换器的双向编码器表征量(Sentence-Bidirectional EncoderRepresentations from Transformers，S-BERT)的方式从文本数据中提取出第二向量，提取方式可以为对文本序列进行编码，得到第二向量；编码过程中可直接截取文本数据(如摘要)中的固定数量(例如512个)词语作为输入。

根据第一向量和第二向量创建文本特征向量，可以直接将第一向量和第二向量组合后得到文本特征向量，当然也可对第一向量和第二向量进行去噪等处理后进行结合。文本特征向量能够从语言层面上精准地表达技术文档本身的内容，可见本发明充分考虑了技术文档本身内容的信息，实现对技术内容的深入挖掘。

以论文为例，本发明可从论文的标题、摘要部分等内容进行文本数据抽取，当然并不限于标题和摘要。

步骤202，基于文本特征向量、第一关联关系以及第二关联关系创建图特征向量，图特征向量用于表征不同技术文档之间的关联特征，图特征向量能够从参考技术文档之间的相互关联结构层面上表达技术文档内容。其中，第一关联关系为目标技术文档与各参考技术文档之间的关联关系，第二关联关系为不同的参考技术文档相互间的关联关系。具体地，本发明一些实施例能够采用快速的图嵌入表示方法(ProNE)得到图特征向量：第一步为对图的邻接矩阵做快速奇异值(Singular Value Decomposition，SVD)分解，图的邻接矩阵可用于表示第一关联关系和第二关联关系，从而得到图中各节点的初始向量；第二步为对图的邻接矩阵在谱空间做滤波，然后在基于第一步得到的初始向量在滤波后的邻接矩阵上进行特征传播，特征传播的内容具体可以为文本特征向量中的内容，进而能够得到图特征向量。

步骤203，根据文本特征向量和图特征向量创建各技术文档的特征向量。本发明例如可通过迭代计算的方式得到各技术文档的特征向量，迭代计算理解为一种特征传播方式，如利用Propagate函数(传播函数)实现。

其中，x_o表示技术文档的特征向量，

表示技术文档的文本特征向量，

表示技术文档的图特征向量。

步骤300，基于特征向量对参考技术文档进行聚类处理，以形成多个文档集合。本发明基于特征向量对参考技术文档进行聚类处理可包括：以参考技术文档的特征向量、第一关联关系及第二关联关系为依据对参考技术文档进行聚类处理，本发明具体可采用核K-均值聚类(Kernel K-means)算法对参考技术文档进行聚类，通过欧几里得距离作为聚类的依据。计算每个点x_i相对于类C_t中心

的欧几里得距离可表示为：

其中，

目的是让欧几里得距离近的点被分在同一类中。第二项αA_ij(默认α＝1.0)中A为邻接矩阵，A_ij表示论文p_i和论文p_j之间是否存在引用关系，是本实施例中采用的谱聚类所侧重的，设置A_ij目的是尽可能让有引用关系的点被分在同一类中。第三项βΦ_ij(默认β＝1.0)是额外的约束项，可根据具体情况而设定。

以图2为例，QANet[Yu，2018]和SQuAD[Rajpurkar，2016]分别是在机器阅读领域方向的模型论文和数据集论文，都在摘要中提及了“reading”、“question answer”、“SQuAD”等机器阅读理解相关的词语，而且在引用关系网络中这两篇论文有很多共同的邻居节点，如TriviaQA[Joshi，2017]和U-Net[Sun，2018]，QANet[Yu，2018]和SQuAD[Rajpurkar，2016]在特征空间中的位置比较近，所以在聚类中被归在了同一类。类似地，在机器翻译领域中的Attention、GoogleNMT、Seq2Seq等文章也被划分在了一类中。

步骤400，对于每个文档集合，根据时间关系排列参考技术文档构成溯源路线。以论文为例，按照引用阶数和时间顺序排序。如图2、3所示，可将同一类别下的论文链接成两条时间线，一条主时间线由直接引用构成，另一条副时间线则由间接引用构成。副时间线中最晚发表的论文会和同一时期的主时间线上的节点做链接，从而将整个类别的论文全部连接起来。所有类别中的最晚发表的主时间线论文还会进一步和目标论文连接，从而将全部引用论文与目标论文连接成一棵以目标论文为根节点、以引用论文为叶子节点的论文溯源树。

如图2所示，Seq2Seq作为间接引用论文没有被划分在Attention以及GoogleNMT所在的主时间线，而是出现在副时间线中，并被衔接到主时间线的最近的GoogleNMT节点上。三个不同类别最新发表的论文QANet、GPT、Attention都被连接到了目标论文(以目标论文“BERT”为例)上，从而构成了完整的溯源树骨架。

本发明可根据文档集合中参考技术文档的关键词信息，分别生成各个文档集合的标签。该标签例如可以是聚类中的类别相关信息，例如可以为多个参考技术文档中均出现频率较高的词汇。本发明一些实施例中可通过词分布的共现性选择方式确定文档集合中的标签，可以理解的是，在标签选择过程中，每个类别中的参考技术文档中的全部文本可以看作是第一词分布，每个标签按照与其他词语的共现性形成第二词分布，本发明尽可能使第二词分布与当前类别的第一词分布接近以及远离其他类别的词分布，以使挑选出的标签能够较好地表达当前类别的特点。

如图2所示，QANet和SQuAD所在的类别的标签是“阅读理解”，而Attention、GoogleNMT及Seq2Seq所在的类别的标签则是“机器翻译”，GPT、ELMo、GloVe所在的类别的标签则是“语言模型”。

本发明还能够根据各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值。

具体地，本发明可将聚类处理过程中使用的K_ij作为参考技术文档p_i对目标技术文档q的影响力，影响力值

其中，i_q代表目标技术文档q的下标。可理解的是，本发明在参考技术文档的基础上还能够计算出每个类别的影响力值

每个类别的影响力说明了该条溯源路线对于目标技术文档的影响程度。

如图2所示，本发明一些实施例可以通过颜色深浅和溯源路线的粗细程度表示影响力值的大小。“阅读理解”标签下QANet和SquAD所在的溯源路线较粗，则可认为该条溯源路线对目标技术文档的影响程度较大。“机器翻译”标签下的Attention和GoogleNMT的标记颜色较深，可认为Attention和GoogleNMT技术文档与目标技术文档的影响程度较大。

步骤500，以目标技术文档作为根节点，以参考技术文档作为叶子节点，按照溯源路线连接根节点和叶子节点，生成用于表征目标技术文档溯源结果的树形图，树形图能够理解为用于形成完整溯源树的骨架。本发明还可包括：为树形图中的各溯源路线分别对应设置标签，以及根据影响力值区分地标记树形图中的各溯源路线。

如图3所示，本发明一个实施例中生成的用于表征目标技术文档溯源结果的溯源树的示意图。图3以目标论文“BERT”的溯源树为例说明，在该溯源树中，顶端的论文是“BERT”，其引用的论文构成了一棵“树”，这些被“BERT”引用的论文按照时间顺序自上而下排列。其中，不同的类别的论文被分在不同的溯源路线上，每篇论文和每条路线都可通过计算得到对目标论文的影响力。

本发明可实现自动搜寻对目标论文产生重要影响的先驱工作的相关论文，实现对给定的学术论文的溯源分析，并且梳理成条理清晰的溯源树，在各个相关领域方向上进行探源。

如图4所示，本发明还能够提供一种技术文档溯源装置，该技术文档溯源装置可包括但不限于文档查找模块、向量创建模块、聚类处理模块、溯源路线生成模块及树形图生成模块。

文档查找模块用于基于给定的目标技术文档查找得到与目标技术文档存在关联关系的多个参考技术文档。可理解的是，本发明中的目标技术文档可包括但不限于论文，参考技术文档为被论文直接引用的论文和/或被论文间接引用的论文，关联关系为引用关系。当然，目标技术文档也可为专利文献、期刊等技术文档。

向量创建模块用于创建各技术文档的特征向量，特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；技术文档包括目标技术文档和参考技术文档。

向量创建模块具体包括第一创建子模块、第二创建子模块及第三创建子模块。

第一创建子模块用于抽取各技术文档中文本数据以及用于利用文本数据创建文本特征向量，文本特征向量用于表征技术文档的文本特征。第一创建子模块具体用于基于词频-逆文本频率指数的方式从文本数据中提取出第一向量，并用于基于句子-来自变换器的双向编码器表征量的方式从文本数据中提取出第二向量，以及用于根据第一向量和第二向量创建文本特征向量。第二创建子模块用于基于文本特征向量、第一关联关系以及第二关联关系创建图特征向量，图特征向量用于表征不同技术文档之间的关联特征。

其中，第一关联关系为目标技术文档与各参考技术文档之间的关联关系，第二关联关系为不同的参考技术文档相互间的关联关系。第三创建子模块用于根据文本特征向量和图特征向量创建各技术文档的特征向量。

聚类处理模块用于基于特征向量对参考技术文档进行聚类处理，以形成多个文档集合。聚类处理模块具体用于以参考技术文档的特征向量、第一关联关系及第二关联关系为依据对参考技术文档进行聚类处理。

溯源路线生成模块用于对于每个文档集合根据时间关系排列参考技术文档构成溯源路线。

本发明的技术文档溯源装置可包括标签生成模块和影响力计算模块。标签生成模块能够用于根据文档集合中参考技术文档的关键词信息分别生成各个文档集合的标签。影响力计算模块用于根据各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值。

树形图生成模块用于以目标技术文档作为根节点、以参考技术文档作为叶子节点，按照溯源路线连接根节点和叶子节点，生成用于表征目标技术文档溯源结果的树形图。树形图生成模块还能用于为树形图中的各溯源路线分别对应设置标签。树形图生成模块还可用于根据影响力值区分地标记树形图中的各溯源路线。

如图5所示，本发明可提供一种计算机设备，该计算机设备包括存储器和处理器。存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行本发明任一实施例中的技术文档溯源方法的步骤。该技术文档溯源方法可包括但不限于如下至少一个步骤。步骤100，基于给定的目标技术文档查找得到与目标技术文档存在关联关系的多个参考技术文档。本发明目标技术文档可以为论文，参考技术文档为被论文直接引用的论文和/或被论文间接引用的论文，关联关系为引用关系。步骤200，创建各技术文档的特征向量，特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；技术文档包括目标技术文档和参考技术文档。本发明步骤200可包括步骤201～203，即创建各技术文档的特征向量包括：步骤201，抽取各技术文档中文本数据，利用文本数据创建文本特征向量，文本特征向量用于表征技术文档的文本特征。其中，利用文本数据创建文本特征向量包括：基于词频-逆文本频率指数的方式从文本数据中提取出第一向量，基于句子-来自变换器的双向编码器表征量的方式从文本数据中提取出第二向量，根据第一向量和第二向量创建文本特征向量。步骤202，基于文本特征向量、第一关联关系以及第二关联关系创建图特征向量，图特征向量用于表征不同技术文档之间的关联特征；其中，第一关联关系为目标技术文档与各参考技术文档之间的关联关系，第二关联关系为不同的参考技术文档相互间的关联关系。步骤203，根据文本特征向量和图特征向量创建各技术文档的特征向量。步骤300，基于特征向量对参考技术文档进行聚类处理，以形成多个文档集合。本发明基于特征向量对参考技术文档进行聚类处理可包括：以参考技术文档的特征向量、第一关联关系及第二关联关系为依据对参考技术文档进行聚类处理。步骤400，对于每个文档集合，根据时间关系排列参考技术文档构成溯源路线。并可根据文档集合中参考技术文档的关键词信息，分别生成各个文档集合的标签。还可根据各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值。步骤500，以目标技术文档作为根节点，以参考技术文档作为叶子节点，按照溯源路线连接根节点和叶子节点，生成用于表征目标技术文档溯源结果的树形图。技术文档溯源方法还可包括：为树形图中的各溯源路线分别对应设置标签，以及根据影响力值区分地标记树形图中的各溯源路线。

本发明还能够提供一种计算机存储介质，该计算机存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现本发明任一实施例中的技术文档溯源方法的步骤。该技术文档溯源方法可包括但不限于如下至少一个步骤。步骤100，基于给定的目标技术文档查找得到与目标技术文档存在关联关系的多个参考技术文档。本发明目标技术文档可以为论文，参考技术文档为被论文直接引用的论文和/或被论文间接引用的论文，关联关系为引用关系。步骤200，创建各技术文档的特征向量，特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；技术文档包括目标技术文档和参考技术文档。本发明步骤200可包括步骤201～203，即创建各技术文档的特征向量包括：步骤201，抽取各技术文档中文本数据，利用文本数据创建文本特征向量，文本特征向量用于表征技术文档的文本特征。其中，利用文本数据创建文本特征向量包括：基于词频-逆文本频率指数的方式从文本数据中提取出第一向量，基于句子-来自变换器的双向编码器表征量的方式从文本数据中提取出第二向量，根据第一向量和第二向量创建文本特征向量。步骤202，基于文本特征向量、第一关联关系以及第二关联关系创建图特征向量，图特征向量用于表征不同技术文档之间的关联特征；其中，第一关联关系为目标技术文档与各参考技术文档之间的关联关系，第二关联关系为不同的参考技术文档相互间的关联关系。步骤203，根据文本特征向量和图特征向量创建各技术文档的特征向量。步骤300，基于特征向量对参考技术文档进行聚类处理，以形成多个文档集合。本发明基于特征向量对参考技术文档进行聚类处理可包括：以参考技术文档的特征向量、第一关联关系及第二关联关系为依据对参考技术文档进行聚类处理。步骤400，对于每个文档集合，根据时间关系排列参考技术文档构成溯源路线。并可根据文档集合中参考技术文档的关键词信息，分别生成各个文档集合的标签。还可根据各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值。步骤500，以目标技术文档作为根节点，以参考技术文档作为叶子节点，按照溯源路线连接根节点和叶子节点，生成用于表征目标技术文档溯源结果的树形图。技术文档溯源方法还可包括：为树形图中的各溯源路线分别对应设置标签，以及根据影响力值区分地标记树形图中的各溯源路线。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，″计算机可读存储介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM，Random Access Memory)，只读存储器(ROM，Read-Only Memory)，可擦除可编辑只读存储器(EPROM，Erasable Programmable Read-Only Memory，或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM，Compact Disc Read-Only Memory)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA，Programmable Gate Array)，现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种技术文档溯源方法，其特征在于，包括：

基于给定的目标技术文档查找得到与所述目标技术文档存在关联关系的多个参考技术文档；

创建各技术文档的特征向量，所述特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；所述技术文档包括目标技术文档和参考技术文档；所述创建各技术文档的特征向量包括：抽取各技术文档中文本数据，利用所述文本数据创建文本特征向量，所述文本特征向量用于表征技术文档的文本特征；基于所述文本特征向量、第一关联关系以及第二关联关系创建图特征向量，所述图特征向量用于表征不同技术文档之间的关联特征；其中，所述第一关联关系为所述目标技术文档与各所述参考技术文档之间的关联关系，所述第二关联关系为不同的参考技术文档相互间的关联关系；根据所述文本特征向量和所述图特征向量创建所述各技术文档的特征向量；

基于所述特征向量对所述参考技术文档进行聚类处理，以形成多个文档集合；

对于每个文档集合，根据时间关系排列所述参考技术文档构成溯源路线；

2.根据权利要求1所述的技术文档溯源方法，其特征在于，还包括：

根据文档集合中参考技术文档的关键词信息，分别生成各个文档集合的标签；

为树形图中的各溯源路线分别对应设置标签。

3.根据权利要求1所述的技术文档溯源方法，其特征在于，还包括：

根据所述各技术文档的特征向量计算各文档集合对于目标技术文档的影响力值；

根据所述影响力值区分地标记所述树形图中的各溯源路线。

4.根据权利要求1所述的技术文档溯源方法，其特征在于，所述利用所述文本数据创建文本特征向量包括：

基于词频-逆文本频率指数的方式从所述文本数据中提取出第一向量；

基于句子-来自变换器的双向编码器表征量的方式从所述文本数据中提取出第二向量；

根据所述第一向量和所述第二向量创建所述文本特征向量。

5.根据权利要求4所述的技术文档溯源方法，其特征在于，所述基于所述特征向量对所述参考技术文档进行聚类处理包括：

6.根据权利要求5所述的技术文档溯源方法，其特征在于，所述目标技术文档为论文，所述参考技术文档为被所述论文直接引用的论文和/或被所述论文间接引用的论文，所述关联关系为引用关系。

7.一种技术文档溯源装置，其特征在于，包括：

文档查找模块，用于基于给定的目标技术文档查找得到与所述目标技术文档存在关联关系的多个参考技术文档；

向量创建模块，用于创建各技术文档的特征向量，所述特征向量用于表征技术文档的文本特征和不同技术文档之间的关联特征；所述技术文档包括目标技术文档和参考技术文档；

向量创建模块具体包括第一创建子模块、第二创建子模块及第三创建子模块；

第一创建子模块用于抽取各技术文档中文本数据以及用于利用文本数据创建文本特征向量，文本特征向量用于表征技术文档的文本特征；

第二创建子模块用于基于文本特征向量、第一关联关系以及第二关联关系创建图特征向量，图特征向量用于表征不同技术文档之间的关联特征；

其中，第一关联关系为目标技术文档与各参考技术文档之间的关联关系，第二关联关系为不同的参考技术文档相互间的关联关系；

第三创建子模块用于根据文本特征向量和图特征向量创建各技术文档的特征向量；

聚类处理模块，用于基于所述特征向量对所述参考技术文档进行聚类处理，以形成多个文档集合；

溯源路线生成模块，用于对于每个文档集合根据时间关系排列所述参考技术文档构成溯源路线；

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述的技术文档溯源方法的步骤。

9.一种计算机存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一权利要求所述的技术文档溯源方法的步骤。