CN104199809A

CN104199809A - 一种专利文本向量的语义表示方法

Info

Publication number: CN104199809A
Application number: CN201410169250.8A
Authority: CN
Inventors: 王秀红; 袁银池; 汪满容; 卢章平
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2014-04-24
Filing date: 2014-04-24
Publication date: 2014-12-10

Abstract

本发明公开了一种专利文本向量的语义表示方法，通过构建领域专利知识库，用于计算专利文本词项的专利语义权重，具体过程为：假设两待比对的专利文本为dx和dz，首先通过词包法将dx和dz表示成实词向量xx和zz；然后通过构建的领域专利知识库赋以各词项专利语义权重，将xx和zz进一步表示成带有专利语义信息的向量xx₀和zz₀；再结合利用TF-IDF规则，最后将专利文本表示成带有专利语义权重信息以及词频权重信息的文本向量x和z。本发明可应用于专利文本向量表示过程中专利词项语义信息的表达，并进一步用于后续的专利文本相似度的计算，从而进一步提高专利文本相似度计算的精确率和召回率。

Description

一种专利文本向量的语义表示方法

技术领域

本发明属于专利文献检索领域，具体涉及一种专利文本的向量空间表示方法。

背景技术

各国专利文献基本上都有基本统一的内容结构和统一的国际专利分类IPC体系。与发明技术方案相关的专利文献的内容结构部分包括：专利名称、摘要、说明书、权利要求书、IPC号及对比文件。说明书又包括背景技术、发明内容和具体实施方式。专利文献在用词和造句上与一般科技文献有很大的区别，这些特点给专利文献的相似计算带来很大的困难。专利文献的词句表达具有自身特点。在不同的专利文献之间，专利申请为了达到专利审查的新颖性，常将同一产品冠以不同的名称，相同概念的用语可能大相径庭，导致大量未登录专业术语的密集出现；为了拓宽保护范围，术语使用往往概念上位化，如关于“水杯”的发明创造，往往会用“一种容器”来表达，通篇不出现“水杯”二字；专利文献使用大量晦涩的技术性术语但很严谨很少出现歧义，技术术语带有很强的专业性，有些术语在某一特定技术领域内反复出现，而在其它领域内很少出现；存在大量的专业术语定语嵌套现象，如“免疫球蛋白”、“免疫球蛋白分子”、“免疫球蛋白分子编码序列”。专利文献的这些特点，使得专利文献的语义表示带有特殊性。

现有研究中，将语义专利分析法用于计算专利相似度以测量专利的新颖性[¹]及评价专利侵权风险^[2]，将潜在语义分析方法用于检测专利文献与科学出版物之间的相似度^[3]，将隐概念作为基本的文本元素用于专利的相似测量的研究^[4]，利用语义技术相似的主客相互关系结构来描述技术合作者之间的相互结构关系，用以判别专利的侵权^[5]等，虽在一定程度上涉及语义，并未能很好地挖掘专利文献的用词特点，结合专利文献用词特点将专利文本的专利语义信息表达于专利文本向量表示中。此外，现有的WordNet、YAGO等通用词典中，专业术语数量有限；借助外部词典WordNet，分析具有较高TF-IDF值的重要词项之间的语义相似度^[6]等在一定程度上提供了检索效果，但均不能很好地适应专利文献的用词特点，导致很多专利语义信息丢失。专利本体库构建方法、利用OWL进行语义专利信息检索和管理^[7]等的相关研究，只是为专利本体的构建提供了一些方法思路，未能构建领域专利知识库，并用于专利文本的语义表示。

现有的专利文本向量的语义表示方法有待进一步挖掘专利文献的用词造句特点；现有的专业领域本体缺少大量未登录的在专利文献中密集出现的领域专利技术术语。需要结合专利文献的用词特点，提供专利文本向量中专利文献词项语义表示的新方法。

对比文件

Gerken JM,A New Instruments for Technology Monitoring:Novelty in Patents Measuredby Semantic Patent Analysis[J],Scientometrics,Vol.91,No.3,PP.645-670,2012

Bergmann I,Butzke D,Walter L,et al,Evaluating the Risk of Patent Infringement by Meansof Semantic Patent Analysis:the Case of DNA Chips[J],R&DManagement,Vol.38,No.5,PP.550-562,2008

Magerman Tom,Van Looy Bart,Song Siaoyan,Exploring the Feasibility and Accuracy ofLatent Semantic Analysis based on Text Mining Techniques to Detect Similarity BetweenPatent Documents and Scientific Publications[J],Scientometrics,Vol.82,No.2,pp.289-306,2010

Moehrle Martin G，Measures for Textual Patent Similarities:A Guided Way to SelectAppropriate Approaches[J],Scientometrics,Vol.85,No.1,pp.95-109,2010

Park Hyunseok,Yoon Janghyeok,Kim Kwangsoo,Identifying Patent Infringement UsingSAO based on Semantic Technological Similarities[J],Scientometrics,Vol.90,No.2,pp.515-529,2012

黄承慧，印鉴，侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]，计算机学报，第34卷，第5期，页码856-864，2011

Bermudez-Edo M,Noguera M,Garrido J L,et al.Semantic Patent Information Retrieval andManagement withOWL[M]//Advances in Information Systems and Technologies.SpringerBerlin Heidelberg,2013:33-42.

发明内容

本发明的目的在于提供一种专利文本向量的语义表示方法，以进一步挖掘专利文献的用词特点，使得专利文本向量能进一步表达专利语义信息，从而提高后继的专利文本向量相似度计算和相似检测时，专利文献相似度计算的精确率和召回率。

为了解决以上技术问题，本发明采用的具体技术方案如下

一种专利文本向量的语义表示方法，其特征在于包括以下步骤：

步骤一，构建领域专利知识库；

步骤二，利用构建的领域专利知识库，计算词项的专利语义权重，将专利文本表示成带有专利语义信息的向量：假设两待比对的专利文本为dx和dz，首先通过词包法将dx和dz表示成实词向量xx和zz；然后通过构建的领域专利知识库赋以各词项专利语义权重，将xx和zz进一步表示成带有专利语义信息的向量xx₀和zz₀；所述实词为出现在专利文献中的名词、动词、形容词和副词，即所述词项；

步骤三，结合利用TF-IDF规则，最后将专利文本表示成带有专利语义权重信息以及词频权重信息的专利文本向量x和z。

所述构建领域专利知识库的方法为：基于所述领域的领域词典和德温特世界专利索引数据库即DWPI数据库公开的所述领域的专利文献，结合所述领域的技术国际专利分类即IPC分类体系层次结构关系，构建所述领域专利知识库。

所述步骤二进一步具体为

输入：待比对的专利文本dx和专利文本dz

输出：待比对的专利文本dx和专利文本dz分别对应的专利文本向量x和z

步骤1，用词包法分别将dz和dx表示成两个词频向量xx和zz

φ₁:dz→zz＝φ₁(dz)＝(tf(t₁,dz),tf(t₂,dz),...,tf(t_N,dz))∈R^N，

φ₁:dx→xx＝φ₁(dx)＝(tf(t₁,dx),tf(t₂,dx),...,tf(t_N,dx))∈R^N

式中f(t_i,dx)和f(t_i,dz)分别是词项t_i,i＝1,...,N在dx和dz中出现的频率，N为词典大小；

步骤2，利用所构建的领域专利知识库，计算zz和xx中各词项t_i,i＝1,...,N的专利语义权重，将专利文本进一步表示成带有知识语义信息的专利文本向量xx₀和zz₀

φ₂:zz→zz₀＝φ₂(zz)＝(ω(t₁)tf(t₁,zz),ω(t₂)tf(t₂,zz),...,ω(t_N)tf(t_N,zz))∈R^N

φ₂:xx→xx₀＝φ₂(xx)＝(ω(t₁)tf(t₁,xx),ω(t₂)tf(t₂,xx),...,ω(t_N)tf(t_N,xx))∈R^N

ω(t_i)为词项t_i的专利语义权重，通过将专利文本中词项t_i对应关联到领域专利知识库中，计算得词项ti的专利语义权重ω(t_i)；

步骤3，针对专利文献带有很强的专业性，术语在某一特定专业领域内反复出现，而在其它专业领域却很少出现的特点，利用TF-IDF规则，即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现，则认为该术语具有很好的类别区分能力；在很多个专利文献中都出现的术语，区分性能较弱，进一步结合利用TF-IDF规则定义词项t_i的词频权重w₀(t_i)来表达术语重要程度，将专利文本dx和dz进一步表示成专利文本向量x和z

φ₃:zz₀→z＝φ₃(zz₀)＝(ω₀(t₁)ω(t₁)tf(t₁,zz),ω₀(t₂)ω(t₂)tf(t₂,zz),...,ω₀(t_N)ω(t_N)tf(t_N,zz))∈R^N

φ₃:xx₀→x＝φ₃(xx₀)＝(ω₀(t₁)ω(t₁)tf(t₁,xx),ω₀(t₂)ω(t₂)tf(t₂,xx),...,ω₀(t_N)ω(t_N)tf(t_N,xx))∈R^N。

进一步考虑词项t_i出现在专利文献中的位置不同时词项t_i对专利文献相关度的贡献不同，赋以各词项t_i的位置权重δ(t_i)，将专利文本进一步表示成带有位置权重信息的专利文本向量x₀和z₀：

φ₄:z→z₀＝φ₄(z)＝(δ(t₁)tf(t₁,z),δ(t₂)tf(t₂,z),...,δ(t_N)tf(t_N,z))∈R^N

φ₄:x→x₀＝φ₄(x)＝(δ(t₁)tf(t₁,x),δ(t₂)tf(t₂,x),...,δ(t_N)tf(t_N,x))∈R^N

Σ_{i = 1}^{N} δ (t_{i}) = 1,0 < δ (t_{i}) < 1

所述专利文献中的位置包括专利名称、摘要、背景技术、发明内容、具体实施方式和权利要求书；权利要求书包括独立权利要求部分和从属权利要求部分。

所述专利语义权重ω(t_i)的计算方法如下：

通过将专利文献中词项t_i对应关联到领域专利知识库中，具体为：基于本体概念群组划分的语义距离计算方法计算ω(t_i)：先利用多概念群组下概念语义距离的计算方法，然后分别利用群组内和群组间的概念语义距离计算方法，通过引入下正向和反向的语义距离，来解决上下位的关系概念对语义相似度的非对称性，并通过概念节点的位置动态分配关系的权值来处理其它非上下位的二元关系。

所述位置权重δ(t_i)设置方法为：

词项t_i的位置权值δ(t_i)的大小依据词项t_i出现在专利文献中的位置和专利相似检索的目的不同进行设置：当为专利池战略检索时，出现在权利要求书中的词项t_i的δ(t_i)大于在其它专利文献中的位置出现的词项的δ(t_i)；当为侵权检索时，出现在权利要求书中的词项的δ(t_i)大于在专利文献其它内容部分出现的词项的δ(t_i)，且仅在独立权要求中出现的词项的δ(t_i)大于仅在从属权要求位置出现的词项的δ(t_i)；当为新颖性检索时，将出现在专利说明书各个部分即背景技术、发明内容和具体实施方式，独立权利要求和从属权利要求中不同位置中的词项的δ(t_i)设置相同；当为领域相关检索时，各个专利文献中的位置的词项的δ(t_i)设为相同。

本发明具有有益效果。本发明通过结合领域词典和IPC分类本系构建领域专利知识库，可进一步挖掘专利文献的用词造句特点，弥补了现有的专业领域本体缺少大量未登录的在专利文献中密集出现的领域专利技术术语的缺陷，更规范和完整地表示了领域专利词项；通过利用所构建的领域专利知识库来表示专利文本向量中词项的专利语义信息，提高了专利文本的专利语义表示能力包括语义表示的准确性和全面性，从而提高后继的基于专利文本向量的专利文献相似度计算和检索的精确率和召回率。本发明通过结合词项出现在专利文献中的位置不同和专利文献相似检索的目的不同，赋以专利文本向量中词项不同的位置权重，进一步提高了专利文献相似度计算和检索的针对性和有效性。

附图说明

图1为本发明的方法思路示意图；

图2为本发明领域专利知识库的构建示意图；

图3为本发明词项对应关联到专利知识库中的关联关系图。

具体实施方式

下面结合附图和具体实施例，对本发明的技术方案作进一步详细说明。

以大田作物保护技术领域的专利文献的相似检索时，专利文本的语义表示为例。

本发明的方法思路如图1所示。

通过DWPI专利数据库检索后的相关领域专利文献经同族专利去重后共5538篇，记为M篇，构成文集。文集中不同的实词共N个，并用N_i,i＝1,…,N表示。结合大田作物保护技术领域对应的IPC分类号为IPC号为A01G11，A01G13和A01G15，利用IPC分类表，找到对应的IPC技术分类目录。结合农业词典DictionaryofAgriculture_3rdedition_2006，以下简称DA，构建领域专利知识库，具体构建方法过程如图2所示。

为了方便描述本发明方法过程，设N＝10。有一篇所述领域的专利文献dx，共有3个不同的实词，且分别对应着词典里面的3个词项N₁，N₃和N₇，如表1所示。

表1.词典中各词项在专利文献dx中出现的词频

词项	N₁	N₂	N₃	N₄	N₅	N₆	N₇	N₈	N₉	N₁₀
											词频	12	0	7	0	0	0	3	0	0	0

所述3个不同的实词N₁，N₃和N₇出现在专利文献dx中的位置及次数不尽相同，如表2所示。

表2.各实词在专利文献中出的位置和频次

*表中，nN_i,表示词项N_i出现的次数是n。i＝1,3,7；n＝1,2,4.

步骤1，依据表1，用词包法将dx表示成词频向量xx

φ₁:dx→xx＝φ₁(dx)＝(12,0,7,0,0,0,3,0,0,0)∈R¹⁰，

标准化后为：

xx = φ_{1} (dx) = (12 / \sqrt{202}, 0,7 / \sqrt{202}, 0,0,0,3 / \sqrt{202}, 0,0,0) &Element; R^{10} .

步骤2，利用所构建的领域专利知识库，计算xx中各词项N₁，N₃和N₇的专利语义权重，将专利文本进一步表示成带有知识语义信息的专利文本向量xx₀

将词项N₁，N₃和N₇关联到所构建的专利知识库中，如图3所示。利用多概念群组下概念语义距离的计算方法，然后分别利用群组内和群组间的概念语义距离计算方法分别计算词项N₁，N₃和N₇的专利语义权重ω(N₁)、ω(N₃)和ω(N₇)，分别为：ω(N₁)＝0.4，ω(N₁)＝0.3，ω(N₇)＝0.3。

φ_{2} : xx &RightArrow; {xx}_{0} = φ_{2} (xx) = (4.8 / \sqrt{202}, 0,2.1 / \sqrt{202}, 0,0,0,0.9 / \sqrt{202}, 0,0,0) &Element; R^{10} .

步骤3，利用TF-IDF规则，即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现，则认为该术语具有很好的类别区分能力；在很多个专利文献中都出现的术语，区分性能较弱，进一步结合利用TF-IDF规则定义词项N₁，N₃和N₇的词频权重ω₀(N₁)、ω₀(N₃)和ω₀(N₇)来表达术语即词项的重要程度，将专利文本dx和dz进一步表示成专利文本向量x和z；

TF(N₁)＝12/(12+7+3)＝6/11；TF(N₃)＝7/(12+7+3)＝7/22；TF(N₇)＝3/(12+7+3)＝3/22。

利用检索式IC＝(A01G0011orA01G0013orA01G0015)ANDDP>＝(20090101)ANDDP<＝(20131231)，通过DWPI检索得文集中专利文献的篇数M＝5538，词项N₁，N₃和N₇分别在文集中的200个专利文献、500个专利文献和1000个专利文献中出现过，则文件频率IDF分值分别为IDF(N1)＝lg(5538/200)＝lg27.69，IDF(N3)＝lg(5538/500)＝lg11.076，IDF(N₇)＝lg(5538/1000)＝lg5.538。则词项N₁，N₃和N₇的TF-IDF分数分别为：TF-IDF(N₁)＝TF(N₁)*IDF(N₁)＝6/11*lg27.69，TF-IDF(N₃)＝TF(N₃)*IDF(N₃)＝7/22*lg11.076，TF-IDF(N₇)＝TF(N₇)*IDF(N₇)＝3/22*lg5.538，于是得：

φ_{3} : {xx}_{0} &RightArrow; x = φ_{3} ({xx}_{0}) = ((4.8 / \sqrt{202}) * \lg 27.69 * 6 / 11,0, (2.1 / \sqrt{202}) * (\lg 11.076 * 7 / 22), 0,0,0 (0.9 / \sqrt{202}) * (\lg 5.538 * 3 / 22), 0,0,0)

可进一步依据词项N₁，N₃和N₇在如表2所示的处于专利文献中的位置，赋以词项位置权重δ(N₁)，δ(N₃)，δ(N₇)。针对侵权检索时，设置出现在权利要求书中的词项的位置权重大于在专利文献其它内容部分出现的词项的位置权重；依表2，设δ(N₁)＝0.8，δ(N₃)＝0.15，δ(N₇)＝0.05。得专利文献dx中的专利文本带位置权重和语义权重的向量表示为

φ_{4} : x &RightArrow; x_{0} = φ_{4} (x) = ((3.84 / \sqrt{202}) * \lg 27.69 * 6 / 11,0, (0.315 / \sqrt{202}) * (\lg 11.076 * 7 / 22), 0,0,0 (0.045 / \sqrt{202}) * (\lg 5.538 * 3 / 22), 0,0,0)

为本发明实施例所表示的专利文本向量，词项带有专利语义权重信息和在专利文献中的位置信息。

Claims

1.一种专利文本向量的语义表示方法，其特征在于包括以下步骤：

步骤一，构建领域专利知识库；

2.根据权利要求1所述的一种专利文本向量的语义表示方法，其特征在于所述构建领域专利知识库的方法为：基于所述领域的领域词典和德温特世界专利索引数据库即DWPI数据库公开的所述领域的专利文献，结合所述领域的技术国际专利分类即IPC分类体系层次结构关系，构建所述领域专利知识库。

3.根据权利要求1所述的一种专利文本向量的语义表示方法，其特征在于所述步骤二进一步具体为

输入：待比对的专利文本dx和专利文本dz

步骤1，用词包法分别将dz和dx表示成两个词频向量xx和zz

φ₁:dz→zz＝φ₁(dz)＝(tf(t₁,dz),tf(t₂,dz),...,tf(t_N,dz))∈R^N，

φ₁:dx→xx＝φ₁(dx)＝(tf(t₁,dx),tf(t₂,dx),...,tf(t_N,dx))∈R^N

4.根据权利要求3所述的一种专利文本向量的语义表示方法，其特征在于：进一步考虑词项t_i出现在专利文献中的位置不同时词项t_i对专利文献相关度的贡献不同，赋以各词项t_i的位置权重δ(t_i)，将专利文本进一步表示成带有位置权重信息的专利文本向量x₀和z₀：

Σ_{i = 1}^{N} δ (t_{i}) = 1,0 < δ (t_{i}) < 1

5.根据权利要求3所述的一种专利文本向量的语义表示方法，其特征在于所述专利语义权重ω(t_i)的计算方法如下：

6.根据权利要求4所述的一种专利文本向量的语义表示方法，其特征在于所述位置权重δ(t_i)设置方法为：