CN104199809A - 一种专利文本向量的语义表示方法 - Google Patents
一种专利文本向量的语义表示方法 Download PDFInfo
- Publication number
- CN104199809A CN104199809A CN201410169250.8A CN201410169250A CN104199809A CN 104199809 A CN104199809 A CN 104199809A CN 201410169250 A CN201410169250 A CN 201410169250A CN 104199809 A CN104199809 A CN 104199809A
- Authority
- CN
- China
- Prior art keywords
- semantic
- lexical item
- text
- vector
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种专利文本向量的语义表示方法,通过构建领域专利知识库,用于计算专利文本词项的专利语义权重,具体过程为:假设两待比对的专利文本为dx和dz,首先通过词包法将dx和dz表示成实词向量xx和zz;然后通过构建的领域专利知识库赋以各词项专利语义权重,将xx和zz进一步表示成带有专利语义信息的向量xx0和zz0;再结合利用TF-IDF规则,最后将专利文本表示成带有专利语义权重信息以及词频权重信息的文本向量x和z。本发明可应用于专利文本向量表示过程中专利词项语义信息的表达,并进一步用于后续的专利文本相似度的计算,从而进一步提高专利文本相似度计算的精确率和召回率。
Description
技术领域
本发明属于专利文献检索领域,具体涉及一种专利文本的向量空间表示方法。
背景技术
各国专利文献基本上都有基本统一的内容结构和统一的国际专利分类IPC体系。与发明技术方案相关的专利文献的内容结构部分包括:专利名称、摘要、说明书、权利要求书、IPC号及对比文件。说明书又包括背景技术、发明内容和具体实施方式。专利文献在用词和造句上与一般科技文献有很大的区别,这些特点给专利文献的相似计算带来很大的困难。专利文献的词句表达具有自身特点。在不同的专利文献之间,专利申请为了达到专利审查的新颖性,常将同一产品冠以不同的名称,相同概念的用语可能大相径庭,导致大量未登录专业术语的密集出现;为了拓宽保护范围,术语使用往往概念上位化,如关于“水杯”的发明创造,往往会用“一种容器”来表达,通篇不出现“水杯”二字;专利文献使用大量晦涩的技术性术语但很严谨很少出现歧义,技术术语带有很强的专业性,有些术语在某一特定技术领域内反复出现,而在其它领域内很少出现;存在大量的专业术语定语嵌套现象,如“免疫球蛋白”、“免疫球蛋白分子”、“免疫球蛋白分子编码序列”。专利文献的这些特点,使得专利文献的语义表示带有特殊性。
现有研究中,将语义专利分析法用于计算专利相似度以测量专利的新颖性[1]及评价专利侵权风险[2],将潜在语义分析方法用于检测专利文献与科学出版物之间的相似度[3],将隐概念作为基本的文本元素用于专利的相似测量的研究[4],利用语义技术相似的主客相互关系结构来描述技术合作者之间的相互结构关系,用以判别专利的侵权[5]等,虽在一定程度上涉及语义,并未能很好地挖掘专利文献的用词特点,结合专利文献用词特点将专利文本的专利语义信息表达于专利文本向量表示中。此外,现有的WordNet、YAGO等通用词典中,专业术语数量有限;借助外部词典WordNet,分析具有较高TF-IDF值的重要词项之间的语义相似度[6]等在一定程度上提供了检索效果,但均不能很好地适应专利文献的用词特点,导致很多专利语义信息丢失。专利本体库构建方法、利用OWL进行语义专利信息检索和管理[7]等的相关研究,只是为专利本体的构建提供了一些方法思路,未能构建领域专利知识库,并用于专利文本的语义表示。
现有的专利文本向量的语义表示方法有待进一步挖掘专利文献的用词造句特点;现有的专业领域本体缺少大量未登录的在专利文献中密集出现的领域专利技术术语。需要结合专利文献的用词特点,提供专利文本向量中专利文献词项语义表示的新方法。
对比文件
Gerken JM,A New Instruments for Technology Monitoring:Novelty in Patents Measuredby Semantic Patent Analysis[J],Scientometrics,Vol.91,No.3,PP.645-670,2012
Bergmann I,Butzke D,Walter L,et al,Evaluating the Risk of Patent Infringement by Meansof Semantic Patent Analysis:the Case of DNA Chips[J],R&DManagement,Vol.38,No.5,PP.550-562,2008
Magerman Tom,Van Looy Bart,Song Siaoyan,Exploring the Feasibility and Accuracy ofLatent Semantic Analysis based on Text Mining Techniques to Detect Similarity BetweenPatent Documents and Scientific Publications[J],Scientometrics,Vol.82,No.2,pp.289-306,2010
Moehrle Martin G,Measures for Textual Patent Similarities:A Guided Way to SelectAppropriate Approaches[J],Scientometrics,Vol.85,No.1,pp.95-109,2010
Park Hyunseok,Yoon Janghyeok,Kim Kwangsoo,Identifying Patent Infringement UsingSAO based on Semantic Technological Similarities[J],Scientometrics,Vol.90,No.2,pp.515-529,2012
黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J],计算机学报,第34卷,第5期,页码856-864,2011
Bermudez-Edo M,Noguera M,Garrido J L,et al.Semantic Patent Information Retrieval andManagement withOWL[M]//Advances in Information Systems and Technologies.SpringerBerlin Heidelberg,2013:33-42.
发明内容
本发明的目的在于提供一种专利文本向量的语义表示方法,以进一步挖掘专利文献的用词特点,使得专利文本向量能进一步表达专利语义信息,从而提高后继的专利文本向量相似度计算和相似检测时,专利文献相似度计算的精确率和召回率。
为了解决以上技术问题,本发明采用的具体技术方案如下
一种专利文本向量的语义表示方法,其特征在于包括以下步骤:
步骤一,构建领域专利知识库;
步骤二,利用构建的领域专利知识库,计算词项的专利语义权重,将专利文本表示成带有专利语义信息的向量:假设两待比对的专利文本为dx和dz,首先通过词包法将dx和dz表示成实词向量xx和zz;然后通过构建的领域专利知识库赋以各词项专利语义权重,将xx和zz进一步表示成带有专利语义信息的向量xx0和zz0;所述实词为出现在专利文献中的名词、动词、形容词和副词,即所述词项;
步骤三,结合利用TF-IDF规则,最后将专利文本表示成带有专利语义权重信息以及词频权重信息的专利文本向量x和z。
所述构建领域专利知识库的方法为:基于所述领域的领域词典和德温特世界专利索引数据库即DWPI数据库公开的所述领域的专利文献,结合所述领域的技术国际专利分类即IPC分类体系层次结构关系,构建所述领域专利知识库。
所述步骤二进一步具体为
输入:待比对的专利文本dx和专利文本dz
输出:待比对的专利文本dx和专利文本dz分别对应的专利文本向量x和z
步骤1,用词包法分别将dz和dx表示成两个词频向量xx和zz
φ1:dz→zz=φ1(dz)=(tf(t1,dz),tf(t2,dz),...,tf(tN,dz))∈RN,
φ1:dx→xx=φ1(dx)=(tf(t1,dx),tf(t2,dx),...,tf(tN,dx))∈RN
式中f(ti,dx)和f(ti,dz)分别是词项ti,i=1,...,N在dx和dz中出现的频率,N为词典大小;
步骤2,利用所构建的领域专利知识库,计算zz和xx中各词项ti,i=1,...,N的专利语义权重,将专利文本进一步表示成带有知识语义信息的专利文本向量xx0和zz0
φ2:zz→zz0=φ2(zz)=(ω(t1)tf(t1,zz),ω(t2)tf(t2,zz),...,ω(tN)tf(tN,zz))∈RN
φ2:xx→xx0=φ2(xx)=(ω(t1)tf(t1,xx),ω(t2)tf(t2,xx),...,ω(tN)tf(tN,xx))∈RN
ω(ti)为词项ti的专利语义权重,通过将专利文本中词项ti对应关联到领域专利知识库中,计算得词项ti的专利语义权重ω(ti);
步骤3,针对专利文献带有很强的专业性,术语在某一特定专业领域内反复出现,而在其它专业领域却很少出现的特点,利用TF-IDF规则,即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现,则认为该术语具有很好的类别区分能力;在很多个专利文献中都出现的术语,区分性能较弱,进一步结合利用TF-IDF规则定义词项ti的词频权重w0(ti)来表达术语重要程度,将专利文本dx和dz进一步表示成专利文本向量x和z
φ3:zz0→z=φ3(zz0)=(ω0(t1)ω(t1)tf(t1,zz),ω0(t2)ω(t2)tf(t2,zz),...,ω0(tN)ω(tN)tf(tN,zz))∈RN
φ3:xx0→x=φ3(xx0)=(ω0(t1)ω(t1)tf(t1,xx),ω0(t2)ω(t2)tf(t2,xx),...,ω0(tN)ω(tN)tf(tN,xx))∈RN。
进一步考虑词项ti出现在专利文献中的位置不同时词项ti对专利文献相关度的贡献不同,赋以各词项ti的位置权重δ(ti),将专利文本进一步表示成带有位置权重信息的专利文本向量x0和z0:
φ4:z→z0=φ4(z)=(δ(t1)tf(t1,z),δ(t2)tf(t2,z),...,δ(tN)tf(tN,z))∈RN
φ4:x→x0=φ4(x)=(δ(t1)tf(t1,x),δ(t2)tf(t2,x),...,δ(tN)tf(tN,x))∈RN
所述专利文献中的位置包括专利名称、摘要、背景技术、发明内容、具体实施方式和权利要求书;权利要求书包括独立权利要求部分和从属权利要求部分。
所述专利语义权重ω(ti)的计算方法如下:
通过将专利文献中词项ti对应关联到领域专利知识库中,具体为:基于本体概念群组划分的语义距离计算方法计算ω(ti):先利用多概念群组下概念语义距离的计算方法,然后分别利用群组内和群组间的概念语义距离计算方法,通过引入下正向和反向的语义距离,来解决上下位的关系概念对语义相似度的非对称性,并通过概念节点的位置动态分配关系的权值来处理其它非上下位的二元关系。
所述位置权重δ(ti)设置方法为:
词项ti的位置权值δ(ti)的大小依据词项ti出现在专利文献中的位置和专利相似检索的目的不同进行设置:当为专利池战略检索时,出现在权利要求书中的词项ti的δ(ti)大于在其它专利文献中的位置出现的词项的δ(ti);当为侵权检索时,出现在权利要求书中的词项的δ(ti)大于在专利文献其它内容部分出现的词项的δ(ti),且仅在独立权要求中出现的词项的δ(ti)大于仅在从属权要求位置出现的词项的δ(ti);当为新颖性检索时,将出现在专利说明书各个部分即背景技术、发明内容和具体实施方式,独立权利要求和从属权利要求中不同位置中的词项的δ(ti)设置相同;当为领域相关检索时,各个专利文献中的位置的词项的δ(ti)设为相同。
本发明具有有益效果。本发明通过结合领域词典和IPC分类本系构建领域专利知识库,可进一步挖掘专利文献的用词造句特点,弥补了现有的专业领域本体缺少大量未登录的在专利文献中密集出现的领域专利技术术语的缺陷,更规范和完整地表示了领域专利词项;通过利用所构建的领域专利知识库来表示专利文本向量中词项的专利语义信息,提高了专利文本的专利语义表示能力包括语义表示的准确性和全面性,从而提高后继的基于专利文本向量的专利文献相似度计算和检索的精确率和召回率。本发明通过结合词项出现在专利文献中的位置不同和专利文献相似检索的目的不同,赋以专利文本向量中词项不同的位置权重,进一步提高了专利文献相似度计算和检索的针对性和有效性。
附图说明
图1为本发明的方法思路示意图;
图2为本发明领域专利知识库的构建示意图;
图3为本发明词项对应关联到专利知识库中的关联关系图。
具体实施方式
下面结合附图和具体实施例,对本发明的技术方案作进一步详细说明。
以大田作物保护技术领域的专利文献的相似检索时,专利文本的语义表示为例。
本发明的方法思路如图1所示。
通过DWPI专利数据库检索后的相关领域专利文献经同族专利去重后共5538篇,记为M篇,构成文集。文集中不同的实词共N个,并用Ni,i=1,…,N表示。结合大田作物保护技术领域对应的IPC分类号为IPC号为A01G11,A01G13和A01G15,利用IPC分类表,找到对应的IPC技术分类目录。结合农业词典DictionaryofAgriculture_3rdedition_2006,以下简称DA,构建领域专利知识库,具体构建方法过程如图2所示。
为了方便描述本发明方法过程,设N=10。有一篇所述领域的专利文献dx,共有3个不同的实词,且分别对应着词典里面的3个词项N1,N3和N7,如表1所示。
表1.词典中各词项在专利文献dx中出现的词频
词项 | N1 | N2 | N3 | N4 | N5 | N6 | N7 | N8 | N9 | N10 |
词频 | 12 | 0 | 7 | 0 | 0 | 0 | 3 | 0 | 0 | 0 |
所述3个不同的实词N1,N3和N7出现在专利文献dx中的位置及次数不尽相同,如表2所示。
表2.各实词在专利文献中出的位置和频次
*表中,nNi,表示词项Ni出现的次数是n。i=1,3,7;n=1,2,4.
步骤1,依据表1,用词包法将dx表示成词频向量xx
φ1:dx→xx=φ1(dx)=(12,0,7,0,0,0,3,0,0,0)∈R10,
标准化后为:
步骤2,利用所构建的领域专利知识库,计算xx中各词项N1,N3和N7的专利语义权重,将专利文本进一步表示成带有知识语义信息的专利文本向量xx0
将词项N1,N3和N7关联到所构建的专利知识库中,如图3所示。利用多概念群组下概念语义距离的计算方法,然后分别利用群组内和群组间的概念语义距离计算方法分别计算词项N1,N3和N7的专利语义权重ω(N1)、ω(N3)和ω(N7),分别为:ω(N1)=0.4,ω(N1)=0.3,ω(N7)=0.3。
步骤3,利用TF-IDF规则,即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现,则认为该术语具有很好的类别区分能力;在很多个专利文献中都出现的术语,区分性能较弱,进一步结合利用TF-IDF规则定义词项N1,N3和N7的词频权重ω0(N1)、ω0(N3)和ω0(N7)来表达术语即词项的重要程度,将专利文本dx和dz进一步表示成专利文本向量x和z;
TF(N1)=12/(12+7+3)=6/11;TF(N3)=7/(12+7+3)=7/22;TF(N7)=3/(12+7+3)=3/22。
利用检索式IC=(A01G0011orA01G0013orA01G0015)ANDDP>=(20090101)ANDDP<=(20131231),通过DWPI检索得文集中专利文献的篇数M=5538,词项N1,N3和N7分别在文集中的200个专利文献、500个专利文献和1000个专利文献中出现过,则文件频率IDF分值分别为IDF(N1)=lg(5538/200)=lg27.69,IDF(N3)=lg(5538/500)=lg11.076,IDF(N7)=lg(5538/1000)=lg5.538。则词项N1,N3和N7的TF-IDF分数分别为:TF-IDF(N1)=TF(N1)*IDF(N1)=6/11*lg27.69,TF-IDF(N3)=TF(N3)*IDF(N3)=7/22*lg11.076,TF-IDF(N7)=TF(N7)*IDF(N7)=3/22*lg5.538,于是得:
可进一步依据词项N1,N3和N7在如表2所示的处于专利文献中的位置,赋以词项位置权重δ(N1),δ(N3),δ(N7)。针对侵权检索时,设置出现在权利要求书中的词项的位置权重大于在专利文献其它内容部分出现的词项的位置权重;依表2,设δ(N1)=0.8,δ(N3)=0.15,δ(N7)=0.05。得专利文献dx中的专利文本带位置权重和语义权重的向量表示为
为本发明实施例所表示的专利文本向量,词项带有专利语义权重信息和在专利文献中的位置信息。
Claims (6)
1.一种专利文本向量的语义表示方法,其特征在于包括以下步骤:
步骤一,构建领域专利知识库;
步骤二,利用构建的领域专利知识库,计算词项的专利语义权重,将专利文本表示成带有专利语义信息的向量:假设两待比对的专利文本为dx和dz,首先通过词包法将dx和dz表示成实词向量xx和zz;然后通过构建的领域专利知识库赋以各词项专利语义权重,将xx和zz进一步表示成带有专利语义信息的向量xx0和zz0;所述实词为出现在专利文献中的名词、动词、形容词和副词,即所述词项;
步骤三,结合利用TF-IDF规则,最后将专利文本表示成带有专利语义权重信息以及词频权重信息的专利文本向量x和z。
2.根据权利要求1所述的一种专利文本向量的语义表示方法,其特征在于所述构建领域专利知识库的方法为:基于所述领域的领域词典和德温特世界专利索引数据库即DWPI数据库公开的所述领域的专利文献,结合所述领域的技术国际专利分类即IPC分类体系层次结构关系,构建所述领域专利知识库。
3.根据权利要求1所述的一种专利文本向量的语义表示方法,其特征在于所述步骤二进一步具体为
输入:待比对的专利文本dx和专利文本dz
输出:待比对的专利文本dx和专利文本dz分别对应的专利文本向量x和z
步骤1,用词包法分别将dz和dx表示成两个词频向量xx和zz
φ1:dz→zz=φ1(dz)=(tf(t1,dz),tf(t2,dz),...,tf(tN,dz))∈RN,
φ1:dx→xx=φ1(dx)=(tf(t1,dx),tf(t2,dx),...,tf(tN,dx))∈RN
式中f(ti,dx)和f(ti,dz)分别是词项ti,i=1,...,N在dx和dz中出现的频率,N为词典大小;
步骤2,利用所构建的领域专利知识库,计算zz和xx中各词项ti,i=1,...,N的专利语义权重,将专利文本进一步表示成带有知识语义信息的专利文本向量xx0和zz0
φ2:zz→zz0=φ2(zz)=(ω(t1)tf(t1,zz),ω(t2)tf(t2,zz),...,ω(tN)tf(tN,zz))∈RN
φ2:xx→xx0=φ2(xx)=(ω(t1)tf(t1,xx),ω(t2)tf(t2,xx),...,ω(tN)tf(tN,xx))∈RN
ω(ti)为词项ti的专利语义权重,通过将专利文本中词项ti对应关联到领域专利知识库中,计算得词项ti的专利语义权重ω(ti);
步骤3,针对专利文献带有很强的专业性,术语在某一特定专业领域内反复出现,而在其它专业领域却很少出现的特点,利用TF-IDF规则,即当某个专利术语在一篇或少数专利文献中出现的频率高而在其它专利文献中很少出现,则认为该术语具有很好的类别区分能力;在很多个专利文献中都出现的术语,区分性能较弱,进一步结合利用TF-IDF规则定义词项ti的词频权重w0(ti)来表达术语重要程度,将专利文本dx和dz进一步表示成专利文本向量x和z
φ3:zz0→z=φ3(zz0)=(ω0(t1)ω(t1)tf(t1,zz),ω0(t2)ω(t2)tf(t2,zz),...,ω0(tN)ω(tN)tf(tN,zz))∈RN
φ3:xx0→x=φ3(xx0)=(ω0(t1)ω(t1)tf(t1,xx),ω0(t2)ω(t2)tf(t2,xx),...,ω0(tN)ω(tN)tf(tN,xx))∈RN。
4.根据权利要求3所述的一种专利文本向量的语义表示方法,其特征在于:进一步考虑词项ti出现在专利文献中的位置不同时词项ti对专利文献相关度的贡献不同,赋以各词项ti的位置权重δ(ti),将专利文本进一步表示成带有位置权重信息的专利文本向量x0和z0:
φ4:z→z0=φ4(z)=(δ(t1)tf(t1,z),δ(t2)tf(t2,z),...,δ(tN)tf(tN,z))∈RN
φ4:x→x0=φ4(x)=(δ(t1)tf(t1,x),δ(t2)tf(t2,x),...,δ(tN)tf(tN,x))∈RN
所述专利文献中的位置包括专利名称、摘要、背景技术、发明内容、具体实施方式和权利要求书;权利要求书包括独立权利要求部分和从属权利要求部分。
5.根据权利要求3所述的一种专利文本向量的语义表示方法,其特征在于所述专利语义权重ω(ti)的计算方法如下:
通过将专利文献中词项ti对应关联到领域专利知识库中,具体为:基于本体概念群组划分的语义距离计算方法计算ω(ti):先利用多概念群组下概念语义距离的计算方法,然后分别利用群组内和群组间的概念语义距离计算方法,通过引入下正向和反向的语义距离,来解决上下位的关系概念对语义相似度的非对称性,并通过概念节点的位置动态分配关系的权值来处理其它非上下位的二元关系。
6.根据权利要求4所述的一种专利文本向量的语义表示方法,其特征在于所述位置权重δ(ti)设置方法为:
词项ti的位置权值δ(ti)的大小依据词项ti出现在专利文献中的位置和专利相似检索的目的不同进行设置:当为专利池战略检索时,出现在权利要求书中的词项ti的δ(ti)大于在其它专利文献中的位置出现的词项的δ(ti);当为侵权检索时,出现在权利要求书中的词项的δ(ti)大于在专利文献其它内容部分出现的词项的δ(ti),且仅在独立权要求中出现的词项的δ(ti)大于仅在从属权要求位置出现的词项的δ(ti);当为新颖性检索时,将出现在专利说明书各个部分即背景技术、发明内容和具体实施方式,独立权利要求和从属权利要求中不同位置中的词项的δ(ti)设置相同;当为领域相关检索时,各个专利文献中的位置的词项的δ(ti)设为相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410169250.8A CN104199809A (zh) | 2014-04-24 | 2014-04-24 | 一种专利文本向量的语义表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410169250.8A CN104199809A (zh) | 2014-04-24 | 2014-04-24 | 一种专利文本向量的语义表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104199809A true CN104199809A (zh) | 2014-12-10 |
Family
ID=52085104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410169250.8A Pending CN104199809A (zh) | 2014-04-24 | 2014-04-24 | 一种专利文本向量的语义表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199809A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN106021221A (zh) * | 2016-04-29 | 2016-10-12 | 曲阜师范大学 | 一种本体中概念双向语义相似度度量方法 |
CN107066589A (zh) * | 2017-04-17 | 2017-08-18 | 河南工业大学 | 一种基于综合知识的实体语义和词频的排序方法及装置 |
WO2017162134A1 (zh) * | 2016-03-22 | 2017-09-28 | 索尼公司 | 用于文本处理的电子设备和方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN109448793A (zh) * | 2018-10-15 | 2019-03-08 | 智慧芽信息科技(苏州)有限公司 | 基因序列的权利范围认定、检索及侵权判定方法、系统 |
CN110119445A (zh) * | 2018-01-15 | 2019-08-13 | 北京京东尚科信息技术有限公司 | 生成特征向量和基于特征向量进行文本分类的方法和装置 |
CN111242494A (zh) * | 2019-06-13 | 2020-06-05 | 内蒙古大学 | 一种基于博弈论的专利侵权检测方法及系统 |
CN113330441A (zh) * | 2019-05-31 | 2021-08-31 | 株式会社艾飒木兰 | 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序 |
CN115879441A (zh) * | 2022-11-10 | 2023-03-31 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539906A (zh) * | 2008-03-17 | 2009-09-23 | 亿维讯软件(北京)有限公司 | 一种专利文本自动分析的系统及方法 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
KR101054824B1 (ko) * | 2008-11-28 | 2011-08-05 | 한국과학기술원 | 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법 |
CN102662929A (zh) * | 2012-03-20 | 2012-09-12 | 中南大学 | 一种基于本体的问题智能分析处理的方法和装置 |
CN103455609A (zh) * | 2013-09-05 | 2013-12-18 | 江苏大学 | 一种基于新核函数Luke核的专利文献相似度检测方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
-
2014
- 2014-04-24 CN CN201410169250.8A patent/CN104199809A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539906A (zh) * | 2008-03-17 | 2009-09-23 | 亿维讯软件(北京)有限公司 | 一种专利文本自动分析的系统及方法 |
KR101054824B1 (ko) * | 2008-11-28 | 2011-08-05 | 한국과학기술원 | 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN102662929A (zh) * | 2012-03-20 | 2012-09-12 | 中南大学 | 一种基于本体的问题智能分析处理的方法和装置 |
CN103455609A (zh) * | 2013-09-05 | 2013-12-18 | 江苏大学 | 一种基于新核函数Luke核的专利文献相似度检测方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
Non-Patent Citations (2)
Title |
---|
宋丽平: "文本分类中特征选择方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李明涛 等: "结合词义的文本特征词权重计算方法", 《计算机应用》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
US10860798B2 (en) | 2016-03-22 | 2020-12-08 | Sony Corporation | Electronic device and method for text processing |
WO2017162134A1 (zh) * | 2016-03-22 | 2017-09-28 | 索尼公司 | 用于文本处理的电子设备和方法 |
CN106021221A (zh) * | 2016-04-29 | 2016-10-12 | 曲阜师范大学 | 一种本体中概念双向语义相似度度量方法 |
CN107066589B (zh) * | 2017-04-17 | 2020-04-10 | 河南工业大学 | 一种基于综合知识的实体语义和词频的排序方法及装置 |
CN107066589A (zh) * | 2017-04-17 | 2017-08-18 | 河南工业大学 | 一种基于综合知识的实体语义和词频的排序方法及装置 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN110119445B (zh) * | 2018-01-15 | 2024-09-20 | 北京京东尚科信息技术有限公司 | 生成特征向量和基于特征向量进行文本分类的方法和装置 |
CN110119445A (zh) * | 2018-01-15 | 2019-08-13 | 北京京东尚科信息技术有限公司 | 生成特征向量和基于特征向量进行文本分类的方法和装置 |
CN109448793A (zh) * | 2018-10-15 | 2019-03-08 | 智慧芽信息科技(苏州)有限公司 | 基因序列的权利范围认定、检索及侵权判定方法、系统 |
CN113330441A (zh) * | 2019-05-31 | 2021-08-31 | 株式会社艾飒木兰 | 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序 |
CN111242494A (zh) * | 2019-06-13 | 2020-06-05 | 内蒙古大学 | 一种基于博弈论的专利侵权检测方法及系统 |
CN111242494B (zh) * | 2019-06-13 | 2023-04-07 | 内蒙古大学 | 一种基于博弈论的专利侵权检测方法及系统 |
CN115879441B (zh) * | 2022-11-10 | 2024-04-12 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
CN115879441A (zh) * | 2022-11-10 | 2023-03-31 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199809A (zh) | 一种专利文本向量的语义表示方法 | |
Ristoski et al. | Rdf2vec: Rdf graph embeddings for data mining | |
Schubotz et al. | Semantification of identifiers in mathematics for better math information retrieval | |
Qiu et al. | Dictionary‐based automated information extraction from geological documents using a deep learning algorithm | |
CN103473280A (zh) | 一种网络可比语料的挖掘方法及装置 | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
CN105893485A (zh) | 一种基于图书目录的专题自动生成方法 | |
Jeon et al. | Automatic CAD model retrieval based on design documents using semantic processing and rule processing | |
CN106909537A (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
Hussein | Visualizing document similarity using n-grams and latent semantic analysis | |
García et al. | Wikipedia-based cross-language text classification | |
Van Assem et al. | Converting and annotating quantitative data tables | |
CN113963748A (zh) | 一种蛋白质知识图谱向量化方法 | |
Varga et al. | Integrating dbpedia and sentiwordnet for a tourism recommender system | |
Basit et al. | Semantic similarity analysis of urdu documents | |
Mashhadirajab et al. | A Text Alignment Corpus for Persian Plagiarism Detection. | |
de Silva | SAFS3 algorithm: Frequency statistic and semantic similarity based semantic classification use case | |
Zhu et al. | Hierarchical Catalogue Generation for Literature Review: A Benchmark | |
Mefteh et al. | Semantic Structure for XML Documents: Structuring and pruning | |
CN103793491B (zh) | 一种基于柔性语义相似性度量的中文新闻故事分割方法 | |
Foroutan et al. | CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for Named Entity Recognition and Relation Extraction | |
Zhu et al. | Towards Visual Taxonomy Expansion | |
Phann et al. | Multi-Class Text Classification on Khmer News Using Ensemble Method in Machine Learning Algorithms | |
Sabbah et al. | Effect of thesaurus size on schema matching quality | |
Kolkman | Cross-domain textual geocoding: the influence of domain-specific training data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141210 |
|
RJ01 | Rejection of invention patent application after publication |