[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113449063B - 一种构建文档结构信息检索库的方法及装置 - Google Patents

一种构建文档结构信息检索库的方法及装置 Download PDF

Info

Publication number
CN113449063B
CN113449063B CN202110708173.9A CN202110708173A CN113449063B CN 113449063 B CN113449063 B CN 113449063B CN 202110708173 A CN202110708173 A CN 202110708173A CN 113449063 B CN113449063 B CN 113449063B
Authority
CN
China
Prior art keywords
document
domain
sample
vector
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110708173.9A
Other languages
English (en)
Other versions
CN113449063A (zh
Inventor
沈鹏
陈垚亮
王俞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rootcloud Technology Co Ltd
Original Assignee
Rootcloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rootcloud Technology Co Ltd filed Critical Rootcloud Technology Co Ltd
Priority to CN202110708173.9A priority Critical patent/CN113449063B/zh
Publication of CN113449063A publication Critical patent/CN113449063A/zh
Application granted granted Critical
Publication of CN113449063B publication Critical patent/CN113449063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种构建文档结构信息检索库的方法及装置,方法包括:对收集的样本文档进行领域细分项判定;针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;按照文档类型对领域细分项的样本文档进行划分,针对每一样本文档,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。可提高用于文档检索的精度。

Description

一种构建文档结构信息检索库的方法及装置
技术领域
本发明涉及信息检索技术领域,具体而言,涉及一种构建文档结构信息检索库的方法及装置。
背景技术
随着工业企业数字化的不断普及,很多工业企业拥有大量的说明、流程、规范等文档。基于数据安全的考虑,工业企业普遍选择开发针对自身领域的内部办公、业务系统,并在内部办公、业务系统中实现文档的共享和查询。
但目前的文档检索库,存储文档以及文档的关键词,根据用户输入的短文档内容,进行关键词命中,但由于文档检索库仅存储文档以及文档的关键词,依据从短文档提取的关键词进行查询命中,使得文档检索的精度较低,不能满足精细化的文档检索需求。
发明内容
有鉴于此,本发明的目的在于提供构建文档结构信息检索库的方法及装置,以提高构建的文档结构信息检索库用于文档检索的精度。
第一方面,本发明实施例提供了构建文档结构信息检索库的方法,包括:
对收集的样本文档进行领域细分项判定;
针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
按照预先设置的文档类型,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述方法还包括:
确定输入的待检索短文档所属的待检索领域细分项以及待检索领域细分项编码;
获取所述待检索领域细分项编码对应的待检索领域关键词库;
提取所述待检索短文档中的待检索文档结构化信息,依据待检索文档结构化信息以及待检索领域关键词库,生成待检索文档结构化信息向量;
对待检索文档结构化信息向量进行降维处理,得到待检索文档结构化信息降维向量;
依据待检索文档结构化信息降维向量,在文档结构信息检索库中进行检索,获取检索结果。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:
若检索结果中的命中文档的相似度超过预先设置的相似阈值,查询所述待检索短文档是否存储在所述待检索领域细分项对应的存储区中,若否,依据所述待检索短文档更新所述存储区存储的信息。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库,包括:
对目标领域细分项的各样本文档进行汉语分词,得到分词词语;
针对每一分词词语,计算该分词词语的词频-逆文本频率指数值;
依据词频-逆文本频率指数值,对分词词语进行排序;
对排序前N位的分词词语进行向量化以构建针对所述目标领域细分项的领域细分项关键词库,其中,N为预设的自然数。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量,包括:
针对文档结构化信息提取策略中的每一类别,对该类别的文档结构化信息进行向量化;
在领域细分项关键词库中,若对应位置没有向量化的文档结构化信息,将该位置的向量设置为0,得到该类别的文档结构化信息向量;
拼接各类别的文档结构化信息向量,得到该样本文档的文档结构化信息向量。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述文档类型包括:txt文档、doc/docx文档、xml/html文档以及pdf文档。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述类别包括:第一类别、第二类别以及第三类别,其中,第三类别包括全篇关键词;
所述文档类型为txt文档,所述第一类别包括:段落数以及文档长度,所述第二类别包括文档前后M行中的关键词;
所述文档类型为doc/docx文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置;
所述文档类型为xml/html文档,所述第一类别包括:标题标签、各级数量、长度,所述第二类别包括关键内容标签相对文档起始位置;
所述文档类型为pdf文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置。
第二方面,本发明实施例还提供了一种构建文档结构信息检索库的装置,包括:
领域判定模块,用于对收集的样本文档进行领域细分项判定;
词库构建模块,用于针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
结构向量生成模块,用于按照预先设置的文档类型,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
降维模块,用于对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
检索库构建模块,用于依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的构建文档结构信息检索库的方法及装置,通过对收集的样本文档进行领域细分项判定;针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;按照预先设置的文档类型,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。这样,通过融合文档结构化信息与语义的关键词信息并转化为向量,构建文档结构信息检索库,可以有效提高构建的文档结构信息检索库用于文档检索的精度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的构建文档结构信息检索库的方法流程示意图;
图2示出了本发明实施例所提供的构建文档结构信息检索库的装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种构建文档结构信息检索库的方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的构建文档结构信息检索库的方法流程示意图。如图1所示,该方法包括:
步骤101,对收集的样本文档进行领域细分项判定;
本发明实施例中,作为一可选实施例,可以基于用户交互式操作进行样本文档的领域细分项判定。
本发明实施例中,对样本文档进行领域以及领域细分项判定,可以构建更精细化的检索库。作为一可选实施例,领域包括但不限于:文学作品领域、信息处理领域、艺术、生物科学、医学领域等。作为另一可选实施例,对于每一领域,可以包括一级或多级领域细分项,例如,对于文学作品领域,一级领域细分项包括:小说、歌曲等,对于一级领域细分项小说,对应的二级领域细分项包括:言情、武侠、科幻等。
本发明实施例中,作为一可选实施例,领域划分可依据《中国图书馆分类法》进行,对于每一领域或领域细分项,分别设置对应的编码,其中,编码格式可参照《表-领域细分项与编码样例》。
本发明实施例中,针对批量的样本文档,作为一可选实施例,通过交互式设定每一样本文档所属的领域细分项,该领域细分项是所属领域的最后一级。作为另一可选实施例,也可以通过提取样本文档中的关键词,与预先设置的领域关键词库以及细分项关键词库分别进行匹配,从而确定该样本文档所属的领域以及领域细分项。表1为本发明实施例的领域及领域细分项与编码示意表。
表1
Figure BDA0003132306820000071
Figure BDA0003132306820000081
表1中,工业技术为领域,自动化技术、计算机技术为一级领域细分项,信息处理为二级领域细分项,文本信息处理为三级领域细分项。本发明实施例中,文本信息处理为领域工业技术的最后一级。
步骤102,针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
本发明实施例中,作为一可选实施例,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库,包括:
A11,对目标领域细分项的各样本文档进行汉语分词,得到分词词语;
A12,针对每一分词词语,计算该分词词语的词频-逆文本频率指数值;
A13,依据词频-逆文本频率指数值,对分词词语进行排序;
A14,对排序前N位的分词词语进行向量化以构建针对所述目标领域细分项的领域细分项关键词库,其中,N为预设的自然数。
本发明实施例中,针对领域中包含的每一领域细分项,获取该领域细分项包含的所有批量样本文档,对获取的样本文档进行分词处理,计算分词词语的词频-逆文本频率指数(TF-IDF,Term Frequency-Inverse Document Frequency)值,依据TF-IDF值对分词词语进行排序,获取前N个分词词语作为全量关键词,对全量关键词进行向量化,得到该批量样本文档所属领域细分项的领域细分项关键词库,从而完成领域细分项关键词库的构建。
本发明实施例中,作为一可选实施例,领域细分项关键词库以全量关键词向量进行表示,其中,向量维数为全量关键词的数量。作为一可选实施例,向量维数取值为512、1024、2048等,默认使用2048。
本发明实施例中,以领域细分项为文本信息处理为例,对应的编码为TP391.111,针对该领域细分项的批量样本文档,假设按照TF-IDF值获取的全量关键词如下:
[自然语言,处理,算法,...]。
对全量关键词进行向量化:
[1,1,1,...]。
则构建的文本信息处理对应的领域细分项关键词库为:
{TP391.111,[1,1,1,...,1]}。
步骤103,按照预先设置的文档类型,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
本发明实施例中,作为一可选实施例,文档类型包括:文本(txt)文档、doc/docx文档、网页(xml/html)文档以及pdf文档。其中,每种文档类型,对应有一文档结构化信息提取策略,用于提取该文档类型的三类文档结构化信息,每类文档结构化信息对应一文档结构化信息向量,如表2所示。
表2文档类型与文档结构化信息向量对照表
Figure BDA0003132306820000091
Figure BDA0003132306820000101
表2中,对于文档结构化信息向量的向量维数,与领域关键词库中全量关键词向量的向量维数相同,在提取过程中,对于不足N项的向量进行补零,超出N项的向量则舍去。其中,全篇关键词需要根据当前文档各分词词语的TF-IDF值排序确定。
本发明实施例中,作为一可选实施例,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量,包括:
A21,针对文档结构化信息提取策略中的每一类别,对该类别的文档结构化信息进行向量化;
A22,在领域细分项关键词库中,若对应位置没有向量化的文档结构化信息,将该位置的向量设置为0,得到该类别的文档结构化信息向量;
A23,拼接各类别的文档结构化信息向量,得到该样本文档的文档结构化信息向量。
本发明实施例中,以领域细分项为文本信息处理,编码:TP391.111,构建的领域细分项关键词库的全量关键词维数N为2048为例,假设样本文档为:《自然语言处理与算法》.txt,提取到的部分类别的文档结构化信息为:
-段落数20;
-文本长度400;
-文档前M行,后M行内容。
以文档结构化信息为全篇关键词和文档前后M行中的关键词为例,对于全篇关键词,在对样本文档进行分词处理后,使用TF-IDF算法计算样本文档的分词词语的TF-IDF值,并进行全篇关键词排序。之后,依据排序的全篇关键词、领域细分项关键词库,生成全篇关键词向量。对于文本前后M行中的关键词,根据前后3行共计6行内容进行分词,使用TF-IDF算法计算各分词词语的TF-IDF值,对TF-IDF值进行排序,依据排序的分词词语以及领域细分项关键词库,生成关键词向量。
假设得到的各类别的文档结构化信息向量如下:
N维向量,类别1:[20,400,...,0];
N维向量,类别2:[1,1,...,0];
N维向量,类别3:[1,1,...,0]。
则样本文档的文档结构化信息向量为:
[(20,400,...,0),(1,1,...,0),(1,1,...,0)]。
本发明实施例中,作为一可选实施例,参数M设置为3,作为另一可选实施例,为了降低运算量,M设置不超过样本文档总行数的1/2。
本发明实施例中,对于样本文档,样本文档前后包含的关键词较多,M值过大并不能有效增加关键词。
步骤104,对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
本发明实施例中,针对每一文档类型的样本文档,在得到3类别的文档结构化信息向量后,拼接生成N*3维向量(文档结构化信息向量)。使用降维算法,例如,主成分分析(PCA,Principal Component Analysis),对样本文档的文档结构化信息向量进行降维处理,降低为N*1维向量(样本文档的文档结构化信息降维向量),从而可以将每篇样本文档转化为弹性搜索(Elasticsearch)中对应的字段与向量。
作为一可选实施例,样本文档的文档结构化信息降维向量为:
[-297.24811933,148.62405966,148.62405966,...,0]
步骤105,依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。
本发明实施例中,基于领域细分项关键词库、领域细分项编码与样本文档的文档结构化信息降维向量,进行信息整合和关联,构建文档结构信息检索库。例如,依据领域细分项关键词库、领域细分项编码与样本文档的文档结构化信息降维向量,进行文档结构信息检索库的逐级构建。
本发明实施例中,作为一可选实施例,文档结构信息检索库使用Elasticsearch进行存储,示例性地,存储格式如下:
Elasticsearch中文档索引的建立mapping##为注释的内容
"mappings":{"properties":{
"title":{##文档标题名称
"type":"text",
"analyzer":"ik_max_word",##针对索引的分词方式
"search_analyzer":"ik_smart"##针对查询的分词方式
},
"document_vector":{##文档向量
"type":"dense_vector",
"dims":512##向量维数以512为例
}
"field_coding":{##文档领域编码
"type":"keyword"
},
...
}
}
本发明实施例中,再以领域细分项为文本信息处理为例,包含的批量样本文档合集如下:
1.自然语言实战.doc;
2.自然语言.html;
3.自然语言处理与算法.txt
其中,N取2048,M取3;
针对批量样本文档合集,进行汉语分词后计算TF-IDF值,构建领域细分项关键词库:
{TP391.111,[自然语言,处理,算法,...]}
对于样本文档:自然语言处理与算法.txt,提取到的文档结构化信息为:
段落数20;
文本长度400;
根据前后3行共计6行内容,使用TF-IDF算法生成关键词如下:
[自然语言,处理,汉语,…]
根据TF-IDF算法生成全篇关键词如下:
[自然语言,处理,。。。]
构建的各类别对应的文档结构化信息向量如下:
N维向量,类别1:[20,400,...,0];
N维向量,类别2:[1,1,...,0];
N维向量,类别3:[1,1,...,0]。
利用PCA降维后,生成的样本文档(自然语言处理与算法.txt)的文档结构化信息向量如下:
[-297.24811933,148.62405966,148.62405966,...,0]
则样本文档:自然语言处理与算法.txt在文档结构信息检索库中的存储信息如下:
{
"title":{"自然语言处理与算法.txt"},
"document_vector":{[-297.24811933,148.62405966,148.62405966,...,0]}
"field_coding":{"TP391.111"}
}
本发明实施例中,作为一可选实施例,该方法还包括:
B11,确定输入的待检索短文档所属的待检索领域细分项以及待检索领域细分项编码;
本发明实施例中,获取输入的待检索短文档后,进行交互式操作以进行待检索领域细分项判定,依据判定的待检索领域细分项,获取对应的待检索领域细分项编码。
本发明实施例中,在判定待检索领域细分项时,可以通过交互式操作,利用下拉式列表并查表完成待检索领域细分项选择。
本发明实施例中,待检索短文档可以是一具体的文档,例如,可以输入文档:自然语言.txt,通过交互式操作,确定该文档所属待检索领域细分项为:文本信息处理,对应的待检索领域细分项编码为:TP391.111。
B12,获取所述待检索领域细分项编码对应的待检索领域关键词库;
本发明实施例中,获取的待检索领域关键词库为:[自然语言,算法,处理,…]。
B13,提取所述待检索短文档中的待检索文档结构化信息,依据待检索文档结构化信息以及待检索领域关键词库,生成待检索文档结构化信息向量;
本发明实施例中,对待检索短文档进行待检索文档结构化信息提取,提取到的待检索文档结构化信息为:
段落数10;
文本长度100;
文档前后3行共计6行内容。
本发明实施例中,作为一可选实施例,对于全篇关键词类别,对待检索短文档进行分词,利用TF-IDF算法,对待检索文档的分词词语进行排序,提取前N个全篇关键词,全篇关键词列表如下:
[自然语言,算法,处理,…]。
对于文档前后3行共计6行内容,利用TF-IDF算法,依据文档前后3行,生成关键词列表如下:
[自然语言,处理,汉语,…]
生成的待检索文档结构化信息向量如下:
类别1的N维向量:[10,100,...,0];
类别2的N维向量:[1,1,...,0];
类别3的N维向量:[1,0,...,0]。
进行PCA降维后,生成如下文档向量:
[-297.2,148.6,148.6,...,0]。
B14,对待检索文档结构化信息向量进行降维处理,得到待检索文档结构化信息降维向量;
B15,依据待检索文档结构化信息降维向量,在文档结构信息检索库中进行检索,获取检索结果。
本发明实施例中,使用Elasticsearch对异构的文档结构信息检索库进行向量化搜索,依据待检索文档结构化信息降维向量与各文档的文档结构化信息降维向量的相似性进行检索。
本发明实施例中,Elasticsearch在原生脚本语言中提供了一余弦相似度(cosineSimilarity)函数,可以实现待检索文档结构化信息降维向量与文档结构信息检索库中所有文档相似度的排名,从而能够对文档结构信息检索库进行检索。作为一可选实施例,用于检索的程序代码段如下:
文档向量query_vector=[1,0,0,...,0]Elasticsearch查询样例:
{
"script_score":{
"query":{"match_all":{}},"script":{
"source":"cosineSimilarity(params.query_vector,'document_vector')+1.0","params":{"query_vector":query_vector}
##待查询向量
}
}
}
本发明实施例中,利用Elasticsearch进行向量化检索的一样例的程序代码段如下:
{
"script_score":{
"query":{"match_all":{}},"script":{
"source":"cosineSimilarity(params.query_vector,'document_vector')+1.0","params":{"query_vector":[-297.2,148.6,148.6,...,0]}
}
}
}
检索结果:
{
"title":{"自然语言处理与算法.txt"},
"document_vector":{[-297.24811933,148.62405966,148.62405966,...,0]}
"field_coding":{"TP391.111"}
"score":99
}
{
"title":{"..."},
"document_vector":{...}
"field_coding":{"TP391.111"}
"score":97
}
本发明实施例中,作为一可选实施例,检索结果中包含有相似文档的标题、领域细分项等。
本发明实施例中,返回的检索结果为Elasticsearch中相似度评分最相似的包含文档标题和名称的X条数据。
本发明实施例中,作为一可选实施例,该方法还包括:
若检索结果中的命中文档的相似度超过预先设置的相似阈值,查询所述待检索短文档是否存储在所述待检索领域细分项对应的存储区中,若否,依据所述待检索短文档更新所述存储区存储的信息。
本发明实施例中,如果检索结果命中且命中文档的相似度超过预先设置的相似阈值,则该待检索短文档可作为领域细分项文档的一部分,进行领域细分项关键词库及文档结构信息检索库的补充。例如,上述示例中,检索结果中第一条的得分(score)超过预先设置的相似阈值,例如,98,表明《自然语言.txt》和《自然语言处理与算法.txt》相似并都属于文本信息处理领域细分项,则可进行领域细分项关键词库更新与文档结构信息检索库更新。以文档结构化信息向量中的关键词向量为例,对待检索短文档的前后3行进行分词,将得到的分词词语与关键词向量中的各关键词进行TF-IDF值排序,再依据排序结果对关键词向量进行更新。这样,可以完善领域细分项内容,实现升级进化。
本发明实施例中,通过融合文档结构化信息与语义的关键词信息并转化为向量,使得构建的文档结构信息检索库基于文档结构化信息,能够为各工业企业快速构建各种文档类型的检索模型,实现在不同领域细分项下的文档检索功能,企业信息化系统可以通过搜索功能实现对异构文档的高效检索,文档检索精度高。进一步地,通过引入交互式技术方案以提高文档检索准确性,提升领域细分项关键词库的词汇丰富程度,提升针对领域细分项的文档检索能力。而且,基于交互式的领域细分项关键词库及异构文档结构化信息,可针对不同领域细分项的文档,提高搜索准确率。
图2示出了本发明实施例所提供的构建文档结构信息检索库的装置结构示意图。如图2所示,该装置包括:
领域判定模块201,用于对收集的样本文档进行领域细分项判定;
本发明实施例中,作为一可选实施例,可以基于用户交互式操作进行样本文档的领域细分项判定。其中,领域划分可依据《中国图书馆分类法》进行,对于每一领域或领域细分项,分别设置对应的编码,其中,编码格式可参照《表-领域细分项与编码样例》。
词库构建模块202,用于针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
本发明实施例中,针对领域中包含的每一领域细分项,获取该领域细分项包含的所有批量样本文档,对获取的样本文档进行分词处理,计算分词词语的TF-IDF值,依据TF-IDF值对分词词语进行排序,获取前N个分词词语作为全量关键词,对全量关键词进行向量化,得到领域细分项关键词库。
结构向量生成模块203,用于按照预先设置的文档类型,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
降维模块204,用于对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
检索库构建模块205,用于依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库。
本发明实施例中,基于领域细分项关键词库、领域细分项编码与样本文档的文档结构化信息降维向量,进行信息整合和关联,构建文档结构信息检索库。
本发明实施例中,作为一可选实施例,该装置还包括:
检索模块(图中未示出),用于确定输入的待检索短文档所属的待检索领域细分项以及待检索领域细分项编码;
获取所述待检索领域细分项编码对应的待检索领域关键词库;
提取所述待检索短文档中的待检索文档结构化信息,依据待检索文档结构化信息以及待检索领域关键词库,生成待检索文档结构化信息向量;
对待检索文档结构化信息向量进行降维处理,得到待检索文档结构化信息降维向量;
依据待检索文档结构化信息降维向量,在文档结构信息检索库中进行检索,获取检索结果。
本发明实施例中,作为一可选实施例,该装置还包括:
更新模块(图中未示出),若检索结果中的命中文档的相似度超过预先设置的相似阈值,查询所述待检索短文档是否存储在所述待检索领域细分项对应的存储区中,若否,依据所述待检索短文档更新所述存储区存储的信息。
本发明实施例中,作为一可选实施例,词库构建模块202具体用于:
对目标领域细分项的各样本文档进行汉语分词,得到分词词语;
针对每一分词词语,计算该分词词语的词频-逆文本频率指数值;
依据词频-逆文本频率指数值,对分词词语进行排序;
对排序前N位的分词词语进行向量化以构建针对所述目标领域细分项的领域细分项关键词库,其中,N为预设的自然数。
本发明实施例中,作为一可选实施例,结构向量生成模块203具体用于:
针对文档结构化信息提取策略中的每一类别,对该类别的文档结构化信息进行向量化;
在领域细分项关键词库中,若对应位置没有向量化的文档结构化信息,将该位置的向量设置为0,得到该类别的文档结构化信息向量;
拼接各类别的文档结构化信息向量,得到该样本文档的文档结构化信息向量。
本发明实施例中,作为一可选实施例,文档类型包括:txt文档、doc/docx文档、xml/html文档以及pdf文档。
本发明实施例中,作为一可选实施例,类别包括:第一类别、第二类别以及第三类别,其中,第三类别包括全篇关键词;
所述文档类型为txt文档,所述第一类别包括:段落数以及文档长度,所述第二类别包括文档前后M行中的关键词;
所述文档类型为doc/docx文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置;
所述文档类型为xml/html文档,所述第一类别包括:标题标签、各级数量、长度,所述第二类别包括关键内容标签相对文档起始位置;
所述文档类型为pdf文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的构建文档结构信息检索库的方法,该设备包括存储器301、处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述构建文档结构信息检索库的方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述构建文档结构信息检索库的方法。
对应于图1中的构建文档结构信息检索库的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述构建文档结构信息检索库的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述构建文档结构信息检索库的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种构建文档结构信息检索库的方法,其特征在于,包括:
对收集的样本文档进行领域细分项判定;
针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
按照预先设置的文档类型,所述文档类型包括:文本文档、doc/docx文档、网页文档以及pdf文档,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库;
所述依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量,包括:
针对文档结构化信息提取策略中的每一类别,对该类别的文档结构化信息进行向量化;
在领域细分项关键词库中,若对应位置没有向量化的文档结构化信息,将该位置的向量设置为0,得到该类别的文档结构化信息向量;
拼接各类别的文档结构化信息向量,得到该样本文档的文档结构化信息向量;
所述类别包括:第一类别、第二类别以及第三类别,其中,第三类别包括全篇关键词;
所述文档类型为txt文档,所述第一类别包括:段落数以及文档长度,所述第二类别包括文档前后M行中的关键词;
所述文档类型为doc/docx文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置;
所述文档类型为xml/html文档,所述第一类别包括:标题标签、各级数量、长度,所述第二类别包括关键内容标签相对文档起始位置;
所述文档类型为pdf文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定输入的待检索短文档所属的待检索领域细分项以及待检索领域细分项编码;
获取所述待检索领域细分项编码对应的待检索领域关键词库;
提取所述待检索短文档中的待检索文档结构化信息,依据待检索文档结构化信息以及待检索领域关键词库,生成待检索文档结构化信息向量;
对待检索文档结构化信息向量进行降维处理,得到待检索文档结构化信息降维向量;
依据待检索文档结构化信息降维向量,在文档结构信息检索库中进行检索,获取检索结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若检索结果中的命中文档的相似度超过预先设置的相似阈值,查询所述待检索短文档是否存储在所述待检索领域细分项对应的存储区中,若否,依据所述待检索短文档更新所述存储区存储的信息。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库,包括:
对目标领域细分项的各样本文档进行汉语分词,得到分词词语;
针对每一分词词语,计算该分词词语的词频-逆文本频率指数值;
依据词频-逆文本频率指数值,对分词词语进行排序;
对排序前N位的分词词语进行向量化以构建针对所述目标领域细分项的领域细分项关键词库,其中,N为预设的自然数。
5.一种构建文档结构信息检索库的装置,其特征在于,包括:
领域判定模块,用于对收集的样本文档进行领域细分项判定;
词库构建模块,用于针对判定的每一领域细分项,提取该领域细分项的样本文档的分词词语,基于提取的分词词语构建向量化的领域细分项关键词库;
结构向量生成模块,用于按照预先设置的文档类型,所述文档类型包括:文本文档、doc/docx文档、网页文档以及pdf文档,对领域细分项的样本文档进行划分,针对每一样本文档,依据该样本文档的文档类型对应的文档结构化信息提取策略,提取该样本文档的文档结构化信息,依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量;
降维模块,用于对样本文档的文档结构化信息向量进行降维,得到该样本文档的文档结构化信息降维向量;
检索库构建模块,用于依据领域细分项关键词库、预先设置的领域细分项编码以及样本文档的文档结构化信息降维向量,构建文档结构信息检索库;
所述依据文档结构化信息与领域细分项关键词库,生成该样本文档的文档结构化信息向量,包括:
针对文档结构化信息提取策略中的每一类别,对该类别的文档结构化信息进行向量化;
在领域细分项关键词库中,若对应位置没有向量化的文档结构化信息,将该位置的向量设置为0,得到该类别的文档结构化信息向量;
拼接各类别的文档结构化信息向量,得到该样本文档的文档结构化信息向量;
所述类别包括:第一类别、第二类别以及第三类别,其中,第三类别包括全篇关键词;
所述文档类型为txt文档,所述第一类别包括:段落数以及文档长度,所述第二类别包括文档前后M行中的关键词;
所述文档类型为doc/docx文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置;
所述文档类型为xml/html文档,所述第一类别包括:标题标签、各级数量、长度,所述第二类别包括关键内容标签相对文档起始位置;
所述文档类型为pdf文档,所述第一类别包括:标题、各级数量、长度,所述第二类别包括图表相对文章起始位置。
6.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的构建文档结构信息检索库的方法的步骤。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的构建文档结构信息检索库的方法的步骤。
CN202110708173.9A 2021-06-25 2021-06-25 一种构建文档结构信息检索库的方法及装置 Active CN113449063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110708173.9A CN113449063B (zh) 2021-06-25 2021-06-25 一种构建文档结构信息检索库的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110708173.9A CN113449063B (zh) 2021-06-25 2021-06-25 一种构建文档结构信息检索库的方法及装置

Publications (2)

Publication Number Publication Date
CN113449063A CN113449063A (zh) 2021-09-28
CN113449063B true CN113449063B (zh) 2023-06-16

Family

ID=77812699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110708173.9A Active CN113449063B (zh) 2021-06-25 2021-06-25 一种构建文档结构信息检索库的方法及装置

Country Status (1)

Country Link
CN (1) CN113449063B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936269A (zh) * 2022-06-07 2022-08-23 来也科技(北京)有限公司 文档搜索平台、搜索方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119339A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 搜索方法及装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW548557B (en) * 2000-09-13 2003-08-21 Intumit Inc A method and system for electronic document to have fast-search category and mutual link
CN102890711B (zh) * 2012-09-13 2015-08-12 中国人民解放军国防科学技术大学 一种检索排序方法及系统
CN111460090A (zh) * 2020-03-04 2020-07-28 深圳壹账通智能科技有限公司 基于向量的文档检索方法、装置、计算机设备及存储介质
CN112883165B (zh) * 2021-03-16 2022-12-02 山东亿云信息技术有限公司 一种基于语义理解的智能全文检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119339A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 搜索方法及装置
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113449063A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Pereira et al. Using web information for author name disambiguation
JP5424001B2 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
Schubotz et al. Semantification of identifiers in mathematics for better math information retrieval
TWI536181B (zh) 在多語文本中的語言識別
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US20100205198A1 (en) Search query disambiguation
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN107844493B (zh) 一种文件关联方法及系统
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN111133429A (zh) 提取表达以供自然语言处理
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
Tahmasebi et al. On the applicability of word sense discrimination on 201 years of modern english
CN112612867B (zh) 新闻稿件传播分析方法、计算机可读存储介质及电子设备
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN117149956A (zh) 一种文本检索方法、装置、电子设备及可读存储介质
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
Jo Automatic text summarization using string vector based K nearest neighbor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant