CN107918607B - 一种基于语义信息的数字档案查询与排序方法 - Google Patents
一种基于语义信息的数字档案查询与排序方法 Download PDFInfo
- Publication number
- CN107918607B CN107918607B CN201711253621.0A CN201711253621A CN107918607B CN 107918607 B CN107918607 B CN 107918607B CN 201711253621 A CN201711253621 A CN 201711253621A CN 107918607 B CN107918607 B CN 107918607B
- Authority
- CN
- China
- Prior art keywords
- term
- title
- titles
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000003313 weakening effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 101150107801 Top2a gene Proteins 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于语义信息的数字档案查询与排序方法,对用户所输入的关键词和检索层级(用l表示),然后根据关键词返回的标题信息,对标题信息中出现概率较高的词进一步运用算法进行削弱,返回给用户k条最全面的基于关键词的标题信息的集合。步骤一:利用倒排索引,首先建立语义单词与语义标题之间的对应关系;步骤2:输入关键词生成k条备选的档案标题,当l>1时,确保新生成的档案标题中不含有已经得到的标题;步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk。
Description
技术领域
本发明属于数据挖掘领域,涉及一种基于语义信息的数字档案的查询与排序方法。
背景技术
随着计算机技术的广泛普及和网络技术的迅速发展,我国档案和档案工作产生了巨大的变化,电子档案的数量与日俱增。面对大量的档案信息,如何能够对档案进行高效检索是建立数字档案过程中的关键步骤。档案检索的自动化程度的提高,充分满足数字化背景下档案信息利用者对档案信息检索的全面,及时有效的需求是提高档案信息化服务水平的重要指标。而传统的搜索引擎并不能完全适用于档案这一特殊领域,通用的档案检索过程都是在用户输入关键词后对关键词进行匹配,直接返回给用户从数据库中最先匹配到的k条数据,并且检索过程中也会造成关键词匹配不准确等问题,如用户输入关键词“四合院”,通用检索程序往往会返回“四合”(非“四合院”)这样的档案标题,大大降低了检索的准确度。为解决这一问题,本发明提出了一种针对数字档案的查询和排序方法,该方法能够按照用户给出的关键词和检索层级来返回与关键词相关的重要信息。
倒排索引是一种用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。受倒排索引启发,本发明中需要建立数字档案标题的单词与档案标题之间的映射。即首先需要将全部标题进行分词,在分词过程中过滤掉停用词,然后对分词后的单词(term)通过使用链表的方式,将每一个出现term的档案标题的位置加入到term链表中,依次构成一个通过输入关键词即能够快速得到档案标题的索引列表,大大提高了检索的速度;然后对用户输入的关键词所返回的档案标题,经过分词,去重,统计档案标题中出现的term及每一个term出现的次数和term出现的总次数,计算关键词与term之间的关联系数R,该关联系数能够反映term在档案标题中的重要程度,当term所占比例越高时,该term越重要,即关键词与term的关系越紧密;选取R中排名在Top2的term,将其加入候选关键词队列,由于此时选出的候选关键词在重要性上已经得到降低,因此给出一种关键词削弱量的计算方法,即将候选关键词加入关键词队列后,再在数据库中对关键词进行匹配时,产生的档案标题中各标题得分需要削弱,并将其加入到候选档案标题中,综合计算所有档案标题得分,选出得分排名在Top k的档案标题返回给用户。该方法在一定程度上优化了基于关键词的数字档案的搜索。,其中Top k指前k名,k为自然数。
发明内容
本发明的目的在于提供了一种基于语义信息的面向数字档案的查询和排序方法,对用户所输入的关键词和检索层级(用l表示),然后根据关键词返回的标题信息,对标题信息中出现概率较高的词进一步运用算法进行削弱,返回给用户k条最全面的基于关键词的标题信息的集合。
一种基于语义信息的数字档案查询与排序方法,该方法的实现步骤如下:
步骤1:利用倒排索引,首先建立语义单词与语义标题之间的对应关系。
步骤1.1:收集并整理数据集,构建数据关系。数据集中含有档案标题,依次对档案标题进行编号1…i...n,其中编号从1开始,编号i代表数据集中的第i条标题,n为标题总数。
步骤1.2:对数据集中的全部档案标题进行分词,分词后的单词用term标记,在分词过程中过滤停用词(Stop Words)。其中,停用词包括term长度小于2的单词,语气助词、副词、介词、连接词等无意义的词,在档案标题中频繁出现的词,如北京市、档案馆等。
步骤1.3:使用hash去重单词term,建立term与标题编号之间的链表,使生成term的所有标题编号加入到该term链表中,从而当查询关键词为term时,能够得到所有含有该term的标题。
步骤2:输入关键词生成m条备选的档案标题,自然数m为通过关键词检索到的档案标题总数;当l>1时,确保新生成的档案标题中不含有已经得到的标题。
步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk。
步骤3.1:对新生成的备选标题进行分词,在分词过程中过滤停用词(详见步骤1.2,1.3),鉴于每一条备选标题中都含有关键词,在过滤停用词时一并过滤掉关键词;
步骤3.2:对分词结果进行统计,统计每个term出现的次数记为Z(term),统计出现的所有term的总和记为Sum。
其中i表示为第i条标题,j表示为分词后的第j个单词,其中每行标题分词后都有一个最大分词个数记为max(i)。设在10条备选标题中经过分词后出现单词“计量器”的次数为5,则Z(计量器)=5。
步骤3.3:计算关键词与term的关联系数R;
为了能够表示每一个term在Sum中出现的频率大小,将term做归一化处理,其公式如下:
该公式也表示关键词与term之间的关联程度即关联系数,其中R(kw,term)的值域为(0,1),关键词key words记为kw。
步骤3.4:由用户输入的关键词,所产生的备选标题层级记为1,当用户输入的l>1时,其关键词由前一次生成的备选标题经过分词后得到的关联系数的Top2产生,由于新产生的关键词其重要程度已经得到减弱,所以给出如下kw与term之间关联程度削弱量的计算方法:
Rl为削弱后关键词与term的关联系数;
步骤3.5:通过以下公式计算每一个title得分r。
计算出每一次产生的关键词,即第一次关键词由用户输入,第l层关键词及第l层term都需要按公式(2)进行重要性削弱,并且检索次数≤检索层级,并为每次产生的新的标题计算综合得分,再从中选出k条分数最高的title。
综上,通过l次递归迭代,对新产生的档案标题中各标题计算得分加入候选标题队列,从候选队列中选出k条得分最高的标题加入队列Hk,所以选出k条档案标题的过程为:
1)初始化队列Hk为空,构建数据关系,n=1;
2)当n≤l时,转3),否则转10);
3)将候选关键词加入关键词队列,当l=1时,用户输入的关键词也称为候选关键词;
4)输入关键词,将新生成的档案标题加入到备选的档案标题,当l>1时,新生成的档案标题中不含有已经生成的标题;
5)对新生成的档案标题中个标题进行分词,在分词过程中去除停用词;
6)统计每一个term出现的次数,统计term总数;
7)计算关键词与term的关联系数R;
8)计算削弱后关键词与term的关联系数Rl;
9)在R中找到排名为Top2的term,记为候选关键词,n++,转2;
10)计算候选队列中每一个title得分,并将候选队列中title按照分数从高到底排序,依次将前k条title加入队列Hk中,返回队列Hk。
此时返回的队列Hk即所需的将要检索到的k条信息。
与现有技术相比较,本发明具有如下有益效果:
1)根据用户输入的关键词检索层级返回按照语义重要性排序的档案标题;
2)检索的关键词在档案标题匹配程度上更精确。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明采用的数据集是北京市档案馆数据库,在北京市档案馆数字档案馆查阅系统中输入关键词“计量器”,假设k=10,用户需要的检索层数l=1,自然数m为检索到的信息总条数,m=10,如果只依据步骤2得到档案标题,则前10条标题如表1所示:
表1 10条关键词为“计量器”所对应的序号,标题
步骤3.1,3.2,对得到的标题进行分词(去除停用词),并对各个term进行词频统计,其中各个term出现次数如表2所示。
表2 对title分词并去除停用词,统计各词词频结果示意图
其中term的总和Sum=95;
步骤3.3:计算关键词与term的关联系数R
步骤3.4:计算削弱后关键词与term的关联系数Rl;
由于本次由关键词产生的档案标题中l=1,所以对每一个Rl(kw,term)=R(kw,term);
步骤3.5:计算每一个title得分r,其中结果如表3所示:
表3 标题中每一个title得分
以上为l=1时产生的候选档案标题及每条标题得分,对产生的候选标题得分进行从高到低排序,得到最终的档案标题排名如表4所示:
表4 档案标题得分排名输出结果如下:
Claims (1)
1.一种基于语义信息的数字档案查询与排序方法,其特征在于:该方法的实现步骤如下:
步骤1:利用倒排索引,首先建立语义单词与语义标题之间的对应关系;
步骤1.1:收集并整理数据集,构建数据关系;数据集中含有档案标题,依次对档案标题进行编号1...i...n,其中编号从1开始,编号i代表数据集中的第i条标题,n为标题总数;
步骤1.2:对数据集中的全部档案标题进行分词,分词后的单词用term标记,在分词过程中过滤停用词;其中,停用词包括term长度小于2的单词,语气助词、副词、介词、连接词,在档案标题中频繁出现的词;
步骤1.3:使用hash去重单词term,建立term与标题编号之间的链表,使生成term的所有标题编号加入到该term链表中,从而当查询关键词为term时,能够得到所有含有该term的标题;
步骤2:输入关键词生成m条备选的档案标题,自然数m为通过关键词检索到的档案标题总数;当l>1时,确保新生成的档案标题中不含有已经得到的标题;
步骤3:根据得到的标题用算法生成最终含有l层档案标题的队列Hk;
步骤3.1:对新生成的备选标题进行分词,在分词过程中过滤停用词,鉴于每一条备选标题中都含有关键词,在过滤停用词时一并过滤掉关键词;
步骤3.2:对分词结果进行统计,统计每个term出现的次数记为Z(term),统计出现的所有term的总和记为Sum;
其中i表示为第i条标题,j表示为分词后的第j个单词,其中每行标题分词后都有一个最大分词个数记为max(i);设在10条备选标题中经过分词后出现单词“计量器”的次数为5,则Z(计量器)=5;
步骤3.3:计算关键词与term的关联系数R;
为了能够表示每一个term在Sum中出现的频率大小,将term做归一化处理,其公式如下:
该公式也表示关键词与term之间的关联程度即关联系数,其中R(kw,term)的值域为(0,1),关键词key words记为kw;
步骤3.4:由用户输入的关键词,所产生的备选标题层级记为1,当用户输入的l>1时,其关键词由前一次生成的备选标题经过分词后得到的关联系数的Top2产生,由于新产生的关键词其重要程度已经得到减弱,所以给出如下kw与term之间关联程度削弱量的计算方法:
Rl为削弱后关键词与term的关联系数;
步骤3.5:通过以下公式计算每一个title得分r;
计算出每一次产生的关键词,即第一次关键词由用户输入,第l层关键词及第l层term都需要按公式(2)进行重要性削弱,并且检索次数≤检索层级,并为每次产生的新的标题计算综合得分,再从中选出k条分数最高的title;
综上,通过l次递归迭代,对新产生的档案标题中各标题计算得分加入候选标题队列,从候选队列中选出k条得分最高的标题加入队列Hk,所以选出k条档案标题的过程为:
1)初始化队列Hk为空,构建数据关系,n=1;
2)当n≤l时,转3),否则转10);
3)将候选关键词加入关键词队列,当l=1时,用户输入的关键词也称为候选关键词;
4)输入关键词,将新生成的档案标题加入到备选的档案标题,当l>1时,新生成的档案标题中不含有已经生成的标题;
5)对新生成的档案标题中个标题进行分词,在分词过程中去除停用词;
6)统计每一个term出现的次数,统计term总数;
7)计算关键词与term的关联系数R;
8)计算削弱后关键词与term的关联系数Rl;
9)在R中找到排名为Top2的term,记为候选关键词,n++,转2;
10)计算候选队列中每一个title得分,并将候选队列中title按照分数从高到底排序,依次将前k条title加入队列Hk中,返回队列Hk;
此时返回的队列Hk即所需的将要检索到的k条信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711253621.0A CN107918607B (zh) | 2017-12-02 | 2017-12-02 | 一种基于语义信息的数字档案查询与排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711253621.0A CN107918607B (zh) | 2017-12-02 | 2017-12-02 | 一种基于语义信息的数字档案查询与排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107918607A CN107918607A (zh) | 2018-04-17 |
CN107918607B true CN107918607B (zh) | 2020-05-08 |
Family
ID=61898217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711253621.0A Expired - Fee Related CN107918607B (zh) | 2017-12-02 | 2017-12-02 | 一种基于语义信息的数字档案查询与排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107918607B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580317A (zh) * | 2020-12-29 | 2021-03-30 | 江苏金财信息技术有限公司 | 一种快速生成带层级汇总的动态交叉二维表的方法 |
CN116450769A (zh) * | 2023-06-09 | 2023-07-18 | 北京量子伟业信息技术股份有限公司 | 智慧档案的管理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760140A (zh) * | 2011-04-29 | 2012-10-31 | 淮海工学院 | 一种基于事件本体的查询扩展方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105117386A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于图书内容结构的语义关联方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7191175B2 (en) * | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
-
2017
- 2017-12-02 CN CN201711253621.0A patent/CN107918607B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760140A (zh) * | 2011-04-29 | 2012-10-31 | 淮海工学院 | 一种基于事件本体的查询扩展方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105117386A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于图书内容结构的语义关联方法 |
Non-Patent Citations (1)
Title |
---|
面向网络信息资源聚合搜索的细粒度聚合单元元数据研究;曹树金 等;《中国图书馆学报》;20170630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107918607A (zh) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537116B (zh) | 一种基于标签的图书搜索方法 | |
US9342582B2 (en) | Selection of atoms for search engine retrieval | |
US8244767B2 (en) | Composite locality sensitive hash based processing of documents | |
CN104199965B (zh) | 一种语义信息检索方法 | |
US8620907B2 (en) | Matching funnel for large document index | |
CN111026710A (zh) | 一种数据集的检索方法及系统 | |
US20110314026A1 (en) | System and Method for Retrieving Information Using a Query Based Index | |
Croft et al. | Implementing ranking strategies using text signatures | |
US9529908B2 (en) | Tiering of posting lists in search engine index | |
CN105528411B (zh) | 船舶装备交互式电子技术手册全文检索装置及方法 | |
CN107103032A (zh) | 一种分布式环境下避免全局排序的海量数据分页查询方法 | |
CN103198136B (zh) | 一种基于时序关联的个人电脑文件查询方法 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN113342923A (zh) | 数据查询方法、装置、电子设备及可读存储介质 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Cheng et al. | Supporting entity search: a large-scale prototype search engine | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN107918607B (zh) | 一种基于语义信息的数字档案查询与排序方法 | |
CN108563732A (zh) | 一种云网络中面向加密云数据多关键词匹配排序搜索方法 | |
CN111026787A (zh) | 网点检索方法、装置及系统 | |
CN119025662A (zh) | 一种面向rag的多支路混合平衡检索优化方法及系统 | |
CN112836008A (zh) | 基于去中心化存储数据的索引建立方法 | |
CN117932000A (zh) | 基于主题聚类全局特征的长文档稠密检索方法及系统 | |
Fatemi et al. | Record linkage to match customer names: A probabilistic approach | |
CN110321351A (zh) | 一种基于模糊匹配的厂家名称规范方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200508 |