CN108536742A - 一种利用非结构化文档加速结构化数据检索的方法 - Google Patents
一种利用非结构化文档加速结构化数据检索的方法 Download PDFInfo
- Publication number
- CN108536742A CN108536742A CN201810193383.7A CN201810193383A CN108536742A CN 108536742 A CN108536742 A CN 108536742A CN 201810193383 A CN201810193383 A CN 201810193383A CN 108536742 A CN108536742 A CN 108536742A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- structured document
- document
- data
- accelerating structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用非结构化文档加速结构化数据检索的方法,利用将结构化数据转化为非结构化文档的方法,达到提升其检索速度的目的,并利用自然语言分析的方法,提升其排序准确性。
Description
技术领域
本发明涉及计算机系统中结构化数据的检索技术领域,特别涉及一种利用非结构化文档加速结构化数据检索的方法。
背景技术
倒排索引:是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
评分排序:根据检索条件的不同,当检索的关键字相关结果较多时,根据检索结果记录的相关性进行排序就显得尤为重要。结合自然语言处理中的词性分析技术,可使得排序结果更接近人类思维所需结果。
目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,需要提供一种新的方法,对结构化数据及其嵌套关联的数据进行高效全文检索,并能以接近人类思维的方式给出按相关性排序的结果集。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种利用非结构化文档加速结构化数据检索的方法,将结构化数据转化为非结构化文档,达到提升其检索速度的目的;并利用自然语言分析的方法,提升其排序准确性。
本发明的目的通过以下的技术方案实现:
一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。
优选的,具体步骤为:
1、搜集所有相关的结构化数据结构及其关联关系;
2、设计数据属性间的关联词,以及关联数据关系的关联词;
3、如同写文章描述对象的方式,设计生成文档的结构;
4、将生成的文档输入全文检索引擎,建立倒排索引;
5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。
本发明与现有技术相比,具有如下优点和有益效果:
目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,而本发明既有加速检索的效果,亦能改善检索结果的排序。通过将结构化数据转换为非结构化文档的方式,可充分利用现有成熟的全文检索引擎进行简单高效的检索。通过精心设计关联词,可以接近人类思维的方式进行结果相关度评判,更符合人类习惯。
附图说明
图1是实施例1方法的数据处理阶段流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;通过设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。具体步骤如下:
1、搜集所有相关的结构化数据结构及其关联关系;
2、设计数据属性间的关联词,以及关联数据关系的关联词;
3、如同写文章描述对象的方式,设计生成文档的结构;
4、将生成的文档输入全文检索引擎,建立倒排索引;
5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。
实施例2
一常见的人员档案类型结构化数据及其包含的属性和关联关系:
人:具有姓名,身份证,持有手机三个属性,其中持有手机可能有0个或多个。
身份证:具有身份证号,出生日期,户籍地址,发证派出所四个属性。
手机:具有手机号码,IMEI两个属性,其中手机号码可能有0个,1个或2个。
一种利用非结构化文档加速结构化数据检索的方法,实施步骤如下:
1、设计[人]的描述模板:[姓名],身份证为[身份证],持有[持有手机1],另持有[持有手机2],......
2、设计[身份证]的描述模板:身份证号[身份证号],出生日期为[出生日期],户籍所在地为[户籍地址],[发证派出所]签发。
3、设计[持有手机]的描述模板:[手机号码],机身号[IMEI]。
4、生成文档,例如:张三,身份证为身份证号123456789012345678,出生日期为1234年5月6日,户籍所在地为XX省XX市XX县,xx县派出所签发,持有手机12345678901,机身号1234567891234567。
5、检索时,依照语义分析计算关键字与[人]的关联度,例如对步骤4中的数据检索关键字“1234”时,关键字存在于身份证号与手机号和机身号中,因此评分由身份证号、手机号和机身号的权重评分相加而得;
又例如检索关键字“张”时,假设某条数据中存在“户籍所在地为湖南省张家界市”,由于语义分析“张三”为全句主语,因此权重大于假设数据中“张家界市”,则步骤4数据排序应在假设数据之前。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种利用非结构化文档加速结构化数据检索的方法,其特征在于,通过将结构化数据转化为非结构化文档进行检索;设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。
2.根据权利要求1所述的利用非结构化文档加速结构化数据检索的方法,其特征在于,具体步骤为:
S1、搜集所有相关的结构化数据结构及其关联关系;
S2、设计数据属性间的关联词,以及关联数据关系的关联词;
S3、如同写文章描述对象的方式,设计生成文档的结构;
S4、将生成的文档输入全文检索引擎,建立倒排索引;
S5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810193383.7A CN108536742A (zh) | 2018-03-09 | 2018-03-09 | 一种利用非结构化文档加速结构化数据检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810193383.7A CN108536742A (zh) | 2018-03-09 | 2018-03-09 | 一种利用非结构化文档加速结构化数据检索的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108536742A true CN108536742A (zh) | 2018-09-14 |
Family
ID=63486742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810193383.7A Pending CN108536742A (zh) | 2018-03-09 | 2018-03-09 | 一种利用非结构化文档加速结构化数据检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536742A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391945A (zh) * | 2014-11-28 | 2015-03-04 | 厦门市美亚柏科信息股份有限公司 | 数据库文件数据索引的处理方法和装置 |
US20170060995A1 (en) * | 2015-08-31 | 2017-03-02 | Raytheon Company | Systems and methods for identifying similarities using unstructured text analysis |
CN106970922A (zh) * | 2016-01-14 | 2017-07-21 | 北大方正集团有限公司 | 基于多字段关键词的索引建立方法、检索方法及索引系统 |
-
2018
- 2018-03-09 CN CN201810193383.7A patent/CN108536742A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391945A (zh) * | 2014-11-28 | 2015-03-04 | 厦门市美亚柏科信息股份有限公司 | 数据库文件数据索引的处理方法和装置 |
US20170060995A1 (en) * | 2015-08-31 | 2017-03-02 | Raytheon Company | Systems and methods for identifying similarities using unstructured text analysis |
CN106970922A (zh) * | 2016-01-14 | 2017-07-21 | 北大方正集团有限公司 | 基于多字段关键词的索引建立方法、检索方法及索引系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Linden: linking named entities with knowledge base via semantic knowledge | |
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
Marrero et al. | Named entity recognition: fallacies, challenges and opportunities | |
CN100437585C (zh) | 基于倒排表进行检索提示的方法 | |
CN102750316B (zh) | 基于语义共现模型的概念关系标签抽取方法 | |
CN102737039B (zh) | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 | |
CN108664599B (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
TW201510753A (zh) | 查詢建議模板 | |
US11216499B2 (en) | Information retrieval apparatus, information retrieval system, and information retrieval method | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
WO2011079415A1 (en) | Generating related input suggestions | |
CN105630884A (zh) | 一种微博热点事件的地理位置发现方法 | |
CN113033198A (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
CN112328773A (zh) | 基于知识图谱的问答实现方法和系统 | |
CN101923556A (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
JP2013077045A (ja) | テキスト位置判定装置及びテキスト位置判定方法 | |
Liebeskind et al. | Semiautomatic construction of cross-period thesaurus | |
CN106815279A (zh) | 基于本体的政务知识检索系统 | |
Han et al. | Design and implementation of elasticsearch for media data | |
CN107291700A (zh) | 实体词识别方法及装置 | |
CN108536742A (zh) | 一种利用非结构化文档加速结构化数据检索的方法 | |
CN103514214B (zh) | 数据查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |