CN111708899B - 一种基于自然语言和知识图谱工程信息智能搜索方法 - Google Patents
一种基于自然语言和知识图谱工程信息智能搜索方法 Download PDFInfo
- Publication number
- CN111708899B CN111708899B CN202010540196.9A CN202010540196A CN111708899B CN 111708899 B CN111708899 B CN 111708899B CN 202010540196 A CN202010540196 A CN 202010540196A CN 111708899 B CN111708899 B CN 111708899B
- Authority
- CN
- China
- Prior art keywords
- building field
- knowledge
- entity
- knowledge graph
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、构建基于建筑领域的知识图谱;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;S5、施工人员使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从构建好的知识图谱中快速地查询对应的知识,从而提高现场的施工效率。
Description
技术领域
本发明涉及建筑工程领域,特别是涉及一种基于自然语言和知识图谱工程信息智能搜索方法。
背景技术
现有技术中当工程量进行统计之后,如何快速从大量的工程量数据中快速准确查询到指定的构件的工程量信息是影响工程效率的重要问题。建筑施工所涉及的人员与专业众多,算量信息查询的请求复杂多变。按照现有方式对工程量信息进行查询时,需要先到图纸或三维模型中找到对应的构件,然后到工程量信息表格中找到与之对应的工程量信息,这个过程较为繁琐且效率低下。
发明内容
本发明目的在于克服现有技术中的上述缺陷,提供了一种基于自然语言和知识图谱工程信息智能搜索方法,其让施工人员能够使用自然语言从构建好的知识图谱中快速地寻找到相应的工程信息,提高现场的施工效率。
为实现上述目的,本发明提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
优选的,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;以上的知识和数据信息均存入图数据库。
优选的,所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典。
优选的,所述步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型。
优选的,所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
与现有技术相比,本发明的有益效果在于:
采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于自然语言和知识图谱工程信息智能搜索方法中步骤S5和步骤S6的流程图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
其中步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;因此转化成三元组及关系以上的知识和数据信息均存入图数据库,对于较复杂的问题集,更有利于检索和遍历问题中隐含的关系,从而查出正确答案;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行BIO序列标注,构建建筑领域的字典;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
其中步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型;
S5、如图1所示,使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
S6、根据问题文本识别出实体和语义关系,匹配问题类型,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
综上所述,采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱,其中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组,以上的知识和数据信息均存入图数据库;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,其中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
2.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S5的具体过程如下:
使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540196.9A CN111708899B (zh) | 2020-06-13 | 2020-06-13 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540196.9A CN111708899B (zh) | 2020-06-13 | 2020-06-13 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708899A CN111708899A (zh) | 2020-09-25 |
CN111708899B true CN111708899B (zh) | 2023-10-03 |
Family
ID=72540647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010540196.9A Active CN111708899B (zh) | 2020-06-13 | 2020-06-13 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708899B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372454B (zh) * | 2020-10-14 | 2024-08-16 | 腾讯科技(深圳)有限公司 | 文本信息抽取方法、模型训练方法、装置及存储介质 |
CN112231460B (zh) * | 2020-10-27 | 2022-07-12 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112487202B (zh) * | 2020-11-27 | 2022-05-06 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112905884B (zh) * | 2021-02-10 | 2024-05-31 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
CN113779992B (zh) * | 2021-07-19 | 2024-10-15 | 西安理工大学 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
CN117972222B (zh) * | 2024-04-02 | 2024-06-21 | 紫金诚征信有限公司 | 基于人工智能的企业信息检索方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
WO2018081633A1 (en) * | 2016-10-28 | 2018-05-03 | Roam Analytics, Inc. | Semantic parsing engine |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110569345A (zh) * | 2019-09-04 | 2019-12-13 | 淮阴工学院 | 一种基于实体链接和关系预测的时政知识智能问答方法 |
-
2020
- 2020-06-13 CN CN202010540196.9A patent/CN111708899B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018081633A1 (en) * | 2016-10-28 | 2018-05-03 | Roam Analytics, Inc. | Semantic parsing engine |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN110569345A (zh) * | 2019-09-04 | 2019-12-13 | 淮阴工学院 | 一种基于实体链接和关系预测的时政知识智能问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111708899A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708899B (zh) | 一种基于自然语言和知识图谱工程信息智能搜索方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN110598000A (zh) | 一种基于深度学习模型的关系抽取及知识图谱构建方法 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN110377715A (zh) | 基于法律知识图谱的推理式精准智能问答方法 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN104679885A (zh) | 一种基于语义特征模型的用户搜索串机构名识别方法 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN117349420A (zh) | 基于本地知识库和大型语言模型的回复方法和装置 | |
CN111597349B (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN114021574B (zh) | 政策文件智能解析与结构化方法及系统 | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 | |
CN111241299A (zh) | 一种法律咨询的知识图谱自动构建方法及其检索系统 | |
CN114238595A (zh) | 一种基于知识图谱的冶金知识问答方法及系统 | |
CN117216221A (zh) | 一种基于知识图谱的智能问答系统及构建方法 | |
CN102521239B (zh) | 一种基于owl的互联网问答信息匹配系统及其匹配方法 | |
CN114238616A (zh) | 一种专家信息检测方法和存储设备 | |
Li et al. | Automatic answer ranking based on sememe vector in KBQA | |
CN117909484B (zh) | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |