CN116340530A - 基于机械知识图谱的智能设计方法 - Google Patents
基于机械知识图谱的智能设计方法 Download PDFInfo
- Publication number
- CN116340530A CN116340530A CN202310128512.5A CN202310128512A CN116340530A CN 116340530 A CN116340530 A CN 116340530A CN 202310128512 A CN202310128512 A CN 202310128512A CN 116340530 A CN116340530 A CN 116340530A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- module
- relationship
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013461 design Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000012015 optical character recognition Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013515 script Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 2
- 230000007717 exclusion Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 13
- 238000004519 manufacturing process Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003754 machining Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000007514 turning Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Manufacturing & Machinery (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开机械零件制造性评价领域中的一种基于机械知识图谱的智能设计方法,将工业文本文档数据转换为计算机可识别的文档形式,将预处理后的数据源打上标签,按照划分为训练集、测试集与验证集;对预处理后的数据源进行实体分类和关系分类,并基于训练集分别构建实体识别模型和实体关系模型,实体识别模型识别出具体领域内实体,实体关系模型实现实体间关系的抽取;实体关系模型、实体识别模型与预处理后的数据源拼接为三元组,将三元组数据储存至后台数据库;本发明对领域内实体与关系进行定义、对数据源知识结构进行划分,搭建了专业领域内的实体识别与关系抽取模型,便于从复杂的专业领域文本数据获取所需的专业知识,提高识别率。
Description
技术领域
本发明涉及机械零件制造性评价领域,尤其是涉及一种零件可制造性评价知识图谱构建与智能辅助设计方法。
背景技术
随着工业智能的新一轮技术的变革,智能制造正在逐步将制造业数据由数据智能转变为认知智能。如何将制造业中积累的多源异构数据转换为具体的工业知识以及如何更便捷使用这些知识已发展成为当前主要的研究内容。具体的,制造业的多源异构数据主要以工业文档的形式进行保存。此类文件主要是以自然文本和工艺卡的表格形式存在。一个合格的设计与评价人员,需要具备多种领域知识,才能对零件进行全生命周期甚至多生命周期设计与评价。如果设计人员和加工人员信息交流不充分或不及时,容易导致设计出来的零件无法加工或不易加工,制造成本上升。目前,文档的大部分信息主要是由技术人员进行手工处理。如何最大限度地利用这些信息形成知识为智能化工厂服务,使企业提高竞争力变得越来越迫切。为此需要设计一种方法,从工程文档中获取信息,形成可用知识,同时将知识共享给生产设计人员和评价人员,打破信息孤岛,提高产品设计与制造质量。
目前,进行图谱构建与辅助设计常用的实体识别方法与词向量化方法主要有:双向长短时记忆网络(Bi_LSTM)、双向长短时记忆网络+条件随机场(BiLSTM+CRF)与常用的Word2vec模型词向量化等;这些方法前都存在局限性,一般中文句子组成成分较为复杂,一词多义现象较多,采用上述方法无法对一些专业名词或者一词多义进行明确区分。中国专利申请号为CN202111587368.9的文献公开了“改进BiLSTM-CRF的电子病历命名实体识别方法”,同时将输入的文字与标签进行Embedding进行结合,引入多头注意力机制在Attention层获得更多有用的信息,进行结构化电子病历信息提取。但是该方法进行词向量化时没有考虑到上下文之间的联系,文本之间关键信息没有提取出来,导致识别结果准确率可能会降低。中国专利申请号为CN201910766428.X的文献公开了“一种知识图谱构建方法”,采用BERT(Bidirectional Encoder Representation from Transformers)微调进行词向量化,后续采用分类算法对具体实体类别进行分类,提高图谱构建质量,但该方法应用领域较为特定,针对不同指定领域的文本词汇识别准确率较低,无法适应领域性较强的文本且后续知识重用性较差。
发明内容
本发明的目的在于解决现有零件可制造性评价存在的上述问题,提出一种识别准确、提高生产与设计效率和便于使用的基于机械知识图谱的智能设计方法。
本发明采用以下技术方案实现上述目的:
步骤(1):收集工业文本文档数据,将工业文本文档数据转换为计算机可识别的文档形式,获得原始数据源,对所述的原始数据源作预处理得到预处理后的数据源;
步骤(2):将所述的预处理后的数据源打上标签,将标签好的数据源划分为训练集、测试集与验证集;
步骤(3):对所述的预处理后的数据源进行实体分类和关系分类,所述的实体分类是分为产品设计类、零件加工类、零件装配类与相关资料类,所述的关系分类是分为因果关系、互斥关系、有限关系、引发关系与固定关系,并基于所述的训练集分别构建实体识别模型和实体关系模型,得到完整的机械知识图谱,实体识别模型识别出具体领域内实体,实体关系模型实现实体间关系的抽取;
步骤(4):所述的实体关系模型、实体识别模型与预处理后的数据源拼接为三元组,将三元组数据储存至后台数据库。
本发明采用上述技术方案后的有益效果是:
1.本发明对领域内实体与关系进行定义、对数据源知识结构进行划分,为后续提供了实体与关系分类基础。
2.本发明搭建了专业领域内的实体识别与关系抽取模型,便于从复杂的专业领域文本数据获取所需的专业知识,提高识别率。
3.本发明对领域内大量文本数据进行知识提取、并以图谱形式进行存储,为各种下游任务提供基础。
4.本发明构建问答模版,尽可能将所涉及到的专业问题进行分类。用户输入问题后系统会相应的进行分类,便于查询问题结果。
5.本发明构建并训练该领域内一些常用问题的分类模型,为知识问答模块提供基础。
6.本发明结合前端框架搭建辅助设计平台,平台提供了友好的人机交互界面可以进行实体识别、语句问答、实体查询等多种功能,便于设计与评价人员使用,提高生产与设计效率。
附图说明
下面结合附图对本发明的技术方案作清楚和完整的描述;
图1是本发明基于机械知识图谱的智能设计方法的设计流程图;
图2是图1中数据源的框架图;
图3是图1中关系分类的关系类型图;
图4是实体识别与关系抽取网络模型结构图;
图5是辅助设计平台模块布置示意图;
图6是图5中的问句查询语法分析图;
图7是实施例中的实体类别图。
具体实施方式
本发明将工厂内部和外部所储存的大量结构化数据以及非结构化数据进行信息提取与保存,并将该领域内部知识库、实体与实体所属关系进行具体划分,采用深度学习方法构建具体抽取模型,最终把抽取结果储存进Neo4j图数据库以便后期使用。具体如下:
参见图1,在数据获取层中进行数据源的获取:
从工厂内部零件设计文档与加工手册、工艺卡片、外部教材、收录文献以及工人、专家长期以来积累下来的经验等,获取相关工业文本文档数据并作收集,工业文本文档数据是文本形式。将收集到的文本形式的工业文本文档数据经过OCR(Optical CharacterRecognition)识别技术转换为计算机可识别的文档形式,获得原始数据源。
原始数据源输入数据处理层中,采用常用的数据预处理方法处理由数据获取层所获得的原始数据源,获得预处理后的数据源。所述的常用的数据预处理方法包括正则表达式、去除停用词等方法,对一些无用或者识别错误的信息进行数据预处理,得到所需的预处理后的数据源。
将预处理后的数据源输入实体识别层,在实体识别层中首先对预处理后的数据源进行实体分类,定义实体分类的具体类别,构建实体识别数据集,由实体识别数据集自构建实体识别模型,结合该实体识别模型进行文本实体识别,采用BERT+Bi_LSTM+CRF实体识别模型识别出具体领域内实体,并将文本实体识别数据传入关系识别层。实体识别层中获得的预处理后的数据源也传入关系识别层中。
所述的实体分类,参见图2所示,是对机械设计与制造评价等领域相关内容进行研究与分析,明确领域中重要的术语和概念。将预处理后的数据源分为四类,所述的具体类别分别是:第一类,.产品设计类:由零件设计意图、特征设计经验、零件结构工艺性组成。第二类.,零件加工类:由零件加工机具、零件加工刀具、零件加工工艺性组成。第三类,零件装配类:由零件装配类型、零件装配经验、零件装配顺序组成。第四类,相关资料类:由产品设计手册、规范操作手册与专业教材组成。领域内实体具备类别多样、特征分化等特点,对各种实体进行分析,提取存在的共同特征作为分类依据,例如,可以将产品实体类型进一步分为孔、面、腔、槽等类。
所述的构建实体识别数据集:将预处理后的数据源转换为“文本-实体标签”形式,即将数据集打上标签,具体是将预处理后的数据源中所包含的实体文本标记为[@实体部分#实体分类*]:如将“孔与端面需有倒角过渡”通过标注工具手动标记为“[@孔#B-孔*]与[@端面#B-面*]之间需有[@倒角#B-倒角*]过渡”,其中,定义标签含义:B、I、O分别表示为Begin、Inner、Other。将标记完成的文本保存为.txt.ann格式;然后编写Python脚本文件,使用正则表达式,具体公式为:“[@||$](.*?)[#]”,对输入文件过滤出每一个标记的具体内容,然后通过表达式“[[](.*?)[]]”去除无关的内容,并将其放入数组中,最终成为“文本-实体标签”的形式。例如:孔B-孔,与O,端B-面,面I-面,需O,有O,倒B-倒,角I-角,过O,渡O。
根据“文本-实体标签”的数据量将标记好的数据集按照一定的比例划分为训练集、测试集与验证集,自构建实体识别模型。例如按照以往经验与结果进行8:1:1的比例来划分。
所述的实体识别模型,本发明采用基于深度学习方法,选用TensorFlow框架实现实体识别,选取BERT(Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示技术)预训练模型。基于该BERT预训练模型,使用Transformer编码器作为主体语言模型,可以捕获更远距离的依赖关系,并且效率比循环神经网络更高。BERT预训练模型具体网络结构如图4所示,该结构由BERT模块、前向LSTM、后向LSTM模块与CRF模块组成,首先将训练集中的文本依次输入BERT模块,将文本转换为768维度词向量,然后将BERT模块所输出的词向量同时输入前向LSTM模块与后向LSTM模块,最后将输出结果进行拼接,输入CRF模块进行分类处理,最终输出结果。BERT预训练模型的预训练任务主要包括MASK文本预处理层、预测上下句关系、词嵌入层与Transformer特征编码层,其中Transformer编码层通过自注意力机制,可以生成动态词向量,使其更加适应机械领域的词向量化。为了更适应中文文本,本发明采用全词MASK进行文本MASK,即一个词语中的单个字被MASK,所属的一个完整的词语也会被MASK。例如,原文本:“孔与端面需有倒角”,Mask:“孔与[Mask][Mask]需有倒角”,可以更好地克服一词多义现象,生成包含上下文语义的768维动态词向量;LSTM(Long-Short Term Memory,长短期记忆网络)是循环神经网络(RNN)的一种变体,它的核心主要是以下结构:输入门It、遗忘门Ft、输出门Ot以及后续记忆细胞Cell,公式如下:
式中:wi为输入门权重;ht-1为隐含层向量;xt为输入数据;bi为输入门偏置项;σ为sigmoid函数;wf为遗忘门权重;bf为遗忘门偏置项;wo为输出门权重;bo为输出门偏置项。
记忆细胞Cell存储历史记忆内容,在确定过去记忆与新内容的保留部分后更新细胞,表达式如下:
cell=tannh(Wc[ht-1,xt]+bc),
式中:Wc为隐含状态权重;bc为隐含状态偏置项。
输入门It与遗忘门Ft两者的共同作用就是舍弃无用的信息,把有用的信息传入到下一时刻。Bi_LSTM(Bidirectional Long-Short Term Memory,双向长短期记忆网络),其基本思想就是对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出结果进行合并。因此对于每一个时刻而言,都对应着前向与后向的信息。在命名实体识别任务中,Bi_LSTM善于处理长距离的文本信息,但无法处理相邻标签之间的依赖关系。在识别机械实体的时候,Bi_LSTM虽然提取了双向的语义信息,但却未考虑实体之间的依存关系。对一个实体有可能会预测出连续‘B-’、‘B-’或者出现以‘I-’为开头的标注,因此本发明选用CRF(条件随机场)预测上下文标签之间关系来解决该问题。所需预测文本中的字符在经过Bi-LSTM计算后得到输出结果,CRF通过考虑实体标签得分和相邻字符标签间转移得分,对所需预测领域内实体字符标签进行综合评分,具体评分公式如下:
式中:表示一条机械设计领域文本中相邻两标签间的转移分数;/>表示机械文本中第i个字符的yi标签得分;n表示当前输入字符数量。将机械设计文本字符正确标注总得分与所有可能标注总得分进行比较,得到当前正确标注的概率值P(Y|X)如下:
得到字符标签预测正确的概率值,当P(Y|X)接近1的时候,表示标注结果与模型所预测结果一致,机械设计实体识别模型得到了有效的训练。
选择BERT+Bi_LSTM+CRF模型作为实体识别的主体模型,经过调试,选择识别效果最好的一组模型参数作为最终参数,具体的Bi_LSTM+CRF模型batch_size=32、LSTM隐含层数为2、Dropout=0.5、Epoch=80等,最后加入TensorBoard模块,将训练过程曲线进行可视化输出。
最后,利用测试集对实体识别模型进行评估,评估指标包括F-score,公式如下:
其中,precision为准确率;recall为召回率;TP为预测为正例,实际为正例;FP为预测为正例,实际为负例;FN为预测为负例,实际为正例;若F-score低于预定目标值,重复上述训练模型步骤;若F-score达到预定目标,则选择使用该参数模型。
在关系识别层中,定义关系分类的类型,根据输入的实体识别层中预处理后的数据源构建实体关系抽取数据集,由实体关系抽取数据集自构建实体关系模型。构建一个完整的领域知识图谱,不仅要有领域实体,还需获取实体之间关系,采用Text_CNN+LSTM进行实体间关系的抽取。
结合实体关系模型,将实体关系模型、实体识别模型与传入的实体识别层中的预处理后的数据源拼接为三元组。
关于关系分类的类型:机械设计与评价领域关系错综复杂,根据具体的实体关系,将将领域内实体与关系进行分类,机械设计与评价领域关系分为五种关系类型,如图3所示,分别为:因果关系、互斥关系、优先关系、引发关系以及固定关系,这五种关系类型涵盖领域绝大部分关系,每种关系类别下的关系又可细分为多种关系。
所述的实体关系模型,与实体识别层中的实体识别模型类似,首先要制作关系抽取数据集:先将实体识别层传入的文本数据进行标签处理,为“句子,关系标签”形式,作为数据集。具体实例:如“孔与端面之间需有倒角,需有关系”。将数据集按照8∶1∶1分为训练集、测试集、验证集。然后构建一个完整的领域知识图谱,不仅要有领域实体,还需获取实体之间关系。采用文本卷积神经网络(TextCNN)+LSTM进行实体间关系分类。具体结构如图4所示,主要分为BERT模块与TextCNN+LSTM模块。输入处理好的文本数据,依次通过BERT模块将文字转化为768维度向量,将输出结果依次输入卷积层、池化层、LSTM循环层最后接入全连接层输出结果。与其他卷积神经网络相比,TextCNN网络结构简单,网络参数较少。为了减少语义特征损失,该网络仅采用一层卷积和一层池化。该网络包含32个过滤器、卷积核数为3、填充采用SAME方式、激活函数为RELU。具体的,关系抽取的本质可以理解为文本分类任务。采用所述的F-score评价指标,对该模型进行评估,选取准确率最高的模型作为最终参数模型,搭建好领域内的实体关系模型。
所述的三元组采用Python所含的第三方库编写脚本,将三元组存储进入MySQL与Neo4j图数据库,以便后续使用与维护。
将三元组数据传入数据存储层中,数据存储层接收三元组数据,结合预先存储的已有的第三方数据库应用MySQL与Neo4j两个数据库软件,将三元组数据储存至后台数据库。
在应用层中,对后台数据库进行应用,主要包含用户登录、实体查询、辅助问答与知识更新等功能。
所述的应用层选用Django框架搭建辅助决策平台,平台主要结构如图5所示,具体结构为:Entity recognition(实体识别模块)、Query(查询模块)、Overview(总览模块)与Question and answer(辅助问答模块)。
实体识别模块:该模块主要实现对用户输入内容的识别、实体分词与词性标注功能,主要采用实体识别模型与分词模型,识别用户所输入的语句中是否包含所需的实体。
查询模块:通过web框架连接Neo4j图数据库,实现图数据库中实体、关系、节点属性的查询,主要实现对节点内容与关系的查询与修改功能。本发明所构建的知识图谱是基于图数据库Neo4j构建存储的,对知识进行查询时,需要通过Neo4j中所使用的Cypher查询语句来检索数据并返回查询结果。通过在网页前端输入所要查询的实体或者关系,点击提交后,后台自动生成该节点或者关系的Cypher查询语句进行数据检索,将所查询结果返回前端网页,通过Neovis.js与ECHARTS等插件实现可视化。
总览模块:该模块主要实现了图谱展示功能,将数据库中所包含的部分节点与关系展示在前端界面。
辅助问答模块:首先从查询语句中识别出实体,其次对该问句进行语法分析,最后通过语法匹配依赖书的结构特征从自然语言问句中抽取出结构化的语义三元组,为后续问句分类与模板匹配提供基础。
本发明采用问答形式进行辅助设计与评价:首先对用户所提问题进行分词、语法分析,抽取出句中具体的实体与语法关系,进行句子分类,然后将所提取出的内容与预先设计完成的问题模版进行匹配,最后得到最佳匹配问题,构建与问题相对应的Cypher(Cypher是一种声明式图数据库查询语言,它具有丰富的表现力,能高效地查询和更新图数据)语句进行图数据库搜寻,得到最终返回答案。通过一些前端工具将这些功能集成并可视化,集中至网页中,便于使用人员操作。
目前存在很多成熟的工具,可以实现从查询语句中识别出实体。其中,语言技术平台LTP是一整套中文自然语言处理系统,该平台系统提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块。因此本发明选用LTP(Language Technology Platform)平台,通过该平台进行前期自然语言处理工作,对问句进行依存语法分析和语义依存分析,识别结果见图6。通过计算问句特征词与模版间相似度得到与问句语义最相似的实体,最后通过构建Cypher语句检索对Neo4j数据库进行查询,返回查询结果,由于LTP自带的词典对专业领域的词汇会出现识别不全的情况,所以将所有抽取到的该领域知识库中实体、关系及属性值组成领域专业词典,额外加载到LTP扩充词典中。例如“如何加工台阶孔?”经过词性标注后结果为“如何/r加工/v台阶孔/nm?wp”,其中r表示代词、v表示动词、nm表示从所添加字典中识别的名词、wp表示标点符号。通过语法依赖书的结构特征从问句中抽取出结构化的语义三元组。
定义问句模版:从用户所输入的查询语句中识别出实体或关系,例如从句子:“如何加工台阶孔?”中可以提取出“加工,台阶孔,?”等特征词,根据特征词进行问题模版匹配,最终在图谱中查找出对应的结果。
由于本领域还没有较高质量的人工标注的问答或者结构化中文数据集,因此本发明需要构建机械设计、评价类问题模版来支持图谱系统智能查询的实现。具体设计加工类问句查询部分样本如下:
问题分类模型:在本发明中,问题分类主要分为两部分:一、选用高低词频(TF-IDF)法将文本特征提取为离散的集合,这种方法可以有效避免常用词对关键词的影响,提高了关键词与文本的相关性。二、选取朴素贝叶斯文本分类器作为特征分类模型,构建所需问题数据集,并采用相同评价方法评价该模型,选取指标最优的模型作为最终模型。
从查询语句中提取实体关系特征词,结合特征词形成Cypher查询语句从图数据库Neo4j中检索对应的答案并返回,过程如下:
Q:如何加工台阶孔?
K:如何/r加工/v台阶孔/nm?/wp
A:车台阶孔粗车精车
Q表示具体问句集,K表示所识别出的问句特征词与语法集,A表示返回给用户的答案。将问句中所识别出来的实体与关系,生成Cypher语句,如:‘MATCH(n)-[r]->(m)WHEREn.name='节点名称'RETURN n,r,m’,将所查询到的结果输出到前端界面,返回给用户,完成查询。
以下提供本发明的一个实施例:
实施例1
针对任意设计模型与历史设计资料,首先针对其企业内部相似或者历史设计资料库,进行收集与整理,获取工业文本文档,将收集到的文档采用OCR与正则表达式技术对该文本进行处理与清洗,具体清洗完成的部分结果如下所示:
孔的轴线应垂直端面,降低切削难度
孔应该避免出现深孔,应使深度与孔径的比值L/D≤5
阶梯孔的各孔深度直径比不能相差过大
孔的尺寸应满足标准规范要求
孔的尺寸公差A、位置公差B、形状公差C及粗糙度D应满足A>B>C>D
面的宽度应尽可能的均匀,避免刀具出现非均匀地冲击切削
面避免出现结构复杂的加工曲面
避免出现细长柱面,应使柱面长和直径比值L/D≤5
面积较大的平面应尽量采用低加工精度
面的尺寸公差A、位置公差B、形状公差C及粗糙度D应满足A>B>C>D
为便于加工,腔的相邻侧壁间应设置转接圆
腔的侧壁和底面之间避免为锐角
对该文档按图2所示行实体分类,如图7所示,分为常用的孔、面、槽与工具五大类,依据这五大类继续细分为多个实体类别,例如工具类又细分为刀具、扳手、机床,具体细分类别参见图7中。对已经处理好的数据打上标签进行数据集制作,分别搭建实体识别模型与实体关系识别模型,随后进行模型训练;最后进行三元组储存,并可视化至Neo4j图数据库。
采用Django框架搭建辅助决策平台,将训练完成的实体识别模型部署至实体识别模块;采用Neovis.js进行Neo4j图数据库的连接,完成实体的查询功能。最后搭建问答平台,首先构建问题模版,然后采用朴素贝叶斯进行问题分类,将用户输入的问句依照LTP平台进行语义与词性分析,了解用户意图,然后进行问题分类,最终得到用户问句中的实体与关系,构建成Cypher语句进行查询并返回给前端。
Claims (10)
1.一种基于机械知识图谱的智能设计方法,其特征是具有以下步骤:
步骤(1):收集工业文本文档数据,将工业文本文档数据转换为计算机可识别的文档形式,获得原始数据源,对所述的原始数据源作预处理得到预处理后的数据源;
步骤(2):将所述的预处理后的数据源打上标签,将标签好的数据源划分为训练集、测试集与验证集;
步骤(3):对所述的预处理后的数据源进行实体分类和关系分类,所述的实体分类是分为产品设计类、零件加工类、零件装配类与相关资料类,所述的关系分类是分为因果关系、互斥关系、有限关系、引发关系与固定关系,并基于所述的训练集分别构建实体识别模型和实体关系模型,得到完整的机械知识图谱,实体识别模型识别出具体领域内实体,实体关系模型实现实体间关系的抽取;
步骤(4):所述的实体关系模型、实体识别模型与预处理后的数据源拼接为三元组,将三元组数据储存至后台数据库。
2.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(1)中,所述的工业文本文档数据经过OCR识别技术转换为计算机可识别的文档形式,所述的原始数据源经正则表达式、去除停用词方法进行数据预处理。
3.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(2)中,将预处理后的数据源的文本保存为.txt.ann格式,编写Python脚本文件,使用正则表达式,过滤出每一个标记的具体内容,通过表达式去除无关的内容,并将其放入数组中,成为“文本-实体标签”的形式。
4.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(3)所述的实体识别模型采用TensorFlow框架实现实体识别,采用由BERT模块、前向LSTM、后向LSTM模块与CRF模块组成的预训练模型。
6.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(3)中,所述的实体关系模型采用文本卷积神经网络进行实体间关系分类,分为BERT模块与TextCNN+LSTM模块,通过BERT模块将文字转化为768维度向量,将输出结果依次输入卷积层、池化层、LSTM循环层,最后输出结果。
7.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(4)中,所述的三元组采用Python所含的第三方库编写脚本,将三元组存储进入MySQL与Neo4j图数据库。
8.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:步骤(4)中,对后台数据库进行应用,包含用户登录、实体查询、辅助问答与知识更新功能。
9.根据权利要求8所述的一种基于机械知识图谱的智能设计方法,其特征是:搭建包括有实体识别模块、查询模块、总览模块与辅助问答模块的辅助决策平台。
10.根据权利要求1所述的一种基于机械知识图谱的智能设计方法,其特征是:所述的实体识别模块实现对用户输入内容的识别、实体分词与词性标注功能,所述的查询模块通过web框架连接Neo4j图数据库,实现图数据库中实体、关系、节点属性的查询,所述的总览模块将数据库中所包含的部分节点与关系展示在前端界面,所述的辅助问答模块从查询语句中识别出实体,对该问句进行语法分析,通过语法匹配依赖书的结构特征从自然语言问句中抽取出结构化的语义三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128512.5A CN116340530A (zh) | 2023-02-17 | 2023-02-17 | 基于机械知识图谱的智能设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128512.5A CN116340530A (zh) | 2023-02-17 | 2023-02-17 | 基于机械知识图谱的智能设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340530A true CN116340530A (zh) | 2023-06-27 |
Family
ID=86883044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310128512.5A Pending CN116340530A (zh) | 2023-02-17 | 2023-02-17 | 基于机械知识图谱的智能设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340530A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522233A (zh) * | 2023-07-03 | 2023-08-01 | 国网北京市电力公司 | 一种可研文档要点评审内容抽取分类方法及系统 |
CN117235929A (zh) * | 2023-09-26 | 2023-12-15 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059607A1 (en) * | 1999-09-01 | 2008-03-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
US20200004832A1 (en) * | 2018-07-02 | 2020-01-02 | Babylon Partners Limited | Computer Implemented Method for Extracting and Reasoning with Meaning from Text |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询系统的构建方法及装置 |
CN113569054A (zh) * | 2021-05-12 | 2021-10-29 | 浙江工业大学 | 多源中文金融公告文书的知识图谱构建方法及系统 |
CN113723632A (zh) * | 2021-08-27 | 2021-11-30 | 北京邮电大学 | 一种基于知识图谱的工业设备故障诊断方法 |
CN114911945A (zh) * | 2022-04-13 | 2022-08-16 | 浙江大学 | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
-
2023
- 2023-02-17 CN CN202310128512.5A patent/CN116340530A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080059607A1 (en) * | 1999-09-01 | 2008-03-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
US20200004832A1 (en) * | 2018-07-02 | 2020-01-02 | Babylon Partners Limited | Computer Implemented Method for Extracting and Reasoning with Meaning from Text |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113569054A (zh) * | 2021-05-12 | 2021-10-29 | 浙江工业大学 | 多源中文金融公告文书的知识图谱构建方法及系统 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询系统的构建方法及装置 |
CN113723632A (zh) * | 2021-08-27 | 2021-11-30 | 北京邮电大学 | 一种基于知识图谱的工业设备故障诊断方法 |
CN114911945A (zh) * | 2022-04-13 | 2022-08-16 | 浙江大学 | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 |
CN115269857A (zh) * | 2022-04-28 | 2022-11-01 | 东北林业大学 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
Non-Patent Citations (1)
Title |
---|
崔硕等: "基于深度学习的机械领域知识图谱构建及应用", 《制造技术与机床》, 2 February 2023 (2023-02-02), pages 83 - 89 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522233A (zh) * | 2023-07-03 | 2023-08-01 | 国网北京市电力公司 | 一种可研文档要点评审内容抽取分类方法及系统 |
CN117235929A (zh) * | 2023-09-26 | 2023-12-15 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN117235929B (zh) * | 2023-09-26 | 2024-06-04 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
CN118014072B (zh) * | 2024-04-10 | 2024-08-16 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN107908671B (zh) | 基于法律数据的知识图谱构建方法及系统 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN113987212A (zh) | 一种数控加工领域工艺数据的知识图谱构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询系统的构建方法及装置 | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN114817454B (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN118132719A (zh) | 一种基于自然语言处理的智能对话方法及系统 | |
CN116342167A (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
Shen et al. | NLP-BASED TEXT CATEGORIZATION STUDY FOR MANUFACTURING PROCESS TOLERANCE DETECTION | |
Sun | A natural language interface for querying graph databases | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN114579709A (zh) | 一种基于知识图谱的智能问答意图识别方法 | |
CN118245591A (zh) | 基于元数据特征和思维链的多表关联大语言模型问答方法 | |
CN117972049A (zh) | 一种基于大语言模型的医疗器械申报材料生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |