CN113642330B

CN113642330B - 基于目录主题分类的轨道交通规范实体识别方法

Info

Publication number: CN113642330B
Application number: CN202110814564.9A
Authority: CN
Inventors: 黑新宏; 董林靖; 朱磊; 方潇颖; 焦瑞
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-04-30
Anticipated expiration: 2041-07-19
Also published as: CN113642330A

Abstract

本发明主要是基于目录主题分类的轨道交通规范实体识别方法，采用RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制，通过采集较大规模的建筑规范文本实现领域自适应预训练，并加入主题分类信息，提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中，为构建领域知识图谱提供重要支持；会带来很多好处：使命名实体识别模型更好地对领域文本进行表示，提高对于建筑实体的识别性能。逐步增加文本语料库，对已经完成的预训练语言模型进行扩展，从而使预训练语言模型适应更多样多复杂的文本内容；一次训练、多次使用，经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中。

Description

基于目录主题分类的轨道交通规范实体识别方法

技术领域

本发明属于自然语言处理的信息抽取领域，涉及一种基于目录主题分类的轨道交通规范实体识别方法。

背景技术

2013-2020年，我国城轨交通运营线路长度逐年增长。截至2020年底，中国内地累计有40个城市开通城轨交通运营，运营线路达到7978.19公里。轨道交通建设工程属于复杂的工程，在规划、设计、审查和建设过程中设计众多规范。住建部发布的工程设计规范一般都是以文字的形式存在，纸质规范不能直接处理，需要先将其进行数字化存储。但是规范中的数据类型非常复杂，这对处理精度提出了更高的要求。近年来，使用以深度学习为主的算法模型对自然语言进行处理的方法成为主流，尤其是2018年以来，以BERT为代表的预训练语言模型可以很好地理解自然语言文本，从而在更多下游任务中得到很好的结果，如信息抽取、文本分类、智能问答等。与此同时，一些研究者针对垂直领域的自然语言进行数据增强方向的研究，从而更好地理解领域知识。

本发明的核心任务是命名实体识别，虽然在开放领域以及公开的数据集中，该任务已经取得了不错的进展。但是对于特定领域，尤其是在面对轨道交通工程设计规范时，由于缺少必要的知识库，命名实体识别研究仍然面临很多挑战。

(1)规范数据非常复杂

规范内容一般包含文本、图片、表格、公式等多种类型的数据格式。在采集到的数据中常常会出现多种类型数据嵌套的情况，并且会出现同一类型的数据的前后形式不一致的情况，数据之间的层级结构也不统一。

(2)跨学科，多领域的长难句理解困难

由于轨道交通工程设计涉及数十个学科、数百个工种，而国家规范都是由专业人员进行编写的，对专业知识要求极高，文本中包含大量专业术语且都是以复杂句式为主，对于进一步的结构化处理带来很多困难。

(3)低资源与高质量的矛盾

低资源是指无完整术语词典、无明确的实体分类标准、无公开数据集。而下游应用对知识图谱的质量要求极高，以自动合规性检查为例，知识图谱的质量及其完整性直接决定了检查结果的精确性和完备性。

随着深度学习在自然语言处理任务中的深入应用，预训练模型的参数量也迅速增加，为了防止过拟合则需要更大的数据集来充分训练模型参数。然而，对于大多数NLP任务而言，构建大规模的标注数据是一个巨大的挑战，因为标注成本非常巨大，特别是涉及到垂直领域中语义相关的任务时标注难度会急剧上升。相比之下，构建大规模的未标记语料库相对容易，预训练语言模型(Pre-train Models，PTMs)可以利用这些未标记数据从中提取大量的语义信息，并将这些语义表征应用于其他任务。最近的研究表明，PTMs在许多NLP任务中都取得了显著的提高。开源的预训练语言模型与下游任务适配时比较困难，不同的下游任务一般需要不同的语言模型，如文本生成任务通常需要一个特定的任务来预训练编码器和解码器，而文本匹配任务则需要为句子对设计特定的预训练任务。如果不考虑模型的数据分布以及所属领域，任务的差异性可能导致适得其反的结果。

本项目是面向轨道交通领域，将对此领域的未标注文本进行领域自适应预训练，可以利用这些未标记数据从中提取大量的语义信息和领域相关知识，并将这些语义表征应用于其他任务；根据规范目录中的章名或节名对每一条规范文本进行主题分类，加入主题信息。然后将轨道交通规范信息化处理和存储，通过对结构化数据的学习，使模型对非结构化数据信息抽取，可以自动分析提取有用信息。这项研究的推进可以在缩短工程项目审查时间的前提下，保证工程设计的质量，并以特定的数据结构知识图谱进行存储，为智能化应用提供最基础的数据支持，从而提高搜索引擎的速度与智能问答系统的准确性，极大地简化工作的复杂程度，提高了轨道交通领域智能化水平。

发明内容

本发明的目的是提供一种基于目录主题分类的轨道交通规范实体识别方法，解决使用开源预训练语言模型对垂直领域文本不适配导致模型实体识别准确率较低问题。

本发明所采用的技术方案是，基于目录主题分类的轨道交通规范实体识别方法，首先对Google发布的原始RoBERTa预训练模型作为基准模型，通过采集较大规模的轨道交通规范文本实现领域自适应预训练。结合轨道交通规范领域词典给加入全词遮盖(WholeWord Masking)机制，使RoBERTa预训练模型具备轨道交通领域知识的能力；然后将具备领域知识的预训练模型进行主题分类训练，基于每本国家规范都包含的目录数据，使用目录中的章名或节名对每一条规范文本进行主题分类；然后将生成的预训练模型应用到命名实体识别任务中，模型文件输入到主流的NER模型BiLSTM-CRF模型中进行实体识别训练，提出CAT-RailRoBERTa-BiLSTM-CRF模型；最后，将测试集数据输入到训练好的模型中，根据评价指标判断模型的效果；设置经过训练的实体识别模型作为服务端测试模型效果，把预测数据输入进模型后可以输出这条规范的实体和实体类别，并根据识别效果判断模型的可用性。

实验数据来源于国家建标库地铁设计规范，领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。

具体包括以下步骤：

步骤1，获取轨道交通规范实验语料；

本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB50157-2013》，使用爬虫技术爬取这本规范进行实体识别研究。

步骤2，对获取的轨道交通规范语料进行数据清洗；

去除脏数据包括删除重复信息，纠正存在的错误，检查数据的一致性，对无效值和缺失值进行处理。

步骤3，对清洗完成的数据进行文本分析；

结合《建筑信息模型分类编码标准》和术语标注与术语学标准，专家定义地铁设计规范问题的实体类别。

步骤4，人工标注数据集。

从规范化处理的语料库中，选取1650条规范进行数据标注。结合专家定义的实体类别和专业术语两个方面，人工标注每条规范中的所包含的实体，即标注出实体边界与实体类别。经过对标记数据的实体进行统计集，可得出，标注数据集中实体长度分布如图3所示，各个长度实体出现的频次分布如图4所示，数据集中最长的实体包含45个字符，最短的实体包含2个字符，平均长度为5.33，实体长度主要集中在5，3，7和4。这部分的统计数据对模型训练时超参数设置以及预测结果的分析有重要意义。

步骤5，数据集划分；

本实验数据以地铁设计规范条目信息对数据集进行划分，训练集、验证集与测试集的比例大约为7:2:1。

步骤6，构建实验数据集；

利用标注过实体的规范语料构建实验数据，生成用于命名实体识别任务的轨道交通数据集；采用BIO标注模式，实验数据文件中只包含两列信息，实体和实体对应的标签。

步骤7，构建领域自适应预训练数据集；

通过各种渠道采集与建筑设计规范相关联的文本数据，经过简单清洗后，去除特殊符号，如换行符、制表符、HTML标签等，生成统一格式的json数据；数据集中包括《地铁设计规范》语料，还采集了其他建筑领域的语料，共811,120条规范文本。

步骤8，构建轨道交通领域自适应预训练语言模型；

将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型。

步骤9，构建主题分类数据集；

利用未标注过的规范语料构建主题分类数据集，生成用于主题分类任务的轨道交通数据集。本方法先采用节名对规范进行主题标记。

步骤10，构建主题分类模型，将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入，生成CAT-RailRoBERTa预训练模型。

步骤11，构建实体识别模型，将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入。

步骤12，设置训练的实体识别模型作为服务端测试模型效果，将测试数据集输入模型，可识别出测试数据的实体边界和实体类别标签，最终实现轨道交通规范文本中命名实体的自动识别。

步骤8中，构建轨道交通领域自适应预训练语言模型。将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型。

步骤8.1，本发明采用全词Mask机制，如果一个完整的词的部分子词被Mask，则同属该词的其他部分也会被Mask。

步骤8.2，将人工标注的实体抽取形成实体词典，在调用jieba分词工具时，加入实体词典对输入的文本规范进行分词，以80％的概率将输入的token替换为[mask]，10％的概率保持不变，以10％的概率替换为一个随机的token。将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义，模型结构如图9所示。以“站台门噪声峰值不应超过70分贝”为例，加入了术语词典之后，预训练语言模型可以更加正确得表示“站台门”和“分贝”这两个实体。

步骤8.3，将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型，设置训练迭代次数为200次，得到轨道交通领域的预训练模型RoBERTa_800k。

BERT模型是通过联合所有层中的上下文信息。它使用多层的双向Transformer作为编码器模块预先训练深度双向表示，BERT-Base包含12层Transformer结构，每层隐状态的维度是768，使用12个头的多头注意力，总参数量约为110M。

Transformer的每个编码器(Encoder)首先将输入的句子经过一个多头注意力(Multi-Head Attention)层；多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词，然后将输入传递到前馈(feed-forward)神经网络中，每个位置的单词对应的前馈神经网络完全相同并且没有共享参数。Multi-Head Attention上方还包括一个Add&Norm层，Add表示残差连接(Residual Connection)用于防止网络退化，Norm表示LayerNormalization，用于对每一层的激活值进行归一化。

Transformer中最关键的部分就是自注意力(Self-attention)计算，在NER任务中，注意力机制可被用于寻找输入句子中相对重要的字或词，使用一个隐藏层和softmax函数计算句子中每个字或词的权重，使模型对于关键信息特别关注并进行充分学习。因为Transformer在进行计算时输入句子和输出句子实际上是同一个序列，使得每个位置的词都有全局的语义信息，有利于建立长依赖关系。利用自注意力机制可以生成不同连接的权重，从而处理变长的信息序列。用X＝[x₁,x₂,…,x_n]表示n个输入信息，可以通过以下线性变换得到查询向量序列Q，键向量序列K和值向量序列V，计算方法如公式1到公式3所示。

Q＝W_QX

公式1

K＝W_KX

公式2

V＝W_VX

公式3

得到矩阵Q,K,V之后就可以计算出Self-Attention的输出，计算的公式为公式4：

其中，d_k是Q，K矩阵的列数，即向量的维度；K^T为K矩阵的转置。

Transformer在自注意力机制的基础上还设置了多头注意力机制，网络结构中h表示存在h个不同的自注意力机制；其中，每组Q/K/V都不相同，用来扩大注意力层的“表示子空间”，然后得到多个不同的权重矩阵；每个权重矩阵可以将输入向量投射到不同的表示子空间，而不同的head可以学习到不同位置上不同的表示子空间的语义；前馈层不需要多个矩阵输入，因此需要将这些权重矩阵拼接之后做缩放点积运算(Scale dot-productattention)，保证前馈层所需的输入维度，使得多个encoder的输入输出维度保持一致。句子中各个词之间是并行计算的，没有考虑到词位于句子中的位置信息，即句子的序列信息，因此输入部分的词嵌入，是由词向量和词的位置编码两部分拼接(concat)形成的，然后传入到线性激活函数层(linear)。具体的计算方法如公式5到6所示。

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O 公式5

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) 公式6

其中，W^O是一个线性映射矩阵。最后，Transformer引入位置编码(PositionEmbedding，PE)，为词向量中加入单词的位置信息，具体计算方法如公式7到8所示。

在公式7和8中，pos表示单词的位置，i表示单词的维度。其中，2i表示偶数位置，2i+1表示奇数位置，pos∈(1,2,…,N)，N为输入系列的长度，i∈(0,1,…,d_model/2)，d_model是词嵌入的维度。

步骤10的具体过程如下：

步骤10.1，文本分类任务将采用BERT-CNN模型，模型结构如图8所示；BERT模型利用步骤8训练好的领域自适应RoBERTa_800k预训练模型，将模型文件导入。将BERT层输出的文本表示向量输入卷积神经网络，可以帮助模型提取更多的特征信息，如局部的相对位置等信息，从而增强模型的鲁棒性与拓展性。

在BERT-CNN的文本分类模型中，假设BERT层的输出矩阵为R＝{V₁,V₂,…,V_n}，卷积核的长度为l，滑动步长设置为1，那么R可以分为{V_1:l,V_2:l+1,…,V_n-l+1:n}，其中V_i+j表示向量V_i到V_j的级联。假设卷积操作后的结果为P＝{p₁,p₂,…,p_n}，p_i的计算方法如公式9所示。

p_i＝W^TV_i:i+l-1+b

公式9

其中W是卷积核的参数，通过模型的训练进行更新，b是偏移变量。此外，将采用最大池化降低矩阵的维度，即在池化窗口中选择最大的元素。

步骤10.2，将步骤9中构建的主题分类数据集输入到BERT-CNN模型中；将生成的具有文本分类信息的CAT-RailRoBERTa预训练模型。

步骤11的具体过程如下：

步骤11.1，将步骤6中构建的实验数据集中输入到经过文本分类训练的CAT-RailRoBERTa模型中，将一条规范转化为向量形式表示，得到一个句子的词向量、段向量和位置向量。CAT-RailRoBERTa模型的文本向量化表示如图10所示，以规范“车辆基地室外消防栓的间距不应大于120m”为例，Token Embeddings是第一个单词CLS标志，可以用于分类任务；Segment Embeddings是用来区分两种句子，可以用于以两个句子为输入的分类任务；Position Emdedding表示位置，三种Embedding都是通过训练得来的。再将段向量和位置向量作为深度学习模型的输入，最后输出融合全文语义信息的文本特征向量。

步骤11.2，将文本特征向量输入到BiLSTM-CRF模型中，生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型。本发明的有益效果是，

本发明基于RoBERTa预训练语言模型以及全词遮盖(Whole Word Masking)机制，通过采集较大规模的建筑规范文本实现领域自适应预训练，并加入主题分类信息，提高命名实体识别任务的性能。另外将训练得到的预训练语言模型应用到命名实体识别任务中，为构建领域知识图谱提供重要支持，会带来很多好处：第一，可以使命名实体识别模型更好地对领域文本进行表示，提高对于建筑实体的识别性能。第二，可以逐步增加文本语料库，对已经完成的预训练语言模型进行扩展，从而使预训练语言模型适应更多样多复杂的文本内容。第三，一次训练、多次使用，经过领域自适应预训练的语言模型可以直接应用于其他自然语言处理任务中，如文本检索、文本分类和智能问答等任务中。

附图说明

图1是本发明基于目录主题分类的轨道交通规范实体识别方法的总框架图；

图2是本发明基于目录主题分类的轨道交通规范实体识别方法的总流程图；

图3是本发明实验数据集各实体类别长度分布图与各类别出现频次；

图4是本发明实验数据集各个长度实体出现的频次分布图；

图5是本发明基于BIO标注体系的标注案例；

图6是本发明中Transformer编码器模块结构示意图；

图7是本发明中注意力机制模型结构示意图；

图8是本发明中BERT-CNN模型结构示意图；

图9是本发明中RoBERTa-WWM模型的掩码过程结构示意图；

图10是本发明中RoBERTa_800k模型的文本向量化表示示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明目的是提供一种基于目录主题分类的轨道交通规范实体识别方法，具体框架如图1所示。提出了轨道交通领域自适应实体识别模型CAT-RailRoBERTa-BiLSTM-CRF模型，模型结构如图2所示。采用RoBERTa作为领域自适应预训练的基础模型。RoBERTa(Robustly Optimized BERT Approach)采用原始BERT架构，但进行了针对性的修改，可以理解为进行了充分训练的BERT。RoBERTa采用了更大的batch size，使用了更大的预训练语料，删除了NSP(Next Sentence Prediction)任务，采用动态掩码代替静态掩码，采用Byte-Pair Encoding(BPE)进行文本编码，模型结构如图10所示。RoBERTa仅包含1.1亿参数，远小于如今数百亿参数的预训练语言模型，在计算机算力无法快速提升的情况下RoBERTa是最好的基准模型。然后将具备领域知识的预训练模型进行主题分类训练，从规范文本的特点出发，基于每本国家规范都包含的目录数据，使用目录中的章名或节名对每一条规范文本进行主题分类；最后将生成的预训练语言模型输入到BiLSTM-CRF模型中进行实体识别训练。

参照图1，本发明基于目录主题分类的轨道交通规范实体识别方法，按照以下步骤实施：

步骤1，获取轨道交通规范实验语料。本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB 50157-2013》，使用爬虫技术爬取这本规范进行实体识别研究。

步骤2：对获取的轨道交通规范语料进行数据清洗。去除脏数据包括删除重复信息，纠正存在的错误，检查数据的一致性，对无效值和缺失值进行处理。

步骤3：对清洗完成的数据进行文本分析。结合《建筑信息模型分类编码标准》和术语标注与术语学标准，专家定义地铁设计规范问题的实体类别。预定义实体类型具体如表1所示。

表1预定义实体类型

步骤4，人工标注数据集。从规范化处理的语料库中，选取1650条规范进行数据标注。结合专家定义的实体类别和专业术语两个方面，人工标注每条规范中的所包含的实体，即标注出实体边界与实体类别。经过对标记数据的实体进行统计集，可得出，标注数据集中实体长度分布如图3所示，各个长度实体出现的频次分布如图4所示，数据集中最长的实体包含45个字符，最短的实体包含2个字符，平均长度为5.33，实体长度主要集中在5，3，7和4。这部分的统计数据对模型训练时超参数设置以及预测结果的分析有重要意义。

步骤5，数据集划分。本实验数据以地铁设计规范条目信息对数据集进行划分，训练集、验证集与测试集的比例大约为7:2:1。

步骤6，构建实验数据集。利用标注过实体的规范语料构建实验数据，生成用于命名实体识别任务的轨道交通数据集；采用BIO标注模式，实验数据文件中只包含两列信息，实体和实体对应的标签。

步骤6.1，我们通过标注工具标注的数据生成json文件，从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息；

步骤6.2，将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注，其中B(Begin)、I(Intermediate)、O(Other)的缩写，其Begin指所识别对象开始位置上的字符，Intermediate指所识别对象最中间的字符，Other指所识别对象中的非实体字符；基于BIO标注体系的标注案例如图5所示；

步骤6.3，序列标注后将其处理为深度学习模型规定的数据格式，数据文件中每个字符占一行，一行共包含实体和实体标签两列信息，生成轨道交通数据集。

步骤7，构建领域自适应预训练数据集。通过各种渠道采集与建筑设计规范相关联的文本数据，经过简单清洗后(去除特殊符号，如换行符、制表符、HTML标签等)，生成统一格式的json数据。数据集中包括《地铁设计规范》语料，还采集了其他建筑领域的语料，共811,120条规范文本。

步骤8，构建轨道交通领域自适应预训练语言模型。将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型。

步骤8.1，本发明采用全词Mask机制，如果一个完整的词的部分子词被Mask，则同属该词的其他部分也会被Mask，这更符合中文语法习惯，使模型能够更好的学习中文语言表述方式。

步骤8.3，将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型，设置训练迭代次数为200次，得到轨道交通领域的预训练模型RoBERTa_800k。伪代码如下：

BERT(Bidirectional Encoder Representations from Transformers)模型是通过联合所有层中的上下文信息。它使用多层的双向Transformer作为编码器模块预先训练深度双向表示，BERT-Base包含12层Transformer结构，每层隐状态的维度是768，使用12个头的多头注意力，总参数量约为110M。

Transformer的每个编码器(Encoder)首先将输入的句子经过一个多头注意力(Multi-Head Attention)层。如图6所示，多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词，然后将输入传递到前馈(feed-forward)神经网络中，每个位置的单词对应的前馈神经网络完全相同并且没有共享参数。Multi-Head Attention上方还包括一个Add&Norm层，Add表示残差连接(Residual Connection)用于防止网络退化，Norm表示Layer Normalization，用于对每一层的激活值进行归一化。

Q＝W_QX 公式1

K＝W_KX 公式2

V＝W_VX 公式3

得到矩阵Q,K,V之后就可以计算出Self-Attention的输出了，计算的公式为公式4：

Transformer在自注意力机制的基础上还设置了多头注意力机制，网络结构如图7所示，h表示存在h个不同的自注意力机制；其中，每组Q/K/V都不相同，用来扩大注意力层的“表示子空间”，然后得到多个不同的权重矩阵；每个权重矩阵可以将输入向量投射到不同的表示子空间，而不同的head可以学习到不同位置上不同的表示子空间的语义；前馈层不需要多个矩阵输入，因此需要将这些权重矩阵拼接之后做缩放点积运算(Scale dot-product attention)，保证前馈层所需的输入维度，使得多个encoder的输入输出维度保持一致。句子中各个词之间是并行计算的，没有考虑到词位于句子中的位置信息，即句子的序列信息，因此输入部分的词嵌入，是由词向量和词的位置编码两部分拼接(concat)形成的，然后传入到线性激活函数层(linear)。具体的计算方法如公式5到6所示。

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O 公式5

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) 公式6

其中，W^O是一个线性映射矩阵。最后，Transformer引入位置编码(PositionEmbedding)，为词向量中加入单词的位置信息，具体计算方法如公式7到8所示。

步骤9，构建主题分类数据集。利用未标注过的规范语料构建主题分类数据集，生成用于主题分类任务的轨道交通数据集；经统计，《地铁设计规范[附条文说明]GB 50157-2013》中，共计29章，150小节。本方法将先采用节名对规范进行主题标记，如第一小节为运营模式，则文本规范标记格式为：3.3.3地铁列车除无人驾驶模式外，应至少配置一名司机驾驶或监控列车运行。1

其中“1”代表第一节，这条规范属于第一节运营模式主题类别。

p_i＝W^TV_i:i+l-1+b

公式9

步骤11.2，将文本特征向量输入到BiLSTM-CRF模型中，生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型，模型结构如图2所示。伪代码如下：

Claims

1.基于目录主题分类的轨道交通规范实体识别方法，其特征在于，首先对Google发布的原始RoBERTa预训练模型作为基准模型，通过采集较大规模的轨道交通规范文本实现领域自适应预训练；结合轨道交通规范领域词典给加入全词遮盖机制，使RoBERTa预训练模型具备轨道交通领域知识的能力；然后将具备领域知识的预训练模型进行主题分类训练，基于每本国家规范都包含的目录数据，使用目录中的章名或节名对每一条规范文本进行主题分类；然后将生成的预训练模型应用到命名实体识别任务中，模型文件输入到主流的NER模型BiLSTM-CRF模型中进行实体识别训练，提出CAT-RailRoBERTa -BiLSTM-CRF模型；最后，将测试集数据输入到训练好的模型中，根据评价指标判断模型的效果；设置经过训练的实体识别模型作为服务端测试模型效果，把预测数据输入进模型后可以输出这条规范的实体和实体类别，并根据识别效果判断模型的可用性；

具体包括以下步骤：

步骤1，获取轨道交通规范实验语料；

本发明的实验语料来源于国家建标库国家规范中《地铁设计规范[附条文说明]GB50157-2013》，使用爬虫技术爬取这本规范进行实体识别研究；

步骤2，对获取的轨道交通规范语料进行数据清洗；

去除脏数据包括删除重复信息，纠正存在的错误，检查数据的一致性，对无效值和缺失值进行处理；

步骤3，对清洗完成的数据进行文本分析；

结合《建筑信息模型分类编码标准》和术语标注与术语学标准，专家定义地铁设计规范问题的实体类别；

步骤4，人工标注数据集；

从规范化处理的语料库中，选取 1650条规范进行数据标注；结合专家定义的实体类别和专业术语两个方面，人工标注每条规范中的所包含的实体，即标注出实体边界与实体类别；经过对标记数据的实体进行统计集；

步骤5，数据集划分；

本实验数据以地铁设计规范条目信息对数据集进行划分，训练集、验证集与测试集的比例大约为7:2:1；

步骤6，构建实验数据集；

利用标注过实体的规范语料构建实验数据，生成用于命名实体识别任务的轨道交通数据集；采用 BIO 标注模式，实验数据文件中只包含两列信息，实体和实体对应的标签；

步骤7，构建领域自适应预训练数据集；

通过各种渠道采集与建筑设计规范相关联的文本数据，经过简单清洗后，去除特殊符号，如换行符、制表符、HTML标签等，生成统一格式的json数据；数据集中包括《地铁设计规范》语料，还采集了其他建筑领域的语料，共811,120条规范文本；

步骤8，构建轨道交通领域自适应预训练语言模型；

将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型；

步骤9，构建主题分类数据集；

利用未标注过的规范语料构建主题分类数据集，生成用于主题分类任务的轨道交通数据集；本方法先采用节名对规范进行主题标记；

步骤10，构建主题分类模型，将步骤8中生成的RoBERTa_800k预训练语言模型和步骤9中构建的主题分类数据集作为文本分类模型的输入，生成CAT-RailRoBERTa预训练模型；

步骤11，构建实体识别模型，将步骤10中生成的预训练语言模型文件和训练集作为实体识别模型的输入；

2.根据权利要求1所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，实验数据来源于国家建标库地铁设计规范，领域自适应预训练数据集采用大量国家制定的轨道交通规范和建筑领域信息规范等语料。

3.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，所述步骤8中，构建轨道交通领域自适应预训练语言模型；将步骤7中得到的领域自适应预训练数据集输入到Google提出的RoBERTa-base预训练模型中，加入地铁设计规范的术语词典，生成中文轨道交通领域预训练语言模型；

步骤8.1，采用全词Mask机制，如果一个完整的词的部分子词被Mask，则同属该词的其他部分也会被Mask；

步骤8.2，将人工标注的实体抽取形成实体词典，在调用jieba分词工具时，加入实体词典对输入的文本规范进行分词，以80%的概率将输入的token替换为[mask]，10%的概率保持不变，以10%的概率替换为一个随机的token；将此机制引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时轨道交通规范文本实体完整的语义；

步骤8.3，将800K的轨道交通领域预训练数据和地铁设计规范实体词典输入进模型，设置训练迭代次数为200次，得到轨道交通领域的预训练模型RoBERTa_800k；

BERT模型是通过联合所有层中的上下文信息；它使用多层的双向Transformer作为编码器模块预先训练深度双向表示， BERT-Base包含12层Transformer结构，每层隐状态的维度是768，使用12个头的多头注意力，总参数量约为110M；

Transformer的每个编码器首先将输入的句子经过一个多头注意力层；多头注意力层帮助编码器在对每个单词进行编码时关注句子中的其他单词，然后将输入传递到前馈神经网络中，每个位置的单词对应的前馈神经网络完全相同并且没有共享参数；Multi-HeadAttention 上方还包括一个 Add & Norm 层，Add 表示残差连接用于防止网络退化，Norm表示 Layer Normalization，用于对每一层的激活值进行归一化；

Transformer中最关键的部分就是自注意力计算，在NER任务中，注意力机制可被用于寻找输入句子中相对重要的字或词，使用一个隐藏层和softmax函数计算句子中每个字或词的权重，使模型对于关键信息特别关注并进行充分学习；因为Transformer在进行计算时输入句子和输出句子实际上是同一个序列，使得每个位置的词都有全局的语义信息，有利于建立长依赖关系；利用自注意力机制可以生成不同连接的权重，从而处理变长的信息序列；用X=[x ₁,x ₂,…,x _n ]表示n个输入信息，通过以下线性变换得到查询向量序列Q，键向量序列K和值向量序列V，计算方法如公式1到公式3所示；

公式1

公式2

公式3

得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出，计算的公式为公式4：

公式4

其中，d _k是Q，K矩阵的列数，即向量的维度；K^T为K矩阵的转置；

Transformer在自注意力机制的基础上还设置了多头注意力机制，网络结构中h表示存在h个不同的自注意力机制；其中，每组Q/K/V都不相同，用来扩大注意力层的“表示子空间”，然后得到多个不同的权重矩阵；每个权重矩阵可以将输入向量投射到不同的表示子空间，而不同的head可以学习到不同位置上不同的表示子空间的语义；前馈层不需要多个矩阵输入，因此需要将这些权重矩阵拼接之后做缩放点积运算，保证前馈层所需的输入维度，使得多个encoder的输入输出维度保持一致；句子中各个词之间是并行计算的，没有考虑到词位于句子中的位置信息，即句子的序列信息，因此输入部分的词嵌入，是由词向量和词的位置编码两部分拼接形成的，然后传入到线性激活函数层；具体的计算方法如公式5到6所示；

公式5

公式6

其中，W^O是一个线性映射矩阵；最后，Transformer引入位置编码PE，为词向量中加入单词的位置信息，具体计算方法如公式7到8所示；

公式7

公式8

在公式7和8中，pos表示单词的位置，i表示单词的维度；其中，2i表示偶数位置，2i+1表示奇数位置，pos∈(1, 2, … , N)，N为输入系列的长度，i∈(0, 1, … , d _model/2)，d _model是词嵌入的维度。

4.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，所述步骤10的具体过程如下：

步骤10.1，文本分类任务将采用BERT-CNN模型， BERT模型利用步骤8训练好的领域自适应RoBERTa_800k预训练模型，将模型文件导入；将BERT层输出的文本表示向量输入卷积神经网络，帮助模型提取特征信息，特征信息包括局部的相对位置信息；

在BERT-CNN的文本分类模型中，假设BERT层的输出矩阵为R = {V ₁,V ₂,…,V _n}，卷积核的长度为l，滑动步长设置为1，那么可以分为{V _1:l,V _2:l+1,…,V _n-l+1:n}，其中V _i：j表示向量V _i到V _j的级联；假设卷积操作后的结果为P = {p ₁,p ₂,…,p _n}，p _i的计算方法如公式9所示；

公式9

其中是卷积核的参数，通过模型的训练进行更新，/>是偏移变量；此外，将采用最大池化降低矩阵的维度，即在池化窗口中选择最大的元素；

5.根据权利要求2所述的基于目录主题分类的轨道交通规范实体识别方法，其特征在于，所述步骤11的具体过程如下：

步骤11.1，将步骤6中构建的实验数据集中输入到经过文本分类训练的CAT-RailRoBERTa模型中，将一条规范转化为向量形式表示，得到一个句子的词向量、段向量和位置向量；CAT-RailRoBERTa模型的文本向量化表示，Token Embeddings是第一个单词CLS标志，可以用于分类任务；Segment Embeddings是用来区分两种句子，用于以两个句子为输入的分类任务；Position Emdedding表示位置，三种Embedding都是通过训练得来的；再将段向量和位置向量作为深度学习模型的输入，最后输出融合全文语义信息的文本特征向量；

步骤11.2，将文本特征向量输入到 BiLSTM-CRF 模型中，生成CAT-RailRoBERTa-BiLSTM-CRF实体识别模型。