CN113378024B - 一种基于深度学习面向公检法领域的相关事件识别方法 - Google Patents
一种基于深度学习面向公检法领域的相关事件识别方法 Download PDFInfo
- Publication number
- CN113378024B CN113378024B CN202110566115.7A CN202110566115A CN113378024B CN 113378024 B CN113378024 B CN 113378024B CN 202110566115 A CN202110566115 A CN 202110566115A CN 113378024 B CN113378024 B CN 113378024B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- model
- hot spot
- public inspection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000007689 inspection Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 88
- 238000012549 training Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。本发明用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。
Description
技术领域
本发明属于自然语言处理领域;具体涉及一种基于深度学习面向公检法领域的相关事件识别方法。
背景技术
舆情分析是一种对社会舆论信息、热点事件进行收集,从不同维度对事件进行分析,以帮助决策者得到合理的决策的技术。
复杂又庞大的网络数据实质上可以分成两种数据类型,一种是结构化的数据,例如社交网络等,另外一种是非结构化的数据,如我们常见的网络评论文本和新闻报道文本。其中新闻报道以文字量大、影响力广为优势,成为舆情分析中的重要一环。
不同领域的舆情信息铺天盖地,糅杂在一起,而针对不同的需求,可能只需要分析其中某一个领域的舆情,而忽略其他领域的舆情,例如本发明就是针对公检法领域的舆情进行分析。而如果不加以区分,对所有的舆情都进行分析,将会有以下几个问题:
一、舆情量过大,导致在分析舆情信息时将花费大量无用时间去处理其他领域的舆情,而这些领域却是不需要关注的舆情信息,无故占用有限的计算资源,对后期分析工作造成困扰;
二、由于各种领域的舆情都进行分析,成功分析出所有舆情信息后,导致业务人员在使用舆情系统的时候需要自己逐条判断该条舆情分析结果对自己目前所遇到的情况做出判断有没有帮助。相同领域的信息帮助是最大的,而对于不同领域的舆情来说,这种帮助是微乎其微的,反而会给业务人员造成负担,降低工作效率。
发明内容
本发明公开一种基于深度学习面向公检法领域的相关事件识别方法,用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。
本发明通过以下技术方案实现:
一种基于深度学习面向公检法领域的相关事件识别方法,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文、非英文字符和非数字符号的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。
进一步的,所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中。
进一步的,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
进一步的,所述步骤2具体为:
基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域。
进一步的,所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
进一步的,所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
进一步的,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-poolingLayer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
进一步的,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤Bi2.2:将Embedding Layer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTMLayer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即Linear Layer和Output Layer。
进一步的,所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即LinearLayer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
进一步的,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数(针对二分类问题),其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
本发明的有益效果是:
本发明通过抓取网络的热点信息标题、识别标题是否与公检法领域相关,从而筛选出与公检法领域相关的热点事件并进行显示。
本发明方法使得公检法相关的工作人员可以不必手动去关注网络上的各种热点事件,只需使用本系统便可以轻松快捷地了解到当前网络上和公检法相关的热点事件;如果有针对公检法领域的舆情系统,也能通过本发明迅速锁定需要关注的热点事件,避免花费在其他非公检法领域的热点事件的追踪,可有效减少资源的消耗。
本发明完全是自动化的抓取、识别、展示的过程,可大大降低人力消耗。
附图说明
图1为本发明的流程图。
图2为本发明中训练语料构建流程图。
图3为本发明中RCNN分类模型图。
图4为本发明中Bi-LSTM+Attention的分类模型。
图5为本发明中结合BERT的分类模型。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度学习面向公检法领域的相关事件识别方法,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文、非英文字符和非数字符号的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。
进一步的,所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;如果已经是,则无需转换;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中。
进一步的,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
检查步骤2.2人工标注文本中是否有误,若发现错误,则重新标注出错的文本;若多次检查发现没有错误,则停止标注,语料构建完成;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
进一步的,所述步骤2具体为:
所涉及到的深度学习方法,指的是通过对文本进行建模,学习到其中语义信息,根据该语义信息进行自然语言处理中的文本分类;
在实施过程中,基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域。
所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
进一步的,步骤2中使用的词向量获取方式是使用到Word2Vec模型。该模型可以达到将一个词与一个指定维度的向量一一对应效果。因为词是文本,神经网络中参与计算的是数字,因此文本形式的词不能直接参与计算,需要将其转化成数字的形式,词向量便是其中的一种。
所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
进一步的,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即Embedding Layer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-pooling Layer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
进一步的,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤Bi2.2:将Embedding Layer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTMLayer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即LinearLayer和Output Layer。
进一步的,使用BERT网络结构作为模型核心。模型使用到预训练模型BERT,是谷歌在2018年发布的开源模型,本次使用到的版本是BERT-Base,其参数设置如下:中文词表大小:21128;网络层次数目:12层;隐藏层神经元数目:768;多头注意力数目:12。所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即LinearLayer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
进一步,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数(针对二分类问题),其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
步骤2中使用的投票是指,针对某一个热点信息标题文本,三个模型都有自己的识别结果,要么为“1”,要么为“0”。所谓的投票即取三个识别结果中较多的类别作为该短文本最终识别结果。例如三个模型中有两个或者三个模型识别结果相同,均为“1”,那么该文本的最终识别结果即为“1”——属于公检法领域;相反若有两个或者三个模型识别结果相同,均为“0”,那么该文本的最终识别结果即为“0”——不属于公检法领域。
步骤3中所使用的数据库是MongoDB数据库,以字典的形式存储数据。在数据库中,根据模型的识别结果,为每一个热点信息标题进行标识,并挑选出热点信息文本标识为“1”的文本,按照时间由近到远的顺序排列存储在另一个数据库中,方便随时查找。
实施例2
如图1所示,使用本发明搭建的系统分为两个部分:算法部分和数据存储部分。算法部分主要包括HTML网页获取、热点标题文本提取和清洗、模型识别、模型投票进行标识四部分;数据存储部分主要是在爬取到网页上的热点信息标题后进行存储以及算法端识别之后更新数据库中的标识两部分。
本发明所实现的系统启动之后,会先加载预先训练好的三个模型到内存当中;之后启动爬虫模块,实时采集网络舆情热点信息,主要涉及到的网站包括微博、百度、搜狐、微信等,将热点短文本暂存在系统数据库中,本例子中只是用了微博作为示例,但是并不代表另外几个网站没有获取到;
爬虫进程将爬取到的热点信息标题(这里实际上是微博热搜的标题)存储在系统数据库中;同时另一进程从系统数据库依次取出热点信息标题文本,使用内存中加载好的三个模型进行识别,并使用“投票”的方式决定最终该文本描述的事件是否属于公检法领域。识别结束后该进程会更新数据库系统中该文本对应的表示,并且将属于公检法领域的热点短文本,存储在系统数据库中指定的集合中;
当以上过程中中发生异常时,后台算法部分和爬虫部分终止,退出系统。
根据识别的结果可以看见在50个微博热搜中,系统识别出其中的6个与公检法领域相关的热搜,占全部的12.0%。相关工作人员只需从数据库中或者使用浏览器进行查询,即可获得所需信息,完全无需逐个查看。实例中只展示了微博热搜的50条,实际上每天产生的各种热点信息是上百甚至接近上千条,使用本发明进行筛选,用户工作量的减少将是十分可观的。并且,可以看出如果本系统和其他舆情分析系统相结合,可以有针对性地筛选出公检法领域的舆情进行单独分析,实现智能化、快速化、定制化分析,提高用户工作效率。
Claims (7)
1.一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文和英文字符的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储;
所述步骤2具体为:
基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的基于RCNN的识别模型、基于Bi-LSTM和注意力机制的识别模型和基于BERT预训练模型的识别模型这三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域;
所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中;
所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类;
所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即Linear Layer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
2.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
3.根据权利要求2所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
4.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
5.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-poolingLayer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
6.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤Bi2.2:将EmbeddingLayer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTMLayer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即LinearLayer和OutputLayer。
7.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数,其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566115.7A CN113378024B (zh) | 2021-05-24 | 2021-05-24 | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566115.7A CN113378024B (zh) | 2021-05-24 | 2021-05-24 | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378024A CN113378024A (zh) | 2021-09-10 |
CN113378024B true CN113378024B (zh) | 2023-09-01 |
Family
ID=77571753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110566115.7A Active CN113378024B (zh) | 2021-05-24 | 2021-05-24 | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378024B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988073A (zh) * | 2021-10-26 | 2022-01-28 | 迪普佰奥生物科技(上海)股份有限公司 | 适用于生命科学的文本识别方法和系统 |
CN114707517B (zh) * | 2022-04-01 | 2024-05-03 | 中国人民解放军国防科技大学 | 一种基于开源数据事件抽取的目标跟踪方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857865A (zh) * | 2019-01-08 | 2019-06-07 | 北京邮电大学 | 一种文本分类方法及系统 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN111538836A (zh) * | 2020-04-22 | 2020-08-14 | 哈尔滨工业大学(威海) | 一种识别文本类广告中金融广告的方法 |
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN112434156A (zh) * | 2020-11-02 | 2021-03-02 | 浙江大有实业有限公司杭州科技发展分公司 | 基于混合文本分类模型的电网作业告警方法及装置 |
CN112766359A (zh) * | 2021-01-14 | 2021-05-07 | 北京工商大学 | 一种面向食品安全舆情的字词双维度微博谣言识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11348237B2 (en) * | 2019-05-16 | 2022-05-31 | Retrace Labs | Artificial intelligence architecture for identification of periodontal features |
-
2021
- 2021-05-24 CN CN202110566115.7A patent/CN113378024B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857865A (zh) * | 2019-01-08 | 2019-06-07 | 北京邮电大学 | 一种文本分类方法及系统 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN111538836A (zh) * | 2020-04-22 | 2020-08-14 | 哈尔滨工业大学(威海) | 一种识别文本类广告中金融广告的方法 |
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN112434156A (zh) * | 2020-11-02 | 2021-03-02 | 浙江大有实业有限公司杭州科技发展分公司 | 基于混合文本分类模型的电网作业告警方法及装置 |
CN112766359A (zh) * | 2021-01-14 | 2021-05-07 | 北京工商大学 | 一种面向食品安全舆情的字词双维度微博谣言识别方法 |
Non-Patent Citations (1)
Title |
---|
Real-time human posture recognition using an adaptive hybrid classifier;Shumei Zhang et al.;《International Journal of Machine Learning and Cybernetics》;1-5 * |
Also Published As
Publication number | Publication date |
---|---|
CN113378024A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN116822625A (zh) | 一种发散式关联的风机设备运检知识图谱构建及检索方法 | |
CN115564393A (zh) | 一种基于招聘需求相似度的职位推荐方法 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN115964273A (zh) | 基于深度学习的航天器测试脚本自动生成方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN113158075A (zh) | 融合评论的多任务联合谣言检测方法 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN115858807A (zh) | 一种基于航空装备故障知识图谱的问答系统 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN118467985A (zh) | 一种基于自然语言的训练评分方法 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |