CN110413786B - 基于网页文本分类的数据处理方法、智能终端及存储介质 - Google Patents
基于网页文本分类的数据处理方法、智能终端及存储介质 Download PDFInfo
- Publication number
- CN110413786B CN110413786B CN201910682113.7A CN201910682113A CN110413786B CN 110413786 B CN110413786 B CN 110413786B CN 201910682113 A CN201910682113 A CN 201910682113A CN 110413786 B CN110413786 B CN 110413786B
- Authority
- CN
- China
- Prior art keywords
- classification
- neural network
- recurrent neural
- text
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000000306 recurrent effect Effects 0.000 claims abstract description 71
- 238000003062 neural network model Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 238000013135 deep learning Methods 0.000 claims abstract description 5
- 238000012795 verification Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于网页文本分类的数据处理方法、智能终端及存储介质,所述方法包括:从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练,输出预测值,自动将数据库中入库的信息进行分类,用户只需要通过后台即可筛选出相关分类的应用。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于网页文本分类的数据处理方法、智能终端及存储介质。
背景技术
根据互联网页面中的文本内容,按照文字的描述信息将文字转换成数字序列,再将不同长度的数字序列转换成用统一维度的数据矩阵,通过RNN(Recurrent NeuralNetwork)循环神经网络进行特征提取,具体为:输入序列为{x(0)…x(t)},RNN通过维护一个根据时间的隐藏状态向量h(t),根据输入的序列x(t)有h(t)=f(Wh(t-1)+Vx(t)),其中W,V为权重矩阵,f为激活函数(tanh),t为输入时间,h(t)通过多次特征提取,全连接层之后通过softmax层(归一化指数函数,实际上是有限项离散概率分布的梯度对数归一化)运算求出样本在每一类中的概率分布并且输出,最大概率标签即为预测值,进行模型训练并且保存,然后将已有数据库文本数据进行序列化处理定时输入到训练好的模型中进行预测,使用者只需要通过后台页面查询,即可查看预测的应用的标签类型判断应用类别。
现有技术的缺点是网络文本描述参差不齐,训练集构造人力标注成本较大,深度学习模型调优(机器学习的预测成功率一开始不会特别高,要逐步优化调整优化预测的精度)存在很大的调试成本,例如对于当前网络应用商店分类不一致,分类缺失等情况导致的数据使用难,人工筛选难。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于网页文本分类的数据处理方法、智能终端及存储介质,旨在解决现有技术中网页文本分类效率不高、分类不准确的问题。
为实现上述目的,本发明提供一种基于网页文本分类的数据处理方法,所述基于网页文本分类的数据处理方法包括如下步骤:
从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;
将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;
将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;
根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注,包括:
从网络爬虫数据库中选取满足所有分类应用描述的分类样本的文本数据,所述文本数据具有常规普遍的应用描述;
将所述文本数据去除特殊编码符号,并清洗掉所述文本数据中的非中英文文字;
将所述文本数据中的标签字段标注一个所属类别。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述循环神经网络模型包括:训练集、测试集和验证集。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数之前,还包括:
将所述训练集进行文本序列化和标签数字化处理;
所述文本序列化为按照词汇表的顺序对单词进行编号,所述标签数字化为按照顺序对标签进行编号。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,包括:
将所述文本数据输入到循环神经网络模型中进行特征提取,输出数字降维的数据矩阵;
不同的训练集和训练参数训练的模型,通过对同一验证集进行预测输出预测值;
根据所述预测值与模型标签值进行损失运算,所述循环神经网络模型根据损失曲线不断的调整拟合参数。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,还包括:
将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率。
可选地,所述的基于网页文本分类的数据处理方法,其中,所述准确率表示样本被正确分类的比例率;所述精确率表示原本为正类样本在所有正类样本的比例;所述召回率表示原本为正类样本被分为正类的比例。
此外,为实现上述目的,本发明还提供一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网页文本分类的数据处理程序,所述基于网页文本分类的数据处理程序被所述处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,其中,所述存储介质存储有基于网页文本分类的数据处理程序,所述基于网页文本分类的数据处理程序被处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。
本发明中,从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练,通过循环神经网络进行特征提取,输出预测值,自动将数据库中入库的信息进行分类,用户只需要通过后台即可筛选出相关分类的应用。
附图说明
图1是本发明基于网页文本分类的数据处理方法的较佳实施例的流程图;
图2为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的基于网页文本分类的数据处理方法,如图1所示,所述基于网页文本分类的数据处理方法包括以下步骤:
步骤S10、从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注。
具体地,从网络爬虫数据库(网络爬虫又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本)中选取满足所有分类应用描述的分类样本的文本数据,所述文本数据具有常规普遍的应用描述;将所述文本数据去除特殊编码符号,并清洗掉所述文本数据中的非中英文文字;将所述文本数据中的标签字段标注一个所属类别。
其中,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
进一步地,人工从网络爬虫数据库中选取(能够满足所有的分类应用描述的分类样本的文本,且具有常规普遍的应用描述的文本数据)的文本数据进行清洗(去除特殊编码符号,清洗掉非中英文文字)并标注(给这段文本标注一个所属类别,比如微信的应用描述“可以发语音、文字消息、表情、图片、视频,30M流量可以收发上千条语音,省电省流量…”,在数据库中的标签字段标注为通讯社交类)。
步骤S20、将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数。
具体地,所述循环神经网络模型包括:训练集、测试集和验证集。将所述训练集进行文本序列化和标签数字化处理;所述文本序列化为按照词汇表的顺序对单词进行编号,所述标签数字化为按照顺序对标签进行编号。将所述文本数据输入到循环神经网络模型中进行特征提取,输出数字降维的数据矩阵;不同的训练集和训练参数训练的模型,通过对同一验证集进行预测输出预测值;根据所述预测值与模型标签值进行损失运算,所述循环神经网络模型根据损失曲线不断的调整拟合参数。
将标注好的数据输入到RNN循环神经网络模型进行训练,通过将训练集的文本序列化,就是按照词汇表的顺序对单词进行编号,标签数字化就是按照顺序对标签进行编号,因为后续的都是数字运算需要转换成数字信息才能继续执行。
输入到RNN循环神经网络模型中进行特征提取,就是输出一个数字降维的数据矩阵,这个机器能够认识,预测值是一个针对标签的概率的分布,通过Softmax交叉熵函数(Softmax函数实际上是有限项离散概率分布的梯度对数归一化)进行计算损失值,即通过Softmax函数计算概率分布得出,不用预设。
进一步地,所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,还包括:将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率。
其中,所述准确率表示样本被正确分类的比例率;所述精确率表示原本为正类样本在所有正类样本的比例;所述召回率表示原本为正类样本被分为正类的比例。
与模型标签值进行损失运算,Softmax交叉熵函数计算,是目标值与预测值的距离的意思,尽可能的达到损失最小的状态,即为最佳模型,神经网络根据损失曲线不断的调整拟合参数是神经网络内部的模型参数,这个过程会以图的结构保存,最后的模型也就是指这些参数,达到损失最小即为最佳模型,评估就是不同的训练模型结果对同一验证集的准确率,通过这些准确率、精确率、召回率来判断模型的好坏;调整就是不同的训练模型结果对同一验证集的准确率,就是不同的预设参数,比如学习率,学习网络的模式,通过对同一验证集也是数据集的一部分和训练集的格式是一样的有标签和文本。
然后进行预测,根据准确率,样本被正确分类的比例率;精确率,原本为正类样本在所有正类样本的比例;召回率,原本为正类样本被分为正类的比例进行评估,选择最优模型一般情况下符合要求的话就只是一次训练就可以了,如果不符合标注需要多次构造训练集和一些参数进行调整,再训练,再验证。
步骤S30、将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值。
具体地,将实时的数据库文本数据,经过清洗以及序列化后通过输入到模型输出最大可能的标签数值。
步骤S40、根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。
具体地,保存到数据库进行后台查询(满足指定的机构,比如卫健委会专门处理医疗健康类的应用,金融类的应用会提交给证监局,教育类的会提交到教育局等等)与业务使用(生产环境中满足基本业务使用的同时,进行人工评估机器预测的精度,为进一步优化提供支持)。
本发明通过网页描述信息进行数据特征提取;通过网页文本特征,进行模型预测分类。例如对于当前网络应用商店分类不一致(只针对应用市场网站),分类缺失等情况导致的数据使用难,人工筛选难的问题,本发明采用深度学习算法将文本信息进行特征提取训练,通过RNN循环神经网络特征提取(通过对输入序列更新隐藏状态调整状态权重,根据输入的序列达到权值调整,最后输出预测值),输出预测值,整个模型自动化过滤数据库中入库得信息进行分类,使用者只需要通过后台即可筛选出相关分类得应用。
进一步地,如图2所示,基于上述基于网页文本分类的数据处理方法,本发明还相应提供了一种智能终端,所述智能终端包括:处理器10、存储器20及显示器30。图2仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于网页文本分类的数据处理程序40,该基于网页文本分类的数据处理程序40可被处理器10所执行,从而实现本申请中基于网页文本分类的数据处理方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于网页文本分类的数据处理方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于网页文本分类的数据处理程序40时实现以下步骤:
从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;
将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;
将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;
根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。
所述从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注,包括:
从网络爬虫数据库中选取满足所有分类应用描述的分类样本的文本数据,所述文本数据具有常规普遍的应用描述;
将所述文本数据去除特殊编码符号,并清洗掉所述文本数据中的非中英文文字;
将所述文本数据中的标签字段标注一个所属类别。
所述循环神经网络模型包括:训练集、测试集和验证集。
所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数之前,还包括:
将所述训练集进行文本序列化和标签数字化处理;
所述文本序列化为按照词汇表的顺序对单词进行编号,所述标签数字化为按照顺序对标签进行编号。
所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,包括:
将所述文本数据输入到循环神经网络模型中进行特征提取,输出数字降维的数据矩阵;
不同的训练集和训练参数训练的模型,通过对同一验证集进行预测输出预测值;
根据所述预测值与模型标签值进行损失运算,所述循环神经网络模型根据损失曲线不断的调整拟合参数。
所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。
所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,还包括:
将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率。
所述准确率表示样本被正确分类的比例率;所述精确率表示原本为正类样本在所有正类样本的比例;所述召回率表示原本为正类样本被分为正类的比例。
进一步地,本发明还提供一种存储介质,其中,所述存储介质存储有基于网页文本分类的数据处理程序,所述基于网页文本分类的数据处理程序被处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。
综上所述,本发明提供一种基于网页文本分类的数据处理方法、智能终端及存储介质,所述方法包括:从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练,通过循环神经网络进行特征提取,输出预测值,自动将数据库中入库的信息进行分类,用户只需要通过后台即可筛选出相关分类的应用。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种基于网页文本分类的数据处理方法,其特征在于,所述基于网页文本分类的数据处理方法包括:
从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注;
所述从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注,包括:
从网络爬虫数据库中选取满足所有分类应用描述的分类样本的文本数据,所述文本数据具有常规普遍的应用描述;
将所述文本数据去除特殊编码符号,并清洗掉所述文本数据中的非中英文文字;
将所述文本数据中的标签字段标注一个所属类别;
将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数;
所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数,包括:
将所述文本数据输入到循环神经网络模型中进行特征提取,输出数字降维的数据矩阵;
不同的训练集和训练参数训练的模型,通过对同一验证集进行预测输出预测值;
根据所述预测值与模型标签值进行损失运算,所述循环神经网络模型根据损失曲线不断的调整拟合参数;
将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率;
所述准确率表示样本被正确分类的比例率;所述精确率表示原本为正类样本在所有正类样本的比例;所述召回率表示原本为正类样本被分为正类的比例;
所述循环神经网络模型包括:训练集、测试集和验证集;
所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练,所述循环神经网络模型根据损失曲线调整拟合参数之前,还包括:
将所述训练集进行文本序列化和标签数字化处理;
所述文本序列化为按照词汇表的顺序对单词进行编号,所述标签数字化为按照顺序对标签进行编号;
将经过清洗和序列化后的文本数据输入到所述循环神经网络模型,所述循环神经网络模型输出预测值;
根据输出的所述预测值,所述循环神经网络模型将数据库中入库的信息进行分类,通过后台筛选出相关分类的应用并进行展示;
通过网页描述信息进行数据特征提取;通过网页文本特征,进行模型预测分类;通过深度学习算法将文本信息进行特征提取训练,通过循环神经网络进行特征提取,输出预测值,自动将数据库中入库的信息进行分类。
2.根据权利要求1所述的基于网页文本分类的数据处理方法,其特征在于,所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。
3.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网页文本分类的数据处理程序,所述基于网页文本分类的数据处理程序被所述处理器执行时实现如权利要求1-2任一项所述的基于网页文本分类的数据处理方法的步骤。
4.一种存储介质,其特征在于,所述存储介质存储有基于网页文本分类的数据处理程序,所述基于网页文本分类的数据处理程序被处理器执行时实现如权利要求1-2任一项所述的基于网页文本分类的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682113.7A CN110413786B (zh) | 2019-07-26 | 2019-07-26 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682113.7A CN110413786B (zh) | 2019-07-26 | 2019-07-26 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413786A CN110413786A (zh) | 2019-11-05 |
CN110413786B true CN110413786B (zh) | 2021-12-28 |
Family
ID=68363438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682113.7A Active CN110413786B (zh) | 2019-07-26 | 2019-07-26 | 基于网页文本分类的数据处理方法、智能终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413786B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111431819B (zh) * | 2020-03-06 | 2023-06-20 | 中国科学院深圳先进技术研究院 | 一种基于序列化的协议流特征的网络流量分类方法和装置 |
CN111639250B (zh) * | 2020-06-05 | 2023-05-16 | 深圳市小满科技有限公司 | 企业描述信息获取方法、装置、电子设备及存储介质 |
CN111814452A (zh) * | 2020-07-13 | 2020-10-23 | 四川长虹电器股份有限公司 | 一种影视领域基于神经网络的依存句法分析方法 |
CN111737476B (zh) * | 2020-08-05 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112182257A (zh) * | 2020-08-26 | 2021-01-05 | 合肥三恩信息科技有限公司 | 一种基于神经网络的人工智能数据清洗方法 |
CN113220801B (zh) * | 2021-05-17 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
CN113609851B (zh) * | 2021-07-09 | 2024-07-02 | 浙江连信科技有限公司 | 心理学上想法认知偏差的识别方法、装置及电子设备 |
CN113592017B (zh) * | 2021-08-10 | 2024-05-31 | 菲特(天津)检测技术有限公司 | 一种深度学习模型标准化训练方法、管理系统、处理终端 |
CN115168478B (zh) * | 2022-09-06 | 2022-11-29 | 深圳市明源云科技有限公司 | 数据类型转换方法、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190171913A1 (en) * | 2017-12-04 | 2019-06-06 | Slice Technologies, Inc. | Hierarchical classification using neural networks |
-
2019
- 2019-07-26 CN CN201910682113.7A patent/CN110413786B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110413786A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413786B (zh) | 基于网页文本分类的数据处理方法、智能终端及存储介质 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN109918497A (zh) | 一种基于改进textCNN模型的文本分类方法、装置及存储介质 | |
CN110598620A (zh) | 模型训练方法和装置、目标检测方法和装置 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN114722281B (zh) | 基于用户画像及用户选课行为的培训课程配置方法、装置 | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
Wang et al. | Research on maize disease recognition method based on improved resnet50 | |
CN114118287A (zh) | 样本生成方法、装置、电子设备以及存储介质 | |
CN114462556B (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN112613569A (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113822488A (zh) | 融资租赁的风险预测方法、装置、计算机设备及存储介质 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN110442807A (zh) | 一种网页类型识别方法、装置、服务器及存储介质 | |
CN115982646B (zh) | 一种基于云平台的多源测试数据的管理方法及系统 | |
CN113419951B (zh) | 人工智能模型优化方法、装置、电子设备及存储介质 | |
CN111428724B (zh) | 一种试卷手写统分方法、装置及存储介质 | |
CN110321342A (zh) | 基于智能特征选择的公司评估方法、装置及存储介质 | |
CN112328812A (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN111881106A (zh) | 基于ai检验的数据标注和处理方法 | |
CN114637921B (zh) | 基于建模偶然不确定性的物品推荐方法、装置和设备 | |
CN110717521A (zh) | 智能业务实现方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |