CN115130601A - 基于多维特征融合的二阶段学术数据网页分类方法及系统 - Google Patents
基于多维特征融合的二阶段学术数据网页分类方法及系统 Download PDFInfo
- Publication number
- CN115130601A CN115130601A CN202210795308.4A CN202210795308A CN115130601A CN 115130601 A CN115130601 A CN 115130601A CN 202210795308 A CN202210795308 A CN 202210795308A CN 115130601 A CN115130601 A CN 115130601A
- Authority
- CN
- China
- Prior art keywords
- webpage
- data
- word
- text
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000007477 logistic regression Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 25
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000009193 crawling Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
Description
技术领域
本发明涉及网页分类技术领域,具体地,涉及一种基于多维特征融合的二阶段学术数据网页分类方法及系统。
背景技术
近年来,网页分类已成为数据挖掘领域的重要研究议题,尤其在跨学科交叉方向,网页分类可以帮助专家从互联网中发现有研究价值的学科数据网页。然而,网页具有数量庞大、主题多样、结构复杂等特点,如何快速准确地从互联网中筛选出学科数据网页是一大挑战。
传统的网页分类方式是人工分类,但不同的人评判标准难以统一,并且成本高昂效率低下。随着人工智能技术的逐步完善和计算机算力性能的优化,机器学习的方法逐步取代人工,在网页分类领域崭露头角。但随着网页结构复杂化,机器学习的特征提取将会变得困难,难以达到很高的准确度,而深度学习算法可以直接将特征工程集成到模型拟合过程中,从简单的文本中深入挖掘特征,在网页分类领域有着较好的表现。
虽然网页的主要内容是文本,主流的网页分类方法是仅依靠网页的文本信息进行筛选,但网页除了内容信息,网址和网页结构信息也很重要,包括网页DOM(DocumentObject Model)结构、HTML结构等等,均可作为特征输入。同时,度量学习是从数据中学习一种度量数据对象间距离的方法,近年来在机器学习领域得到了快速的发展,围绕样本之间相似度的度量学习也是当前网页分类领域的研究热点。因此搭建一个帮助专家学者快速获取相关学科数据网页的系统是很有意义且必要的,应用度量学习算法、多模态信息融合的基于深度学习的网页分类是可行并具有重要研究价值的。
发明内容
针对现有技术中的缺陷,本发明提供一种基于多维特征融合的二阶段学术数据网页分类方法及系统。
根据本发明提供的一种基于多维特征融合的二阶段学术数据网页分类方法及系统,所述方案如下:
第一方面,提供了一种基于多维特征融合的二阶段学术数据网页分类方法,所述方法包括:
步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;
步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
优选地,所述步骤S1包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
优选地,所述步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词;
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j:
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
优选地,所述步骤S3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
优选地,所述步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接;
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号;
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充;
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法,每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|c(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;
减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入;
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量;
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法判断该网页属于哪个类别,输出最终预测结果。
优选地,所述步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图。
第二方面,提供了一种基于多维特征融合的二阶段学术数据网页分类系统,所述系统包括:
模块M1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
模块M2:开展基于短文本逻辑回归模型的第一阶段分类;
模块M3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
模块M4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
模块M5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
优选地,所述模块M1包括:
模块M101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
模块M102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
优选地,所述模块M2包括:
模块M201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
模块M202:文本预处理,对中英文文本进行分词处理,并去除停用词;
模块M203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j:
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
优选地,所述模块M3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
与现有技术相比,本发明具有如下的有益效果:
1、通过融合网页描述性短文本、网页内容长文本和网址链接多维特征作为输入,减小了单一输入带来的误差,提高了网页分类模型的精度;
2、通过运用度量学习相关的损失函数,将同类样本聚集,异类样本区分,提高了模型的可解释性和泛化性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的方法流程图;
图2为本发明第一阶段机器学习网页分类算法流程图。
图3为本发明第二阶段深度度量学习网页分类算法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于多维特征融合的二阶段学术数据网页分类方法,聚焦于开发网络的学术数据网页发现问题,利用机器学习和深度学习相结合的方法进行研究,第一阶段采用逻辑回归算法,以网页描述短文本作为输入构建模型,进行快速初步分类,并筛去大量的非数据网页;第二阶段采用文本卷积神经网络结合三元组损失的深度度量学习算法,以融合网址信息的网页内容长文本作为输入,在特征空间中聚合同类样本,区分异类样本,实现整体分类精度的提升。参照图1所示,该方法具体包括:
步骤S1:基于学术关键词,输入搜索引擎(如谷歌、百度等)进行检索,获取检索页面内容。
具体地,该步骤包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,关键词可以为中文或英文。若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文等前期清洗与扩充任务。
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,比如在谷歌搜索中输入“关键词+数据库OR数据集”,为英文则输入“keyword+dataset ORdatabase”,采用精确搜索进行检索。获取返回的网页内容,关键在于获取每个网页条目的标题和描述性短文本。
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类,参照图2所示;
具体地,该步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本。
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词。
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j:
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
步骤S204:利用向量化的数据训练逻辑回归模型;定义W(Webpages)表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D(Datapages)表示数据网页,N(Non-Datapages)表示非数据网页;根据网页特征判断是数据网页的概率:
得到预测概率之后定义一个阈值(threshold)来判断网页是否属于数据网页,阈值通常取0.5,因此网页分类函数为:
步骤S205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现,可分为按参数的绝对值之和进行计算的L1正则化和按参数的平方和的开方值进行计算L2正则化,加上L2正则化项的公式得到新的损失函数l(θ):
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
步骤S3:获取第一阶段分类完成后标签为“数据网页”的网页HTML信息;该步骤S3中内容爬取的对象是经过第一阶段分类后需进一步“细分”的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法,参照图3所示。
具体地,该步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接。
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,用‘.’、‘:’、‘/’等将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号。
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充,<pad>是人为规定的填充符号,可更换,只要在模型中统一即可。
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法(Skip-gram),每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|C(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;为了减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,<unk>同<pad>一样是人为规定的符号,可替换。利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入。
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量。文本卷积神经网络包括卷积层,池化层和随机失活层。假设有一训练集T={t1,t2,...,tN},N为训练集的样本个数。对于每个训练样本,其中xi∈Rk是样本文档中第i个词语的k维词向量,是连接符,表示文档由词语拼接而成,同时规定xi:i+j指代的xi,xi+1,...,xi+j连接。一个卷积操作涉及到一个卷积核w∈Rhk,该卷积核的长度同词向量的维度一致,宽度为h,代表了一个涵盖h个词语的滑动窗。例如特征ci是由窗内的词语xi:i+h-1得到:
ci=f(w·xi:i+h-1+b)
其中b为偏置项,f为非线性激活函数。此卷积核作用于文档内所有词汇,得到特征图:
c=[c1,c2,...,cn-h+1]
运用最大池化操作提取其中的最大值:
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
式中,Xa、Xb、Xn分别为锚点样本、正样本、负样本;m为间隔;表示锚点样本与正样本之间的欧氏距离;表示锚点样本与负样本之间的欧氏距离;损失函数的训练目的是拉近正样本和锚点间的距离,增大负样本和锚点间的距离,且类间样本对之间的距离比类内样本对之间的距离大一个间隔。
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法(如K临近法)判断该网页属于哪个类别,输出最终预测结果。
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。该步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图,目的是在门户网站上可以有多种形式展示。
本发明实施例提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,构建了全新的开放网络学术数据网页发现方法,具有可推广性,能够帮助专家快速准确地从互联网中筛选出数据网页。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,包括:
步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;
步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
2.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S1包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
3.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词;
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j:
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
步骤S204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
步骤S205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
4.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
5.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接;
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号;
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充;
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法,每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|C(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;
减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入;
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量;
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法判断该网页属于哪个类别,输出最终预测结果。
6.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图。
7.一种基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,包括:
模块M1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
模块M2:开展基于短文本逻辑回归模型的第一阶段分类;
模块M3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
模块M4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
模块M5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
8.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M1包括:
模块M101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
模块M102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
9.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M2包括:
模块M201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
模块M202:文本预处理,对中英文文本进行分词处理,并去除停用词;
模块M203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j:
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
10.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210795308.4A CN115130601A (zh) | 2022-07-07 | 2022-07-07 | 基于多维特征融合的二阶段学术数据网页分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210795308.4A CN115130601A (zh) | 2022-07-07 | 2022-07-07 | 基于多维特征融合的二阶段学术数据网页分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115130601A true CN115130601A (zh) | 2022-09-30 |
Family
ID=83381906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210795308.4A Pending CN115130601A (zh) | 2022-07-07 | 2022-07-07 | 基于多维特征融合的二阶段学术数据网页分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115130601A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010283A (zh) * | 2023-10-07 | 2023-11-07 | 中国矿业大学(北京) | Pba车站钢管柱结构变形预测方法、系统 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
-
2022
- 2022-07-07 CN CN202210795308.4A patent/CN115130601A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010283A (zh) * | 2023-10-07 | 2023-11-07 | 中国矿业大学(北京) | Pba车站钢管柱结构变形预测方法、系统 |
CN117010283B (zh) * | 2023-10-07 | 2023-12-29 | 中国矿业大学(北京) | Pba车站钢管柱结构变形预测方法、系统 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
CN117521673B (zh) * | 2024-01-08 | 2024-03-22 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
CN111291210B (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
US8095539B2 (en) | Taxonomy-based object classification | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
WO2014054052A2 (en) | Context based co-operative learning system and method for representing thematic relationships | |
CN110515986B (zh) | 一种社交网络图的处理方法、装置及存储介质 | |
CN110688405A (zh) | 基于人工智能的专家推荐方法、装置、终端、及介质 | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
CN115130601A (zh) | 基于多维特征融合的二阶段学术数据网页分类方法及系统 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN109783650B (zh) | 中文网络百科知识去噪方法、系统及知识库 | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN115391479A (zh) | 用于文档搜索的排序方法、装置、电子介质及存储介质 | |
WO2023246849A1 (zh) | 回馈数据图谱生成方法及冰箱 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN112115269A (zh) | 一种基于爬虫的网页自动分类方法 | |
CN112100500A (zh) | 范例学习驱动的内容关联网站发掘方法 | |
CN103324720A (zh) | 根据用户状态进行个性化推荐的方法和系统 | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |