[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115130601A - 基于多维特征融合的二阶段学术数据网页分类方法及系统 - Google Patents

基于多维特征融合的二阶段学术数据网页分类方法及系统 Download PDF

Info

Publication number
CN115130601A
CN115130601A CN202210795308.4A CN202210795308A CN115130601A CN 115130601 A CN115130601 A CN 115130601A CN 202210795308 A CN202210795308 A CN 202210795308A CN 115130601 A CN115130601 A CN 115130601A
Authority
CN
China
Prior art keywords
webpage
data
word
text
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210795308.4A
Other languages
English (en)
Inventor
施家荣
卢彬
杨莉娜
甘小莺
王新兵
傅洛伊
周成虎
曹心德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210795308.4A priority Critical patent/CN115130601A/zh
Publication of CN115130601A publication Critical patent/CN115130601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。

Description

基于多维特征融合的二阶段学术数据网页分类方法及系统
技术领域
本发明涉及网页分类技术领域,具体地,涉及一种基于多维特征融合的二阶段学术数据网页分类方法及系统。
背景技术
近年来,网页分类已成为数据挖掘领域的重要研究议题,尤其在跨学科交叉方向,网页分类可以帮助专家从互联网中发现有研究价值的学科数据网页。然而,网页具有数量庞大、主题多样、结构复杂等特点,如何快速准确地从互联网中筛选出学科数据网页是一大挑战。
传统的网页分类方式是人工分类,但不同的人评判标准难以统一,并且成本高昂效率低下。随着人工智能技术的逐步完善和计算机算力性能的优化,机器学习的方法逐步取代人工,在网页分类领域崭露头角。但随着网页结构复杂化,机器学习的特征提取将会变得困难,难以达到很高的准确度,而深度学习算法可以直接将特征工程集成到模型拟合过程中,从简单的文本中深入挖掘特征,在网页分类领域有着较好的表现。
虽然网页的主要内容是文本,主流的网页分类方法是仅依靠网页的文本信息进行筛选,但网页除了内容信息,网址和网页结构信息也很重要,包括网页DOM(DocumentObject Model)结构、HTML结构等等,均可作为特征输入。同时,度量学习是从数据中学习一种度量数据对象间距离的方法,近年来在机器学习领域得到了快速的发展,围绕样本之间相似度的度量学习也是当前网页分类领域的研究热点。因此搭建一个帮助专家学者快速获取相关学科数据网页的系统是很有意义且必要的,应用度量学习算法、多模态信息融合的基于深度学习的网页分类是可行并具有重要研究价值的。
发明内容
针对现有技术中的缺陷,本发明提供一种基于多维特征融合的二阶段学术数据网页分类方法及系统。
根据本发明提供的一种基于多维特征融合的二阶段学术数据网页分类方法及系统,所述方案如下:
第一方面,提供了一种基于多维特征融合的二阶段学术数据网页分类方法,所述方法包括:
步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;
步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
优选地,所述步骤S1包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
优选地,所述步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词;
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j
Figure BDA0003735557710000021
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
Figure BDA0003735557710000031
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
Figure BDA0003735557710000032
其中,
Figure BDA0003735557710000033
为该网页所有特征组成的向量,
Figure BDA0003735557710000034
是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为:
Figure BDA0003735557710000035
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
Figure BDA0003735557710000036
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
Figure BDA0003735557710000037
其中,L(θ)表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;
Figure BDA0003735557710000038
表示待惩罚参数的平方;hθ(xi)代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性。
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
优选地,所述步骤S3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
优选地,所述步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接;
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号;
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充;
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法,每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|c(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;
减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入;
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量;
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
Figure BDA0003735557710000041
式中,Xa、Xb、Xn分别为锚点样本、正样本、负样本;m为间隔;
Figure BDA0003735557710000042
表示锚点样本与正样本之间的欧氏距离;
Figure BDA0003735557710000043
表示锚点样本与负样本之间的欧氏距离;
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法判断该网页属于哪个类别,输出最终预测结果。
优选地,所述步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图。
第二方面,提供了一种基于多维特征融合的二阶段学术数据网页分类系统,所述系统包括:
模块M1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
模块M2:开展基于短文本逻辑回归模型的第一阶段分类;
模块M3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
模块M4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
模块M5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
优选地,所述模块M1包括:
模块M101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
模块M102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
优选地,所述模块M2包括:
模块M201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
模块M202:文本预处理,对中英文文本进行分词处理,并去除停用词;
模块M203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j
Figure BDA0003735557710000051
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
Figure BDA0003735557710000052
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
Figure BDA0003735557710000061
其中,
Figure BDA0003735557710000062
为该网页所有特征组成的向量,
Figure BDA0003735557710000063
是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为:
Figure BDA0003735557710000064
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
Figure BDA0003735557710000065
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
Figure BDA0003735557710000066
其中,L(θ)表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;
Figure BDA0003735557710000067
表示待惩罚参数的平方;hθ(xi)代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性。
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
优选地,所述模块M3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
与现有技术相比,本发明具有如下的有益效果:
1、通过融合网页描述性短文本、网页内容长文本和网址链接多维特征作为输入,减小了单一输入带来的误差,提高了网页分类模型的精度;
2、通过运用度量学习相关的损失函数,将同类样本聚集,异类样本区分,提高了模型的可解释性和泛化性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的方法流程图;
图2为本发明第一阶段机器学习网页分类算法流程图。
图3为本发明第二阶段深度度量学习网页分类算法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于多维特征融合的二阶段学术数据网页分类方法,聚焦于开发网络的学术数据网页发现问题,利用机器学习和深度学习相结合的方法进行研究,第一阶段采用逻辑回归算法,以网页描述短文本作为输入构建模型,进行快速初步分类,并筛去大量的非数据网页;第二阶段采用文本卷积神经网络结合三元组损失的深度度量学习算法,以融合网址信息的网页内容长文本作为输入,在特征空间中聚合同类样本,区分异类样本,实现整体分类精度的提升。参照图1所示,该方法具体包括:
步骤S1:基于学术关键词,输入搜索引擎(如谷歌、百度等)进行检索,获取检索页面内容。
具体地,该步骤包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,关键词可以为中文或英文。若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文等前期清洗与扩充任务。
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,比如在谷歌搜索中输入“关键词+数据库OR数据集”,为英文则输入“keyword+dataset ORdatabase”,采用精确搜索进行检索。获取返回的网页内容,关键在于获取每个网页条目的标题和描述性短文本。
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类,参照图2所示;
具体地,该步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本。
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词。
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j
Figure BDA0003735557710000081
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
Figure BDA0003735557710000082
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
步骤S204:利用向量化的数据训练逻辑回归模型;定义W(Webpages)表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D(Datapages)表示数据网页,N(Non-Datapages)表示非数据网页;根据网页特征判断是数据网页的概率:
Figure BDA0003735557710000083
其中,
Figure BDA0003735557710000084
为该网页所有特征组成的向量,
Figure BDA0003735557710000085
是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为:
Figure BDA0003735557710000086
得到预测概率之后定义一个阈值(threshold)来判断网页是否属于数据网页,阈值通常取0.5,因此网页分类函数为:
Figure BDA0003735557710000091
步骤S205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现,可分为按参数的绝对值之和进行计算的L1正则化和按参数的平方和的开方值进行计算L2正则化,加上L2正则化项的公式得到新的损失函数l(θ):
Figure BDA0003735557710000092
其中,L(θ)表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;
Figure BDA0003735557710000093
表示待惩罚参数的平方;hθ(xi)代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性。
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
步骤S3:获取第一阶段分类完成后标签为“数据网页”的网页HTML信息;该步骤S3中内容爬取的对象是经过第一阶段分类后需进一步“细分”的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法,参照图3所示。
具体地,该步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接。
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,用‘.’、‘:’、‘/’等将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号。
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充,<pad>是人为规定的填充符号,可更换,只要在模型中统一即可。
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法(Skip-gram),每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|C(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;为了减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,<unk>同<pad>一样是人为规定的符号,可替换。利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入。
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量。文本卷积神经网络包括卷积层,池化层和随机失活层。假设有一训练集T={t1,t2,...,tN},N为训练集的样本个数。对于每个训练样本,
Figure BDA0003735557710000101
其中xi∈Rk是样本文档中第i个词语的k维词向量,
Figure BDA0003735557710000102
是连接符,表示文档由词语拼接而成,同时规定xi:i+j指代的xi,xi+1,...,xi+j连接。一个卷积操作涉及到一个卷积核w∈Rhk,该卷积核的长度同词向量的维度一致,宽度为h,代表了一个涵盖h个词语的滑动窗。例如特征ci是由窗内的词语xi:i+h-1得到:
ci=f(w·xi:i+h-1+b)
其中b为偏置项,f为非线性激活函数。此卷积核作用于文档内所有词汇,得到特征图:
c=[c1,c2,...,cn-h+1]
运用最大池化操作提取其中的最大值:
Figure BDA0003735557710000103
随机失活是为了防止模型过拟合,随机抽取隐藏层中的单元将它们的权重设为0。在倒数第二层
Figure BDA0003735557710000104
其中m为卷积核数,用下式计算输出:
Figure BDA0003735557710000105
其中
Figure BDA0003735557710000106
为元素式乘法算子,r由伯努利函数获得。
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
Figure BDA0003735557710000107
式中,Xa、Xb、Xn分别为锚点样本、正样本、负样本;m为间隔;
Figure BDA0003735557710000108
表示锚点样本与正样本之间的欧氏距离;
Figure BDA0003735557710000109
表示锚点样本与负样本之间的欧氏距离;损失函数的训练目的是拉近正样本和锚点间的距离,增大负样本和锚点间的距离,且类间样本对之间的距离比类内样本对之间的距离大一个间隔。
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法(如K临近法)判断该网页属于哪个类别,输出最终预测结果。
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。该步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图,目的是在门户网站上可以有多种形式展示。
本发明实施例提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,构建了全新的开放网络学术数据网页发现方法,具有可推广性,能够帮助专家快速准确地从互联网中筛选出数据网页。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,包括:
步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;
步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
2.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S1包括:
步骤S101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
步骤S102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
3.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S2包括:
步骤S201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
步骤S202:文本预处理,对中英文文本进行分词处理,并去除停用词;
步骤S203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j
Figure FDA0003735557700000011
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
Figure FDA0003735557700000021
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
步骤S204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
Figure FDA0003735557700000022
其中,
Figure FDA0003735557700000023
为该网页所有特征组成的向量,
Figure FDA0003735557700000024
是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为:
Figure FDA0003735557700000025
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
Figure FDA0003735557700000026
步骤S205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
Figure FDA0003735557700000027
其中,L(θ)表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;
Figure FDA0003735557700000028
表示待惩罚参数的平方;hθ(xi)代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性;
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
4.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
5.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S4包括:
步骤S401:获取训练数据;输入数据有两个维度:第一阶段分类结果网页的内容长文本和网址链接;
步骤S402:文本预处理,包括分词和过滤停用词;长文本同之前第一阶段的预处理方法一致,而网址特征则根据其结构特征,将每个链接分为协议、主机名、路径、文件名和参数部分,以突出不同部分之间的顺序关系;在过滤停用词时保留重要的结构性符号,删除过长且无实际意义的乱码符号;
步骤S403:将每个网页对应的文本长度和网址链接长度固定;取一固定文本长度和网址链接长度,大于此长度截断,小于此长度用<pad>填充;
步骤S404:长文本数据和网址链接数据训练各自的词嵌入模型;模型选用连续跳跃元语法,每个词汇的特征长度为300;连续跳跃元语法模型方法利用中心词C(w)来预测前后文词语出现的概率,即P(C(i)|C(w)),其中:w-k≤i≤w+k,w≠k;式中,C(i)表示中心词周围的词;C(w)代表中心词;
减少计算量并降低对生僻字词的关注程度,对词汇表降维:保留部分高频词汇,统一用<unk>替换低频词汇,利用训练好的词嵌入模型,分别对长文本和网址链接数据进行向量化操作,获得词汇矩阵作为文本卷积神经网络模型的输入;
步骤S405:长文本和网址链接的词汇矩阵分别过文本卷积神经网络模型,最后再全连接层拼接在一起,最终输出一个固定长度的特征向量;
步骤S406:利用三元组损失训练文本卷积神经网络中的权重参数,得到最终模型;三元组损失函数由如下公式所示:
Figure FDA0003735557700000031
式中,Xa、Xb、Xn分别为锚点样本、正样本、负样本;m为间隔;
Figure FDA0003735557700000032
表示锚点样本与正样本之间的欧氏距离;
Figure FDA0003735557700000033
表示锚点样本与负样本之间的欧氏距离;
步骤S407:新的数据进入模型时,通过训练好的文本卷积神经网络模型得到特征向量,将其投影到训练数据所在的特征空间中,基于聚类算法判断该网页属于哪个类别,输出最终预测结果。
6.根据权利要求1所述的基于多维特征融合的二阶段学术数据网页分类方法,其特征在于,所述步骤S5得到最终的分类结果后需要进行入库整理,存放到数据库特定表中,并在门户网站上展现出来;第二次进行网页内容爬取时,除文本和网页结构信息,也获取网页的语言信息、IP位置信息和网页截图。
7.一种基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,包括:
模块M1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;
模块M2:开展基于短文本逻辑回归模型的第一阶段分类;
模块M3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;
模块M4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;
模块M5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。
8.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M1包括:
模块M101:关键词的清洗与扩充;系统输入想要搜寻的数据网页对应的学术关键词,若一次性提供一个学科的多条关键词,则需要完成筛去重复项,拆分部分较长的关键词,增添缺失的对照中英文在内的前期清洗与扩充任务;
模块M102:若关键词为中文,在搜索引擎中输入关键词相关的检索信息,获取返回的网页内容。
9.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M2包括:
模块M201:获取训练数据,从数据库的谷歌检索内容爬取表中提取待分类网页的描述性文本和标题字段信息,拼接为短文本;
模块M202:文本预处理,对中英文文本进行分词处理,并去除停用词;
模块M203:利用词频-逆向文件频率方法将文本向量化表示;对于文档i中的词语j计算其归一化词频tfi,j
Figure FDA0003735557700000041
其中,tfi,j表示归一化词频;i表示文档序号;j表示词语序号;i和j共同表示了某篇文档中的某个词;k表示遍历文档中所有词,∑knk,j表示包含j词文档的词语总数;ni,j是该词在文档中出现的频次,该值通常会除以文档的词语总数,作为归一化的值;再用总文档数除以包含该词语的文件的数目,再将得到的商取对数求得逆向文件频率IDF:
Figure FDA0003735557700000051
其中,idfj表示词语j对应的逆文件频率;|T|是文档集中的文档总数;|{j:wi∈tj}|代表有词语wi出现的文档数(即ni,j≠0);tj表示包含词语wi的文档;TF-IDF的最终结果就是TF和IDF两数相乘:
TF-IDF=TF×IDF
其中,TF表示词频;IDF表示逆向文件频率。
模块M204:利用向量化的数据训练逻辑回归模型;定义W表示要分类的网页集,W=(t1,w1;t2,w2;...;tn,wn),ti(i=1,2,...,N)为特征项,wi为ti的权重,D表示数据网页,N表示非数据网页;根据网页特征判断是数据网页的概率:
Figure FDA0003735557700000052
其中,
Figure FDA0003735557700000053
为该网页所有特征组成的向量,
Figure FDA0003735557700000054
是该网页特征向量对应的权重向量;y表示待判断的网页;同样,某网页为非数据网页的概率为:
Figure FDA0003735557700000055
得到预测概率之后定义一个阈值来判断网页是否属于数据网页,阈值取0.5,因此网页分类函数为:
Figure FDA0003735557700000056
模块M205:借助正则化优化逻辑回归模型参数;正则化通过为原本的损失函数添加惩罚项的方式来避免模型过拟合,按照在损失函数后加上基于参数向量不同范式的倍数来实现;加上L2正则化项的公式得到新的损失函数l(θ):
Figure FDA0003735557700000057
其中,L(θ)表示模型参数θ的似然函数;m表示待判断的网页总数;yi表示网页预测得到的类别;
Figure FDA0003735557700000058
表示待惩罚参数的平方;hθ(xi)代表第i个特征特征xi根据选择的参数计算输出变量为1的可能性;
借助scikit-learn库实现逻辑回归及参数调整,借助网格搜索与k折交叉验证来选择最合适的正则化系数λ。
10.根据权利要求7所述的基于多维特征融合的二阶段学术数据网页分类系统,其特征在于,所述模块M3中内容爬取的对象是经过第一阶段分类后需进一步细分的网页,点进网页内部获取具体内容,将HTML信息提炼为长文本信息。
CN202210795308.4A 2022-07-07 2022-07-07 基于多维特征融合的二阶段学术数据网页分类方法及系统 Pending CN115130601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210795308.4A CN115130601A (zh) 2022-07-07 2022-07-07 基于多维特征融合的二阶段学术数据网页分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210795308.4A CN115130601A (zh) 2022-07-07 2022-07-07 基于多维特征融合的二阶段学术数据网页分类方法及系统

Publications (1)

Publication Number Publication Date
CN115130601A true CN115130601A (zh) 2022-09-30

Family

ID=83381906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210795308.4A Pending CN115130601A (zh) 2022-07-07 2022-07-07 基于多维特征融合的二阶段学术数据网页分类方法及系统

Country Status (1)

Country Link
CN (1) CN115130601A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010283A (zh) * 2023-10-07 2023-11-07 中国矿业大学(北京) Pba车站钢管柱结构变形预测方法、系统
CN117521673A (zh) * 2024-01-08 2024-02-06 安徽大学 一种具备分析训练性能的自然语言处理系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010283A (zh) * 2023-10-07 2023-11-07 中国矿业大学(北京) Pba车站钢管柱结构变形预测方法、系统
CN117010283B (zh) * 2023-10-07 2023-12-29 中国矿业大学(北京) Pba车站钢管柱结构变形预测方法、系统
CN117521673A (zh) * 2024-01-08 2024-02-06 安徽大学 一种具备分析训练性能的自然语言处理系统
CN117521673B (zh) * 2024-01-08 2024-03-22 安徽大学 一种具备分析训练性能的自然语言处理系统

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
US8095539B2 (en) Taxonomy-based object classification
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
WO2014054052A2 (en) Context based co-operative learning system and method for representing thematic relationships
CN110515986B (zh) 一种社交网络图的处理方法、装置及存储介质
CN110688405A (zh) 基于人工智能的专家推荐方法、装置、终端、及介质
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN115130601A (zh) 基于多维特征融合的二阶段学术数据网页分类方法及系统
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN109783650B (zh) 中文网络百科知识去噪方法、系统及知识库
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN115391479A (zh) 用于文档搜索的排序方法、装置、电子介质及存储介质
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
CN116702784B (zh) 实体链接方法、装置、计算机设备和存储介质
CN112115269A (zh) 一种基于爬虫的网页自动分类方法
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和系统
US9195940B2 (en) Jabba-type override for correcting or improving output of a model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination