[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115827871A - 互联网企业分类的方法、装置和系统 - Google Patents

互联网企业分类的方法、装置和系统 Download PDF

Info

Publication number
CN115827871A
CN115827871A CN202211690035.3A CN202211690035A CN115827871A CN 115827871 A CN115827871 A CN 115827871A CN 202211690035 A CN202211690035 A CN 202211690035A CN 115827871 A CN115827871 A CN 115827871A
Authority
CN
China
Prior art keywords
enterprise
classification
data
internet
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211690035.3A
Other languages
English (en)
Inventor
李美燕
吴震
王秀文
李娅强
刘纯艳
王峰
刘鑫
李政达
陈鹏云
杨菁林
赵磊
秦恺
曾宣玮
刘志丞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Great Wall Computer Software & Systems Inc
National Computer Network and Information Security Management Center
Original Assignee
Great Wall Computer Software & Systems Inc
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Great Wall Computer Software & Systems Inc, National Computer Network and Information Security Management Center filed Critical Great Wall Computer Software & Systems Inc
Priority to CN202211690035.3A priority Critical patent/CN115827871A/zh
Publication of CN115827871A publication Critical patent/CN115827871A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网企业分类的方法和装置,其中该方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类。本发明的方案基于在Transformer架构的深度神经网络中进行自动特征组合学习,能够对互联网企业准确进行行业分类,并能够极大提升互联网企业行业分类的准确率。本发明的方案能够快速将海量企业多维度信息进行识别,无需人工干预。本发明的方案基于大语料预训练模型加下游任务微调的方案能灵活应用在不同场景中海量企业的快速分类。

Description

互联网企业分类的方法、装置和系统
技术领域
本发明属于人工智能技术领域,具体涉及互联网企业分类的方法、装置和系统。
背景技术
企业分类是利用企业相关信息对企业进行所处行业分类的一种技术,一般采用的是我国现行的国民经济行业分类标准。该分类标准中将行业分为了97个大类、473个中类、1380个小类。我国企业数量众多,互联网企业是中国经济结构转型升级的驱动力量,如何对这些企业进行有效的行业分类是十分有必要的,可以为我国相应的监管部门提供有效的监管基础和依据,也可以有效的解释特定的行业的发展情况以及在国民经济中所处的地位。传统的人工识别方式存在低效、主观性强的缺点,无法大规模的应用,亟需一种自动化的分类技术来对企业进行快速高效的分类。随着人工智能技术的发展,出现了一大批企业分类算法。
现有的企业分类方法大致可以分为两类:基于规则匹配的分类方法和基于机器学习的分类方法。
基于规则匹配的方法一般会事先收集企业的相关信息,用企业相关信息文本与行业分类标签做相似度计算,依据相似度计算结果进行排序,将排名第一的行业标签匹配到该企业。此类方法构建简单,只需要计算企业信息与标签的相似度分数就可以对企业进行分类,但此类方法受限于收集的企业信息的丰富程度,不同相似度的计算方法也会影响分类的准确率。此外,行业标签也存在更新情况,匹配的结果与最新的行业标准规范也会产生不准确现象。
基于机器学习的方法会收集待分类企业的文本信息,首先对文本进行清洗、分词,然后基于分词的结果做基于字、词的特征向量的提取,最后使用抽取出的特征向量训练分类器以此来对企业进行分类。此类方法相较于基于规则匹配的方法有较大的改进,由于利用到了企业信息的词向量特征,提高了企业分类的准确率。但是分类准确率仍然受到分词效果的影响,词典的收集维护也会耗费巨大的精力。此外,词向量特征的选取以及组合也是一项耗费极大精力的一项技术,特征组合的效果对最终的分类效果会产生很大的影响。
因此,现有技术需要一种能够对互联网企业进行有效分类的解决方案。
上述在背景部分公开的信息仅用于对本发明的背景做进一步的理解,因此它可以包含对于本领域普通技术人员已知的不构成现有技术的信息。
发明内容
本发明涉及一种互联网企业分类的方法、装置和系统。本发明所要解决的技术问题是针对现有企业分类维度低、准确度不高等不足,提供多维度企业信息的互联网企业分类方法及装置。本发明的方案能够对互联网企业进行准确的行业分类,相比于基于匹配或机器学习的企业分类算法,本发明专利可以极大提升互联网企业行业分类的准确率。
本发明的第一方面提供了一种互联网企业分类的方法,其特征在于,所述方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类,该分类器为所述分类器为Softmax分类器。
根据本发明的一个实施例,其中所述多维度包括:企业名称、主要产品和业务、企业简介和经营范围相关的数据,以及其中所述预处理将企业名称、主要产品和业务、企业简介和经营范围相关的数据进行拼接后并进行文本清洗。
根据本发明的一个实施例,在所述步骤S2中,将所述长文本数据前添加辅助分类特殊标记符号CLS,所述Bert网络模型模型学习所述CLS标记的特征向量;并且在所述步骤S3中,将处理后的数据中对应位置的所述CLS标记的特征向量输入所述分类器。
根据本发明的一个实施例,其中在所述步骤S2中,所述添加辅助分类特殊标记符号CLS包括:S21:将所述长文本按照字符进行分词后获取该字符在字典中对应的序号,并将该序号设置为该字符文本Token,并设置该字符的在文本中的位置编码Token以及文本类型Token,S22:将所述字符文本Token、位置编码Token以及文本类型Token按照位置相加,并将输入到Bert网络模型的Embedding层,并将得到的向量输入到Bert网络模型的多层自注意力层中进行特征学习。
根据本发明的一个实施例,其中在所述步骤S2还包括对Bert网络模型的进行训练,所述训练包括:S31:将整理好的企业数据集按预定比例分成训练集和测试集,在训练集上训练所述Bert网络模型,并对Bert网络模型中的超参数进行调整;S32:在所述测试集上计算每个企业类别的准确率及召回率,并进行Bert网络模型评估;S33:如果准确率及召回率满足预定的业务标准,则部署满足预定的业务标准的Bert网络模型;S34:如果准确率及召回率不满足预定的业务标准,则筛选出模型判断错误的样本,对错误样本纠正后进行重新标注后添加到训练集,并返回步骤S32。
根据本发明的一个实施例,其中,所述超参数包括批尺寸、学习率、输入文本最大长度。
根据本发明的一个实施例,其中在所述步骤S3中,所述分类器输出的分类为我国公布的上市企业中国民经济分类的第二级分类。
根据本发明的一个实施例,所述步骤S1还包括:从互联网企业信息库中获取互联网企业的多维度数据,并对所述互联网企业信息库中的全量数据进行打标;并且所述步骤S3还包括:所述Softmax分类器输出每一个互联网企业的分类数据,并输出的该分类数据的置信度。
根据本发明的一个实施例,在所述步骤S2中,采用集成学习的策略来对Bert网络模型进行集成学习,其中在所述集成学习中,采用Bagging算法来获得企业数据的分类标签。
根据本发明的一个实施例,在所述Bagging算法中,采用自助随机采样的方法从含有m个企业样本的数据集中产生T个采样,基于每个采样集独立训练出T个基学习器,其中T<m。
根据本发明的一个实施例,在所述Bagging算法中,采用不同采样得到的不同的训练集来训练模型后得到同质的弱分类器,并对同一个样本进行测试时输出的多个不同的基于Bert网络模型的预测结果进行投票,以得到最终的分类预测结果。
本发明的第二方面提供了互联网企业分类的装置,其特征在于,所述装置包括存储器和处理器;所述存储器,用于存储计算机程序;其特征在于:所述处理器,用于当执行所述计算机程序时,实现根据上述的对互联网企业进行分类的方法。
本发明的第三方面提供了一种互联网企业分类系统,其特征在于,所述系统包括:数据采集和预处理模块,被配置为:采集企业数据并进行预处理,形成企业数据的长文本;分类模型的训练和测试模块,被配置为:将企业数据分为训练集和测试集,根据训练集来训练企业分类的Bert网络模型,并根据测试集评估企业Bert网络模型的分类效果;分类模型的迭代和提升模块,被配置为:对全部的企业数据进行打标,在利用Bert网络模型分类器输出企业类别的同时,输出企业的置信度信息,对置信度低于预设阈值的企业数据进行重新标注,并加入训练集再次训练Bert网络模型。
根据本发明的一个实施例,其中,所述分类模型的迭代和提升模块中使用集成学习策略来对Bert网络模型进行学习,并采用Bagging算法来获得企业数据的分类标签。
本发明的方案能够获取互联网企业简介、经营范围、主要产品及业务信息、企业名称四个维度的信息。将多维度的信息进行数据进行预处理,将企业名称、经营范围、产品信息和企业简介进行拼接后去网页标签等特殊字符。预处理后的文本输入到基于Transformer架构的多层深度神经网络中进行自动特征组合学习,网络学习到文本的内在特征之后输入到SoftMax分类器中,对互联网企业进行行业分类。相比于基于匹配或机器学习的企业分类算法,本发明专利可以极大提升互联网企业行业分类的准确率。此外本发明可快速将海量企业多维度信息进行识别,无需人工干预。基于大语料预训练模型加下游任务微调的方法能较为灵活的应用在不同场景中海量企业的快速分类。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图进行简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明的一个示例性实施例的Bert网络模型的示意图。
图2是根据本发明示例性实施例的Embedding层的示意图。
图3是根据本发明的一个示例性实施例的Bert网络模型中多头自注意力机制(Multi-Head Self-Attention)的示意图。
图4是根据本发明的示例性实施例的互联网企业分类的方法的流程图。
图5是根据本发明示例性实施例的Bert网络分类模型输入输出结构图。
图6是根据本发明的一个示例性实施例的互联网企业分类系统的框架结构图。
图7示出了根据本发明示例性实施例的Bagging算法中自助采样法的原理图。
图8示出了根据本发明的一个示例性实施例的Bagging算法的原理图。
图9示出了根据本发明的一个示例性实施例的互联网企业分类系统中模型训练的迭代流程图。
图10示出了根据本发明示例性实施例的互联网企业分类的装置框图。
具体实施例
如在本文中所使用的,词语“第一”、“第二”等可以用于描述本发明的示例性实施例中的元件。这些词语只用于区分一个元件与另一元件,并且对应元件的固有特征或顺序等不受该词语的限制。除非另有定义,本文中使用的所有术语(包括技术或科学术语)具有与本发明所属技术领域的普通技术人员通常理解的含意相同的含意。如在常用词典中定义的那些术语被解释为具有与相关技术领域中的上下文含意相同的含意,而不被解释为具有理想或过于正式的含意,除非在本发明中被明确定义为具有这样的含意。
本领域的技术人员将理解的是,本文中描述的且在附图中说明的本发明的装置和方法是非限制性的示例性实施例,并且本发明的范围仅由权利要求书限定。结合一个示例性实施例所说明或描述的特征可与其他实施例的特征组合。这种修改和变化包括在本发明的范围内。
下文中,将参考附图详细描述本发明的示例性实施例。在附图中,省略相关已知功能或配置的详细描述,以避免不必要地遮蔽本发明的技术要点。另外,通篇描述中,相同的附图标记始终指代相同的电路、模块或单元,并且为了简洁,省略对相同电路、模块或单元的重复描述。
此外,应当理解一个或多个以下方法或其方面可以通过至少一个控制单元或控制器执行。术语“控制单元”,“控制器”,“控制模块”或者“主控模块”可以指代包括存储器和处理器的硬件设备。存储器或者计算机可读存储介质配置成存储程序指令,而处理器具体配置成执行程序指令以执行将在以下进一步描述的一个或更多进程。而且,应当理解,正如本领域普通技术人员将意识到的,以下方法可以通过包括处理器并结合一个或多个其他部件来执行。
本发明提供了一种基于多维度企业信息的互联网企业分类方法及装置,通过互联网企业文本信息清洗预处理流程,对文本信息进行拼接以及清洗文本中的不必要的特殊字符、网页标签等;本发明基于多维度的互联网企业信息的多层深度神经网络分类模型,将企业多维度文本信息组合成一整段长文本,作为模型的训练数据,训练企业分类模型;本发明基于主动学习的分类模型准确度提升算法,对测试集进行打标,输出置信度,将置信度较低的数据进行重新标注训练,提升模型的分类准确率。
互联网企业是指在互联网上注册域名、建立网站,且利用互联网进行各种商务活动的企业。随着互联网的兴起,出现了基于互联网概念的一些企业。这些企业基于互联网相关业务,建立了多种类型的企业,从事电子商务,人工智能,互联网金融,形成了各种类型的互联网平台经济。对互联网企业开展分类,旨在实现科学有效的界定企业行业类别,进而明确企业主体责任、防止资本无序扩张以及行业垄断、精准推行互联网平台政策,促进互联网经济健康有序发展。
与互联网企业相关的信息有企业名称,企业简介,企业产品信息,经营范围等。互联网企业名称是指经工商行政管理机关核准登记,颁发给企业的营业执照上企业名称栏目后的全部内容;企业简介是指通过文字向社会公众介绍企业基本情况和经营战略的文案;产品信息主要包括产品结构、有关产品的消息、情报、数据和知识等;企业经营范围是在工商登记部门核准的可以进行的经营内容。
随着互联网企业的增多,互联网企业之间的界限也出现了模糊,对互联网企业进行准确的行业分类也变得越来越困难。由于很多互联网企业的企业名称和所从事的实际经营活动有较大出入,所以不可能单单从企业名称来对互联网企业进行准确的行业分类。现有大多数企业分类所采用的技术大都为基于规则匹配的方法,用企业名称与互联网行业分类词典中的行业类别进行关键词匹配后计算相似度,推荐出待分类企业的企业类型,这类基于关键词匹配的算法由于只考虑了企业名称的关键词。后续的改进是采用机器学习的算法,首先会对企业名称以及企业的多维度信息进行分词,提取出关键词后使用词向量技术来对分词结果作特征提取,随后训练分类器来实现企业类别的分类。此类基于机器学习的算法是一个基于Pipeline的多阶段分类算法,每一阶段的效果都会对下一阶段的算法产生影响,上一阶段模型产生的预测误差会传播到下一阶段的模型预测。此外,在特征提取阶段,需要人工去设计需要提取特征的类型,这些特征的选取与组合对特征工程技术有着较高的要求。
而基于神经网络的算法,是一个端到端训练与预测的过程,不存在多阶段的组合。针对输入的数据,神经网络算法会自动对数据进行特征提取以及特征选择,自动的选取最优的特征组合,自动学习这些特征与真实标签之间的对应关系。深度学习算法避免了繁杂的特征工程,相比于基于机器学习的算法有着较高的准确率。
根据本发明的一个或多个实施例,本发明基于Transformer编码器-解码器模型架构的大规模语料预训练技术。相较于传统的预训练技术,本发明的Transformer模型采用了海量的互联网维基百科语料来训练模型,加上了Next Sentence Prediction和MaskedToken Prediction两个预训练任务,本发明的Transformer模型基于海量语料学习到了文本的内在语义知识,使模型具有了一定的知识推理能力。
根据本发明的一个或多个实施例,本发明的Transformer模型带动了下游任务的进步,本发明的基于Transformer Encoder编码器结构的Bert网络模型在14种自然语言处理任务中均取得了最好的效果,远远超过了之前所有机器学习或者以循环神经网络(RNN/LSTM)为代表的深度神经网络模型的效果。在Open AI公司基于Transformer Decoder解码器结构改进的GPT1,GPT2,GPT3等模型经过验证也都达到了惊人的效果。
根据本发明的一个或多个实施例,本发明的Transformer网络模型以多头注意力机制和前馈神经网络以及带掩码的多头注意力为主要结构。输入文本按照字符来进行处理,加上位置编码和类型编码能在海量语料中学到文本内部的一些潜在语义信息。本发明的Transformer结构对输入Token进行两两之间注意力计算,所以对长文本也有较好的特征提取效果,关注了中心词与远距离词之间的互信息。本发明的Transformer为结构的深度神经网络不仅在自然语言处理领域得到了广泛的应用,在计算机视觉,语音识别等领域都取得了很不错的效果。因此本发明的Transformer结构为基础的深度神经网络逐渐取代了传统的机器学习以及以RNN/CNN为代表的上一代深度神经网络架构。
根据本发明的一个或多个实施例,对互联网企业进行行业分类是比较困难的过程,单独仅仅从企业名称或者企业经营范围进行判断的准确率往往较低。当企业经营范围与实际从事行业往往有出入,企业名称与实际经营活动有一些差别时,基于关键词进行匹配的企业分类这类传统分类算法无法准确的对企业进行分类,人工干预进行手动分类也存在较大的主观性。所以利用企业的多维度信息进行企业分类是一个普遍采用的改进措施。然而,多维度的企业信息的组合成倍的增加了企业信息文本的长度,基于匹配的传统分类算法无法做到全部信息的有效利用,同时极大增大了计算复杂度。本发明基于Transformer的深度学习网络结构可以对长文本企业信息进行有效的特征提取,对企业名称、企业简介、企业主要产品业务和经营范围进行了深度语义特征融合,能有效利用企业的多维度企业信息,对互联网企业进行准确的行业分类。
根据本发明的一个或多个实施例,本发明的互联网企业分类的方案采用了基于Transformer编码器的Bert网络模型,其中Bert模型的全称是BidirectionalEncoderRepresentations from Transformer,其为基于Transformer的双向编码器表示,是一个预训练的语言表征模型,不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。Bert模型的利用大规模无标注语料训练、获得文本的包含丰富语义信息的表达,即:文本的语义表示,然后将文本的语义表示在特定NLP(自然语言处理)任务中作微调,最终应用于该NLP任务。
图1是根据本发明的一个示例性实施例的Bert网络模型的示意图。
如图1所示,对输入的一个文本(可以是长文本)进行向量表示,然后送入基于多个Transformer的Bert网络模型,然后输出处理结果,将输出结果送入Softmax分类器。
根据本发明的一个或多个实施例,本发明基于Transformer改进的Bert模型在海量的语料上进行预训练,学习到了语言的内在语义表示能力。其中在Bert模型在进行下游分类任务的训练中,采取在输入文本前面添加辅助分类特殊标记符号“[CLS]”,模型自动学习该特殊标记的特征,在测试时对输出结果提取出对应位置的分类标记“[CLS]”多维度(例如1*768维)的特征向量后输入到SoftMax分类器对企业进行分类。
图2是根据本发明示例性实施例的Embedding层的示意图。
如图2所示,根据本发明的一个或个实施例,对Bert网络模型输入的具体处理方法为:将输入文本按照字符进行分词后查词表找到该字符在字典中对应的序号作为该字符的标号,这个标号称为该字符的文本Token。除此之外,会加入该字符的在文本中的位置编码Token以及文本类型Token,三种Token按照位置相加到一起,输入到Embedding层得到768*512维度的向量后输入到多层自注意力层中进行特征学习。位置Token代表了每个字符的位置信息,可以辅助模型学习到该字符在上文本下文的信息。类型Token则代表了对应的字符在文本中是处于上一句还是下一句中。
根据本发明的一个或多个实施例,本发明的Bert的输入部分是个线性序列,两个句子通过分隔符分割,最前面和最后增加两个标识符号。根据本发明的另一实施例,例如,每个单词有三个embedding:位置信息embedding,这是因为自然语言处理中单词顺序是很重要的特征,需要在这里对位置信息进行编码;单词embedding;第三个是句子embedding,因为前面提到训练数据都是由两个句子构成的,那么每个句子有个句子整体的embedding项对应给每个单词。把单词对应的三个embedding叠加,就形成了Bert的输入。
图3是根据本发明的一个示例性实施例的Bert网络模型中多头自注意力机制(Multi-Head Self-Attention)的示意图。
如图3所示,为了增强Attention的多样性,本发明进一步利用不同的Self-Attention(自注意力机制)模块获得文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量。
根据本发明的一个或多个实施例,本发明的Bert网络模型中发挥最大作用的是Multi-head Self-Attention(多头自注意力机制)结构,由于传统的RNN机制存在的长程梯度消失问题,对于较长的句子,RNN很难做到将输入的序列转化为定长的向量而保存多有有效的信息,所以随着句子长度的增加,以RNN为基础结构的模型的效果会显著下降。为了解决由长序列到定长向量转化而造成的信息损失瓶颈,Attention注意力机制被引入。其中Attention机制类似于人类翻译文章时候的思路,即将注意力关注于我们的翻译部分对应的上下文。同样的,在Attention模型中,当翻译当前的词语时,会寻找源语句中相应的几个词语,并结合之前的已经翻译的部分做出相应的翻译。本发明采用多头自注意力机制是为了解决企业相关信息组合之后造成的文本长度过长的问题,多头自注意力机制能较好学习到多维度企业信息之间的潜在关系,真正挖掘出一些对企业行业分类有用的关键信息。
图4是根据本发明的示例性实施例的互联网企业分类的方法的流程图。
如图4所示,其中在步骤S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;
在步骤S2:将所述长文本数据输入Bert网络模型进行处理;
在步骤S3:将经过处理后的数据送入Softmax分类器来对所述互联网企业进行分类。
其中企业多维度包括:企业名称、主要产品和业务、企业简介和经营范围相关的数据,以及其中所述预处理将企业名称、主要产品和业务、企业简介和经营范围相关的数据进行拼接后并进行文本清洗。
其中,在所述步骤S1的数据预处理中,从互联网企业信息库中获取互联网企业的多维度数据,并对所述互联网企业信息库中的全量数据进行打标,并且在所述步骤S3的数据分类中,根据打标的信息,所述Softmax分类器输出每一个互联网企业的分类数据,并输出的该分类数据的置信度。其中,本发明采用集成学习策略对Bert网络模型进行集成学习,采用Bagging算法获得数据的分类标签。
图5是根据本发明示例性实施例的Bert网络分类模型输入输出结构图。
如图5所示,其中:
[CLS]:辅助分类特殊标记,E[CLS]:是[CLS]特殊标记经过Embedding层后获得的嵌入表示向量。
E1-EN:是企业名称按照字符分词后查词表获得的Token与位置Token和类别Token相加后Embedding层后获得的嵌入表示向量。
E[SEP]:企业名称和企业简介或者产品信息之间的特殊分隔符号。
E′1-E′M:是企业简介按照字符分词后查词表获得的Token与位置Token和类别Token相加后Embedding层后获得的嵌入表示向量。
输出符号解释:
C:代表[CLS]辅助分类特殊标记经过多层自注意力网络后得到的向量表示。
T1-TN:代表企业名称Embedding向量经过多层自注意力网络后得到的最终向量表示。
T′1-T′M:代表企业简介Embedding向量经过多层自注意力网络后得到的最终向量表示。
根据本发明的一个或多个实施例,针对Bert网络模型的输入,本发明的方案把企业名称、企业简介、产品信息以及经营范围拼接成一条长文本,中间用特殊分隔符[SEP]来进行分割。在输入文本最前面拼接辅助分类特殊标记符号[CLS],来进行辅助分类。[CLS]特殊字符与文本中的其他字符在分类模型特征学习中进行了交互学习,学习到了文本内在特征与文本标签之间的对应关系。这里我们采用了Bert-base-chinese中文预训练模型。该模型一共有12个隐藏层,隐藏层的输入输出维度大小都为768维,多头注意力机制中的头数为12个,最大输入文本长度为512。针对过长的互联网企业信息文本,我们进行了长度截断操作,只保留前512个字符。在图5中,根据对向量C可以得到最终的企业类别。
图6是根据本发明的一个示例性实施例的互联网企业分类系统的框架结构图。
如图6所示,互联网企业分类系统的全流程包括了数据采集和预处理;分类模型训练和测试、分类模型的迭代提升,分别用不同的单元或模块来实现。
根据本发明的一个或多个实施例,数据采集和预处理模块用于采集或获取企业的多维度数据,例如企业的名称、简介、产品及业务、经营范围,并对这些信息进行拼接以及预处理,过滤掉无用文本后,形成企业信息的长文本。
根据本发明的一个或多个实施例,分类模型的训练和测试模块包括:将整理好的企业信息数据集分为训练集和测试集,根据图3和图5所示的Bert网络模型进行训练和测试,得到具有最优参数的Bert网络模型。其中Bert网络模型的的训练和测试包括:
(1)将整理好的数据集按照80%和20%的比例分成训练集和测试集,在训练集上训练企业分类模型。
根据本发明的一个或多个实施例,深度学习模型的训练过程中需要将数据集按照比例随机分成训练集和测试集。为了能在测试集上达到最优的效果,需要在训练集上进行模型的训练以及超参数的调整。超参数的调整涉及到学习率的设置以及BatchSize大小的设置,这些参数影响着模型最终达到的效果。例如,经过多次实验,本发明确定确BatchSize的大小为6,学习率为1e-4,输入文本最大长度为512时,模型在测试集上能达到最优的效果。Transformer本身结构层数、隐藏层大小的设置是固定的,不需要进行特意调整,唯一需要改变的是Bert网络最后一层分类器的输出类别数量。在这里,本发明采用的是我国公布的上市企业中国民经济分类的第二级分类,总的类别数为12。
(2)在测试集上测试分类模型的分类效果,对模型的效果做出评价。
为了验证模型的鲁棒性,需要在测试集上测试训练好的模型的准确率和召回率。深度学习模型对数据是比较敏感的,训练好的模型在某个数据集上取得好的效果不一定能在其他数据集上得到相同的测试效果。为了尽量保证模型的有着较好的泛化能力,需要在不同的测试集上测试效果调整模型的超参数从而达到最优效果。例如,经过测试,我们训练好的模型在三个不同的测试集上均达到了不错的效果。
根据本发明的一个或多个实施例,某个类别的准确率按照下面的公式来进行计算:
acc=TP/(TP+FP)
其中TP:代表测试集中正确预测为该类别的数目,FP代表测试集中错误预测为该类的数目。
其中,某个类别的召回率的计算按照下面公式:
recall=TP/(TP+FN)
TP:代表测试集中正确预测为该类别的数目,FN代表测试集中错误预测为其他类的数目。表1示出了分类模型在四个不同测试集上的测试效果。
表1
测试集 数据量 准确率(acc) 召回率(recall)
测试集1 1200条/12类 92.4% 90.1%
测试集2 500条/12类 93.8% 89.0%
测试集3 700条/12类 90.2% 92.3%
根据本发明的一个或多个实施例,互联网企业分类系统还包括分类模型的迭代和提升模块,其具体的功能为:联网企业信息库中的全量数据进行打标,输出每一个互联网企业的类别,分类器输出每一条数据的置信度;对置信度低于最低阈值数据进行重新标注,加入训练集再次训练分类模型;重复迭代这个过程训练模型,达到要求的分类准确率。
具体地,分类模型的迭代和提升模块包括:
(1)在训练模型只用到了数据库中的部分数据,所以为了验证模型的鲁棒性,对互联网企业信息库中的全量数据进行打标,输出每一个互联网企业的类别,分类器输出每一条数据的置信度。
其中,训练好的模型只是在一定范围内的数据集上取得了不错的效果,但是针对海量数据的效果是不可控的。为了保证模型在海量的数据上也能达到比较好的效果,在全量数据库上进行打标,SoftMax分类器的输出结果作为每一条数据的置信度。
(2)设置预设的最小阈值,对置信度低于该最低阈值数据进行重新标注,加入训练集再次训练分类模型。对于输出置信度较高的数据,模型有足够的信心来认为这条数据属于此类类别,但是对于输出置信度较的数据,模型对此条数据的预测明显信心不足。对此类数据进行重新标注(例如,人工标注)后加入到训练集内进行模型的再次训练。
(3)基于主动学习的思想,重复迭代这个过程训练模型,达到要求的分类准确率。
(4)采用集成学习策略,对模型进行集成学习,采用Bagging法获得数据的分类标签。
根据本发明的一个或多个实施例,集成学习是机器学习算法中常用的一种范式。在集成学习中,本发明的方案训练多个分类能力较弱的互联网企业分类模型来解决同一个问题,并将他们的输出结果结合起来以达到更好的效果。本发明训练了基于Bert改进的多个基础版本模型,最后对这些基础版模型进行集成学习。本发明在集成学习中最重要的假设是:当不同的弱分类器进行组合时,可以得到比单一的弱分类器更加精确或者更加鲁棒的模型。
根据本发明的一个或多个实施例,建立集成学习的过程中选择待聚合的基础模型,多数情况下,需要单独训练各自的基础模型得到不同方式训练的同质弱分类器。然后需要使用合适的策略来组合弱分类器。常见的组合分类器的元算法有:Bagging:考虑的是同质弱分类器,相互独立地并行学习这些弱分类器,按照某种确定性的平均过程来将它们组合起来。Boosting:考虑的也是同质弱分类器,它以一种高度自适应的方法顺序地学习这些弱分类器,并按照某种确定行的策略来将他们组合起来。Stacking:考虑的是异质弱分类器,并行的学习它们,并通过训练一个元模型将他们组合起来,根据不同的弱模型的预测结果来输出一个最终的预测结果。
根据本发明的一个或多个实施例,本发明采用Bagging(自助聚合)的方式来获得比单独一个模型更加鲁棒的集成模型。
在Bagging中的自助采样法的基本过程如图7所示。
图7示出了根据本发明示例性实施例的Bagging算法中自助采样法的原理图。
如图7所示,自助采样法的定义为:给定包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,我们得到含m个样本的采样集,初始训练集中有的样本多次出现,有的则从未出现。
如图7所示在Bagging(Bootstrap aggregating)通过自助随机采样(bootstrapsampling,有放回的采样)的方法从含有m个样本的数据集中产生T个采样,每个采样集中约有原始数据集的63.2%的样本,然后基于每个采样集独立训练出T个基学习器。
若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个,也可以进一步考察学习器投票的置信度来确定最终胜者。预测输出时,对分类问题采用简单的投票法,对于回归问题采用简单的平均法。
根据本发明的一个或度过实施例,在某些假设条件下,这些样本具有非常好的统计性质:在以及近似中,它们可以被视为是直接从真实的底层(并且往往是未知的)数据分布中抽取出来的,并且彼此之间相互独立。因此,它们被认为是真实数据分布的代表性和独立样本。满足机器学习算法要求的数据独立同分布的基本要求。采用不同采样得到的不同数据集来训练模型后得到同质的弱分类器后对同一个样本进行测试时输出不同模型的预测结果后做投票,得到最终的预测结果。
图8示出了根据本发明的一个示例性实施例的Bagging算法的原理图。
如图8所示,采用自助随机采样的方法从含有m个企业样本的数据集中产生T个采样,基于每个采样集独立训练出T个基学习器(弱分类器),对T个基学习器进行分别训练组合成一个强分类器。
根据本发明的一个或多个实施例,根据Bagging算法,最终的分类器强输出为:
Figure BDA0004020910590000161
ycom是T个弱分类器ym(即多个基于Bert的基础分类模型)进行集成学习后得到的强分类器,m代表m个训练样本x,M代表训练样本的总数。
根据本发明的一个或多个实施例,本发明在训练集中采用自助随机采样,得到多个训练集的子集,用这些子训练集分别单独训练T个分类能力较弱的互联网企业分类模型,这些弱分类模型的分类准确率还达不到可用状态,只有基本经过集成学习的机制集成后才能得到一个分类能力较强的互联网企业分类模型,这样得到的分类器的分类的效果要强于T个弱分类模型中的任何一个,达到生产可用。
根据本发明的一个或多个实施例,具体地,模型迭代的流程包括:
S31:将整理好的企业数据集按预定比例分成训练集和测试集,在训练集上训练所述Bert网络模型,并对Bert网络模型中的超参数进行调整;
S32:在所述测试集上计算每个企业类别的准确率及召回率,并进行Bert网络模型评估;
S33:如果准确率及召回率满足预定的业务标准,则部署满足预定的业务标准的Bert网络模型;
S34:如果准确率及召回率不满足预定的业务标准,则筛选出模型判断错误的样本,对错误样本纠正后进行重新标注后添加到训练集,并返回步骤S32。
图9示出了根据本发明的一个示例性实施例的互联网企业分类系统中模型训练的迭代流程图。
如图9所示,整个迭代流程分为五个部分,分别为:
(1)在训练集上进行互联网企业分类模型的训练;
(2)在测试集上计算每个类别的准确率以及召回率,进行评估模型。
(3)如果满足了业务的标准(准确率高于90%,召回率高于90%),则在生产中部署分类模型。
(4)如果不满足设定的标准,则筛选出(可以人工筛选)模型判断错误的样本,进行重新标注,纠正标签后,将它们添加到训练集并重复步骤(2)。
(5)直到模型满足设定的业务标准,或者直到所有可用数据用完。
图10示出了根据本发明示例性实施例的互联网企业分类的装置框图。
如图10所示,本发明还提供了一种互联网企业分类的装置,其特征在于,所述装置包括存储器和处理器;所述存储器,用于存储计算机程序;其特征在于:所述处理器,用于当执行所述计算机程序时,实现根据上述的对互联网企业进行分类的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统、设备、装置或方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
根据本发明的一个或多个实施例,本发明中的方法可以使用存储在非暂时性计算机和/或机器可读介质(例如硬盘驱动器、闪存、只读存储器、光盘、数字多功能磁盘、高速缓存、随机存取存储器和/或任何其他存储设备或存储磁盘)上的编码的指令(例如,计算机和/或机器可读指令)来实现如本发明以上系统中的流程的处理,在非暂时性计算机和/或机器可读介质中存储任何时间期间(例如,延长的时间段、永久的、短暂的实例、临时缓存和/或信息高速缓存)的信息。如本文所使用的,术语“非暂时性计算机可读介质”被明确定义为包括任何类型的计算机可读存储设备和/或存储盘,并且排除传播信号并排除传输介质。
作为本发明示例的上文涉及的附图和本发明的详细描述,用于解释本发明,但不限制权利要求中描述的本发明的含义或范围。因此,本领域技术人员可以很容易地从上面的描述中实现修改。此外,本领域技术人员可以删除一些本文描述的组成元件而不使性能劣化,或者可以添加其它的组成元件以提高性能。此外,本领域技术人员可以根据工艺或设备的环境来改变本文描述的方法的步骤的顺序。因此,本发明的范围不应该由上文描述的实施例来确定,而是由权利要求及其等同形式来确定。
尽管本发明结合目前被认为是可实现的实施例已经进行了描述,但是应当理解本发明并不限于所公开的实施例,而相反的,意在覆盖包括在所附权利要求的精神和范围内的各种修改和等同配置。

Claims (16)

1.一种互联网企业分类的方法,其特征在于,所述方法包括:
S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;
S2:将所述长文本数据输入Bert网络模型进行处理;
S3:将经过处理后的数据送入分类器来对所述互联网企业进行行业分类。
2.根据权利要求1所述的方法,其特征在于,所述分类器为Softmax分类器。
3.根据权利要求1所述的方法,其特征在于,
其中所述多维度包括:企业名称、主要产品和业务、企业简介和经营范围相关的数据,以及
其中所述预处理将企业名称、主要产品和业务、企业简介和经营范围相关的数据进行拼接后并进行文本清洗。
4.根据权利要求1所述的方法,其特征在于,
在所述步骤S2中,将所述长文本数据前添加辅助分类特殊标记符号CLS,所述Bert网络模型模型学习所述CLS标记的特征向量;并且
在所述步骤S3中,将处理后的数据中对应位置的所述CLS标记的特征向量输入所述分类器。
5.根据权利要求4所述的方法,其特征在于,其中在所述步骤S2中,所述添加辅助分类特殊标记符号CLS包括:
S21:将所述长文本按照字符进行分词后获取该字符在分类字典中对应的序号,并将该序号设置为该字符文本Token,并设置该字符的在文本中的位置编码Token以及文本类型Token,
S22:将所述字符文本Token、位置编码Token以及文本类型Token按照位置相加,并将输入到Bert网络模型的Embedding层,并将得到的向量输入到Bert网络模型的多层自注意力层中进行特征学习。
6.根据权利要求1所述的方法,其特征在于,根据权利要求1所述的方法,其特征在于,其中在所述步骤S2还包括对Bert网络模型的迭代训练,所述迭代训练包括:
S31:将整理好的企业数据集按预定比例分成训练集和测试集,在训练集上训练所述Bert网络模型,并对Bert网络模型中的超参数进行调整;
S32:在所述测试集上计算每个企业类别的准确率及召回率,并进行Bert网络模型评估;
S33:如果准确率及召回率满足预定的业务标准,则部署满足预定的业务标准的Bert网络模型;
S34:如果准确率及召回率不满足预定的业务标准,则筛选出模型判断错误的样本,对错误样本纠正后进行重新标注,再将其添加到训练集,并返回步骤S32。
7.根据权利要求6所述的方法,其特征在于,所述超参数包括批尺寸、学习率、输入文本最大长度。
8.根据权利要求1所述的方法,其特征在于,其中在所述步骤S3中,所述分类器输出的分类为我国公布的上市企业中国民经济分类的第二级分类。
9.根据权利要求1或6所述的方法,其特征在于,
所述步骤S1还包括:从互联网企业信息库中获取互联网企业的多维度数据,并对所述互联网企业信息库中的全量数据进行打标;并且
所述步骤S3还包括:所述Softmax分类器输出每一个互联网企业的分类数据,并输出的该分类数据的置信度。
10.根据权利要求9所述的方法,其特征在于,其中对所述置信度小于预设最小阈值的分类数据进行重新标注,并将其加入训练集再次训练分类模型。
11.根据权利要求6所述的方法,其特征在于,在所述步骤S2中,采用集成学习的策略来对Bert网络模型进行集成学习,其中在所述集成学习中,采用Bagging算法来获得企业数据的分类标签。
12.根据权利要求10所述的方法,其特征在于,在所述Bagging算法中,采用自助随机采样的方法从含有m个企业样本的数据集中产生T个采样,基于每个采样集独立训练出T个基学习器,其中T<m。
13.根据权利要求12所述的方法,其特征在于,在所述Bagging算法中,
采用不同采样得到的不同的训练集来训练模型后得到同质的弱分类器,并对同一个样本进行测试时输出的多个不同的基于Bert网络模型的预测结果进行投票,以得到最终的分类预测结果。
14.一种互联网企业分类的装置,其特征在于,所述装置包括存储器和处理器;所述存储器,用于存储计算机程序;其特征在于:所述处理器,用于当执行所述计算机程序时,实现根据权利要求1至13任一项所述的对互联网企业进行分类的方法。
15.一种互联网企业分类系统,其特征在于,所述系统包括:
数据采集和预处理模块,被配置为:采集企业数据并进行预处理,形成企业数据的长文本;
分类模型的训练和测试模块,被配置为:将企业数据分为训练集和测试集,根据训练集来训练企业分类的Bert网络模型,并根据测试集评估企业Bert网络模型的分类效果;
分类模型的迭代和提升模块,被配置为:对全部的企业数据进行打标,在利用Bert网络模型分类器输出企业类别的同时,输出企业的置信度信息,对置信度低于预设阈值的企业数据进行重新标注,并加入训练集再次训练Bert网络模型。
16.根据权利要求15所述的系统,其中,所述分类模型的迭代和提升模块中使用集成学习策略来对Bert网络模型进行深度学习,并采用Bagging算法来获得企业数据的分类标签。
CN202211690035.3A 2022-12-27 2022-12-27 互联网企业分类的方法、装置和系统 Pending CN115827871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211690035.3A CN115827871A (zh) 2022-12-27 2022-12-27 互联网企业分类的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211690035.3A CN115827871A (zh) 2022-12-27 2022-12-27 互联网企业分类的方法、装置和系统

Publications (1)

Publication Number Publication Date
CN115827871A true CN115827871A (zh) 2023-03-21

Family

ID=85518713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211690035.3A Pending CN115827871A (zh) 2022-12-27 2022-12-27 互联网企业分类的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN115827871A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304058A (zh) * 2023-04-27 2023-06-23 云账户技术(天津)有限公司 企业负面信息的识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304058A (zh) * 2023-04-27 2023-06-23 云账户技术(天津)有限公司 企业负面信息的识别方法、装置、电子设备及存储介质
CN116304058B (zh) * 2023-04-27 2023-08-08 云账户技术(天津)有限公司 企业负面信息的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN109783818B (zh) 一种企业行业分类方法
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与系统
CN114896388B (zh) 一种基于混合注意力的层级多标签文本分类方法
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN106095928A (zh) 一种事件类型识别方法及装置
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN114491024B (zh) 一种基于小样本的特定领域多标签文本分类方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN113869055B (zh) 基于深度学习的电网项目特征属性识别方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN116562284B (zh) 一种政务文本自动分拨模型训练方法及装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN115795037B (zh) 一种基于标签感知的多标签文本分类方法
CN112528653A (zh) 短文本实体识别方法和系统
CN118964641B (zh) 为企业构建ai知识库模型的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination