[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112000803B - 文本分类方法及装置、电子设备及计算机可读存储介质 - Google Patents

文本分类方法及装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112000803B
CN112000803B CN202010739426.4A CN202010739426A CN112000803B CN 112000803 B CN112000803 B CN 112000803B CN 202010739426 A CN202010739426 A CN 202010739426A CN 112000803 B CN112000803 B CN 112000803B
Authority
CN
China
Prior art keywords
text
natural language
language text
feature vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010739426.4A
Other languages
English (en)
Other versions
CN112000803A (zh
Inventor
彭团民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010739426.4A priority Critical patent/CN112000803B/zh
Publication of CN112000803A publication Critical patent/CN112000803A/zh
Application granted granted Critical
Publication of CN112000803B publication Critical patent/CN112000803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种文本分类方法及装置、电子设备及计算机可读存储介质,属于文本分类领域。所述文本分类方法包括获取自然语言文本;将所述自然语言文本划分为连续的多个文本片段;根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应;以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量;根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果。通过将文本划分为文本片段并提取局部特征,再将局部特征聚合为全局特征,使得得到的全局特征能够有效的保留每个局部的特征,进而提高了对自然语言文本进行分类的准确度。

Description

文本分类方法及装置、电子设备及计算机可读存储介质
技术领域
本公开涉及文本分类领域,尤其涉及一种文本分类方法及装置、电子设备及计算机可读存储介质。
背景技术
文本分类旨在预测给定文本的类别,是NLP(Natural Language Processing)的基础任务。目前,复杂文档和文本的数量飞速上升,在相关技术中,常利用多个神经网络算法进行融合,采用多个模型进行加权投票的方法进行文本分类,此时采用模型较多、复杂度高,部署成本训练成本高,使用人工对各个模型的结果加权投票以致得到的结果不是最优结果,并且无论对于卷积神经网络还是循环神经网络来说,其从文本中抽取的特征信息均存在不够丰富的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种文本分类方法及装置、电子设备及计算机可读存储介质。
根据本公开实施例的第一方面,提供一种文本分类方法,包括:
获取自然语言文本;
将所述自然语言文本划分为连续的多个文本片段;
根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应;
以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量;
根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果。
可选地,所述以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量,包括:
将每一所述局部特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到所述NeXtVlad模型输出的表征视频全局特征的向量,并将该向量作为所述自然语言文本的全局特征向量。
可选地,所述将所述自然语言文本划分为连续的多个文本片段,包括:
根据所述自然语言文本的文本长度,确定对所述自然语言文本的目标划分方式;
根据所述目标划分方式将所述自然语言文本划分为连续的多个文本片段;
其中,所述目标划分方式包括按短句进行划分、按长句进行划分、按段落进行划分中的一者或多者。
可选地,所述将所述自然语言文本划分为连续的多个文本片段,包括:
分别按照不同的粒度对所述自然语言文本进行划分,得到每一种粒度下划分得到的连续的多个文本片段。
可选地,通过文本分类模型执行所述将所述自然语言文本划分为连续的多个文本片段,以得到所述分类结果的步骤;
其中,所述分类模型包括:数据处理层,与所述数据处理层连接的特征表征层,与所述特征表征层连接的特征聚合层,以及与所述特征聚合层连接的分类器层;
所述分类模型是基于带分类标签的自然语言文本作为训练样本,对所述特征聚合层的参数以及所述分类器层的参数进行训练得到的。
可选地,所述获取自然语言文本,包括:
获取用户在聊天系统中输入的自然语言文本;
所述方法还包括:
根据所述分类结果确定所述用户的聊天意图。
可选地,所述获取自然语言文本,包括:
获取待审核的自然语言文本;
所述方法还包括:
根据所述分类结果确定所述自然语言文本是否符合网络发布条件;
在所述自然语言文本符合所述网络发布条件的情况下,将所述自然语言文本发布到对应所述分类结果的栏目下。
根据本公开实施例的第二方面,提供一种文本分类装置,包括数据处理模块,获取自然语言文本,将所述自然语言文本划分为连续的多个文本片段;
特征表征模块,根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应;
特征聚合模块,以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量;
分类器模块,根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果。
根据本公开实施例的第三方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的文本分类方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过将自然语言文本划分为连续的多个文本片段,并根据连续的多个文本片段生成连续的多个特征向量,再将连续的多个特征向量聚合为全局特征,使得得到的全局特征能够有效的保留每个局部的特征,提升了从文本提取到的特征的精确度以及完整度,进而提高了对自然语言文本进行分类的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种文本分类方法的流程图。
图2是根据一示例性实施例示出的一种文本分类模型的训练方式框图。
图3是根据一示例性实施例示出的一种文本分类方法的另一流程图。
图4是根据一示例性实施例示出的一种文本分类装置的结构框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的一种电子设备的另一框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种文本分类方法的流程图,其中该方法的执行主体可以是电子设备,该电子设备例如可以是服务器也可以是终端,本公开实施例对此不做限定,如图1所示,该方法包括以下步骤:
步骤S11,获取自然语言文本。
步骤S12,将所述自然语言文本划分为连续的多个文本片段。
步骤S13,根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应。
步骤S14,以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量。
步骤S15,根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果。
在本公开实施例中,将该文本拆分短文本进行特征向量的提取,得到连续的文本特征向量,再将根据短文本提取出的特征向量聚合为全局特征。采用此方案,使得在长文本分类问题中,可以有效的保留每个局部的特征,提升了从文本提取到的特征的精确度以及完整度,进而提高了对自然语言文本进行分类的准确度。在一种可能的实现方式中,图1所示的方法步骤可以通过一个数学模型实现对文本进行拆分以及特征向量的提取和融合,无需使用多个模型对获取的文本进行处理分类,从而训练成本以及部署成本更低。
在一种可选地实施方式中,步骤S14中可以包括将每一所述局部特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到所述NeXtVlad模型输出的表征视频全局特征的向量,并将该向量作为所述自然语言文本的全局特征向量。其中,NeXtVlad模型是通过训练所得,NeXtVlad是图像领域的算法,可以有效的将多帧图像的局部特征压缩为全局特征,这里使用后,可以有效的将长文本的局部的片段特征,聚合为全局的特征。NeXtVlad是一个轻量级算法,模型的复杂度较低,参数量少,训练成本和部署成本低。采用此方案,通过使用此算法,可以有效的获得全局特征,减少复杂度、参数量并降低训练成本、部署成本。
在另一种可选地实施方式中,步骤S11到步骤S15可以通过文本分类模型执行。图2提供了分类模型的一种示意图,如图2所示,所述分类模型包括:数据处理层201,与所述数据处理层201连接的特征表征层202,与所述特征表征层202连接的特征聚合层203,以及与所述特征聚合层203连接的分类器层204;所述分类模型是基于带分类标签的自然语言文本作为训练样本,对所述特征聚合层203的参数以及所述分类器层204的参数进行训练得到的。
下面以NeXtVlad模型为例对图2所示的分类模型的训练过程进行说明。具体地,该分类模型的训练步骤可以如图2所示,数据处理层201将带类别标签的数据集205输入数据模块206以得到拆分后的文本片段207,其中,数据集205为带分类标签的自然语言文本。特征表征层202用于获取数据处理层201得到的文本片段207,并将文本片段207输入Bert模型208,以得到文本片段连续向量209,该文本片段连续向量209代表文本的局部特征。特征聚合层203用于将特征表征层202得到的文本片段连续向量209输入NeXtVlad模型210,以得到文档向量211,该文档向量211是由文本片段连续向量209所代表的局部特征聚合而成的全局特征,用于表征整个文本的内容。分类器层204用于将文档向量211输入逻辑斯蒂分类模型212,得到类别结果213。完成后将类别结果213输入损失函数214,通过方向传播对特征聚合层203的NeXtVlad模型210以及分类器层204的逻辑斯蒂分类模型212的参数进行更新,整个训练过程中训练和验证交替进行,训练的时候更新参数,测试的时候不更新参数,计算训练集的准确率、召回率和F1值(F1值=准确率*召回率*2/(准确率+召回率)),当验证集F1值最大时,训练停止,获得最优模型。该分类模型复杂度较低,训练过程中需要更新的参数量少,因而训练成本和部署成本较低。
在又一种可选的实施方式中,步骤S12中所述将所述自然语言文本划分为连续的多个文本片段,可以包括:根据所述自然语言文本的文本长度,确定对所述自然语言文本的目标划分方式,根据所述目标划分方式将所述自然语言文本划分为连续的多个文本片段。
例如,若该文本的字符数小于512,则可以确定所述目标划分方式为按照短句划分的方式;若该文本的字符数大于512,则可以确定所述目标划分方式为按照长句划分的方式,在具体实施时,可以由句号作为划分标记划分,将两个句号之间的文本作为一个文本片段。采用此方案,可以针对不同长度的文本选择最适合的文本划分方式,得到更有针对性的全局特征。
在又一种可选的实施方式中,步骤S12中所述将所述自然语言文本划分为连续的多个文本片段,可以包括:分别按照不同的粒度对所述自然语言文本进行划分,得到每一种粒度下划分得到的连续的多个文本片段,其中,文本的粒度为文本的句子长度,比如短句为第一粒度,长句为第二粒度,段落为第三粒度。对应的,可以由逗号作为划分标记进行文本划分得到第一文本片段,再由句号作为划分标记得到第二文本片段,再由段落缩进作为划分标记进行文本划分得到第三文本片段。分别获取三种不同粒度对应的文本片段的局部特征,再聚合为全局特征。此时,对文本进行了多次划分,得到了更多的局部特征,使得聚合而成的全局特征更全面,进而使得分类更精准。
在又一种可选的实施方式中,步骤S11中获取自然语言文本,还可以包括:获取用户在聊天系统中输入的自然语言文本,并根据所述分类结果确定所述用户的聊天意图。例如,用户在与某个电子商城的聊天系统中进行客服咨询时,可以获取用户输入的文本,并将文本进行分类,以得到用户的聊天意图。比如是用户需要退货或者是需要咨询最新产品,便于该电子系统针对该用户选择更适合的人工客服。或者是在某个问答社区中,用户输入他的问题,服务器获取用户输入的自然语音文本,并将文本进行分类,得到用户问题的类别,以便了解该类别的其它用户对这个问题进行回复。
在一种可选的实施例中,还可以获取待审核的自然语言文本,并根据该分类结果确定该自然语言文本是否符合网络发布条件,在该自然语言文本符合该网络发布条件的情况下,将该自然语言文本发布到对应该分类结果的栏目下。例如,用户在某个社交软件中发布一段文本,服务器获取用户提交的该文本,并对该文本进行分类,若该文本类别表征此文本为诈骗信息或恐怖主义信息,则拒绝此文本发布,若该文本类型为一条体育新闻,则发布至体育新闻栏目中,以便关注此栏目的用户可以看到此文本。
图3是根据一示例性实施例示出的另一种文本分类方法的流程图,其中该方法的执行主体可以是电子设备,该电子设备例如可以是服务器也可以是终端,本公开实施例对此不做限定,如图3所示,该方法包括以下步骤:
步骤S31,获取自然语言文本。
步骤S32,分别按照不同的粒度对该自然语言文本进行划分,得到每一种粒度下划分得到的连续的多个文本片段。
例如,按照短句划分得到连续的多个文本片段,且按照长句划分得到连续的多个文本片段,以及按照段落划分得到连续的多个文本片段。
步骤S33,针对每一种粒度下划分得到的连续的多个文本片段,生成每一种粒度下的连续的多个特征向量。
依然以不同粒度为短句、长句和段落为例进行说明,步骤S13后得到的是短句划分得到的连续的多个文本片段对应的特征向量,以及长句划分得到的连续的多个文本片段对应的特征向量,以及段落划分得到的连续的多个文本片段对应的特征向量。
步骤S34,将每一种粒度下的连续的多个特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到该种粒度下的融合特征向量。
每一种粒度划分得到的文本片段对应得到一融合特征向量。
步骤S35、将所有融合特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到该NeXtVlad模型输出的作为该自然语言文本的全局特征向量。
步骤S36,根据该全局特征向量对该自然语言文本进行分类,得到分类结果。
采用此方案,应用视频处理的思维,将长文本视为由一帧一帧的图像组成的视频,每个文本片段相当于一帧图像,利用NextVlad模型,该模型主要是应用于图像领域,将局部的连续特征,聚合为全局的特征,表征整个长文本。对于超长文本,将不同层次的特征,如片段,短句、长句、段落等,聚合在一起作为整个文本的特征表示,用来分类,能够有效的利用局部和全局的信息。
图4是根据一示例性实施例示出的一种文本分类装置框图。该文本分类装置可以通过软件、硬件或者两者的结合实现成为终端的部分或者全部。参照图4,该装置包括获取模块41,划分模块42、生成模块43、聚合模块44、分类模块45。
该获取模块41被配置为用于获取自然语言文本。
该划分模块42被配置为用于将该自然语言文本划分为连续的多个文本片段。
该生成模块43被配置为用于根据连续的该多个文本片段生成连续的多个特征向量,其中,该多个文本片段与该多个特征向量一一对应。
该聚合模块44被配置为用于以该特征向量为该自然语言文本的局部特征向量,对各个该局部特征向量进行聚合,得到该自然语言文本的全局特征向量。
该分类模块45被配置为用于根据该全局特征向量对该自然语言文本进行分类,得到分类结果。
可选地,该聚合模块44可具体用于:将每一该局部特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到该NeXtVlad模型输出的表征视频全局特征的向量,并将该向量作为该自然语言文本的全局特征向量。NeXtVlad是一个轻量级算法,模型的复杂度较低,参数量少,训练成本和部署成本低。
可选地,划分模块42可具体用于根据该自然语言文本的文本长度,确定对该自然语言文本的目标划分方式;根据该目标划分方式将该自然语言文本划分为连续的多个文本片段;其中,该目标划分方式包括按短句进行划分、按长句进行划分、按段落进行划分中的一者或多者。此时,可以针对不同长度的文本选择最适合的文本划分方式,得到更有针对性的全局特征。
可选地,划分模块42还可以具体用于分别按照不同的粒度对该自然语言文本进行划分,得到每一种粒度下划分得到的连续的多个文本片段。此时,对文本进行了多次划分,得到了更多的局部特征,使得聚合而成的全局特征更全面,进而使得分类更精准。
可选地,划分模块42、生成模块43、聚合模块44、分类模块45可具体作用为一种分类模型,该分类模型包括:数据处理层,与该数据处理层连接的特征表征层,与该特征表征层连接的特征聚合层,以及与该特征聚合层连接的分类器层;该分类模型是基于带分类标签的自然语言文本作为训练样本,对该特征聚合层的参数以及该分类器层的参数进行训练得到的,该分类模型复杂度较低,训练过程中需要更新的参数量少,因而训练成本和部署成本较低。
可选地,获取模块41具体可用于获取用户在聊天系统中输入的自然语言文本;进一步地,该装置40可以用于根据该分类结果确定该用户的聊天意图。例如,用户在与某个电子商城的聊天系统中进行客服咨询时,可以获取用户输入的文本,并将文本进行分类,以得到用户的聊天意图。比如是用户需要退货或者是需要咨询最新产品,便于该电子系统针对该用户选择更适合的人工客服。或者是在某个问答社区中,用户输入他的问题,服务器获取用户输入的自然语音文本,并将文本进行分类,得到用户问题的类别,以便了解该类别的其它用户对这个问题进行回复。
可选地,该获取模块41还可以用于获取待审核的自然语言文本;进一步地,该装置40可以用于根据该分类结果确定该自然语言文本是否符合网络发布条件;在该自然语言文本符合该网络发布条件的情况下,将该自然语言文本发布到对应该分类结果的栏目下。例如,用户在某个社交软件中发布一段文本,服务器获取用户提交的该文本,并对该文本进行分类,若该文本类别表征此文本为诈骗信息或恐怖主义信息,则拒绝此文本发布,若该文本类型为一条体育新闻,则发布至体育新闻栏目中,以便关注此栏目的用户可以看到此文本。
在本公开实施例中,将该文本拆分短文本进行特征向量的提取,得到连续的文本特征向量,再将根据短文本提取出的特征向量聚合为全局特征。采用此方案,使得在长文本分类问题中,可以有效的保留每个局部的特征,并且本方案采用的模型数量少,无需使用多个模型对获取的文本进行处理分类,较为轻量,参数量小,训练成本、部署成本低。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述方法实施例该方法的步骤。
本公开一示例性实施例还提供一种电子设备,该电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行该存储器中的该计算机程序,以实现上述方法实施例该方法的步骤。
图5是根据一示例性实施例示出的上述电子设备的一种结构框图。如图5所示,该电子设备50可以包括:处理器51,存储器52。该电子设备50还可以包括多媒体组件53,输入/输出(I/O)接口54,以及通信组件55中的一者或多者。
其中,处理器51用于控制该电子设备50的整体操作,以完成上述的文本分类方法中的全部或部分步骤。存储器52用于存储各种类型的数据以支持在该电子设备50的操作,这些数据例如可以包括用于在该电子设备50上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器52可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件53可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器52或通过通信组件55发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口54为处理器51和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件55用于该电子设备50与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件55可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备50可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文本分类方法。
上述实施例提供的计算机可读存储介质可以为上述包括程序指令的存储器52,上述程序指令可由电子设备50的处理器51执行以完成上述的文本分类方法。
图6是根据一示例性实施例示出的上述电子设备的另一种结构框图。例如,电子设备60可以被提供为一服务器。参照图6,电子设备60包括处理器61,其数量可以为一个或多个,以及存储器62,用于存储可由处理器61执行的计算机程序。存储器62中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器61可以被配置为执行该计算机程序,以执行上述的文本分类方法。
另外,电子设备60还可以包括电源组件63和通信组件64,该电源组件63可以被配置为执行电子设备60的电源管理,该通信组件64可以被配置为实现电子设备60的通信,例如,有线或无线通信。此外,该电子设备60还可以包括输入/输出(I/O)接口65。电子设备60可以操作基于存储在存储器62的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
上述实施例提供的计算机可读存储介质可以为上述包括程序指令的存储器62,上述程序指令可由电子设备60的处理器61执行以完成上述的文本分类方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文本分类方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (9)

1.一种文本分类方法,其特征在于,包括:
获取自然语言文本;
将所述自然语言文本划分为连续的多个文本片段;
根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应;
以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量;
根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果;所述以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量,包括:
将每一所述局部特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到所述NeXtVlad模型输出的表征视频全局特征的向量,并将该向量作为所述自然语言文本的全局特征向量。
2.根据权利要求1所述的方法,其特征在于,所述将所述自然语言文本划分为连续的多个文本片段,包括:
根据所述自然语言文本的文本长度,确定对所述自然语言文本的目标划分方式;
根据所述目标划分方式将所述自然语言文本划分为连续的多个文本片段;
其中,所述目标划分方式包括按短句进行划分、按长句进行划分、按段落进行划分中的一者或多者。
3.根据权利要求1所述的方法,其特征在于,所述将所述自然语言文本划分为连续的多个文本片段,包括:
分别按照不同的粒度对所述自然语言文本进行划分,得到每一种粒度下划分得到的连续的多个文本片段。
4.根据权利要求1-3任一项所述的方法,其特征在于,通过文本分类模型执行所述将所述自然语言文本划分为连续的多个文本片段,以得到所述分类结果的步骤;
其中,所述分类模型包括:数据处理层,与所述数据处理层连接的特征表征层,与所述特征表征层连接的特征聚合层,以及与所述特征聚合层连接的分类器层;
所述分类模型是基于带分类标签的自然语言文本作为训练样本,对所述特征聚合层的参数以及所述分类器层的参数进行训练得到的。
5.根据权利要求4所述的方法,其特征在于,所述获取自然语言文本,包括:
获取用户在聊天系统中输入的自然语言文本;
所述方法还包括:
根据所述分类结果确定所述用户的聊天意图。
6.根据权利要求4所述的方法,其特征在于,所述获取自然语言文本,包括:
获取待审核的自然语言文本;
所述方法还包括:
根据所述分类结果确定所述自然语言文本是否符合网络发布条件;
在所述自然语言文本符合所述网络发布条件的情况下,将所述自然语言文本发布到对应所述分类结果的栏目下。
7.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取自然语言文本;
划分模块,用于将所述自然语言文本划分为连续的多个文本片段;
生成模块,用于根据连续的所述多个文本片段生成连续的多个特征向量,其中,所述多个文本片段与所述多个特征向量一一对应;
聚合模块,用于以所述特征向量为所述自然语言文本的局部特征向量,对各个所述局部特征向量进行聚合,得到所述自然语言文本的全局特征向量;
分类模块,用于根据所述全局特征向量对所述自然语言文本进行分类,得到分类结果;
所述聚合模块,用于将每一所述局部特征向量类比为图像帧的局部特征向量输入图像特征提取NeXtVlad模型,得到所述NeXtVlad模型输出的表征视频全局特征的向量,并将该向量作为所述自然语言文本的全局特征向量。
8.一种电子设备,其特征在于,所述电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
CN202010739426.4A 2020-07-28 2020-07-28 文本分类方法及装置、电子设备及计算机可读存储介质 Active CN112000803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010739426.4A CN112000803B (zh) 2020-07-28 2020-07-28 文本分类方法及装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010739426.4A CN112000803B (zh) 2020-07-28 2020-07-28 文本分类方法及装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112000803A CN112000803A (zh) 2020-11-27
CN112000803B true CN112000803B (zh) 2024-05-14

Family

ID=73462397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010739426.4A Active CN112000803B (zh) 2020-07-28 2020-07-28 文本分类方法及装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112000803B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590813B (zh) * 2021-01-20 2024-08-06 广州腾讯科技有限公司 文本分类方法、推荐方法、装置及电子设备
CN112836049B (zh) * 2021-01-28 2023-04-07 杭州网易智企科技有限公司 一种文本分类方法、装置、介质和计算设备
CN113886573B (zh) * 2021-08-25 2025-03-18 北京奇艺世纪科技有限公司 文本审核方法、装置、电子设备及存储介质
CN113850386B (zh) * 2021-10-28 2025-02-07 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184016A1 (en) * 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LSTM-CNN的中文短文本分类模型;杜雪嫣;王秋实;王斌君;;江苏警官学院学报(01);全文 *
基于多头注意力机制的人物关系抽取方法;夏鹤珑;严丹丹;;成都工业学院学报(01);全文 *

Also Published As

Publication number Publication date
CN112000803A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000803B (zh) 文本分类方法及装置、电子设备及计算机可读存储介质
US12223969B2 (en) Training method and device for audio separation network, audio separation method and device, and medium
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
CN109711548B (zh) 超参数的选取方法、使用方法、装置及电子设备
KR102694722B1 (ko) 영화 성공-지수의 예측
EP3885966B1 (en) Method and device for generating natural language description information
CN110489578B (zh) 图片处理方法、装置及计算机设备
KR102264234B1 (ko) 문서 분류에 있어서 기여도가 높은 단어 및 문장을 제공하는 설명이 부가된 문서 분류 방법
CN110222649B (zh) 视频分类方法、装置、电子设备及存储介质
WO2020160252A1 (en) Task-aware neural network architecture search
CN109740167B (zh) 用于生成信息的方法和装置
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN117332090B (zh) 一种敏感信息识别方法、装置、设备和存储介质
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN111274473A (zh) 基于人工智能的推荐模型的训练方法、装置及存储介质
US12322160B2 (en) Image classification model training method and apparatus, computer device, and storage medium
CN113590772A (zh) 异常评分的检测方法、装置、设备及计算机可读存储介质
CN110245310B (zh) 一种对象的行为分析方法、装置及存储介质
CN107291774B (zh) 错误样本识别方法和装置
US20240249712A1 (en) Method for training voice conversion model, electronic device, and storage medium
JP6680663B2 (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
CN112287096B (zh) 一种文档摘要的生成方法、装置及电子设备
CN116827894B (zh) 广播剧用户评论信息发送方法、装置、设备和介质
CN110933504A (zh) 视频推荐方法、装置、服务器和存储介质
CN113190154B (zh) 模型训练、词条分类方法、装置、设备、存储介质及程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant