CN114398480B

CN114398480B - 基于关键信息抽取的金融舆情细分方面检测方法和设备

Info

Publication number: CN114398480B
Application number: CN202111425815.0A
Authority: CN
Inventors: 王进; 周阳; 陈怡雯; 杜雨露; 方阳
Original assignee: Guoxin Smart Technology Beijing Co ltd
Current assignee: Guoxin Smart Technology Beijing Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2024-10-15
Anticipated expiration: 2041-11-26
Also published as: CN114398480A

Abstract

本发明涉及大数据人工智能技术领域，公开了一种基于关键信息抽取的金融舆情细分方面检测方法和设备，步骤包括对金融文本数据和金融舆情标签描述集合进行预处理；对金融文本片段句和金融舆情标签句进行编码，得到片段句表征；对金融文本片段句和金融舆情标签描述集合进行相似度表征，再进行分类训练，得到关键信息句抽取分类辅助模型；利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度，并选取标签关键句；构建标签关键句组合输入金融文本，进行细分舆情分类。本发明通过标签描述和片段句建立关键信息句抽取辅助模型，然后抽取关键信息句，构建预训练模型输入，从而有效提升金融舆情细分方面检测的准确率。

Description

基于关键信息抽取的金融舆情细分方面检测方法和设备

技术领域

本发明涉及大数据人工智能技术领域，尤其涉及一种基于关键信息抽取的金融舆情细分方面检测方法。

背景技术

随着互联网的快速发展，每天互联网上会产生大量的资讯信息，但这些资讯信息中含有大量的虚假、诈骗等对社会公众有误导的信息，所以对互联网上的大量文本进行舆情监测，对社会环境监护特别重要；尤其是在金融领域，各种金融文本舆情反应了投资者、金融从业者的情绪，从而会影响决策者的行为，通过对金融文本进行金融舆情细分方面检测，有助于了解金融市场发展趋势，推动金融市场良好发展。金融舆情细分方面检测，指判别金融舆情文本包含哪些方面的舆情信息(如借贷、逾期、诈骗等)，每一个舆情方面有对应的标签描述，需要判别出文本是否包含某一个舆情方面的信息。

金融舆情细分方面检测本质上是一个多标签分类问题，目前一般的方法主要是从两个方面来优化此类问题，一是如RNN和CNN的选择不同的语义表征结构，以及如BERT的预训练模型；二是选择不同的解码方式，如当作二分类问题或序列解码问题。比如授权公告号为CN103309960B的专利公开了一种网络舆情事件多维信息提取的方法及装置，其方法包括：基于用户搜索行为从搜索日志中提取种子网页，采用所述种子网页构建网络舆情事件初始的主题；依据所述主题按照预设时间段分时获取特征网页；获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据；获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据；分别对比上一预设时间段与当前时间段用户关注度的分析数据，媒体关注度的分析数据以及用户态度的分析数据，获得网络舆情事件的趋势演化信息。

上述的方法虽然可以用以分析舆论事件，提高舆论事件分析的准确度，但是因为互联网上的金融文本层次多样，冗余信息多；目前的方法对于金融文本存在以下问题：1、不能过滤冗余信息，长度过长，无法有效利用预训练模型的优势；2、不能有效利用标签本身语义信息用于分类，从而导致目前的金融舆情细分方面检测方法的检测准确率较低。

发明内容

有鉴于此，本发明的目的是提供一种基于关键信息抽取的金融舆情细分方面检测方法，通过标签描述和片段句建立关键信息句抽取辅助模型，然后抽取关键信息句，构建预训练模型输入，从而有效提升金融舆情细分方面检测的准确率。

本发明通过以下技术手段解决上述技术问题：

一种基于关键信息抽取的金融舆情细分方面检测方法，包括以下步骤，

S1、对金融文本数据和金融舆情标签描述集合进行预处理；

S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码，得到片段句表征；

S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征，再进行分类训练，得到关键信息句抽取分类辅助模型；

S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度，并选取标签关键句；

S5、构建标签关键句组合输入金融文本，进行细分舆情分类。

进一步，所述步骤S1中，在预处理时，对原数据集D的所有金融文本进行划分，将每条金融文本按照中文分隔符分割成句表示，并按连贯概率进行合并，获得最终的片段句。

进一步，所述步骤S1中，合并方式具体为：将当前句和下一句拼接送入预训练BERT模型，根据预训练BERT模型的输出是否是下一句的概率得到语句连贯概率，若概率大于0.8，即大于80％，则拼接当前句和下一句，作为新的片段句，若概率小于等于80％，则将当前句和下一句都当做不同的片段句；再在片段句的句尾添加预定义学习字符[s1]，对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。

进一步，所述步骤S2的具体方法为：

S201、给定输入的一个金融文本q个片段句集合X＝{M₁，M₂，…，M_q}，对每一个片段句M_j＝{w_j1，w_j2，…，w_jn}，送入到循环神经网络中，其中n表示片段句的长度，w_ji表示片段句j第i个位置的字；

S202、取最后一个时间步的输出表示向量为片段句M_j的整体表征，其中R表示实数空间，d表示循环神经网络的隐层维度；

S203、给定标签句描述集合L＝{l₁，l₂，…，l_k},其中k表示标签的数量，l_i表示第i个标签的描述；

S204、对于每一个标签描述l_t，送入到循环神经网络中，取最后一个时间步的输出表示为标签描述l_t的整体表征，其中R表示实数空间，d表示循环神经网络的隐层维度。

进一步，所述步骤S3中，对金融文本片段句和标签描述集合进行相似度表征的具体方法为：对第t个标签描述表征通过分别计算与金融文本q个片段句表征集合的余弦相似度，得到标签t与金融文本的相似度表征其中，R表示实数空间，q表示片段句的数量。

进一步，所述步骤S3中，进行分类训练得到关键信息句抽取分类辅助模型的方法为：将送入全连接层，用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。

进一步，所述步骤S4的具体方法为：在得到关键信息句抽取分类辅助模型后，根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征取前10％的片段句作为关于标签t的新关键文本其中表示前10％的片段句中的第i句，c表示关于标签t的新关键文本的关键句数量。

进一步，所述步骤S5的具体方法为：对于标签t的关键文本构建输入文本T_t，其中表示对于标签t的第i个关键句，w_ij表示第i个关键句的第j个字，u1表示未训练字符，u_t表示标签t的训练字符，cls、sep为BERT预定义标识符；

将T_t送入BERT的词向量编码层后得到其中e_cls，，e_sep为cls,u_t，u1,sep经过BERT词向量编码后的向量；

再用关键信息句抽取分类辅助模型关于片段句的整体表征替换e_u1；后送入BERT模型后进行二分类，即可得到该金融文本是否属于舆情标签t。

本发明还公开了一种基于关键信息抽取的金融舆情细分方面检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明的有益效果：

本发明通过将金融文本分割为片段句，并将标签描述和片段句交互建立关键信息句抽取辅助模型，然后再抽取关键信息句，构建预训练模型输入；整个过程中去除了金融文本的冗余信息，并利用标签与片段句的交互，有效提高了金融舆情方面检测的准确率。

附图说明

图1是本发明基于关键信息抽取的金融舆情细分方面检测方法流程图；

图2是实施例1步骤101中对金融文本数据和金融舆情标签描述集合进行预处理的实施例图；

图3是实施例1步骤102和103中提供的关键信息句抽取分类辅助模型的模型图；

图4是实施例1步骤104中提供的利用关键信息句抽取辅助模型计算文本片段句对标签描述集合重要程度，选取标签关键句的实施例图。

具体实施方式

以下将结合附图对本发明进行详细说明：

实施例1、

本实施例为一种基于关键信息抽取的金融舆情细分方面检测方法，如图1所示，该方法包括：

步骤101、对金融文本数据和金融舆情标签描述集合进行预处理，具体如下：

对于金融文本来讲，文本冗长多变，然而要识别出是否描述关于某类舆情，只与金融文本某些语句相关，首先对金融文本进行预处理划分成片段句，具体的，首先用中文标点符号分割成句，然后把前一句和下一句输入预训练模型BERT中，利用预训练模型的预训练任务输出的是否是下一句概率，若概率大于0.8，即80％，将前一句和下一句进行合并为片段句，以此来组成金融文本的片段句，若概率小于等于80％，则将当前句和下一句都当做不同的片段句，然后再在每个片段句尾添加字符[s1]用于后续获取片段句整体表征,在每一个金融舆情标签描述后添加字符[s2]用于获取标签描述整体表征。

对金融文本数据和金融舆情标签描述集合进行预处理如图2所示，对于一条文本根据中文标点划分有5个句子，然后依次相邻组合输入预训练模型BERT，并获取预训练模型的预训练任务输出的概率，若概率大于80％，将前一句和下一句进行合并为片段句，例中，第一句和第二句合并为新的片段句，第三句和第四句合并为新的片段句，第五句单独为新的片段句，并在片段句后添加[s1]；对于三个标签描述句，直接在句尾添加字符[s2]。

步骤102、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码，得到片段句表征；具体如图3所示，将文本的片段句和标签句通过循环神经网络进行编码，得到片段句表征，本实施例中给定输入的一个文本q个片段句集合X＝{M₁，M₂，…，M_q}，此例q取3，对每一个片段句M_j＝{w_j1，w_j2，…，w_jn}，送入到到循环神经网络中，其中n表示片段句的长度，w_ji表示片段句j第i个位置的字，取最后一个时间步的输出表示向量为片段句M_j的整体表征，其中R表示实数空间，d表示循环神经网络的隐层维度；给定标签句描述集合L＝{l₁，l₂，…，l_k},其中k表示标签的数量，此例中k取3，l_i表示第i个标签的描述，对于每一个标签描述l_t，送入到循环神经网络中，取最后一个时间步的输出表示为标签描述l_t的整体表征，其中R表示实数空间，d表示循环神经网络的隐层维度。

步骤103、对金融文本片段句和金融舆情标签描述集合进行相似度表征，再进行分类训练，得到关键信息句抽取分类辅助模型；

关键信息句抽取分类辅助模型是用于后续计算标签与片段句的相似度进行片段筛选，如图3所示，本实施例是对文本片段句和标签描述集合进行相似度表征，后进行分类训练得到关键信息句抽取分类辅助模型；对于第t个标签描述表征通过分别计算与文本q个片段句表征集合的余弦相似度得到标签t与文本的相似度表征R表示实数空间，q表示片段句的数量；此实施例中对于3个标签和3个片段都会得到对应的相似度特征，后送入全连接层，用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。

步骤104、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度，并选取标签关键句；具体为：

在训练得到关键信息句抽取分类辅助模型后，利用关键信息句抽取辅助模型计算文本片段句对标签描述集合重要程度，选取标签关键句即可排除冗余信息，保留关键信息，本实施例如图4所示，在得到关键信息句抽取分类辅助模型后，根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征取前10％的片段句作为关于标签t的新关键文本,表示为其中表示前10％的片段句中的第i句，c表示关于标签t的新关键文本的关键句数量，在此例中，片段句的数量q和标签的数量都是3。

步骤105、构建标签关键句组合输入金融文本，进行细分舆情分类。

具体为：在得到关键片段句后，构建标签关键句组合输入文本，进行标签文本分类，对于标签t的关键文本：

构建输入文本为

其中表示对于标签t的第i个关键句，w_ij表示第i个关键句的第j个字，u1表示未训练字符，u_t表示标签t的训练字符，cls、sep为BERT预定义标识符；将T送入BERT的词向量编码层后得到：

其中e_cls，e_u1，，e_sep为cls,u_t，u1,sep经过BERT词向量编码后的向量；用关键信息句抽取分类辅助模型关于片段句的整体表征替换e_u1；后送入BERT模型后进行二分类，即可得到该文本是否属于舆情标签t，对于有N个舆情标签描述，模型会输出N个二分类结果分别判断。

实施例2、

本实施例还公开了一种基于关键信息抽取的金融舆情细分方面检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例1方法的步骤。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：包括以下步骤，

S1、对金融文本数据和金融舆情标签描述集合进行预处理，在预处理时，对原数据集D的所有金融文本进行划分，将每条金融文本按照中文分隔符分割成句表示，并按连贯概率进行合并，获得片段句；

S5、构建标签关键句组合输入金融文本，进行细分舆情分类；具体方法为：对于标签t的关键文本构建输入文本，其中表示对于标签的第个关键句，表示第个关键句的第个字，表示未训练字符，表示标签的训练字符，、为BERT预定义标识符；

将送入BERT的词向量编码层后得到其中，，为,，,经过BERT词向量编码后的向量；

再用关键信息句抽取分类辅助模型关于片段句的整体表征替换；后送入BERT模型后进行二分类，即可得到该金融文本是否属于舆情标签。

2.根据权利要求1所述的基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：所述步骤S1中，按连贯概率进行合并的方式具体为，将当前句和下一句拼接送入预训练BERT模型，根据预训练BERT模型的输出是否是下一句的概率，得到语句连贯概率，若概率大于80％，则拼接当前句和下一句，作为新的片段句，若概率小于等于80％，则将当前句和下一句都当做不同的片段句；再在片段句的句尾添加预定义学习字符[s1]，对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。

3.根据权利要求2所述的基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：所述步骤S2的具体方法为，

S201、给定输入的一个金融文本个片段句集合，对每一个片段句，送入到循环神经网络中，其中表示片段句的长度，表示片段句第个位置的字；

S202、取最后一个时间步的输出表示向量为片段句的整体表征，其中R表示实数空间，表示循环神经网络的隐层维度；

S203、给定标签句描述集合,其中k表示标签的数量，表示第个标签的描述；

S204、对于每一个标签描述，送入到循环神经网络中，取最后一个时间步的输出表示为标签描述的整体表征，其中R表示实数空间，表示循环神经网络的隐层维度。

4.根据权利要求3所述的基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：所述步骤S3中，对金融文本片段句和标签描述集合进行相似度表征的具体方法为，对第个标签描述表征通过分别计算与金融文本个片段句表征集合的余弦相似度，得到标签与金融文本的相似度表征其中，R表示实数空间，q表示片段句的数量。

5.根据权利要求4所述的基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：所述步骤S3中，进行分类训练得到关键信息句抽取分类辅助模型的方法为，将送入全连接层，用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。

6.根据权利要求5所述的基于关键信息抽取的金融舆情细分方面检测方法，其特征在于：所述步骤S4的具体方法为：在得到关键信息句抽取分类辅助模型后，根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征取前10％的片段句作为关于标签的新关键文本其中表示前10％的片段句中的第句，表示关于标签的新关键文本的关键句数量。

7.基于关键信息抽取的金融舆情细分方面检测设备，其特征在于：包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任意一种所述方法的步骤。