[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114048314A - 一种自然语言隐写分析方法 - Google Patents

一种自然语言隐写分析方法 Download PDF

Info

Publication number
CN114048314A
CN114048314A CN202111330766.2A CN202111330766A CN114048314A CN 114048314 A CN114048314 A CN 114048314A CN 202111330766 A CN202111330766 A CN 202111330766A CN 114048314 A CN114048314 A CN 114048314A
Authority
CN
China
Prior art keywords
text
word
node
nodes
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111330766.2A
Other languages
English (en)
Other versions
CN114048314B (zh
Inventor
向凌云
刘宇航
欧成富
游卉擎
杨双辉
王蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202111330766.2A priority Critical patent/CN114048314B/zh
Publication of CN114048314A publication Critical patent/CN114048314A/zh
Application granted granted Critical
Publication of CN114048314B publication Critical patent/CN114048314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言隐写分析方法,包括以下步骤:步骤1.利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2.获取初始文本节点特征和初始单词节点特征;步骤3.基于图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4.将得到的最终待分析文本节点表示向量输入训练好的联合分类器,实现对隐写文本、正常生成文本和正常自然文本的判定。

Description

一种自然语言隐写分析方法
技术领域
本发明涉及文本隐写分析和自然语言处理领域,尤其涉及一种基于BERT和图注意力神经网络的自然语言隐写分析方法。
背景技术
隐写术是一种将秘密信息嵌入公共载体中(如图像、文本、音频等),使其不被察觉,以达到隐藏秘密信息目的的安全技术。文本作为人们日常生活中最常见且使用最频繁的信息载体,利用其来进行信息隐藏有着十分重要的意义。因此,文本隐写术引起了研究者的广泛关注。近年来,随着深度学习在自然语言处理中的高速发展,一系列如机器翻译、对话系统等文本生成相关的研究取得了重大的进步。在此基础上,使程序能够自动生成质量高且携带秘密信息的文本的生成式文本隐写术成为了一个研究热点。生成式文本隐写术与传统隐写方法不同的是,它能够在携带秘密信息的同时生成高质量、具有可读性的文本内容,不需要像传统隐写方法一样对给定的文本进行修改,以嵌入秘密信息。
隐写分析是以检测目标文本中是否隐藏秘密信息为目的的技术。早期的隐写分析方法主要从目标文本中提取人工设计的特征,如词频、上下文相似度等。然而,这些方法只能针对使用特定隐写术生成的隐写文本,对于基于深度学习的生成式隐写术生成的隐写文本,由于其与自然文本高度相似,文本质量有大幅度提升,传统隐写分析方法不能起到有效的作用。目前,关于生成式隐写文本的隐写分析研究大多都是将隐写文本的检测看做隐写文本和正常生成文本(未嵌入秘密信息的生成文本)的二分类问题,或是隐写文本和正常自然文本(正常的人工书写的文本)的二分类问题。未有过将三类文本组合在一起进行隐写分析的研究。但现实生活中,含有秘密信息的隐写文本、正常的自然文本和用于某些特殊场景自动生成的未含有秘密信息的文本是共存的,因此,从正常自然文本和正常生成文本中识别出来生成式隐写文本更有应用价值。
为此,本发明提出了一种自然语言隐写分析方法,不仅能够准确地识别隐写文本、正常生成文本和正常自然文本,且提高了隐写文本的检测性能。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种自然语言隐写分析方法,包括以下步骤:步骤1.利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2.获取初始文本节点和单词节点特征;步骤3.基于图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4.将得到的最终待分析文本节点表示向量输入到训练好的联合分类器,实现对隐写文本、正常生成文本和正常自然文本的判定。
所述的自然语言隐写分析方法,其中步骤1包括:针对数据集中所有有标签和无标签文本,构建一个包括有大量文本节点和单词节点的大型异构文本图,其中,每个文本节点代表一个文本,所述文本包括待分析文本,隐写文本、正常生成文本和正常自然文本;每个单词节点代表一个单词,所述单词是从上述文本中拆分出的所有单词中去重后得到的单词;所述构造的文本图用公式1表示如下:g=(ν,ε),其中v表示文本图中的节点,ε表示文本图中的边;v包括所有文本节点
Figure BDA0003348750470000031
ndoc为数据集中文本数量,其中包括待分析文本、隐写文本、正常生成文本和正常自然文本;和单词节点
Figure BDA0003348750470000032
nword表示数据集中单词数量(去重),即ν=T∪W;边的集合ε表示所有节点包括单词节点与文本节点之间的关系,当单词与文本之间的关联度高,则为该单词节点与文本节点之间构建一条边,否则二者之间不构建边;当单词节点与单词节点之间单词对相关度高,则两个单词节点之间构建一条边,否则二者之间不构建边;文本节点与文本节点之间均不构建边。
所述的自然语言隐写分析方法,其中步骤1还包括计算单词与文本的关联度,单词wi和文本tj的关联度计算方法如下:
Figure BDA0003348750470000033
其中假设文本tj有s个单词,cos()为余弦相似度函数,tfidf()为TF-IDF函数,xi为利用词的分布式表示模型Glove获得的单词wi的词向量;
对计算出来的关联度F(wi,tj)与一个设定的阈值δ进行比较:
Figure BDA0003348750470000041
即,如果F(wi,tj)高于阈值δ则构建文本节点tj与单词节点wi之间的边,否则,两者之间不构建边。
所述的自然语言隐写分析方法,其中步骤1还包括计算单词与单词之间的单词对相关度,单词wi和单词wj的单词对相关度计算方法如下:
Figure BDA0003348750470000042
将单词对相关度的值归一化到-1和1之间为:
Figure BDA0003348750470000043
其中p(wi,wj)是指在固定大小的上下文距离内,数据集中单词wi和单词wj同时出现的概率,p(wi)是指单词wi在数据集中出现的概率,这些概率计算如下:
p(wi,wj)=Count(wi,wj)/Counttotal
p(wi)=Count(wi)/Counttotal
其中Count(wi,wj)指在固定大小的上下文距离内,单词wi和单词wj在数据集中同时出现的次数;Count(wi)指单词wi在数据集中出现的总次数,Counttotal指数据集中单词总数;
根据单词之间的相关度可确定单词节点之间是否构建边,设定一个阈值β:
Figure BDA0003348750470000051
即,当G(wi,wj)大于β时,表示单词对相关度高,为单词对构建边;当G(wi,wj)小于等于β时表示相关度低,不为单词对构建边。
所述的自然语言隐写分析方法,其中步骤2包括:为文本节点构建初始节点特征:将每个文本节点的文本内容即所有单词和标点符号输入到BERT模型中,得到的模型输出向量即为该文本节点的初始节点表示;将每个单词节点的单词利用词分布式表示模型Glove得到该单词的词向量,作为该单词节点的初始节点表示;
文本图中的节点数N为数据集中文本的数量加上单词的数量,即N=ndoc+nword,其中ndoc是文本节点数,nword是单词节点数,使用矩阵X作为节点的初始特征矩阵,文本节点特征矩阵和单词节点特征矩阵分别用矩阵
Figure BDA0003348750470000052
表示,d为向量的维度,模型的初始节点特征矩阵为:
Figure BDA0003348750470000053
其中Xdoc表示基于BERT的初始文本节点特征矩阵,Xword表示基于Glove的初始单词节点特征矩阵。
所述的自然语言隐写分析方法,其中步骤3包括:
步骤3.1将X输入图注意力神经网络模型,由注意力机制计算注意力权重作为节点之间的边权值:给定一个特定节点i及其相邻节点j,其中i,j∈N,根据节点表示向量xi
Figure BDA0003348750470000054
和xj来计算注意力权重;
首先计算节点j对于节点i的重要性:
eij=LeakyReLU(aT[Wxi||Wxj])
LeakyReLU是激活函数,以提供非线性。W是在每个节点上应用的线性变换权重矩阵,
Figure BDA0003348750470000061
为权重向量。
然后使用softmax函数对中心节点i的邻居节点进行归一化,得到节点j到节点i的注意力权重αij如下:
Figure BDA0003348750470000062
其中Ni表示节点i的邻居节点集合;
步骤3.2对于每一个节点,使用M层图注意力神经网络模型通过边权值聚合相邻节点信息,提取隐写分析特征,得到节点的输出特征,更新节点表示;其中第m层(m∈[1,M])图注意力层利用多头注意力机制稳定学习过程,计算节点的输出特征如下:
Figure BDA0003348750470000063
其中σ是激活函数,
Figure BDA0003348750470000064
是第k个注意力头归一化的注意力权重,W为权重矩阵,Ni表示节点i的邻居节点集合,K表示使用的独立注意力头的数量,||表示拼接运算;
在第M层,为了使得结果更加稳定,不再将每个注意力头的向量拼接,而是选择取平均值:
Figure BDA0003348750470000065
所述的自然语言隐写分析方法,其中步骤4包括:经过M层图注意力神经网络模型后,得到文本节点的表示向量xM,所有文本节点经过M层图注意力神经网络模型后,得到最后的文本节点特征矩阵
Figure BDA0003348750470000071
然后将文本节点特征矩阵
Figure BDA0003348750470000072
送入softmax层,其公式表示为:
Figure BDA0003348750470000073
其中每一个文本节点表示向量xM经过softmax层后得到一个3维向量表示三种类别文本概率值。
所述的自然语言隐写分析方法,其中步骤4还包括:构造一个基于BERT文本表示的辅助分类器,直接作用于图注意力神经网络模型的部分输入即文本节点初始特征Xdoc,该向量为利用BERT模型运算获得,辅助分类器的公式表示为:
ZBERT=softmax(WXdoc)
其中每一个初始文本节点表示向量x(x∈Xdoc)经过softmax层后得到一个3维向量表示三种类别文本概率值;
设置一个参数η,η=1时,表示只使用图注意力神经网络模型的分类器ZGAT,η=0时,表示只使用了基于BERT的辅助分类器ZBERT
对来自图注意力神经网络模型的预测和基于BERT文本表示的辅助分类器的预测进行线性插值,得到最终的联合分类器,其表达式为:
Z=ηZGAT+(1-η)ZBERT
Z为最终计算所获得的所有文本节点的概率分布矩阵,每一个文本节点的概率分布为一个3维向量,表示三种文本类别的概率分布。
所述的自然语言隐写分析方法,其中在模型训练过程中,使用反向传播算法更新模型参数,使用标准的交叉熵损失函数作为损失函数,利用有标签文本的标签通过模型的迭代优化最小化损失函数,从而联合优化BERT模型和图注意力神经网络模型的参数,得到最优模型,在形式上表示为:
Figure BDA0003348750470000081
其中Nlabel为有标签文本节点索引,t为有标签文本节点的类别数量;Y是实际标签,也就是说如果第f个有标签文本节点的类别为i,则Yfi=1,否则Yfi=0;Zfi是第f个有标签文本节点经过模型计算后得到的输出,也就是指类别为i的概率;
训练完成获得最优模型后,待分析文本通过最优模型分类,实现对隐写文本、正常生成文本和正常自然文本的判定。
附图说明
图1为自然语言隐写分析方法流程示意图;
图2为自然语言隐写分析方法框架示意图。
具体实施方式
下面结合附图1-2对本发明的具体实施方式进行详细说明。
如图1-2所示,本发明的自然语言隐写分析方法包括:步骤1,利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2,获取初始文本节点特征和初始单词节点特征;步骤3,通过图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4,得到最终待分析文本节点表示向量后,输入构建好的基于图注意力神经网络分类器,并联合基于BERT文本表示的辅助分类器联合预测分类,实现隐写文本、正常生成文本和正常自然文本的最终判定。
步骤1:将数据集构建为一个以文本和单词为节点的异构图
数据集包括所有待分析文本(测试集,文本无标签)、隐写文本、正常生成文本和正常自然文本(隐写文本、正常生成文本和正常自然文本加起来构成训练集,每个文本带有类别标签)。
本方法首先构建一个包括有大量文本节点和单词节点的大型异构文本图。以往的构图方法仅仅是对单个文本,使用单个文本内的单词构建图,这种构图方法能够通过将目标单词与目标单词上下文不同距离的单词连边,考虑的是不相邻词之间的关系,但是这就忽略了全局词共现信息以及不同文本之间的信息。而隐写文本生成过程造成隐写文本与正常生成文本、正常自然文本存在的差异,通常是全局的,而不仅仅是局部的不同。因此,为了能自动学习到深度的局部和全局的特征以敏感地感知到隐写文本、正常生成文本和正常自然文本在统计上和语言上的区别,本专利将整个数据集构建为一个以文本和单词为节点的大型异构文本图,以更好的聚合全局信息以及文本信息。
本专利将每个文本表示为一个文本节点,所述文本包括待分析文本,隐写文本,正常生成文本和正常自然文本,本专利将数据集中这四类文本作为文本节点来构图,采用直推式学习(Transductive learning)方法训练模型,从而在训练时用到了未标注类别的待分析文本所含有的信息,且训练时用到了全局的图信息,更有助于节点表示学习过程,使模型获得更高的性能;每个单词节点代表一个单词,所述单词是从上述文本中拆分出的所有单词中去重后得到的单词。
如图2所示,本方法利用数据集中所有的文本和单词来构造全局文本图,可表示为:g=(ν,ε),其中v表示文本图中的节点,ε表示文本图中的边;v包括所有文本节点
Figure BDA0003348750470000101
ndoc为数据集中文本数量,其中包括待分析(无标签)文本、隐写文本、正常生成文本和正常自然文本;和单词节点
Figure BDA0003348750470000102
nword表示数据集中单词数量(去重),即ν=T∪W。边的集合ε表示所有节点包括单词节点与文本节点之间的关系。由于ndoc和nword均较大,如果节点之间均进行连线则会导致文本图非常的庞大,因此,本方法考虑到文本与文本之间的独立性,文本节点与文本节点之间均不存在边;而文本节点和单词节点之间则考虑单词与文本之间的关联度来确定是否构边;而单词与单词节点之间则考虑单词对的相关度来构边。文本图的构建的具体步骤如下:
(1)计算单词与文本关联度,确定单词节点与文本节点间边的构建
为了明确单词与文本之间的关系,如果单词与文本之间的关联度高,就构建文本与单词之间的边。通过该方式,能够将文本中不重要的单词忽略,减少文本与常见单词的边,保留重要单词的边,能够更好的促进消息的传播,获得更好的文本节点表示。单词wi和文本tj的关联度计算方法如下:
Figure BDA0003348750470000111
其中假设文本tj有s个单词,cos()为余弦相似度函数,tfidf()为TF-IDF函数,xi为利用词分布式表示模型Glove获得的单词wi的词向量。
对计算出来的关联度F(wi,tj)与一个设定的阈值δ进行比较:
Figure BDA0003348750470000112
即,如果F(wi,tj)高于阈值δ则构建文本节点tj与单词节点wi之间的边。
(2)计算单词对相关度,确定单词节点与单词节点间边的构建
为了进一步丰富文本的信息,促进消息的传播,更好的获得全局信息,同时考虑对单词对之间的边进行限制,否则随着数据集规模的增大,覆盖单词节点的子图将趋近于全连接,因此,本专利考虑通过衡量单词对之间的相关度来确定单词节点与单词节点是否构建边。单词wi和单词wj的单词对相关度计算方法如下:
Figure BDA0003348750470000113
为了更好的表示,我们将单词对相关度的值归一化到-1和1之间为:
Figure BDA0003348750470000121
其中p(wi,wj)是指在固定大小的上下文距离内,数据集中单词wi和单词wj同时出现的概率,p(wi)是指单词wi在数据集中出现的概率,这些概率计算如下:
p(wi,wj)=Count(wi,wj)/Counttotal
p(wi)=Count(wi)/Counttotal
其中Count(wi,wj)指在固定大小的上下文距离内,单词wi和单词wj在数据集中同时出现的次数;Count(wi)指单词wi在数据集中出现的总次数,Counttotal指数据集中单词总数。
根据单词之间的相关度可确定单词节点之间是否构建边,设定一个阈值β:
Figure BDA0003348750470000122
即,当G(wi,wj)大于β时,表示单词对相关度高,为单词对构建边;当G(wi,wj)小于等于β时表示相关度低,不为单词对构建边。
步骤二:获取初始文本节点特征和初始单词节点特征
基于步骤一构图方法的表述,构图完成,需要获得所有节点的初始节点特征,在本专利中,使用BERT模型生成的文本表示向量作为初始文本节点特征,将每个单词节点的单词利用词分布式表示模型Glove得到该单词的词向量,作为该单词节点的初始节点特征。
(1)基于Glove的单词表示
与只考虑词局部信息的Word2vec相比,词分布式表示模型Glove利用共现矩阵同时考虑了整个语料库的局部信息和整体信息,能更准确地表示词语的语法和语义信息,因此本专利采用Glove模型来获取词典中每个单词的词向量。因此,本专利所构建文本图中单词节点特征表示初始化为基于Glove的词向量,所有单词节点初始化的特征矩阵表示为
Figure BDA0003348750470000131
(2)基于BERT的文本表示
文本图中每个文本节点的文本内容(即所有单词和标点符号)将输入到一个预训练好的BERT模型,通过BERT模型的运算,得到文本节点的向量表示。BERT模型是基于Transfomer编码器并采用掩码方式来训练的一种预训练模型。BERT的Transfomer编码器的输入涉及三种不同的向量:1)文本内容中各个词的原始词向量。本专利随机初始化该向量,所有词的词向量构成的矩阵记为Eword;2)文本向量。每个单词的文本向量的维度与词向量一致,其取值通过训练自动学习到。所有词的文本向量构成的矩阵记为Esegment;3)位置向量。为了将文本的顺序信息编码进来,每个单词根据在文本中位置的不同学习一个位置向量。所有词的位置向量构成的矩阵记为Eposition。最后,BERT的输入为三个向量的和:
xinput=Eword+Esegment+Eposition
xinput作为BERT模型的输入后,经过模型的运算将获得融合了文本节点中文本内容语义信息的向量表示,表示为xbert=BERT(xinput)。为了使获得的文本表示能够更好的契合自然语言隐写分析任务,本专利对预训练BERT模型进行了微调。最终通过BERT获得的文本表示向量作为文本节点的初始特征。因此,所构建文本图中所有文本节点所对应的初始特征矩阵为
Figure BDA0003348750470000141
综上所述,包括所有文本节点和单词节点的初始特征矩阵为:
Figure BDA0003348750470000142
其中,Xdoc表示基于BERT的初始文本节点特征矩阵,Xword表示基于Glove的初始单词节点特征矩阵。
步骤三:节点表示向量更新
基于步骤二获得所有节点的初始特征矩阵后,利用图注意力神经网络中的注意力机制计算文本图中目标节点及其相邻节点的注意力权重作为节点与节点之间的边权值,目标节点再通过边权值聚合相邻节点信息,更新节点表示。
(1)基于注意力机制的边权值计算
将文本图的节点特征矩阵X、数据集中所有文本的ID值、所有单词的ID值输入图注意力神经网络模型,由注意力机制计算注意力权重作为节点与节点之间的边权值,注意力机制可以帮助节点捕获相邻节点的不同重要性,这对于隐写分析任务来说有着重要的意义。给定一个目标节点i及其相邻节点j(相邻节点是指与节点i之间有边的节点j),其中i,j∈N,首先计算节点j对于节点i的重要性如下:
eij=LeakyReLU(aT[Wxi||Wxj])
LeakyReLU是激活函数,以提供非线性。W是在每个节点上应用的线性变换权重矩阵,
Figure BDA0003348750470000151
为权重向量。然后使用softmax函数对中心节点i的邻居节点进行归一化,得到节点j到节点i的注意力权重αij如下:
Figure BDA0003348750470000152
(2)基于边权值更新节点表示
对于每一个节点,将使用M层图注意力神经网络模型通过边权值聚合相邻节点信息,提取隐写分析特征,得到节点的输出特征,更新节点表示向量。其中第m层(m∈[1,M])图注意力层利用多头注意力机制稳定学习过程,计算节点的输出特征如下:
Figure BDA0003348750470000153
其中σ是激活函数,
Figure BDA0003348750470000154
是第k个注意力头归一化的注意力权重,W为权重矩阵,Ni表示节点i的邻居节点集合,K表示使用的独立注意力头的数量,||表示拼接运算。
在第M层,为了使得结果更加稳定,本专利不再将每个注意力头的向量拼接,而是选择取平均值:
Figure BDA0003348750470000155
步骤四:联合预测与分类
经过M层图注意力神经网络模型后,可以得到最终文本节点的表示向量xM,所有文本节点经过M层图注意力神经网络模型后,得到最后的文本节点特征矩阵
Figure BDA0003348750470000161
然后将文本节点特征矩阵
Figure BDA0003348750470000162
送入softmax层,其公式表示为:
Figure BDA0003348750470000163
其中每一个文本节点表示向量xM经过softmax层后得到一个3维向量表示三种类别文本概率值。
优选的,为了对图注意力神经网络模型进行优化,提高其性能,本发明还基于BERT文本表示构造了一个辅助分类器,直接作用于图注意力神经网络模型的部分输入即初始文本节点特征矩阵Xdoc,辅助分类器的公式表示为:
ZBERT=softmax(WXdoc)
其中W表示可训练的权重矩阵,每一个初始文本节点表示向量x(x∈Xdoc)经过softmax层后得到一个3维向量,用于表示三种类别文本概率值。
为了平衡辅助分类器与图注意力神经网络模型,设置一个参数η来控制两个目标之间的平衡,η=1时,表示只使用图注意力神经网络模型,η=0时,表示只使用了基于BERT的辅助分类器模块。当η∈(0,1)时,就可以平衡两个模型的预测值,更好的优化本方法。因此本专利的训练目标是对来自图注意力神经网络模型的预测和辅助分类器的预测进行线性插值,得到最终的联合分类器,其表达式为:
Z=ηZGAT+(1-η)ZBERT
Z为最终计算所获得的所有文本节点的概率分布矩阵,每一个文本节点的概率分布为一个3维向量,表示三种文本类别的概率分布。例如,当某一文本节点判断为隐写文本的概率值为0.6,判断为正常生成文本的概率值为0.3,判断为正常自然文本的概率值为0.1,则此文本节点概率分布为z=(0.6,0.3,0.1)。
BERT模型和图神经网络模型的所有参数,都需要通过训练获得。本发明实施遵循有监督学习框架,使用反向传播算法更新模型参数,使用标准的交叉熵损失函数作为损失函数,利用有标签文本的标签通过模型的迭代优化最小化损失函数,从而联合优化BERT模型和图注意力神经网络模型的参数,得到最优模型。在形式上表示为:
Figure BDA0003348750470000171
其中Nlabel为有标签文本节点索引,t为有标签文本节点的类别数量;Y是实际标签,也就是说如果第f个有标签文本节点的类别为i,则Yfi=1,否则Yfi=0;Zfi是第f个有标签文本节点经过模型计算后得到的输出,也就是指类别为i的概率。
训练完成获得最优模型后,待分析文本通过最优模型分类,实现对隐写文本、正常生成文本和正常自然文本的判定:
Zno-label=ηZGAT+(1-η)ZBERT
Zno-label为最终计算所获得的所有待分析文本节点的概率分布矩阵,每一个文本节点的概率分布为一个3维向量,表示三种文本类别的概率分布,此时哪一类别概率值最大,则该待分析文本被模型预测为概率值最大的哪一类别。例如,当某一待分析文本节点判断为隐写文本的概率值为0.8,判断为正常生成文本的概率值为0.15,判断为正常自然文本的概率值为0.05,则此待分析文本节点被预测为隐写文本。
本发明通过上述四个步骤,将数据集构建为一个以文本和单词为节点的大型异构文本图。通过分布式词表示模型Glove获得单词词向量作为初始单词节点特征,通过大规模预训练模型BERT获得具有丰富语义信息和局部信息的文本向量作为初始文本节点特征。然后利用图注意力神经网络,为文本节点聚合相邻节点信息,获得蕴含丰富隐写分析信息特征的文本节点表示向量,其中图注意力神经网络的注意力机制为每个节点及其相邻节点计算注意力权重作为节点之间的边权值,可以为文本节点获取相邻节点的不同重要性,进而有选择的聚合更重要相邻节点的信息,从而提高了隐写文本的检测准确度。

Claims (2)

1.一种自然语言隐写分析方法,其特征在于包括以下步骤:步骤1.利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2.获取初始文本节点和单词节点特征;步骤3.基于图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4.将得到的最终待分析文本节点表示向量输入到训练好的联合分类器,实现对隐写文本、正常生成文本和正常自然文本的判定。
2.根据权利要求1所述的自然语言隐写分析方法,其特征在于步骤1包括:针对数据集中所有有标签和无标签文本,构建一个包括有大量文本节点和单词节点的大型异构文本图,其中,每个文本节点代表一个文本。
CN202111330766.2A 2021-11-11 2021-11-11 一种自然语言隐写分析方法 Active CN114048314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111330766.2A CN114048314B (zh) 2021-11-11 2021-11-11 一种自然语言隐写分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111330766.2A CN114048314B (zh) 2021-11-11 2021-11-11 一种自然语言隐写分析方法

Publications (2)

Publication Number Publication Date
CN114048314A true CN114048314A (zh) 2022-02-15
CN114048314B CN114048314B (zh) 2024-08-13

Family

ID=80208770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111330766.2A Active CN114048314B (zh) 2021-11-11 2021-11-11 一种自然语言隐写分析方法

Country Status (1)

Country Link
CN (1) CN114048314B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169293A (zh) * 2022-09-02 2022-10-11 南京信息工程大学 一种文本隐写分析方法、系统、装置及存储介质
CN117648681A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种ofd版式电子文档隐藏信息提取嵌入方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151622A (zh) * 2005-01-26 2008-03-26 新泽西理工学院 用于隐写分析的系统和方法
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
US10755171B1 (en) * 2016-07-06 2020-08-25 Google Llc Hiding and detecting information using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151622A (zh) * 2005-01-26 2008-03-26 新泽西理工学院 用于隐写分析的系统和方法
US10755171B1 (en) * 2016-07-06 2020-08-25 Google Llc Hiding and detecting information using neural networks
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUXIAO LIN, YUXIAN MENG等: "BertGCN: Transductive Text Classification by Combining GCN and BERT", 《FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: ACL-IJCNLP 2021》, 6 August 2021 (2021-08-06), pages 1456 *
喻靖民;向凌云;曾道建: "基于Word2vec的自然语言隐写分析方法", 《计算机工程》, vol. 45, no. 3, 29 March 2018 (2018-03-29) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169293A (zh) * 2022-09-02 2022-10-11 南京信息工程大学 一种文本隐写分析方法、系统、装置及存储介质
CN117648681A (zh) * 2024-01-30 2024-03-05 北京点聚信息技术有限公司 一种ofd版式电子文档隐藏信息提取嵌入方法
CN117648681B (zh) * 2024-01-30 2024-04-05 北京点聚信息技术有限公司 一种ofd版式电子文档隐藏信息提取嵌入方法

Also Published As

Publication number Publication date
CN114048314B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111461157A (zh) 一种基于自学习的跨模态哈希检索方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114048314B (zh) 一种自然语言隐写分析方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN114491024A (zh) 一种基于小样本的特定领域多标签文本分类方法
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN115795037B (zh) 一种基于标签感知的多标签文本分类方法
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN117421420A (zh) 一种基于软提示学习的中文点击诱饵检测方法
CN116680407A (zh) 一种知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant