CN113761895A - 文本摘要的生成方法、装置、电子设备及存储介质 - Google Patents
文本摘要的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113761895A CN113761895A CN202110158416.6A CN202110158416A CN113761895A CN 113761895 A CN113761895 A CN 113761895A CN 202110158416 A CN202110158416 A CN 202110158416A CN 113761895 A CN113761895 A CN 113761895A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- attention
- abstract
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 537
- 238000000605 extraction Methods 0.000 claims abstract description 95
- 238000004458 analytical method Methods 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 abstract description 5
- 230000001939 inductive effect Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 26
- 238000006243 chemical reaction Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本摘要的生成方法、装置、电子设备及存储介质。该方法包括:在获取到目标文本时,基于预先训练出的摘要抽取模型的编码模块确定目标文本的文本语义向量,通过解码模块基于文本语义向量和前一时刻的注意力向量确定当前时刻的摘要词向量,其中,各时刻的注意力向量基于对应时刻的注意力差距向量生成,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。本发明实施例通过在模型中引入注意力差距向量来确定摘要词向量,实现了对当前时刻的不重要信息的过滤,以及对当前时刻的重要信息的关注力度的加强,从而提高了目标文本的摘要信息的准确性,进一步的,提高了总结归纳信息的准确性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本摘要的生成方法、装置、电子设备及存储介质。
背景技术
文本摘要算法是一个自然语言处理的方向,该技术用于将大数据信息进行总结和归纳,用于过滤掉无用信息,提取有价值的信息,进行展示或者分析,使得后续的知识推理、情感分析、数据分析等都可以基于大数据信息进行实现。
目前比较实用的理解式的摘要抽取的方式是seq2seq模型。这类方法的大体思路是将原文本通过编码(encoder)网络编码成固定大小的向量表示,然后通过解码(decoder)网络将文本的编译信息转换为所需要的文本摘要。
在实现本发明的过程中,发现现有技术中至少存在以下问题:
目前这类算法仍然存在“信息重复”和“重点信息关注不到”等缺点,使得总结获取的信息并不能很好地运用在实际情况中。主要原因是因为该模型的注意力机制在设计上具有一定的局限性,因此导致了信息上的不准确情况产生。
发明内容
本发明实施例提供了一种文本摘要的生成方法、装置、电子设备及存储介质,以解决现有技术中关注信息重复或遗漏的问题,从而实现提高摘要信息准确度的技术效果。
第一方面,本发明实施例提供了一种文本摘要的生成方法,包括:
获取目标文本;
基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;
其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
第二方面,本发明实施例还提供了一种文本摘要的生成装置,包括:
文本获取模块,用于获取目标文本;
摘要抽取模块,用于基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;
其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的文本摘要的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例提供的文本摘要的生成方法。
上述发明中的实施例具有如下优点或有益效果:
在获取到目标文本时,基于预先训练出的摘要抽取模型的编码模块确定目标文本的文本语义向量,通过摘要抽取模型的解码模块,基于文本语义向量和前一时刻的注意力向量确定当前时刻的摘要词向量,其中,各时刻的注意力向量基于对应时刻的注意力差距向量生成,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。本发明实施例通过在模型中引入注意力差距向量来确定摘要词向量,实现了对当前时刻的不重要信息的关注力度的减少,以及对当前时刻的重要信息的关注力度的加强,从而提高了目标文本的摘要信息的准确性,进一步的,提高了总结归纳信息的准确性。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种文本摘要的生成方法的流程示意图;
图2A为本发明实施例二所提供的一种文本摘要的生成方法的流程示意图;
图2B为本发明实施例二所提供的一种优选的预先训练出的摘要抽取模型的结构示意图;
图3为本发明实施例三所提供的一种文本摘要的生成方法的流程示意图;
图4为本发明实施例四所提供的一种文本摘要的生成装置的结构示意图;
图5为本发明实施例五所提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本摘要的生成方法的流程示意图,本实施例可适用于确定文本的文本摘要的情况,尤其适用于基于预先训练出的包含编码模块和解码模块的摘要抽取模型,确定文本的文本摘要的情况,该方法可以由文本摘要的生成装置来执行,该装置可以由硬件和/或软件来实现,例如,集成于计算机中。
在介绍本实施例提供的文本摘要的生成方法之前,可以对应用场景进行示例性说明。可选的,应用场景可以是提取浏览器信息、新闻信息、邮件信息或商品推荐信息中所包含的关键信息的场景。在本实施例中,以提取商品详细信息中的关键信息这一应用场景为例,在给不同的用户进行商品推荐时,由于商品的详情页面上包含大量的冗余描述信息,用户无法在短时间内快速捕捉到商品的推荐点。因此,可以提取商品详情页面上的描述信息的文本摘要,从而确定出商品的推荐点并作为商品智能推荐文案,以使用户可以快速获取到商品的推荐点,进而提高用户的购物体验感。
参见图1,本实施例提供的文本摘要的生成方法具体包括如下步骤:
S110、获取目标文本。
其中,目标文本可以是需要抽取文本摘要的文本。在本实施例中,目标文本可以是自然语言文本。可选的,自然语言文本可以是文字、数字和英文的任意组合,例如,文字+数字的组合,或文字+数字+英文的组合等。
示例性的,在提取商品推荐信息中的关键信息这一应用场景中,目标文本可以是商品的商品详细页面上所包含的文本。可选的,获取目标文本包括下述中的至少一种:获取设定界面、设定页面或设定图片扫描得到的文本;获取用户上传的文本。
S120、基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;其中,摘要抽取模型包括编码模块和解码模块;编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量;解码模块用于基于编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
具体的,将目标文本输入至预先训练出的摘要抽取模型,以使预先训练出的摘要抽取模型输出目标文本对应的文本摘要。其中,预先训练出的摘要抽取模型包括编码模块和解码模块。编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量。即,编码模块的输入为目标文本所包含词语的词向量,输出为目标文本的文本语义向量。在一种实施方式中,编码模块包括双向长短期记忆网络(Long Short-Term Memory,LSTM)层,用于实现文本语义向量的生成。
在一种实施方式中,文本语义向量可以包括目标文本中的重点词语的词向量;相应的,编码模块可以用于根据重点词语的词向量确定文本语义向量。即,摘要抽取模型可以将目标文本的重点词语的词向量输入至编码模块中,以使编码模块输出目标文本的文本语义向量。
在一种实施方式中,确定目标文本的重点词语的词向量,包括:对目标文本进行分词处理,将目标文本划分为至少一个待处理词语;基于预设停用词对至少一个待处理词语进行过滤处理,以剔除至少一个待处理词语中的预设停用词,得到待转化词语;基于各待转化词语的词频确定目标转化词语(重点词语),并确定目标转化词语的词向量。需要说明的是,可以采用预先训练出的词向量转化模型生成目标文本所包含词语的词向量或目标文本的重点词语的词向量,并将词向量输入至编码模块;也可以为摘要抽取模型中设置转化模块,基于摘要抽取模型中的转化模块生成目标文本所包含词语的词向量或目标文本的重点词语的词向量,并将词向量输入至编码模块。
其中,预设停用词可以是预先设置的不具备实际含义的词语,如,“的”、“呢”、“了”、“大约”等。可选的,编码模块可以基于自然语言处理工具pyltp,对目标文本进行分词处理以及过滤处理,以得到目标文本的待转化词语。
需要说明的是,待转化词语的词频可以是待转化词语在目标文本中出现的次数,如3次、5次等;也可以是待转化词语在目标文本中出现的频率,如3/1000、5/1000。可选的,基于各待转化词语的词频确定目标转化词语,包括下述中的至少一种:基于各待转化词语的词频对各待转化词语进行排序,从排序列表中选取预设个数的待转化词语作为目标转化词语;将词频大于预设词频阈值的待转化词语作为目标转化词语。具体的,按照词频逐渐减少的顺序对各待转化词语进行排序,从排序列表中选取前N名(预设个数)待转化词语作为目标转化词语。或者,选取词频大于预设词频阈值的待转化词语作为目标转化词语;其中,预设词频阈值可以基于实际需求进行确定,本申请对预设词频阈值的具体数值不进行限定。
在一种实施方式中,可以在确定出目标转化词语后,对各目标转化词语进行数值化编码,得到各目标转化词语的数值表示,如1,2,3,……;基于各目标转化词语以及对应的数值表示构建目标文本对应的词表。相应的,确定目标转化词语的词向量,包括:在目标文本的词表中查询目标转化词语对应的数值化编码,基于目标转化词语的数值化编码确定目标转化词语的词向量。
在本实施例中,解码模块用于根据文本语义向量和前一时刻的注意力向量确定当前时刻输出的摘要词向量。在一种实施方式中,解码模块包括单层LSTM层。在解码模块输出各个时刻的摘要词向量后,摘要抽取模型可以基于解码模块输出的各个时刻的摘要词向量生成目标文本对应的文本摘要。
在一种可选的实施方式中,基于解码模块输出的各个时刻的摘要词向量生成目标文本对应的文本摘要,包括:基于各个时刻的摘要词向量在目标文本的词表中查询各个时刻的摘要词向量对应的摘要词,基于查询到的摘要词确定文本摘要。
其中,注意力向量可以用于描述当前时刻关注的信息。可选的,预先训练出的摘要抽取模型还包括注意力机制模块,注意力机制模块用于确定各时刻的注意力向量。注意力向量可以基于对应时刻的注意力差距向量生成;注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
可选的,t时刻的注意力向量的生成方法包括:基于编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
需要说明的是,其中t的取值可以是除0之外的其它任意时刻。在除0之外的其它任意t时刻时,注意力向量基于文本语义向量、t时刻的摘要词向量、以及t时刻的注意力差距向量生成;在0时刻,注意力向量为预设值,例如可以预设为1。
注意力差距向量越大,则表明当前时刻关注的信息与之前时刻关注的信息之间的差距越大。示例性的,当注意力差距向量较大时,可以是当前时刻之前关注的信息在当前时刻未被关注,或者,当前时刻之前未关注的信息在当前时刻被关注;当注意力差距向量较小时,可以是当前时刻之前关注的信息在当前时刻仍被关注,或者,当前时刻之前未关注的信息在当前时刻仍未被关注。
在本实施例中,通过注意力差距向量确定注意力向量的好处在于:由于注意力差距向量可以表征当前时刻关注的信息与之前时刻关注的信息之间的差距,因此,实现了在当前时刻对上一时刻已关注的信息减少关注度,以及对上一时刻未关注而需要关注的信息增加关注度,进而实现当前时刻重点注意信息的准确确定,避免出现当前时刻关注重复信息或未关注到重点信息的情形。
具体的,以t时刻为当前时刻,对解码模块确定t时刻输出的摘要词向量的步骤进行解释,其中,t-1时刻为t时刻的前一时刻:
(1)基于t-1时刻的注意力差距向量t-1时刻的摘要词向量、以及编码模块输出的文本语义向量,确定t-1时刻的注意力向量(2)基于编码模块输出的文本语义向量,以及t-1时刻的注意力向量确定t时刻输出的摘要词向量。
通过上述步骤,解码模块可以将当前时刻输出的摘要词向量作为下一时刻确定摘要词向量的输入,直至求解出各个时刻对应的摘要词向量。由此,解码模型形成一个可以迭代求解各时刻对应的摘要词向量的循环网络。
在一种实施方式中,t时刻的注意力差距向量可以基于t时刻的上一时刻(t-1时刻)的注意力向量和注意力覆盖向量计算获得。其中,t-1时刻的注意力覆盖向量可以用于描述在t-1时刻之前的各时刻的注意力向量的累积向量。示例性的,以t时刻为例,注意力差距向量的计算满足如下公式:
其中,表示t时刻对序列i的注意力差距向量,表示t-1时刻对序列i的注意力向量,表示t-1时刻对序列i的注意力覆盖向量。需要说明的是,t为除0之外的其它任一时刻,0时刻的注意力差距向量可以预设为0。示例性的,以t时刻为例,注意力覆盖向量的计算满足如下公式:
可选的,基于编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:基于激活函数对编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
其中,激活函数可以用于确定中间隐层向量。激活函数可以采用tanh函数,Sigmoid函数和修正线性单元(The Rectified LinearUnit,ReLU)函数中的至少一种,本申请对激活函数不进行限定。在一种实施方式中,激活函数采用tanh函数,可以基于如下公式获得中间隐层向量:
式中,为t时刻的中间隐层向量,vT为待训练的比例系数矩阵,tanh代表激活函数,hi为编码模块输出的文本语义向量,st为解码模块输出的t时刻的摘要词向量,为t时刻的注意力覆盖向量,为t时刻的注意力差距向量,battn是偏置向量,Wh、Ws、Wc、Wstate为待训练的卷积向量参数;
需要说明的是,在上述计算中间隐层向量的公式中,各个待训练的卷积向量参数以及待训练的比例系数矩阵,可以基于如下方式确定:在摘要抽取模型的训练过程中,基于摘要抽取模型的损失函数,计算摘要抽取模型生成的文本摘要与期望生成的文本摘要之间的损失,基于所述损失对卷积向量参数以及比例系数矩阵进行反向调整,直至摘要抽取模型生成的文本摘要与期望生成的文本摘要之间的损失收敛。
在确定出中间隐层向量后,可以基于回归分类函数对中间隐层向量进行处理,以确定t时刻的注意力向量。可选的,回归分类函数可以是Softmax逻辑回归函数。在这些可选的实施方式中,基于激活函数对文本语义向量、t时刻的摘要词向量、t时刻的注意力覆盖向量以及t时刻的注意力差距向量进行处理,以得到中间隐层向量的好处在于:可以为中间隐层向量的计算加入非线性因素,解决计算过程中线性不可分的问题,进而提高注意力向量的准确性。采用中间隐层向量,并基于回归分类函数以及中间隐层向量确定t时刻的注意力向量的好处在于:可以对注意力向量进行归一化的同时,增加注意力向量的内部各向量之间的差异。
本实施例的技术方案,在获取到目标文本时,基于预先训练出的摘要抽取模型的编码模块确定目标文本的文本语义向量,通过摘要抽取模型的解码模块,基于文本语义向量和前一时刻的注意力向量确定当前时刻的摘要词向量,其中,各时刻的注意力向量基于对应时刻的注意力差距向量生成,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。本发明实施例通过在模型中引入注意力差距向量来确定摘要词向量,实现了对当前时刻的不重要信息的关注力度的减少,以及对当前时刻的重要信息的关注力度的加强,从而提高了目标文本的摘要信息的准确性,进一步的,提高了总结归纳信息的准确性。
本实施例还提供一种优选的文本摘要的生成方法,包括以下步骤:
步骤1、获取目标文本;
步骤2、对目标文本进行数值化编码,构建目标文本的词表,进而得到目标文本所包含词语的词向量,需要说明的是,该操作可以由预先训练出的词向量转化模型执行,也可以由摘要抽取模型中的转化模块执行。
然后将各词向量输入编码模块,编码模块输出目标文本的文本语义向量。
步骤3、获取前一时刻的注意力向量;
前一时刻的注意力向量按照如下方法生成:
基于激活函数对编码模块输出的文本语义向量、解码模块输出的当前时刻的前一时刻的摘要词向量、前一时刻的注意力覆盖向量、以及前一时刻的注意力差距向量进行处理,得到前一时刻的中间隐层向量;
然后基于回归分类函数对前一时刻的中间隐层向量进行处理,得到前一时刻的注意力向量;
步骤4、解码模块基于文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;
步骤5、根据解码模块输出的各摘要词向量在目标文本的词表中进行查询,得到各摘要词向量对应的摘要词,基于查询得到的摘要词确定目标文本对应的文本摘要。
实施例二
图2A为本发明实施例二提供的一种文本摘要的生成方法的流程示意图,本实施例在上述各实施例的基础上,可选的,编码模块包括文本语义分析单元和文本结构分析单元:其中,文本语义分析单元,用于基于目标文本中所包含词语的词向量输出文本语义向量;文本结构分析单元,用于基于目标文本中所包含句子的句子结构特征向量,输出文本结构向量;解码模块具体用于:基于文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;相应的,t时刻的注意力向量的生成方法包括:基于文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2A,本实施例提供的文本摘要的生成方法包括以下步骤:
S210、获取目标文本。
S220、基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;其中,摘要抽取模型包括编码模块和解码模块;编码模块包括文本语义分析单元和文本结构分析单元:其中,文本语义分析单元,用于基于目标文本中所包含词语的词向量输出文本语义向量;文本结构分析单元,用于基于目标文本中所包含句子的句子结构特征向量,输出文本结构向量;解码模块具体用于:基于文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量。
相应的,t时刻的注意力向量的生成方法包括:基于文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。基于此方法,可以得到各时刻的。
在本实施例中,考虑到中文在语言上的特殊性,即,同样的文本在不同的语境下所表示的含义不同,且文本所表达的含义还会受到文本结构的影响。因此,本实施例在摘要抽取模型的编码模块中添加文本结构分析单元,以对目标文本的文本结构进行分析,进而综合考虑文本的语义信息和结构信息,从而提高文本摘要的准确性。
可选的,句子结构特征向量包括:关键词关联度特征向量和/或句子实体因素特征向量;其中,关键词关联度特征向量是根据对应句子中包含的目标文本的关键词的数量确定的;句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。
其中,句子的句子结构特征包括关键词关联度特征和句子实体因素特征中的至少一种;相应的,句子结构特征向量包括关键词关联度特征向量和句子实体因素特征向量中的至少一种。
在本实施例中,关键词关联度特征可以指句子与目标文本的关键词之间的关联度。其中,目标文本的关键词可以是描述目标文本的主题的词语,也可以是目标文本中出现频率较高的词语。关键词可以用于区分目标文本的主题以及目标文本所包含的重点句子,因此,可以基于关键词关联度特征向量确定目标文本的结构信息。
具体的,可以对目标文本进行分句处理得到目标文本包含的各句子,如,根据各句子的标点符号对目标文本进行分割,得到目标文本所包含的所有句子。在对目标文本进行分句处理之后,可以对目标文本进行分词处理,并将分词处理后的结果输入至TextRank算法模型中,得到目标文本的关键词。在得到目标文本所包含的所有句子,以及目标文本的关键词后,可以通过统计的方式确定各句子的关键词关联度,各句子的关键词关联度特征可以基于句子所包含的目标文本的关键词的数量确定。基于关键词关联度特征可以确定关键词关联度特征向量。
在本实施例中,句子实体因素特征可以指句子与目标文本的预设命名实体词之间的关联度。若句子中所包含的预设命名实体词的数量越多,则表明句子在目标文本中的重要程度越高。即,句子所包含的预设命名实体词的数量影响着句子的重要程度。因此,可以基于句子实体因素特征向量确定目标文本的结构信息。
其中,目标文本的预设命名实体词可以是目标文本中具有特定含义的词语,可以根据实际需求进行预先设置。预设命名实体词包括但不限于通用的专用名词、组织机构名、人名和地名等。通用的专用名词可以是诸如天安门、SARS等名词。
需要说明的是,从语言学的角度上进行分析,句子的长度也会对句子的结构信息的分析造成影响,因此,在句子实体因素特征向量的计算中引入句子的句子长度。即,句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。然而,为了避免出现冗余句子的影响,因此,综合分析可知,一个句子越长,且包含的有含义的预设命名实体词数量越多,则认为该句子越重要。示例性的,句子实体因素特征=(预设命名实体词数量+句子长度)/句子长度。
在一种实施方式中,在对目标文本进行分词处理之后,可以利用pyltp确定目标文本的各句子中的预设命名实体词的数量,并基于各句子的分词数量确实各句子的句子长度,进而根据预设命名实体词的数量和句子长度,确定句子实体因素特征。基于句子实体因素特征可以确定句子实体因素特征向量。
在本实施例中,将各句子的关键词关联度特征向量和/或句子实体因素特征向量输入至文本结构分析单元后,文本结构分析单元可以得到文本结构向量。本实施例采用关键词关联度特征向量和/或句子实体因素特征向量的好处在于:可以考虑目标文本的关键词和/或命名实体对目标文本的各句子的结构进行分析,从而准确确定各句子的结构信息,进一步的,提高了目标文本的文本摘要的准确性。
在本实施例中,解码模块用于根据文本语义向量、文本结构向量和前一时刻的注意力向量确定当前时刻输出的摘要词向量。其中,t时刻的注意力向量可以基于文本语义向量、文本结构向量、t时刻的摘要词向量以及t时刻的注意力差距向量生成。
示例性的,以t时刻为当前时刻,对解码模块确定t时刻输出的摘要词向量的步骤进行解释,其中,t-1时刻为t时刻的前一时刻:
(1)首先,基于t-1时刻的注意力差距向量t-1时刻的摘要词向量、以及文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量,确定t-1时刻的注意力向量(2)基于文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量,以及t-1时刻的注意力向量确定t时刻输出的摘要词向量。
通过上述步骤,解码模块可以将当前时刻输出的摘要词向量作为下一时刻确定摘要词向量的输入,直至求解出各个时刻对应的摘要词向量。
可选的,基于文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:基于激活函数对文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
示例性的,激活函数采用tanh函数,可以基于如下公式获得中间隐层向量:
式中,为t时刻的中间隐层向量,vT为待训练的比例系数矩阵,tanh代表激活函数,hi为编码模块的文本语义分析单元输出的文本语义向量,h′i为编码模块的文本结构分析单元输出的文本结构向量,st为解码模块输出的t时刻的摘要词向量,为t时刻的注意力覆盖向量,为t时刻的注意力差距向量,battn是偏置向量,Wh、Wh′、Ws、Wc、Wstate为待训练的卷积向量参数;的计算可参见上述各实施例。
其中,各个待训练的卷积向量参数以及待训练的比例系数矩阵,可以在摘要抽取模型的训练过程中进行确定。即,在摘要抽取模型的训练过程中,基于摘要抽取模型的损失函数,计算摘要抽取模型生成的文本摘要与期望生成的文本摘要之间的损失,基于所述损失对各卷积向量参数以及比例系数矩阵进行反向调整,直至摘要抽取模型生成的文本摘要与期望生成的文本摘要之间的损失收敛。
可选的,文本结构分析单元包括:单向的长短期记忆网络LSTM层。示例性的,提供一种优选的预先训练出的摘要抽取模型,如图2B所示,摘要抽取模块包括编码模块和解码模块,编码模块包括文本语义分析单元和文本结构分析单元;编码模块的文本语义分析单元包括双向LSTM层,编码模块的文本结构分析单元包括单向LSTM层,解码模块包括单向LSTM层。
其中,摘要抽取模型将目标文本的词向量输入至文本语义分析单元中,文本语义分析单元根据输入的词向量,输出目标文本的文本语义向量;摘要抽取模型将目标文本的句子结构特征向量输入至文本结构分析单元中,文本结构分析单元根据输入的句子特征结构向量,输出目标文本的文本结构向量。摘要抽取模块用于对文本语义分析单元输出的文本语义向量和文本结构分析单元输出的文本结构向量进行卷积,得到文本内容向量,将文本内容向量输入至解码模块。解码模块根据文本内容向量和前一时刻的注意力向量,输出当前时刻的摘要词向量。每当解码模块输出一时刻的摘要词向量后,基于该时刻的摘要词向量和注意力差距向量确定注意力向量,并将该时刻的摘要词向量,以及注意力向量作为下一时刻解码模块的输入,以确定下一时刻输出的摘要词向量,从而解码模块通过上述迭代步骤,循环输出各时刻的摘要词向量。摘要抽取模型根据解码模块输出的各时刻的摘要词向量,确定目标文本对应的文本摘要。
本实施例的技术方案,在获取到目标文本时,基于预先训练出的摘要抽取模型的编码模块确定目标文本的文本语义向量和文本结构向量,通过摘要抽取模型的解码模块,基于文本语义向量、文本结构向量和前一时刻的注意力向量确定当前时刻的摘要词向量,其中,各时刻的注意力向量基于对应时刻的注意力差距向量生成,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。本实施例通过在模型中引入注意力差距向量和文本结构向量来确定摘要词向量,在实现了对当前时刻的不重要信息的过滤,以及对当前时刻的重要信息的关注力度的加强的同时,进一步对文本的结构信息进行分析,以在生成文本摘要时加入文本结构特征,从而提高了目标文本的摘要信息的准确性。
实施例三
图3为本发明实施例三提供的一种文本摘要的生成方法的流程示意图,本实施例在上述各实施例的基础上,可选的,摘要抽取模型的训练方法包括:将样本数据输入预先构建的摘要抽取模型;其中,样本数据包括:样本文本和样本文本对应的标准摘要文本;根据摘要抽取模型输出的预测摘要文本和标准摘要文本计算损失函数;根据损失函数的计算结果对摘要抽取模型的网络参数进行反向调整,直至达到训练结束条件。
其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3,本实施例提供的文本摘要的生成方法包括以下步骤:
S310、将样本数据输入预先构建的摘要抽取模型;其中,样本数据包括:样本文本和样本文本对应的标准摘要文本。
其中,样本文本可以是大量需要抽取文本摘要的文本。标准摘要文本可以是预先确定的样本文本对应的文本摘要,即,样本文本的标签,也可以理解为摘要抽取模型期望输出的文本摘要。预先构建的摘要抽取模型可以是待训练的摘要抽取模型。示例性的,预先构建的摘要抽取模型可以是卷积神经网络模型、深度神经网络模型、循环神经网络模型等模型,本申请对此不作限定。
S320、根据摘要抽取模型输出的预测摘要文本和标准摘要文本计算损失函数。
其中,将各样本数据输入至预先构建的摘要抽取模型中,可以使摘要抽取模型输出样本数据中的样本文本对应的文本摘要,即,预测摘要文本。
可选的,根据摘要抽取模型输出的预测摘要文本和标准摘要文本计算损失函数,包括:基于摘要抽取模型输出的预测摘要文本和标准摘要文本确定各个词语分别对应的预测偏差;基于各预测偏差、当前时刻的注意力向量、当前时刻的注意力覆盖向量以及当前时刻的注意力差距向量,计算损失函数。
其中,预测偏差可以是预测出的对应词语是摘要词的概率值与根据标准摘要文本确定的对应词语是摘要词的概率值的差值。示例性的,预测出的词语A是摘要词的概率值为0.8,根据标准摘要文本确定词语A是摘要词的概率值为1,则词语A的预测偏差为0.2。当前时刻的注意力向量、注意力覆盖向量和注意力差距向量可以参见上述各实施例的说明。
示例性的,按照如下公式计算损失函数:
式中,为各个词语分别对应的预测偏差的和值,预测偏差为预测出的对应词语是摘要词的概率值与根据标准摘要文本确定的对应词语是摘要词的概率值的差值,表示t时刻的注意力向量,是t时刻的注意力覆盖向量,表示t时刻的注意力差距向量;λ和β为比例参数。表示选择t时刻注意力分布和t时刻之前注意力分布的较小值。
也就是说,在对摘要抽取模型进行训练的过程中,可以根据预测摘要文本和标准摘要文本,计算当前时刻的预测偏差的和值,基于当前时刻的预测偏差的和值、注意力向量、注意力覆盖向量以及注意力差距向量,计算当前时刻的损失函数。
S330、根据损失函数的计算结果对摘要抽取模型的网络参数进行反向调整,直至达到训练结束条件。
其中,摘要抽取模型的网络参数包括但不限于各卷积向量参数、比例系数矩阵以及比例参数。训练结束条件可以是损失函数的计算结果达到收敛。
具体的,在计算出当前时刻的损失函数后,基于损失函数的计算结果对摘要抽取模型的网络参数进行修正,以基于修正后的网络参数的摘要抽取模型,确定下一时刻的损失函数,基于下一时刻的损失函数继续对摘要抽取模型的网络参数进行修正,重复执行上述操作,直至损失函数的计算结果达到收敛时,将训练得到的摘要抽取模型作为最终可以使用的摘要抽取模型。
S340、获取目标文本。
S350、基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;其中,摘要抽取模型包括编码模块和解码模块;编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量;解码模块用于基于编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
需要说明的是,在另一种实施方式中,抽要摘取模型中的编码模块包括文本语义分析单元和文本结构分析单元,其中,文本语义分析单元用于基于目标文本中所包含词语的词向量输出文本语义向量,文本结构分析单元用于基于目标文本中所包含句子的句子结构特征向量输出文本结构向量;解码模块具体用于基于文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量。
本实施例的技术方案,通过将样本数据输入预先构建的摘要抽取模型根据摘要抽取模型输出的预测摘要文本和标准摘要文本计算损失函数,根据损失函数的计算结果对摘要抽取模型的参数进行反向调整,直至损失函数的计算结果收敛,实现了摘要抽取模型的网络参数的确定,从而提高了确定目标文本的文本摘要的准确性。
实施例四
图4为本发明实施例四提供的一种文本摘要的生成装置的结构示意图,本实施例可适用于确定获取到的目标文本的文本摘要的情况,尤其适用于基于预先训练出的包含编码模块和解码模块的摘要抽取模型,确定目标文本的文本摘要,该装置具体包括:文本获取模块410和摘要生成模块420。
文本获取模块410,用于获取目标文本;
摘要生成模块420,用于基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;
其中,摘要抽取模型包括编码模块和解码模块;编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量;解码模块用于基于编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
可选的,t时刻的注意力向量的生成方法包括:基于编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
可选的,基于编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:基于激活函数对编码模块输出的文本语义向量、解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
可选的,基于如下公式获得中间隐层向量:
其中,为t时刻的中间隐层向量,vT为待训练的比例系数矩阵,tanh代表激活函数,hi为编码模块输出的文本语义向量,st为解码模块输出的t时刻的摘要词向量,为t时刻的注意力覆盖向量,为t时刻的注意力差距向量,battn是偏置向量,Wh、Ws、Wc、Wstate为待训练的卷积向量参数;
可选的,编码模块包括文本语义分析单元和文本结构分析单元:其中,文本语义分析单元,用于基于目标文本中所包含词语的词向量输出文本语义向量;文本结构分析单元,用于基于目标文本中所包含句子的句子结构特征向量,输出文本结构向量;解码模块具体用于:基于文本语义分析单元输出的文本语义向量、文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;相应的,t时刻的注意力向量的生成方法包括:基于文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
可选的,文本结构分析单元包括:单向的长短期记忆网络LSTM层。
可选的,句子结构特征向量包括:关键词关联度特征向量和/或句子实体因素特征向量;其中,关键词关联度特征向量是根据对应句子中包含的目标文本的关键词的数量确定的;句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。
可选的,基于文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:基于激活函数对文本语义分析单元输出的文本语义向量、解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
可选的,基于如下公式获得中间隐层向量:
其中,为t时刻的中间隐层向量,vT为待训练的比例系数矩阵,tanh代表激活函数,hi为编码模块的文本语义分析单元输出的文本语义向量,h′i为编码模块的文本结构分析单元输出的文本结构向量,st为解码模块输出的t时刻的摘要词向量,为t时刻的注意力覆盖向量,为t时刻的注意力差距向量,battn是偏置向量,Wh、Wh′、Ws、Wc、Wstate为待训练的卷积向量参数;
可选的,文本摘要的生成装置还包括模型训练模块,用于对摘要抽取模型进行训练。可选的,模型训练模块包括样本输入单元、损失计算单元和参数调整单元;其中,样本输入单元用于将样本数据输入预先构建的摘要抽取模型;其中,样本数据包括:样本文本和样本文本对应的标准摘要文本;损失计算单元用于根据摘要抽取模型输出的预测摘要文本和标准摘要文本计算损失函数;参数调整单元用于根据损失函数的计算结果对摘要抽取模型的网络参数进行反向调整,直至达到训练结束条件。
可选的,损失计算单元具体用于基于摘要抽取模型输出的预测摘要文本和标准摘要文本确定各个词语分别对应的预测偏差;基于各测偏差、当前时刻的注意力向量、当前时刻的注意力覆盖向量以及当前时刻的注意力差距向量,计算损失函数。
可选的,损失计算单元按照如下公式计算损失函数:
在本实施例中,通过摘要抽取模块在获取到目标文本时,基于预先训练出的摘要抽取模型的编码模块确定目标文本的文本语义向量,通过摘要抽取模型的解码模块,基于文本语义向量和前一时刻的注意力向量确定当前时刻的摘要词向量,其中,各时刻的注意力向量基于对应时刻的注意力差距向量生成,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。本发明实施例通过在模型中引入注意力差距向量来确定摘要词向量,实现了对当前时刻的不重要信息的关注力度的减少,以及对当前时刻的重要信息的关注力度的加强,从而提高了目标文本的摘要信息的准确性,进一步的,提高了总结归纳信息的准确性。
本发明实施例所提供的文本摘要的生成装置可执行本发明任意实施例所提供的文本摘要的生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述系统所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例五
图5是本发明实施例五提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备12典型的是承担文本摘要生成功能的电子设备。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储器28,连接不同组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(IndustryStandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机装置可读介质,例如随机存取存储器(RandomAccess Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机存储介质。仅作为举例,存储装置34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品40,该程序产品40具有一组程序模块42,这些程序模块被配置以执行本发明各实施例的功能。程序产品40,可以存储在例如存储器28中,这样的程序模块42包括但不限于一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、鼠标、摄像头等和显示器)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LocalAreaNetwork,LAN),广域网WideAreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(RedundantArrays ofIndependent Disks,RAID)装置、磁带驱动器以及数据备份存储装置等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的文本摘要的生成方法,包括:
获取目标文本;
基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;
其中,摘要抽取模型包括编码模块和解码模块;编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量;解码模块用于基于编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的文本摘要的生成方法的技术方案。
实施例六
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的文本摘要的生成方法步骤,该方法包括:
获取目标文本;
基于目标文本和预先训练出的摘要抽取模型,生成目标文本对应的文本摘要;
其中,摘要抽取模型包括编码模块和解码模块;编码模块用于基于目标文本中所包含词语的词向量输出文本语义向量;解码模块用于基于编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (12)
1.一种文本摘要的生成方法,其特征在于,包括:
获取目标文本;
基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;
其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
2.根据权利要求1所述的方法,其特征在于,t时刻的注意力向量的生成方法包括:
基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
3.根据权利要求2所述的方法,其特征在于,基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:
基于激活函数对所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,所述注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;
基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
4.根据权利要求1所述的方法,其特征在于,所述编码模块包括文本语义分析单元和文本结构分析单元:其中,所述文本语义分析单元,用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述文本结构分析单元,用于基于所述目标文本中所包含句子的句子结构特征向量,输出文本结构向量;所述解码模块具体用于:基于所述文本语义分析单元输出的文本语义向量、所述文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;
相应的,t时刻的注意力向量的生成方法包括:
基于所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
5.根据权利要求4所述的方法,其特征在于,所述文本结构分析单元包括:单向的长短期记忆网络LSTM层。
6.根据权利要求4所述的方法,其特征在于,所述句子结构特征向量包括:关键词关联度特征向量和/或句子实体因素特征向量;其中,
所述关键词关联度特征向量是根据对应句子中包含的所述目标文本的关键词的数量确定的;
所述句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。
7.根据权利要求4所述的方法,其特征在于,基于所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:
基于激活函数对所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,所述注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;
基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述摘要抽取模型的训练方法包括:
将样本数据输入预先构建的摘要抽取模型;其中,所述样本数据包括:样本文本和所述样本文本对应的标准摘要文本;
根据所述摘要抽取模型输出的预测摘要文本和所述标准摘要文本计算损失函数;
根据损失函数的计算结果对所述摘要抽取模型的网络参数进行反向调整,直至达到训练结束条件。
9.根据权利要求8所述的方法,其特征在于,所述根据所述摘要抽取模型输出的预测摘要文本和所述标准摘要文本计算损失函数,包括:
基于所述摘要抽取模型输出的预测摘要文本和所述标准摘要文本确定各个词语分别对应的预测偏差;
基于各所述预测偏差、当前时刻的注意力向量、当前时刻的注意力覆盖向量以及当前时刻的注意力差距向量,计算损失函数。
10.一种文本摘要的生成装置,其特征在于,包括:
文本获取模块,用于获取目标文本;
摘要抽取模块,用于基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;
其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
11.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的文本摘要的生成方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的文本摘要的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158416.6A CN113761895A (zh) | 2021-02-04 | 2021-02-04 | 文本摘要的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158416.6A CN113761895A (zh) | 2021-02-04 | 2021-02-04 | 文本摘要的生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761895A true CN113761895A (zh) | 2021-12-07 |
Family
ID=78786595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110158416.6A Pending CN113761895A (zh) | 2021-02-04 | 2021-02-04 | 文本摘要的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761895A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969313A (zh) * | 2022-06-07 | 2022-08-30 | 四川大学 | 摘要抽取方法、装置、计算机设备及计算机可读存储介质 |
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233647A1 (zh) * | 2017-06-22 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、计算机设备以及存储介质 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN111639502A (zh) * | 2020-05-26 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 文本语义匹配方法、装置、计算机设备及存储介质 |
-
2021
- 2021-02-04 CN CN202110158416.6A patent/CN113761895A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233647A1 (zh) * | 2017-06-22 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、计算机设备以及存储介质 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN111639502A (zh) * | 2020-05-26 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 文本语义匹配方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
李清: "基于机器学习的文本摘要技术的研究与实现", 中国优秀硕士学位论文全文数据库, no. 7, 15 July 2020 (2020-07-15), pages 4 * |
郭宝震;左万利;王英;: "采用词向量注意力机制的双路卷积神经网络句子分类模型", 浙江大学学报(工学版), no. 09, 16 August 2018 (2018-08-16) * |
韩鹏宇;高盛祥;余正涛;黄于欣;郭军军;: "基于案件要素指导的涉案舆情新闻文本摘要方法", 中文信息学报, no. 05, 15 May 2020 (2020-05-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969313A (zh) * | 2022-06-07 | 2022-08-30 | 四川大学 | 摘要抽取方法、装置、计算机设备及计算机可读存储介质 |
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
CN115600586B (zh) * | 2022-12-15 | 2023-04-11 | 阿里巴巴(中国)有限公司 | 摘要文本生成方法、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287278B (zh) | 评论生成方法、装置、服务器及存储介质 | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN112446211A (zh) | 文本处理装置、方法、设备和计算机可读存储介质 | |
US20230103148A1 (en) | Hierarchical Video Encoders | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN113761895A (zh) | 文本摘要的生成方法、装置、电子设备及存储介质 | |
CN112711943B (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
Wang et al. | Data augmentation for internet of things dialog system | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
CN110377910A (zh) | 一种表格描述的处理方法、装置、设备及存储介质 | |
CN111241273A (zh) | 文本数据分类方法、装置、电子设备及计算机可读介质 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN113096687A (zh) | 音视频处理方法、装置、计算机设备及存储介质 | |
CN112100360A (zh) | 一种基于向量检索的对话应答方法、装置和系统 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |