CN112883730B

CN112883730B - 相似文本匹配方法、装置、电子设备及存储介质

Info

Publication number: CN112883730B
Application number: CN202110320474.4A
Authority: CN
Inventors: 周琅; 杜佳辉
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2023-01-17
Anticipated expiration: 2041-03-25
Also published as: CN112883730A

Abstract

本发明涉及文本处理技术，揭露了一种相似文本匹配方法，包括：按照文本主题对获取的文本集合中各文本进行分类，得到分类文本；利用实体特征提取模型提取分类文本的实体特征要素，并根据实体特征要素生成分类文本的索引数据表；对目标文本进行实体要素特征提取，得到目标实体特征要素；根据目标实体特征要素在索引数据表中进行多重要素匹配，得到匹配实体特征要素；将匹配实体特征要素对应的分类文本汇集为目标文本的相似文本。此外，本发明还涉及区块链技术，所述文本集合可存储于区块链的节点。本发明还提出一种相似文本匹配装置、电子设备以及计算机可读存储介质。本发明可以解决相似文本匹配时效率较低的问题。

Description

相似文本匹配方法、装置、电子设备及存储介质

技术领域

本发明涉及文本处理技术领域，尤其涉及一种相似文本匹配方法、装置、电子设备及计算机可读存储介质。

背景技术

相似文本匹配技术已经在人们日常生活中得到越来越多的应用，例如，在法律领域，律师或相关人员面对着越来越多需要处理的案件，但新案件往往与历史案件存在着一定的相似，因此历史案件可以被人们借鉴，以实现对新案件的高效处理。

目前主要的相似文本匹配方法多为基于文章语义的相似文本匹配，即提取文本中的句子含义，将不同文本之间的句子含义进行对比分析，得到文本之间的相似度，但面对着大量文本以及每个文本中包含的大量信息，对每个文本进行语义分析会占用大量的计算资源，导致相似文本匹配的效率低下。

发明内容

本发明提供一种相似文本匹配方法、装置及计算机可读存储介质，其主要目的在于解决相似文本匹配时效率较低的问题。

为实现上述目的，本发明提供的一种相似文本匹配方法，包括：

获取文本集合，按照文本主题对所述文本集合中各文本进行分类，得到分类文本；

利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表；

获取目标文本，对所述目标文本进行实体要素特征提取，得到目标实体特征要素；

根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素；

将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

可选地，所述按照文本主题对所述文本集合中各文本进行分类，得到分类文本，包括：

对所述文本集合中各文本进行分词处理，得到文本分词；

对所述文本分词进行词频统计，得到分词词频；

根据所述分词词频计算所述文本分词的分词权重；

确定所述分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词；

按照所述主题词将所述文本集合中的文本进行分类，得到分类文本。

可选地，所述对所述文本集合中各文本进行分词处理，得到文本分词，包括：

遍历所述文本集合中各文本以确定各文本中断句符号的位置；

根据所述断句符号的位置将所述文本集合中各文本分解为多个单独句子；

利用预设标准词典将所述多个单独句子分别进行单词切分，得到文本分词。

可选地，所述根据所述实体特征要素生成所述分类文本的索引数据表，包括：

构建空白数据表；

将所述分类文本的文本类别作为所述空白数据表的表名，将所述分类文本的实体特征要素作为所述空白数据表的主键，得到索引数据表。

可选地，所述根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素，包括：

计算所述目标实体特征要素与所述索引数据表名的第一匹配值；

选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表；

计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值；

确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素。

可选地，所述计算所述目标实体特征要素与所述索引数据表名的第一匹配值，包括：

统计所述目标实体特征要素与所述索引数据表名的重合字粒度；

对所述目标实体特征要素进行语义向量转换，得到目标语义向量；

对所述索引数据表名进行语义向量转换，得到表名语义向量；

计算所述目标语义向量与所述表名语义向量之间的向量偏差；

将所述向量偏差与所述重合字粒度的倒数相乘得到所述第一匹配值。

可选地，所述对所述目标实体特征要素进行语义向量转换，得到目标语义向量，包括：

获取所述目标实体特征要素对应的字节向量集，所述字节向量集中包含目标实体特征要素中每个字节的字节向量；

将所述目标实体特征要素中每个字节对应的字节向量分别进行拼接，得到所述目标语义向量。

为了解决上述问题，本发明还提供一种相似文本匹配装置，所述装置包括：

文本分类模块，用于获取文本集合，按照文本主题对所述文本集合中各文本进行分类，得到分类文本；

要素提取模块，用于利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表；

目标文本处理模块，用于获取目标文本，对所述目标文本进行实体要素特征提取，得到目标实体特征要素；

要素匹配模块，用于根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素；

文本汇集模块，用于将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的相似文本匹配方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的相似文本匹配方法。

本发明实施例按照文本主题对所述文本集合中各文本进行分类，可实现将文本集合中多主题的文本进行归类，有利于提高后续检索匹配文本的效率；提取所述分类文本的实体特征要素，并根据实体特征要素生成所述分类文本的索引数据表，减少了文本中信息含量，节约了计算资源，有利于提高后续进行相似文本检索的效率；且生成索引数据表，根据目标实体特征要素在索引数据表中进行多重要素匹配，多重要素匹配也进一步降低了匹配时计算资源的占用，避免直接对索引数据表中包含的大量数据进行运算，提高了相似文本检索的效率。因此本发明提出的相似文本匹配方法、装置、电子设备及计算机可读存储介质，可以解决相似文本匹配时效率较低的问题。

附图说明

图1为本发明一实施例提供的相似文本匹配方法的流程示意图；

图2为本发明一实施例的索引数据表的示意图；

图3为本发明实施例提供的对文本进行分类的流程示意图；

图4为本发明实施例提供的多重要素匹配的流程示意图；

图5为本发明一实施例提供的相似文本匹配装置的功能模块图；

图6为本发明一实施例提供的实现所述相似文本匹配方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种相似文本匹配方法。所述相似文本匹配方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述相似文本匹配方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示，为本发明一实施例提供的相似文本匹配方法的流程示意图。在本实施例中，所述相似文本匹配方法包括：

S1、获取文本集合，按照文本主题对所述文本集合中各文本进行分类，得到分类文本。

本发明实施例中，所述文本集合中包括多个文本。例如，所述文本集合中包含多个小说文本，或者，所述多个文本集合中包括多个案件文本，再或者，所述文本集合中包括多个合同文本。

详细地，所述文本集合可预先存储于区块链节点中，本发明实施例可利用具有数据抓取功能的python语句从区块链节点中抓取所述文本集合，由于区块链对数据的高吞吐性，可提高获取文本集合的效率。

本发明实施例中，参图3所示，图3为本发明实施例提供的对文本进行分类的流程示意图。

详细地，所述按照文本主题对所述文本集合中各文本进行分类，得到分类文本，包括：

S11、对所述文本集合中各文本进行分词处理，得到文本分词；

S12、对所述文本分词进行词频统计，得到分词词频；

S13、根据所述分词词频计算所述文本分词的分词权重；

S14、确定所述分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词；

S15、按照所述主题词将所述文本集合中的文本进行分类，得到分类文本。

详细地，所述对所述文本集合中各文本进行分词处理，得到文本分词，包括：

本发明实施例可利用具有遍历功能的java语句或计算机程序对所述文本集合中各文本进行遍历，以此确定各文本中断句符号的位置，并实现将文本分解为多个单独句子，所述断句符号包括但不限于“，”、“。”“；”。所述断句符号用于标识一句话的结束，可由用户预先定义。

具体地，所述预设标准词典中包含多个标准分词，利用所述预设标准词典对多个单独句子进行单词切分，有利于提高切分得到的文本分词的准确率，减少切分错误。

本发明实施例中，可利用java库中包含的统计函数对所述文本分词进行词频统计，得到分词词频。例如，通过调用java库中的count函数对所述文本分词进行统计运算，得到每个文本分词的分词词频。

本发明另一实施例中，在对所述文本分词进行词频统计时，还可采用python库中的collections函数。

利用现有java库或python库中的函数对所述文本分词进行词频统计，可提高进行词频统计的效率和精确度。

进一步地，所述根据所述分词词频计算所述文本分词的分词权重，包括：

利用如下权重算法计算文本分词的分词权重：

其中，tf_m为第m个文本分词的分词权重，n为所述第m个文本分词的分词词频，k为所述第m个文本分词所在的文本中所有分词的分词词频之和。

本发明实施例确定分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词，并将文本集合中各文本按照所述主题词进行分类。

例如，文本集合中存在文本A、文本B、文本C和文本D，其中，文本A的和文本B的主题词为“环境”，文本C和文本D的主题词为“食品安全”，则确定文本A和文本B为环境类的分类文本，文本C和文本D为食品安全类的分类文本。

本发明实施例按照文本主题对所述文本集合中各文本进行分类，可实现将文本集合中多主题的文本进行归类，有利于提高后续检索匹配文本的效率。

S2、利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表。

本发明实施例中，所述实体特征要素提取模型是指经过训练而达到能提取所述实体特征要素的模型。在本发明实施例中，可通过预先构建的CRF神经网络训练得到所述实体要素提取模型。

详细地，所述实体特征提取模型的训练过程包括：

获取训练文本和所述训练文本对应的标准实体特征要素，对所述训练文本进行文本向量转换，得到文本向量；

利用所述预先构建的实体特征提取模型对所述文本向量进行要素提取，得到预测实体特征要素；

根据所述预测实体特征要素和所述标准实体特征要素计算所述实体特征提取模型的模型对数损失值；

判断所述差异值是否小于预设的差异阈值，若是，则根据所述差异值对所述实体特征提取模型进行参数优化；

若不是，则得到训练完成的实体特征提取模型。

本发明实施例中可采用word2vec的方法对所述训练文本进行文本向量转换，得到文本向量。所述word2vec是一种常用且高效的文本向量转换方法。

进一步地，所述根据所述预测实体特征要素和所述标准实体特征要素计算所述实体特征提取模型的模型对数损失值，包括：

利用如下损失函数计算所述模型对数损失值：

其中，LogLossFunction为所述模型对数损失值，P_RealPath为所述标准实体特征要素，P_N为第N个预测实体特征要素。

本发明实施例中，采用迭代尺度法根据所述差异值对所述实体特征提取模型进行参数优化。所述迭代尺度法是指假设表示实体特征提取模型熵值的参数向量为ω＝(ω₁,ω₂,…,ω_n)^T，其中，ω_n为第N个预测实体特征要素的向量化表示，T为矩阵转置运算，现以预设的迭代尺度δ对模型的熵进行迭代计算，得到迭代后的参数向量：ω+δ＝(ω₁+δ₁，ω₂+δ₂，…，ω_n+δ_n)^T，当利用该参数向量对实体特征提取模型进行参数调整后，使得实体特征提取模型的模型对数损失值增大，则说明实体特征提取模型的精确度得到了提高。

本发明实施例通过训练完成的实体特征提取模型提取所述分类文本的实体特征要素，有利于提高提取分类文本的实体特征要素的效率及精确度。

本发明实施例中，所述根据所述实体特征要素生成所述分类文本的索引数据表，包括：

构建空白数据表；

参见附图，如图2所示，图2为本发明一实施例的索引数据表的示意图。

本发明另一实施例中，所述根据所述实体特征要素生成所述分类文本的索引数据表之后，所述方法还包括在所述主键列之后生成对应的文本调用选项，点击所述文本调用选项即可调取出与所述主键对应的分类文本。或者，各个所述主键的显示区域含有对应的分类文本的链接地址，点击所述链接地址，即可调取出所点击的链接地址的对应的分类文本。

在所述主键列之后生成对应的文本调用选项，可使得用户能够快速的对分类文本进行调用。

本发明实施例中，每一种不同类型的分类文本对应一张或多张索引数据表。

S3、获取目标文本，对所述目标文本进行实体要素特征提取，得到目标实体特征要素。

本发明实施例中，可利用具有文本抓取功能的java语句或具有相同功能的计算机程序抓取所述目标文本。

在本发明另一实施例中，所述目标文本也可通过用户从客户端的网页或预先安装的程序上传。

详细地，所述对所述目标文本进行实体要素特征提取的步骤，与S2中利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素的步骤一致，在此不做赘述。

S4、根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素。

本发明实施例中，参图4所示，图4为本发明实施例提供的多重要素匹配的流程示意图。

详细地，所述根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素，包括：

S41、计算所述目标实体特征要素与所述索引数据表名的第一匹配值；

S42、选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表；

S43、计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值；

S44、确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素。

详细地，所述第一匹配值与所述第二匹配值可以相同，也可以不同。

具体地，所述计算所述目标实体特征要素与所述索引数据表名的第一匹配值，包括：

本发明实施例中，所述重合字粒度指的是两个词语之间重合的字数，目标实体特征要素与索引数据表名的重合字粒度，即为目标实体特征要素与索引数据表名之间重合的字数，例如，存在目标实体特征要素为：大气环境污染，存在索引数据表名为水体污染，则该目标实体特征要素与索引数据表名之间的重合字粒度为2。

详细地，所述对所述目标实体特征要素进行语义向量转换，得到目标语义向量，包括：

例如，目标实体特征要素中存在字节1、字节2和字节3，其中，字节1对应的字节向量为字节向量a、字节2对应的字节向量为字节向量b、字节3对应的字节向量为字节向量c，则将每个字节对应的字节向量分别进行拼接，得到目标语义向量abc。

所述对所述索引数据表名进行语义向量转换，得到表名语义向量的步骤与对所述目标实体特征要素进行语义向量转换，得到目标语义向量的步骤一致，在此不做赘述。

进一步地，所述计算所述目标语义向量与所述表名语义向量之间的向量偏差，包括：

利用如下偏差算法计算所述目标语义向量与所述表名语义向量之间的向量偏差：

其中，D为所述向量偏差，x为所述目标语义向量，y为所述表名语义向量。

本发明实施例中，选取第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表，所述目标索引数据表可以为一张表或多张表。

所述计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值的步骤，与计算所述目标实体特征要素与所述索引数据表名的第一匹配值的步骤一致，在此不做赘述。

实际应用中，由于存在大量的索引数据表，且每张索引数据表中包含大量的分类文本对应的实体特征要素，因此，为了减少计算内存的占用，简化计算过程，本发明实施例根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，避免直接对索引数据表中包含的大量数据进行运算。

S5、将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

本发明实施例中，根据步骤S4中的计算结果，将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

本发明一实施例中，可利用预先在所述分类文本的索引数据表中生成的文本调用选项调用所述匹配实体特征要素对应的分类文本。

本发明实施例按照文本主题对所述文本集合中各文本进行分类，可实现将文本集合中多主题的文本进行归类，有利于提高后续检索匹配文本的效率；提取所述分类文本的实体特征要素，并根据实体特征要素生成所述分类文本的索引数据表，减少了文本中信息含量，节约了计算资源，有利于提高后续进行相似文本检索的效率；且生成索引数据表，根据目标实体特征要素在索引数据表中进行多重要素匹配，多重要素匹配也进一步降低了匹配时计算资源的占用，避免直接对索引数据表中包含的大量数据进行运算，提高了相似文本检索的效率。因此本发明提出的相似文本匹配方法，可以解决相似文本匹配时效率较低的问题。

如图5所示，是本发明一实施例提供的相似文本匹配装置的功能模块图。

本发明所述相似文本匹配装置100可以安装于电子设备中。根据实现的功能，所述相似文本匹配装置100可以包括文本分类模块101、要素提取模块102、目标文本处理模块103、要素匹配模块104及文本汇集模块105。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述文本分类模块101，用于获取文本集合，按照文本主题对所述文本集合中各文本进行分类，得到分类文本。

详细地，所述文本分类模块101具体用于：对所述文本集合中各文本进行分词处理，得到文本分词；对所述文本分词进行词频统计，得到分词词频；

根据所述分词词频计算所述文本分词的分词权重；确定所述分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词；按照所述主题词将所述文本集合中的文本进行分类，得到分类文本。

利用如下权重算法计算文本分词的分词权重：

所述要素提取模块102，用于利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表。

详细地，所述实体特征提取模型的训练过程包括：

若不是，则得到训练完成的实体特征提取模型。

利用如下损失函数计算所述模型对数损失值：

其中，LogLossFunction为所述模型对数损失值，P_RealPaPh为所述标准实体特征要素，P_N为第N个预测实体特征要素。

本发明实施例中，所述要素提取模块102具体用于：

利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素；

构建空白数据表；

参见附图，如图2所示，为本发明一实施例的索引数据表的示意图：

所述目标文本处理模块103，用于获取目标文本，对所述目标文本进行实体要素特征提取，得到目标实体特征要素。

详细地，所述对所述目标文本进行实体要素特征提取的步骤，与所述要素提取模块102中利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素的步骤一致，在此不做赘述。

所述要素匹配模块104，用于根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配，得到匹配实体特征要素。

详细地，所述要素匹配模块104具体用于：

计算所述目标实体特征要素与所述索引数据表名的第一匹配值；选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表；计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值；确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素。

所述文本汇集模块105，用于将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

本发明实施例中，根据所述要素匹配模块104中的计算结果，将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。

本发明实施例按照文本主题对所述文本集合中各文本进行分类，可实现将文本集合中多主题的文本进行归类，有利于提高后续检索匹配文本的效率；提取所述分类文本的实体特征要素，并根据实体特征要素生成所述分类文本的索引数据表，减少了文本中信息含量，节约了计算资源，有利于提高后续进行相似文本检索的效率；且生成索引数据表，根据目标实体特征要素在索引数据表中进行多重要素匹配，多重要素匹配也进一步降低了匹配时计算资源的占用，避免直接对索引数据表中包含的大量数据进行运算，提高了相似文本检索的效率。因此本发明提出的相似文本匹配装置，可以解决相似文本匹配时效率较低的问题。

如图6所示，是本发明一实施例提供的实现相似文本匹配方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如相似文本匹配程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如相似文本匹配程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如相似文本匹配程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图6仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图6示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的相似文本匹配程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1至图6对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种相似文本匹配方法，其特征在于，所述方法包括：

利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表，其中，所述索引数据表中包含用于调取对应的分类文本的文本调用选项或链接地址；

计算所述目标实体特征要素与索引数据表名的第一匹配值，并选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表；

计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值，并确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素；

2.如权利要求1所述的相似文本匹配方法，其特征在于，所述按照文本主题对所述文本集合中各文本进行分类，得到分类文本，包括：

对所述文本集合中各文本进行分词处理，得到文本分词；

对所述文本分词进行词频统计，得到分词词频；

根据所述分词词频计算所述文本分词的分词权重；

3.如权利要求2所述的相似文本匹配方法，其特征在于，所述对所述文本集合中各文本进行分词处理，得到文本分词，包括：

4.如权利要求1所述的相似文本匹配方法，其特征在于，所述根据所述实体特征要素生成所述分类文本的索引数据表，包括：

构建空白数据表；

5.如权利要求4所述的相似文本匹配方法，其特征在于，所述计算所述目标实体特征要素与所述索引数据表名的第一匹配值，包括：

6.如权利要求5所述的相似文本匹配方法，其特征在于，所述对所述目标实体特征要素进行语义向量转换，得到目标语义向量，包括：

7.一种相似文本匹配装置，其特征在于，所述装置包括：

要素提取模块，用于利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素，并根据所述实体特征要素生成所述分类文本的索引数据表，其中，所述索引数据表中包含用于调取对应的分类文本的文本调用选项或链接地址；

要素匹配模块，用于计算所述目标实体特征要素与索引数据表名的第一匹配值，并选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表，计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值，并确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素；

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的相似文本匹配方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的相似文本匹配方法。