CN105095162A - 文本相似度确定方法、装置、电子设备及系统 - Google Patents
文本相似度确定方法、装置、电子设备及系统 Download PDFInfo
- Publication number
- CN105095162A CN105095162A CN201410211478.9A CN201410211478A CN105095162A CN 105095162 A CN105095162 A CN 105095162A CN 201410211478 A CN201410211478 A CN 201410211478A CN 105095162 A CN105095162 A CN 105095162A
- Authority
- CN
- China
- Prior art keywords
- text
- dimension
- eigenwert
- similarity
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本相似度确定方法、装置、电子设备及系统,其中方法包括:获取至少两个文本;将所获取的各文本映射到主题空间;对映射至所述主题空间的各文本对应的向量进行降维处理;确定降维处理后的各文本所对应的表征文本特征的哈希函数;将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。本发明实施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度的计算效率。
Description
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及一种文本相似度确定方法、装置、电子设备及系统。
背景技术
文本相似度是指不同文本之间的语意关联程度,文本相似度的确定是文本挖掘和文本检索的核心工作之一,因此如何更好的进行文本相似度的确定一直是本领域技术人员极为关注的问题。
一般来说,单个文本可以直接表示为文本在单词空间中的一个向量,而文本相似度的计算则可以转化为向量之间欧氏距离或余弦距离的计算。在此基础上,现有技术进行文本相似度的确定方式主要为:将文本映射成单词空间中的一个向量,计算向量之间欧氏距离或余弦距离,再采用倒排索引或位置敏感哈希算法对文本进行索引,从而提高文本相似度确定的效率。
本发明的发明人在实现本发明的过程中发现:现有确定文本相似度的方式只是在单词空间进行文本相似度的确定,并没有考虑文本特征之间的关联和语义信息,因而一部分相似度的信息有可能丢失,使得所确定的文本相似度并不准确。
发明内容
有鉴于此,本发明实施例提供一种文本相似度确定方法、装置、电子设备及系统,以解决现有确定文本相似度的方式存在的所确定的文本相似度并不准确的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种文本相似度确定方法,包括:
获取至少两个文本;
将所获取的各文本映射到主题空间;
对映射至所述主题空间的各文本对应的向量进行降维处理;
确定降维处理后的各文本所对应的表征文本特征的哈希函数;
将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
本发明实施例还提供一种文本相似度确定装置,包括:
文本获取模块,用于获取至少两个文本;
映射模块,用于将所获取的各文本映射到主题空间;
降维模块,用于对映射至所述主题空间的各文本对应的向量进行降维处理;
哈希函数确定模块,用于确定降维处理后的各文本所对应的表征文本特征的哈希函数;
二值化处理模块,用于将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
海明距离确定模块,用于通过各文本对应的二进制编码,确定文本之间的海明距离;
相似度确定模块,用于通过文本之间的海明距离确定文本之间的文本相似度。
本发明实施例还提供一种电子设备,包括上述所述的文本相似度确定装置。
本发明实施例还提供一种文本相似度确定系统,包括:多个终端设备和网络服务器;
其中,所述多个终端设备,用于将各终端设备的文本上传至所述网络服务器;
所述网络服务器,用于获取各终端设备上传的文本,将所获取的各文本映射到主题空间,对映射至所述主题空间的各文本对应的向量进行降维处理,确定降维处理后的各文本所对应的表征文本特征的哈希函数,将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致,通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
基于上述技术方案,本发明实施例提供的文本相似度确定方法,将获取到的各文本映射至主题空间,将对映射至主题空间的各文本进行降维处理,通过确定降维处理后的各文本所对应的表征文本特征的哈希函数,得到各文本所对应的二进制编码,通过各文本对应的二进制编码,确定文本之间的海明距离,进而通过文本之间的海明距离确定文本之间的文本相似度,实现文本之间相似度的确定。本发明实施例提供的文本相似度确定方法,将文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及到文本特征之间的关联和语义信息,使得文本相似度的确定具有更高的准确性,同时将文本之间文本相似度的计算转变为对文本之间的对应海明距离的计算,可使得文本之间文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。本发明实施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度的计算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本相似度确定方法的流程图;
图2为本发明实施例提供的文本由单词空间映射至主题空间的示意图;
图3为本发明实施例提供的文本之间海明距离确定示意图;
图4为本发明实施例提供的确定哈希函数的方法流程图;
图5为本发明实施例提供的文本相似度确定方法的另一流程图;
图6为本发明实施例提供的文本相似度确定装置的结构框图;
图7为本发明实施例提供的哈希函数确定模块的结构框图;
图8为本发明实施例提供的计算单元的结构框图;
图9为本发明实施例提供的二值化处理模块的结构框图;
图10为本发明实施例提供的文本相似度确定装置的另一结构框图;
图11为本发明实施例提供的电子设备的硬件结构框图;
图12为本发明实施例提供的文本相似度确定系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的文本相似度确定方法的流程图,该方法可应用于用户侧设备(如笔记本电脑、手机等终端设备),也可应用于网络侧设备(如服务器等设备),参照图1,该方法可以包括:
步骤S100、获取至少两个文本;
可选的,至少两个文本可以包括海量文本,本发明实施例可对海量文本中文本间的相似度进行确定。本发明实施例中文本的数据来源可以来自于各种不同渠道,本发明实施例对此并不设限;如对于用户侧设备而言,可以是从网络所获取的文本,也可以是本地存储的文本;如对于网络侧设备而言,可以是所采集的各用户侧设备上传至网络的文本。
步骤S110、将所获取的各文本映射到主题空间;
可选的,本发明实施例可通过潜在语意分析(LSA)、概率潜在语意分析(pLSA)、潜在狄利克雷分配(LDA)和word2vec等主题建模技术,将所获取的各文本映射到主题空间中,主题空间的主题个数可依据需要进行设定。
为使文本至主题空间的映射更为准确,本发明实施例可将文本先映射至单词空间(即由单词构成的特征空间),再将文本由单词空间映射到主题空间,图2示出了文本由单词空间映射至主题空间的示意图,可进行参照
由于主题空间的主题是基于文本特征之间的关联信息和语义信息建立,因此将文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及到文本特征之间的关联信息和语义信息,相比与现有仅将文本映射到单词空间进行文本相似度确定的方式可具有更高的相似度确定准确性。
步骤S120、对映射至所述主题空间的各文本对应的向量进行降维处理;
可选的,本发明实施例可通过主成分分析(PrincipalComponentAnalysis,PCA)对映射至主题空间的各文本对应的向量进行降维处理。主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
降维处理可以认为是,将各文本对应的向量从主题空间映射至另一个线性空间,该线性空间的维度小于主题空间的维度。
步骤S130、确定降维处理后的各文本所对应的表征文本特征的哈希函数;
步骤S140、将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
步骤S150、通过各文本对应的二进制编码,确定文本之间的海明距离(HammingDistance),通过文本之间的海明距离确定文本之间的文本相似度。
可选的,通过各文本对应的二进制编码,确定文本之间的海明距离可以是:比较各二进制编码中相同比特位值相同的数目,如二值编码“01010101”和二值编码“01100110”共有四个比特位对应的值相同,因此他们之间的海明距离为4,可参见图3所示。值得注意的是,文本之间的海明距离越小,则表示文本在空间中的距离越小,文本之间的文本相似度越高。
由于主题空间的维度相对较高,因此通过主题空间直接进行文本相似度的确定将存在较大的计算量,本发明实施例将映射至主题空间的各文本的空间维度进行降维处理,并且通过所确定的降维处理后的各文本所对应的哈希函数,确定各文本所对应的二进制编码,进而将文本之间文本相似度的计算转变为对文本之间的二进制编码的海明距离的计算,使得文本之间文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。
本发明实施例提供的文本相似度确定方法,将获取到的各文本映射至主题空间,将对映射至主题空间的各文本进行降维处理,通过确定降维处理后的各文本所对应的表征文本特征的哈希函数,得到各文本所对应的二进制编码,通过各文本对应的二进制编码,确定文本之间的海明距离,进而通过文本之间的海明距离确定文本之间的文本相似度,实现文本之间相似度的确定。本发明实施例提供的文本相似度确定方法,将文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及到文本特征之间的关联和语义信息,使得文本相似度的确定具有更高的准确性,同时将文本之间文本相似度的计算转变为对文本之间的对应海明距离的计算,可使得文本之间文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。本发明实施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度的计算效率。
可选的,本发明实施例可定义降维处理后的各文本对应的空间维度数为k,本发明实施例对映射至所述主题空间的各文本对应的向量进行降维处理后,可使得降维处理后的各文本对应的空间维度数为k。
为便于理解,可设文本所映射至的主题空间为线性空间Rd,其中d为主题空间的维度数,经过降维处理后文本所在的线性空间为Rk,其中k为降维处理后的文本所在空间的维度数,则本发明实施例可将每一个文本对应的向量由维度为d的主题空间Rd映射到维度为k的线性空间Rk从而实现降维,其中k小于d。
在本发明实施例中,k可以依据际应用情况进行设定,本发明实施例并不作限制,但需保证k小于主题空间的空间维度数。
可选的,文本所对应的表征文本特征的哈希函数可以包括k个特征函数,该k个特征函数对应的k个特征值符合设定条件,一个特征值对应一个特征函数。设定条件可选为k个特征函数所对应的k个特征值为降维处理后的文本所对应的所有空间维度对应的特征值中最小的k个。
下面针对一种可选的哈希函数计算过程进行描述,参照图4,图4为本发明实施例提供的确定哈希函数的方法流程图,参照图4,该方法可以包括:
步骤S200、对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征函数和特征值,一个特征值对应一个特征函数;
对于每个文本的每个空间维度,本发明实施例可计算数量与k一致的特征函数和特征值,即对于每个文本的每个空间维度,可计算k个特征函数和k个特征值;由于每个文本均对应有数量为k的空间维度,则每个文本可得到k*k个的特征函数和特征值,即特征函数的数量为k*k,特征值的数量也为k*k,一个特征值对应一个特征函数。
步骤S210、对于每个文本,在计算出文本所对应的所有空间维度对应的特征函数和特征值后,选取计算结果中特征值的值排序最小的前k个的特征值所对应的特征函数作为文本对应的哈希函数。
对于每个文本,本发明实施例在得到k*k个特征值后,可对该k*k个特征值按照值的大小进行排序,从而选取前k个值最小的特征值所对应的特征函数作为哈希函数。
可选的,对于降维处理后的每个文本所对应的每个空间维度,本发明实施例可通过下述公式1计算数量与k一致的特征函数;
其中,φi(x)表示第i维对应的特征函数,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值,i为1~k的整数。
可选的,对于降维处理后的每个文本所对应的每个空间维度,本发明实施例可通过下述公式2计算数量与k一致的特征值;
其中,λi表示第i维对应的特征值,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值,ε为模型参数,可根据实际需要进行设定与调整,i为1~k的整数。
在得到各文本所对应哈希函数后,可对各文本所对应哈希函数进行二值化处理,得到各文本对应的二进制编码,各文本的二进制编码的长度均为k。可选的,一种对哈希函数进行二值化处理的方式可以为:对于各文本,将所选取的k个特征函数分别进行二值化处理,得到长度为k的二进制编码。可选的,本发明实施例可将所选取的各文本所对应的k个特征函数依序分别带入下述公式3,得到长度为k的二进制编码。可选的,可以是将所述k个特征函数按照特征函数所对应的特征值由小至大的顺序,依序将特征函数带入下述公式3得到k个编码值,即特征值最小所对应的特征函数第一个代入,特征值第二小所对应的特征函数第二个代入,依次类推,按照得到编码值的前后顺序排列编码值,得到长度为k的二进制编码。所代入的公式3可以为:
yn(x)=sign(φn(x))(公式3)
其中,φn(x)表示第n个特征函数,n为1~k的整数。由于特征函数的形式是正弦函数,为奇函数,因此在φi(x)为正时,对应的二进制编码为1,在φi(x)为负时,对应的二进制编码为0。
为便于理解本发明实施例提供的文本相似度确定方法,下面以需要确定文本相似度的文本为2个(分别是文本1和文本2),主题空间Rd的维度为d,进行主成分分析降维处理后的空间Rk的空间维度为k为例,对本发明实施例提供的文本相似度确定方法进行介绍。值得注意的是,下文描述仅为便于理解,本发明实施例,其不应成为本发明保护范围的限制。
图5为本发明实施例提供的文本相似度确定方法的另一流程图,参照图5,该方法可以包括:
步骤S300、获取文本1和文本2;
步骤S310、分别将文本1和文本2映射至单词空间;
步骤S320、将映射至单词空间的文本1和文本2分别映射至主题空间;
步骤S330、通过主成分分析降维处理,分别将文本1和文本2对应的向量由维度为d的主题空间Rd映射到维度为k的空间Rk;
步骤S340、在空间Rk,对于文本1对应的每个空间维度,计算文本1对应的每个空间维度的前k个特征函数和前k个特征值,及,对于文本2对应的每个空间维度,计算文本2对应的每个空间维度的前k个特征函数和前k个特征值;
可选的,可通过公式1计算特征函数,通过公式2计算特征值,其中一个特征值对应一个特征函数。
步骤S350、对于文本1,选取所得到的所有特征值中值排序最小的前k个的特征值所对应的特征函数作为文本1对应的哈希函数,对于文本2,选取所得到的所有特征值中值排序最小的前k个的特征值所对应的特征函数作为文本2对应的哈希函数;
步骤S360、对于文本1,将所选取的k个特征函数分别进行二值化处理,得到长度为k的二进制编码,对于文本2,将所选取的k个特征函数分别进行二值化处理,得到长度为k的二进制编码;
可选的,可将文本1所对应的k个特征函数按照对应特征值由小至大的顺序,依序带入公式3中得到k个编码值,按照得到编码值的前后顺序排列编码值,得到长度为k的二进制编码;得到文本2对应的长度为k的二进制编码的方式可与此同理。
步骤S370、通过文本1对应的长度为k的二进制编码与文本2对应的长度为k的二进制编码确定文本1与文件2之间的海明距离;
步骤S380、通过文本1与文件2之间的海明距离,确定确定文本1和文本2之间的文本相似度。
文本之间的海明距离越小,则表示文本在空间中的距离越小,文本之间的文本相似度越高。
可选的,在确定了文本之间的海明距离后,可通过文本之间的海明距离进行关联文本的搜索。本发明实施例可在确定文本之间的海明距离后,可将文本之间的海明距离符合预定条件的关联文本作为搜索结果。预定条件可以是一个海明距离值,也可以是一个海明距离值范围。
本发明实施例提供的文本相似度确定方法可在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度计算的效率。
下面对本发明实施例提供的文本相似度确定装置进行介绍,下文描述的文本相似度确定装置与上文描述的文本相似度确定方法可相互对应参照。
图6为本发明实施例提供的文本相似度确定装置的结构框图,参照图6,该装置可以包括:
文本获取模块100,用于获取至少两个文本;
映射模块200,用于将所获取的各文本映射到主题空间;
降维模块300,用于对映射至所述主题空间的各文本对应的向量进行降维处理;
哈希函数确定模块400,用于确定降维处理后的各文本所对应的表征文本特征的哈希函数;
二值化处理模块500,用于将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
海明距离确定模块600,用于通过各文本对应的二进制编码,确定文本之间的海明距离;
相似度确定模块700,用于通过文本之间的海明距离确定文本之间的文本相似度。
可选的,哈希函数确定模块400所确定哈希函数可以包括k个特征函数,所述k个特征函数对应的k个特征值符合设定条件,一个特征值对应一个特征函数;所述k与降维处理后的各文本对应的空间维度数一致。
可选的,所述设定条件可以包括:所述k个特征函数所对应的k个特征值为降维处理后的文本所对应的所有空间维度对应的特征值中最小的k个。对应的,图7示出了哈希函数确定模块400的一种可选结构,参照图7,哈希函数确定模块400可以包括:
计算单元410,用于对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征函数和特征值,一个特征值对应一个特征函数;
选取单元420,用于对于每个文本,在计算出文本所对应的所有空间维度对应的特征函数和特征值后,选取计算结果中特征值的值排序最小的前k个的特征值所对应的特征函数作为文本对应的哈希函数。
可选的,计算单元410可通过公式计算特征函数,通过公式计算特征值;对应的,图8示出了计算单元410的一种可选结构,参照图8,计算单元410可以包括:
特征函数计算子单元411,用于对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征函数,其中,φi(x)表示第i维对应的特征函数,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值;
特征值计算子单元412,用于对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征值,其中,λi表示第i维对应的特征值,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值。
可选的,ε为模型参数,可根据实际需要进行设定与调整,i为1~k的整数。
可选的,图9示出了二值化处理模块500的一种可选结构,参照图9,二值化处理模块500可以包括:
二值化计算单元510,用于对于各文本,将所述k个特征函数按照特征函数所对应的特征值由小至大的顺序,依序将特征函数代入公式yn(x)=sign(φn(x))得到k个编码值,按照得到编码值的前后顺序排列编码值,得到长度为k的二进制编码;其中,φn(x)表示第n个特征函数,n=1~k的整数。
可选的,本发明实施例在确定了文本之间的海明距离后,可通过文本之间的海明距离进行关联文本的搜索。对应的,图10示出了本发明实施例提供的文本相似度确定装置的另一结构,结合图6和图10所示,图10所示文本相似度确定装置还可以包括:
搜索确定模块800,用于在确定文本之间的海明距离后,将文本之间的海明距离符合预定条件的关联文本作为搜索结果。
本发明实施例提供的文本相似度确定装置,将获取到的各文本映射至主题空间,将对映射至主题空间的各文本进行降维处理,通过确定降维处理后的各文本所对应的表征文本特征的哈希函数,得到各文本所对应的二进制编码,通过各文本对应的二进制编码,确定文本之间的海明距离,进而通过文本之间的海明距离确定文本之间的文本相似度,实现文本之间相似度的确定。本发明实施例提供的文本相似度确定方法,将文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及到文本特征之间的关联和语义信息,使得文本相似度的确定具有更高准确性,同时将文本之间文本相似度的计算转变为对文本之间的对应海明距离的计算,可使得文本之间文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。本发明实施例在保证文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度计算的效率。
本发明实施例还提供一种电子设备,该电子设备可以是用户侧设备,也可以是网络侧设备,该电子设备可以包括上文所述的文本相似度确定装置,关于文本相似度确定装置的介绍可参照上文对应部分的描述,此处不再赘述。
下面从硬件角度,对本发明实施例提供的电子设备进行介绍,下文涉及文本相似度确定方法流程的描述可参照上文对应部分的描述;可选的,电子设备可以是用户侧设备,也可以是网络侧设备。
图11示出了本发明实施例提供的电子设备的硬件结构框图,参照图11,该电子设备可以包括:处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2和存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1,用于执行程序;
存储器3,用于存放程序;
程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
获取至少两个文本;
将所获取的各文本映射到主题空间;
对映射至所述主题空间的各文本对应的向量进行降维处理;
确定降维处理后的各文本所对应的表征文本特征的哈希函数;
将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
下面以应用有本发明实施例提供的文本相似度确定方法的电子设备为网络侧设备,具体选取网络服务器为例,对本发明实施例提供的一种可选的文本相似度确定系统的结构进行介绍。下文描述中涉及文本相似度确定方法的部分,可与上文对应部分参照。
图12为本发明实施例提供的文本相似度确定系统的结构框图,参照图12,该系统可以包括:多个终端设备10和网络服务器20;
其中,多个终端设备10,用于将各终端设备的文本上传至网络服务器20;
可选的,一种可以预见的场景可以为多个SNS(SocialNetworkingServices,社会性网络服务)用户通过各自的终端设备,将SNS状态或SNS日志等上传至网络服务器10;显然,本发明实施例并不排除其他场景,只要多个终端设备向网络服务器上传有文本均可认为在本发明实施例要求的保护范围内。
网络服务器20,用于获取各终端设备上传的文本,将所获取的各文本映射到主题空间,对映射至所述主题空间的各文本对应的向量进行降维处理,确定降维处理后的各文本所对应的表征文本特征的哈希函数,将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致,通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
本发明实施例提供的文本相似度确定系统,网络服务器将所获取的多个终端设备上传的各文本映射至主题空间后再进行后续的文本相似度确定,可使得文本相似度的确定过程中涉及到文本特征之间的关联和语义信息,使得文本相似度的确定具有更高准确性,同时将文本之间文本相似度的计算转变为对文本之间的对应海明距离的计算,可使得文本之间文本相似度的计算量大幅减小,极大的提高了文本之间文本相似度计算的效率。本发明实施例在保证对多个终端设备上传至网络服务器的文本之间的文本相似度确定的准确性的前提下,减小了文本相似度计算的计算量,提高了文本相似度计算的效率。
显然,应用有本发明实施例提供的文本相似度确定方法的电子设备也可以是用户侧设备,用户侧设备可通过本发明实施例提供的文本相似度确定方法对从网络获取的多个文本,或本地存储的文本进行文本相似度的确定。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种文本相似度确定方法,其特征在于,包括:
获取至少两个文本;
将所获取的各文本映射到主题空间;
对映射至所述主题空间的各文本对应的向量进行降维处理;
确定降维处理后的各文本所对应的表征文本特征的哈希函数;
将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
2.根据权利要求1所述的文本相似度确定方法,其特征在于,所述哈希函数包括k个特征函数,所述k个特征函数对应的k个特征值符合设定条件,一个特征值对应一个特征函数;所述k与降维处理后的各文本对应的空间维度数一致。
3.根据权利要求2所述的文本相似度确定方法,其特征在于,所述设定条件包括:所述k个特征函数所对应的k个特征值,为降维处理后的文本所对应的所有空间维度对应的特征值中最小的k个;
所述确定降维处理后的各文本所对应的表征文本特征的哈希函数包括:
对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征函数和特征值,一个特征值对应一个特征函数;
对于每个文本,在计算出文本所对应的所有空间维度对应的特征函数和特征值后,选取计算结果中特征值的值排序最小的前k个的特征值所对应的特征函数作为文本对应的哈希函数。
4.根据权利要求3所述的文本相似度确定方法,其特征在于,所述对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征函数包括:
对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征函数;
其中,φi(x)表示第i维对应的特征函数,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值。
5.根据权利要求3所述的文本相似度确定方法,其特征在于,所述对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征值包括:
对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征值;
其中,λi表示第i维对应的特征值,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值。
6.根据权利要求2-5任一项所述的文本相似度确定方法,其特征在于,所述将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码包括:
对于各文本,将所述k个特征函数按照特征函数所对应的特征值由小至大的顺序,依序将特征函数代入公式yn(x)=sign(φn(x))得到k个编码值,按照得到编码值的前后顺序排列编码值,得到长度为k的二进制编码;其中,φn(x)表示第n个特征函数,n为1~k的整数。
7.根据权利要求1所述的文本相似度确定方法,其特征在于,所述方法还包括:
在确定文本之间的海明距离后,将文本之间的海明距离符合预定条件的关联文本作为搜索结果。
8.一种文本相似度确定装置,其特征在于,包括:
文本获取模块,用于获取至少两个文本;
映射模块,用于将所获取的各文本映射到主题空间;
降维模块,用于对映射至所述主题空间的各文本对应的向量进行降维处理;
哈希函数确定模块,用于确定降维处理后的各文本所对应的表征文本特征的哈希函数;
二值化处理模块,用于将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致;
海明距离确定模块,用于通过各文本对应的二进制编码,确定文本之间的海明距离;
相似度确定模块,用于通过文本之间的海明距离确定文本之间的文本相似度。
9.根据权利要求8所述的文本相似度确定装置,其特征在于,所述哈希函数包括k个特征函数,所述k个特征函数对应的k个特征值符合设定条件,一个特征值对应一个特征函数;所述k与降维处理后的各文本对应的空间维度数一致。
10.根据权利要求9所述的文本相似度确定装置,其特征在于,所述设定条件包括:所述k个特征函数所对应的k个特征值,为降维处理后的文本所对应的所有空间维度对应的特征值中最小的k个;
所述哈希函数确定模块包括:
计算单元,用于对于降维处理后的每个文本所对应的每个空间维度,计算数量与k一致的特征函数和特征值,一个特征值对应一个特征函数;
选取单元,用于对于每个文本,在计算出文本所对应的所有空间维度对应的特征函数和特征值后,选取计算结果中特征值的值排序最小的前k个的特征值所对应的特征函数作为文本对应的哈希函数。
11.根据权利要求10所述的文本相似度确定装置,其特征在于,所述计算单元包括:
特征函数计算子单元,用于对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征函数,其中,φi(x)表示第i维对应的特征函数,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值;
特征值计算子单元,用于对于降维处理后的每个文本所对应的每个空间维度,通过公式计算数量与k一致的特征值,其中,λi表示第i维对应的特征值,x表示文本对应向量在降维后的空间中第i维对应的值,b表示所有文本对应向量在第i维对应的值中的最大值,a表示所有文本对应向量在第i维对应的值中的最小值。
12.根据权利要求9-11任一项所述的文本相似度确定装置,其特征在于,所述二值化处理模块包括:
二值化计算单元,用于对于各文本,将所述k个特征函数按照特征函数所对应的特征值由小至大的顺序,依序将特征函数代入公式yn(x)=sign(φn(x))得到k个编码值,按照得到编码值的前后顺序排列编码值,得到长度为k的二进制编码;其中,φn(x)表示第n个特征函数,n=1~k的整数。
13.根据权利要求8所述的文本相似度确定装置,其特征在于,所述装置还包括:
搜索确定模块,用于在确定文本之间的海明距离后,将文本之间的海明距离符合预定条件的关联文本作为搜索结果。
14.一种电子设备,其特征在于,包括:权利要求8-13任一项所述的文本相似度确定装置。
15.一种文本相似度确定系统,其特征在于,包括:多个终端设备和网络服务器;
其中,所述多个终端设备,用于将各终端设备的文本上传至所述网络服务器;
所述网络服务器,用于获取各终端设备上传的文本,将所获取的各文本映射到主题空间,对映射至所述主题空间的各文本对应的向量进行降维处理,确定降维处理后的各文本所对应的表征文本特征的哈希函数,将各文本所对应的哈希函数进行二值化处理,得到各文本所对应的二进制编码,各文本所对应的二进制编码的长度一致,通过各文本对应的二进制编码,确定文本之间的海明距离,通过文本之间的海明距离确定文本之间的文本相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410211478.9A CN105095162A (zh) | 2014-05-19 | 2014-05-19 | 文本相似度确定方法、装置、电子设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410211478.9A CN105095162A (zh) | 2014-05-19 | 2014-05-19 | 文本相似度确定方法、装置、电子设备及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105095162A true CN105095162A (zh) | 2015-11-25 |
Family
ID=54575639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410211478.9A Pending CN105095162A (zh) | 2014-05-19 | 2014-05-19 | 文本相似度确定方法、装置、电子设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095162A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202294A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 基于关键词和主题模型融合的相关新闻计算方法及装置 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN106850924A (zh) * | 2017-01-23 | 2017-06-13 | 北京奇虎科技有限公司 | 通讯录数据处理方法及处理终端 |
CN107229939A (zh) * | 2016-03-24 | 2017-10-03 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN107491423A (zh) * | 2016-06-12 | 2017-12-19 | 北京云量数盟科技有限公司 | 一种基于数值‑字符串混合编码的中文文档基因量化与表征方法 |
CN107644010A (zh) * | 2016-07-20 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种文本相似度计算方法及装置 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN108550019A (zh) * | 2018-03-22 | 2018-09-18 | 阿里巴巴集团控股有限公司 | 一种简历筛选方法及装置 |
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
CN109299260A (zh) * | 2018-09-29 | 2019-02-01 | 上海晶赞融宣科技有限公司 | 数据分类方法、装置以及计算机可读存储介质 |
CN110297879A (zh) * | 2019-05-15 | 2019-10-01 | 平安科技(深圳)有限公司 | 一种基于大数据的数据去重的方法、装置及存储介质 |
CN111737406A (zh) * | 2020-07-28 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本检索方法、装置及设备、文本检索模型的训练方法 |
CN112417128A (zh) * | 2021-01-21 | 2021-02-26 | 中国平安人寿保险股份有限公司 | 话术推荐方法、装置、计算机设备及存储介质 |
CN112651221A (zh) * | 2019-10-10 | 2021-04-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101594313A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统 |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
CN102629261A (zh) * | 2012-03-01 | 2012-08-08 | 南京邮电大学 | 由钓鱼网页查找目标网页的方法 |
CN102819582A (zh) * | 2012-07-26 | 2012-12-12 | 华数传媒网络有限公司 | 一种海量图片快速检索方法 |
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
US20130254191A1 (en) * | 2011-12-06 | 2013-09-26 | The Trustees Of Columbia University In The City Of New York | Systems and methods for mobile search using bag of hash bits and boundary reranking |
US8676725B1 (en) * | 2009-06-05 | 2014-03-18 | Google Inc. | Method and system for entropy-based semantic hashing |
CN103729473A (zh) * | 2014-01-22 | 2014-04-16 | 扬州大学 | 一种基于lda主题模型的相关软件历史数据提取方法 |
CN103761254A (zh) * | 2013-12-26 | 2014-04-30 | 清华大学 | 多领域服务主题匹配推荐方法 |
-
2014
- 2014-05-19 CN CN201410211478.9A patent/CN105095162A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101594313A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统 |
US8676725B1 (en) * | 2009-06-05 | 2014-03-18 | Google Inc. | Method and system for entropy-based semantic hashing |
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
US20130254191A1 (en) * | 2011-12-06 | 2013-09-26 | The Trustees Of Columbia University In The City Of New York | Systems and methods for mobile search using bag of hash bits and boundary reranking |
CN102629261A (zh) * | 2012-03-01 | 2012-08-08 | 南京邮电大学 | 由钓鱼网页查找目标网页的方法 |
CN102819582A (zh) * | 2012-07-26 | 2012-12-12 | 华数传媒网络有限公司 | 一种海量图片快速检索方法 |
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
CN103761254A (zh) * | 2013-12-26 | 2014-04-30 | 清华大学 | 多领域服务主题匹配推荐方法 |
CN103729473A (zh) * | 2014-01-22 | 2014-04-16 | 扬州大学 | 一种基于lda主题模型的相关软件历史数据提取方法 |
Non-Patent Citations (2)
Title |
---|
李磊: "《网络工程师考试辅导》", 30 September 2009 * |
白秋产 等: "概念向量文本聚类算法", 《计算机工程与应用》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229939B (zh) * | 2016-03-24 | 2020-12-04 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN107229939A (zh) * | 2016-03-24 | 2017-10-03 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN107491423B (zh) * | 2016-06-12 | 2021-03-30 | 北京云量数盟科技有限公司 | 一种基于数值-字符串混合编码的中文文档基因量化与表征方法 |
CN107491423A (zh) * | 2016-06-12 | 2017-12-19 | 北京云量数盟科技有限公司 | 一种基于数值‑字符串混合编码的中文文档基因量化与表征方法 |
CN106202294A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 基于关键词和主题模型融合的相关新闻计算方法及装置 |
CN107644010A (zh) * | 2016-07-20 | 2018-01-30 | 阿里巴巴集团控股有限公司 | 一种文本相似度计算方法及装置 |
CN106294689B (zh) * | 2016-08-05 | 2018-09-25 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN106850924A (zh) * | 2017-01-23 | 2017-06-13 | 北京奇虎科技有限公司 | 通讯录数据处理方法及处理终端 |
CN108550019A (zh) * | 2018-03-22 | 2018-09-18 | 阿里巴巴集团控股有限公司 | 一种简历筛选方法及装置 |
CN108595439A (zh) * | 2018-05-04 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
CN108595439B (zh) * | 2018-05-04 | 2022-04-12 | 北京中科闻歌科技股份有限公司 | 一种文字传播路径分析方法及系统 |
CN109299260A (zh) * | 2018-09-29 | 2019-02-01 | 上海晶赞融宣科技有限公司 | 数据分类方法、装置以及计算机可读存储介质 |
CN110297879A (zh) * | 2019-05-15 | 2019-10-01 | 平安科技(深圳)有限公司 | 一种基于大数据的数据去重的方法、装置及存储介质 |
CN110297879B (zh) * | 2019-05-15 | 2023-05-30 | 平安科技(深圳)有限公司 | 一种基于大数据的数据去重的方法、装置及存储介质 |
CN112651221A (zh) * | 2019-10-10 | 2021-04-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111737406A (zh) * | 2020-07-28 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本检索方法、装置及设备、文本检索模型的训练方法 |
CN111737406B (zh) * | 2020-07-28 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 文本检索方法、装置及设备、文本检索模型的训练方法 |
CN112417128A (zh) * | 2021-01-21 | 2021-02-26 | 中国平安人寿保险股份有限公司 | 话术推荐方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095162A (zh) | 文本相似度确定方法、装置、电子设备及系统 | |
TWI694341B (zh) | 一種資料樣本標籤處理方法、裝置及電腦設備 | |
WO2020073673A1 (zh) | 一种文本分析方法及终端 | |
WO2022126901A1 (zh) | 一种商品推荐方法及其相关设备 | |
CN113032580B (zh) | 关联档案推荐方法、系统及电子设备 | |
CN112449009B (zh) | 一种基于svd的联邦学习推荐系统通信压缩方法及装置 | |
Xu et al. | A new sampling strategy willow tree method with application to path-dependent option pricing | |
CN110909540B (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
Cooper et al. | Computing hypermatrix spectra with the Poisson product formula | |
CN107767070A (zh) | 用于信息推广的方法及装置 | |
CN104598937B (zh) | 文字信息的识别方法和装置 | |
CN103440292A (zh) | 基于比特向量的多媒体信息检索方法和系统 | |
CN103605653B (zh) | 基于稀疏哈希的大数据检索方法 | |
CN105718965A (zh) | 一种汉字书写字形识别方法及装置 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
Chiang et al. | High density QR code with multi‐view scheme | |
CN105302833A (zh) | 一种基于内容的视频检索数学模型建立方法 | |
CN105989284B (zh) | 网页入侵脚本特征的识别方法及设备 | |
Arockiaraj et al. | Vertex decomposition method for wirelength problem and its applications to enhanced hypercube networks | |
CN114840634B (zh) | 信息存储方法、装置、电子设备和计算机可读介质 | |
CN115862653A (zh) | 音频去噪方法、装置、计算机设备和存储介质 | |
Lee et al. | Bag‐of‐binary‐features for fast image representation | |
US10810028B2 (en) | Computer architecture for detecting members of correlithm object cores in a correlithm object processing system | |
Tian et al. | An approach to generate spatial Voronoi Treemaps for points, lines, and polygons | |
Li et al. | Spline approximation-based data compression for sensor arrays in the wireless hydrologic monitoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151125 |