CN116028626A - 文本匹配方法、装置、存储介质以及电子设备 - Google Patents
文本匹配方法、装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN116028626A CN116028626A CN202310066272.0A CN202310066272A CN116028626A CN 116028626 A CN116028626 A CN 116028626A CN 202310066272 A CN202310066272 A CN 202310066272A CN 116028626 A CN116028626 A CN 116028626A
- Authority
- CN
- China
- Prior art keywords
- text content
- model
- similarity
- initial text
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本匹配方法、装置、存储介质以及电子设备。涉及人工智能领域。该方法包括:获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。通过本申请,解决了相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。
Description
技术领域
本申请涉及人工智能领域,具体而言,涉及一种文本匹配方法、装置、存储介质以及电子设备。
背景技术
文本匹配是自然语言处理中的一项基本任务,被广泛应用于智能问答系统和信息检索领域。给定两句文本,匹配模型或系统需要判断两句话的语义是否相同,是一个典型的二分类判别任务。早期的文本匹配多是基于统计学习方法实现的,如BM25等,但是由于缺乏对文本语义层次的特征建模,在实际应用过程中效果往往不佳。近年来随着深度学习的快速发展,出现并使用一系列基于静态词向量的文本匹配方法确定文本是否匹配。
在深度学习时代,当前主流的文本匹配方法主要分为两大类:基于表示的方法和基于交互的方法。大多数基于表示的方法采用孪生网络架构,如Siamese-LSTM,利用度量学习等方式分别提取两句文本的高层次特征,之后通过距离计算判定文本相似度。此类匹配方法由于缺少对两句文本语义相关性的考虑,效果一般较差。基于交互式的方法,在模型结构中通常使用注意力机制进行两句话之间的特征交互,从而取得更好的匹配效果。大多数流行的预训练模型,在应用于文本匹配任务时都属于第二类,并且往往具备远超非预训练方法的能力。
以上提到的多种文本匹配方法包括传统方法在内,都有一个共同点,也即,直接将需要进行对比的两个文本输入单一的文本匹配模型中,通过文本匹配模型直接确定两个文本是否相同,并未对文本进行预处理,进而导致在输入模型后降低了模型的识别判断准确性。
针对相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种文本匹配方法、装置、存储介质以及电子设备,以解决相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。
根据本申请的一个方面,提供了一种文本匹配方法。该方法包括:获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。
可选地,在应用场景下判断初始文本内容是否存在错误包括:将初始文本内容进行分词,得到分词结果,其中,分词结果中包括多个词语;从词典库中获取应用场景下的历史词语修正记录,并判断多个词语中是否存在于历史词语修正记录中,得到判断结果;在判断结果表征多个词语中的至少一个词语存在于历史词语修正记录的情况下,确定初始文本内容存在错误;在判断结果表征多个词语均未存在于历史词语修正记录的情况下,确定初始文本内容不存在错误。
可选地,模型集群中包括词语匹配模型,将初始文本内容和对象文本内容输入词语匹配模型中,得到词语匹配模型输出的相似度分数包括:将初始文本内容按照第一粒度和第二粒度进行分词,得到第一分词结果和第二分词结果,其中,第一粒度小于第二粒度;将对象文本内容按照第一粒度和第二粒度进行分词,得到第三分词结果和第四分词结果;将粒度相同的第一分词结果和第三分词结果输入词语匹配模型中,得到第一相似度值;将粒度相同的第二分词结果和第四分词结果输入词语匹配模型中,得到第二相似度值;通过第一相似度值和第二相似度值确定词语匹配模型输出的相似度分数。
可选地,模型集群中包括关系判定模型,将初始文本内容和对象文本内容输入关系判定模型中,得到关系判定模型输出的相似度分数包括:将初始文本内容和对象文本内容输入关系判定模型中,得到判定结果,其中,判定结果用于确定初始文本内容和对象文本内容之间是否存在包含关系;在判定结果表征初始文本内容和对象文本内容之间存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第一分数;在判定结果表征初始文本内容和对象文本内容之间不存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第二分数,其中,第二分数小于第一分数。
可选地,模型集群中包括第一对比模型,将初始文本内容和对象文本内容输入第一对比模型中,得到第一对比模型输出的相似度分数包括:将初始文本内容和对象文本内容按照句子成分进行分词,得到两组第五分词结果;将两组第五分词结果输入第一对比模型中,得到第一对比结果,其中,第一对比模型用于确定初始文本内容和对象文本内容中句子成分相同的词语中是否存在反义词,第一对比结果中包括反义词的对数;从第一对比结果中获取反义词的对数,并根据对数确定第一对比模型输出的相似度分数。
可选地,模型集群中包括第二对比模型,将初始文本内容和对象文本内容输入第二对比模型中,得到第二对比模型输出的相似度分数包括:通过词典库确定初始文本内容中的关键词,得到第一关键词;通过词典库确定对象文本内容中的关键词,得到第二关键词;将第一关键词与第二关键词输入第二对比模型,得到第二对比结果,其中,第二对比模型用于确定文本内容中的关键词的相似度;将第二对比结果确定为第二对比模型输出的相似度分数。
可选地,在通过词典库确定初始文本内容中的关键词,得到第一关键词之前,该方法还包括:通过词典库确定初始文本内容和对象文本内容中是否均存在关键词;在初始文本内容或对象文本内容中不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第二分数;在初始文本内容和对象文本内容中均不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第一分数。
根据本申请的另一方面,提供了一种文本匹配装置。该装置包括:获取单元,用于获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;输入单元,用于在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;第一确定单元,用于将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质用于存储程序,其中,程序运行时控制计算机存储介质所在的设备执行一种文本匹配方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包含一个或多个处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种文本匹配方法。
通过本申请,采用以下步骤:获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。解决了相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。通过先对需要进行对比的文本内容进行内容正确与否的确定,在文本内容无误的情况下,通过多个模型依次对初始文本内容与对象文本内容进行判断,得到多个相似度结果,并通过多个相似度结果综合进行判断,进而达到了准确的判断两个文本内容是否匹配的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文本匹配方法的流程图;
图2是根据本申请实施例提供的判断初始文本正误的步骤流程图;
图3是根据本申请实施例提供的文本匹配装置的示意图;
图4为根据本申请实施例提供的一种电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
需要说明的是,本公开所确定的文本匹配方法、装置、存储介质以及电子设备可用于人工智能领域,也可用于除人工智能领域之外的任意领域,本公开所确定的文本匹配方法、装置、存储介质以及电子设备的应用领域不做限定。
根据本申请的实施例,提供了一种文本匹配方法。
图1是根据本申请实施例提供的文本匹配方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景。
需要说明的是,对比文本内容可以为存在预设结果的预设文本,在获取到用户发送的初始文本内容后,需要根据初始文本内容确定该用户想要获取的信息或是想要执行的请求,并依次将初始文本内容与数据库中存储的每个对比文本内容依次进行对比,从而可以确定与初始文本内容最相近的文本信息,并将该文本对应的预设结果确定为该用户的预设结果。
具体的,在进行文本匹配的时候,首先,先获取用户发送的初始文本内容,其中,初始文本内容可以为用户的需求,可以通过语音或打字的方式进行输入,在获取到初始文本内容后,可以从多个现有的对象文本内容中选取任意一个对象文本内容,从而确定初始文本内容与对象文本内容之间的相似度,也即匹配度。在依次确认初始文本内容与每个对象文本内容之间的相似度后,即可从中选取相似度最高到的对象文本内容确定为该初始文本内容对应的文本内容,并将该对象文本内容对应的信息反馈至用户。
需要补充的是,在确定了对象文本内容后,首先确定对象文本内容的应用场景,由于不同场景中经常出现的易错词不同,并且不同场景下使用的词语不同,在某些场景下A词语可能是错误的词,而其他场景下A词语就是正确的词,因此,需要确定在应用场景下初始文本内容中是否存在错误。
步骤S102,在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数。
具体的,在初始文本内容不存在错误的情况下,需要将初始文本内容和对象文本内容输入多个预训练的机器学习模型中,从而通过多个模型从多个角度确定初始文本内容和对象文本内容之间的相似度分数,进而可以从多个角度对初始文本内容和对象文本内容之间的相似度进行评价。
步骤S103,将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。
具体的,在得到多个相似度分数后,可通过使用逻辑回归模型对多项评分结果进行分类判定,将上述多个相似度分数作为不同维度的特征,共同输入到二分类逻辑回归模型,进行最终匹配结果预测,从而确定初始文本内容和对象文本内容是否为一致的文本内容,其中,在确定是否一致的时候,可以同通过逻辑回归模型处理上述得到的多个相似度分数,并根据多个相似度分数进行逻辑回归计算,得到相似度分值,并可以从初始文本内容与多个对象文本内容的相似度分值中将分值最高的对象文本内容确定为与初始文本内容最相近的文本。
本申请实施例提供的文本匹配方法,通过获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。解决了相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。通过先对需要进行对比的文本内容进行内容正确与否的确定,在文本内容无误的情况下,通过多个模型依次对初始文本内容与对象文本内容进行判断,得到多个相似度结果,并通过多个相似度结果综合进行判断,进而达到了准确的判断两个文本内容是否匹配的效果。
可选地,图2是根据本申请实施例提供的判断初始文本正误的步骤流程图,如图2所示,在本申请实施例提供的文本匹配方法中,步骤S102中,在应用场景下判断初始文本内容是否存在错误包括:
步骤S201,将初始文本内容进行分词,得到分词结果,其中,分词结果中包括多个词语;步骤S202,从词典库中获取应用场景下的历史词语修正记录,并判断多个词语中是否存在于历史词语修正记录中,得到判断结果;步骤S203,在判断结果表征多个词语中的至少一个词语存在于历史词语修正记录的情况下,确定初始文本内容存在错误;步骤S204,在判断结果表征多个词语均未存在于历史词语修正记录的情况下,确定初始文本内容不存在错误。
具体的,由于在不同的语言环境下,相同的词语的正确与否是不同的,例如,在学校的场景下,“钢材”这个词语较大概率是错误的,对应的正确的词语是“刚才”,但是在建筑工地的场景下,“钢材”这个词语就是正确的。
为了能够及时发现上述问题,在确定初始文本内容中是否存在错误的时候,可以获取当前应用场景下的历史词语修正记录,其中,历史词语修正记录中包括多对历史词语修改记录,每对记录中包括错误词语和对应的正确词语,在将初始文本内容进行分词后,可以依次确定得到的多个词语中是否存在记录在词典库中的错误词语,并在存在记录在词典库中的错误词语的情况下,将该词语确定为错误词语,并使用该错误词语对应的正确词语替换初始文本内容中的错误词语,进而达到了对初始文本内容进行修改的效果。
可选地,在本申请实施例提供的文本匹配方法中,模型集群中包括词语匹配模型,将初始文本内容和对象文本内容输入词语匹配模型中,得到词语匹配模型输出的相似度分数包括:将初始文本内容按照第一粒度和第二粒度进行分词,得到第一分词结果和第二分词结果,其中,第一粒度小于第二粒度;将对象文本内容按照第一粒度和第二粒度进行分词,得到第三分词结果和第四分词结果;将粒度相同的第一分词结果和第三分词结果输入词语匹配模型中,得到第一相似度值;将粒度相同的第二分词结果和第四分词结果输入词语匹配模型中,得到第二相似度值;通过第一相似度值和第二相似度值确定词语匹配模型输出的相似度分数。
具体的,词语匹配模型可以通过词语间的相似程度对两个文本内容的相似度进行确定,为了提高词语匹配模型的准确度,可以将将初始文本内容按照第一粒度和第二粒度进行分词,并将对象文本内容按照第一粒度和第二粒度进行分词,从而通过两个分词粒度进行分词,例如,第一粒度为每个字进行一次分词,第二粒度可以为每两个字进行一次分词,进而在不同的分词粒度下对相同的文本内容进行对比,提高相似度分数的准确性。
可选地,在本申请实施例提供的文本匹配方法中,模型集群中包括关系判定模型,将初始文本内容和对象文本内容输入关系判定模型中,得到关系判定模型输出的相似度分数包括:将初始文本内容和对象文本内容输入关系判定模型中,得到判定结果,其中,判定结果用于确定初始文本内容和对象文本内容之间是否存在包含关系;在判定结果表征初始文本内容和对象文本内容之间存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第一分数;在判定结果表征初始文本内容和对象文本内容之间不存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第二分数,其中,第二分数小于第一分数。
需要说明的是,关系判定模型可以通过第一样本数据进行训练,其中,第一样本信息可以包括多组存在包含关系的文本内容,以及多组不存在包含关系的文本内容,在对关系判定模型进行训练后,使得关系判定模型可以确定两个文本内容之间是否存在包含关系。
具体的,在将初始文本内容和对象文本内容输入关系判定模型中,得到判定结果后,在判定结果表征初始文本内容和对象文本内容之间存在包含关系的情况下,可以确定初始文本内容和对象文本内容之间存在较大的相似度,因此,相似度分数可以确定为第一分数,同样的,在不存在包含关系的情况下,可以将较低的第二分数确定为相似度分数,但是并不能表征初始文本内容和对象文本内容的相似度低,仍需要进行其他维度的判断从而确定初始文本内容和对象文本内容之间的相似度。
可选地,在本申请实施例提供的文本匹配方法中,模型集群中包括第一对比模型,将初始文本内容和对象文本内容输入第一对比模型中,得到第一对比模型输出的相似度分数包括:将初始文本内容和对象文本内容按照句子成分进行分词,得到两组第五分词结果;将两组第五分词结果输入第一对比模型中,得到第一对比结果,其中,第一对比模型用于确定初始文本内容和对象文本内容中句子成分相同的词语中是否存在反义词,第一对比结果中包括反义词的对数;从第一对比结果中获取反义词的对数,并根据对数确定第一对比模型输出的相似度分数。
具体的,由于仅对词语进行比较的准确性较低,因此,还可以按照句子成分将初始文本内容和对象文本内容进行分词,也即,将两个文本内容按照主谓宾的句子成分进行分词,并将分词结果输入第一对比模型中进行对比,从而可以在句子成分的维度确定是否存在反义词,也即对立关系,例如,初始文本内容可以为“今天天气很好”,对象文本内容可以为“今天天气不好”,在仅通过分词的方式确定相似度的时候,由于两句话中相同的词语较多,因此可能会被误判为相似度很高,但是并不是相似的词语,通过按照句子成分进行分词后,对反义词进行识别和检测,进而可以在确定了存在多组反义词后,按照反义词的对数对相似度分数进行评分,达到了提高确定初始文本内容和对象文本内容之间的相似度的准确性的效果。
可选地,在本申请实施例提供的文本匹配方法中,模型集群中包括第二对比模型,将初始文本内容和对象文本内容输入第二对比模型中,得到第二对比模型输出的相似度分数包括:通过词典库确定初始文本内容中的关键词,得到第一关键词;通过词典库确定对象文本内容中的关键词,得到第二关键词;将第一关键词与第二关键词输入第二对比模型,得到第二对比结果,其中,第二对比模型用于确定文本内容中的关键词的相似度;将第二对比结果确定为第二对比模型输出的相似度分数。
具体的,词典库中还存储有多个关键词,可以为重要的实体词语,例如地名、人名、专有名词等词语,可以从初始文本内容和对象文本内容中分别获取每个文本内容的关键词,并将多个关键词输入第二对比模型中进行对比,从而通过确定关键词之间的相似度确定初始文本内容和对象文本内容之间的相似度分数。
可选地,在本申请实施例提供的文本匹配方法中,在通过词典库确定初始文本内容中的关键词,得到第一关键词之前,该方法还包括:通过词典库确定初始文本内容和对象文本内容中是否均存在关键词;在初始文本内容或对象文本内容中不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第二分数;在初始文本内容和对象文本内容中均不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第一分数。
具体的,在确定关键词的时候,可能存在不存在关键词的情况,在初始文本内容和对象文本内容中的任意一个文本内容不存在关键词,另一个文本内容存在关键词的情况下,将相似度分数确定为第二分数,例如0.5分,在初始文本内容和对象文本内容均不存在关键词的情况下,将相似度分数确定为第一分数,例如1分,从而在无法通过第二对比模型确定相似度分数的情况下,确定第二对比模型的相似度分数,确保后续通过多个维度的相似度分数进行计算时的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本匹配装置,需要说明的是,本申请实施例的文本匹配装置可以用于执行本申请实施例所提供的用于文本匹配方法。以下对本申请实施例提供的文本匹配装置进行介绍。
图3是根据本申请实施例提供的文本匹配装置的示意图。如图3所示,该装置包括:获取单元31,输入单元32,第一确定单元33。
获取单元31,用于获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景。
输入单元32,用于在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数。
第一确定单元33,用于将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。
本申请实施例提供的文本匹配装置,通过获取单元31获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景。输入单元32在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数。第一确定单元33将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。解决了相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。通过先对需要进行对比的文本内容进行内容正确与否的确定,在文本内容无误的情况下,通过多个模型依次对初始文本内容与对象文本内容进行判断,得到多个相似度结果,并通过多个相似度结果综合进行判断,进而达到了准确的判断两个文本内容是否匹配的效果。
可选地,在本申请实施例提供的文本匹配装置中,输入单元32包括:第一分词模块,用于将初始文本内容进行分词,得到分词结果,其中,分词结果中包括多个词语;第一判断模块,用于从词典库中获取应用场景下的历史词语修正记录,并判断多个词语中是否存在于历史词语修正记录中,得到判断结果;第一确定模块,用于在判断结果表征多个词语中的至少一个词语存在于历史词语修正记录的情况下,确定初始文本内容存在错误;第二确定模块,用于在判断结果表征多个词语均未存在于历史词语修正记录的情况下,确定初始文本内容不存在错误。
可选地,在本申请实施例提供的文本匹配装置中,模型集群中包括词语匹配模型,输入单元32包括:第二分词模块,用于将初始文本内容按照第一粒度和第二粒度进行分词,得到第一分词结果和第二分词结果,其中,第一粒度小于第二粒度;第三分词模块,用于将对象文本内容按照第一粒度和第二粒度进行分词,得到第三分词结果和第四分词结果;第一输入模块,用于将粒度相同的第一分词结果和第三分词结果输入词语匹配模型中,得到第一相似度值;第二输入模块,用于将粒度相同的第二分词结果和第四分词结果输入词语匹配模型中,得到第二相似度值;第三确定模块,用于通过第一相似度值和第二相似度值确定词语匹配模型输出的相似度分数。
可选地,在本申请实施例提供的文本匹配装置中,模型集群中包括关系判定模型,输入单元32包括:第三输入模块,用于将初始文本内容和对象文本内容输入关系判定模型中,得到判定结果,其中,判定结果用于确定初始文本内容和对象文本内容之间是否存在包含关系;第四确定模块,用于在判定结果表征初始文本内容和对象文本内容之间存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第一分数;第五确定模块,用于在判定结果表征初始文本内容和对象文本内容之间不存在包含关系的情况下,将关系判定模型输出的相似度分数确定为第二分数,其中,第二分数小于第一分数。
可选地,在本申请实施例提供的文本匹配装置中,模型集群中包括第一对比模型,输入单元32包括:第四分词模块,用于将初始文本内容和对象文本内容按照句子成分进行分词,得到两组第五分词结果;第四输入模块,用于将两组第五分词结果输入第一对比模型中,得到第一对比结果,其中,第一对比模型用于确定初始文本内容和对象文本内容中句子成分相同的词语中是否存在反义词,第一对比结果中包括反义词的对数;第六确定模块,用于从第一对比结果中获取反义词的对数,并根据对数确定第一对比模型输出的相似度分数。
可选地,在本申请实施例提供的文本匹配装置中,模型集群中包括第二对比模型,输入单元32包括:第七确定模块,用于通过词典库确定初始文本内容中的关键词,得到第一关键词;第八确定模块,用于通过词典库确定对象文本内容中的关键词,得到第二关键词;第五输入模块,用于将第一关键词与第二关键词输入第二对比模型,得到第二对比结果,其中,第二对比模型用于确定文本内容中的关键词的相似度;第九确定模块,用于将第二对比结果确定为第二对比模型输出的相似度分数。
可选地,在本申请实施例提供的文本匹配装置中,在通过词典库确定初始文本内容中的关键词,得到第一关键词之前,该装置还包括:第二确定单元,用于通过词典库确定初始文本内容和对象文本内容中是否均存在关键词;第三确定单元,用于在初始文本内容或对象文本内容中不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第二分数;第四确定单元,用于在初始文本内容和对象文本内容中均不存在关键词的情况下,将第二对比模型输出的相似度分数确定为第一分数。
上述文本匹配装置包括处理器和存储器,上述获取单元31,输入单元32,第一确定单元33等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决了相关技术中通过将文本输入单一模型进行相似度判断的准确性低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述文本匹配方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本匹配方法。
如图4所示,本发明实施例提供了一种电子设备,电子设备40包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和对象文本内容的应用场景;在应用场景下判断初始文本内容是否存在错误,在初始文本内容不存在错误的情况下,将初始文本内容和对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,模型集群中存在多个机器学习模型,每个机器学习模型用于确定初始文本内容和对象文本内容的相似度分数;将多个相似度分数输入逻辑回归模型中,得到初始文本内容和对象文本内容的相似度确定结果,并根据相似度确定结果确定初始文本内容和对象文本内容是否匹配。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本匹配方法,其特征在于,包括:
获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和所述对象文本内容的应用场景;
在所述应用场景下判断所述初始文本内容是否存在错误,在所述初始文本内容不存在错误的情况下,将所述初始文本内容和所述对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,所述模型集群中存在多个机器学习模型,每个机器学习模型用于确定所述初始文本内容和所述对象文本内容的相似度分数;
将多个相似度分数输入逻辑回归模型中,得到所述初始文本内容和所述对象文本内容的相似度确定结果,并根据所述相似度确定结果确定所述初始文本内容和所述对象文本内容是否匹配。
2.根据权利要求1所述的方法,其特征在于,在所述应用场景下判断所述初始文本内容是否存在错误包括:
将所述初始文本内容进行分词,得到分词结果,其中,所述分词结果中包括多个词语;
从词典库中获取所述应用场景下的历史词语修正记录,并判断所述多个词语中是否存在于所述历史词语修正记录中,得到判断结果;
在所述判断结果表征所述多个词语中的至少一个词语存在于所述历史词语修正记录的情况下,确定所述初始文本内容存在错误;
在所述判断结果表征所述多个词语均未存在于所述历史词语修正记录的情况下,确定所述初始文本内容不存在错误。
3.根据权利要求1所述的方法,其特征在于,所述模型集群中包括词语匹配模型,将所述初始文本内容和所述对象文本内容输入词语匹配模型中,得到词语匹配模型输出的相似度分数包括:
将所述初始文本内容按照第一粒度和第二粒度进行分词,得到第一分词结果和第二分词结果,其中,所述第一粒度小于所述第二粒度;
将所述对象文本内容按照所述第一粒度和所述第二粒度进行分词,得到第三分词结果和第四分词结果;
将粒度相同的第一分词结果和第三分词结果输入所述词语匹配模型中,得到第一相似度值;
将粒度相同的第二分词结果和第四分词结果输入所述词语匹配模型中,得到第二相似度值;
通过所述第一相似度值和所述第二相似度值确定所述词语匹配模型输出的相似度分数。
4.根据权利要求1所述的方法,其特征在于,所述模型集群中包括关系判定模型,将所述初始文本内容和所述对象文本内容输入关系判定模型中,得到关系判定模型输出的相似度分数包括:
将所述初始文本内容和所述对象文本内容输入所述关系判定模型中,得到判定结果,其中,所述判定结果用于确定所述初始文本内容和所述对象文本内容之间是否存在包含关系;
在所述判定结果表征所述初始文本内容和所述对象文本内容之间存在包含关系的情况下,将所述关系判定模型输出的相似度分数确定为第一分数;
在所述判定结果表征所述初始文本内容和所述对象文本内容之间不存在包含关系的情况下,将所述关系判定模型输出的相似度分数确定为第二分数,其中,所述第二分数小于所述第一分数。
5.根据权利要求1所述的方法,其特征在于,所述模型集群中包括第一对比模型,将所述初始文本内容和所述对象文本内容输入第一对比模型中,得到第一对比模型输出的相似度分数包括:
将所述初始文本内容和所述对象文本内容按照句子成分进行分词,得到两组第五分词结果;
将所述两组第五分词结果输入所述第一对比模型中,得到第一对比结果,其中,所述第一对比模型用于确定所述初始文本内容和所述对象文本内容中句子成分相同的词语中是否存在反义词,所述第一对比结果中包括反义词的对数;
从第一对比结果中获取所述反义词的对数,并根据所述对数确定所述第一对比模型输出的相似度分数。
6.根据权利要求1所述的方法,其特征在于,所述模型集群中包括第二对比模型,将所述初始文本内容和所述对象文本内容输入第二对比模型中,得到第二对比模型输出的相似度分数包括:
通过词典库确定所述初始文本内容中的关键词,得到第一关键词;
通过所述词典库确定所述对象文本内容中的关键词,得到第二关键词;
将所述第一关键词与所述第二关键词输入所述第二对比模型,得到第二对比结果,其中,所述第二对比模型用于确定文本内容中的关键词的相似度;
将所述第二对比结果确定为所述第二对比模型输出的相似度分数。
7.根据权利要求6所述的方法,其特征在于,在通过词典库确定所述初始文本内容中的关键词,得到第一关键词之前,所述方法还包括:
通过所述词典库确定所述初始文本内容和所述对象文本内容中是否均存在所述关键词;
在所述初始文本内容或所述对象文本内容中不存在所述关键词的情况下,将所述第二对比模型输出的相似度分数确定为第二分数;
在所述初始文本内容和所述对象文本内容中均不存在所述关键词的情况下,将所述第二对比模型输出的相似度分数确定为第一分数。
8.一种文本匹配装置,其特征在于,包括:
获取单元,用于获取用户发送的初始文本内容,并获取数据库中的任意一个对象文本内容和所述对象文本内容的应用场景;
输入单元,用于在所述应用场景下判断所述初始文本内容是否存在错误,在所述初始文本内容不存在错误的情况下,将所述初始文本内容和所述对象文本内容依次输入模型集群中的每个模型中,得到每个模型输出的相似度分数,其中,所述模型集群中存在多个机器学习模型,每个机器学习模型用于确定所述初始文本内容和所述对象文本内容的相似度分数;
第一确定单元,用于将多个相似度分数输入逻辑回归模型中,得到所述初始文本内容和所述对象文本内容的相似度确定结果,并根据所述相似度确定结果确定所述初始文本内容和所述对象文本内容是否匹配。
9.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序,其中,所述程序运行时控制所述计算机存储介质所在的设备执行权利要求1至7中任意一项所述的文本匹配方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066272.0A CN116028626A (zh) | 2023-01-12 | 2023-01-12 | 文本匹配方法、装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066272.0A CN116028626A (zh) | 2023-01-12 | 2023-01-12 | 文本匹配方法、装置、存储介质以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116028626A true CN116028626A (zh) | 2023-04-28 |
Family
ID=86070584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310066272.0A Pending CN116028626A (zh) | 2023-01-12 | 2023-01-12 | 文本匹配方法、装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028626A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188091A (zh) * | 2023-05-04 | 2023-05-30 | 品茗科技股份有限公司 | 造价清单自动匹配单价引用的方法、装置、设备及介质 |
-
2023
- 2023-01-12 CN CN202310066272.0A patent/CN116028626A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188091A (zh) * | 2023-05-04 | 2023-05-30 | 品茗科技股份有限公司 | 造价清单自动匹配单价引用的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US11016997B1 (en) | Generating query results based on domain-specific dynamic word embeddings | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
CN110597966A (zh) | 自动问答方法及装置 | |
US11734322B2 (en) | Enhanced intent matching using keyword-based word mover's distance | |
CN110781687B (zh) | 相同意图语句的获取方法及装置 | |
US20220351634A1 (en) | Question answering systems | |
CN110955766A (zh) | 一种自动扩充智能客服标准问题对的方法和系统 | |
EP3832485A1 (en) | Question answering systems | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN109522920B (zh) | 基于结合语义特征的同义判别模型的训练方法及设备 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN117573985B (zh) | 一种应用于智能化在线教育系统的信息推送方法及系统 | |
CN117290481A (zh) | 基于深度学习的问答方法、装置、存储介质及电子设备 | |
CN109993190B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN114691907B (zh) | 一种跨模态检索的方法、设备及介质 | |
CN110795562A (zh) | 图谱优化方法、装置、终端及存储介质 | |
CN116883179A (zh) | 金融产品投资策略的确定方法、装置、处理器及电子设备 | |
CN116150484A (zh) | 信息推送方法、装置、存储介质以及电子设备 | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
CN112632232B (zh) | 一种文本匹配方法、装置、设备及介质 | |
CN110929501B (zh) | 文本分析方法和装置 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |