CN112684909B - 输入法联想效果评测方法、装置、电子设备及存储介质 - Google Patents
输入法联想效果评测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112684909B CN112684909B CN202011591184.5A CN202011591184A CN112684909B CN 112684909 B CN112684909 B CN 112684909B CN 202011591184 A CN202011591184 A CN 202011591184A CN 112684909 B CN112684909 B CN 112684909B
- Authority
- CN
- China
- Prior art keywords
- association
- word
- input method
- prefix
- evaluation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 214
- 238000011156 evaluation Methods 0.000 title claims abstract description 200
- 230000000694 effects Effects 0.000 title claims abstract description 113
- 230000003068 static effect Effects 0.000 claims abstract description 87
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 7
- 101150041570 TOP1 gene Proteins 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 4
- 101150104012 TOP2 gene Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 101150032437 top-3 gene Proteins 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种输入法联想效果评测方法、装置、电子设备及存储介质,该方法包括:基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;基于静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果。本发明提供的一种输入法联想效果评测方法、装置、电子设备及存储介质,通过对多种类型的联想效果进行评测,使得评测结果更全面、更客观,提高了输入法联想效果评测的准确性。
Description
技术领域
本发明涉及输入法技术领域,尤其涉及一种输入法联想效果评测方法、装置、电子设备及存储介质。
背景技术
智能联想指的是输入法根据用户输入的上文,自动推荐下文可能的候选搭配词,从而降低用户输入时的击键次数,提高用户的输入速度。
智能联想的正确性是影响输入法用户体验效果的重要因素之一,现有的输入法联想效果的评测方法通常是基于预先设定的测试集实现的,而且测试集中每一前缀选词仅对应一个预期的后缀选词,现有的输入法联想效果的评测方法客观性较差,评测准确性较低。
发明内容
本发明提供一种输入法联想效果评测方法、装置、电子设备及存储介质,用以解决现有技术中客观性较差,评测准确性较低的缺陷。
本发明提供一种输入法联想效果评测方法,包括:
基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
基于所述静态评测结果和所述动态评测结果,确定所述待评测输入法的联想效果评测结果。
根据本发明提供的一种输入法联想效果评测方法,所述基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果,包括:
基于所述待评测输入法,以及所述第二联想词对集合中各个联想词对对应的用户信息,获取各个联想词对中前缀选词的联想结果;
基于各个联想词对中的后缀选词和前缀选词的联想结果,以及各个联想词对对应的用户信息,确定所述待评测输入法的动态评测结果。
根据本发明提供的一种输入法联想效果评测方法,所述基于各个联想词对中的后缀选词和前缀选词的联想结果,以及各个联想词对对应的用户信息,确定所述待评测输入法的动态评测结果,包括:
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,确定各个用户的动态评测结果;
基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到所述待评测输入法的动态评测结果,所述用户权重是基于对应用户使用所述待评测输入法的时间确定的。
根据本发明提供的一种输入法联想效果评测方法,所述基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果,包括:
基于所述待评测输入法以及所述第一联想词对集合中各个前缀选词,得到各个前缀选词的联想结果;
基于包含任一前缀选词的各个联想词对中的后缀选词,以及所述任一前缀选词的联想结果,确定所述任一前缀选词的静态评测结果;
基于每一前缀选词的静态评测结果,确定所述待评测输入法的静态评测结果。
根据本发明提供的一种输入法联想效果评测方法,所述第一联想词对集合是基于如下方法确定的:
确定多个候选词对以及每一候选词对的词频,所述候选词对包括前缀选词和候选后缀选词;
按照词频从大到小的顺序,对包含任一前缀选词的多个候选词对进行排序,并将排序靠前的多个候选词对作为所述任一前缀选词的多个联想词对;
基于每一前缀选词的多个联想词对,构建所述第一联想词对集合。
根据本发明提供的一种输入法联想效果评测方法,所述将排序靠前的多个候选词对作为所述任一前缀选词的多个联想词对,之后还包括:
对任一前缀选词的每一联想词对进行词语搭配不当识别,若所述任一前缀选词与其任一联想词对中的后缀选词存在词语搭配不当,则删除所述任一联想词对,或对所述任一联想词对中的后缀选词进行文本校正。
根据本发明提供的一种输入法联想效果评测方法,所述确定多个候选词对以及每一候选词对的词频,之后还包括:
基于任一前缀选词的长度,确定所述任一前缀选词的过滤词频;
基于所述过滤词频,对包含所述任一前缀选词的多个候选词对进行过滤。
本发明还提供一种输入法联想效果评测装置,包括:
静态评测单元,用于基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
动态评测单元,用于基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
最终评测单元,用于基于所述静态评测结果和所述动态评测结果,确定所述待评测输入法的联想效果评测结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述输入法联想效果评测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述输入法联想效果评测方法的步骤。
本发明提供的输入法联想效果评测方法、装置、电子设备及存储介质,通过基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果,并结合静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果,不仅考虑了对待评测输入法的静态联想效果进行评测,而且考虑了对待评测输入法的动态联想效果进行评测,通过对多种类型的联想效果进行评测,使得评测结果更全面、更客观,提高了输入法联想效果评测的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的输入法联想效果评测方法的流程示意图;
图2为本发明提供的动态评测结果确定方法的流程示意图;
图3为本发明提供的静态评测结果的流程示意图;
图4为本发明提供的第一联想词对集合确定方法的流程示意图;
图5为本发明提供的输入法联想效果评测装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的输入法联想效果的评测方法通常是将预先设定的测试集输入到输入法引擎中,得到引擎输出的测试集中每一前缀选词的联想结果,然后将引擎输出的每一前缀选词的联想结果和其预期的后缀选词进行比对,进而得到输入法的联想效果评测结果。理论上,一个前缀选词可以搭配多种合理的后缀选词,但是测试集中每一前缀选词只对应一个预期的后缀选词,导致合理但与预期的后缀选词不一致的联想结果被判定为不合理的联想结果,使得现有的输入法联想效果评测方法准确性较低。
对此,图1为本发明实施例提供的输入法联想效果评测方法的流程示意图,如图1所示,该方法包括:
步骤110,基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
步骤120,基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
步骤130,基于静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果。
具体地,待评测输入法可以为需要进行联想效果评测的输入法,待评测输入法可以为拼音输入法、五笔输入法或手写输入法等,本发明实施例以及后续实施例以拼音输入法作为示例进行说明,本发明实施例对待评测输入法的类型不作具体限定。待评测输入法的联想效果包括静态联想效果和动态联想效果,其中,静态联想效果为输入法根据用户首次输入的上文给出符合常用表达的下文的候选搭配词的准确性,动态联想效果为在用户使用一段时间之后,输入法根据用户输入的上文给出符合用户个人使用习惯的下文的候选搭配词的准确性。
为对待评测输入法的联想效果进行全面地评测,可以预先生成第一联想词对集合和第二联想词对集合,其中,第一联想词对集合用于对待评测输入法的静态联想效果进行评测,第二联想词对集合用于对待评测输入法的动态联想效果进行评测。第一联想词对集合可以包括多个联想词对,联想词对包括前缀选词和后缀选词,后缀选词可以为对应前缀选词的一个预期的联想结果,同一前缀选词可以对应若干个后缀选词。
第二联想词对集合可以包括多个联想词对,以及各个联想词对对应的用户信息。此处,可以基于各个用户的历史输入日志,收集各个用户在使用待评测输入法时输入的多个前缀选词,以及在选取每一前缀选词之后选取的对应的后缀选词,将各个用户每一次选取的前缀选词及其对应的后缀选词作为一个联想词对,并将输入联想词对的用户的信息作为该联想词对对应的用户信息,每一联想词对对应的用户信息可以表示为用户的ID。每一用户的历史输入日志可以包括用户的ID、用户每一次输入的拼音串以及对应的选词、输入的拼音串包括的字母的坐标等。此外,各个用户的历史输入日志可以通过主动招募预定数量个用户,例如100个,并在所有用户签署数据共享协议确保其知情且同意的前提下,采用具有日志记录功能的待评测输入法的版本,对各个用户输入的文本采集得到。
需要说明的是,第一联想词对集合可以与第二联想词对集合相同,也可以与第二联想词对集合不同,本发明实施例对此不作具体限定。
在得到第一联想词对集合和第二联想词对集合之后,可以通过将第一联想词对集合中每一联想词对中每一前缀选词在待评测输入法中输出的联想结果与对应前缀选词的后缀选词进行比对,进而得到静态评测结果。
其中,每一前缀选词在待评测输入法输出的联想结果可以包括对应前缀选词的多个候选搭配词,对于任一联想词对,可以基于该联想词对中前缀选词对应的后缀选词在该前缀选词的联想结果中出现的位置,确定基于该联想词对确定的静态评测结果。例如,可以将该联想词对中后缀选词出现在前缀选词的联想结果中前1位、前2位、前3位、前4位、前5位的百分比占比即top1-top5的命中率作为静态评测结果,若该联想词对中后缀选词没有出现在前缀选词的联想结果中,则记为0。假设联想词对为“宽容-大度”,即前缀选词为“宽容”,后缀选词为“大度”,后缀选词“大度”在前缀选取的联想结果中处于第二位,则top1=0,top2=100%,top3=100%,top4=100%,top5=100%。
与此同时,可以根据第二联想词对集合中每一联想词对对应的用户信息,待评测输入法选取对应用户的资源并基于对应用户的个人使用习惯,输出每一联想词对中前缀选词的联想结果,通过将第二联想词对集合中每一联想词对中每一前缀选词在待评测输入法中输出的联想结果与对应前缀选词的后缀选词进行比对,进而得到动态评测结果。
在得到静态评测结果和动态评测结果之后,可以结合静态评测结果和动态评测结果,得到待评测输入法的联想效果评测结果。此处,可以直接将静态评测结果和动态评测结果进行叠加,也可以基于预先设定的权重,对静态评测结果和动态评测结果进行加权,得到联想效果评测结果,优选地,可以将静态评测结果的权重设置为0.7,将动态评测结果的权重设置为0.3。在此基础上,假设静态评测结果中top1=85%,top5=95%,动态评测结果中top1=78%,top5=85%,则联想效果评测结果中:
top1=0.85*0.7+0.78*0.3=82.9%,top5=0.95*0.7+0.85*0.3=92%。
本发明实施例提供的方法,通过基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果,并结合静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果,不仅考虑了对待评测输入法的静态联想效果进行评测,而且考虑了对待评测输入法的动态联想效果进行评测,通过对多种类型的联想效果进行评测,使得评测结果更全面、更客观,提高了输入法联想效果评测的准确性。
基于上述实施例,图2为本发明实施例提供的动态评测结果确定方法的流程示意图,如图2所示,步骤120包括:
步骤121,基于待评测输入法,以及第二联想词对集合中各个联想词对对应的用户信息,获取各个联想词对中前缀选词的联想结果;
步骤122,基于各个联想词对中的后缀选词和前缀选词的联想结果,以及各个联想词对对应的用户信息,确定待评测输入法的动态评测结果。
具体地,用户使用待评测输入法一段时间后,待评测输入法将该用户经常输入的前缀选词和后缀选词组成一个联想词对,并存入该用户独有的资源中,在该用户后续使用待评测输入法的过程中,待评测输入法可以调用该用户独有的资源生成该用户输入的前缀选词的联想结果。
为对待评测输入法的动态联想效果进行评测,在得到第二联想词对集合之后,可以根据第二联想词对集合中各个联想词对对应的用户信息,待评测输入法选取对应用户的资源并基于对应用户的个人使用习惯,输出各个联想词对中前缀选词的联想结果。通过将第二联想词对集合中各个联想词对中每一前缀选词在待评测输入法中输出的联想结果与对应前缀选词的后缀选词进行比对,得到各个联想词对的动态评测结果。其中,任一联想词对的动态评测结果的确定方法与上述实施例中任一联想词对的静态评测结果的确定方法相同,本发明实施例在此不再赘述。
例如,用户A在首次使用待评测输入法时,将拼音串“nihao”输入至待评测输入法,并选取前缀选词“你好”,然后将拼音串“zaoan”输入至待评测输入法,并选取前缀选词“你好”的后缀选词“早安”,待评测输入法则将“你好-早安”存入用户A的资源中,用户A在后续使用待评测输入法时,用户A再次将拼音串“nihao”输入至待评测输入法,并选取前缀选词“你好”,此时,待评测输入法可以调用用户A的资源输出前缀选词“你好”的联想结果,通过将前缀选词“你好”的联想结果与前缀选词“你好”对应的后缀选词“早安”进行比对,进而对待评测输入法的动态联想效果进行评测。
随即,基于各个联想词对的动态评测结果,以及各个联想词对对应的用户信息,可以得到待评测输入法的动态评测结果。此处,可以基于各个联想词对对应的用户信息,确定各个联想词对的权重,并基于各个联想词对的权重,对各个联想词对的动态评测结果进行加权,进而得到待评测输入法的动态评测结果。
基于上述任一实施例,步骤122包括:
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,确定各个用户的动态评测结果;
基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到待评测输入法的动态评测结果,用户权重是基于对应用户使用待评测输入法的时间确定的。
具体地,由于待评测输入法的动态联想效果用于衡量待评测输入法生成的联想结果是否符合用户的个人使用习惯,因此,可以针对待评测输入法的各个用户分别进行动态效果评测,基于第二联想词对集合中各个联想词对对应的用户信息,对第二联想词对集合进行划分,得到各个用户信息对应的多个联想词对,此处,任一用户信息对应的多个联想词对是由对应用户历史输入日志中选取的前缀选词以及对应的后缀选词构成的。
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,可以确定各个用户的动态评测结果。由于任一用户可以对应多个联想词对,此处,对于任一用户,可以基于该用户对应的各个联想词对的动态评测结果,确定该用户的动态评测结果,例如,将该用户对应的各个联想词对的动态评测结果的平均值作为该用户的动态评测结果。
随即,基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到待评测输入法的动态评测结果。其中,用户权重可以是基于对应用户使用待评测输入法的时间确定的,用户使用待评测输入法的时间越长,用户的历史输入日志越能表征用户的个人使用习惯,用户权重设置得越高。例如,选取180位用户,其中100位用户的使用时间为2个月,50位用户的使用时间为3个月,30位用户的使用时间为5个月,则可以将使用时间为2个月的100位用户的用户权重设置为0.2,将使用时间为3个月的50位用户的用户权重设置为0.3,将使用时间为5个月的30位用户的用户权重设置为0.5。
本发明实施例提供的方法,基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到待评测输入法的动态评测结果,其中,用户权重是基于对应用户使用待评测输入法的时间确定的,充分考虑了用户的使用时间对用户的历史输入日志的可靠性的影响,提高了动态评测结果的准确性,进而提高了联想效果评测结果的准确性。
基于上述任一实施例,图3为本发明实施例提供的静态评测结果的流程示意图,如图3所示,步骤110包括:
步骤111,基于待评测输入法以及第一联想词对集合中各个前缀选词,得到各个前缀选词的联想结果;
步骤112,基于包含任一前缀选词的各个联想词对中的后缀选词,以及该前缀选词的联想结果,确定该前缀选词的静态评测结果;
步骤113,基于每一前缀选词的静态评测结果,确定待评测输入法的静态评测结果。
具体地,第一联想词对可以包括多个联想词对,其中,同一前缀选词可以对应多个联想词对,例如,前缀选词为“宽容”的联想词对可以包括“宽容-大度”和“宽容-理解”。在得到第一联想词对集合之后,将第一联想词对集合中各个前缀选词的拼音串输入至待评测输入法,在此基础上,选取各个前缀选词,得到各个前缀选词的联想结果。
由于任一前缀选词可以对应多个联想词对,即任一前缀选词可以对应多个后缀选词,对于任一前缀选词,基于该前缀选词对应的多个后缀选词,以及该前缀选词的联想结果,可以得到该前缀选词的静态评测结果。例如,包含前缀选词“宽容”的联想词对可以为“宽容-大度”和“宽容-理解”,即前缀选词“宽容”可以对应后缀选词“大度”和后缀选词“理解”,若后缀选词“大度”处在前缀选词“宽容”的联想结果的第二位,则联想词对“宽容-大度”的静态评测结果为top1=0,top2=100%,top3=100%,top4=100%,top5=100%;若后缀选词“理解”处在前缀选词“宽容”的联想结果的第五位,则联想词对“宽容-理解”的静态评测结果为top1=0,top2=0,top3=0,top4=0,top5=100%,进而可以得到前缀选词“宽容”的静态评测结果为top1=0,top2=50%,top3=50%,top4=50%,top5=100%。
在此基础上,基于第一联想词对集合中每一前缀选词的静态评测结果,可以确定待评测输入法的静态评测结果,例如,可以将第一联想词对集合中每一前缀选词的静态评测结果的平均值作为待评测输入法的静态评测结果。
相较于目前的方案测试集中一个前缀选词仅对应一个预期的后缀选词,本发明实施例中的第一联想词对集合中一个前缀选词可以对应多个后缀选词,使得第一联想词对集合中涵盖的每一前缀选词的预期结果更丰富,进而减少了联想结果判定错误的发生,提高了静态评测结果的准确性。
基于上述任一实施例,图4为本发明实施例提供的第一联想词对集合确定方法的流程示意图,如图4所示,该方法包括:
步骤410,确定多个候选词对以及每一候选词对的词频,候选词对包括前缀选词和候选后缀选词;
步骤420,按照词频从大到小的顺序,对包含任一前缀选词的多个候选词对进行排序,并将排序靠前的多个候选词对作为该前缀选词的多个联想词对;
步骤430,基于每一前缀选词的多个联想词对,构建第一联想词对集合。
具体地,为构建第一联想词对集合,可以收集待评测输入法的各个用户的历史输入日志,提取得到多个候选词对,并统计得到每一候选词对的词频,其中,候选词对包括前缀选词和候选后缀选词,任一候选词对的词频可以表示该候选词对在各个用户的历史输入日志中出现的次数,例如,[宽容-大度-40]表示各个用户在选取“宽容”后有40次选择“大度”,即候选词对“宽容-大度”在各个用户的历史输入日志中出现了40次。
由于候选词对的词频越高,表示对应候选词对越符合大部分用户的表达习惯,因此,对于任一前缀选词,可以将包含该前缀选词多个候选词对按照词频从大到小的顺序进行排序,并将排序靠前的多个候选词对作为该前缀选词的多个联想词对,例如选取排序前5名的5个候选词对,以保证了第一联想词对中各个联想词对符合日常表达习惯,且每一前缀选词可以对应多个预期的后缀选词。对每一前缀选词执行上述操作,得到每一前缀选词的多个联想词对,进而构建得到第一联想词对集合。
基于上述任一实施例,步骤410之后还包括:
基于任一前缀选词的长度,确定该前缀选词的过滤词频;
基于过滤词频,对包含该前缀选词的多个候选词对进行过滤。
具体地,由于前缀选词的长度不同,其在待评测输入法的历史输入日志中出现的次数也不同,对于长度较长的词,例如3个字以上的词,由于其使用频率本身较低,导致其在历史输入日志中出现的次数较少;对于1个字的词,由于其使用频率本身较高,导致其在历史输入日志中出现的次数较多。因此,可以在统计得到各个候选词对的词频之后,可以基于任一前缀选词的长度,确定该前缀选词的过滤词频,此处,前缀选词的长度越长,对应的过滤词频越小。
基于该前缀选词的过滤词频,对包含该前缀选词的多个候选词对进行过滤,将词频大于过滤词频的候选词对保留。例如,可以将前缀选词的长度为1的过滤词频设置为20,将前缀选词的长度为2和3的过滤词频设置为10,可以将前缀选词的长度大于3的过滤词频设置为0。对于前缀选词长度为1的候选词对,只保留词频大于20的候选词对,对于前缀选词长度为2和3的候选词对,只保留词频大于10的候选词对,并保留全部前缀选词长度大于3的候选词对。
本发明实施例提供的方法,基于任一前缀选词的长度,确定该前缀选词的过滤词频,并基于过滤词频,对包含该前缀选词的多个候选词对进行过滤,根据候选词对的使用频率对候选词对进行过滤,既保证了候选词对的有效性,又减少了候选词对的数据量,提高了构建第一联想词对集合的效率。
基于上述任一实施例,步骤420之后还包括:
对任一前缀选词的每一联想词对进行词语搭配不当识别,若该前缀选词与其任一联想词对中的后缀选词存在词语搭配不当,则删除该联想词对,或对该联想词对中的后缀选词进行文本校正。
具体地,用户在使用待评测输入法时可能因为按键失误选取到错误的后缀选词,使得历史输入日志中可能存在词语搭配不当的候选词对。为保证第一联想词对中各个联想词对的准确性,可以在得到任一前缀选词的多个联想词对之后,对该前缀选词的每一联想词对进行词语搭配不当识别,此处可以使用人工或者自动的方式进行筛查。若该前缀选词与其任一联想词对中的后缀选词存在词语搭配不当,表示该联想词对前后不通顺或不符合日常表达习惯,则可以将该联想词对删除,或者对该联想词对中的后缀选词进行文本校正。此处,可以使用大规模语料数据进行统计分析的N-gram文本校正方法、基于混淆集和特征提取的文本校正方法或基于模式匹配的文本校正方法,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过对任一前缀选词的每一联想词对进行词语搭配不当识别,保证了第一联想词对集合中各个联想词对的准确性,进而提高了静态评测结果的准确性。
基于上述任一实施例,图5为本发明实施例提供的输入法联想效果评测装置的结构示意图,如图5所示,该装置包括:
静态评测单元510,用于基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
动态评测单元520,用于基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
最终评测单元530,用于基于所述静态评测结果和所述动态评测结果,确定所述待评测输入法的联想效果评测结果。
本发明实施例提供的装置,通过基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果,并结合静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果,不仅考虑了对待评测输入法的静态联想效果进行评测,而且考虑了对待评测输入法的动态联想效果进行评测,通过对多种类型的联想效果进行评测,使得评测结果更全面、更客观,提高了输入法联想效果评测的准确性。
基于上述任一实施例,动态评测单元520用于:
基于所述待评测输入法,以及所述第二联想词对集合中各个联想词对对应的用户信息,获取各个联想词对中前缀选词的联想结果;
基于各个联想词对中的后缀选词和前缀选词的联想结果,以及各个联想词对对应的用户信息,确定所述待评测输入法的动态评测结果。
基于上述任一实施例,所述基于各个联想词对中的后缀选词和前缀选词的联想结果,以及各个联想词对对应的用户信息,确定所述待评测输入法的动态评测结果,包括:
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,确定各个用户的动态评测结果;
基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到所述待评测输入法的动态评测结果,所述用户权重是基于对应用户使用所述待评测输入法的时间确定的。
基于上述任一实施例,静态评测单元510用于:
基于所述待评测输入法以及所述第一联想词对集合中各个前缀选词,得到各个前缀选词的联想结果;
基于包含任一前缀选词的各个联想词对中的后缀选词,以及所述任一前缀选词的联想结果,确定所述任一前缀选词的静态评测结果;
基于每一前缀选词的静态评测结果,确定所述待评测输入法的静态评测结果。
基于上述任一实施例,该装置还包括:
第一联想词对集合确定单元,用于确定多个候选词对以及每一候选词对的词频,所述候选词对包括前缀选词和候选后缀选词;
按照词频从大到小的顺序,对包含任一前缀选词的多个候选词对进行排序,并将排序靠前的多个候选词对作为所述任一前缀选词的多个联想词对;
基于每一前缀选词的多个联想词对,构建所述第一联想词对集合。
基于上述任一实施例,该装置还包括:
词语搭配不当识别单元,用于对任一前缀选词的每一联想词对进行词语搭配不当识别,若所述任一前缀选词与其任一联想词对中的后缀选词存在词语搭配不当,则删除所述任一联想词对,或对所述任一联想词对中的后缀选词进行文本校正。
基于上述任一实施例,该装置还包括:
候选词对过滤单元,用于基于任一前缀选词的长度,确定所述任一前缀选词的过滤词频;
基于所述过滤词频,对包含所述任一前缀选词的多个候选词对进行过滤。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;基于静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的方法,例如包括:基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;基于静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的方法,例如包括:基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;基于第二联想词对集合,以及第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;基于静态评测结果和动态评测结果,确定待评测输入法的联想效果评测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种输入法联想效果评测方法,其特征在于,包括:
基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
基于所述静态评测结果和所述动态评测结果,确定所述待评测输入法的联想效果评测结果;
所述基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果,包括:
基于所述待评测输入法,以及所述第二联想词对集合中各个联想词对对应的用户信息,获取各个联想词对中前缀选词的联想结果;
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,确定各个用户的动态评测结果;
基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到所述待评测输入法的动态评测结果,所述用户权重是基于对应用户使用所述待评测输入法的时间确定的。
2.根据权利要求1所述的输入法联想效果评测方法,其特征在于,所述基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果,包括:
基于所述待评测输入法以及所述第一联想词对集合中各个前缀选词,得到各个前缀选词的联想结果;
基于包含任一前缀选词的各个联想词对中的后缀选词,以及所述任一前缀选词的联想结果,确定所述任一前缀选词的静态评测结果;
基于每一前缀选词的静态评测结果,确定所述待评测输入法的静态评测结果。
3.根据权利要求1至2任一项所述的输入法联想效果评测方法,其特征在于,所述第一联想词对集合是基于如下方法确定的:
确定多个候选词对以及每一候选词对的词频,所述候选词对包括前缀选词和候选后缀选词;
按照词频从大到小的顺序,对包含任一前缀选词的多个候选词对进行排序,并将排序靠前的多个候选词对作为所述任一前缀选词的多个联想词对;
基于每一前缀选词的多个联想词对,构建所述第一联想词对集合。
4.根据权利要求3所述的输入法联想效果评测方法,其特征在于,所述将排序靠前的多个候选词对作为所述任一前缀选词的多个联想词对,之后还包括:
对任一前缀选词的每一联想词对进行词语搭配不当识别,若所述任一前缀选词与其任一联想词对中的后缀选词存在词语搭配不当,则删除所述任一联想词对,或对所述任一联想词对中的后缀选词进行文本校正。
5.根据权利要求3所述的输入法联想效果评测方法,其特征在于,所述确定多个候选词对以及每一候选词对的词频,之后还包括:
基于任一前缀选词的长度,确定所述任一前缀选词的过滤词频;
基于所述过滤词频,对包含所述任一前缀选词的多个候选词对进行过滤。
6.一种输入法联想效果评测装置,其特征在于,包括:
静态评测单元,用于基于第一联想词对集合,对待评测输入法的静态联想效果进行评测,得到静态评测结果;
动态评测单元,用于基于第二联想词对集合,以及所述第二联想词对集合中各个联想词对对应的用户信息,对待评测输入法的动态联想效果进行评测,得到动态评测结果;
最终评测单元,用于基于所述静态评测结果和所述动态评测结果,确定所述待评测输入法的联想效果评测结果;
所述动态评测单元,具体用于:
基于所述待评测输入法,以及所述第二联想词对集合中各个联想词对对应的用户信息,获取各个联想词对中前缀选词的联想结果;
基于各个用户信息对应的联想词对中的后缀选词和前缀选词的联想结果,确定各个用户的动态评测结果;
基于各个用户的用户权重,对各个用户的动态评测结果进行加权,得到所述待评测输入法的动态评测结果,所述用户权重是基于对应用户使用所述待评测输入法的时间确定的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述输入法联想效果评测方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述输入法联想效果评测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591184.5A CN112684909B (zh) | 2020-12-29 | 2020-12-29 | 输入法联想效果评测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591184.5A CN112684909B (zh) | 2020-12-29 | 2020-12-29 | 输入法联想效果评测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112684909A CN112684909A (zh) | 2021-04-20 |
CN112684909B true CN112684909B (zh) | 2024-05-31 |
Family
ID=75453908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591184.5A Active CN112684909B (zh) | 2020-12-29 | 2020-12-29 | 输入法联想效果评测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112684909B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010122786A (ja) * | 2008-11-18 | 2010-06-03 | Japan Research Institute Ltd | 解析データ入力装置、cae装置、解析データ入力方法、及びプログラム |
CN103019924A (zh) * | 2011-09-23 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 输入法智能性评测系统和方法 |
CN107422872A (zh) * | 2016-05-24 | 2017-12-01 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN108829606A (zh) * | 2018-06-29 | 2018-11-16 | 北京金山安全软件有限公司 | 一种输入法性能测试方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
-
2020
- 2020-12-29 CN CN202011591184.5A patent/CN112684909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010122786A (ja) * | 2008-11-18 | 2010-06-03 | Japan Research Institute Ltd | 解析データ入力装置、cae装置、解析データ入力方法、及びプログラム |
CN103019924A (zh) * | 2011-09-23 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 输入法智能性评测系统和方法 |
CN107422872A (zh) * | 2016-05-24 | 2017-12-01 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
CN108829606A (zh) * | 2018-06-29 | 2018-11-16 | 北京金山安全软件有限公司 | 一种输入法性能测试方法及装置 |
Non-Patent Citations (2)
Title |
---|
MinKSR:A Novel MT Evaluation Metric for Coordinating Human Translators with the CAT-Oriented Input Method;Guoping Huang 等;《Machine Translation》;20170106;全文 * |
几种手机汉字输入法的测评;陈钦梧 等;《电子产品世界》;20100630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112684909A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020077824A1 (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
RU2680746C2 (ru) | Способ и устройство для создания модели качества веб-страницы | |
US20210286708A1 (en) | Method and electronic device for recommending crowdsourced tester and crowdsourced testing | |
CN110336838B (zh) | 账号异常检测方法、装置、终端及存储介质 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
CN109345133B (zh) | 基于大数据和深度学习的评审方法和机器人系统 | |
CN115454559A (zh) | Rpa流程生成方法、装置、服务器及介质 | |
CN110781428A (zh) | 评论展示方法、装置、计算机设备及存储介质 | |
CN112256517B (zh) | 基于lstm-dssm的虚拟化平台的日志分析方法及装置 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN115576834A (zh) | 支撑故障还原的软件测试复用方法、系统、终端及介质 | |
CN112684909B (zh) | 输入法联想效果评测方法、装置、电子设备及存储介质 | |
CN113468076A (zh) | 应用程序的异常测试方法、装置、设备及存储介质 | |
CN108933846B (zh) | 一种泛解析域名的识别方法、装置及电子设备 | |
CN112148860B (zh) | 文本机器人的问题推荐方法及装置 | |
US20090177690A1 (en) | Determining an Optimal Solution Set Based on Human Selection | |
CN114637917A (zh) | 基于人工智能的资讯头条推荐方法及装置 | |
CN109189833B (zh) | 一种知识库的挖掘方法及装置 | |
CN114443493A (zh) | 一种测试案例生成方法、装置、电子设备和存储介质 | |
CN113628077A (zh) | 生成不重复考题的方法、终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |