CN103019924B

CN103019924B - 输入法智能性评测系统和方法

Info

Publication number: CN103019924B
Application number: CN201110285633.8A
Authority: CN
Inventors: 司天歌; 曹菲; 侯杰; 周杨; 肖镜辉; 刘廷超; 杨洋; 周晓波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2011-09-23
Filing date: 2011-09-23
Publication date: 2016-03-16
Anticipated expiration: 2031-09-23
Also published as: CN103019924A

Abstract

本发明提出一种输入法智能性评测系统和方法，用于评测预先选定的输入法软件的智能性，其中系统包括：测试集采集装置，用于采集测试集，将所述测试集提供给评测服务器；所述评测服务器，用于利用所述测试集对所述输入法软件的智能性进行评测。本发明能够自动、客观地评价输入法软件的智能性水平。

Description

输入法智能性评测系统和方法

技术领域

本发明涉及计算机输入法技术领域，特别涉及一种输入法智能性评测系统和方法。

背景技术

目前市场上输入法种类繁多，成熟的商业输入法功能全面，通常包含单字输入、词语输入、整句输入等多种输入方式。其中，在整句输入方式下，用户的输入思维能够保持连贯，用户能够更加专注于输入内容本身，而不是输入过程。整句输入方式成为当前用户的主要输入方式。输入法在整句输入方式下的性能表现，是输入法智能性的直接体现。

对于一款输入法软件，如何评价输入法的智能性呢？目前主要的评测方式为人工评测。即，在开发过程中，由开发人员根据自己的个人习惯和喜好，挑选待输入的语句，用输入法进行输入，观察输入法给出的候选输出是否符合预期，从而判断输入法的智能性高低。这种方法的局限性在于，评测人员以及评测用例的代表性有限——代表的是相同类型用户的特定的输入需求——使得测试结果的偏差较大。并且，评测人员对于输入法的智能性只能够给出模糊的评价，如：很好、好、还不错、不好等等，这些评价不够精确；在智能性没有明显提高或降低的情况下，这些评价的区分度也不大。还有一种评测方法，就是将输入法发布，直接让广大输入法用户进行评测。但由于此时输入法软件产品已经发布，如果智能性较之前有所下降，则对广大用户来讲是一种损害；并且当产品发布周期较长时，这种做法是对用户的不负责任。

可见，现有的输入法智能性评测方法均无法自动、客观地评测输入法软件的智能性。

发明内容

本发明实施例提出一种输入法智能性评测系统和方法，能够自动、客观地评价输入法软件的智能性水平。

本发明的技术方案是这样实现的：

一种输入法智能性评测系统，包括：

测试集采集装置，用于采集测试集，将所述测试集提供给评测服务器；

所述评测服务器，用于利用所述测试集对所述输入法软件的智能性进行评测；

所述系统还包括：

代码管理服务器，用于接收并保存外界输入的输入法软件代码，所述输入法软件代码是根据所述输入法软件的智能性评测结果生成的；

输入法资源生成装置，用于生成优化词典和优化语言模型；

自动编译机，用于根据所述输入法软件代码、优化词典和优化语言模型生成优化的输入法软件，将所述优化的输入法软件输入评测服务器，供评测服务器对其智能性进行评测。

其中，上述测试集采集装置包括：

网页抓取器，用于抓取不同类别网页的内容，生成网页文本，将所述网页文本发送至网页文本过滤器；所述网页的类别包括：聊天网页、微博网页、论坛网页、博客网页、搜索网页或正式文档网页；

所述网页文本过滤器，用于对所述网页文本进行过滤，生成测试集，并将所述测试集提供给评测服务器。

评测服务器包括：

拼音标注工具，用于生成所述测试集中的原始文字所对应的拼音序列；

按键产生器，用于将所述拼音序列转换为计算机按键的按键序列，并将所述按键序列输入到所述输入法软件，产生文字输出结果；

文本校对器，用于将所述测试集中的原始文字和所述文字输出结果进行比对，得到所述输入法软件的智能性指标。

输入法软件的智能性指标为：句准确率、字准确率或测试集的迷惑度；其中，

所述句准确率等于比对结果一致的句子数与测试集中的句子数的商；

所述字准确率等于所述比对结果一致的文字数与测试集中的原始文字数的商；

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。

一种输入法智能性评测方法，包括：测试集采集装置采集测试集，将所述测试集提供给评测服务器；所述评测服务器利用所述测试集对所述输入法软件的智能性进行评测；

所述方法还包括：

接收外界输入的输入法软件代码，所述入法软件代码是根据所述输入法软件的智能性评测结果生成的；

生成优化词典和优化语言模型；

根据所述输入法软件代码、优化词典和优化语言模型生成优化的输入法软件，将所述优化的输入法软件输入评测服务器，供评测服务器对其智能性进行评测。

上述采集测试集的过程包括：

抓取不同类别网页的内容，生成网页文本，对所述网页文本进行过滤，生成测试集；其中，所述网页的类别包括：聊天网页、微博网页、论坛网页、博客网页、搜索网页或正式文档网页。

上述评测服务器利用测试集对输入法软件的智能性进行评测的过程包括：

生成所述测试集中的原始文字所对应的拼音序列；将所述拼音序列转换为计算机按键的按键序列，并将所述按键序列输入到所述输入法软件，产生文字输出结果；将所述测试集中的原始文字和所述文字输出结果进行比对，得到所述输入法软件的智能性指标。

上述输入法软件的智能性指标为：句准确率、字准确率或测试集的迷惑度；其中，

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。

可见，本发明提出的输入法智能性评测系统和方法，建立了一种自动评测流程，对输入法软件的智能性进行量化评测，从而自动、客观地评价输入法软件的智能性水平。

附图说明

图1为本发明提出的输入法智能性评测系统的结构示意图；

图2为本发明实施例提出的输入法智能性自动评测流程示意图；

图3为本发明实施例中评测服务器的评测流程示意图。

具体实施方式

本发明提出一种输入法智能性评测系统，能够自动、客观地对输入法软件的智能性进行评测。

如图1为本发明提出的输入法智能性评测系统的结构示意图，该系统包括：测试集采集装置110，用于采集测试集，将所述测试集提供给评测服务器120；

所述评测服务器120，用于利用所述测试集对所述输入法软件的智能性进行评测。

其中，测试集采集装置110可以包括：

网页抓取器111，用于抓取不同类别网页的内容，生成网页文本，将网页文本发送至网页文本过滤器112；其中网页的类别可以包括：聊天网页、微博网页、论坛网页、博客网页、搜索网页或正式文档网页；

网页文本过滤器112，用于对收到的网页文本进行过滤，生成测试集，并将测试集提供给评测服务器120。

上述系统中，评测服务器120可以包括：

拼音标注工具121，用于生成收到的测试集中的原始文字所对应的拼音序列；

按键产生器122，用于将该拼音序列转换为计算机按键的按键序列，并将所述按键序列输入到输入法软件，产生文字输出结果；

文本校对器123，用于将测试集中的原始文字和所述文字输出结果进行比对，得到输入法软件的智能性指标。

其中，智能性指标可以包括：句准确率、字准确率或测试集的迷惑度；其中，

所述句准确率等于所述比对结果一致的句子数与测试集中的句子数的商；

测试集的迷惑度是语言模型技术中常用的智能性衡量标准，是指测试集中各个词之间的相似程度；

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。

上述系统还可以包括：

代码管理服务器130，用于接收并保存外界输入的输入法软件代码，该输入法软件代码是根据所述输入法软件的智能性评测结果生成的；

输入法资源生成装置140，用于生成优化词典和优化语言模型；

自动编译机150，用于根据所述输入法软件代码、优化词典和优化语言模型生成优化的输入法软件，将优化的输入法软件输入评测服务器120，供评测服务器120对其智能性进行评测。

应用上述系统，本发明还提出一种输入法智能性评测方法，用于评测预先选定的输入法软件的智能性，该方法包括：

测试集采集装置采集测试集，将测试集提供给评测服务器；评测服务器利用测试集对所述输入法软件的智能性进行评测。

上述采集测试集的过程可以包括：

上述方法还可以包括：

接收外界输入的输入法软件代码，所述输入法软件代码是根据所述输入法软件的智能性评测结果生成的；

生成优化词典和优化语言模型；

以下举具体的实施例详细介绍：

如图2为本发明实施例提出的输入法智能性自动评测流程示意图，该流程对输入法软件的整句输入性能进行量化评测，总体流程共分为四个子过程，分别是：测试集采集过程、输入法自动评测过程、输入法代码开发过程和输入法资源准备过程。首先，本实施例根据用户的群体及典型输入场景对用户的输入需求进行分类，共有六个分类。在此基础上，从网络上获取与此相关的文本，作为输入法的测试集。然后，将测试集输入到评测服务器中，运行出评测结果，呈现给开发人员。开发人员据此调整输入法内核代码，同时，准备输入法所需的词表、语言模型等相关资源，重新构建新版本的输入法软件，再次进行评测。该过程一直持续到输入法软件的版本开发结束。

相比手工评测，本实施例的评测方法至少有如下几个优点：

即时性：测试集是从互联网上实时获取的内容，能够反映出当前网络的热点内容，以及用户输入的热点需求；

自动性：自动化测试能够节省大量的人力物力；

客观性：避免了手工评测中的个体倾向性因素；

公正性：将测试结果量化，避免了评价结论模糊带来的负面影响。

以下分别详细介绍上述四个过程：

第一，测试集采集过程：

手工评测输入法智能性的一个主要缺陷是测试用例不具备代表性、测试覆盖面较窄。为了使测试覆盖到绝大部分用户的常用输入需求，本实施例根据用户群体以及用户的典型输入场景对用户的常用输入需求进行分类，共分为如下六类：聊天、微博、论坛、博客、搜索、正式文档。这些输入需求，由口语化逐渐变得正式，直到文档类是最正式的输入需求。针对每一类输入需求，可以确定一些对应的网站作为该类测试语料的来源。

在测试集采集过程中，首先通过网页抓取器(又称为“网络爬虫”)对信息源网站的最新网页内容进行抓取，形成网页文本；这些网页文本通常包含网页格式信息，而这些网页格式信息对于输入法评测来讲是垃圾信息。接下来，通过网页文本过滤器，将网页文本中的格式信息过滤掉，剩下的是网络文本的正文信息，形成过滤文本集，组成输入法的测试集。需要注意的是，由于每种信源网站的结构不同，测试输入法时采用的正文种类不同，因此每种网页文本过滤器的实现也不相同。

第二，输入法资源准备过程：

相比其它类型的软件，输入法软件的特殊之处在于，输入法需要大量的语言学资源来辅助构建核心语言模型。其中，最主要的资源是优化词典和从大规模训练语料中得来的优化语言模型。对于优化词典生成流程，首先会由编辑人员手工编纂生成近一段时期的新词词集，然后，结合基本词典、核心词典、常用汉字等资源，将这些词典资源整合成为统一的二进制文件格式，也就是优化词典，供输入法软件使用。对于模型训练流程，会在大规模训练语料库的基础上，经过语料过滤、分词、统计、模型裁剪等过程生成优化的语言模型，供输入法软件使用。

第三，输入法代码开发过程：

输入法开发人员，根据产品开发需求，在本地计算机上编写代码、开发相关功能，并将最新代码提交到代码管理服务器。后台自动编译机定期从代码管理服务器上拉取最新代码，并结合最新的优化词典和优化语言模型，自动执行编译操作，生成最新版的输入法软件。

第四，输入法自动评测过程：

输入法自动评测过程是整个输入法自动评测流程的关键部分。经过上述过程刚刚生成的新版输入法软件，以及最新的竞争对手的输入法软件，通过评测服务器，在最新采集的测试集上评测各个输入法的性能，并将评测结果通过结果呈现服务器呈现给开发人员。

评测服务器的评测流程如图3所示，以评测汉语输入法软件为例，首先，测试集中的汉语文本通过拼音标注工具标注为对应的拼音序列；然后，经过按键产生器，转换为标准键盘的按键序列；接下来，这些按键序列被输入到输入法软件中，产生汉字输出结果；之后，通过文本校对器，将输入法输出结果与测试文本集中的原始汉字进行比对，从而得出输入法的性能指标，并写入日志。

本实施例可以采用三种量化指标来来衡量输入法智能组句准确率，分别是句准确率、字准确率和测试集的迷惑度。

句准确率：以句子为单位来表示衡量输入法的输入准确率，公式如下：

字准确率：与句准确率类似，以汉字为单位来表示衡量输入法的输入准确率，公式如下：

除此之外，由于输入法内核算法是由语言模型构成，可以用衡量语言模型性能的指标来间接衡量输入法智能性。语言模型的理论衡量通常采用测试集的迷惑度(perplexity)来进行，测试集的迷惑度的计算方式如下：

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。

由以上公式可以看到，计算迷惑度需要输入法提供必要的接口，以访问其中Ngram概率参数。而竞争对手的输入法软件通常不会提供这种API接口，因此，迷惑度通常用在输入法自身开发过程中，以快速比较开发前后模型性能的变化。

综上可见，本发明提出的输入法智能性评测系统和方法能够自动采集用于评测的测试集，并利用采集到的测试集自动对输入法软件的智能性进行评测；为使测试集的覆盖面较宽，本发明根据典型输入场景和用户的输入需求从不同类别的网页中采集测试集；本发明还对测试结果进行量化表示，从而保证智能性测试客观性。相比现有的输入法智能性的手工评测，本发明能够做到自动化评测，从而大大节省测试的人力、物力开销；此外，本发明能够做到评测结果的即时性(反映用户最新输入趋势)、客观性(将评测结果进行量化表示)、公正性(与多个竞争对手输入法软件横向评测)。同时，本发明不仅适用于中文输入法，还适用于所有东亚语言键盘输入法，并且还可以应用到语音识别、手写体字符识别、光学字符识别的智能性自动化评测中。

综上所述，以上仅为对本发明精神的展示，而非用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种输入法智能性评测系统，用于评测预先选定的输入法软件的智能性，其特征在于，所述系统包括：

所述系统还包括：

输入法资源生成装置，用于生成优化词典和优化语言模型；

2.根据权利要求1所述的系统，其特征在于，所述测试集采集装置包括：

3.根据权利要求1所述的系统，其特征在于，所述评测服务器包括：

4.根据权利要求3所述的系统，其特征在于，所述输入法软件的智能性指标为：句准确率、字准确率或测试集的迷惑度；其中，

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。

5.一种输入法智能性评测方法，应用权利要求1所述的系统评测预先选定的输入法软件的智能性，其特征在于，所述方法包括：

测试集采集装置采集测试集，将所述测试集提供给评测服务器；所述评测服务器利用所述测试集对所述输入法软件的智能性进行评测；

所述方法还包括：

生成优化词典和优化语言模型；

6.根据权利要求5所述的方法，其特征在于，所述采集测试集的过程包括：

7.根据权利要求5所述的方法，其特征在于，所述评测服务器利用测试集对输入法软件的智能性进行评测的过程包括：

8.根据权利要求7所述的方法，其特征在于，所述输入法软件的智能性指标为：句准确率、字准确率或测试集的迷惑度；其中，

测试集的迷惑度的计算方式为：

P P (S) = 2^{- \frac{1}{N_{W}} Σ_{i = 1}^{N_{W}} \log_{2} P (W_{i} | W_{i - n + 1} ... W_{i - 1})},

其中，S为包含N_W个词的测试集，

PP(S)为测试集S的迷惑度，

W_i为测试集S中的第i个词，

n为预先设定的整数。