CN103869999B - 对输入法所产生的候选项进行排序的方法及装置 - Google Patents
对输入法所产生的候选项进行排序的方法及装置 Download PDFInfo
- Publication number
- CN103869999B CN103869999B CN201210531877.4A CN201210531877A CN103869999B CN 103869999 B CN103869999 B CN 103869999B CN 201210531877 A CN201210531877 A CN 201210531877A CN 103869999 B CN103869999 B CN 103869999B
- Authority
- CN
- China
- Prior art keywords
- field
- candidate item
- active user
- belonging
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种对输入法所产生的候选项进行排序的方法及装置,该方法包括:利用所述输入法接收当前用户的当前输入信息;根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数;按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序;展示进行所述排序后的候选项。通过上述方式,本发明能够向不同的用户推送相应排序的候选项。
Description
技术领域
本发明涉及输入法应用技术领域,特别是涉及一种对输入法所产生的候选项进行排序的方法及装置。
背景技术
输入法应用是根据一定的编码规则来输入文字等信息的程序,用户在使用计算机时一般需要借助特定的输入法应用完成文字等信息的输入。
在输入法应用中,在输入相同的读音时,推送给用户的对应该读音的候选项集合的排序通常都是一样的。例如,对于假名“かがく”,这个读音所对应的日文汉字包括“価格、科学、化学、歌学、花岳”等众多候选,向用户推送的排序都是一样的。
但是,本申请的发明人在长期的研发中发现,不同的用户对于候选项的排序要求也是不一样的。向所有的用户推送相同排序的候选项,大部分用户通常浪费大量的时间以选择需要的候选项,这样也降低了用户体验。
发明内容
本发明主要解决的技术问题是提供一种对输入法所产生的候选项进行排序的方法及装置,能够向不同的用户推送相应排序的候选项,提升用户体验。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种对输入法所产生的候选项进行排序的方法,包括:利用所述输入法接收当前用户的当前输入信息;根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数;按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序;展示进行所述排序后的候选项。
其中,所述根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域的步骤之前,包括:使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料;将所述L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
其中,所述按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤之前,包括:获取当前用户的输入历史信息;根据所述当前用户的输入历史信息,用所述已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合。
其中,所述按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤之前,包括:获取多个用户的输入历史信息,所述多个用户属于所述L个不同的领域;从所述获取的多个用户的输入历史信息中选取部分输入历史信息;对所述选取的部分输入历史信息进行标注,获得多个用户标注的训练语料;将所述多个用户标注的训练语料和所述L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器;根据已获得的所述当前用户的输入历史信息,用所述与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
其中,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
其中,所述按照每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤,包括:根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重;根据所述候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
其中,所述根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重的步骤,包括:获取m个用户u1、u2、…、um在输入所述当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域;在L个不同的领域中,获取所述候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率,获取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率;根据所述权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
其中,所述根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重的步骤之后,包括:判断所述当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值;若达到所述预设的高频热词的阈值,则确定所述候选项为高频热词。
其中,所述若达到所述预设的高频热词的阈值,则确定所述候选项为高频热词的步骤之后,包括:向所述候选项所属的领域的用户推送所述高频热词对应的链接。
其中,所述展示进行所述排序后的候选项的步骤,包括:展示进行所述排序后的候选项以及所述候选项所属的领域。
其中,所述按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤,包括:将所述当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果;按照所述当前用户属于候选项所属的领域的权重的大小,对所述第一排序结果进行排序,获得第二排序结果;按照候选项在领域中的权重的大小,对所述第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
其中,所述展示进行所述排序后的候选项的步骤,包括:判断所述当前用户是否点击“按领域排序”按钮;若所述当前用户点击“按领域排序”按钮,则展示所述第三排序结果的候选项以及所述候选项所属的领域。
其中,所述语言模型是n-gram语言模型或n-pos语言模型。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种对输入法所产生的候选项进行排序的装置,所述装置包括:接收模块,用于利用所述输入法接收当前用户的当前输入信息;第一获取模块,用于根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数;排序模块,用于按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序;展示模块,用于展示进行所述排序后的候选项。
其中,所述装置还包括:第一获得模块,用于使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料;第一训练模块,用于将所述L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
其中,所述装置包括:第二获取模块,用于获取当前用户的输入历史信息;第二获得模块,用于根据所述当前用户的输入历史信息,用所述已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合。
其中,所述装置包括:第三获取模块,用于获取多个用户的输入历史信息,所述多个用户属于所述L个不同的领域;选取模块,用于从所述获取的多个用户的输入历史信息中选取部分输入历史信息;第三获得模块,用于对所述选取的部分输入历史信息进行标注,获得多个用户标注的训练语料;第二训练模块,用于将所述多个用户标注的训练语料和所述L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器;第四获得模块,用于根据已获得的所述当前用户的输入历史信息,用所述与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
其中,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
其中,所述排序模块包括:第一获得单元,用于根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重;第一排序单元,用于根据所述候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
其中,所述第一获得单元包括:第一获取子单元,用于获取m个用户u1、u2、…、um在输入所述当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域;第二获取子单元,用于在L个不同的领域中,获取所述候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率,第三获取子单元,用于取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率;获得子单元,用于根据所述权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
其中,所述排序模块包括:第一判断单元,用于判断所述当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值;确定单元,用于在达到所述预设的高频热词的阈值时,确定所述候选项为高频热词。
其中,所述装置包括推送模块,所述推送模块用于向所述候选项所属的领域的用户推送所述高频热词对应的链接。
其中,所述展示模块具体用于展示进行所述排序后的候选项以及所述候选项所属的领域。
其中,所述排序模块包括:第二排序单元,用于将所述当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果;第三排序单元,用于按照所述当前用户属于候选项所属的领域的权重的大小,对所述第一排序结果进行排序,获得第二排序结果;第四排序单元,用于按照候选项在领域中的权重的大小,对所述第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
其中,所述展示模块包括:第二判断单元,用于判断所述当前用户是否点击“按领域排序”按钮;展示单元,用于在所述当前用户点击“按领域排序”按钮时,展示所述第三排序结果的候选项以及所述候选项所属的领域。
其中,所述语言模型是n-gram语言模型或n-pos语言模型。
本发明的有益效果是:区别于现有技术的情况,本发明获取当前用户所属的领域集合和当前用户当前输入信息的候选项集合中每个候选项所属的领域;按照每个候选项所属的领域与当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。由于用户来自不同的领域,关注的候选项也是不一样的,通过这种方式,能够根据用户所属的领域,向不同的用户推送相应排序的候选项,从而提升用户体验,节约用户的时间。
附图说明
图1是本发明对输入法所产生的候选项进行排序的方法一实施方式的流程图;
图2是本发明对输入法所产生的候选项进行排序的方法另一实施方式的流程图;
图3是本发明对输入法所产生的候选项进行排序的方法又一实施方式的流程图;
图4是本发明对输入法所产生的候选项进行排序的方法的一种展示方式;
图5是本发明对输入法所产生的候选项进行排序的方法的另一种展示方式;
图6是本发明对输入法所产生的候选项进行排序的装置一实施方式的结构示意图;
图7是本发明对输入法所产生的候选项进行排序的装置另一实施方式的结构示意图;
图8是本发明对输入法所产生的候选项进行排序的装置又一实施方式的结构示意图;
图9是本发明对输入法所产生的候选项进行排序的装置又一实施方式的结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
参阅图1,图1是本发明对输入法所产生的候选项进行排序的方法一实施方式的流程图,包括:
步骤S101:利用输入法接收当前用户的当前输入信息。
当前用户使用输入法应用时,输入信息,输入法接收当前用户的当前输入信息。
步骤S102:根据已建立的与领域相关的L个不同的语言模型,获取当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数。
语言模型是用来统计一个句子的概率的模型,即利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。以拼音和汉字转换为例,输入拼音串为nixianzaiganshenme,对应的输出可以有多种形式,如“你现在干什么”、“你西安再赶什么”等等,那么到底哪个才是正确的转换结果呢?利用语言模型,可以知道前者的概率大于后者,因此,在多数情况下转换成前者比较合理。再举一个机器翻译的例子,给定一个汉语句子为“李明正在家里看电视”,可以翻译为“Li Ming is watching TVat home”、“Li Ming at home is watching TV”等等,同样根据语言模型,可以知道前者的概率大于后者,所以翻译成前者比较合理。
与领域相关的L个不同的语言模型,可以用来确定一个句子、或词序列、或若干个词分别属于L个不同的领域的概率,如果概率越大,说明该句子、或词序列、或若干个词属于该领域的可能性越大。
当前用户输入信息后,获得很多候选项,即候选项集合,根据语言模型可以获得每个候选项所属的领域。候选项在L个不同的语言模型中,对应有L个不同的概率,该候选项属于的领域即为在与领域相关的语言模型中的概率最大所对应的领域,当然,根据该语言模型,候选项可能属于多个不同的领域。
语言模型包括但不限于:n-gram语言模型或n-pos语言模型。
n-gram语言模型也称为n-1阶马尔科夫模型,它有一个有限假设:当前词的出现概率仅仅与前面n-1个词相关。当n取1、2、3时,n-gram模型分别称为unigram(一元语言模型)、bigram(二元语言模型)和trigram语言模型(三元语言模型)。n越大,语言模型越准确,统计也越复杂,统计量也越大。最常用的是bigram,其次是unigram和trigram,n取大于等于四的情况较少。
n-pos语言模型是指按照词的语法功能对词进行分类,由这些词类(或词性,POS,Part-of-Speech)决定下一个词出现的概率。
n-pos语言模型的优点在于它需要训练的数据比n-gram语言模型少得多,并且模型的参数空间也要小得多;缺点在于词的概率分布依赖于词性而非词本身,显然按照词类划分词的概率分布不如词本身的划分精细。因此,在实际应用中中,这类语言模型一般难以达到n-gram语言模型的精度。
步骤S103:按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
用户所属的领域可能不止一个领域,可能是多个不同的领域,因此是一个领域集合。获得用户所属的领域集合至少可以通过两种方式:第一,系统中保存有相关用户所属的领域信息,该信息已经根据语言模型对用户进行分类,确定了用户所属的领域集合;第二,在用户输入信息时,根据语言模型确定用户所属的领域集合。
如果候选项所属的领域属于当前用户所属的领域集合中的领域,则相关性大,如果候选项所属的领域不属于当前用户所属的领域集合中的领域,则相关性小,具体的相关性的大小需要比较候选项在L个不同的语言模型的概率的大小。
例如,当前用户所属的领域集合是:经济、艺术以及自然科学与技术,如果候选项所属的领域集合是自然科学与技术,则相关性大;如果候选项所属的领域集合是宗教与文化,则相关性小。
排序时可以按照相关性有大到小、或由小到大、或其它方式对当前用户当前输入信息的候选项集合中的候选项进行排序。
步骤S104:展示进行排序后的候选项。
在对候选项排序完成后,向当前用户展示进行排序后的候选项。
本发明获取当前用户所属的领域集合和当前用户当前输入信息的候选项集合中每个候选项所属的领域;按照每个候选项所属的领域与当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。由于用户来自不同的领域,关注的候选项也是不一样的,通过这种方式,能够根据用户所属的领域,向不同的用户推送相应排序的候选项,从而提升用户体验,节约用户的时间。
参阅图2和图3,图2和图3是本发明对输入法所产生的候选项进行排序的方法两个实施方式的流程图,包括:
步骤S201:使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料。
文本分类是将大量文本文档划分为若干组,每组一个类别,使得各个类别代表不同的概念主题。这种分类通常是一个有指导的学习过程,它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。
通过文本分类技术,对网页语料分类整理,获得L个不同的领域,以及整理好的L类不同的与领域相关的网页语料。例如,领域包括:日常用语、经济、自然科学与技术、艺术、宗教与文化等等。
步骤S202:将L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
根据每一类同领域的网页语料,可以训练出与该领域相关的语言模型,例如:与日常用语相关的语言模型、与经济相关的语言模型、与自然科学与技术相关的语言模型、与艺术相关的语言模型、与宗教与文化相关的语言模型等等。
步骤S203:利用输入法接收当前用户的当前输入信息。
需要说明的是,步骤S201和步骤S202在步骤S204之前完成即可。步骤S201和步骤S202可以与步骤S203并行执行(如图3),或者在步骤S203之后执行均可。
步骤S204:根据已建立的与领域相关的L个不同的语言模型,获取当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数。
根据已建立的与领域相关的L个不同的语言模型,很容易获取当前用户当前输入信息的候选项集合中每个候选项所属的领域。例如,有四个与领域相关的不同的语言模型,四个领域分别是:日常用语、经济、艺术以及宗教与文化,当前用户当前输入信息的某个候选项在这四个与领域相关的语言模型中的概率分别是0.4、0.6、0.01以及0.03,那么该候选项所属的领域是经济。
步骤S205:获得当前用户所属的领域集合。步骤S205有两种方法,第一种方法是:
(1)获取当前用户的输入历史信息。
当前用户的输入历史信息可以客观的反映用户关注的与某些领域相关的信息,一个用户可以关注与多个领域相关的信息,另外,一个用户关注的与领域相关的信息经常发生变化,例如,一段时间内,当前用户关注的信息与经济、自然科学与技术相关,另一段时间内,当前用户关注的信息与日常用语、经济相关。
(2)根据当前用户的输入历史信息,用已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合。
根据当前用户的输入历史信息,利用已建立的与领域相关的L个不同的语言模型,即可对当前用户进行分类,从而确定当前用户所属的领域集合。当前用户的输入历史信息在某个或某几个与领域相关的语言模型中的概率越大,则当前用户属于该领域的概率越大。通常情况下,当前用户的输入历史信息在某个或某几个与领域相关的语言模型中的概率最大时,认为当前用户属于该领域或该几个领域。
对用户进行分类,主要有两个目的:第一,减轻单用户的稀疏的输入历史信息对用户输入行为挖掘的负影响;第二,自动识别并汇聚“同领域”用户的输入信息,让同领域的用户“分享”输入知识,以达到更好的用户输入体验。
第二种方法是:
(1)获取多个用户的输入历史信息,多个用户属于L个不同的领域。
(2)从获取的多个用户的输入历史信息中选取部分输入历史信息。
(3)对选取的部分输入历史信息进行标注,获得多个用户标注的训练语料。
对选取的部分输入历史信息进行标注,可以获得比较精确的训练语料,这样对于用户的分类会更加精确。
(4)将多个用户标注的训练语料和L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器。
机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。在半督导机器学习中,已得到的观察量中一部分是加了标识的数据,另一部分是没有标识的数据,通过这种方式,可以只需要标识一部分数据即可获得比较精确的结果。
在训练用户分类器时,一部分是少量而精确的标注的训练语料,一部分是大量而内容广泛的网页语料,结合两部分语料的优势,可以训练出更加具有代表性的与领域相关的用户分类器。
用户分类器也是与领域相关的L个语言模型组合在一起的一个分类器,在输入某个用户的输入历史信息后,通过用户分类器可以直接获得该用户所属的领域集合。
(5)根据已获得的当前用户的输入历史信息,用与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
从上述获取当前用户所属的领域集合的两种方法可以看出,通过第一种方法获取的当前用户所属的领域集合比较粗略,通过第二种方法获取的当前用户所属的领域集合比较精确。在实际应用中,根据具体情况选择其中的一种方法获取当前用户所属的领域集合即可。
另外,输入历史信息包括但不限于:在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
例如,用户在使用日文输入法产品的时候,上传给服务器的输入历史信息;在twitter这样的即时通信工具上,按照时间的新旧顺序收集用户输入的历史信息;在facebook这样的社交网站上,同样按照时间的新旧顺序收集用户输入的历史信息。
需要说明的是,步骤S205在步骤S206之前执行即可,具体的执行顺序可根据实际情况确定(如图2和图3所示),在此不再进行赘叙。
步骤S206:按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
其中,按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性由大到小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
其中,本步骤S206包括步骤S206a和步骤S206b,具体内容如下:
步骤S206a:根据每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重。
在每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小得知后,再根据当前用户所属的领域集合中每个领域对应该当前用户的权重的大小(例如,在与领域相关的语言模型中的概率),即可获得当前用户当前输入信息的候选项集合中每个候选项的权重的大小。
例如,当前用户所属的领域集合:日常用语、经济以及艺术,其中当前用户当前输入信息的一个候选项所属的领域是艺术,相关性为1,艺术在当前用户所属的领域集合中的权重是0.25,则该候选项的权重是0.25;当前用户当前输入信息的另外一个候选项所属的领域是日常用语,相关性为1,日常用语在当前用户所属的领域集合中的权重是0.5,则该候选项的权重是0.5。
优选地,步骤S206a可以通过以下方式获得,具体内容包括:
(1)获取m个用户u1、u2、…、um在输入当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域。
(2)在L个不同的领域中,获取候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率。
(3)获取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率。
需要说明的是,(2)和(3)分别获得候选项在某一领域中的权重以及用户属于该领域的权重,(2)和(3)在执行时不分先后顺序。
(4)根据权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
通过上述方式,能够以一种在线学习的方式,不断地根据各个领域的用户的输入历史信息,更新各个候选项的权重,以使得更新后的各候选项的排序更加接近各个领域的用户的实际需求。
需要注意的是,上述权值的统计方法利用了同领域的各个用户的输入历史信息,属于一种用户信息共享的技术方法。
步骤S206b:根据候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
根据候选项集合中每个候选项的权重由大到小、或由小到大、或其他方式,对当前用户当前输入信息的候选项集合中的候选项进行排序。
优选地,在步骤S206a之后,还包括:
A.判断当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值。
B.若达到预设的高频热词的阈值,则确定候选项为高频热词。
其中,在确定候选项为高频热词之后,向候选项所属的领域的用户推送高频热词对应的链接。
可以向该领域中单个用户推送该词对应的搜索引擎的链接,以提高网页打开率。在信息化高速发展的时代,通过这种方式,可以吸引用户及时了解当下高频热词的相关信息。
步骤S207:展示进行所述排序后的候选项。
步骤S207具体内容可以是展示进行所述排序后的候选项以及所述候选项所属的领域。
请参见图4,图4是本发明其中的一种展示方式,该展示方式可以通过下面的方法实现:
(1)当前用户输入假名“かがく”,并按下space键进行“汉字变换”请求;
(2)输入法给当前用户展示汉字候选以及该汉字候选所属的“领域”信息;
(3)在当前用户的选择焦点到达“花岳”的时候,给当前用户展示中间的画面,即地名对应的所谓高人气的“名胜古迹”,并在“花岳寺”下附上搜索引擎例如百度搜索的url,在当前用户点击右箭头方向键“→”或者鼠标左键点击的时候,在浏览器中展现百度搜索的结果。
另外,步骤S206还可以包括如下内容:
(1)将当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果。
将候选项按照领域进行分类,属于同一个领域的候选项排列在一起,获得初步的排序结果,即第一排序结果。
(2)按照当前用户属于候选项所属的领域的权重的大小,对第一排序结果进行排序,获得第二排序结果。
当前用户属于候选项所属的领域的权重的大小是不一样的,根据该权重的大小对第一排序结果进行第二次排序,获得第二排序结果。其中,当前用户属于候选项所属的领域的权重的大小的计算方法可以参考公式:
(3)按照候选项在领域中的权重的大小,对第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
对于第二次排序的结果,属于同一个领域内的候选项仅仅只是排列在一起,并没有进行具体的排序,因此,可以按照候选项在领域中的权重的大小,对第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。其中,候选项在领域中的权重的大小的计算方法可以参考公式:
可以参考的普遍的原则是:日常生活领域高于专业术语领域,属于多个领域的候选,排名尽量靠前。
此时,步骤S207可以是:首先,判断当前用户是否点击“按领域排序”按钮;如果当前用户点击“按领域排序”按钮,则展示第三排序结果的候选项以及候选项所属的领域。请参见图5,图5是本发明又一种展示方式,该展示方式可以通过下面的方法实现:
(1)当前用户输入假名“かがく”,并按下space键进行“汉字变换”请求;
(2)输入法给当前用户展示汉字候选以及该汉字候选所属的“领域”信息;
(3)同时,在“汉字展示”框的最下部,增加“按照领域排序(领域)”按钮;
(4)在当前用户点击“按照领域排序(领域)”按钮之后,同一个领域的候选聚合在一起;各个领域按照与该用户的“亲疏”顺序排序;并且一个领域内部也按照候选项在领域中的权重的大小进行排序,或者根据候选的频次,用户选择次数等信息进行排序。
通过上述方式,用户可以自己定制候选显示方式,可以让用户快速定位自己感兴趣领域的各个候选,减少用户查找正确候选项所需要的时间。同时,向用户推送搜索引擎的搜索链接,提升了用户体验(例如用户希望通过输入法和搜索引擎,找到自己想去的地方,想买的商品等)。
在实际应用中,可以根据具体情况增减本实施方式的相关步骤,在此不再进行赘叙。
本实施方式中的语言模型是n-gram语言模型或n-pos语言模型。
总之,本发明获取当前用户所属的领域集合和当前用户当前输入信息的候选项集合中每个候选项所属的领域;按照每个候选项所属的领域与当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。由于用户来自不同的领域,关注的候选项也是不一样的,通过这种方式,能够根据用户所属的领域,向不同的用户推送相应排序的候选项,从而提升用户体验,节约用户的时间。
需要特别说明的是,上述图1、图2和图3三个实施方式中,领域分类都是围绕“个人用户”展开的。对于企业级用户,本发明同样适用。简单来说,这里只描述企业级用户的特有特征:
1.单个企业的各个不同主干分支(例如:研发、销售、运营等部门),分别对应一个“企业子领域”,而整个企业也对应一个更大的“企业领域”,这样分门别类地收集各个领域用户的输入历史信息,整合起来并训练出相关的语言模型。
2.依据该企业的营业内容等,推送相关领域的细胞词库以及相关领域的高频热词,推送高频热词的链接。
参阅图6,图6是本发明对输入法所产生的候选项进行排序的装置一实施方式的结构示意图,该装置包括:接收模块301、第一获取模块302、排序模块303以及展示模块304。
接收模块301用于利用输入法接收当前用户的当前输入信息。
第一获取模块302用于根据已建立的与领域相关的L个不同的语言模型,获取当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数。
语言模型是用来统计一个句子的概率的模型,即利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。
与领域相关的L个不同的语言模型,可以用来确定一个句子、或词序列、或若干个词分别属于L个不同的领域的概率,如果概率越大,说明该句子、或词序列、或若干个词属于该领域的可能性越大。
用户输入信息后,获得很多候选项,即候选项集合,根据语言模型可以获得每个候选项所属的领域。
语言模型包括但不限于:n-gram语言模型或n-pos语言模型。
排序模块303用于按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
用户所属的领域可能不止一个领域,可能是多个不同的领域,因此是一个领域集合。获取用户所属的领域集合至少可以通过两种方式:第一,系统中保存有相关用户所属的领域信息,该信息已经根据语言模型对用户进行分类,确定了用户所属的领域集合;第二,在用户输入信息时,根据语言模型确定用户所属的领域集合。
如果候选项所属的领域属于当前用户所属的领域集合中的领域,则相关性大,如果候选项所属的领域不属于当前用户所属的领域集合中的领域,则相关性小,具体的相关性的大小需要比较候选项在L个不同的语言模型的概率的大小。
例如,当前用户所属的领域集合是:经济、艺术以及自然科学与技术,如果候选项所属的领域集合是自然科学与技术,则相关性大;如果候选项所属的领域集合是宗教与文化,则相关性小。
排序时可以按照相关性有大到小、或由小到大、或其它方式对当前用户当前输入信息的候选项集合中的候选项进行排序。
展示模块304用于展示进行所述排序后的候选项。
本发明获取当前用户所属的领域集合和当前用户当前输入信息的候选项集合中每个候选项所属的领域;按照每个候选项所属的领域与当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。由于用户来自不同的领域,关注的候选项也是不一样的,通过这种方式,能够根据用户所属的领域,向不同的用户推送相应排序的候选项,从而提升用户体验,节约用户的时间。
参阅图7至图9,图7至图9是本发明对输入法所产生的候选项进行排序的装置三个实施方式的结构示意图,该装置包括:第一获得模块401、第一训练模块402、接收模块403、第一获取模块404、第二获取模块405、第二获得模块406(或者,第三获取模块409、选取模块410、第三获得模块411、第二训练模块412、第四获得模块413)、排序模块407以及展示模块408。
第一获得模块401用于使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料。
通过文本分类技术,对网页语料分类整理,获得L个不同的领域,以及整理好的L类不同的与领域相关的网页语料。例如,领域包括:日常用语、经济、自然科学与技术、艺术、宗教与文化等等。
第一训练模块402用于将L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
根据每一类同领域的网页语料,可以训练出与该领域相关的语言模型,例如:与日常用语相关的语言模型、与经济相关的语言模型、与自然科学与技术相关的语言模型、与艺术相关的语言模型、与宗教与文化相关的语言模型等等。
接收模块403用于利用输入法接收当前用户的当前输入信息。
第一获取模块404用于根据已建立的与领域相关的L个不同的语言模型,获取当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数。
第二获取模块405用于获取当前用户的输入历史信息。
第二获得模块406用于根据当前用户的输入历史信息,用已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合。
根据当前用户的输入历史信息,利用已建立的与领域相关的L个不同的语言模型,即可对当前用户进行分类,从而确定当前用户所属的领域集合。当前用户的输入历史信息在某个或某几个与领域相关的语言模型中的概率越大,则当前用户属于该领域的概率越大。通常情况下,当前用户的输入历史信息在某个或某几个与领域相关的语言模型中的概率最大时,认为当前用户属于该领域或该几个领域。
对用户进行分类,主要有两个目的:第一,减轻单用户的稀疏的输入历史信息对用户输入行为挖掘的负影响;第二,自动识别并汇聚“同领域”用户的输入信息,让同领域的用户“分享”输入知识,以达到更好的用户输入体验。
或者,该装置在没有第二获取模块405第二获得模块406时,包括:第三获取模块409、选取模块410、第三获得模块411、第二训练模块412以及第四获得模块413。
第三获取模块409用于获取多个用户的输入历史信息,多个用户属于L个不同的领域。
选取模块410用于从获取的多个用户的输入历史信息中选取部分输入历史信息。
第三获得模块411用于对选取的部分输入历史信息进行标注,获得多个用户标注的训练语料。
第二训练模块412用于将多个用户标注的训练语料和L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器。
第四获得模块413用于根据已获得的当前用户的输入历史信息,用与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
其中,输入历史信息包括但不限于:在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
排序模块407用于按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
排序模块407具体用于按照每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性由大到小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
其中,排序模块407包括:第一获得单元和第一排序单元。
第一获得单元用于根据每个候选项所属的领域与已获得的当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重。
第一获得单元包括:第一获取子单元、第二获取子单元、第三获取子单元以及获得子单元。
第一获取子单元用于获取m个用户u1、u2、…、um在输入当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域。
第二获取子单元用于在L个不同的领域中,获取候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率。
第三获取子单元用于取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率。
获得子单元用于根据权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
第一排序单元用于根据候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
通过上述方式,能够以一种在线学习的方式,不断地根据各个领域的用户的输入历史信息,更新各个候选项的权重,以使得更新后的各候选项的排序更加接近各个领域的用户的实际需求。
其中,排序模块407还包括:第一判断单元和确定单元。
第一判断单元用于判断当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值。
确定单元用于在达到预设的高频热词的阈值时,确定候选项为高频热词。
该装置还包括:推送模块414,推送模块414用于向候选项所属的领域的用户推送高频热词对应的链接。
可以向该领域中单个用户推送该词对应的搜索引擎的链接,以提高网页打开率。在信息化高速发展的时代,通过这种方式,可以吸引用户及时了解当下高频热词的相关信息。
展示模块408用于展示进行所述排序后的候选项。
展示模块408具体用于展示进行所述排序后的候选项以及所述候选项所属的领域。
另外,排序模块407还可以包括:第二排序单元、第三排序单元以及第四排序单元。
第二排序单元用于将所述当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果。
第三排序单元用于按照所述当前用户属于候选项所属的领域的权重的大小,对所述第一排序结果进行排序,获得第二排序结果。
第四排序单元用于按照候选项在领域中的权重的大小,对所述第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
此时,展示模块还包括:第二判断单元和展示单元。
第二判断单元用于判断所述当前用户是否点击“按领域排序”按钮;
展示单元用于在所述当前用户点击“按领域排序”按钮时,展示所述第三排序结果的候选项以及所述候选项所属的领域。
语言模型是n-gram语言模型或n-pos语言模型。
需要说明的是,在实际应用中,可以根据具体情况增减本三个实施方式的模块或者单元,在此不再进行赘叙。
本发明获取当前用户所属的领域集合和当前用户当前输入信息的候选项集合中每个候选项所属的领域;按照每个候选项所属的领域与当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。由于用户来自不同的领域,关注的候选项也是不一样的,通过这种方式,能够根据用户所属的领域,向不同的用户推送相应排序的候选项,从而提升用户体验,节约用户的时间。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (24)
1.一种对输入法所产生的候选项进行排序的方法,其特征在于,包括:
利用所述输入法接收当前用户的当前输入信息;
根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数;
按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序,其中,通过以下方式获得所述当前用户所属的领域集合:获取当前用户的输入历史信息;根据所述当前用户的输入历史信息,用所述已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合;
展示进行所述排序后的候选项。
2.根据权利要求1所述的方法,其特征在于,所述根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域的步骤之前,包括:
使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料;
将所述L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
3.根据权利要求2所述的方法,其特征在于,所述按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤之前,包括:
获取多个用户的输入历史信息,所述多个用户属于所述L个不同的领域;
从所述获取的多个用户的输入历史信息中选取部分输入历史信息;
对所述选取的部分输入历史信息进行标注,获得多个用户标注的训练语料;
将所述多个用户标注的训练语料和所述L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器;
根据已获得的所述当前用户的输入历史信息,用所述与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
4.根据权利要求3所述的方法,其特征在于,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
5.根据权利要求1所述的方法,其特征在于,所述按照每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤,包括:
根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重;
根据所述候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重的步骤,包括:
获取m个用户u1、u2、…、um在输入所述当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域;
在L个不同的领域中,获取所述候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率,
获取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率;
根据所述权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
,
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
7.根据权利要求5所述的方法,其特征在于,所述根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重的步骤之后,包括:
判断所述当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值;
若达到所述预设的高频热词的阈值,则确定所述候选项为高频热词。
8.根据权利要求7所述的方法,其特征在于,所述若达到所述预设的高频热词的阈值,则确定所述候选项为高频热词的步骤之后,包括:向所述候选项所属的领域的用户推送所述高频热词对应的链接。
9.根据权利要求1所述的方法,其特征在于,所述展示进行所述排序后的候选项的步骤,包括:展示进行所述排序后的候选项以及所述候选项所属的领域。
10.根据权利要求6所述的方法,其特征在于,所述按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序的步骤,包括:
将所述当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果;
按照所述当前用户属于候选项所属的领域的权重的大小,对所述第一排序结果进行排序,获得第二排序结果;
按照候选项在领域中的权重的大小,对所述第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
11.根据权利要求10所述的方法,其特征在于,所述展示进行所述排序后的候选项的步骤,包括:
判断所述当前用户是否点击“按领域排序”按钮;
若所述当前用户点击“按领域排序”按钮,则展示所述第三排序结果的候选项以及所述候选项所属的领域。
12.根据权利要求1至3任一项所述的方法,其特征在于,所述语言模型是n-gram语言模型或n-pos语言模型。
13.一种对输入法所产生的候选项进行排序的装置,其特征在于,所述装置包括:
接收模块,用于利用所述输入法接收当前用户的当前输入信息;
第一获取模块,用于根据已建立的与领域相关的L个不同的语言模型,获取所述当前用户当前输入信息的候选项集合中每个候选项所属的领域,其中,L是自然数;
排序模块,用于按照所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序,其中,通过以下方式获得所述当前用户所属的领域集合:获取当前用户的输入历史信息;根据所述当前用户的输入历史信息,用所述已建立的与领域相关的L个不同的语言模型对当前用户进行分类,获得当前用户所属的领域集合;
展示模块,用于展示进行所述排序后的候选项。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第一获得模块,用于使用文本分类技术,对网页语料进行分类整理,获得L个不同的领域和L类不同的与领域相关的网页语料;
第一训练模块,用于将所述L类不同的与领域相关的网页语料,分别按照各自的领域训练出L个不同的与领域相关的语言模型。
15.根据权利要求14所述的装置,其特征在于,所述装置包括:
第三获取模块,用于获取多个用户的输入历史信息,所述多个用户属于所述L个不同的领域;
选取模块,用于从所述获取的多个用户的输入历史信息中选取部分输入历史信息;
第三获得模块,用于对所述选取的部分输入历史信息进行标注,获得多个用户标注的训练语料;
第二训练模块,用于将所述多个用户标注的训练语料和所述L类不同的与领域相关的网页语料,用半督导机器学习方法分别按照各自的领域训练出与领域相关的用户分类器;
第四获得模块,用于根据已获得的所述当前用户的输入历史信息,用所述与领域相关的用户分类器对当前用户进行分类,获得当前用户所属的领域集合。
16.根据权利要求15所述的装置,其特征在于,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息。
17.根据权利要求13所述的装置,其特征在于,所述排序模块包括:
第一获得单元,用于根据所述每个候选项所属的领域与已获得的所述当前用户所属的领域集合中的领域的相关性的大小,获得当前用户当前输入信息的候选项集合中每个候选项的权重;
第一排序单元,用于根据所述候选项集合中每个候选项的权重的大小,对当前用户当前输入信息的候选项集合中的候选项进行排序。
18.根据权利要求17所述的装置,其特征在于,所述第一获得单元包括:
第一获取子单元,用于获取m个用户u1、u2、…、um在输入所述当前用户当前输入信息的情况下,对同一个候选项ci的选择次数s1、s2、…、sm,其中,m个用户属于L个不同的领域;
第二获取子单元,用于在L个不同的领域中,获取所述候选项ci在领域l中的权重weight(ci,l),即
其中,Pl(ci)是在与领域l相关的语言模型下,候选项ci的概率,
第三获取子单元,用于取用户um属于领域l的权重weight(um,l),即
其中,Pl(log of um)表示用户um输入的log文本在与领域l相关的语言模型下的概率;
获得子单元,用于根据所述权重weight(ci,l)、权重weight(um,l)以及当前用户所属的领域集合Lm,获得当前用户当前输入信息的候选项集合中每个候选项的权重weightk(ci,um),即
其中,k代表第k次迭代,cost(ci,um)是候选项ci对于用户um的成本,costk+1(ci,um)=-weightk(ci,um)。
19.根据权利要求17所述的装置,其特征在于,所述排序模块包括:
第一判断单元,用于判断所述当前用户当前输入信息的候选项集合中每个候选项的权重是否达到预设的高频热词的阈值;
确定单元,用于在达到所述预设的高频热词的阈值时,确定所述候选项为高频热词。
20.根据权利要求19所述的装置,其特征在于,所述装置包括推送模块,所述推送模块用于向所述候选项所属的领域的用户推送所述高频热词对应的链接。
21.根据权利要求16所述的装置,其特征在于,所述展示模块具体用于展示进行所述排序后的候选项以及所述候选项所属的领域。
22.根据权利要求18所述的装置,其特征在于,所述排序模块包括:
第二排序单元,用于将所述当前用户当前输入信息的候选项集合中的候选项按照属于同一领域的候选项排列在一起的条件进行排序,获得第一排序结果;
第三排序单元,用于按照所述当前用户属于候选项所属的领域的权重的大小,对所述第一排序结果进行排序,获得第二排序结果;
第四排序单元,用于按照候选项在领域中的权重的大小,对所述第二排序结果中排列在一起的属于同一领域的候选项进行排序,获得第三排序结果。
23.根据权利要求22所述的装置,其特征在于,所述展示模块包括:
第二判断单元,用于判断所述当前用户是否点击“按领域排序”按钮;
展示单元,用于在所述当前用户点击“按领域排序”按钮时,展示所述第三排序结果的候选项以及所述候选项所属的领域。
24.根据权利要求13至15任一项所述的装置,其特征在于,所述语言模型是n-gram语言模型或n-pos语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210531877.4A CN103869999B (zh) | 2012-12-11 | 2012-12-11 | 对输入法所产生的候选项进行排序的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210531877.4A CN103869999B (zh) | 2012-12-11 | 2012-12-11 | 对输入法所产生的候选项进行排序的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103869999A CN103869999A (zh) | 2014-06-18 |
CN103869999B true CN103869999B (zh) | 2018-10-16 |
Family
ID=50908619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210531877.4A Active CN103869999B (zh) | 2012-12-11 | 2012-12-11 | 对输入法所产生的候选项进行排序的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103869999B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335415A (zh) * | 2014-08-04 | 2016-02-17 | 北京搜狗科技发展有限公司 | 基于输入预测的搜索方法和输入法系统 |
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
US10817672B2 (en) * | 2014-10-01 | 2020-10-27 | Nuance Communications, Inc. | Natural language understanding (NLU) processing based on user-specified interests |
CN109117480B (zh) * | 2018-08-17 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 词预测方法、装置、计算机设备及存储介质 |
CN110874146A (zh) * | 2018-08-30 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
CN111984131B (zh) * | 2020-07-07 | 2021-05-14 | 北京语言大学 | 一种基于动态权重进行信息输入的方法及系统 |
CN112698736A (zh) * | 2020-12-31 | 2021-04-23 | 上海臣星软件技术有限公司 | 信息输出方法、装置、电子设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936893A (zh) * | 2006-06-02 | 2007-03-28 | 北京搜狗科技发展有限公司 | 基于互联网信息的输入法词频库的生成方法和系统 |
CN101013443A (zh) * | 2007-02-13 | 2007-08-08 | 北京搜狗科技发展有限公司 | 一种智能组词输入的方法和一种输入法系统及其更新方法 |
CN102314440A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 利用网络维护语言模型库的方法和系统 |
CN102426591A (zh) * | 2011-10-31 | 2012-04-25 | 北京百度网讯科技有限公司 | 一种操作用于内容输入的语料库的方法和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294982A1 (en) * | 2007-05-21 | 2008-11-27 | Microsoft Corporation | Providing relevant text auto-completions |
CN102722483B (zh) * | 2011-03-29 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 用于确定输入法的候选项排序的方法、装置和设备 |
-
2012
- 2012-12-11 CN CN201210531877.4A patent/CN103869999B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936893A (zh) * | 2006-06-02 | 2007-03-28 | 北京搜狗科技发展有限公司 | 基于互联网信息的输入法词频库的生成方法和系统 |
CN101013443A (zh) * | 2007-02-13 | 2007-08-08 | 北京搜狗科技发展有限公司 | 一种智能组词输入的方法和一种输入法系统及其更新方法 |
CN102314440A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 利用网络维护语言模型库的方法和系统 |
CN102426591A (zh) * | 2011-10-31 | 2012-04-25 | 北京百度网讯科技有限公司 | 一种操作用于内容输入的语料库的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103869999A (zh) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103869999B (zh) | 对输入法所产生的候选项进行排序的方法及装置 | |
CN103870001B (zh) | 一种生成输入法候选项的方法及电子装置 | |
CN102831234B (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN100595760C (zh) | 一种获取口语词条的方法、装置以及一种输入法系统 | |
CN102163198B (zh) | 提供新词或热词的方法及系统 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN103870000B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN104657496A (zh) | 一种计算信息热度值的方法和设备 | |
CN103869998B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN102054018A (zh) | 信息处理设备、信息处理方法以及程序 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN102023986A (zh) | 参考外部知识构建文本分类器的方法和设备 | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及系统 | |
CN110019794A (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
CN101645083A (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
CN107102976A (zh) | 基于微博的娱乐新闻自动构建技术与系统 | |
CN101556596A (zh) | 一种输入法系统及智能组词的方法 | |
CN107967302A (zh) | 基于深度神经网络的游戏客服对话系统 | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
CN113722443A (zh) | 一种融合文本相似度和协同过滤的标签推荐方法和系统 | |
CN101984431B (zh) | 网络新闻表情分布的自动预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |