CN102693245A - 属性提取和聚类设备及方法 - Google Patents
属性提取和聚类设备及方法 Download PDFInfo
- Publication number
- CN102693245A CN102693245A CN2011100774009A CN201110077400A CN102693245A CN 102693245 A CN102693245 A CN 102693245A CN 2011100774009 A CN2011100774009 A CN 2011100774009A CN 201110077400 A CN201110077400 A CN 201110077400A CN 102693245 A CN102693245 A CN 102693245A
- Authority
- CN
- China
- Prior art keywords
- word
- group
- attribute
- text
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于获得文本中的属性和描述的设备,包括:提取单元,用于从文本中提取所有词语;向量生成单元,用于生成针对已提取的词语的上下文向量;聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及区分单元,用于将已聚类的词语进行区分。本发明还提供了一种用于获得文本中的属性和描述的方法。通过本发明,能够从文本格式的评论中提取属性,还能够对各种类别的词语进行聚类并加以区分,从而获得更加精确的聚类结果。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种属性提取和聚类设备及方法。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括用户对产品、服务的评论和人们对事件、政策等的看法。这些评论和看法例如可以发表在购物网站、论坛和个人博客上。通过分析这些文本,可以了解人们对于产品、服务、事件、政策等的意见和态度,因此具有很大的价值。
具体地,对产品和服务而言,有两个重要需求。第一是提取描述对象和对应的描述,其中描述对象通常是产品和服务的某种属性。例如“这个手机的屏幕很大”,对产品“手机”而言,“屏幕”是描述对象(它是手机的一种属性),“大”是对“屏幕”的描述。在以下论述中,将描述对象称为“属性”。注意,这是只是为了称呼方便,事实上描述对象可能包含产品和服务的狭义属性之外的内容,例如“这个手机适合商业人士”,描述对象是手机的适用人群,这并不是狭义上的手机的属性(例如屏幕、电池等)。
第二是针对属性进行聚类。人们常常用不同的词语描述同一属性,例如“屏幕”“显示屏”“屏”都是指手机的屏幕。如果系统可以把关于它们的描述分开提取和总结,例如“80%的用户喜欢这款手机的屏幕,20%的用户不喜欢。60%的用户喜欢这款手机的显示屏,40%的用户不喜欢”,则用户感受较差。如果系统可以把它们聚合起来,显示总的统计结果:“70%的用户这款手机的屏幕(显示屏、屏),30%的用户不喜欢”,则用户感受较好。所以,把实质意义相同而词语表述不同的属性进行聚类是很有意义的。
参考文献1(“Product Feature Categorization with Multilevel LatentSemantic Association”,Honglei Guo,Huijia Zhu,Zhili Guo,XiaoXunZhang,and Zhong Su,CIKM2009)描述了一种属性提取和聚类方法。该方法主要包括以下步骤:
第一步:从半结构化的文本中抽出名词和名词词组,并把它们作为属性。表1示出了半结构化文本的一个例子:
表1-半结构化文本
在表1中,“优点”和“缺点”分别是用户对产品的短语描述,而“具体评论”是用户评论的文本描述。
因此,该方法首先从“优点”和“缺点”中提取名词片段。具体地,可以根据情感词(例如可以存储在预定义的情感词表中)对“优点”和“缺点”进行分割。例如,“良好的”是一个情感词,它把“良好的触摸屏”分割为“良好的”和“触摸屏”两个部分,然后把以名词结尾的片段保留下来,即“触摸屏”。
其次,检查第一步保留的片段是否在“具体评论”中出现,并保留出现的片段。例如对于“较长的电池寿命”,“具体评论”中出现了“电池寿命”,因此保留“电池寿命”。
再次,如果先前的片段在“具体评论”中有组合,则也保留该组合。例如“LCD”和“触摸屏”在“具体评论”中有组合,因此也保留“LCD触摸屏”。
最后,第一步的执行结果形成如下属性集合:
{“LCD”,“触摸屏”,“图像质量”,“电池寿命”,“LCD触摸屏”}
第二步:针对属性集合中的每一个属性,根据其在“具体评论”中的上下文形成向量。例如,对于属性“屏幕”在“具体评论”中出现的以下文本:“我的新笔记本电脑非常好,因为其LCD屏幕很大很好”,可以形成以下的上下文向量:
{屏幕,好,新,大,好,LCD,很}
该向量的形成规则是:
{属性,属性之前的第一形容词,属性之前的第二形容词,属性之后的第一形容词,属性之后的第二形容词,紧邻属性左边的词,紧邻属性右边的词}
再比如有另一条评论:“我的旧屏幕很差”,可以形成以下的上下文向量:
{屏幕,旧,,差,,旧,很}
要注意的是,因为不存在属性之前和之后的第二形容词,所在对应位置为空。
上述两个向量合并后可形成如下向量:
{屏幕,{好-1,旧-1},{新-1},{大-1,差-1},{好-1},{LCD-1,旧-1},{很-2}}
其中,“好-1”的意思是“好”这个词出现了1次,而“很-2”的意思是“很”这个词出现了2次,以此类推。
第三步:根据上下文向量对属性进行聚类。参考文献1中的方法使用了LDA模型实现聚类。表2示出了聚类结果的一个例子:
表2-聚类结果
在表2中,每一列是一个聚成的类,代表一类属性。例如,最后一列中的“监视器”、“视图”、“屏幕”是代表屏幕的词,它们被划分为一类。
然而,上述现有技术的属性提取和聚类方法存在以下缺点:
第一,像“具体评论”这样的纯文本评论一般每个数据源(例如购物网站)都有,而“优点”和“缺点”这样的短语描述不是每个数据源都有。对那些没有短语描述的数据源来说,以上属性提取的过程会遇到困难。
第二,从名词和名词词组中提取属性会漏掉一些属性。例如对于“用起来很滋润”和“用起来很爽滑”,属性是动词“用起来”,对“闻着很香”和“闻着很清新”这两个例子,属性是动词“闻着”。而对于“携带方便”和“容易携带”两个例子,属性是动词“携带”。而对“很耐看”,属性和描述融合为形容词“耐看”。如果只从名词和名词词组抽取属性,则会漏掉这些属性。
第三,上述现有技术是根据属性的上下文来聚类,这样虽然实现了对属性的聚类,但是却破坏了上下文之间的联系。事实上,代表属性的词和上下文中的词是平等的。任何一个词,不论是属性还是上下文中的词,都有该词自身及其上下文这两个因素。所以,理想的方式是不区分上下文中的词和属性词,而把所有的词都根据各自的上下文进行聚类,以便建立它们之间的联系。
发明内容
为了解决上述技术问题,本发明提供了一种属性提取和聚类设备和方法,能够从纯文本的具体评论中而不是从短语描述中提取属性并聚类。另外,本发明不仅从名词中抽取属性,还从其他词(例如动词和形容词)中抽取属性。进一步地,本发明对所有词而不仅仅是属性词进行聚类。其中,当聚类结果既包括属性又包含属性的描述时,将属性和描述彼此分开。
根据本发明的一个方面,提供了一种用于获得文本中的属性和描述的设备,包括:提取单元,用于从文本中提取所有词语;向量生成单元,用于生成针对已提取的词语的上下文向量;聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及区分单元,用于将已聚类的词语进行区分。
优选地,区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系而把所述多个组中的词语进行区分。
优选地,区分单元被配置为:针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji,以及如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述;如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
优选地,聚类单元包括:相似度计算子单元,计算已提取的词语的相似度;以及类中心计算子单元,基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
优选地,类中心计算子单元计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,r(i,k)表示点k适合作为点i的类中心的程度,a(i,k)表示点i选择点k作为它的类中心的适合程度,n表示点的总数。然后,类中心计算子单元选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
优选地,类中心计算子单元按照迭代的方式计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
根据本发明的另一个方面,提供了一种用于获得文本中的属性和描述的方法,包括以下步骤:从文本中提取所有词语;生成针对已提取的词语的上下文向量;根据生成的上下文向量对已提取的词语进行聚类;以及将已聚类的词语进行区分。
优选地,对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系而把所述多个组中的词语进行区分。
优选地,针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji。如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述。如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
优选地,通过把每一个已提取的词语看作平面中的一个点来计算任意两个点的相似度,并且基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
优选地,计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,r(i,k)表示点k适合作为点i的类中心的程度,a(i,k)表示点i选择点k作为它的类中心的适合程度,n表示点的总数。然后,选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
优选地,按照迭代的方式计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
本发明能够从纯文本的具体评论中提取属性,因而覆盖范围更广。另外,本发明能够从包括名词、动词、形容词的多种词中提取属性,因此提取结果更加全面。本发明还能够对各种类别的词语(不仅仅是属性类词语,还包括描述类词语)进行聚类并加以区分,从而使得聚类结果更加精确。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1是示出了根据本发明一个实施例的属性提取和聚类设备的框图;
图2是示出了图1中的聚类单元的具体结构的框图;以及
图3是示出了根据本发明一个实施例的属性提取和聚类方法的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
图1是示出了根据本发明一个实施例的属性提取和聚类设备10的框图。如图1所示,属性提取和聚类设备10包括:提取单元110、向量生成单元120、聚类单元130和区分单元140。在下文中,对属性提取和聚类设备10中的各个单元进行详细描述。
提取单元110用于从文本格式的评论中提取所有的词语。例如,对于两个示例评论文本:“这款化妆品用起来很滋润”和“这款化妆品价格很便宜,使用较爽滑”来说,提取单元110可以提取出以下词语:
{这,款,化妆品,用起来,很,滋润,价格,便宜,使用,较,爽滑}
向量生成单元120用于根据提取单元110的提取结果来生成上下文向量。例如,向量生成单元120可以使用参考文献1中描述的方法,针对词语“价格”生成如下向量:
{价格,,,便宜,,化妆品,很}
需要注意的是,在一般情况下,向量取词会限制在一个句子中,而不会跨越句子。有时会更严格,即在一个小句中取词(一般指由逗号分割的语言片断)。在上面的例子中,向量取词限制在小句中。
本领域的技术人员可以理解,向量生成单元120也可以采用其他已知方法来生成上下文向量。
聚类单元130用于根据生成的上下文向量,对提取的所有词语进行聚类。例如,聚类单元130可以按照已知的k均值(k-means)方法或者潜在的狄利克雷分配模型(Latent Dirichlet Allocation,LDA)等方法进行聚类。
最后,表3示出了聚类单元130的聚类结果:
表3-聚类结果
注意到,在表3中,属性和描述没有被区分,例如,在第一列中,“价格”和“价钱”是属性,“便宜”和“划算”是描述。在第二列中,“携带”和“拿着”是属性,“方便”和“容易”是描述。如果不对属性和描述进行区分,则实际应用中可能对语义分析结果产生不好的影响。因此,采用区分单元140对属性和描述进行区分。
根据一个实施例,由于助词等出现概率较小的词对区分并无作用,为了降低计算量,区分单元140首先对一个聚类中的所有词语按照词性进行分组,然后根据分组中词的数目从大到小进行排序并取前n个组,记为“g1,g2,...gn”,其中n可以根据实际情况而预先设定。
然后,区分单元140根据任意两个组gi和gj中的词在评论文本中的句子中的前后出现次数来计算函数P(gi,gj)。具体地,计算在评论文本的任何一个句子(或者小句)中,gi中的词出现在gj中的词的前面的次数(记为Nij)以及gj中的词出现在gi中的词的前面的次数(记为Nji)。如果(Nij+Nji)小于一个事先设定的阈值T,则这两组词没有修饰关系,不能由此判断哪个是属性,哪个是描述。如果(Nij+Nji)大于或等于阈值T,那么如果Nij>Nji,则P(gi,gj)=1,P(gj,gi)=0;反之,如果Nij<Nji,则P(gj,gi)=1,P(gi,gj)=0;如果Nij=Nji,则P(gi,gj)=P(gj,gi)=0。此时,可以随机地判断gi和gj为属性或描述。然而需要说明的是,Nij=Nji的情况在实际应用中很少发生。
最后,区分单元140根据函数P来区分属性和描述。具体地,如果P(gi,gj)=1,则选择gi为属性,gj为描述。此外,当区分结果中存在矛盾时,例如第i组既被区分为属性又被区分为描述,则针对所有的组计算和即第i组的词语出现在其他组的词语之前的次数之和与其他组的词语出现在第i组的词语之前的次数之和。然后,比较这两个和:如果则第i组的词语为属性;如果则第i组的词语为描述。如果上述两个和相等,则可以随机判断gj为属性或描述,但是这种情况在实际应用中很少发生。
例如,区分单元140可以按照上述过程对表3中第3列的词语{用起来,使用,滋润,爽滑}进行区分。首先,区分单元140按照词性将第3列中的词语分为两组:即{用起来,使用}和{滋润,爽滑}。因为两组都是两个词,所以排序是一样的。设n=2,g1={用起来,使用},g2={滋润,爽滑}。
然后,区分单元140根据评论文本“这款化妆品用起来很滋润”和“这款化妆品价格很便宜,使用较爽滑”来计算两个组g1和g2中的词在评论文本中的前后出现关系。因为“用起来”发生在“滋润”前面,“使用”发生在“爽滑”前面,所以P(g1,g2)=1。因此,区分单元140将g1={用起来,使用}判断为属性,而将g2={滋润,爽滑}判断为描述。
综上所述,属性提取和聚类设备10可以获得如下聚类结果:
表4-属性类词语表
表5-描述类词语表
从表4和表5中可以看出,根据本发明的属性提取和聚类设备能够获得现有技术中无法获得的动词和形容词属性,例如“携带、拿着”、“用起来,使用”、“耐看、大方”等等。因此,提取结果更加全面。另外,根据本发明的属性提取和聚类设备还能够对所有的词(不仅仅是属性类词语,还包括描述类词语)进行聚类并加以区分,从而使得聚类结果更加精确。
如上文所述,聚类单元130可以按照已知的k-means等方法进行聚类。然而,已知的k-means等方法需要在开始之前选择类中心点。不同的类中心点选择可能导致不同的聚类结果。如果类中心点选择不好的话,聚类结果可能较差。
因此,根据本发明的一个优选实施例,聚类单元130以图2所示的结构来实现。如图2所示,聚类单元130包括相似度计算子单元1310和类中心计算子单元1320。
相似度计算子单元1310把每一个词语看成平面中的一个点,并计算任意两个点i和k的相似度s(i,k)。例如,相似度计算子单元1310可以采用向量生成单元120生成的上下文向量来计算两个点之间的距离的平方的负值作为相似度。即,s(i,k)=-||xi-xk||2。其含义是:点xi和点xk的距离越近,则s(i,k)越大,代表这两个词语校相似;反之,点xi和点xk的距离越远,则s(i,k)越小,代表这两个词语较不相似。
类中心计算子单元1320基于相似度计算子单元1310的计算结果来计算各个类的类中心。在本实施例中,类中心计算子单元1320采用r(i,k)表示点k适合作为点i的类中心的程度,用a(i,k)表示点i选择点k作为它的类中心的合适程度。计算公式如下:
在计算r(i,k)的时候,主要有两个考虑因素。第一是点i和点k的相似度s(i,k):s(i,k)越大,则r(i,k)越大。第二是其它点对点i的影响:点i越倾向于选择其它点作为自己的类中心,则点k越不适合作为点i的类中心,r(i,k)越小。具体地,可以从其它点中选择点i最倾向选择作为自己的类中心的点来考虑该影响,其可表示为max(a(i,k’))。显然,如果s(i,k′)越大,即点k′和点i的相似度越大,则k越不适合作为点i的类中心,其可表示为max(a(i,k’)+s(i,k′))。
综上考虑,利用计算公式(1)来计算r(i,k)。
在计算a(i,k)的时候,主要衡量点k作为一个类中心的优秀程度:如果点k适合做很多点的类中心,则点k作为一个类中心就很优秀,如果点k只适合做很少点的类中心,则点k作为一个类中心就不够优秀。如果点k作为一个类中心越优秀,则点i越倾向于选择点k作为自己的类中心,a(i,k)也就越大。因此,可以用∑r(i′,k)来衡量k作为一个类中心的优秀程度,这个值越大,则a(i,k)越大。
如果考虑到一个类中心点肯定适合作为某些点的中心,但是不能保证适合作为所有点的类中心,则只需考虑那些它适合做类中心的点就可以了,此时需要以∑max(0,r(i′,k))来衡量,也就是说,如果,r(i′,k)<0(说明k不适合作i′的类中心)就可以不考虑了。
另外,r(k,k)反映的是k作为自己的类中心的合适程度,如果r(k,k)越大,则k越适合做自己的类中心,a(i,k)也就越大。此时,衡量标准变为r(k,k)+∑max(0,r(i′,k))。进一步地,为了避免某一个点k太优秀了,以至于适合做所有点的类中心(那样只能聚成一类,就起不到对数据点聚类的意义了),所以用一个阈值来加以限制,使得不能超过这个阈值。例如,可以设置阈值为0。
综上所述,利用公式(2)来计算a(i,k)。
在计算a(k,k)的时候,主要衡量点k作为一个类中心的优秀程度:如果点k适合做很多点的类中心,则点k作为一个类中心就很优秀,如果点k只适合做很少点的类中心,则点k作为一个类中心就不够优秀。如果点k作为一个类中心越优秀,则点k越倾向于选择自己作为自己的类中心,a(k,k)也就越大。因此,可以用∑r(i′,k)来衡量k作为一个类中心的优秀程度,这个值越大,则a(k,k)越大。
如果考虑到一个类中心点肯定适合作为某些点的中心,但是不能保证适合作为所有点的类中心,则只需考虑那些它适合做类中心的点就可以了,此时需要以∑max(0,r(i′,k))来衡量,也就是说,如果,r(i′,k)<0(说明k不适合作i′的类中心)就可以不考虑了。
其中,在公式(1)和公式(2)中,“k’s.t.k’≠k”的含义是:要求任何一个选择的k’满足k’≠k。其中,“s.t.”的含义是“使得(so that)”。同样的,对于“i’s.t.i’≠i”、“i’s.t.i∈{i,k}”的含义相同,在此不再赘述。
下面,通过一个具体示例来描述图2所示的聚类单元130的具体计算过程。
假设存在n个点,因为对每一个点都存在两个参数r(i,k)和a(i,k),所以形成两个参数矩阵[r(i,k)]n*n和[a(i,k)]n*n。可以将[r(i,k)]n*n和[a(i,k)]n*n初始化为0。仍以上文的示例评论文本为例,相似度计算子单元1310首先计算s(i,j),结果如下表6所示:
价格 | 价钱 | 划算 | 滋润 | 爽滑 | |
价格 | 0 | -0.2 | -0.4 | -0.9 | -0.8 |
价钱 | -0.2 | 0 | -0.6 | -0.9 | -0.9 |
划算 | -0.4 | -0.6 | 0 | -0.9 | -0.7 |
滋润 | -0.9 | -0.9 | -0.9 | 0 | -0.3 |
爽滑 | -0.8 | -0.9 | -0.7 | -0.3 | 0 |
表6-s(i,j)的计算结果
然后,相似度计算子单元1310计算s(i,i),采用矩阵的平均值(即所有值求和后取平均),得到s(i,i)=-0.6。将其填入表6中的相应位置,得到下表7:
价格 | 价钱 | 划算 | 滋润 | 爽滑 | |
价格 | -0.6 | -0.2 | -0.4 | -0.9 | -0.8 |
价钱 | -0.2 | -0.6 | -0.6 | -0.9 | -0.9 |
划算 | -0.4 | -0.6 | -0.6 | -0.9 | -0.7 |
滋润 | -0.9 | -0.9 | -0.9 | -0.6 | -0.3 |
爽滑 | -0.8 | -0.9 | -0.7 | -0.3 | -0.6 |
表7-s(i,i)的计算结果
然后,类中心计算子单元1320基于相似度计算子单元1310的计算结果来计算各个类的类中心。首先计算[r(i,k)],例如:
r(划算,价格)=r(3,1)=-0.4-max(-0.6,-0.6,-0.9,-0.7)
=-0.4-(-0.6)
=0.2
经过计算,得到下表8所示的结果:
价格 | 价钱 | 划算 | 滋润 | 爽滑 | |
价格 | -0.4 | 0.2 | -0.2 | -0.7 | -0.6 |
价钱 | 0.4 | -0.4 | -0.4 | -0.7 | -0.7 |
划算 | 0.2 | -0.2 | -0.2 | -0.5 | -0.3 |
滋润 | -0.6 | -0.6 | -0.6 | -0.3 | 0.3 |
爽滑 | -0.5 | -0.6 | -0.4 | 0.3 | -0.3 |
表8-r(i,k)的计算结果
接下来,类中心计算子单元1320计算[a(i,k)],例如:
a(划算,价格)=a(3,1)
=min{0,r(1,1)+∑(max(0,r(2,1)+max(0,r(4,1)+max(0,r(5,1))}
=min{0,-0.4+∑(max(0,0.4)+max(0,-0.6)+max(0,-0.5))}
=min{0,-0.4+0.4}
=0
经过计算,得到下表9所示的结果:
价格 | 价钱 | 划算 | 滋润 | 爽滑 | |
价格 | 0.6 | -0.4 | -0.2 | 0 | 0 |
价钱 | -0.2 | 0.2 | -0.2 | 0 | 0 |
划算 | 0 | -0.2 | 0 | 0 | 0 |
滋润 | 0 | -0.2 | -0.2 | 0.3 | -0.3 |
爽滑 | 0 | -0.2 | -0.2 | -0.3 | 0.3 |
表9-a(i,k)的计算结果
上述计算完毕后,类中心计算子单元1320可按照如下标准选择类中心:假设点i的类中心是C(i),则C(i)=argmaxk(r(i,k)+a(i,k)),其含义是选择(r(i,k)+a(i,k))最大的那个点k作为点i的类中心。
例如,针对表8和9中的“价格”,
C(价钱)=argmax((0.4-0.2),(-0.4+0.2),(-0.4-0.2),(-0.7+0),(-0.7+0))
=argmax(0.2,-0.2,-0.6,-0.7,-0.7)
因为最大值0.2对应于“价格”,所以“价钱”选择“价格”作为类中心。
备选地,为了使聚类结果更加精确,类中心计算子单元1320可以按照迭代的方式多次执行[r(i,k)]和[a(i,k)]的上述计算,直到计算结果不再发生变化,或者变化小于一个事先设定的阈值为止。另外,考虑到计算结果的精确度和计算负荷之间的折衷,迭代次数也可以被设定为预定值。
图3是示出了根据本发明一个实施例的属性提取和聚类方法30的流程图。如图3所示,方法30在步骤S310开始。
在步骤S320,从文本格式的评论中提取所有的词语,不仅仅限于名词和名词短语。例如,对于示例评论文本:“这款化妆品用起来很滋润”和“这款化妆品价格很便宜,使用较爽滑”来说,可以提取出以下词语:{这,款,化妆品,用起来,很,滋润,价格,便宜,使用,较,爽滑}。
然后,在步骤S330,根据提取出的词语生成上下文向量。例如,可以按照{属性,属性之前的第一形容词,属性之前的第二形容词,属性之后的第一形容词,属性之后的第二形容词,紧邻属性左边的词,紧邻属性右边的词}的向量生成规则,针对词语“价格”生成如下向量:
{价格,,,便宜,,化妆品,很}
接下来,在步骤S340,根据生成的上下文向量对提取的所有词语进行聚类。可以按照已知的k-means方法进行聚类。优选地,也可以按照上文的公式(1)和(2)来计算类中心并进行聚类。
在步骤S350,对聚类后的词语区分属性和描述。例如,可以按照任意两个类别中的词语在评论文本中的前后出现关系来进行区分。具体地,如果第一类别中的词在评论文本中出现在第二类别中的词前面的次数多于第二类别中的词在评论文本中出现在第一类别的词前面的次数,则P(gi,gj)=1,P(gj,gi)=0。如果gj中的词在评论文本中出现在gi中的词前面的次数多于gi中的词在评论文本中出现在gj中的词前面的次数,则把第一类别中的词语看作属性,而把第二类别中的词语看作描述。从而获得分开的属性类列表和描述类列表。
最后,方法30在步骤S360结束。
本发明能够从纯文本的具体评论中提取属性,覆盖范围更广。另外,本发明能够从包括名词、动词、形容词的多种词中提取属性,因此提取结果更加全面。此外,本发明还能够对各种类别的词语(不仅是属性类词语,还包括描述类词语)进行聚类,从而使得聚类结果更加精确。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (14)
1.一种用于获得文本中的属性和描述的设备,包括:
提取单元,用于从文本中提取所有词语;
向量生成单元,用于生成针对已提取的词语的上下文向量;
聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及
区分单元,用于将已聚类的词语进行区分。
2.根据权利要求1所述的设备,其中,所述区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系对所述多个组中的词语进行区分。
3.根据权利要求2所述的设备,其中,所述区分单元被配置为:
针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji;以及
如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述;
如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
5.根据权利要求1所述的设备,其中,所述聚类单元包括:
相似度计算子单元,计算已提取的词语之间的相似度;以及
类中心计算子单元,基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
6.根据权利要求5所述的设备,其中,所述类中心计算子单元计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,r(i,k)表示点k适合作为点i的类中心的程度,a(i,k)表示点i选择点k作为它的类中心的适合程度,n表示点的总数,并且所述类中心计算子单元选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
7.根据权利要求6所述的设备,其中,所述类中心计算子单元按照迭代的方式计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
8.一种用于获得文本中的属性和描述的方法,包括以下步骤:
从文本中提取所有词语;
生成针对已提取的词语的上下文向量;
根据生成的上下文向量对已提取的词语进行聚类;以及
将已聚类的词语进行区分。
9.根据权利要求8所述的方法,其中,对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系而对所述多个组中的词语进行区分。
10.根据权利要求9所述的方法,其中,针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji;以及
如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述;
如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
12.根据权利要求8所述的方法,其中,所述根据生成的上下文向量对已提取的词语进行聚类的步骤包括:
计算已提取的词语之间的相似度;以及
基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
13.根据权利要求12所述的方法,其中,计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,r(i,k)表示点k适合作为点i的类中心的程度,a(i,k)表示点i选择点k作为它的类中心的适合程度,n表示点的总数,并且选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
14.根据权利要求13所述的方法,其中,按照迭代的方式计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100774009A CN102693245A (zh) | 2011-03-22 | 2011-03-22 | 属性提取和聚类设备及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100774009A CN102693245A (zh) | 2011-03-22 | 2011-03-22 | 属性提取和聚类设备及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102693245A true CN102693245A (zh) | 2012-09-26 |
Family
ID=46858702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100774009A Pending CN102693245A (zh) | 2011-03-22 | 2011-03-22 | 属性提取和聚类设备及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102693245A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391575A (zh) * | 2017-06-20 | 2017-11-24 | 浙江理工大学 | 一种基于词向量模型的隐式特征识别方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN108304417A (zh) * | 2017-01-13 | 2018-07-20 | 北京京东尚科信息技术有限公司 | 信息处理方法和信息处理装置 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN110750646A (zh) * | 2019-10-16 | 2020-02-04 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
-
2011
- 2011-03-22 CN CN2011100774009A patent/CN102693245A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304417A (zh) * | 2017-01-13 | 2018-07-20 | 北京京东尚科信息技术有限公司 | 信息处理方法和信息处理装置 |
CN108304417B (zh) * | 2017-01-13 | 2021-09-17 | 北京京东尚科信息技术有限公司 | 信息处理方法和信息处理装置 |
CN107391575A (zh) * | 2017-06-20 | 2017-11-24 | 浙江理工大学 | 一种基于词向量模型的隐式特征识别方法 |
CN107391575B (zh) * | 2017-06-20 | 2020-08-04 | 浙江理工大学 | 一种基于词向量模型的隐式特征识别方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN107633007B (zh) * | 2017-08-09 | 2021-09-28 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN109033166B (zh) * | 2018-06-20 | 2022-01-07 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN110750646A (zh) * | 2019-10-16 | 2020-02-04 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lazaridou et al. | Compositional-ly derived representations of morphologically complex words in distributional semantics | |
Zhang et al. | Sentiment classification of Internet restaurant reviews written in Cantonese | |
Oya et al. | A template-based abstractive meeting summarization: Leveraging summary and source text relationships | |
Saif et al. | Evaluation datasets for Twitter sentiment analysis: a survey and a new dataset, the STS-Gold | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
Vosoughi et al. | Enhanced twitter sentiment classification using contextual information | |
Firmino Alves et al. | A Comparison of SVM versus naive-bayes techniques for sentiment analysis in tweets: A case study with the 2013 FIFA confederations cup | |
CN102215300B (zh) | 电信业务推荐方法和系统 | |
US20110184729A1 (en) | Apparatus and method for extracting and analyzing opinion in web document | |
US10216838B1 (en) | Generating and applying data extraction templates | |
CN112733042A (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
Dehkharghani et al. | Adaptation and use of subjectivity lexicons for domain dependent sentiment classification | |
CN103186612A (zh) | 一种词汇分类的方法、系统和实现方法 | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
CN102693245A (zh) | 属性提取和聚类设备及方法 | |
EP2824586A1 (en) | Method and computer server system for receiving and presenting information to a user in a computer network | |
US20150142780A1 (en) | Apparatus and method for analyzing event time-space correlation in social web media | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
Solovyev et al. | Dictionary-based problem phrase extraction from user reviews | |
Guthier et al. | Language-independent data set annotation for machine learning-based sentiment analysis | |
Dubey et al. | A research study of sentiment analysis and various techniques of sentiment classification | |
US10163116B2 (en) | Determining brand exclusiveness of users | |
Khan et al. | Sentiment analysis at sentence level for heterogeneous datasets | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
Wold et al. | Twitter topic modeling for breaking news detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120926 |