CN105205699A

CN105205699A - 基于酒店点评的用户标签和酒店标签匹配方法及装置

Info

Publication number: CN105205699A
Application number: CN201510593613.5A
Authority: CN
Inventors: 林小俊; 张猛; 暴筱
Original assignee: Beijing Zhonghui Information Technology Co Ltd
Current assignee: Beijing Zhonghui Information Technology Co Ltd
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2015-12-30

Abstract

本发明公开一种基于酒店点评的用户标签和酒店标签匹配方法及装置，本发明的方法包括：准备酒店业情感语句模板库；准备至少三个酒店的最终酒店标签；从互联网获取特定用户针对同一酒店或不同酒店的至少两条用户点评；将情感语句与情感语句模板进行比对，筛选出相匹配的情感语句并识别为不同的维度，再以所识别的所有维度形成特定用户的用户标签集合；分别计算每个用户标签的权重，其中，在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；选择权重较高的用户标签作为特定用户的最终用户标签；以及将最终酒店标签与特定用户的最终用户标签匹配率高的酒店推荐给特定用户。

Description

基于酒店点评的用户标签和酒店标签匹配方法及装置

技术领域

本发明涉及一种互联网信息处理方法，特别涉及一种用户画像生成方法及装置。

背景技术

时代的变迁，不可避免会带来诸多社会变化。在互联网逐渐步入大数据时代后，不可避免的为企业及消费者行为带来一系列改变与重塑。互联网唯快不破的节奏，打乱了原有商业演变的逻辑，使得商业的参与方不得不面临着前所未有的变革，加速适应时代的变化。如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，“用户画像”的概念应运而生，它完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

用户画像是真实用户的虚拟代表，是在深刻理解真实数据的基础上得出的一个虚拟用户。企业通过收集与分析消费者社会属性、生活习惯、消费行为、观点差异等主要信息的数据之后，将他们区分为不同的类型，然后每种类型中抽取出典型特征，赋予一个名字、一张照片、一些人口统计学要素、场景等描述，就形成了一个用户画像，这是用户的商业全貌，可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

大数据处理，离不开计算机的运算，用户画像可以用标签集合来表示，标签是某一种用户特征的符号表示，用户信息标签化提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解”人。

一个标签通常是预先定义的高度精炼的特征标识，如年龄段标签：25～35岁，地域标签：北京，标签呈现出两个重要特征：(1)语义化，人能很方便地理解每个标签含义，这也使得用户画像模型具备实际意义，能够较好的满足业务需求，如判断用户偏好；(2)短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。

用户画像标签具体来说包括两方面：标签及其权重。标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为置信度。

为用户画像的焦点工作就是为用户打“标签”，而一个标签通常是人为规定的高度精炼的特征标识，如年龄、性别、地域、用户偏好等，最后将用户的所有标签综合来看，基本就可以勾勒出该用户的立体“画像”了。

具体来讲，当为用户画像时，需要收集数据、分析标签两个步骤。

首先，收集到用户所有的相关数据并将用户数据划分为静态信息数据、动态信息数据两大类，静态数据就是用户相对稳定的信息，如性别、年龄、地域、职业等，动态数据就是用户不停变化的行为信息，如浏览网页、搜索商品、发表点评、接触渠道等。

其次，通过剖析数据为用户贴上相应的标签及指数，标签代表用户对该内容有兴趣、偏好、需求等，指数代表用户的兴趣程度、需求程度、购买概率等。

如中国专利申请公开第104750731A号揭示的一种获取完整用户画像的方法，包括：获取残缺的用户画像矩阵，以及随机生成用户参数矩阵P和标签矩阵Q；计算第一部分用户的画像误差，更新用户参数矩阵和标签参数矩阵，其中，选择的第一部分用户的第一变化差值大于第一剩余用户的第一变化差值，第一剩余用户为多个用户中的除第一部分用户之外的用户，第一变化差值为用户第r-1次更新的第一预测值与用户第r-2次更新的第一预测值之间的差值；在第R次更新用户参数矩阵P和标签参数矩阵Q之后，根据矩阵分解的结果，获取完整的用户画像矩阵。

又如中国专利申请公开第104268292A号揭示的一种画像系统的标签词库更新方法，其包括：获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。

再如中国专利申请公开第103577549A号揭示的一种基于微博标签的人群画像系统和方法，包含微博标签推荐和标签主题聚类两大模块，其中第一模块中采用一个涵盖三个步骤的标签推荐算法。第一步为同质性标签推荐，第二步为共现性标签扩展；第三步则是以中文知识图谱为基础建立语义网络，利用网络拓扑特性来度量标签之间的语义相似度，从而去除语义相同或相似的标签，保证用来刻画用户的标签精炼性。

然而，上述三篇专利文献公开的用户画像技术的应用领域均不属于本发明所涉及的酒店行业。

在酒店行业中，目前的用户画像标签化分析的研究和应用主要集中在用户属性和用户行为等数据上，用户属性数据包括年龄、性别、地域等，用户行为数据包括用户在官网或者移动应用端的访问历史、点击历史、消费历史等数据，基于点评数据的研究和应用较少。这方面的主要问题在于点评文本的分析理解很难，需要借助自然语言处理等技术，将非结构化的数据转化为结构化的数据，常见的用户标签分析算法才可以加以应用。

因此，提供一种基于酒店点评的用户标签和酒店标签匹配方法成为业内急需解决的问题。

发明内容

本发明的目的是提供一种基于酒店点评的用户标签和酒店标签匹配方法及装置，其通过标签为酒店和用户建模，从而更好地在酒店和用户之间建立关联。

常见的用户点评分析方法都是基于结构化数据，如用户属性数据，包括年龄、性别、地域等，或者用户行为数据包括用户在官网或者移动应用端的访问历史、点击历史、消费历史等。本发明针对研究和应用较少的酒店点评数据，不仅能分析出用户对酒店的评价是好评还是差评，还可以挖掘出维度，基于此构建酒店和用户的标签。

本发明首先通过聚焦爬虫从各大主流点评(OnlineTravelAgent，OTA)网站获取在线点评数据。然后针对大规模点评，通过自动/半自动方式整理酒店业情感词库以及领域知识库。最后，针对点评中的每个句子，进行分词、词性标注、短语结构句法分析等自然语言处理技术等分析，在此基础上提取关键词或关键句式作为特征，通过最大熵分类器实现情感分类。对于表达情感的句子，进一步根据领域关键词及知识库推理得到维度。每个维度都反映了人们观察、认识和描述酒店或用户的一个角度。

本发明通过维度详细描述酒店业酒店和用户双方关注的焦点，并以此作为标签集。用户标签反映了用户在意的方面，而酒店标签反映了酒店擅长的方面。以向用户推荐酒店这样的场景为例，当用户在意的标签与酒店擅长的标签越相似，或者匹配程度越高，则越适合推荐给用户。有了标签集合，下一步就是针对某个用户的所有点评或者某家酒店的所有点评，计算标签权重。权重计算主要基于标签在点评中出现的频次。酒店标签与用户标签的差异在于，为了反映酒店某方面的擅长程度，需要考虑标签对应点评点情感极性。在某个标签上，好的评价越多，则认为酒店这方面越擅长，做得越好。

本发明中所指的维度是指能够表达对酒店某一方面评价的语句情感类型，比如酒店的卫生级别、交通便利度、周边环境指数、房间空间大小等等方面，具体可以包括若干个维度，例如维度1表示卫生级别为A级；……维度12表示交通便利度为B级；……维度53表示周边环境指数为C级；……维度104表示房间空间大小为D级等等。

本发明中所指的词汇的不同属性是指将词汇分为评价对象词、评价属性词以及情感词等属性。

根据本发明的一个方面，提供一种基于酒店点评的用户标签和酒店标签匹配方法，包括：(1)、准备酒店业情感语句模板库，酒店业情感语句模板库包括至少100个情感语句模板；(2)、准备至少三个酒店的最终酒店标签；(3)、从互联网获取特定用户针对同一酒店或不同酒店的至少两条用户点评；(4)、将特定用户的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对，筛选出与至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定用户的用户标签集合；(5)、分别计算特定用户的用户标签集合中的每个用户标签的权重，其中，在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；(6)、从特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为特定用户的最终用户标签；以及(7)、至少将最终酒店标签与特定用户的最终用户标签匹配率位于前三名的酒店推荐给特定用户。

其中，根据具体使用条件，准备至少三个酒店的最终酒店标签可为准备至少10个、至少100个或者至少500个最终酒店标签。

可选择地，可以事先通过其它装置或通过人工从点评网站获取点评数据备用。

可选择地，可以事先通过其它装置或通过人工整理出酒店业语义词典备用。

可选择地，可以事先通过其它装置或通过人工整理出酒店业情感语句模板库备用。

可选择地，可以事先通过其它装置或通过人工整理出种子语义词典备用。

可选择地，步骤(2)中准备至少三个酒店的最终酒店标签包括：(2.1)、从互联网获取分别针对至少三个酒店的用户点评，其中针对每个酒店包括至少三个用户的用户点评；(2.2)、将针对特定酒店的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对，筛选出与至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定酒店的酒店标签集合；(2.3)、分别计算特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；(2.4)、从酒店标签集合中选择权重大于第二设定阈值的酒店标签作为特定酒店的最终酒店标签；以及(2.5)、重复步骤(2.2)-(2.4)直至获得所有酒店的最终酒店标签。

可选择地，步骤(1)中准备酒店业情感语句模板库可包括从互联网获取的至少10000条酒店用户点评中根据语句出现的频率高低筛选出至少100个情感语句作为情感语句模板。

可选择地，进一步包括根据词汇出现的频率高低从至少10000条酒店用户点评中筛选出至少1000个酒店业常用词汇用以构建酒店业语义词典。

可选择地，在步骤(1)中，在准备酒店业情感语句模板库之前，进一步包括构建酒店业语义词典的步骤，步骤(4)中将特定用户的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对包括：(4.1)、将特定情感语句切分成与酒店业语义词典中相应的若干个酒店业常用词汇；(4.2)、根据特定情感语句中每个词汇的不同属性分别与至少100个情感语句模板进行比对，从而确定与至少100个情感语句模板中的任一个情感语句模板是否相匹配；以及(4.3)、重复步骤(4.1)-(4.2)，直至筛选出与至少100个情感语句模板相匹配的所有情感语句。

可选择地，步骤(2.2)中将针对特定酒店的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对包括：(2.2.1)、将特定情感语句切分成与酒店业语义词典中相应的若干个酒店业常用词汇；(2.2.2)、根据特定情感语句中每个词汇的不同属性分别与至少100个情感语句模板进行比对，从而确定与至少100个情感语句模板中的任一个情感语句模板是否相匹配；以及(2.2.3)、重复步骤(2.2.1)-(2.2.2)，直至筛选出与至少100个情感语句模板相匹配的所有情感语句。

可选择地，步骤(3)中可以通过聚焦爬虫从点评网站获取用户点评。

可选择地，步骤(1)中准备酒店业情感语句模板库可以通过基于用户点评的自举方法提取句式模版，从而获得酒店业情感语句模板库。

可选择地，准备酒店业情感语句模板库以及构建酒店业语义词典的步骤包括：(1.1)、获取点评数据，通过整理各个情感要素的词形成种子词典；(1.2)、对点评数据的句子进行分词处理，然后逐词判定其语义类并用语义类标签进行替换；(1.3)、对标签替换后的点评数据进行断句，根据各语义类的名称及各语义类包含的具体词语生成模版；(1.4)、将模版应用到语义类标签替换后的点评数据中，以抽取各语义类的语义词；(1.5)、根据模版的重要性、推广性和准确性，对各模版进行打分；(1.6)、选取得分最高的部分模版，根据选取的模版及其打分计算各模版抽取的语义词的得分，进而选取得分最高的部分语义词对语义词典进行扩充；以及(1.7)、步骤(1.2)至步骤(1.6)迭代进行，直到挑选出来的语义词不正确时迭代终止，得到最终的酒店业语义词典，并由各模版构成酒店业情感语句模板库。

可选择地，步骤(1.1)通过聚焦爬虫从点评网站获取在线点评数据，并通过人工查看少量点评，整理各个语义类的词，形成种子词典。

可选择地，步骤(1.2)首先采用基于词典的最大匹配分词方法进行分词，然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。

可选择地，不同的位置类别标记，包括词首、词中、词尾和单字词，并采用条件随机场模型实现序列标注任务。

可选择地，步骤(1.2)中语义类包括评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词。

可选择地，步骤(1.3)根据“。”、“！”、“？”3个标点符号进行断句，并限定模版的最小长度为3个词，最大长度为7个词。

可选择地，步骤(1.4)抽取各语义类的语义词时，当某个点评片段对应的模版与步骤(1.3)所得模版的差异只有一个词时，将该词作为相应语义类的实例词。

可选择地，步骤(1.5)对各模版进行打分的方法是：

1)对模版重要性和推广性打分S(pat_i)的计算公式如下：

其中，|pat_i|是模版pat_i的长度，以词数计算，f(pat_i)表示模版pat_i的频次，C(pat_i)表示嵌套pat_i的模版集合；

2)对模版准确性打分P(pat_i)的计算公式如下：

P ({pat}_{i}) = \frac{Σ_{t &Element; S e m L e x, t &Element; T ({pat}_{i})} f (t)}{Σ_{t &Element; T ({pat}_{i})} f (t)},

其中，T(pat_i)表示模版pat_i抽取的语义词集合，f(t)表示语义词t的频次，SemLex为种子语义词典；

3)采用Sigmoid函数将S(pat_i)归一化到(0,1)，进而融合两方面的打分得到F(pat_i)，计算公式如下：

F ({pat}_{i}) = α * \log_{2} \frac{1}{1 + e^{- S ({pat}_{i})}} + (1 - α) * \log_{2} P ({pat}_{i}),

其中α为重要性和推广性打分S(pat_i)的权重，取值范围为[0,1]。

可选择地，步骤(1.6)所述得分最高的部分模版是得分最高的前5～10％的模版，所述得分最高的部分语义词是得分最高的前5～10％的语义词。

可选择地，在步骤(1.7)之后，由人工进行确定语义词典中情感词的极性，以及情感词与评价对象词、评价属性词的搭配极性；人工确定过程中，将其所属模版对应的点评片段作为判定的依据。

可选择地，本发明中对点评进行情感分析的步骤包括：获取点评数据，对其进行规范化处理；对规范化处理后的点评数据的句子进行分词处理；对分词后的句子进行要素分析，识别出影响文本情感倾向性检测分析的各类词语；根据句式模版库对进行要素分析后的点评数据进行句式模版匹配；确定点评数据的句子中指代语对应的先行语，并恢复省略的主语；将出现评价对象词、评价属性词或情感词的句子作为候选情感句，采用最大熵模型对候选情感句的句子极性进行判别，得到句子的情感倾向性。

可选择地，规范化处理是采用基于规则的方法处理点评文本中的拼写错误，所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射；所述规则通过两种方法获取：一是根据现有知识，即前人总结的常见拼写错误；二是根据每个字或词的上下文的抽取相似字或词，通过人工校验确定正确的字串或词串。

可选择地，首先采用基于词典的最大匹配分词方法进行分词，然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。

可选择地，要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词，以及关于城市、景点的词语，在将句子中的要素识别出来后，标记上相应的类别标签。

可选择地，通过基于点评的自举方法提取句式模版，从而建立句式模版库。

可选择地，如果当前句中没有评价对象词或评价属性词，则选择上一句最后提及的评价对象或评价属性词引入到当前句；如果当前句中只有评价属性词，则当上一句出现评价对象时将其引入到当前句。

可选择地，最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率，情感类别包括-1、0、1三类，分别表示差评、无情感、好评。

根据本发明的另一方面，提供一种基于酒店点评的用户标签和酒店标签匹配装置，包括：酒店业情感语句模板库生成模块，酒店业情感语句模板库包括至少100个情感语句模板；最终酒店标签生成模块，其用于生成至少三个酒店的最终酒店标签；用户点评获取模块，其从互联网获取特定用户针对同一酒店或不同酒店的至少两条用户点评；用户标签集合生成模块，其将特定用户的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对，筛选出与至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定用户的用户标签集合；用户标签权重计算模块，其分别计算特定用户的用户标签集合中的每个用户标签的权重，其中，在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；最终用户标签生成模块，其从特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为特定用户的最终用户标签；以及酒店推荐模块，其至少将最终酒店标签与特定用户的最终用户标签匹配率位于前三名的酒店推荐给特定用户。

可选择地，最终酒店标签生成模块可通过用户点评获取模块从互联网获取分别针对至少三个酒店的用户点评，其中针对每个酒店包括至少三个用户的用户点评；最终酒店标签生成模块还可包括：酒店标签集合生成子模块，其将针对特定酒店的所有用户点评的情感语句逐一与至少100个情感语句模板进行比对，筛选出与至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定酒店的酒店标签集合；以及酒店标签权重计算子模块，其分别计算特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；其中，最终酒店标签生成模块从酒店标签集合中选择权重大于第二设定阈值的酒店标签作为特定酒店的最终酒店标签。

可选择地，酒店业情感语句模板库生成模块可通过用户点评获取模块从互联网获取至少10000条酒店用户点评并根据语句出现的频率高低从中筛选出至少100个情感语句作为情感语句模板。

可选择地，可进一步包括酒店业语义词典生成模块，其根据词汇出现的频率高低从至少10000条酒店用户点评中筛选出至少1000个酒店业常用词汇用以构建酒店业语义词典。

可选择地，第一设定阈值或第二设定阈值可在0～1范围内任意选择。比如，第一设定阈值选为0.5，第二设定阈值选为0.3。

作为一种替代方案，对于酒店业语义词典和句式模板库的构建，本发明可采用基于Bootstrapping的方法。

自举(Bootstrapping)，即自扩展或自举，是一种半监督的机器学习方法，可以用于同时抽取语义词典和模板。这种方法的思想基于这样的观察：抽取模板可以用于抽取新的实例，反过来这些实例又可以用于抽取新的模板。这种方法的优势在于不需要标注的训练语料，仅仅需要少数种子。首先通过人工干预得到初始化的种子词语，利用种子词语获得模板，进而通过模板获得种子词语，如此迭代进行。在每一轮迭代中，都将产生新的标注数据，最优的词会添加到相应到语义词典中，最优的模版也会添加到模版库中，用这些新的标注数据重新学习模型，从而又可以产生新的数据，如此循环往复，直到最终收敛结束，从而获得更多的种子词语和模板。这就是最基本的Bootstrapping算法(或过程)。

语义词典的语义类包括评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词等，每个语义类都包括若干词语，模版就是由语义类名称或具体词语组成都序列。

下面是具体的实施步骤：

步骤1：数据准备。通过聚焦爬虫从携程等主流点评网站获取在线点评数据。

步骤2：种子词典构建。人工查看少量(如500条)点评，整理各个语义类的词，语义词典记为SemLex。

步骤3：点评分词。中文分词是中文自然语言处理的基础步骤，本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法，针对分词有歧义的部分再采用序列标注的分词方法。

基于词典的最大匹配分词方法，给定词典，对于待分词的汉字序列，依次寻找匹配的最长词典词，无匹配者则作为单字词处理，直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同，该方法又可以分为：正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如，对于序列“当原子结合成分子时”，正向最大匹配结果为“当|原子|结合|成|分子|时”，而逆向最大匹配结果为“当|原子|结合|成分|子时”。显然，正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配，双向匹配时正向和逆向匹配不一致的地方，往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征，因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，比如词首、词中、词尾和单字词。基于这样的标记序列，很容易确定句子的切分方式。其中，B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列，符合正则表达式“S”或“B(M)*E”的字序列表示一个词，从而很容易地完成句子切分。为了实现序列标注任务，分发明采用条件随机场模型(ConditionalRandomFields,CRF)，该模型在自然语言处理中得到广泛应用，并取得了很大成功。具体特征包括：前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字。条件随机场模型利用提取的这些特征，预测出的每个字的类别标记。

最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的10万条酒店点评。

步骤4：语义类标签替换。对分词后的点评逐词判定其语义类并用语义类标签替换，如“餐厅|的|价格|很|高”，替换为“Obj|的|Attr|Dgr|Sent”，对于点评起始和结束位置分别添加“Start”和“End”标签，点评中除了“。”、“！”、“？”之外的标点符号也采用“Punc”标签替换。

步骤5：模版生成。根据“。”、“！”、“？”3个标点符号断句，限定模版最小长度3个词，最大长度7个词，扫描标签替换后的点评，生成模版。

步骤6：模版打分。本发明从两方面打分，一方面通过频次衡量模版的重要性和推广性，另一方面通过在语义词典中的命中率衡量模版的准确性。

pat_i重要性和推广性打分S(pat_i)的计算公式如下：

其中，|pat_i|是模版pat_i的长度，以词数计算，f(pat_i)表示模版pat_i的频次，C(pat_i)表示嵌套pat_i的模版集合。

pat_i准确性打分P(pat_i)的计算公式如下：

P ({pat}_{i}) = \frac{Σ_{t &Element; S e m L e x, t &Element; T ({pat}_{i})} f (t)}{Σ_{t &Element; T ({pat}_{i})} f (t)}

其中，T(pat_i)表示模版pat_i抽取的语义词集合，f(t)表示语义词的频次。

采用Sigmoid函数将S(pat_i)归一化到(0,1)，进而融合两方面的打分得到F(pat_i)，计算公式如下：

F ({pat}_{i}) = α * \log_{2} \frac{1}{1 + e^{- S ({pat}_{i})}} + (1 - α) * \log_{2} P ({pat}_{i})

α＝0.4，本发明更注重模版的准确性。

步骤7：模版挑选。根据F(pat_i)选取得分最高的前5％。

步骤8：语义词抽取。将挑选出来的模版应用到语义类标签替换后到点评中。当某个点评片段与挑选模版只有一个词有差异时，将该词作为相应语义类的实例词。

步骤9：语义词打分。

P (t_{j}) = Σ_{k, t_{j} &Element; T ({pat}_{k})} P ({pat}_{k})

步骤10：语义词典扩充。选取得分最高的前5％。

步骤4到步骤10迭代进行。迭代终止条件。挑选出来的语义词明显不正确时终止。

步骤11：极性确定。对于情感词的极性，以及情感词与评价对象词、评价属性词的搭配极性，由人工完成。人工确定过程中，将其所属模版对应的点评片段作为判定的依据。

结果表明，本发明在准确率和召回率上都取得了不错的性能。产生高质量的语义词典和句式模板库。

作为另一种替代方案，本发明的情感语句模板构建及语句比对分析方法如下。

本发明首先通过聚焦爬虫从各大主流点评网站获取在线点评数据。然后针对大规模点评，通过半自动方式整理语义词典以及句式库。最后，针对点评中的每个句子，进行分词等处理和分析，在此基础上提取关键词或关键句式作为特征，通过最大熵分类器实现情感分类。包括如下步骤：

步骤1：文本规范化。

互联网点评文本常会出现拼写错误，对于这些问题，我们采用基于规则的方法处理。这些规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射。这种规则通过两种方法获取：一是根据现有知识，即前人总结的常见拼写错误；二是根据每个字或词的上下文的抽取相似字或词，人工校验确定。这种方法简单，有效。系统这个模块的性能依赖于拼写错误纠正规则的数量，在系统运维的过程中可以不断总结，丰富规则库。

中文还存在标点符号全半角问题，根据符号全半角映射关系，将标点符号统一标示为半角符号。

步骤2：点评分词。

点评分词。中文分词是中文自然语言处理的基础步骤，本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法，针对分词有歧义的部分再采用序列标注的分词方法。

步骤3：要素分析。

要素，指的是影响文本情感分析的重要因素，既包括上述的情感信息要素，如点评中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词等，又包括城市、景点等多个类别的词语。要素分析是将句子中的要素识别出来，并标记上其相应的类别标签。

步骤4：句式匹配。

对句子经过要素分析后得到句子语义类别化形式，即句式，句式反映的是其中的词或要素共同的上下文，所以具有一定的消歧能力。句式匹配过程中，已有的句式库起着关键作用，它反映了领域中表达情感的常见句式。句式库是本发明的核心资源，反映了点评中情感表达的常见句式。本发明通过基于点评的自举(Bootstrapping)方法提取抽句式。

步骤5：指代消解。

指代和省略是常见的语言现象。指代常表示共指，即两种表述均指称相同对象。指代有多种类型，我们主要针对人称代词、指示代词作为指代语的情况。省略可以视为零指代语的情况，所以我们将指代和省略都看成广义的“指代”，指代消解指的是发现指代语对应的先行语，或恢复省略的主语。如果当前句中没有评价对象词或评价属性词，选择上一句最后提及的评价对象或评价属性词引入到当前句。如果当前句中只有评价属性词，当上一句出现评价对象时引入到当前句。

步骤6：情感分析。

将出现评价对象词、评价属性词或情感词的句子作为候选情感句。针对候选情感句，采用最大熵(MaximumEntropy)模型，融合丰富的上下文特征，对句子极性进行判别，得到句子的情感倾向性。在分类任务中，判别式模型往往要优于产生式模型。产生式模型估计的是联合概率分布，在机器学习中用于对数据直接建模，或者借助贝叶斯规则作为得到条件概率的中间步骤。而判别式模型直接对条件概率建模，使得模型的训练和预测保持一致，从而更好地在类别之间进行区分。在判别式模型中，最大熵模型在自然处理领域得到广泛应用。对于给定上下文信息x∈X预测类别y∈Y这样的分类问题，最大熵模型建立条件概率模型P(y|x)预测不同类别y∈Y并估计其概率。类别包括-1(差评)、0(无情感)、1(好评)三类。特征包括评价对象词、评价属性词、情感词，以及它们的搭配，还有否定词、句式等特征。

本发明的有益效果是：本发明的方案可以有效利用酒店点评数据形成用户画像，并根据用户画像将最符合用户需求的酒店推荐给特定用户，这能够显著地节省用户在互联网上搜索酒店的时间和精力，还能够帮助酒店发现/克服自身的不足并进一步提高/优化自身的特色。

附图说明

图1示出了本发明基于酒店点评的用户标签和酒店标签匹配方法的流程示意图。

具体实施方式

下面通过参考附图和实施例对本发明作进一步详细阐述，但这些阐述并不对本发明做任何形式的限定。除非另有说明，否则本文所用的所有科学和技术术语具有本发明所属和相关技术领域的一般技术人员通常理解的含义。

请参照图1，根据本发明的一种非限制性实施方式，提供一种基于酒店点评的用户标签和酒店标签匹配方法，具体包括以下步骤。

在步骤S1中，从互联网获取约50000条酒店用户点评，并根据词汇出现的频率高低从中筛选出约5000个酒店业常用词汇用以构建酒店业语义词典。

在步骤S2中，准备酒店业情感语句模板库，包括从互联网获取的约50000条酒店用户点评中根据语句出现的频率高低筛选出约500个情感语句作为情感语句模板。

在步骤S3中，准备约200个酒店的最终酒店标签，具体包括：从以上获得的约50000条酒店中筛选出分别针对约200个酒店的用户点评，其中针对每个酒店包括约100个用户的用户点评；将针对特定酒店的所有用户点评的情感语句逐一与约500个情感语句模板进行比对，筛选出与约500个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定酒店的酒店标签集合，比如，一号酒店的酒店标签集合包括：维度1(卫生级别为A级)、维度11(交通便利度为A级)、维度51(周边环境指数为A级)、维度101(房间空间大小为A级)等；二号酒店的酒店标签集合包括：维度2(卫生级别为B级)、维度12(交通便利度为B级)、维度52(周边环境指数为B级)、维度102(房间空间大小为B级)等；三号酒店的酒店标签集合包括：维度3(卫生级别为C级)、维度13(交通便利度为C级)、维度53(周边环境指数为C级)、维度103(房间空间大小为C级)等；分别计算特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；从酒店标签集合中选择权重大于第二设定阈值的酒店标签作为特定酒店的最终酒店标签，其中，第二设定阈值选为0.4。重复本步骤直至获得所有酒店的最终酒店标签。其中，将针对特定酒店的所有用户点评的情感语句逐一与约500个情感语句模板进行比对过程具体可包括：将特定情感语句切分成与酒店业语义词典中相应的若干个酒店业常用词汇；根据特定情感语句中每个词汇的不同属性分别与500个情感语句模板进行比对，从而确定与500个情感语句模板中的任一个情感语句模板是否相匹配；以及重复该过程直至筛选出与500个情感语句模板相匹配的所有情感语句。

在步骤S4中，从互联网获得特定用户针对三个酒店的三次用户点评。

在步骤S5中，将特定用户的所有用户点评的情感语句逐一与约500个情感语句模板进行比对，筛选出与约500个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定用户的用户标签集合，比如，特定客户的用户标签集合包括：维度1(卫生级别为A级)、维度12(交通便利度为B级)、维度51(周边环境指数为A级)、维度103(房间空间大小为C级)等。其中，将特定用户的所有用户点评的情感语句逐一与约500个情感语句模板进行比对过程具体包括：将特定情感语句切分成与酒店业语义词典中相应的若干个酒店业常用词汇；根据特定情感语句中每个词汇的不同属性分别与500个情感语句模板进行比对，从而确定与500个情感语句模板中的任一个情感语句模板是否相匹配；以及重复该过程直至筛选出与500个情感语句模板相匹配的所有情感语句。

在步骤S6中，分别计算特定用户的用户标签集合中的每个用户标签的权重，其中，在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高。

在步骤S7中，从特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为特定用户的最终用户标签，其中，第一设定阈值选为0.6。

在步骤S8中，将最终酒店标签与特定用户的最终用户标签匹配率最高的酒店推荐给特定用户，比如，在该非限制性实施方式中，将一号酒店推荐给该特定用户。

根据本发明的另一种非限制性实施方式，提供一种基于酒店点评的用户标签和酒店标签匹配装置，包括：酒店业情感语句模板库生成模块，酒店业情感语句模板库包括1000个情感语句模板；最终酒店标签生成模块，其用于生成500个酒店的最终酒店标签；用户点评获取模块，其从互联网获取特定用户针对不同酒店的五次用户点评；用户标签集合生成模块，其将特定用户的所有用户点评的情感语句逐一与1000个情感语句模板进行比对，筛选出与1000个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定用户的用户标签集合；用户标签权重计算模块，其分别计算特定用户的用户标签集合中的每个用户标签的权重，其中，在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；最终用户标签生成模块，其从特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为特定用户的最终用户标签；以及酒店推荐模块，其将最终酒店标签与特定用户的最终用户标签匹配率位于前十名的酒店推荐给特定用户。

最终酒店标签生成模块通过用户点评获取模块从互联网获取分别针对500个酒店的用户点评，其中针对每个酒店包括200个用户的用户点评；最终酒店标签生成模块还包括：酒店标签集合生成子模块，其将针对特定酒店的所有用户点评的情感语句逐一与1000个情感语句模板进行比对，筛选出与1000个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成特定酒店的酒店标签集合；以及酒店标签权重计算子模块，其分别计算特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；其中，最终酒店标签生成模块从酒店标签集合中选择权重大于第二设定阈值的酒店标签作为特定酒店的最终酒店标签。

酒店业情感语句模板库生成模块通过用户点评获取模块从互联网获取100000条酒店用户点评并根据语句出现的频率高低从中筛选出1000个情感语句作为情感语句模板。

本发明的装置进一步包括酒店业语义词典生成模块，其根据词汇出现的频率高低从100000条酒店用户点评中筛选出10000个酒店业常用词汇用以构建酒店业语义词典。

下面结合具体实施例对本发明作出进一步详细阐述，但实施例不应理解为对本发明保护范围的限制。

一种基于酒店点评的用户标签和酒店标签匹配方法，其包括如下步骤：

步骤1：通过聚焦爬虫从携程等主流点评网站获取在线点评数据；

步骤2：过滤垃圾点评，垃圾点评包括无意义语句；

步骤3：构建酒店业语义词典和句式模板库；

步骤4：对点评进行情感分析。

步骤5：标签分析。

针对点评中每个表达情感的句子，挖掘其表达的观点，通过标签来表达。

步骤6：按照标签聚合点评片段，根据TF-IDF算法计算不同用户不同标签的权重。TF-IDF(TermFrequency-InverseDocumentFrequency)是一种统计方法，用来评估词语对文件的重要程度，在信息检索和文本特征选择及计算等领域被广泛应用。TF-IDF的主要思想是：如果某个词语在一篇文档中出现很频繁，并且在其他文档中很少出现，则认为该词语具有很好的类别区分能力，适合用来表征该文档。

TF-IDF实际是TF和IDF的乘积。TF表示词语频率(TermFrequency)，是某一个给定词语在文档中出现的频率，是对词语频次的归一化，以防止偏向词语多的文档。计算公式如下：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

其中，tf_i，j表示词语i在文档j中的频率，n_i，j表示词语i在文档j中的频次，Σ_kn_k，j表示文档中所有词语的频次之和。

IDF表示逆向文档频率(InverseDocumentFrequency)，是一个词语普遍重要性的度量，计算公式如下：

{idf}_{i} = \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

其中，idf_i表示词语i在语料库中的逆向文档频率，|D|表示语料库中的文档总数，|{j：t_i∈d_j}|表示包含词语i的文档数目。如果词语不在语料库中，就会导致分母为零，因此一般情况下分母使用|{j：t_i∈d_j}|+1。

有了TF和IDF，然后再计算得到TFIDF，计算公式如下：

tfidf_i，j＝tf_i，j×idf_i

某一特定文档内的高频率词语，以及该词语在整个文档集合中的低文档频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

步骤7：针对不同酒店和不同用户，根据其TF-IDF和预先设定的阈值挑选，从而得到最终的酒店标签和用户标签。

尽管在此已详细描述本发明的优选实施方式，但要理解的是本发明并不局限于这里详细描述和示出的具体构造，在不偏离本发明的实质和范围的情况下可由本领域的技术人员实现其它的变型和变体。

Claims

1.一种基于酒店点评的用户标签和酒店标签匹配方法，包括：

(1)、准备酒店业情感语句模板库，所述酒店业情感语句模板库包括至少100个情感语句模板；

(2)、准备至少三个酒店的最终酒店标签；

(3)、从互联网获取特定用户针对同一酒店或不同酒店的至少两条用户点评；

(4)、将所述特定用户的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对，筛选出与所述至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成所述特定用户的用户标签集合；

(5)、分别计算所述特定用户的用户标签集合中的每个用户标签的权重，其中，在所述特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；

(6)、从所述特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为所述特定用户的最终用户标签；以及

(7)、至少将最终酒店标签与所述特定用户的最终用户标签匹配率位于前三名的酒店推荐给所述特定用户。

2.如权利要求1所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，所述步骤(2)中准备至少三个酒店的最终酒店标签包括：

(2.1)、从互联网获取分别针对至少三个酒店的用户点评，其中针对每个酒店包括至少三个用户的用户点评；

(2.2)、将针对特定酒店的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对，筛选出与所述至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成所述特定酒店的酒店标签集合；

(2.3)、分别计算所述特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；

(2.4)、从所述酒店标签集合中选择权重大于第二设定阈值的酒店标签作为所述特定酒店的最终酒店标签；以及

(2.5)、重复步骤(2.2)-(2.4)直至获得所有酒店的最终酒店标签。

3.如权利要求2所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，在所述步骤(1)中，在准备酒店业情感语句模板库之前，进一步包括构建酒店业语义词典的步骤，所述步骤(4)中将所述特定用户的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对包括：

(4.1)、将特定情感语句切分成与所述酒店业语义词典中相应的若干个酒店业常用词汇；

(4.2)、根据特定情感语句中每个词汇的不同属性分别与所述至少100个情感语句模板进行比对，从而确定与所述至少100个情感语句模板中的任一个情感语句模板是否相匹配；以及

(4.3)、重复步骤(4.1)-(4.2)，直至筛选出与所述至少100个情感语句模板相匹配的所有情感语句。

4.如权利要求3所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，所述步骤(2.2)中将针对特定酒店的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对包括：

(2.2.1)、将特定情感语句切分成与所述酒店业语义词典中相应的若干个酒店业常用词汇；

(2.2.2)、根据特定情感语句中每个词汇的不同属性分别与所述至少100个情感语句模板进行比对，从而确定与所述至少100个情感语句模板中的任一个情感语句模板是否相匹配；以及

(2.2.3)、重复步骤(2.2.1)-(2.2.2)，直至筛选出与所述至少100个情感语句模板相匹配的所有情感语句。

5.如权利要求4所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，所述步骤(3)中是通过聚焦爬虫从点评网站获取用户点评。

6.如权利要求5所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，所述步骤(1)中准备酒店业情感语句模板库是通过基于用户点评的自举方法提取句式模版，从而获得酒店业情感语句模板库。

7.如权利要求6所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，准备所述酒店业情感语句模板库以及构建所述酒店业语义词典的步骤包括：

(1.1)、获取点评数据，通过整理各个情感要素的词形成种子词典；

(1.2)、对点评数据的句子进行分词处理，然后逐词判定其语义类并用语义类标签进行替换；

(1.3)、对标签替换后的点评数据进行断句，根据各语义类的名称及各语义类包含的具体词语生成模版；

(1.4)、将模版应用到语义类标签替换后的点评数据中，以抽取各语义类的语义词；

(1.5)、根据模版的重要性、推广性和准确性，对各模版进行打分；

(1.6)、选取得分最高的部分模版，根据选取的模版及其打分计算各模版抽取的语义词的得分，进而选取得分最高的部分语义词对语义词典进行扩充；以及

(1.7)、步骤(1.2)至步骤(1.6)迭代进行，直到挑选出来的语义词不正确时迭代终止，得到最终的酒店业语义词典，并由各模版构成酒店业情感语句模板库。

8.如权利要求7所述的基于酒店点评的用户标签和酒店标签匹配方法，其特征在于，步骤(1.6)中所述得分最高的部分模版是得分最高的前5～10％的模版，所述得分最高的部分语义词是得分最高的前5～10％的语义词。

9.一种基于酒店点评的用户标签和酒店标签匹配装置，包括：

酒店业情感语句模板库生成模块，所述酒店业情感语句模板库包括至少100个情感语句模板；

最终酒店标签生成模块，其用于生成至少三个酒店的最终酒店标签；

用户点评获取模块，其从互联网获取特定用户针对同一酒店或不同酒店的至少两条用户点评；

用户标签集合生成模块，其将所述特定用户的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对，筛选出与所述至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成所述特定用户的用户标签集合；

用户标签权重计算模块，其分别计算所述特定用户的用户标签集合中的每个用户标签的权重，其中，在所述特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店的所有用户点评中出现的频率越低则用户标签权重越高；

最终用户标签生成模块，其从所述特定用户的用户标签集合中选择权重大于第一设定阈值的用户标签作为所述特定用户的最终用户标签；以及

酒店推荐模块，其至少将最终酒店标签与所述特定用户的最终用户标签匹配率位于前三名的酒店推荐给所述特定用户。

10.如权利要求9所述的基于酒店点评的用户标签和酒店标签匹配装置，其特征在于，所述最终酒店标签生成模块通过所述用户点评获取模块从互联网获取分别针对至少三个酒店的用户点评，其中针对每个酒店包括至少三个用户的用户点评；

所述最终酒店标签生成模块还包括：

酒店标签集合生成子模块，其将针对特定酒店的所有用户点评的情感语句逐一与所述至少100个情感语句模板进行比对，筛选出与所述至少100个情感语句模板相匹配的情感语句，并将所筛选出的情感语句根据所表达的情感类型识别为不同的维度，再以所识别的所有维度形成所述特定酒店的酒店标签集合；以及

酒店标签权重计算子模块，其分别计算所述特定酒店的酒店标签集合中的每个酒店标签的权重，其中，在针对同一酒店的所有用户点评中出现的频率越高且在针对所有酒店的所有用户点评中出现的频率越低则酒店标签权重越高；

其中，所述最终酒店标签生成模块从所述酒店标签集合中选择权重大于第二设定阈值的酒店标签作为所述特定酒店的最终酒店标签。