CN104281565B - 语义词典构建方法和装置 - Google Patents
语义词典构建方法和装置 Download PDFInfo
- Publication number
- CN104281565B CN104281565B CN201410521385.6A CN201410521385A CN104281565B CN 104281565 B CN104281565 B CN 104281565B CN 201410521385 A CN201410521385 A CN 201410521385A CN 104281565 B CN104281565 B CN 104281565B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- semantic
- same
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语义词典构建方法和装置。所述语义词典构建方法包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。本发明实施例提供的语义词典构建方法和装置通过对用户的网络日志的挖掘高效的构建了包含同义词数据的语义词典。
Description
技术领域
本发明实施例涉及网络数据处理技术,尤其涉及一种语义词典构建方法和装置。
背景技术
根据目前的自然语言处理的工程实践来看,构建语料丰富、数据可靠的语义词典对于提高自然语言处理系统的处理效率和准确率有着基础性的作用。然而,传统意义上的语义词典大都依靠人工进行数据收集和加工。并且,由于语义词典自身对数据的专业性要求较高,所以需要进行数据收集和加工的人员具有较高的专业背景知识和深厚的语言功底。所以,能够满足上述要求而参加语义词典的编撰工作的人员数量一般较少。由于执行数据收集和加工的人员数量有限,再加上数据收集和加工工作依靠手工完成,造成了传统的语义词典编撰工作的效率低下。而在信息爆炸的今天,自然语言处理系统需要处理海量的语料数据,如此低效的语义词典编撰效率显然难以满足信息加工和处理的需求。
发明内容
有鉴于此,本发明实施例提出一种语义词典构建方法和装置,以高效的构建语义词典。
第一方面,本发明实施例提供了一种语义词典构建方法,所述方法包括:
从用户的网络日志中提取具有相同或者相近语义的句子;
根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
第二方面,本发明实施例提供了一种语义词典构建装置,所述装置包括:
语句筛选模块,用于从用户的网络日志中提取具有相同或者相近语义的句子;
词语筛选模块,用于根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
词语聚类模块,用于根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
本发明实施例提供的语义词典构建方法和装置,通过从用户的网络日志中提取具有相同或者相近语义的句子,根据所述具有相同或者相近语义的句子中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中,从而能够从用户的网络日志中对同义词数据进行挖掘,进而高效的构建语义词典。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的语义词典构建方法的流程图;
图2是本发明第一实施例提供的语义词典构建方法中词语对齐的示意图;
图3是本发明第二实施例提供的语义词典构建方法的流程图;
图4是本发明第二实施例提供的语义词典构建方法中语句筛选的流程图;
图5是本发明第三实施例提供的语义词典构建方法的流程图;
图6是本发明第三实施例提供的语义词典构建方法中语句筛选的流程图;
图7是本发明第四实施例提供的语义词典构建方法中词语筛选的流程图;
图8是本发明第五实施例提供的语义词典构建方法的流程图;
图9是本发明第五实施例提供的语义词典构建方法中词语聚类的示意图;
图10是本发明第五实施例提供的语义词典构建方法中词语聚类的流程图;
图11是本发明第六实施例提供的语义词典构建装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1及图2示出了本发明的第一实施例。
图1是本发明第一实施例提供的语义词典构建方法的流程图。参见图1,所述语义词典构建方法包括:
S110,从用户的网络日志中提取具有相同或者相近语义的句子。
在互联网广为普及的今天,越来越多的人通过互联网获取资讯。用户在使用互联网进行网页浏览、网页检索时,尤其是在使用搜索引擎进行网页检索时,服务器端会根据用户的实际操作产生大量的网络日志数据。在本实施例中,通过对用户的网络日志进行挖掘而构建语义词典。
所述网络日志包括用户点击日志以及用户会话日志。所述用户点击日志用于记录用户在使用搜索引擎时,从输入检索句到从搜索结果页中点击需要浏览的网页对应的结果条目的过程。所述用户会话日志用于记录用户在一次查询会话中所执行的不同的查询操作。所述不同的查询操作是使用不同检索句的网页查询操作。
优选的,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
所述检索句是用户使用搜索引擎对互联网网页进行检索时使用的,搜索引擎用来与不同的网页内容进行匹配,从而提供搜索结果的语句。所述检索句通常是一个完整的语句,比如“对外开放成就举世公认”。但是,在一些特定情况下,所述检索句可能并不完整,比如“iphone 6售价”。
S120,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。
从用户的网络日志中提取到具有相同或者相近语义的句子以后,根据所述具有相同或者相近语义的句子中不同的词语的语义,对所述具有相同或者相近语义的句子中的词进行对齐。
图2是本发明第一实施例提供的语义词典构建方法中词语对齐的示意图。参见图2,所述具有相同或者相近语义的两个句子210、220被切分为词语201,然后以词语201为单元,对所述具有相同或者相近语义的句子中的词语201进行了对齐。对所述词语201的对齐是根据所述词语201的语义进行的,因此,完成对词语201的对齐以后,被对齐的两个词语201、202一般具有相同或者相近的语义。
完成了对所述具有相同或者相近语义的句子中词语的对齐以后,将被对齐的词语作为具有相同或相近语义的备选词。
S130,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
所述具有相同或相近语义的备选词只是将要构建的语义词典的备选数据项。还需要对所述具有相同或相近语义的备选词做进一步的处理,才能从中提取真正具有相同语义的词,并依据所述具有相同语义的词构建语义词典。
对所述具有相同或相近语义的备选词的进一步的处理是对所述备选词的聚类。所述聚类依据所述备选词在所述具有相同或者相近语义的句子中的语境信息而完成。具体的,将所述备选词在所述具有相同或者相近语义的句子中语境信息作为所述备选词的属性信息,并依据所述备选词的属性信息对所述备选词进行聚类。这样,在所述具有相同或者相近语义的句子中具有相似语境信息的词就被聚合成为一类。不同的词总是在相似的语境环境中互为替换的出现,则可以认为互为替换出现的词具有相同的语义。因此,将聚合成为一类的词作为具有相同语义的词。
完成对具有相同或者相近的句子中词的聚类处理后,将获取到的具有相同语义的词添加至所述语义词典。
本实施例通过从用户的网络日志中提取具有相同或者相近语义的句子,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词,最后根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中,以用户的网络日志为数据来源,自动的从中挖掘具有相同语义的词,并将挖掘到的具有相同语义的词添加至语义词典,从而完成了语义词典的高效构建。
图3及图4示出了本发明的第二实施例。
图3是本发明第二实施例提供的语义词典构建方法的流程图。所述语义词典构建方法以本发明第一实施例为基础,进一步的,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子。
参见图3,所述语义词典构建方法包括:
S310,根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子。
一般来讲,用户使用搜索引擎进行网页检索时输入的检索句与用户最终点击的网页链接对应的网页标题具有相同或者相近的语义。因此,在本实施例中,将用户查询过程中使用的检索句与所点击的网页标题作为具有想听或者相近语义的句子。
S320,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。
S330,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
图4是本发明第二实施例提供的语义词典构建方法中语句筛选的流程图。参见图4,优选的,根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子包括:
S311,根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数。
所述用户点击日志记录了从用户利用检索句检索网页到用户从所述检索结果中选择一个网页链接,点击浏览的全过程。因此,可以根据所述用户点击日志停机用户使用相同检索句后,点击相同网页链接的次数。
S312,若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
本实施例通过将所述检索句及所述网页的标题作为具有相同或者相近语义的句子,从而实现了从用户点击日志中对具有相同或者相近语义的句子的挖掘,并进而实现了对语义词典的高效构建。
图5及图6示出了本发明的第三实施例。
图5是本发明第三实施例提供的语义词典构建方法的流程图。所述语义词典构建方法以本发明第一实施例为基础,进一步的,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
参见图5,所述语义词典构建方法包括:
S510,根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
用户在使用搜索引擎检索网页时,如果使用一个检索句的检索结果并不理想,他一般会换一种表达方式,也就是换一个具有相同或者相近语义的检索句,再对网络进行一次搜索。例如,假如利用检索句“日本新干线建设情况”进行检索的结果不理想,用户可能会转而使用检索句“日本高速铁路建设情况”再进行检索。而如果用户想要获得更为全面的查询结果,则上述检索句替换的情况可能在一次查询会话中出现多次。
因为上述检索句替换的情况经常在用户的一次查询会话中发生,因此可以将用户一次查询会话中的至少两个检索句作为具有相同或者相近语义的句子。
S520,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。
S530,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
图6是本发明第三实施例提供的语义词典构建方法中语句筛选的流程图。参见图6,优选的,根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子包括:
S511,根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数。
所述用户会话日志用于记录用户在一次查询会话中所执行的不同的查询操作。并且,所述用户会话日志在记录所述不同的查询操作时会记录所述不同的查询操作所对应的检索句。因此,可以从所述用户会话日志中获取用户一次查询会话中至少两个检索句依次出现的次数。
S512,若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
本实施例通过将将一次查询会话中出现的至少两个检索句作为具有相同或者相近语义的句子,从而实现了从用户点击日志中对具有相同或者相近语义的句子的挖掘,并进而实现了对语义词典的高效构建。
图7示出了本发明的第四实施例。
图7是本发明第四实施例提供的语义词典构建方法中词语筛选的流程图。所述语义词典构建方法以本发明第一实施例为基础,进一步的,根据所述具有相同或者相近语义的句子中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义中的备选词包括:对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐;根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和/或根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
参见图7,根据所述具有相同或者相近语义的句子中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词包括:
S121,对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐。
如果不考虑一词多义的情况,相同的词在不同的句子中应该是具有相同的语义的。因此,在具有相同或者相近语义的句子之间进行文本匹配,以查找完全相同的词,并将完全相同的词进行对齐。
S122,根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐。
执行对所述具有相同或者相近语义的句子中词的对齐还可以依据预先定义的词匹配模板。所述词匹配模板中定义了执行词的对齐过程中被对齐的词的识别规则。在执行词的匹配的过程中,可以依据所述词匹配模型对所述具有相同或者相近语义的句子中的词执行对齐。
S123,根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
除了上述依据文本匹配和词匹配模板以外,还可以依据对已有的对齐结果的统计信息来执行对所述具有相同或者相近语义的句子中的词的对齐。具体的,可以将已有的对齐结果中对齐概率较高的词进行对齐。
上面描述的是文本对齐的一种优选实施方式。实际的文本对齐的操作过程还可以是,执行依据文本匹配的文本对齐以及以及模板的文本对齐、执行依据模板以及依据统计信息的文本对齐、仅执行依据文本匹配的文本对齐、仅执行依据模板的文本对齐,或者仅执行依据统计信息的文本对齐。
本实施例通过对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐,根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐,和/或根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐,从而实现了对所述具有相同或者相近语义的句子中词的对齐,
图8至图10示出了本发明的第五实施例。
图8是本发明第五实施例提供的语义词典构建方法的流程图。所述语义词典构建方法以本发明第一实施例为基础,进一步的,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息对所述备选词进行聚类,以获取具有相同语义的词包括:根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
参见图8,所述语义词典构建方法包括:
S810,从用户的网络日志中提取具有相同或者相近语义的句子。
S820,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。
S830,根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
本发明通过词语的语境信息对词语是否具有相同的语义进行识别。在本实施例中,将词语在所述具有相同或者相近语义的句子中的上下文作为所述词语的语境信息。获得了所述备选词的上下文以后,以根据所述备选词的上下文对所述备选词进行聚类,并将聚类后同类的备选词作为具有相同语义的词。
图9是本发明第五实施例提供的语义词典构建方法中词语聚类的示意图。参见图9,在进行词语聚类时,将备选词按照其自身的上下文属性将词语映射至备选词空间900。在所述备选词空间900中,每个节点901代表一个备选词。完成备选词的空间映射以后,在所述备选词空间901中运行聚类算法,将所述备选词聚类为不同的类别910。
图10是本发明第五实施例提供的语义词典构建方法中词语聚类的流程图。参见图10,优选的,根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词包括:
S831,根据所述备选词的上下文将所述备选词投影至备选词空间。
所述备选词空间是一个具有n个维度的空间,所述备选词可以用所述备选词空间中的一个点来表示。每个备选词具有一个上下文向量,并且该上下文向量具有n个从网络日志中提取出来的上下文属性。将这n个上下文属性对应至所述备选词空间的n个维度,就将所述备选词唯一的投影到了所述备选词空间。
为了方便所述备选词空间中距离的计算,对所述上下文属性的不同取值进行索引。比如,上下文属性的取值是“我”时,对应的索引号是1,而上下文属性的取值是“我们”时,对应的索引号是2。
S832,随机指定所述备选词空间的k个中心点。
在本实施例中,以随机指定的k个中心点作为参考对所述备选词空间中的备选词进行聚类。正整数k代表了要构建的语义词典中最终具有的独立语义的数量。比如,将k的取值确定为1000,则最终构建的语义词典中具有1000个独立的语义。应当理解的是,一旦所述中心点选定,则所述中心点对应的上下文向量中的上下文属性取值就可以确定。由于对所述上下文属性取值进行了索引,所述上下文属性对应的索引号也就可以确定。
S833,根据所述备选词的上下文属性分别计算所述备选词与所述k个中心点之间的距离,并将所述备选词归入在所述备选词空间中与之距离最近的一个中心点所代表的类别。
优选的,可以根据所述备选词与所述中心点的上下文属性取值的索引号之间的差值计算所述备选词与所述中心点之间的距离。
S834,重新计算每个类别的中心点,重新计算的中心点使得其与类别中所有备选词之间的距离之和为最小。
S835,判断中心点是否发生变化,若所述中心点发生变化,重新执行S833,若所述中心点不变,则完成对所述备选词的聚类。
完成对所述备选词的聚类以后,所述备选词被聚类成为不同的类别。处于不同类别中的备选词就是具有相同语义的词。因此,将处于同一类别中的具有相同语义的词添加至所述语义词典。表1示出了聚类为同一类别的具有相同语义的词:
表1
类别1 | 类别2 | 类别3 | 类别4 | 类别5 |
炼制 | 定制 | 当做 | 烧 | 乘坐 |
制造 | 订做 | 制成 | 炝 | 坐 |
打制 | 制作 | 用作 | 烀 | 搭乘 |
打造 | 炒 | 赶 | ||
锻造 | 烧制 | 搭 |
焗 | ||||
做菜 |
参见表1,被聚类在同一个类别中的备用词具有相同的语义,可以作为具有相同语义的词被添加至语义词典。
本实施例通过根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,并将聚类后同类的备选词作为具有相同语义的词,使得通过对备选词的聚类实现了对具有相同语义的词的识别,提高了语义词典构建的效率。
图11示出了本发明的第六实施例。
图11是本发明第六实施例提供的语义词典构建装置的结构图。参见图11,所述语义词典构建装置包括:语句筛选模块1110、词语筛选模块1120以及词语聚类模块1130。
所述语句筛选模块1110用于从用户的网络日志中提取具有相同或者相近语义的句子。
所述词语筛选模块1120用于根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。
所述词语聚类模块1130用于根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
优选的,所述语句筛选模块1110包括:第一语句筛选单元1111或者第二语句筛选单元1112。
所述第一语句筛选单元1111用于根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子。
所述第二语句筛选单元1112用于根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
优选的,所述第一语句筛选单元1111具体用于:
根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数;
若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
优选的,所述第二语句筛选单元1112具体用于:
根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数;
若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
优选的,所述词语筛选模块1120包括:匹配对齐单元1121、模板对齐单元1122和/或统计对齐单元1123。
所述匹配对齐单元1121用于对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐。
所述模板对齐单元1122用于根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐。
所述统计对齐单元1123用于根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
优选的,所述词语聚类模块1130包括:上下文聚类单元1131。
所述上下文聚类单元1131用于根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语义词典构建方法,其特征在于,包括:
从用户的网络日志中提取具有相同或者相近语义的句子;其中,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者,根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子;
根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
2.根据权利要求1所述的方法,其特征在于,根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子包括:
根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数;
若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
3.根据权利要求1所述的方法,其特征在于,根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子包括:
根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数;
若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
4.根据权利要求1所述的方法,其特征在于,根据所述具有相同或者相近语义的句子中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词包括:
对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐;
根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和/或
根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
5.根据权利要求1所述的方法,其特征在于,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息对所述备选词进行聚类,以获取具有相同语义的词包括:
根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
6.一种语义词典构建装置,其特征在于,包括:
语句筛选模块,用于从用户的网络日志中提取具有相同或者相近语义的句子;
词语筛选模块,用于根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
词语聚类模块,用于根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中;
其中,所述语句筛选模块包括:
第一语句筛选单元,用于根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者
第二语句筛选单元,用于根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
7.根据权利要求6所述的装置,其特征在于,所述第一语句筛选单元具体用于:
根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数;
若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
8.根据权利要求6所述的装置,其特征在于,所述第二语句筛选单元具体用于:
根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数;
若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
9.根据权利要求6所述的装置,其特征在于,所述词语筛选模块包括:
匹配对齐单元,用于对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐;
模板对齐单元,用于根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和/或
统计对齐单元,用于根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
10.根据权利要求6所述的装置,其特征在于,所述词语聚类模块包括:
上下文聚类单元,用于根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410521385.6A CN104281565B (zh) | 2014-09-30 | 2014-09-30 | 语义词典构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410521385.6A CN104281565B (zh) | 2014-09-30 | 2014-09-30 | 语义词典构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281565A CN104281565A (zh) | 2015-01-14 |
CN104281565B true CN104281565B (zh) | 2017-09-05 |
Family
ID=52256450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410521385.6A Active CN104281565B (zh) | 2014-09-30 | 2014-09-30 | 语义词典构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281565B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631025B (zh) * | 2015-12-29 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 一种查询标签的归一化处理方法和装置 |
CN107562761A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种信息推送方法及装置 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN106383872A (zh) * | 2016-09-06 | 2017-02-08 | 北京百度网讯科技有限公司 | 基于人工智能的信息处理方法及装置 |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN108536676B (zh) * | 2018-03-28 | 2020-10-13 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN110991168B (zh) * | 2019-12-05 | 2024-05-17 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599075A (zh) * | 2009-07-02 | 2009-12-09 | 清华大学 | 汉语缩略语处理方法和装置 |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
US8725674B1 (en) * | 2006-06-30 | 2014-05-13 | At&T Intellectual Property Ii, L.P. | Method and apparatus for providing a product metadata driven operations support system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278362A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Entity Recognition in Natural Language Processing Systems |
-
2014
- 2014-09-30 CN CN201410521385.6A patent/CN104281565B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725674B1 (en) * | 2006-06-30 | 2014-05-13 | At&T Intellectual Property Ii, L.P. | Method and apparatus for providing a product metadata driven operations support system |
CN101599075A (zh) * | 2009-07-02 | 2009-12-09 | 清华大学 | 汉语缩略语处理方法和装置 |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
Non-Patent Citations (3)
Title |
---|
WEB日志挖掘及其应用研究;鲍钰;《中国博士学位论文全文数据库信息科技辑》;20100715;第2010年卷(第7期);第68页倒数第3段、第71页第1段 * |
基于语境和语义的中文文本聚类算法研究;吴勇等;《科技信息》;20101215(第35期);摘要 * |
搜索引擎联邦算法设计与系统实现;刘辉;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20050715;第2005年卷(第3期);第27页最后一段至第28页第1段 * |
Also Published As
Publication number | Publication date |
---|---|
CN104281565A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN105468605B (zh) | 一种实体信息图谱生成方法及装置 | |
CN102165435B (zh) | 使用因特网语料库的自动上下文相关语言产生、校正和增强 | |
US8407215B2 (en) | Text analysis to identify relevant entities | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN105320772B (zh) | 一种专利查重的关联论文查询方法 | |
CN110287325A (zh) | 一种基于智能语音分析的电网客服业务推荐方法及装置 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN108664515B (zh) | 一种搜索方法及装置,电子设备 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN106547864A (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN106202034B (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN111340551A (zh) | 广告内容的生成方法、装置、终端及存储介质 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
Blanco et al. | Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |