[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107688563B - 一种同义词的识别方法及识别装置 - Google Patents

一种同义词的识别方法及识别装置 Download PDF

Info

Publication number
CN107688563B
CN107688563B CN201610641371.7A CN201610641371A CN107688563B CN 107688563 B CN107688563 B CN 107688563B CN 201610641371 A CN201610641371 A CN 201610641371A CN 107688563 B CN107688563 B CN 107688563B
Authority
CN
China
Prior art keywords
participle
query result
similarity
address
total number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610641371.7A
Other languages
English (en)
Other versions
CN107688563A (zh
Inventor
郑婷婷
毕娅娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610641371.7A priority Critical patent/CN107688563B/zh
Publication of CN107688563A publication Critical patent/CN107688563A/zh
Application granted granted Critical
Publication of CN107688563B publication Critical patent/CN107688563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种同义词的识别方法及识别装置,用以提高同义词识别的准确度,进而提高用户查询体验。该方法为:针对归属于同一类别的第一分词和第二分词,计算第一分词与第二分词之间的地址相似度和字面相似度后,进一步根据地址相似度和字面相似度,计算第一分词与第二分词之间的综合相似度,确定综合相似度不小于预设阈值时,判定第一分词与第二分词互为同义词。这样,通过从两个分词之间的地址相似度和字面相似度进行综合考虑,使得计算出的综合相似度更准确,进而,使得同义词的识别结果更精确。而且,针对归属于同一类别的两个分词计算综合相似度,进一步提高了同义词识别的准确度。

Description

一种同义词的识别方法及识别装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种同义词的识别方法及识别装置。
背景技术
同义词,不仅表征意义相同或相近的词语,还表征意义相关的词语。比如:“土豆”和“马铃薯”是意义相同的同义词,“严格”和“严厉”是意义相近的同义词,“就业”和“招聘”是意义相关的同义词,等等。
实际应用中,在互联网领域,特别是在查询搜索领域,同义词的挖掘是一项非常重要的工作,它的实现对于深层理解用户输入的查询信息,丰富查询结果,以及为用户提供更好的查询体验有很大的帮助。目前,获取同义词的方法主要有两种手段,一种是通过语言专家根据词语积累编写同义词库,另一种是采用语义分析技术识别词语的相关度,自动挖掘同义词。由于人工获取同义词需要耗费大量的人力资源和物力资源,效率也比较低,所以,根据语义分析自动识别同义词的方式越来越普遍。
现有技术中,提出了以下两种同义词自动识别方法:
第一种方法:确定需要识别的两个中文词之间的最小编辑距离小于等于编辑距离阈值后,通过判断这两个中文词是否都存在与预设的同义词库中,来判断这两个中文词是否为同义词。
第二种方法:先将查询日志中的每项查询信息划分为词,并分别将划分的每个词与查询日志中的结果地址组成词与结果地址的匹配对,以及根据用户查询匹配对的频率和每个结果地址对应的匹配对的数目,筛选所有的匹配对,并将筛选出的匹配对组成匹配对集合,根据结果地址,从组成的匹配对集合中查找与该结果地址匹配的词,将查找到的词作为同义词。
基于上述分析,现有技术中提出的同义词识别方法存在以下弊端:
(1)针对上述第一种同义词识别方法:若两个词是同义词,但这两个词在文本上不是很接近,即若两个词是同义词,但这两个词之间的编辑距离较远,则可能会导致无法识别这两个同义词;若两个词不是同义词,但这两个词在文本上很接近,即若两个词不是同义词,但这两个词之间的编辑距离较近,则可能会导致识别同义词错误。例如:“香奈儿”和“双C”之间的编辑距离较远,但它们是同义词;又如:“牛奶”和“奶牛”之间的编辑距离较近,但它们不是同义词。而且,在词语信息暴涨的互联网时代,新生词语源源不断,若同义词的识别方法过于依赖预先编写的同义词库,则可能会由于同义词库涵盖的词语比较有限,导致无法识别新生同义词。
(2)针对上述第二种同义词识别方法:该方法虽然不依赖于同义词库作为识别基础,也不采用两个词之间的编辑距离,相对于上述第一种同义词识别方法,提高了同义词识别的准确度,但是,该同义词识别算法比较简单,对同义词的相似程度没有一个量化的计算值进行衡量,识别出的同义词准确度依然很低,进而影响了用户查询体验。
发明内容
本发明实施例提供了一种同义词的识别方法及识别装置,用以解决现有技术中的同义词识别方法存在识别准确度较低,进而影响用户查询体验的问题。
本发明实施例提供的具体技术方案如下:
一种同义词的识别方法,包括:
针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度;其中,上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度;
计算上述第一分词与上述第二分词之间的字面相似度;其中,上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度;
基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度;
确定上述综合相似度不小于预设阈值时,判定上述第一分词与上述第二分词互为同义词。
较佳的,针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度之前,进一步包括:
采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于上述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
较佳的,计算上述第一分词与上述第二分词之间的地址相似度,包括:
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于上述第一查询结果地址总数和上述第二查询结果地址总数,计算上述第一分词与上述第二分词之间的地址相似度。
较佳的,计算上述第一分词与上述第二分词之间的字面相似度,包括:
统计上述第一字符组与上述第二字符组之间所有相同字符,基于统计的所有相同字符,确定上述第一分词与上述第二分词之间的相同字符总数;
基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数,确定上述第一字符总数与上述第二字符总数之间的最少字符总数,
基于上述相同字符总数和上述最少字符总数,计算上述第一分词与上述第二分词之间的字面相似度。
较佳的,基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度,包括:
确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数,其中,上述第一常数与上述第二常数之和为1;
基于上述地址相似度和上述第一常数,以及上述字面相似度和上述第二常数,计算上述第一分词与上述第二分词之间的综合相似度。
一种同义词的识别装置,包括:
第一计算单元,用于针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度;其中,上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度;
第二计算单元,用于计算上述第一分词与上述第二分词之间的字面相似度;其中,上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度;
第三计算单元,用于基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度;
识别单元,用于确定上述综合相似度不小于预设阈值时,判定上述第一分词与上述第二分词互为同义词。
较佳的,上述识别装置还包括:采集单元,预处理单元,集合生成单元,其中,在上述第一计算单元针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度之前,
上述采集单元,用于采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于上述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
上述预处理单元,用于对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
上述集合生成单元,用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
较佳的,计算上述第一分词与上述第二分词之间的地址相似度时,上述第一计算单元具体用于:
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于上述第一查询结果地址总数和上述第二查询结果地址总数,计算上述第一分词与上述第二分词之间的地址相似度。
较佳的,计算上述第一分词与上述第二分词之间的字面相似度时,上述第二计算单元具体用于:
统计上述第一字符组与上述第二字符组之间所有相同字符,基于统计的所有相同字符,确定上述第一分词与上述第二分词之间的相同字符总数;
基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数,确定上述第一字符总数与上述第二字符总数之间的最少字符总数,
基于上述相同字符总数和上述最少字符总数,计算上述第一分词与上述第二分词之间的字面相似度。
较佳的,基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度时,上述第三计算单元具体用于:
确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数,其中,上述第一常数与上述第二常数之和为1;
基于上述地址相似度和上述第一常数,以及上述字面相似度和上述第二常数,计算上述第一分词与上述第二分词之间的综合相似度。
本发明实施例的有益效果如下:
本发明实施例中,通过计算两个分词之间的综合相似度,即可判断出这两个分词是否是同义词,适用于任意两个分词之间的同义词识别,也不再依赖于预先编写的同义词库,避免了由于同义词库涵盖的词语比较有限,导致无法识别新生同义词的问题。而且,通过从两个分词之间的地址相似度和字面相似度进行双方面考虑,使得计算出的两个分词之间的综合相似度更准确,进而提高了同义词识别的精确度。进一步地,针对归属于同一类别的两个分词计算综合相似度,进一步提高了同义词识别的准确度。
附图说明
图1为本发明实施例中同义词识别方法的概况示意图;
图2为本发明实施例中同义词识别方法的具体流程示意图;
图3为本发明实施例中同义词识别装置的功能结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中的同义词识别方法存在识别准确度较低,进而影响用户查询体验的问题,本发明实施例中,会针对归属于同一类别的第一分词和第二分词,先计算上述第一分词和上述第二分词之间的地址相似度和字面相似度,再基于上述第一分词和上述第二分词之间的地址相似度和字面相似度,计算上述第一分词和上述第二分词之间的综合相似度,最后,在确定上述综合相似度不小于预设阈值时,就可以判定上述第一分词与上述第二分词互为同义词。
下面通过具体实施例对本发明方案进行详细描述,当然,本发明并不限于以下实施例。
参阅图1所示,本发明实施例提供的同义词识别方法,可以应用于但不限于:搜索引擎服务器,具体地,搜索引擎服务器采用的同义词识别方法的流程如下:
步骤100:针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度;其中,上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度。
在实际应用中,在执行步骤100之前,搜索引擎服务器还会执行但不限于以下步骤:
首先,搜索引擎服务器实时采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于上述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址。
然后,搜索引擎服务器对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并对各个分词进行分类,以及针对各个类别包含的每一个分词,分别统计每一个分词对应的所有用户点击的查询结果地址。
值得说的是,搜索引擎服务器在对预设时间范围内的所有查询信息分别进行分词处理之前,还会针对各个查询信息分别进行去特殊符号处理、去停词处理等相关处理。比如:针对查询信息“鲜花店(知春路店)”,搜索引擎服务器会去除该查询信息中的“括号”;针对查询信息“知春路的鲜花店”,搜索引擎服务器会去除该查询信息中的“的”,等等。具体地,去特殊符号处理、去停词处理等相关处理方法,与现有技术相同,在此不再赘述。
最后,搜索引擎服务器基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
例如:搜索引擎服务器采集到的用户日志信息1中,用户输入的查询信息1为:海淀区知春路的鲜花店;搜索引擎服务器向用户显示的所有查询结果地址为:统一资源定位符(Uniform Resource Locator,URL)1、URL 2、URL 3、URL 4和URL 5;所有用户点击的查询结果地址为:URL 1、URL 2和URL 4。
搜索引擎服务器采集到的用户日志信息2中,用户输入的查询信息2为:海淀鲜花店(知春路店);搜索引擎服务器向用户显示的所有查询结果地址为:URL 1、URL 2、URL 3、URL 4和URL 5;所有用户点击的查询结果地址为:URL 1、URL 2、URL 3和URL 4。
搜索引擎服务器针对1个小时内(即预设时间范围内)的所有查询信息(假设有:查询信息1和查询信息2),去除查询信息1中的“的”,获取相应的查询信息1“海淀区知春路鲜花店”,以及去除查询信息2中的“括号”,获取相应的查询信息2“海淀鲜花店知春路店”。
搜索引擎服务器对查询信息1“海淀区知春路鲜花店”进行分词处理,获取到的各个分词为:海淀区、知春路鲜花店,以及对查询信息2“海淀鲜花店知春路店”进行分词处理,获取到的各个分词为:海淀区、鲜花店知春路店,即搜索引擎服务器获取到的各个分词为:海淀区、知春路鲜花店和鲜花店知春路店。
搜索引擎服务器对获得的3个分词进行分类,比如:将分词“海淀区”归类于“地区类”,将分词“知春路鲜花店”和分词“鲜花店知春路店”归类于“甜品店类”。
下面仅以“甜品店类”包含的分词“知春路鲜花店”和分词“鲜花店知春路店”为例进行详细说明。
搜索引擎服务器针对“甜品店类”包含的分词“知春路鲜花店”,统计该分词对应的所有用户点击的查询结果地址为:URL 1、URL 2和URL 4;以及针对“甜品店类”包含的分词“鲜花店知春路店”,统计该分词对应的所有用户点击的查询结果地址为:URL 1、URL 2、URL3和URL 4。
搜索引擎服务器基于分词“知春路鲜花店”,以及该分词(下面称分词“知春路鲜花店”为KW1)对应的所有用户点击的查询结果地址:URL 1、URL 2和URL 4,生成用户点击查询结果地址集合1,即为{KW1,URL 1,URL 2,URL 4}。
搜索引擎服务器基于分词“鲜花店知春路店”,以及该分词(下面称分词“鲜花店知春路店”为KW2)对应的所有用户点击的查询结果地址:URL 1、URL 2、URL 3和URL 4,生成用户点击查询结果地址集合2,即为{KW2,URL 1,URL 2,URL 3,URL 4}。
较佳的,由于搜索引擎服务器向用户显示的所有查询结果地址中,部分查询结果地址可能与用户输入的查询信息之间的关联度较低,所以,为了避免由于搜索引擎服务器提供的查询结果地址不准确,导致基于搜索引擎服务器提供的查询结果地址计算出的两个分词之间的相似度准确度较差的问题,本发明实施例中,根据用户点击的查询结果地址,计算上述第一分词和上述第二分词之间的地址相似度,这样,搜索引擎服务器向用户显示所有查询结果地址后,由于用户会根据自身需求和期望,向相应的查询结果地址发起访问请求,所以,用户点击的查询结果地址与用户输入的查询信息之间的关联度较高,进而,根据用户点击的查询结果地址计算出的地址相似度的准确度也比较高。
具体地,搜索引擎服务器针对各个类别包含的每一个分词,生成相应的用户点击查询结果地址集合后,针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度时,可以采用但不限于以下方式:
首先,搜索引擎服务器基于上述第一分词对应的第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及上述第二分词对应的第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和。
然后,搜索引擎服务器基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和。
最后,搜索引擎服务器基于上述第一查询结果地址总数和上述第二查询结果地址总数,计算上述第一分词与上述第二分词之间的地址相似度。
具体地,搜索引擎服务器在计算上述第一分词与上述第二分词之间的地址相似度时,可以采用但不限于以下计算方式:
Figure BDA0001071051340000101
其中,在上述式(1)中,SIMchickedurl(KWi,KWi+1)表征分词KWi和分词KWi+1之间的地址相似度,
Figure BDA0001071051340000102
表征第一查询结果地址总数,URL(KWi)∪URL(KWi+1)表征第二查询结果地址总数。
例如:继续沿用上例,搜索引擎服务器根据KW1对应的用户点击查询结果地址集合1{KW1,URL 1,URL 2,URL 4},以及KW2对应的用户点击查询结果地址集合2{KW2,URL 1,URL2,URL 3,URL 4},确定用户点击查询结果地址集合1和用户点击查询结果地址集合2之间查询结果地址域名相同的所有查询结果地址为:URL 1、URL 2和URL 4,进一步确定第一查询结果地址总数为3个。
搜索引擎服务器根据{KW1,URL 1,URL 2,URL 4}包含的所有用户点击的查询结果地址数目3个,以及{KW2,URL 1,URL 2,URL 3,URL 4}包含的所有用户点击的查询结果地址数目4个,确定第二查询结果地址总数为:3+4=7个。
搜索引擎服务器根据第一查询结果地址总数3和第二查询结果地址总数7,计算出KW1与KW2之间的地址相似度为:
Figure BDA0001071051340000111
步骤101:计算上述第一分词与上述第二分词之间的字面相似度;其中,上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度。
具体地,搜索引擎服务器在计算上述第一分词与上述第二分词之间的字面相似度时,可以采用但不限于以下方式:
首先,搜索引擎服务器统计上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间所有相同字符,基于统计的所有相同字符,确定上述第一分词与上述第二分词之间的相同字符总数。
然后,搜索引擎服务器基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数,确定上述第一字符总数与上述第二字符总数之间的最少字符总数。
最后,搜索引擎服务器基于上述相同字符总数和上述最少字符总数,计算上述第一分词与上述第二分词之间的字面相似度。
值得说的是,搜索引擎服务器在计算上述第一分词与上述第二分词之间的字面相似度时,可以采用但不限于以下计算方式:
Figure BDA0001071051340000121
其中,在上述式(2)中,SIMtypeface(KWi,KWi+1)表征分词KWi和分词KWi+1之间的字面相似度,/KWi/∩/KWi+1/表征分词KWi和分词KWi+1之间的相同字符总数,Min(/KWi/,/KWi+1/)表征分词KWi和分词KWi+1之间的最少字符总数。
例如:继续沿用上例,搜索引擎服务器根据KW1包含的字符组1:知春路鲜花店和KW2包含的字符组2:鲜花店知春路店,统计字符组1和字符组2之间的所有相同字符为:知春路鲜花店,并进一步根据统计的所有相同字符:知春路鲜花店,确定KW1与KW2之间的相同字符总数为6个。
搜索引擎服务器根据字符组1包含的字符总数6个,以及字符组2包含的字符总数7个,确定最少字符总数为6个。
搜索引擎服务器根据相同字符总数为6个和最少字符总数为6个,计算出KW1和KW2之间的字面相似度为:
Figure BDA0001071051340000122
步骤102:基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度。
具体地,搜索引擎服务器在计算上述第一分词与上述第二分词之间的总和相似度时,可以采用但不限于以下方式:
搜索引擎服务器确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数后,再基于上述地址相似度和上述第一常数,以及上述字面相似度和上述第二常数,计算上述第一分词与上述第二分词之间的综合相似度,其中,上述第一常数与上述第二常数之和为1。
较佳的,搜索引擎服务器在计算上述第一分词与上述第二分词之间的总和相似度时,可以采用但不限于以下计算方式:
SIMcombined(KWi,KWi+1)=α×SIMclickedurl(KWi,KWi+1)+β×SIMtypeface(KWi,KWi+1)
………式(3)
其中,在上述式(3)中,SIMcombined(KWi,KWi+1)表征分词KWi和分词KWi+1之间的综合相似度,SIMclickedurl(KWi,KWi+1)表征分词KWi和分词KWi+1之间的地址相似度,SIMtypeface(KWi,KWi+1)表征分词KWi和分词KWi+1之间的字面相似度,α表征第一常数,β表征第二常数。
值得说的是,上述第一常数和上述第二常数可以根据不同的应用场景进行灵活配置,具体地,若要提高上述地址相似度权重,则可以增大上述第一常数;若要提高上述字面相似度权重,则可以增大上述第二常数。
例如,继续沿用上例,假设第一常数α=0.6,第二常数β=0.4。
搜索引擎服务器根据计算出的KW1与KW2之间的地址相似度
Figure BDA0001071051340000131
字面相似度:SIMtypeface(KW1,KW2)=1,以及第一常数α=0.6,第二常数β=0.4,计算出KW1与KW2之间的综合相似度为:
Figure BDA0001071051340000132
步骤103:确定上述综合相似度不小于预设阈值时,判定上述第一分词与上述第二分词互为同义词。
在实际应用中,搜索引擎服务器确定上述第一分词与上述第二分词之间的综合相似度不小于预设阈值时,判定上述第一分词与上述第二分词互为同义词。值得说的是,上述预设阈值也可以根据不同的应用场景进行灵活设置。
例如:继续沿用上例,假设预设阈值为60%。
搜索引擎服务器计算出KW1和KW2之间的综合相似度为65.7%后,确定综合相似度为65.7%大于预设阈值60%,进一步确定KW1与KW2互为同义词。
下面采用具体的应用场景对上述实施例作进一步详细说明,参阅图2所示,本发明实施例中,同义词识别方法的具体流程如下:
步骤200:搜索引擎服务器实时采集用户查询日志。
其中,采集到的用户日志信息1中,用户输入的查询信息为1:海淀区知春路的鲜花店;搜索引擎服务器向用户显示的所有查询结果地址为:URL 1、URL 2、URL 3、URL 4和URL5;所有用户点击的查询结果地址为:URL 1、URL 2和URL 4。
采集到的用户日志信息2中,用户输入的查询信息2为:海淀鲜花店(知春路店);搜索引擎服务器向用户显示的所有查询结果地址为:URL 1、URL 2、URL 3、URL 4和URL 5;所有用户点击的查询结果地址为:URL 1、URL 2、URL 3和URL 4。
步骤201:搜索引擎服务器针对1个小时内的所有查询信息(假设有:查询信息1和查询信息2),去除查询信息1中的“的”,获取相应的查询信息1“海淀区知春路鲜花店”,以及去除查询信息2中的“括号”,获取相应的查询信息2“海淀鲜花店知春路店”。
步骤202:搜索引擎服务器对查询信息1“海淀区知春路鲜花店”和查询信息2“海淀鲜花店知春路店”分别进行分词处理,获取到相应的各个分词为:海淀区、知春路鲜花店和鲜花店知春路店。
步骤203:搜索引擎服务器对获得的3个分词进行分类,将分词“海淀区”归类于“地区类”,将分词“知春路鲜花店”和分词“鲜花店知春路店”归类于“甜品店类”。
下面仅以“甜品店类”包含的分词“知春路鲜花店”和分词“鲜花店知春路店”为例进行详细说明。
步骤204:搜索引擎服务器针对“甜品店类”包含的分词“知春路鲜花店”,统计该分词对应的所有用户点击的查询结果地址为:URL 1、URL 2和URL 4;以及针对“甜品店类”包含的分词“鲜花店知春路店”,统计该分词对应的所有用户点击的查询结果地址为:URL 1、URL 2、URL 3和URL 4。
步骤205:搜索引擎服务器基于分词“知春路鲜花店”,以及该分词(下面称分词“知春路鲜花店”为KW1)对应的所有用户点击的查询结果地址:URL1、URL 2和URL 4,生成用户点击查询结果地址集合1,即为{KW1,URL 1,URL 2,URL 4}。
步骤206:搜索引擎服务器基于分词“鲜花店知春路店”,以及该分词(下面称分词“鲜花店知春路店”为KW2)对应的所有用户点击的查询结果地址:URL 1、URL 2、URL 3和URL4,生成用户点击查询结果地址集合2,即为{KW2,URL 1,URL 2,URL 3,URL 4}。
步骤207:搜索引擎服务器根据用户点击查询结果地址集合1{KW1,URL1,URL 2,URL 4},以及用户点击查询结果地址集合2{KW2,URL 1,URL 2,URL 3,URL 4},确定查询结果地址域名相同的所有查询结果地址为:URL 1、URL 2和URL 4,进一步确定第一查询结果地址总数为3个。
步骤208:搜索引擎服务器根据{KW1,URL 1,URL 2,URL 4}包含的所有用户点击的查询结果地址数目3个,以及{KW2,URL 1,URL 2,URL 3,URL 4}包含的所有用户点击的查询结果地址数目4个,确定第二查询结果地址总数为:3+4=7个。
步骤209:搜索引擎服务器根据第一查询结果地址总数3个和第二查询结果地址总数7个,计算出KW1与KW2之间的地址相似度为:
Figure BDA0001071051340000151
步骤210:搜索引擎服务器根据KW1包含的字符组1:知春路鲜花店,以及KW2包含的字符组2:鲜花店知春路店,统计字符组1和字符组2之间的所有相同字符为:知春路鲜花店,并进一步根据统计的所有相同字符:知春路鲜花店,确定KW1与KW2之间的相同字符总数为6个。
步骤211:搜索引擎服务器根据字符组1包含的字符总数6个,以及字符组2包含的字符总数7个,确定最少字符总数为6个。
步骤212:搜索引擎服务器根据相同字符总数为6个和最少字符总数为6个,计算出KW1和KW2之间的字面相似度为:
Figure BDA0001071051340000152
步骤213:搜索引擎服务器根据计算出的KW1与KW2之间的地址相似度
Figure BDA0001071051340000161
字面相似度:SIMtypeface(KW1,KW2)=1,以及第一常数α=0.6,第二常数β=0.4,计算出KW1与KW2之间的综合相似度为:
Figure BDA0001071051340000162
步骤214:搜索引擎服务器判断计算出的KW1和KW2之间的综合相似度65.7%是否不小于预设阈值60%,若是,则执行步骤215;否则,执行步骤216。
步骤215:搜索引擎服务器确定KW1与KW2互为同义词。
步骤216:搜索引擎服务器确定KW1与KW2不是同义词。
基于上述实施例,参阅图3所示,本发明实施例中,同义词识别装置,至少包括:
第一计算单元303,用于针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度;其中,上述地址相似度表征上述第一分词对应的第一用户点击查询结果地址集合与上述第二分词对应的第二用户点击查询结果地址集合之间的相似度;
第二计算单元304,用于计算上述第一分词与上述第二分词之间的字面相似度;其中,上述字面相似度表征上述第一分词包含的第一字符组与上述第二分词包含的第二字符组之间的相似度;
第三计算单元305,用于基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度;
识别单元306,用于确定上述综合相似度不小于预设阈值时,判定上述第一分词与上述第二分词互为同义词。
较佳的,上述识别装置还包括:采集单元300,预处理单元301,集合生成单元302,其中,在上述第一计算单元303针对归属于同一类别的第一分词和第二分词,计算上述第一分词与上述第二分词之间的地址相似度之前,
上述采集单元300,用于采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于上述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
上述预处理单元301,用于对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
上述集合生成单元302,用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
较佳的,计算上述第一分词与上述第二分词之间的地址相似度时,上述第一计算单元303具体用于:
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,上述第一查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于上述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及上述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,上述第二查询结果地址总数表征上述第一用户点击查询结果地址集合和上述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于上述第一查询结果地址总数和上述第二查询结果地址总数,计算上述第一分词与上述第二分词之间的地址相似度。
较佳的,计算上述第一分词与上述第二分词之间的字面相似度时,上述第二计算单元304具体用于:
统计上述第一字符组与上述第二字符组之间所有相同字符,基于统计的所有相同字符,确定上述第一分词与上述第二分词之间的相同字符总数;
基于上述第一字符组包含的第一字符总数和上述第二字符组包含的第二字符总数,确定上述第一字符总数与上述第二字符总数之间的最少字符总数,
基于上述相同字符总数和上述最少字符总数,计算上述第一分词与上述第二分词之间的字面相似度。
较佳的,基于上述地址相似度和上述字面相似度,计算上述第一分词与上述第二分词之间的综合相似度时,上述第三计算单元305具体用于:
确定表征上述地址相似度权重的第一常数和表征上述字面相似度权重的第二常数,其中,上述第一常数与上述第二常数之和为1;
基于上述地址相似度和上述第一常数,以及上述字面相似度和上述第二常数,计算上述第一分词与上述第二分词之间的综合相似度。
综上所述,本发明实施例中,针对归属于同一类别的第一分词和第二分词,计算第一分词与第二分词之间的地址相似度和字面相似度后,进一步根据地址相似度和字面相似度,计算第一分词与第二分词之间的综合相似度,确定综合相似度不小于预设阈值时,判定第一分词与第二分词互为同义词。这样,通过计算两个分词之间的综合相似度,即可判断出这两个分词是否是同义词,适用于任意两个分词之间的同义词识别,也不再依赖于预先编写的同义词库,避免了由于同义词库涵盖的词语比较有限,导致无法识别新生同义词的问题。而且,通过从两个分词之间的地址相似度和字面相似度进行双方面考虑,使得计算出的两个分词之间的综合相似度更准确,进而,提高了同义词识别的精确度。进一步地,针对归属于同一类别的两个分词计算综合相似度,进一步提高了同义词识别的准确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种同义词的识别方法,其特征在于,包括:
针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度;其中,所述地址相似度是基于第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,所述第一查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,所述第二查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于所述第一查询结果地址总数和所述第二查询结果地址总数,计算所述第一分词与所述第二分词之间的地址相似度;
计算所述第一分词与所述第二分词之间的字面相似度;其中,所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度;
基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度;
确定所述综合相似度不小于预设阈值时,判定所述第一分词与所述第二分词互为同义词;
其中,计算所述第一分词与所述第二分词之间的字面相似度,包括:
统计所述第一字符组与所述第二字符组之间所有相同字符,基于统计的所有相同字符,确定所述第一分词与所述第二分词之间的相同字符总数;
基于所述第一字符组包含的第一字符总数和所述第二字符组包含的第二字符总数,确定所述第一字符总数与所述第二字符总数之间的最少字符总数,
基于所述相同字符总数和所述最少字符总数,计算所述第一分词与所述第二分词之间的字面相似度。
2.如权利要求1所述的识别方法,其特征在于,针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度之前,进一步包括:
采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于所述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
3.如权利要求1或2所述的识别方法,其特征在于,基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度,包括:
确定表征所述地址相似度权重的第一常数和表征所述字面相似度权重的第二常数,其中,所述第一常数与所述第二常数之和为1;
基于所述地址相似度和所述第一常数,以及所述字面相似度和所述第二常数,计算所述第一分词与所述第二分词之间的综合相似度。
4.一种同义词的识别装置,其特征在于,包括:
第一计算单元,用于针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度;其中,所述地址相似度是基于第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,以及第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址域名,计算第一查询结果地址总数,其中,所述第一查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间查询结果地址域名相同的所有查询结果地址的总和;
基于所述第一用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,以及所述第二用户点击查询结果地址集合包含的所有用户点击的查询结果地址数目,计算第二查询结果地址总数,其中,所述第二查询结果地址总数表征所述第一用户点击查询结果地址集合和所述第二用户点击查询结果地址集合之间所有查询结果地址的总和;
基于所述第一查询结果地址总数和所述第二查询结果地址总数,计算所述第一分词与所述第二分词之间的地址相似度;
第二计算单元,用于计算所述第一分词与所述第二分词之间的字面相似度;其中,所述字面相似度表征所述第一分词包含的第一字符组与所述第二分词包含的第二字符组之间的相似度;
第三计算单元,用于基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度;
识别单元,用于确定所述综合相似度不小于预设阈值时,判定所述第一分词与所述第二分词互为同义词;
其中,计算所述第一分词与所述第二分词之间的字面相似度时,所述第二计算单元具体用于:
统计所述第一字符组与所述第二字符组之间所有相同字符,基于统计的所有相同字符,确定所述第一分词与所述第二分词之间的相同字符总数;
基于所述第一字符组包含的第一字符总数和所述第二字符组包含的第二字符总数,确定所述第一字符总数与所述第二字符总数之间的最少字符总数,
基于所述相同字符总数和所述最少字符总数,计算所述第一分词与所述第二分词之间的字面相似度。
5.如权利要求4所述的识别装置,其特征在于,还包括:采集单元,预处理单元,以及集合生成单元,其中,在所述第一计算单元针对归属于同一类别的第一分词和第二分词,计算所述第一分词与所述第二分词之间的地址相似度之前,
所述采集单元,用于采集用户查询日志,其中,一个用户查询日志至少包括:用户输入的查询信息,基于所述查询信息向用户显示的所有查询结果地址,以及所有用户点击的查询结果地址;
所述预处理单元,用于对预设时间范围内的所有查询信息分别进行分词处理,获取相应的各个分词,并分别统计每一个分词对应的所有用户点击的查询结果地址;
所述集合生成单元,用于基于每一个分词和每一个分词对应的所有用户点击的查询结果地址,分别生成相应的用户点击查询结果地址集合。
6.如权利要求4或5所述的识别装置,其特征在于,基于所述地址相似度和所述字面相似度,计算所述第一分词与所述第二分词之间的综合相似度时,所述第三计算单元具体用于:
确定表征所述地址相似度权重的第一常数和表征所述字面相似度权重的第二常数,其中,所述第一常数与所述第二常数之和为1;
基于所述地址相似度和所述第一常数,以及所述字面相似度和所述第二常数,计算所述第一分词与所述第二分词之间的综合相似度。
CN201610641371.7A 2016-08-05 2016-08-05 一种同义词的识别方法及识别装置 Active CN107688563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610641371.7A CN107688563B (zh) 2016-08-05 2016-08-05 一种同义词的识别方法及识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610641371.7A CN107688563B (zh) 2016-08-05 2016-08-05 一种同义词的识别方法及识别装置

Publications (2)

Publication Number Publication Date
CN107688563A CN107688563A (zh) 2018-02-13
CN107688563B true CN107688563B (zh) 2021-03-19

Family

ID=61152084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610641371.7A Active CN107688563B (zh) 2016-08-05 2016-08-05 一种同义词的识别方法及识别装置

Country Status (1)

Country Link
CN (1) CN107688563B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309432B (zh) * 2018-06-11 2024-06-07 腾讯科技(北京)有限公司 基于兴趣点的同义词确定方法、地图兴趣点处理方法
CN110427381A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种数据处理方法及相关设备
CN111126048B (zh) * 2019-12-25 2021-10-22 腾讯科技(深圳)有限公司 一种候选同义词确定方法、装置、服务器及存储介质
JP7457531B2 (ja) * 2020-02-28 2024-03-28 株式会社Screenホールディングス 類似度算出装置、類似度算出プログラム、および、類似度算出方法
CN113343688A (zh) * 2021-06-22 2021-09-03 南京星云数字技术有限公司 地址相似度确定方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576916A (zh) * 2009-06-18 2009-11-11 清华大学 一种获取同义词的方法及装置
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103106189A (zh) * 2011-11-11 2013-05-15 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
CN103136223A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种挖掘具有相似需求的查询的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576916A (zh) * 2009-06-18 2009-11-11 清华大学 一种获取同义词的方法及装置
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103106189A (zh) * 2011-11-11 2013-05-15 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
CN103136223A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种挖掘具有相似需求的查询的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用字面相似度识别汉语同义词的实验;侯汉清 等;《第15届全国计算机信息管理学术研讨会论文集》;20030908;第222-229页 *

Also Published As

Publication number Publication date
CN107688563A (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN107688563B (zh) 一种同义词的识别方法及识别装置
US10997256B2 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
CN106033416B (zh) 一种字符串处理方法及装置
US9317550B2 (en) Query expansion
US8566303B2 (en) Determining word information entropies
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN107168991B (zh) 一种搜索结果展示方法和装置
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN105279277A (zh) 知识数据的处理方法和装置
US10346496B2 (en) Information category obtaining method and apparatus
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN106296286A (zh) 广告点击率的预估方法和预估装置
CN104537341A (zh) 人脸图片信息获取方法和装置
CN108427686A (zh) 文本数据查询方法及装置
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN113468339B (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN109743309B (zh) 一种非法请求识别方法、装置及电子设备
CN108388556B (zh) 同类实体的挖掘方法及系统
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN109815337B (zh) 确定文章类别的方法及装置
CN103853771A (zh) 一种搜索结果的推送方法及系统
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
WO2016101737A1 (zh) 搜索查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant