CN110209780A - 一种问题模板生成方法、装置、服务器及存储介质 - Google Patents
一种问题模板生成方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN110209780A CN110209780A CN201810890730.1A CN201810890730A CN110209780A CN 110209780 A CN110209780 A CN 110209780A CN 201810890730 A CN201810890730 A CN 201810890730A CN 110209780 A CN110209780 A CN 110209780A
- Authority
- CN
- China
- Prior art keywords
- candidate
- question template
- attribute information
- seed pattern
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种问题模板生成方法、装置、服务器及存储介质,可通过将种子模板扩展成多个候选问题模板;针对每个候选问题模板,将用于扩展成该候选问题模板的各种子模板携带的所有的属性信息,确定为与该候选问题模板对应的候选属性信息,进而基于该候选问题模板具有与其对应的每个候选属性信息的可能性,从该候选问题模板对应的各候选属性信息中选取一个候选属性信息,作为该候选问题模板的属性信息,以生成问题模板的方式,自动生成问题模板。相对于传统的由人工配置每一个问题模板的方式而言,不仅可以节约人工成本、而且还可以提高问题模板生成效率。
Description
技术领域
本发明涉及模板挖掘技术领域,具体涉及一种问题模板生成方法、装置、服务器及存储介质。
背景技术
为了给用户提供更好的检索结果,搜索服务器通常会设置多个问题模板。在搜索服务器获取到检索条件之后,可以基于预置的问题模板对该检索条件进行扩展,以得到与该检索条件相关的多个检索问题,这样,基于该多个检索问题进行检索,可以得到与检索条件以及扩展出的各检索问题对应的检索结果,从而可以为用户提供更多可选的检索结果,提高检索结果命中率。
传统技术通常是针对实体集中的每个属性,由人工配置问题模板,其中,实体集由多个实体构成,实体具有至少一个属性。比如,针对实体集中的电影属性,人工配置“@演了哪些电影”这一问题模板。然而,人工配置问题模板的方式不仅会存在因人员工作状态差导致问题模板配置效率低的问题,而且人工配置出的问题模板的数量也是有限的,若要配置大量的问题模板需要增加更多的人工成本。
因此,如何提供一种问题模板生成方法,以减少人工配置问题模板所导致的问题模板配置效率低、人工成本高的情况的发生,是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种问题模板生成方法、装置、服务器及存储介质,以在降低人工成本、提高问题模板生成效率的基础上,实现问题模板的生成。
为实现上述目的,本发明实施例提供如下技术方案:
一种问题模板生成方法,包括:
获取多个种子模板,每个所述种子模板携带有属性信息;
扩展所述种子模板生成至少一个候选问题模板;
针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
一种问题模板生成装置,包括:
种子模板获取单元,用于获取多个种子模板,每个所述种子模板携带有属性信息;
候选问题模板扩展单元,用于扩展所述种子模板生成至少一个候选问题模板;
目标属性信息确定单元,用于针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
相似度确定单元,用于针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
问题模板生成单元,用于针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
一种服务器,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取多个种子模板,每个所述种子模板携带有属性信息;
扩展所述种子模板生成至少一个候选问题模板;
针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行所述问题模板生成方法。
经由上述的技术方案可知,用户只需预先设置一些携带属性信息的种子模板,本发明便可通过将种子模板扩展成多个候选问题模板;针对每个候选问题模板,将用于扩展成该候选问题模板的各种子模板携带的所有的属性信息,确定为与该候选问题模板对应的候选属性信息,进而基于该候选问题模板具有与其对应的每个候选属性信息的可能性,从该候选问题模板对应的各候选属性信息中选取一个候选属性信息,作为该候选问题模板的属性信息,以生成问题模板的方式,自动生成问题模板。并且,因为每个种子模板都可以被扩展成多个用于生成问题模板的候选问题模板,因此基于种子模板自动生成的问题模板的数量也是可观的。相对于传统的由人工配置每一个问题模板的方式而言,不仅可以节约人工成本、而且还可以提高问题模板生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请的一种问题模板生成方法的一种应用场景的组成结构示意图;
图2为本申请实施例提供的一种服务器的硬件结构框图;
图3为本申请实施例提供的一种问题模板生成方法流程图;
图4为本申请实施例提供的一种问题模板生成方法示意图;
图5为本申请实施例提供的一种检索结果示意图;
图6为本申请实施例提供的一种计算候选问题模板与携带属性信息的至少一个种子模板的相似度的示意图;
图7为本申请实施例提供的另一种问题模板生成方法流程图;
图8为本申请实施例提供的一种选择与候选问题模板关联的相似度高的目标属性信息作为候选问题模板的属性信息,以生成问题模板的方法流程图;
图9为本申请实施例提供的一种扩展种子模板生成至少一个候选问题模板的方法流程图;
图10为本申请实施例提供的一种将种子问题作为查询条件进行检索,得到与种子问题相关的至少一个检索问题的方法流程图;
图11为本申请实施例提供的一种问题模板生成装置的结构示意图。
具体实施方式
为了便于理解本申请的方案,先对本申请实施例中涉及到的一些术语进行解释。
实体,从数据处理的角度看,实体不仅可以为现实世界中的可区分、可识别、可触及的客观事物【比如,实体可以指人,如教师、学生等,也可以指物,如书、仓库等】;还可以为抽象的事件(比如,实体可以为演出、足球赛等)。
属性:属性是一个实体的信息描述。属性名是该属性的名称;属性值是该属性名所对应的值,可以是一个数字、文本或另外一个实体。比如,若实体为张三时,实体可以具有至少一个属性信息,至少一个属性信息可以包括“影视明星”、“年龄”、“性别”、“电影”、“歌曲”等属性信息。
实体集:实体集是若干实体、实体自身属性、以及实体间联系属性的结合。实体集的表现形式可以为知识库,以上仅仅是本申请实施例提供的实体集的优选表现形式,在此不做限定。
举例说明实体间联系属性,若实体集中包括“张三”这一实体以及“A歌曲”这一实体,“A歌曲”这一实体可以与“张三”这一实体中的“歌曲”属性信息关联。
种子模板:针对实体集中每个属性,由人工审核或人工配置的问题模板。如对于实体集中的电影属性,可以配置种子模板“@演了哪些电影”。
检索问题:利用搜索引擎搜索种子问题,得到的搜索引擎返回的与种子问题相似问题即为检索问题。
候选问题模板:检索问题经过命名实体替换后称为候选问题模板。
命名实体识别:命名实体识别,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
下面结合上述给出的术语对本申请实施例提供的一种问题模板生成方法进行详细介绍。
问题模板主要应用于搜索服务器,设置有问题模板的搜索服务器在接收到检索条件后,可以基于问题模板对检索条件进行扩展,得到与检索条件相关的多个检索问题;这样,便可向用户返回检索条件和各检索问题的检索结果,以为用户提供更多可选的检索结果,提高检索结果命中率,进而提高用户粘性。
由此,问题模板的设置对于搜索引擎而言是至关重要的,其直接关系到搜索引擎是否提高检索结果命中率,也因此,人们越来越关注问题模板的生成方法,问题模板的生成方法已成为检索技术领域主要研究方向之一。
传统的由人工配置问题模板的方式,因人工数量、人工的工作状态等原因,往往存在问题模板生成效率低、生成数量少、不能满足搜索服务器对问题模板的数量需求的情况;而若要提高问题模板的生成数量则需要增加更多的人工成本,这样,又会导致人工成本高的问题。
为了解决传统的人工配置问题模板所导致的问题模板生成效率低、人工成本高的问题,发明人经过研究发现,可以采用回标法实现对问题模板的自动生成。
回标法的实现方案如下:设置多个三元组{S,P,O},S为主体、P为属性、O为客体;扩展种子模板得到多个检索问答对(检索问答对包括与种子模板相似的检索问题和检索问题的检索结果);针对每个检索问答对,确定与该检索问答对匹配的目标三元组,并将该检索问答对中的检索问题标定为目标三元组中的属性P,以生成问题模板;其中,检索问答对与目标三元组匹配指示检索问答对中的检索问题与目标三元组中的主体S匹配,检索问答对中的检索结果与目标三元组中的客体O匹配。
然而,回标法虽然可以基于种子模板自动生成问题模板,但是,却需要针对每个问答对执行两次信息匹配过程(这两次信息匹配的过程分别为在多个三元组的主体S中匹配问答对的检索问题的过程以及在多个三元组的客体O中匹配问答对的检索结果的过程),因此,往往会导致问题模板生成效率低的问题;并且,因检索问答对中的检索结果为用户提供的,通常存在不标准的情况,因此,往往会导致生成的问题模板准确性低的问题。
为了提高问题模板生成效率以及问题模板生成准确性,发明人对上述回标法进行了进一步的改进,由此提出了一种问题模板生成方法。
为了便于对本申请实施例提供的一种问题模板生成方法的理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例首先对本申请实施例的问题模板生成方法所适用的应用场景的系统组成进行介绍。如图1,在图1所示的应用场景中可以包括:服务器11以及检索平台12。
服务器11可以为问题模板生成服务器,该服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。
检索平台12可以是服务器、终端等,在此不做限定。
服务器11,用于获取多个种子模板,每个种子模板携带有属性信息;生成与种子模板相关的至少一个种子问题;生成与种子问题对应的用于将种子问题作为查询条件的URL链接;将URL链接发送至检索平台12;接收检索平台12基于URL链接进行检索返回检索结果;从检索结果中提取与种子问题相关的至少一个检索问题;将检索问题中的实体替换为特定字符,生成候选问题模板;针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板。
检索平台12,用于接收服务器11发送的URL链接,基于URL链接进行检索,并向服务器11返回检索结果。
本申请实施例提供的一种问题模板生成方法应用于服务器11。可选的,图2示出了服务器的硬件结构框图,参照图2,服务器的硬件结构可以包括:处理器21,通信接口22,存储器23和通信总线24;
在本发明实施例中,处理器21、通信接口22、存储器23、通信总线24的数量均可以为至少一个,且处理器21、通信接口22、存储器23通过通信总线24完成相互间的通信;
处理器21可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器23可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:
获取多个种子模板,每个种子模板携带有属性信息;
扩展种子模板生成至少一个候选问题模板;
针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;
针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板。
可选的,程序的细化功能和扩展功能可参照下文描述。
下面对本申请实施例提供的一种问题模板生成方法进行详细介绍。如图3所示为本申请实施例提供的一种问题模板生成方法流程图。
如图3所示,该方法包括:
S301、获取多个种子模板,每个种子模板携带有属性信息;
获取多个种子模板,每个种子模板都携带有属性信息,不同的种子模板携带的属性信息可能相同也可能不同。
如,种子模板中可以包括特定字符。举例说明,种子模板可以为“@演的电影”,此时种子模板携带的属性信息可以为“影视明星”;种子模板还可以为“@唱的歌曲”,此时种子模板携带的属性信息可以为“歌星”;其中@为种子模板中的特定字符。
结合图4给出的问题模板生成方法示意图中的part1部分示出了3个种子模板,分别为种子模板1、种子模板2和种子模板3,其中种子模板1携带属性信息1、种子模板2携带属性信息2,种子模板3携带属性信息1。
如,获取多个种子模板可以为获取如图4所示的种子模板1、种子模板2和种子模板3。
S302、扩展种子模板生成至少一个候选问题模板;
针对每个种子模板,确定实体集中具有该种子模板携带的属性信息的各个实体,针对确定的每个实体,将该实体替换该种子模板中的特定字符得到一个种子问题。
比如,若种子模板为“@演过的电影”,种子模板携带的属性信息为“影视明星”时,若实体集中具有“影视明星”这一属性信息的实体有3个,分别为“张三”、“李四”、“王五”,则可以将“张三”这一实体替换“@演过的电影”这一种子模板中的特定字符@,得到一个种子问题“张三演过的电影”;将“李四”这一实体替换“@演过的电影”这一种子模板中的特定字符@,得到一个种子问题“李四演过的电影”;将“王五”这一实体替换“@演过的电影”这一种子模板中的特定字符@,得到一个种子问题“王五演过的电影”;由此,针对于“@演过的电影”这一种子模板生成3个种子问题,这3个种子问题分别为种子问题“张三演过的电影”、种子问题“李四演过的电影”和种子问题“王五演过的电影”。
针对每个种子问题,可以扩展出多个候选问题模板。可选的,针对每个种子问题,可以将该种子问题作为查询条件进行检索,得到检索结果,对检索结果进行解析得到与种子问题相关的至少一个检索问题。
可以是由搜索引擎以种子问题为查询条件进行检索,得到检索结果。检索结果中的与种子问题相关的检索问题可以是搜索引擎在检索结果页面中反馈的与种子问题相似的问题。
通常搜索问题的表述通常比较多样性,表述同一搜索请求的不同搜索问题之间可以认为相似。例如搜索问题“请问张三演过的电影?”、搜索问题“张三演过的电影有哪些”、搜索问题“请问张三演过的电影有哪些”、搜索问题“请问张三2012年演过的电影有哪些”所表征的搜索请求相同,都是请求搜索张三演的电影,因此,这些搜索问题可以认为是相似的。
可选的,搜索问题可以根据实际情况作为种子问题或者检索问题;比如,搜索问题“请问张三演过的电影有哪些”为种子问题时,得到的检索结果中包括的与该种子问题相关的检索问题可以包括搜索问题“请问张三演过的电影?”、搜索问题“张三演过的电影有哪些”、搜索问题“请问张三2012年演过的电影有哪些”。
参见图5为本申请实施例提供的检索结果示意图。如图5所示的检索结果是以种子问题“张三演过的电影”(参见图5中的标注1)为查询条件进行检索得到的检索结果,该检索结果中除了包括种子问题“张三演过的电影”的检索结果,还包括查询条件“张三主演的电视剧”(参见图5中的标注2)的检索结果以及查询条件“张三演过哪些古装电视剧”(参见图5中的标注3)的检索结果;其中,查询条件“张三主演的电视剧”可以看成与种子问题“张三演过的电影”相关的一个检索问题,查询条件“张三演过哪些古装电视剧”可以看成与种子问题“张三演过的电影”相关的一个检索问题。
以一种子问题为例进行说明,将该种子问题为查询条件进行检索得到检索结果,并解析检索结果得到与种子问题相关的各个检索问题后,可以分别对所得到的每个检索问题进行处理,得到与该检索问题对应的候选问题模板。
对检索问题进行处理,得到候选问题模板的方式可以为:采用命名实体识别方法对检索问题中的实体进行识别,以将检索问题中的被识别出的实体替换成特定字符,生成候选问题模板。
比如,若检索问题为“请问张三主演的电视剧谢谢啦”,识别出该检索问题中的实体为“张三”,将该检索问题“请问张三主演的电视剧谢谢啦”中的实体“张三”替换为特定字符,得到候选问题模板。若特定字符为“@”,则得到的候选问题模板为“请问@主演的电视剧谢谢啦”。
进一步的,因为检索问题表述的多样性,本申请实施例提供的一种问题模板生成方法对检索问题进行处理,得到候选问题模板时,还可以进一步包括:对检索问题进行去噪处理,可选的,对检索问题进行去噪处理的过程可以在将特定字符对检索问题中的实体进行替换之后执行,也可以在将特定字符对检索问题中的实体进行替换之前执行。
在本申请实施例中,优选的,对检索问题进行去噪处理包括对检索问题的前缀进行去噪处理,和/或,对检索问题的后缀进行去噪处理。
其中,对检索问题的前缀进行去噪处理可以是指删除检索问题中无意义的前缀,比如,“请问”、“谁知道”、“请回答一下”等都可以认为是无意义的前缀;对检索问题的后缀进行去噪处理可以是指删除检索问题中的无意义的后缀,比如“吗”、“啊”、“谢谢了”等都可以认为是无意义的后缀。
比如,若检索问题为“请问张三主演的电视剧谢谢啦”时,对检索问题进行去噪处理后,得到的结果可以为“张三主要的电视剧”。基于此,若特定字符为“@”,对检索问题“请问张三主演的电视剧谢谢啦”进行去噪处理以及用特定字符对该检索问题中的实体进行替换后,得到的候选问题模板为“@主演的电视剧”。
结合图4给出的问题模板生成方法示意图中的part1部分示出了3个种子模板所生成的种子问题,其中,种子模板1生成了3个种子问题,分别为种子问题1、种子问题2和种子问题3;种子模板2生成了两个种子问题,分别为种子问题4和种子问题5;种子模板3生成了3个种子问题,分别为种子问题6、种子问题7和种子问题8。
进一步的,针对每个种子问题,将该种子问题作为查询条件进行检索得到与该种子问题相关的至少一个检索问题;如图4所示,可以得到:与种子问题1相关的检索问题为检索问题1a和检索问题1b;与种子问题2相关的检索问题2;与种子问题3相关的检索问题3;与种子问题4相关的检索问题4;与种子问题5相关的检索问题5a和检索问题5b;与种子问题6相关的检索问题6;与种子问题7相关的检索问题7;以及与种子问题8相关的检索问题8。
更进一步的,还可以针对每个检索问题,对该检索问题进行去噪处理和由特定字符替换该检索问题中的实体,生成与该检索问题对应的候选问题模板。如图4所示检索问题所指向的候选问题模板便是生成的与该检索问题对应的候选问题模板。
参见图4,生成的与检索问题1a对应的候选问题模板、生成的与检索问题1b对应的候选问题模板、生成的与检索问题2对应的候选问题模板、生成的与检索问题3对应的候选问题模板、生成的与检索问题5a对应的候选问题模板、生成的与检索问题7对应的候选问题模板以及生成的与检索问题8对应的候选问题模板相同,都是候选问题模板1;生成的与检索问题4对应的候选问题模板、生成的与检索问题5b对应的候选问题模板以及生成的与检索问题6对应的候选问题模板相同,都是候选问题模板2。
S303、针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有的属性信息确定为该候选问题模板对应的候选属性信息;
可选的,针对一候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板的方式可以为:确定与该候选问题模板对应的各个检索问题,获取用于生成所确定的各个检索问题的种子问题,确定用于生成所获取的种子问题的种子模板,将所确定的种子模板作为目标种子模板。
参见图4,在图4中的part1部分得到了两个候选问题模板,这两个候选问题模板分别为候选问题模板1和候选问题模板2,对pat1部分进行逆向推导,可知:候选问题模板1对应了种子问题1、种子问题2、种子问题3、种子问题7、种子问题8以及种子问题5;种子问题1、种子问题2和种子问题3对应了种子模板1;种子问题7和种子问题8对应了种子模板3;种子问题5对应了种子模板2,因此用于扩展出候选问题模板1的种子模板分别为种子模板1、种子模板2和种子模板3。候选问题模板2对应了种子问题4、种子问题5和种子问题6;种子问题4和种子问题5对应了种子模板2;种子问题6对应了种子模板3;因此用于扩展出候选问题模板2的种子模板为种子模板2和种子模板3。
为了便于理解参见图4中的part2部分,part2部分示出了候选问题模板1对应的各个种子问题,和,候选问题模板1对应的每个种子问题所对应的种子模板(可称为对应候选问题模板1的各个目标种子模板),以及,候选问题模板2对应的各个种子问题,和候选问题模板2对应的每个种子问题对应的种子模板(可称为对应候选问题模板2的各个目标种子模板)。
进一步的,在确定用于扩展出候选问题模板的目标种子模板后,还可以确定用于扩展出候选问题模板的目标种子模板携带的属性信息,以将确定出的属性信息作为候选问题模板对应的候选属性信息。
参见图4中的part2部分,确定出候选问题模板1对应的目标种子模板为种子模板1、种子模板3和种子模板2后,确定出种子模板1和种子模板3均是携带属性信息1,种子模板2携带属性信息2,因此,候选问题模板1对应的候选属性信息有两个,分别为属性信息1和属性信息2;确定出候选问题模板2对应的目标种子模板为种子模板2和种子模板3后,确定出种子模板2携带属性信息2,种子模板3携带属性信息1,因此,候选问题模板2对应的候选属性信息有两个,分别为属性信息1和属性信息2。
S304、针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;
确定出候选问题模板对应的候选属性信息后,可以针对该候选问题模板对应的每种候选属性信息,确定该候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映该候选问题模板具有该候选属性信息的可能性。
参见图4,确定出候选问题模板1对应的候选属性信息为属性信息1和属性信息2;候选问题模板2对应的候选属性信息为属性信息1和属性信息2后,可以针对候选问题模板1而言,计算候选问题模板1与携带属性信息1的至少一个种子模板的相似度,以及,候选问题模板1与携带属性信息2的至少一个种子模板的相似度;针对候选问题模板2而言,计算候选问题模板2与携带属性信息1的至少一个种子模板的相似度,以及候选问题模板2与携带属性信息2的至少一个种子模板的相似度;其中,携带属性信息1的至少一个种子模板包括种子模板1和种子模板3;携带属性信息2的至少一个种子模板包括种子模板2。
图6为本申请实施例提供的一种候选问题模板与携带属性信息的至少一个种子模板的相似度的计算示意图。可选的,图6是在图4的基础上提供的,在图4中确定了候选问题模板1对应的候选属性信息为属性信息1和属性信息2,候选问题模板2对应的候选属性信息为属性信息1和属性信息2,且携带属性信息1的种子模板包括种子模板1和种子模板3,携带属性信息2的种子模板包括种子模板2;因此,参见图6,计算候选问题模板1与携带属性信息1的种子模板1和种子模板3的相似度;计算候选问题模板1与携带属性信息2的种子模板2的相似度;计算计算候选问题模板2与携带属性信息1的种子模板1和种子模板3的相似度;计算候选问题模板2与携带属性信息2的种子模板2的相似度;其中,针对图6中每一个候选问题模板通过箭头指向属性信息的情况,说明需要计算该候选问题模板与该属性中包括的各个种子模板的相似度。
S305、针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板。
如,针对每个候选问题模板,该候选问题模板对应有多个候选属性信息,确定该候选问题模板分别具有与其对应的每个候选属性的可能性,基于所确定的各个可能性,从候选问题模板对应的各个候选属性信息中选取一个候选属性信息作为该候选问题模板的属性信息,以生成问题模板。
结合图4举例说明,候选问题模板1对应的候选属性信息分别为属性信息1和属性信息2,依据候选问题模板1具有属性信息1的可能性以及候选问题模板1具有属性信息2的可能性,从候选问题模板1对应的属性信息1和属性信息2中选取一个属性信息作为候选问题模板1的属性信息,以生成问题模板。
为了便于理解,现提供另一种问题模板生成方法流程图,具体请参见图7。
如图7所示,该方法包括:
S701、获取种子模板集中的各种子模板,每个种子模板携带有属性信息;
S702、扩展种子模板生成至少一个候选问题模板;
S703、针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
S704、针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;
S705、针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板;
S706、将问题模板作为种子模板存储至种子模板集;并返回执行步骤S701。
本申请实施例通过将历史生成的问题模板作为种子模板,以用于后续对新的问题模板的生成,使得本申请实施例中的种子模板的数量得到不断的扩充,这样,后续执行一次问题模板生成过程,所生成的问题模板的数量会越来越多;并且,因为种子模板的数量增多,会使得计算出的候选问题模板与携带属性信息的种子模板的相似度更加准确,这样,可以进一步提高生成的问题模板的准确性。
为了便于本领域技术人员对本申请实施例提供的一种问题模板生成方法的理解,现对本申请实施例提供的一种问题模板生成方法中的确定候选问题模板与携带候选属性信息的至少一个种子模板的相似度的方式进行详细说明。
确定候选问题模板与携带候选属性信息的至少一个种子模板的相似度可以为:在设定的多个维度上,分别确定候选问题模板与携带该候选属性信息的至少一个种子模板在多个维度上的相似度。
如,可以设置多个不同的维度,针对每个维度而言,确定候选问题模板与携带该候选属性信息的至少一个种子模板在这一维度上的相似度。
其中,确定候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度的方式可以为:计算候选问题模板分别与每个携带该候选属性信息的种子模板的编辑距离;选取各个编辑距离中的最大编辑距离,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。为了便于描述,暂将该相似度称为候选问题模板与携带该候选属性信息的至少一个种子模板的编辑距离。
确定候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度的方式可以为:对携带该候选属性信息的各个种子模板的文本进行拼接,得到拼接文本;将候选问题模板的文本与拼接文本的词频-逆文件频率TF-IDF(term frequency–inverse document frequency,词频-逆文件频率)相似度,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。为了便于描述,暂将该相似度称为候选问题模板与携带该候选属性信息的至少一个种子模板的TF-IDF相似度。
确定候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度的方式可以为计算候选问题模板分别与每个携带该候选属性信息的种子模板的余弦相似度;选取各个余弦相似度中的最大余弦相似度,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。为了便于描述,暂将该相似度称为候选问题模板与携带该候选属性信息的至少一个种子模板的余弦相似度。
确定候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度的方式可以为:确定由携带该候选属性信息的种子模板扩展出的该候选问题模板的第一数量;计算携带该候选属性信息的种子模板扩展出的所有的候选问题模板的第二数量;以及确定第一数量占据第二数量的比例;将第一数量和比例作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。为了便于描述,暂将该相似度称为候选问题模板与携带该候选属性信息的至少一个种子模板的统计相似度。
可选的,确定候选问模板与携带候选属性信息的至少一个种子模板的相似度可以包括:确定候选问题模板与携带候选属性信息的至少一个种子模板的编辑距离、候选问题模板与携带候选属性信息的至少一个种子模板的TF-IDF相似度、候选问题模板与携带候选属性信息的至少一个种子模板的余弦相似度、候选问题模板与携带候选属性信息的至少一个种子模板的统计相似度中的一个或多个。
以上仅仅是本申请实施例提供的确定候选问题模板与携带候选属性信息的至少一个种子模板的相似度的优选方式,有关该方式的具体执行方式发明人可以根据自己的需求任意设置,在此不做限定。
可选的,候选问题模板与携带该候选属性信息的至少一个种子模板在每个维度上的相似度均通过特征值表征。如,上述实施例提到的候选问题模板与携带该候选属性信息的至少一个种子模板的编辑距离通过特征值(该特征值为编辑距离)表示;候选问题模板与携带该候选属性信息的至少一个种子模板的余弦相似度通过特征值(该特征值可以为余弦相似度)表示;候选问题模板与携带该候选属性信息的至少一个种子模板的TF-IDF相似度通过特征值(该特征值可以为TF-IDF相似度)表示;候选问题模板与携带该候选属性信息的至少一个种子模板的统计相似度通过特征值(该特征值可以为第一数量和比例)表示。
基于本申请上述实施例提供的一种确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度的方式,本申请实施例进一步提供一种依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息的方法,请参见图8。
如图8所示,该方法包括:
S801、将候选问题模板与不同候选属性信息在每个维度上的特征值输入至随机森林预测模型,得到候选问题模板属于每种候选属性信息的概率;随机森林预测模型是基于携带有属性信息的种子模板对随机森林分类器进行训练得到的;
如,针对一候选问题模板而言,确定该候选问题模板对应的各个候选属性信息,将候选问题模板与不同候选属性信息在每个维度上的特征值输入值随机森林预测模型,得到随机森林预测模型的输出结果,随机森林预测模型的输出结果包括该候选问题模板分别属于与其对应的每种候选属性信息的概率。
比如,若设定两个不同的维度,分别为维度1和维度2;针对候选问题模板1,与候选问题模板1对应的候选属性信息分别为属性信息1和属性信息2,确定候选问题模板1与携带属性信息1的至少一个种子模板在维度1上的特征值1和在维度2上的特征值2,确定候选问题模板1与携带属性2的至少一个种子模板在维度1上的特征值3和在维度2上的特征值4,将特征值1、特征值2、特征值3和特征值4输入至随机森林预测模型,得到候选问题模板1属于属性信息1的概率以及候选问题模板1属于属性信息2的概率。
其中,将特征值输入随机森林预测模型的方式是将特征值转换为随机森林预测模型可以识别处理的格式后,输入至随机森林预测模型。
S802、将概率最大的候选属性信息作为候选问题模板的属性信息,以生成问题模板。
可选的,从步骤S801中得到的候选问题模板分别属于与其对应的每种候选属性信息的概率中,选取概率最大的候选属性信息作为该候选问题模板的属性信息,以生成问题模板。
举例说明,将上述特征值1、特征值2、特征值3和特征值4输入至随机森林预测模型,得到候选问题模板1属于属性信息1的概率为30%,候选问题模板1属于属性信息2的概率为70%,则可以将属性信息2作为该候选问题模板的属性信息,以生成问题模板。
在本申请实施例中,优选的,相同的属性信息可以认为是同一种属性信息,不同的属性信息可以认为是不同种类的属性信息。
在本申请实施例中,优选的,在未生成问题模板之前,可以基于已有的各个携带有属性信息的种子模板对随机森林分类器进行训练,以生成随机森林预测模型。为了进一步提高本申请实施例提供的一种问题模板生成方法生成的问题模板的准确性,可以在生成问题模板后,根据已生成的问题模板对随机森林预测模型进行进一步的训练,以对该随机森林预测模型进行优化,以使得随机森林预测模型的输出结果更加准确。
为了便于对本申请实施例提供的一种问题模板生成方法的详细理解,现对本申请实施例提供的一种问题模板生成方法中的扩展种子模板生成至少一个候选问题模板的方法进行详细介绍。
本申请实施例提供如图9所示的一种扩展种子模板生成至少一个候选问题模板的方法流程图,基于如图9所示的流程图,可以便于用户更加清楚的了解扩展种子模板生成至少一个候选问题模板的逻辑过程。
如图9所示,该方法包括:
S901、生成与种子模板相关的至少一个种子问题;
S902、将种子问题作为查询条件进行检索,并从检索结果中提取与种子问题相关的至少一个检索问题;
S903、将检索问题中的实体替换为特定字符,生成候选问题模板。
可选的,有关步骤S901-S903的具体执行方式请参见上述实施例的详细描述,在此不做赘述。
进一步的,本申请实施例提供的一种扩展种子模板生成至少一个候选问题模板的方法中还可以包括:对检索问题进行去噪处理,去噪处理用于指示对检索问题的前缀进行去噪处理,和/或,对检索问题的后缀进行去噪处理;相应的,步骤S903具体为将进行去噪处理后的检索问题中的实体替换为特定字符,生成候选问题模板。
需要说明的是:本申请实施例并不对“对检索问题进行去噪处理”过程和“用特定字符替换检索问题中的实体”过程的执行顺序进行限定,可以是先将检索问题中的实体替换为特定字符后,在对实体被特定字符替换后的检索问题进行去噪处理,生成候选问题模板;也可以用特定字符对检索问题中的实体进行替换后,在对进行实体替换后的检索问题进行去噪处理。
在本申请实施例中,为了提高得到检索问题的效率,可以采用如下方式实现将种子问题作为查询条件进行检索,得到与种子问题相关的至少一个检索问题的目的。
结合图1和图10(图10为本申请实施例提供的一种将种子问题作为查询条件进行检索,得到与种子问题相关的至少一个检索问题的方法流程图)可知,本申请实施例提供的一种将种子问题作为查询条件进行检索,得到与种子问题相关的至少一个检索问题的方法,包括:
S1001、生成与种子问题对应的用于将种子问题作为查询条件的URL链接;
在本申请实施例中,优选的,上述实施例提到的如图2所示的问题模板生成方法所应用于的服务器可以生成与种子问题对应的用于将种子问题作为查询条件的URL链接;相应的,本申请实施例提供的一种问题模板生成方法所应用于的服务器在生成URL链接后,可以向检索平台发送该URL链接。
S1002、将URL链接发送至检索平台,以及接收检索平台返回的基于URL链接进行检索返回的检索结果;
S1003、解析检索结果,得到检索结果中与种子问题相关的至少一个检索问题。
本申请实施例中服务器通过生成用于将种子问题作为查询条件的URL链接,并将URL链接发送至检索平台,以从检索平台获取检索结果的方式,不仅能减轻服务器自身的资源占用率,而且还能基于URL链接从检索平台直接抓取大量的检索结果,有效提高了本申请实施例提供的将种子问题作为查询条件进行检索,得到与种子问题相关的至少一个检索问题的效率,进而提高了本申请实施例提供的一种问题模板生成方法的效率。
本申请实施例提供一种问题模板生成方法及服务器,可以在不需利用检索问答对中的检索结果以及不需在三元组中逐一匹配检索问答对中的检索问题和检索条件的基础上,实现问题模板的生成;因此,相对于回标法而言,本发明有效提高了问题模板生成效率、提高了问题模板生成准确性。
下面对本发明实施例提供的问题模板生成装置进行介绍,下文描述的问题模板生成装置可认为是,服务器为实现本发明实施例提供的问题模板生成方法,所需设置的程序模块。下文描述的问题模板生成装置内容,可与上文描述的问题模板生成方法内容相互对应参照。
图11为本申请实施例提供的一种问题模板生成装置的结构示意图。
如图11所示,该装置包括:
种子模板获取单元111,用于获取多个种子模板,每个种子模板携带有属性信息;
候选问题模板扩展单元112,用于扩展种子模板生成至少一个候选问题模板;
目标属性信息确定单元113,用于针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
相似度确定单元114,用于针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;
问题模板生成单元115,用于针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板。
可选的,相似度确定单元,具体用于:在设定的多个维度上,分别确定候选问题模板与携带该候选属性信息的至少一个种子模板在多个维度上的相似度。
可选的,候选问题模板与携带该候选属性信息的至少一个种子模板在每个维度上的相似度均通过特征值表征;问题模板生成单元,包括:
模型预测单元,用于将候选问题模板与不同候选属性信息在每个维度上的特征值输入至随机森林预测模型,得到候选问题模板属于每种候选属性信息的概率;随机森林预测模型是基于携带有属性信息的种子模板对随机森林分类器进行训练得到的;
问题模板生成子单元,用于将概率最大的候选属性信息作为候选问题模板的属性信息,以生成问题模板。
可选的,候选问题模板扩展单元,包括:
种子问题生成单元,用于生成与种子模板相关的至少一个种子问题;
检索问题生成单元,用于将种子问题作为查询条件进行检索,并从检索结果中提取与种子问题相关的至少一个检索问题;
候选问题模板扩展子单元,用于将检索问题中的实体替换为特定字符,生成候选问题模板。
进一步的,本申请实施例提供的一种候选问题模板扩展单元还包括去噪单元,用于对检索问题进行去噪处理,去噪处理用于指示对检索问题的前缀进行去噪处理,和/或,对检索问题的后缀进行去噪处理。
相应的,候选问题模板扩展子单元,具体用于将进行去噪处理后的检索问题中的实体替换为特定字符,生成候选问题模板。
可选的,检索问题生成单元,包括:
URL链接生成单元,用于生成与种子问题对应的用于将种子问题作为查询条件的URL链接;
检索结果获取单元,用于将URL链接发送至检索平台,以及接收检索平台返回的基于URL链接进行检索返回的检索结果;
检索问题生成子单元,用于解析检索结果,从解析后的检索结果中提取与种子问题相关的至少一个检索问题。
可选的,相似度确定单元,具体用于计算候选问题模板分别与每个携带该候选属性信息的种子模板的编辑距离;选取各个编辑距离中的最大编辑距离,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
可选的,相似度确定单元,具体用于对携带该候选属性信息的各个种子模板的文本进行拼接,得到拼接文本;将候选问题模板的文本与拼接文本的词频-逆文件频率TF-IDF相似度,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
可选的,相似度确定单元,具体用于计算候选问题模板分别与每个携带该候选属性信息的种子模板的余弦相似度;选取各个余弦相似度中的最大余弦相似度,作为候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
进一步的,本申请实施例提供的一种问题模板生成装置还包括返回单元,用于将问题模板作为种子模板,返回执行“扩展种子模板生成至少一个候选问题模板”过程。
进一步的,本发明实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,程序用于:
获取多个种子模板,每个种子模板携带有属性信息;
扩展种子模板生成至少一个候选问题模板;
针对每个候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个候选问题模板对应的每种候选属性信息,确定候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,相似度用于反映候选问题模板具有该候选属性信息的可能性;
针对每个候选问题模板,依据候选问题模板分别具有不同候选属性信息的可能性,从候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为候选问题模板的属性信息,以生成问题模板。
可选的,程序的细化功能和扩展功能可参照上文描述。
本申请实施例提供一种问题模板生成方法、装置、服务器及存储介质,用户只需预先设置一些携带属性信息的种子模板,本发明便可通过将种子模板扩展成多个候选问题模板;针对每个候选问题模板,将用于扩展成该候选问题模板的各种子模板携带的所有的属性信息,确定为与该候选问题模板对应的候选属性信息,进而基于该候选问题模板具有与其对应的每个候选属性信息的可能性,从该候选问题模板对应的各候选属性信息中选取一个候选属性信息,作为该候选问题模板的属性信息,以生成问题模板的方式,自动生成问题模板。并且,因为每个种子模板都可以被扩展成多个用于生成问题模板的候选问题模板,因此基于种子模板自动生成的问题模板的数量也是可观的。相对于传统的由人工配置每一个问题模板的方式而言,不仅可以节约人工成本、而且还可以提高问题模板生成效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种问题模板生成方法,其特征在于,包括:
获取多个种子模板,每个所述种子模板携带有属性信息;
扩展所述种子模板生成至少一个候选问题模板;
针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
2.根据权利要求1所述的方法,其特征在于,所述确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,包括:
在设定的多个维度上,分别确定所述候选问题模板与携带该候选属性信息的至少一个种子模板在所述多个维度上的相似度。
3.根据权利要求2所述的方法,其特征在于,所述候选问题模板与携带该候选属性信息的至少一个种子模板在每个维度上的相似度均通过特征值表征;
所述依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,包括:
将所述候选问题模板与不同候选属性信息在每个维度上的特征值输入至随机森林预测模型,得到所述候选问题模板属于每种所述候选属性信息的概率;所述随机森林预测模型是基于携带有属性信息的种子模板对随机森林分类器进行训练得到的;
将概率最大的候选属性信息作为所述候选问题模板的属性信息。
4.根据权利要求1所述的方法,其特征在于,所述扩展所述种子模板生成至少一个候选问题模板,包括:
生成与所述种子模板相关的至少一个种子问题;
将所述种子问题作为查询条件进行检索,并从检索结果中提取与所述种子问题相关的至少一个检索问题;
将所述检索问题中的实体替换为特定字符,生成候选问题模板。
5.根据权利要求4所述的方法,其特征在于,还包括:对所述检索问题进行去噪处理,所述去噪处理用于指示对检索问题的前缀进行去噪处理,和/或,对检索问题的后缀进行去噪处理;
所述将所述检索问题中的实体替换为特定字符,生成候选问题模板,包括:将进行去噪处理后的所述检索问题中的实体替换为特定字符,生成候选问题模板。
6.根据权利要求4所述的方法,其特征在于,所述将所述种子问题作为查询条件进行检索,并从检索结果中提取与所述种子问题相关的至少一个检索问题,包括:
生成与所述种子问题对应的用于将所述种子问题作为查询条件的URL链接;
将所述URL链接发送至检索平台,以及接收所述检索平台返回的基于所述URL链接进行检索返回的检索结果;
解析所述检索结果,从解析后的所述检索结果中提取与所述种子问题相关的至少一个检索问题。
7.根据权利要求2所述的方法,其特征在于,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度,包括:
计算所述候选问题模板分别与每个携带该候选属性信息的种子模板的编辑距离;
选取各个所述编辑距离中的最大编辑距离,作为所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
8.根据权利要求2所述的方法,其特征在于,所述确定所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度,包括:
对携带该候选属性信息的各个种子模板的文本进行拼接,得到拼接文本;
将所述候选问题模板的文本与所述拼接文本的词频-逆文件频率TF-IDF相似度,作为所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
9.根据权利要求2所述的方法,其特征在于,所述确定所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度,包括:
计算所述候选问题模板分别与每个携带该候选属性信息的种子模板的余弦相似度;
选取各个所述余弦相似度中的最大余弦相似度,作为所述候选问题模板与携带该候选属性信息的至少一个种子模板在一个维度上的相似度。
10.根据权利要求1所述的方法,其特征在于,还包括:
将所述问题模板作为种子模板,返回执行“扩展所述种子模板生成至少一个候选问题模板”过程。
11.一种问题模板生成装置,其特征在于,包括:
种子模板获取单元,用于获取多个种子模板,每个所述种子模板携带有属性信息;
候选问题模板扩展单元,用于扩展所述种子模板生成至少一个候选问题模板;
目标属性信息确定单元,用于针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
相似度确定单元,用于针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
问题模板生成单元,用于针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
12.根据权利要求11所述的装置,其特征在于,所述相似度确定单元,具体用于:在设定的多个维度上,分别确定所述候选问题模板与携带该候选属性信息的至少一个种子模板在所述多个维度上的相似度。
13.根据权利要求12所述的装置,其特征在于,所述候选问题模板与携带该候选属性信息的至少一个种子模板在每个维度上的相似度均通过特征值表征;所述问题模板生成单元,包括:
模型预测单元,用于将所述候选问题模板与不同候选属性信息在每个维度上的特征值输入至随机森林预测模型,得到所述候选问题模板属于每种所述候选属性信息的概率;所述随机森林预测模型是基于携带有属性信息的种子模板对随机森林分类器进行训练得到的;
问题模板生成子单元,用于将概率最大的候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
14.一种服务器,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取多个种子模板,每个所述种子模板携带有属性信息;
扩展所述种子模板生成至少一个候选问题模板;
针对每个所述候选问题模板,确定扩展出该候选问题模板的至少一个目标种子模板,并将至少一个目标种子模板携带的所有属性信息确定为该候选问题模板对应的候选属性信息;
针对每个所述候选问题模板对应的每种候选属性信息,确定所述候选问题模板与携带该候选属性信息的至少一个种子模板的相似度,所述相似度用于反映所述候选问题模板具有该候选属性信息的可能性;
针对每个所述候选问题模板,依据所述候选问题模板分别具有不同候选属性信息的可能性,从所述候选问题模板对应的各候选属性信息中,选取一个候选属性信息作为所述候选问题模板的属性信息,以生成问题模板。
15.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至10任一项所述的问题模板生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810890730.1A CN110209780B (zh) | 2018-08-07 | 2018-08-07 | 一种问题模板生成方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810890730.1A CN110209780B (zh) | 2018-08-07 | 2018-08-07 | 一种问题模板生成方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209780A true CN110209780A (zh) | 2019-09-06 |
CN110209780B CN110209780B (zh) | 2023-03-10 |
Family
ID=67779879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810890730.1A Active CN110209780B (zh) | 2018-08-07 | 2018-08-07 | 一种问题模板生成方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209780B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324715A (zh) * | 2020-02-18 | 2020-06-23 | 北京百度网讯科技有限公司 | 问答机器人的生成方法和装置 |
CN113064982A (zh) * | 2021-04-14 | 2021-07-02 | 北京云迹科技有限公司 | 一种问答库生成方法及相关设备 |
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
WO2023134087A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 问诊模板生成方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299139A1 (en) * | 2009-04-23 | 2010-11-25 | International Business Machines Corporation | Method for processing natural language questions and apparatus thereof |
CN103136221A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种生成需求模板的方法、需求识别的方法及其装置 |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
-
2018
- 2018-08-07 CN CN201810890730.1A patent/CN110209780B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100299139A1 (en) * | 2009-04-23 | 2010-11-25 | International Business Machines Corporation | Method for processing natural language questions and apparatus thereof |
CN103136221A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种生成需求模板的方法、需求识别的方法及其装置 |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324715A (zh) * | 2020-02-18 | 2020-06-23 | 北京百度网讯科技有限公司 | 问答机器人的生成方法和装置 |
CN113064982A (zh) * | 2021-04-14 | 2021-07-02 | 北京云迹科技有限公司 | 一种问答库生成方法及相关设备 |
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
WO2023134087A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 问诊模板生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110209780B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725836B2 (en) | Intent-based organisation of APIs | |
JP6515624B2 (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
JP3648051B2 (ja) | 関連情報検索装置及びプログラム記録媒体 | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
WO2019169858A1 (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
US20120290621A1 (en) | Generating a playlist | |
CN107391500A (zh) | 文本翻译方法、装置及设备 | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
CN110147544B (zh) | 一种基于自然语言的指令生成方法、装置以及相关设备 | |
CN110209780A (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN109564573A (zh) | 来自计算机应用元数据的平台支持集群 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN103646049B (zh) | 自动生成数据报表的方法及系统 | |
CN103744889B (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN113343012B (zh) | 一种新闻配图方法、装置、设备及存储介质 | |
CN111400473A (zh) | 意图识别模型的训练方法及装置、存储介质及电子设备 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN112970011A (zh) | 记录查询优化中的谱系 | |
CN114846459A (zh) | 用于智能且可扩展的模式匹配框架的方法和装置 | |
US11755633B2 (en) | Entity search system | |
CN110716994B (zh) | 一种支持异构地理数据资源检索的检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |