CN107491534A - 信息处理方法和装置 - Google Patents
信息处理方法和装置 Download PDFInfo
- Publication number
- CN107491534A CN107491534A CN201710722781.9A CN201710722781A CN107491534A CN 107491534 A CN107491534 A CN 107491534A CN 201710722781 A CN201710722781 A CN 201710722781A CN 107491534 A CN107491534 A CN 107491534A
- Authority
- CN
- China
- Prior art keywords
- syntax tree
- node
- word
- search
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 125
- 230000004044 response Effects 0.000 claims description 30
- 235000013399 edible fruits Nutrition 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000005094 fruit set Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 90
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012517 data analytics Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:获取与用户输入的搜索语句相关的搜索结果集合;对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。该实施方式可以提高搜索结果与搜索语句的匹配度,从而更加满足用户需求。
Description
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息处理方法和装置。
背景技术
随着互联网的快速发展,网络上的信息资源不断丰富,信息数据量也在飞速增长。在当今社会,通过搜索引擎来查找所需信息已成为现代人的主要信息获取方式。因此,搜索引擎在当今的主要发展方向是提升搜索的相关性,为用户提供更加便捷而有效的查询服务。
发明内容
本申请实施例的目的在于提出一种改进的信息处理方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种信息生成处理方法,该方法包括:获取与用户输入的搜索语句相关的搜索结果集合;对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。
在一些实施例中,基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,包括:生成位于第一句法树的各叶子节点的词的目标词向量;基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征;对于第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。
在一些实施例中,基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征,包括:对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行步骤。
在一些实施例中,第一句法树中的各节点包含语义标签,其中,语义标签用于表征各词之间的语义关系;确定子节点是否为根节点,包括:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。
在一些实施例中,方法还包括生成语义匹配模型的步骤,生成语义匹配模型的步骤包括:基于递归神经网络建立训练模型;获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合,其中,样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;对样本搜索语句和样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;基于第三句法树和第四句法树集合,对训练模型进行训练,得到语义匹配模型。
在一些实施例中,基于第三句法树和第四句法树集合,对训练模型进行训练,包括:生成位于第三句法树的各叶子节点的词的初始词向量,并生成位于第四句法树集合中各第四句法树的叶子节点的词的初始词向量;执行如下训练步骤:基于训练模型中的初始模型函数、第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;响应于确定差值不满足预设条件,更新训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行训练步骤。
在一些实施例中,更新训练模型中的初始模型函数和各词的初始词向量,包括:基于反传算法BPTS,更新训练模型中的初始模型函数和各词的初始词向量。
在一些实施例中,获取与用户输入的搜索语句相关的搜索结果集合之前,方法还包括:接收用户输入的搜索语音;对搜索语音进行识别,生成搜索语句。
第二方面,本申请实施例提供了一种信息处理装置,该装置包括:获取单元,配置用于获取与用户输入的搜索语句相关的搜索结果集合;分析单元,配置用于对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;计算单元,配置用于基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;推送单元,配置用于基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。
在一些实施例中,计算单元包括:第一生成子单元,配置用于生成位于第一句法树的各叶子节点的词的目标词向量;第二生成子单元,配置用于基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征;第三生成子单元,配置用于对于第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算子单元,配置用于计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。
在一些实施例中,第二生成子单元进一步配置用于:对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行上述步骤。
在一些实施例中,第一句法树中的各节点包含语义标签,其中,语义标签用于表征各词之间的语义关系;第二生成子单元还配置用于:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。
在一些实施例中,装置还包括生成语义匹配模型的生成单元,生成单元包括:建立子单元,配置用于基于递归神经网络建立训练模型;获取子单元,配置用于获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合,其中,样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;分析子单元,配置用于对样本搜索语句和样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;训练子单元,配置用于基于第三句法树和第四句法树集合,对训练模型进行训练,得到语义匹配模型。
在一些实施例中,训练子单元进一步配置用于:生成位于第三句法树的各叶子节点的词的初始词向量,并生成位于第四句法树集合中各第四句法树的叶子节点的词的初始词向量;执行如下训练步骤:基于训练模型中的初始模型函数、第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;响应于确定差值不满足预设条件,更新训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行训练步骤。
在一些实施例中,训练子单元还配置用于:基于反传算法BPTS,更新训练模型中的初始模型函数和各词的初始词向量。
在一些实施例中,装置还包括:接收单元,配置用于接收用户输入的搜索语音;识别单元,配置用于对搜索语音进行识别,生成搜索语句。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述信息生成方法中任一实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序。该计算机程序被处理器执行时实现如上述信息生成方法中任一实施例的方法。
本申请实施例提供的信息处理方法和装置,通过获取与用户输入的搜索语句相关的搜索结果集合,并对搜索语句和搜索结果集合中的各搜索结果进行句法分析,从而可以分别得到第一句法树和第二句法树集合;然后基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与各搜索结果的相似度,从而可以确定各搜索结果与搜索语句的匹配度;接着基于各搜索结果与搜索语句之间的相似度,对搜索结果集合中的各搜索结果进行排序;最后将排序后的搜索结果集合推送给用户,从而可以提高搜索结果与用户需求的匹配度,进而提高用户的搜索体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息处理方法的一个实施例的流程图;
图3是根据本申请的信息处理方法得到的句法树的一个实施例的结构示意图;
图4是本申请中生成语义匹配模型步骤的一个实施例的流程图;
图5是根据本申请的信息处理方法的一个应用场景的示意图;
图6是根据本申请的信息处理装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息处理方法或信息处理装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104、数据库服务器105和服务器106。网络104用以在终端设备101、102、103和数据库服务器105、服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与数据库服务器105、服务器106进行交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用等。
终端设备101、102、103可以是具有显示屏并且支持网页搜索与浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
数据库服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的搜索网页提供支持的数据库服务器。
服务器106也可以是提供各种服务的服务器,例如对终端设备101、102、103输入的搜索语句进行分析的数据分析服务器。数据分析服务器可以从数据库服务器105获取与搜索语句相关的搜索结果集合,并对搜索语句和搜索结果集合进行分析等处理,并将处理结果(例如排序后的搜索结果集合)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息处理方法一般由服务器106执行,相应地,信息处理装置一般设置于服务器106中。
需要指出的是,当服务器106具有数据库服务器105的功能时,系统架构100可以不设置数据库服务器105。
应该理解,图1中的终端设备、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、数据库服务器和服务器。
继续参考图2,示出了根据本申请的信息处理方法的一个实施例的流程200。该的信息处理方法,可以包括以下步骤:
步骤201,获取与用户输入的搜索语句相关的搜索结果集合。
在本实施例中,信息处理方法运行于其上的电子设备(例如图1所示的服务器106)可以通过有线连接方式或者无线连接方式,从对用户输入的搜索语句进行处理的数据库服务器(例如图1所示的数据库服务器105)获取与搜索语句相关的搜索结果集合。在这里,数据库服务器可以先接收用户使用终端(例如图1所示的终端设备101、102、103)输入的搜索语句;然后数据库服务器查找与搜索语句相关的搜索结果集合,并发送给用户所使用的终端;接着电子设备可以对数据库服务器发送的搜索结果集合进行拦截,从而获取到上述搜索结果集合。作为示例,电子设备可以接收用户使用终端发送的搜索语句;然后将搜索语句发送至数据库服务器,从而获取与搜索语句相关的搜索结果集合。
在本实施例中,电子设备也可以在接收到搜索语句后,先在本地查找是否存在与搜索语句相关的搜索结果集合。当本地不存在与搜索语句相关的搜索结果集合时,电子设备可以继续从与其通信连接的数据库服务器获取与搜索语句相关的搜索结果集合。
可以理解的是,用户可以在终端上所显示的浏览器网页的输入框中输入搜索语句。这里的搜索语句可以是一个词,也可以是句法上有关连的一组词序列。而且搜索语句中可以包含各种字符,如文字、数字、符号、字母或外文单词等。这里的搜索结果可以是与搜索语句相关的各种搜索结果,如网页、图片、视频、新闻等等。搜索结果通常可以包含URL(Uniform Resource Locator,统一资源定位符)和对搜索结果内容进行描述的文本信息。这里的文本信息可以包含标题和/或摘要。
需要指出的是,用户在终端上可以采用各种方式来输入搜索语句,例如通过终端提供的输入法,或者通过复制粘贴的方式。在本实施例的一些可选地实现方式中,用户还可以通过语音输入方式。此时,电子设备可以接收用户输入的搜索语音。然后利用现有的语音识别技术对搜索语音进行识别,进而生成与搜索语音相对应的文字形式的搜索语句。
步骤202,对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合。
在本实施例中,电子设备可以对获取到的搜索语句和与该搜索语句相关的搜索结果集合中的各搜索结果进行句法分析,从而分别生成搜索语句的第一句法树和搜索结果集合的第二句法树集合。第二句法树集合中的各第二句法树与各搜索结果一一对应。
在本实施例中,句法分析(Parsing)通常是指对句子中的词语语法功能进行分析。在这里,句法分析的作用是分析出搜索语句和搜索结果中的文本信息的结构关系,例如对输入的搜索语句进行切词和分析,从而得出各词之间的结构关系。根据这些结构关系,电子设备可以将切词得到的词序列中的各词依次存储在树形结构的叶子节点。然后根据各词之间的结构关系,生成树形结构各层中的节点直至根节点。此时的树形结构即为与该词序列对应的句法树。也就是说,句法树是一种表征一组词序列中各词之间的结构关系的树形结构。
作为示例,电子设备可以对搜索语句“笔记本电脑qq音乐缓存”进行句法分析,并生成与该搜索语句对应的句法树。如图3所示,对该搜索语句进行切词后得到的词序列为“笔记本电脑qq音乐缓存”。在与该搜索语句对应的句法树中,词序列中的各词位于句法树的叶子节点。且根据句法分析得到的结构关系,句法树的各叶子节点中还可以包含词性标签,用于描述词的词性。如图3中的“NN”表示名词。各子节点中也可以包含语义标签,用于描述词与词之间的语义关系。如图3中的“NP”表示名词短语。对于根节点“ROOT”的语义标签“IP”则表示完整语句。可以理解的是,句法分析是常用的分析方法,而且现有技术中句法分析技术已比较成熟,在此不再赘述。
步骤203,基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度。
在本实施例中,电子设备可以根据步骤202得到的第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度。其中,语义匹配模型可以用于确定句法树之间的相似度。
在本实施例中,电子设备中可以存储有多个预先训练的语义匹配模型。所存储的每一个语义匹配模型与一个搜索类型相对应。这里的搜索类型可以包括网页类、视频类或图片类。电子设备可以先根据搜索结果的内容,将搜索结果集合中的各搜索结果划分为不同的搜索类型;然后将第一句法树和各第二句法树输入到预先训练的、与搜索结果的搜索类型相对应的语义匹配模型中,得到搜索语句与各搜索结果的相似度。作为示例,语义匹配模型可以是用于表征句法树的相似度的计算公式。这个计算公式可以是技术人员通过对大量的句法树中的节点进行相似度计算而得到的。这些大量的句法树可以是来自搜索引擎中的搜索语句的句法树和与搜索语句相关、被查阅的搜索结果的句法树。例如该计算公式可以是对语义标签相同的节点的相似度进行加权求和,得到句法树相似度并进行归一化处理,归一化处理后的句法树相似度作为语义匹配模型的计算结果。在语义匹配的过程中,不仅使用到了词本身,还用到了句法分析中的语义标签等信息,从而可以考虑到词之间的层次化信息和紧密程度,这样有助于提高语义匹配的准确度。
在本实施例的一些可选地实现方式中,电子设备可以通过以下步骤来计算搜索语句与各搜索结果的相似度:
首先,电子设备可以生成位于第一句法树的各叶子节点的词的目标词向量。需要指出的是,在神经网络语言模型中,通常利用词向量(word embedding)来表示一个词。也就是说,用一个向量来描述一个词,这样一定程度上可以用来刻画词之间的语义距离。此时,由于电子设备已生成第一句法树,所以可以确定位于该第一句法树的各叶子节点的词,从而可以生成各词的词向量。需要说明的是,词向量为神经网络语言模型的一类参数,随着对模型的不断训练优化,其中的词向量也在不断的被优化。这里的目标词向量是指最终被优化完成的词向量。
然后,电子设备基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征。需要指出的是,在神经网络语言模型中,通常采用自底向上(从叶子节点向根节点)的方式,根据词向量和模型函数来获得整句话的语义向量。这里的模型函数可以用于表征子节点与父节点之间的结构关系。作为示例,若模型函数为W,且图3中位于叶子节点的笔记本和电脑的词向量分别为S1和S2,则这两个叶子节点对应的子节点的语义向量S1,2为:S1,2=tanh(W[S1;S2])。其中,S1和S2分别是n维向量,n为正整数。这里的tanh仅是非线性变换形式中的一种,也可以替换为其他非线性变换形式。需要说明的是,随着对模型的不断训练优化,其中的模型函数也在不断的被优化。而且对于各节点间的不同语义标签,模型可以学习得到不同的模型函数。这里的目标模型函数是指最终被优化完成的模型函数。根据上述计算过程,电子设备可以根据第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数进行逐层计算,从而得到根节点的语义向量Sroot,并可以将Sroot作为搜索语句的语义特征。
可选地,电子设备还可以采用如下步骤来生成搜索语句的语义特征:
1)对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,电子设备可以将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数。作为示例,若目标模型函数为W,且叶子节点的词的目标词向量分别为S1和S2,则对应的子节点的节点函数W1,2为:W1,2=W[S1;S2]。
可以理解的是,电子设备可以通过多种方法来确定第一句法树中的各节点是否为根节点。例如确定节点的上层是否存在父节点;若存在,则说明该节点不是根节点;若不存在,则说明该节点为根节点。作为示例,由于第一句法树中的各节点可以包含语义标签。其中,语义标签用于表征各词之间的语义关系。此时,电子设备还可以确定节点的语义标签是否与预设语义标签相匹配。这里的预设语义标签可以是根节点的语义标签(如图3中“IP”)。若匹配,则确定该节点为根节点;若不匹配,则确定子节点不是根节点。需要说明的是,若叶子节点为根节点,则该叶子节点的词的目标词向量即为搜索语句的语义特征。也就是说,搜索语句为一个词。
2)电子设备可以基于子节点的节点函数生成节点语义向量。在这里,电子设备可以采用上述方法来生成节点语义向量,即S1,2=tanh(W1,2)。这里的tanh也仅是非线性变换形式中的一种,可以替换为其他非线性变换形式。
3)电子设备可以确定子节点是否为根节点,并在响应于确定子节点不是根节点时,执行如下步骤:
将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量。具体过程可以参见上述1)和2)中描述,此处不再赘述。然后,确定父节点是否为根节点。响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征。这里的语义特征为根节点的节点函数与节点语义向量相乘。
4)响应于确定父节点不是根节点,电子设备可以将父节点作为子节点,继续执行3)中的循环步骤。
接着,对于第二句法树集合中的每个第二句法树,电子设备同样可以生成位于该第二句法树的各叶子节点的词的目标词向量,并基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征。搜索结果的语义特征的生成过程可以参见上述搜索语句的语义特征的生成过程的相关描述,此处不再赘述。
最后,电子设备可以计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。这里的相似度可以采用余弦函数来计算。
在本实施例的一些可选地实现方式中,电子设备还可以进行生成和训练语义匹配模型的步骤,具体可以参见图3所示实施例,此处不再赘述。
步骤204,基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。
在本实施例中,电子设备可以根据搜索语句与各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,例如按照相似度的值由大到小顺序。并且电子设备可以将排序后的搜索结果集合推送给用户所使用的终端,从而在终端上按照排序后的顺序显示各搜索结果。这样可以将与搜索语句相关度高的搜索结果优先展示给用户,进而减少用户查找所需内容的时间。
本申请实施例提供的信息处理方法,通过获取与用户输入的搜索语句相关的搜索结果集合,并对搜索语句和搜索结果集合中的各搜索结果进行句法分析,从而可以分别得到第一句法树和第二句法树集合;然后基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与各搜索结果的相似度,从而可以确定各搜索结果与搜索语句的匹配度;接着基于各搜索结果与搜索语句之间的相似度,对搜索结果集合中的各搜索结果进行排序;最后将排序后的搜索结果集合推送给用户,从而可以提高搜索结果与用户需求的匹配度,进而提高用户的搜索体验。
进一步参见图4,其示出了本申请中生成语义匹配模型步骤的一个实施例的流程400。该生成过程可以包括以下步骤:
步骤401,基于递归神经网络建立训练模型。
在本实施例中,电子设备(例如图1所示的服务器106)可以基于递归神经网络(RNN,Recursive Neural Network)来建立训练模型。这里的训练模型是一种基于树结构的深度神经网络模型。
步骤402,获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合。
在本实施例中,电子设备可以通过多种途径来获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合。例如可以从与其通信连接的数据库服务器(例如图1所示的数据库服务器105)获取,也可以是从本地获取。此时,本地中的样本搜索语句和样本搜索结果集合,可以是技术人员从其他服务器的搜索引擎的搜索日志中抽取、并预先存储在电子设备本地中的。其中,样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果。需要指出的是,一条搜索语句可能被多个用户搜索,或者被一个用户搜索多次。在这里,只要有一次用户点击了相应的搜索结果,即可以确定该搜索结果为被查阅的搜索结果。这样可以丰富样本数据,从而有助于提高训练得到的语义匹配模型的准确度。
步骤403,对样本搜索语句和样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合。
在本实施例中,电子设备可以对样本搜索语句和各样本搜索结果进行句法分析,从而分别生成第三句法树和第四句法树集合。其中,第四句法树集合中的各第四句法树与样本搜索结果集合中的各样本搜索结果一一对应。具体生成过程可以参见图2实施例中的步骤202,此处不再赘述。
步骤404,基于第三句法树和第四句法树集合,对训练模型进行训练,得到语义匹配模型。
在本实施例中,电子设备可以基于第三句法树和第四句法树集合,对步骤401所建立的训练模型进行训练,得到语义匹配模型。具体训练过程可以参见如下步骤:
首先,电子设备可以在训练模型中生成位于第三句法树的各叶子节点的词的初始词向量,并生成位于第四句法树集合中各第四句法树的叶子节点的词的初始词向量。这里的初始词向量可以是电子设备任意生成的词向量,也可以是电子设备根据技术人员的预先设置而生成的词向量。
其次,电子设备可以执行如下训练步骤:
1)基于训练模型中的初始模型函数、第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征。具体过程可以参见图2实施例中的步骤203的相关描述,此处不再赘述。
2)分别计算样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度。同样可以参见图2实施例中的步骤203的相关描述,此处不再赘述。
3)确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量。这里的预设条件指第一相似度减去第二相似度的值不小于预设数值(如0.1)。若差值不小于预设数值,说明满足预设条件;若差值小于预设数值,说明不满足预设条件。
可以理解的是,一条搜索语句往往对应至少一条被查阅的样本搜索结果和多条未被查阅的样本搜索结果。此时作为示例,预设条件还可以是优化函数L:
其中,D表示用于样本数据集合,q表示D中的一条样本搜索语句和与该样本搜索语句相关的样本搜索结果集合,T表示q中的一条被查阅的样本搜索结果,T'表示q中的一条未被查阅的样本搜索结果,Vq表示样本搜索语句的语义特征,VT表示被查阅的样本搜索结果的语义特征,VT'表示未被查阅的样本搜索结果的语义特征,S(VT,Vq)表示第一相似度,S(VT',Vq)表示第二相似度。可以理解的是,当L=0时,说明任一第一相似度与任一第二相似度的差值均不小于0.1。
最后,响应于确定差值不满足预设条件,更新训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行上述训练步骤。
可选地,电子设备可以基于BPTS(Back Propagation Through Structure,通过结构的反传算法)技术,来更新训练模型中的初始模型函数和各词的初始词向量。这样,电子设备可以自顶向下(从根节点向叶子节点)获得各节点之间的梯度变化,从而调整初始词向量和初始模型函数。
本实施例中生成语义匹配模型的步骤,通过获取样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果,以对RNN建立的训练模型进行训练。并利用优化函数和BPTS算法来对训练模型进行优化。在生成过程中,不仅考虑词的信息,还考虑了句法、语义关系等更高层次的语义特征,这些信息可以使训练得到的语义匹配模型更好地理解分析语句的主要成分,从而得到更加准确的语义匹配结果。同时采用丰富的样本数据进行模型训练,也有助于提高语义匹配模型的语义匹配结果的准确度。
继续参见图5,图5是根据本实施例的信息处理方法的应用场景的一个示意图。在图5的应用场景中,如图中501所示,用户可以在终端上显示的浏览器网页所提供的输入框内输入搜索语句“文件加密方法”。服务器在接收到该搜索语句后,首先可以获取与“文件加密方法”相关的搜索结果集合;然后对该搜索语句和获取的搜索结果集合进行句法分析;接着在预先训练并存储的语义匹配模型中,分别计算该搜索语句与各个搜索结果的相似度;最后根据计算得到的各个相似度的值,对各个搜索结果进行排序,并将排序后的搜索结果集合发送至上述用户所使用的终端。此时,如图中502所示,终端上可以显示与“文件加密方法”相关、且排序后的各搜索结果,以供用户点击查阅。其中,搜索结果可以包括标题为“怎么给文件夹加密/如何给文件夹加密的方法”,对应的URL为“Jingyan.baidu.com/arti...”,标题为“怎样对一个文件夹加密”,对应URL为“Jing yan.baidu.com/arti...”等内容。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种信息处理装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的信息处理装置600包括:获取单元601,配置用于获取与用户输入的搜索语句相关的搜索结果集合;分析单元602,配置用于对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;计算单元603,配置用于基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度;推送单元604,配置用于基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。
在本实施例中,获取单元601、分析单元602、计算单元603和推送单元604的具体实现方式及产生的有益效果,可以分别参见图2所示实施例中的步骤201、步骤202、步骤203和步骤204的相关描述,此处不再赘述。
在本实施例的一些可选的实现方式中,计算单元603可以包括:第一生成子单元(图中未示出),配置用于生成位于第一句法树的各叶子节点的词的目标词向量;第二生成子单元(图中未示出),配置用于基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征;第三生成子单元(图中未示出),配置用于对于第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算子单元(图中未示出),配置用于计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。
在本实施例的一些可选的实现方式中,第二生成子单元可以进一步配置用于:对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行步骤。
作为示例,第一句法树中的各节点可以包含语义标签,其中,语义标签用于表征各词之间的语义关系;第二生成子单元还可以配置用于:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。
在本实施例的一些可选的实现方式中,该装置600还可以包括生成语义匹配模型的生成单元(图中未示出),该生成单元可以包括:建立子单元,配置用于基于递归神经网络建立训练模型;获取子单元,配置用于获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合,其中,样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;分析子单元,配置用于对样本搜索语句和样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;训练子单元,配置用于基于第三句法树和第四句法树集合,对训练模型进行训练,得到语义匹配模型。
可选地,训练子单元可以进一步配置用于:生成位于第三句法树的各叶子节点的词的初始词向量,并生成位于第四句法树集合中各第四句法树的叶子节点的词的初始词向量;执行如下训练步骤:基于训练模型中的初始模型函数、第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;响应于确定差值不满足预设条件,更新训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行训练步骤。
进一步地,训练子单元还可以配置用于:基于反传算法BPTS,更新训练模型中的初始模型函数和各词的初始词向量。
在本实施例的一些可选的实现方式中,该装置600还可以包括:接收单元(图中未示出),配置用于接收用户输入的搜索语音;识别单元(图中未示出),配置用于对搜索语音进行识别,生成搜索语句。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机系统700的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、分析单元、计算单元和推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取与用户输入的搜索语句相关的搜索结果集合的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:获取与用户输入的搜索语句相关的搜索结果集合;对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度;基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种信息处理方法,其特征在于,所述方法包括:
获取与用户输入的搜索语句相关的搜索结果集合;
对所述搜索语句进行句法分析,生成第一句法树,并对所述搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;
基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,其中,所述语义匹配模型用于确定句法树之间的相似度;
基于所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,对所述搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,包括:
生成位于所述第一句法树的各叶子节点的词的目标词向量;
基于所述第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成所述搜索语句的语义特征;
对于所述第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于所述目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;
计算所述搜索语句的语义特征与所述搜索结果集合中的各搜索结果的语义特征的相似度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成所述搜索语句的语义特征,包括:
对于所述第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;
基于子节点的节点函数生成节点语义向量;
确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为所述目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成所述搜索语句的语义特征;
响应于确定父节点不是根节点,将父节点作为子节点,继续执行所述步骤。
4.根据权利要求3所述的方法,其特征在于,所述第一句法树中的各节点包含语义标签,所述语义标签用于表征各词之间的语义关系;
所述确定子节点是否为根节点,包括:
确定子节点的语义标签是否与预设语义标签相匹配;
若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括生成语义匹配模型的步骤,所述生成语义匹配模型的步骤包括:
基于递归神经网络建立训练模型;
获取样本搜索语句和与所述样本搜索语句相关的样本搜索结果集合,其中,所述样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;
对所述样本搜索语句和所述样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;
基于所述第三句法树和所述第四句法树集合,对所述训练模型进行训练,得到语义匹配模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第三句法树和所述第四句法树集合,对所述训练模型进行训练,包括:
生成位于所述第三句法树的各叶子节点的词的初始词向量,并生成位于所述第四句法树集合中各第四句法树的叶子节点的词的初始词向量;
执行如下训练步骤:基于所述训练模型中的初始模型函数、所述第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成所述样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算所述样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;
响应于确定差值不满足预设条件,更新所述训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行所述训练步骤。
7.根据权利要求6所述的方法,其特征在于,所述更新所述训练模型中的初始模型函数和各词的初始词向量,包括:
基于反传算法BPTS,更新所述训练模型中的初始模型函数和各词的初始词向量。
8.根据权利要求1-7之一所述的方法,其特征在于,所述获取与用户输入的搜索语句相关的搜索结果集合之前,所述方法还包括:
接收用户输入的搜索语音;
对所述搜索语音进行识别,生成搜索语句。
9.一种信息处理装置,其特征在于,所述装置包括:
获取单元,配置用于获取与用户输入的搜索语句相关的搜索结果集合;
分析单元,配置用于对所述搜索语句进行句法分析,生成第一句法树,并对所述搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;
计算单元,配置用于基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,其中,所述语义匹配模型用于确定句法树之间的相似度;
推送单元,配置用于基于所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,对所述搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给所述用户。
10.根据权利要求9所述的装置,其特征在于,所述计算单元包括:
第一生成子单元,配置用于生成位于所述第一句法树的各叶子节点的词的目标词向量;
第二生成子单元,配置用于基于所述第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成所述搜索语句的语义特征;
第三生成子单元,配置用于对于所述第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于所述目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;
计算子单元,配置用于计算所述搜索语句的语义特征与所述搜索结果集合中的各搜索结果的语义特征的相似度。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括生成语义匹配模型的生成单元,所述生成单元包括:
建立子单元,配置用于基于递归神经网络建立训练模型;
获取子单元,配置用于获取样本搜索语句和与所述样本搜索语句相关的样本搜索结果集合,其中,所述样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;
分析子单元,配置用于对所述样本搜索语句和所述样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;
训练子单元,配置用于基于所述第三句法树和所述第四句法树集合,对所述训练模型进行训练,得到语义匹配模型。
12.根据权利要求11所述的装置,其特征在于,所述训练子单元进一步配置用于:
生成位于所述第三句法树的各叶子节点的词的初始词向量,并生成位于所述第四句法树集合中各第四句法树的叶子节点的词的初始词向量;
执行如下训练步骤:基于所述训练模型中的初始模型函数、所述第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成所述样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算所述样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;
响应于确定差值不满足预设条件,更新所述训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行所述训练步骤。
13.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722781.9A CN107491534B (zh) | 2017-08-22 | 2017-08-22 | 信息处理方法和装置 |
US16/054,920 US11232140B2 (en) | 2017-08-22 | 2018-08-03 | Method and apparatus for processing information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722781.9A CN107491534B (zh) | 2017-08-22 | 2017-08-22 | 信息处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491534A true CN107491534A (zh) | 2017-12-19 |
CN107491534B CN107491534B (zh) | 2020-11-20 |
Family
ID=60646434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710722781.9A Active CN107491534B (zh) | 2017-08-22 | 2017-08-22 | 信息处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11232140B2 (zh) |
CN (1) | CN107491534B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470046A (zh) * | 2018-03-07 | 2018-08-31 | 中国科学院自动化研究所 | 基于新闻事件搜索语句的新闻事件排序方法及系统 |
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN109815195A (zh) * | 2018-12-28 | 2019-05-28 | 北京百度网讯科技有限公司 | 查询方法、终端和存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110083729A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像搜索的方法及系统 |
CN110245357A (zh) * | 2019-06-26 | 2019-09-17 | 北京百度网讯科技有限公司 | 主实体识别方法和装置 |
CN110335131A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 基于树的相似度匹配的金融风险控制方法及装置 |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN111026944A (zh) * | 2019-11-20 | 2020-04-17 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质和电子设备 |
CN111160007A (zh) * | 2019-12-13 | 2020-05-15 | 中国平安财产保险股份有限公司 | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 |
CN111241095A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
CN111931002A (zh) * | 2020-06-30 | 2020-11-13 | 华为技术有限公司 | 一种匹配方法以及相关设备 |
CN111984689A (zh) * | 2020-08-21 | 2020-11-24 | 北京百度网讯科技有限公司 | 信息检索的方法、装置、设备以及存储介质 |
CN112231450A (zh) * | 2019-06-28 | 2021-01-15 | 京东方科技集团股份有限公司 | 问答检索方法、问答检索装置、问答检索设备及介质 |
CN112434173A (zh) * | 2021-01-26 | 2021-03-02 | 浙江口碑网络技术有限公司 | 搜索内容输出方法、装置、计算机设备及可读存储介质 |
CN112434183A (zh) * | 2020-11-30 | 2021-03-02 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备和存储介质 |
CN113128201A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质 |
CN113139034A (zh) * | 2020-01-17 | 2021-07-20 | 深圳市优必选科技股份有限公司 | 一种语句匹配方法、语句匹配装置及智能设备 |
CN113204697A (zh) * | 2021-04-29 | 2021-08-03 | 五八有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
CN113641782A (zh) * | 2020-04-27 | 2021-11-12 | 北京庖丁科技有限公司 | 基于检索语句的信息检索方法、装置、设备和介质 |
CN113656467A (zh) * | 2021-08-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置和电子设备 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7047825B2 (ja) * | 2019-03-25 | 2022-04-05 | カシオ計算機株式会社 | 検索装置、検索方法、検索プログラム |
CN110032624B (zh) * | 2019-03-26 | 2023-01-20 | 创新先进技术有限公司 | 一种样本筛选方法及装置 |
CN111858916B (zh) * | 2019-04-01 | 2024-04-09 | 北京百度网讯科技有限公司 | 用于聚类句子的方法和装置 |
CN109902446B (zh) * | 2019-04-09 | 2023-07-11 | 北京字节跳动网络技术有限公司 | 用于生成信息预测模型的方法和装置 |
CN110096709A (zh) * | 2019-05-07 | 2019-08-06 | 百度在线网络技术(北京)有限公司 | 指令处理方法及装置、服务器及计算机可读介质 |
CN110175329B (zh) * | 2019-05-28 | 2023-07-18 | 度小满科技(北京)有限公司 | 一种样本扩充的方法、装置、电子设备与存储介质 |
CN112084311B (zh) * | 2019-06-14 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 事件处理方法和装置、存储介质及电子装置 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110502610A (zh) * | 2019-07-24 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 基于文本语义相似度的智能语音签名方法、装置及介质 |
CN110458296B (zh) * | 2019-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN110427463B (zh) * | 2019-08-08 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 搜索语句响应方法、装置及服务器和存储介质 |
CN112528635A (zh) * | 2019-09-17 | 2021-03-19 | 卡西欧计算机株式会社 | 检索装置、检索方法、及记录介质 |
CN112347278A (zh) * | 2019-10-25 | 2021-02-09 | 北京沃东天骏信息技术有限公司 | 用于训练表征模型的方法和装置 |
CN111368036B (zh) * | 2020-03-05 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 用于搜索信息的方法和装置 |
CN111737559B (zh) * | 2020-05-29 | 2024-05-31 | 北京百度网讯科技有限公司 | 资源排序方法、训练排序模型的方法及对应装置 |
US11487943B2 (en) * | 2020-06-17 | 2022-11-01 | Tableau Software, LLC | Automatic synonyms using word embedding and word similarity models |
CA3176443A1 (en) | 2020-07-13 | 2022-01-20 | Ai21 Labs | Controllable reading guides and natural language generation |
CN111897832B (zh) * | 2020-07-31 | 2024-04-12 | 深圳前海微众银行股份有限公司 | 模型部署方法、设备及可读存储介质 |
CN112100617B (zh) * | 2020-09-15 | 2023-11-24 | 全球能源互联网研究院有限公司 | 一种异常sql检测方法及装置 |
CN112069498B (zh) * | 2020-09-21 | 2023-11-21 | 全球能源互联网研究院有限公司 | 一种sql注入检测模型构建方法及检测方法 |
CN112347791B (zh) * | 2020-11-06 | 2023-10-13 | 北京奇艺世纪科技有限公司 | 文本匹配模型的构建方法、系统、计算机设备及存储介质 |
CN112380421A (zh) * | 2020-11-11 | 2021-02-19 | 北京希瑞亚斯科技有限公司 | 简历的搜索方法、装置、电子设备及计算机存储介质 |
CN112541070B (zh) * | 2020-12-25 | 2024-03-22 | 北京百度网讯科技有限公司 | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 |
CN112541125B (zh) * | 2020-12-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 序列标注模型训练方法、装置及电子设备 |
CN113254587B (zh) * | 2021-05-31 | 2023-10-13 | 北京奇艺世纪科技有限公司 | 搜索文本的识别方法、装置、计算机设备及存储介质 |
CN113553411B (zh) * | 2021-06-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 查询语句的生成方法、装置、电子设备和存储介质 |
CN113780827A (zh) * | 2021-09-14 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种物品筛选方法、装置、电子设备及计算机可读介质 |
CN114036510B (zh) * | 2021-11-22 | 2024-04-26 | 浙江大学 | 一种基于蒙特卡洛树搜索的sql注入攻击优化方法 |
CN114168799B (zh) * | 2021-11-26 | 2024-06-11 | 四川云从天府人工智能科技有限公司 | 图数据结构中节点邻接关系的特征获取方法、装置及介质 |
CN114491215B (zh) * | 2021-12-28 | 2024-08-30 | 深圳市游迷天下科技有限公司 | 基于搜索的近义词库更新方法、装置、设备及存储介质 |
CN114490928B (zh) * | 2021-12-31 | 2023-03-24 | 广州探迹科技有限公司 | 一种语义搜索的实现方法、系统、计算机设备和存储介质 |
CN115599886A (zh) * | 2022-10-24 | 2023-01-13 | 广州广电运通信息科技有限公司(Cn) | 用于Lucene的检索逻辑算子的生成方法、设备及存储介质 |
CN116737870B (zh) * | 2023-08-09 | 2023-10-27 | 北京国电通网络技术有限公司 | 上报信息存储方法、装置、电子设备和计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021874A (zh) * | 2007-03-21 | 2007-08-22 | 金蝶软件(中国)有限公司 | 一种对查询sql请求进行优化的方法及装置 |
CN102063488A (zh) * | 2010-12-29 | 2011-05-18 | 南京航空航天大学 | 一种基于语义的代码搜索方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN105335402A (zh) * | 2014-07-23 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于静态Cache的搜索方法、索引数据生成方法以及装置 |
CN105786963A (zh) * | 2016-01-25 | 2016-07-20 | 汇智明德(北京)教育科技有限公司 | 一种语料库的检索方法及系统 |
CN106503265A (zh) * | 2016-11-30 | 2017-03-15 | 北京赛迈特锐医疗科技有限公司 | 基于权值的结构化搜索系统及其搜索方法 |
US20170185673A1 (en) * | 2015-12-25 | 2017-06-29 | Le Holdings (Beijing) Co., Ltd. | Method and Electronic Device for QUERY RECOMMENDATION |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6295529B1 (en) * | 1998-12-24 | 2001-09-25 | Microsoft Corporation | Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts |
US9645993B2 (en) * | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US20090070322A1 (en) * | 2007-08-31 | 2009-03-12 | Powerset, Inc. | Browsing knowledge on the basis of semantic relations |
WO2012047532A1 (en) * | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using hypothesis pruning |
US9336297B2 (en) * | 2012-08-02 | 2016-05-10 | Paypal, Inc. | Content inversion for user searches and product recommendations systems and methods |
US9996588B2 (en) * | 2013-12-09 | 2018-06-12 | International Business Machines Corporation | Managing a search |
RU2564629C1 (ru) * | 2014-03-31 | 2015-10-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ кластеризации результатов поиска в зависимости от семантики |
US9710547B2 (en) * | 2014-11-21 | 2017-07-18 | Inbenta | Natural language semantic search system and method using weighted global semantic representations |
CN106156000B (zh) * | 2015-04-28 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 基于求交算法的搜索方法及搜索系统 |
US20170140240A1 (en) * | 2015-07-27 | 2017-05-18 | Salesforce.Com, Inc. | Neural network combined image and text evaluator and classifier |
-
2017
- 2017-08-22 CN CN201710722781.9A patent/CN107491534B/zh active Active
-
2018
- 2018-08-03 US US16/054,920 patent/US11232140B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021874A (zh) * | 2007-03-21 | 2007-08-22 | 金蝶软件(中国)有限公司 | 一种对查询sql请求进行优化的方法及装置 |
CN102063488A (zh) * | 2010-12-29 | 2011-05-18 | 南京航空航天大学 | 一种基于语义的代码搜索方法 |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN105335402A (zh) * | 2014-07-23 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于静态Cache的搜索方法、索引数据生成方法以及装置 |
US20170185673A1 (en) * | 2015-12-25 | 2017-06-29 | Le Holdings (Beijing) Co., Ltd. | Method and Electronic Device for QUERY RECOMMENDATION |
CN105786963A (zh) * | 2016-01-25 | 2016-07-20 | 汇智明德(北京)教育科技有限公司 | 一种语料库的检索方法及系统 |
CN106503265A (zh) * | 2016-11-30 | 2017-03-15 | 北京赛迈特锐医疗科技有限公司 | 基于权值的结构化搜索系统及其搜索方法 |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470046B (zh) * | 2018-03-07 | 2020-12-01 | 中国科学院自动化研究所 | 基于新闻事件搜索语句的新闻事件排序方法及系统 |
CN108470046A (zh) * | 2018-03-07 | 2018-08-31 | 中国科学院自动化研究所 | 基于新闻事件搜索语句的新闻事件排序方法及系统 |
CN110737758B (zh) * | 2018-07-03 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
US11501182B2 (en) | 2018-07-03 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating model |
CN110737758A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN109815195A (zh) * | 2018-12-28 | 2019-05-28 | 北京百度网讯科技有限公司 | 查询方法、终端和存储介质 |
CN109815195B (zh) * | 2018-12-28 | 2021-04-20 | 北京百度网讯科技有限公司 | 查询方法、终端和存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN109933662B (zh) * | 2019-02-15 | 2021-03-12 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110083729A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像搜索的方法及系统 |
CN110083729B (zh) * | 2019-04-26 | 2023-10-27 | 北京金山数字娱乐科技有限公司 | 一种图像搜索的方法及系统 |
CN110335131B (zh) * | 2019-06-04 | 2023-12-05 | 创新先进技术有限公司 | 基于树的相似度匹配的金融风险控制方法及装置 |
CN110335131A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 基于树的相似度匹配的金融风险控制方法及装置 |
CN110245357A (zh) * | 2019-06-26 | 2019-09-17 | 北京百度网讯科技有限公司 | 主实体识别方法和装置 |
CN110245357B (zh) * | 2019-06-26 | 2023-05-02 | 北京百度网讯科技有限公司 | 主实体识别方法和装置 |
CN112231450B (zh) * | 2019-06-28 | 2024-06-11 | 京东方科技集团股份有限公司 | 问答检索方法、问答检索装置、问答检索设备及介质 |
CN112231450A (zh) * | 2019-06-28 | 2021-01-15 | 京东方科技集团股份有限公司 | 问答检索方法、问答检索装置、问答检索设备及介质 |
CN110781305B (zh) * | 2019-10-30 | 2023-06-06 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN111026944A (zh) * | 2019-11-20 | 2020-04-17 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质和电子设备 |
CN111026944B (zh) * | 2019-11-20 | 2023-04-18 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质和电子设备 |
CN111160007A (zh) * | 2019-12-13 | 2020-05-15 | 中国平安财产保险股份有限公司 | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 |
CN113128201B (zh) * | 2019-12-31 | 2024-07-26 | 阿里巴巴集团控股有限公司 | 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质 |
CN113128201A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质 |
CN111241095B (zh) * | 2020-01-03 | 2023-06-23 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
CN111241095A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
CN113139034A (zh) * | 2020-01-17 | 2021-07-20 | 深圳市优必选科技股份有限公司 | 一种语句匹配方法、语句匹配装置及智能设备 |
CN113641782A (zh) * | 2020-04-27 | 2021-11-12 | 北京庖丁科技有限公司 | 基于检索语句的信息检索方法、装置、设备和介质 |
CN111931002A (zh) * | 2020-06-30 | 2020-11-13 | 华为技术有限公司 | 一种匹配方法以及相关设备 |
CN111984689A (zh) * | 2020-08-21 | 2020-11-24 | 北京百度网讯科技有限公司 | 信息检索的方法、装置、设备以及存储介质 |
CN111984689B (zh) * | 2020-08-21 | 2023-07-25 | 北京百度网讯科技有限公司 | 信息检索的方法、装置、设备以及存储介质 |
CN112434183A (zh) * | 2020-11-30 | 2021-03-02 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备和存储介质 |
CN112434183B (zh) * | 2020-11-30 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 一种搜索结果的排序方法、装置、设备和存储介质 |
CN112434173A (zh) * | 2021-01-26 | 2021-03-02 | 浙江口碑网络技术有限公司 | 搜索内容输出方法、装置、计算机设备及可读存储介质 |
CN113204697A (zh) * | 2021-04-29 | 2021-08-03 | 五八有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
CN113656467B (zh) * | 2021-08-20 | 2023-07-25 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置和电子设备 |
CN113656467A (zh) * | 2021-08-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20190065507A1 (en) | 2019-02-28 |
CN107491534B (zh) | 2020-11-20 |
US11232140B2 (en) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534A (zh) | 信息处理方法和装置 | |
US20240078386A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
US10650102B2 (en) | Method and apparatus for generating parallel text in same language | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN105654950B (zh) | 自适应语音反馈方法和装置 | |
US20190163742A1 (en) | Method and apparatus for generating information | |
CN107491547A (zh) | 基于人工智能的搜索方法和装置 | |
CN107220386A (zh) | 信息推送方法和装置 | |
CN106383875B (zh) | 基于人工智能的人机交互方法和装置 | |
CN107908789A (zh) | 用于生成信息的方法和装置 | |
CN107679039A (zh) | 用于确定语句意图的方法和装置 | |
CN107766940A (zh) | 用于生成模型的方法和装置 | |
CN107577763A (zh) | 检索方法和装置 | |
CN110162767A (zh) | 文本纠错的方法和装置 | |
CN108171276A (zh) | 用于生成信息的方法和装置 | |
CN111368548A (zh) | 语义识别方法及装置、电子设备和计算机可读存储介质 | |
CN107066449A (zh) | 信息推送方法和装置 | |
CN108121800A (zh) | 基于人工智能的信息生成方法和装置 | |
CN108628830A (zh) | 一种语义识别的方法和装置 | |
CN105677931A (zh) | 信息搜索方法和装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN110275963A (zh) | 用于输出信息的方法和装置 | |
CN107943895A (zh) | 信息推送方法和装置 | |
CN109299477A (zh) | 用于生成文本标题的方法和装置 | |
CN106919711A (zh) | 基于人工智能的标注信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |