CN106997376A - 一种基于多级特征的问题和答案句子相似度计算方法 - Google Patents
一种基于多级特征的问题和答案句子相似度计算方法 Download PDFInfo
- Publication number
- CN106997376A CN106997376A CN201710113453.9A CN201710113453A CN106997376A CN 106997376 A CN106997376 A CN 106997376A CN 201710113453 A CN201710113453 A CN 201710113453A CN 106997376 A CN106997376 A CN 106997376A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- answer
- similarity
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000012886 linear function Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多级特征的问题和答案句子相似度计算方法,主要应用于自动问答系统中。该方法共包括五种特征函数,每种特征函数分别用来衡量两个句子之间不同角度的相似度。其中,单词级别的特征计算两个句子在单词方面的相似度。短语级别的特征能够衡量习语和常用词组方面的相似度。句子语义特征能够衡量两个句子在含义方面的相似度。句子结构特征能够衡量两个句子在语法和句法方面的相似度。答案类型特征能够衡量答案句子中是否包含问题所需答案类型。最后,通过线性函数将这五种特征函数进行加权求和,形成基于多级特征的问题和答案句子相似度算法。该方法能够全方面衡量问题句子和答案句子之间的相似度。
Description
技术领域
本发明涉及自动问答技术领域,具体涉及一种计算问题句子和答案句子相似度的方法。
背景技术
自动问答系统是一种输入自然语言问句后能够直接返回精确答案的系统。根据自动问答系统背后的数据源的类型可以将其分为两类,分别是基于知识图谱的自动问答系统和基于非结构化文档的自动问答系统。基于非结构化文档的自动问答系统的数据源是大量非结构化的文本文档,其检索答案的过程主要包括以下几个步骤:
(1)根据关键词匹配算法,检索出与问题相关的段落。
(2)将第一步检索出的段落切分成句子,形成答案句子候选集。
(3)计算问题和候选答案句子相似度并排序。
(4)选择最相似度最高的答案句子进行答案抽取,返回给用户。
其中的第三步,计算问题和答案句子相似度是非常重要的一步。传统的计算句子相似度的算法主要包括三种:
(1)基于词的算法。该方法不对语句进行语法结构分析,只利用句子的表层信息,即组成句子的词的词频、词性等信息。该方法不能考虑句子的整体结构和语义相似性。
(2)基于句法的算法。该方法对语句进行句法分析,找出依存关系,并在依存关系分析结果的基础上进行相似度计算。该方法能衡量句子的句法结构相似性,但是不能衡量句子的语义相似性。
(3)基于深度神经网络的算法。该方法将语句中每个词的词向量输入到卷积神经网络或循环神经网络中,输出为一个句子的向量表达。该方法能够衡量句子的语义相似性,但是词和句法的相似性并不能得到充分表达。
传统的计算句子相似度的方法各有优缺点,都不能全面的衡量两个句子之间的相似性。
发明内容
为了克服传统的计算句子相似度算法的不足,本发明提供了一种基于多级特征的问题和答案句子相似度计算算法,该算法能够全面衡量两个句子之间的相似性。
该算法公式定义如下:
其中,Q是给定的一个问题句子,S是给定的一个候选答案句子。定义衡量两个句子相似度的函数为R(Q,S),R(Q,S)是一个线性函数,是多个相似度得分函数的集成。这里的hk(S,Q)代表第k个相关性函数。
本发明设计了五种特征来衡量两个句子之间的相关性,这些特征包含了不同的级别,分别是单词特征、短语特征、句子语义特征、句子结构特征、答案类型特征。
1.单词特征
单词级别的特征是从单词出发,计算两个句子在单词方面相似度。本发明使用了四种单词级别的特征,分别如下:
(1)共同的单词数特征,每个单词共现次数都要乘以IDF权重。定义为hWM(Q,S)。
(2)单词翻译特征,直接使用成熟的翻译模型GIZA++,以及问题和相关问题的语料库来得到问题句子和答案句子之间的翻译概率,以此作为两个句子之间的相关性得分。定义为hWT(Q,S)。
(3)词向量平均特征,将每个句子中的单词对应的词向量相加求平均作为该句子的句子向量,然后求答案句子向量和问题句子向量之间的余弦距离。定义为hWV(Q,S)。
(4)词向量转移距离(WMD)特征,采用WMD计算相似度的方法(该方法可参考:Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to documentdistances),将两个句子去除停止词,然后计算词向量转移的最小距离作为两个句子之间的相关性。定义为hWMD(Q,S)。
2.短语特征
假设抽取的短语列表为PP={<si,ti,p(ti|si),p(si,ti)>},其中si是答案句子中的一个短语,ti是问题句子中的一个短语,p(ti|si)和p(si,ti)分别代表从si翻译成ti和从ti翻译成si的概率。
接着,定义基于短语的相似性得分函数如下:
其中,Q,S分别是问题和答案句子,定义了连续的S中从Sj到的连续的单词或者短语序列。N定义的是最大的N元语法(N-gram)值,有如下的定义:
(1)如果则
(2)否则如果有并且s∈Q则
(3)否则,
简单可以描述为,当答案句子中的短语直接出现在问题句子中时,该短语的得分就是1,如果该短语与问题句子中的某些短语出现在短语表中,意味着两个短语是同义的短语或者相关短语时,该短语得分就是短语表中短语互相翻译概率的乘积,是一个0,1之间的值。如果该短语不满足以上两种情况,那么该短语的得分就是0。计算答案句子中一到N元语法包含的所有短语与问题句子的相关性得分,最后对N求平均。
3.句子语义特征
该特征使用最新的基于深度学习的计算两个句子相似度的模型来获得语义相似度得分(可参考Wan S,Lan Y,Guo J,et al.A Deep Architecture for SemanticMatching with Multiple Positional Sentence Representations)。将该特征定义为hsem(s,Q),该模型首先将问题句子和答案句子分别用Bi-LSTM(bidirectional long shortterm memory)计算两个句子每个位置的向量表达,两个句子的不同位置进行交互形成新的矩阵和张量,然后接k-Max采样层和多层感知机进行降维。最后输出两个句子的相似度。Bi-LSTM是将句子序列正向输入一次LSTM,然后再反向输入一次LSTM。这样每个时刻都有两个向量表达,分别是前向的和反向的最重要的是每一个时刻的向量表达都包含了整个句子的信息。Bi-LSTM中每个时刻的向量表达就是两个LSTM向量的拼接,即首先,将问题句子和答案句子输入到Bi-LSTM中,得到每个时刻的向量表达。然后将两个句子的各个时刻的向量进行交互,利用张量函数生成交互张量。张量函数是把两个向量映射成一个向量,公式如下:
其中,u,v分别代表两个向量,Wi,i∈[1,…,c]是张量的一个切片。Wuv和b是线性变换的参数。f是非线性函数。经过张量函数变换后的结果是一个向量。
接来下利用k-Max采样从交互张量的每一个切片中选择出k个最大的值,然后将所有切片的值拼接成一个向量。最后需要用多层感知机将高维的向量降到一维的标量,这个标量经过线性变换后就是两个句子的相似度得分。公式如下:
r=f(Wrq+br)
s=Wsr+bs
其中,Wr和Ws是参数矩阵,br和bs是相应的偏置向量。
最后,我们需要设计损失函数。本文的任务是排序,因此直接使用合页损失函数(hinge loss)。给定一个三元组其中SX代表问题句子,代表正确的答案句子,代表错误的答案句子。损失函数可以定义为:
其中,和是相应的相似度函数。
4.句子结构特征
本发明使用了两种句子结构特征:
(1)依存树根匹配
定义为hRM(S,Q),这是一个取值为0,1,2的特征。如果问题句子和答案句子对应的依存关系拥有相同的根,则hRM(S,Q)=2,否则如果答案句子包含问题句子的根或者问题句子包含答案句子的根,则hRM(S,Q)=1。如果上面两种情况都不存在则,hRM(S,Q)=0。
(2)依存关系匹配。
定义为hDM(S,Q)。首先找到两个句子中共同的词,这里称为一对锚点。在两个句子中可能会出现多对锚点。然后分别计算出两个句子的依存关系。统计两个依存树从根出发到锚点的相同依存关系的数目,即得到hDM(S,Q)。两个句子依存树的根并不一定相同,因此这里的相同的依存关系指的是关系,而忽略词汇的差异。
5.答案类型特征
首先对问题进行分析,根据问题的疑问词来判断问题类型。同时根据事先定义好的分类目录表来找到所需的答案类型。本发明定义了答案类型匹配特征hAM(S,Q)。算法步骤如下:
(1)首先,分析问题,推理出所需答案类型。
(2)对答案句子进行命名实体识别和词性标注。
(3)判断答案句子中命名实体是否包含问题所需答案类型,如果包含则,hAM(S,Q)=1,如果不包含,hAM(S,Q)=0。对于有比较明确的答案类型,比如“Money,Number,Person”等,可以根据命名实体识别来识别,对于“NNP”词性的答案,可以根据词性标注进行识别。最后,对于命名实体识别和词性标注都无法确定的答案类型,比如“Reason”或者“Manner”等默认hAM(S,Q)=1。
将上述五种级别中所有特征的相似度得分进行加权求和得到总体的相似度得分;即得到两个句子之间的相似度。
综上,本方法的主要优点在于,该方法使用多级特征全面衡量两个句子之间的相似性,克服了传统方法中计算句子相似度时过于片面的缺点。
附图说明
图1是本发明计算句子相似度的整体架构图;
图2是本发明所述句子语义特征模型示意图;
图3是本发明所述句子结构特征依存关系示意图。
具体实施方式
下面将结合附图和实例对本发明作进一步的详细说明。
如图1所示,本发明提出的衡量问题和答案句子相似度的方法共包括五种特征函数,每种特征函数分别用来衡量两个句子之间不同角度的相似性。其中,单词级别的特征是从单词出发,计算两个句子在单词方面相似程度。短语级别的特征能够处理局部上下文依赖问题,能够很好的匹配到习语和常用词的搭配。句子语义特征能够衡量两个句子在含义方面的相似性。句子结构特征能够衡量两个句子在语法和句法方面的相似性。答案类型特征能够衡量答案句子中是否包含问题所需答案类型。最后,通过线性函数将这五种特征函数进行加权求和,形成基于多级特征的问题和答案句子相似度算法。该算法能够全方面衡量问题句子和答案句子之间的相似性。
关于数据集
本发明用于衡量英语问题和答案句子之间的相似度,选用SQuAD数据集对模型进行训练。SQuAD数据集包含了536篇维基百科中的文章,共23215个段落,每个段落都人工提问不超过5个问题。总共的问题数超过十万。原数据集只公开了训练集和验证集。为了完成模型的评价,本文将原有的训练集和验证集进行合并,重新按照8:1:1的比例划分训练集,验证集和测试集。划分过程中每个段落和这个段落的所有问题是一个基本的划分单元。
将段落切分成句子,将每个段落切分成答案句子候选集,这样每个问题只需要对所属段落中的句子进行排序来找到答案句子,候选集规模比较小。虽然数据集中并没有给出问题所对应的答案句子。但是给出了每个问题答案的起始位置,我们根据答案的起始位置可以设计算法定位该问题所对应的句子。本发明直接使用CoreNLP对段落进行句子的切分。
使用CoreNLP对段落中的句子以及该段落的问题进行分词、词性标注、命名实体识别、句法分析树和依存关系分析。本文使用Java语言调用公开的CoreNLP工具包。
本实例从单词特征、短语特征、句子语义特征、句子结构特征、答案类型特征共五级特征来衡量两个句子之间的相关性,分别是:
1.单词特征实施方式
首先对于单词特征函数hWT(Q,S),本发明使用GIZA++来训练一个有11.6M个问题和相关问题的平行语料库,该语料库是从WikiAnswers网站上爬取的。对于hWV(Q,S)函数,本发明直接使用Word2Vec模型训练维基百科语料库。
2.短语特征实施方式
对于短语特征函数hPP(S,Q),本发明直接使用MOSES来训练SQuAD数据集。SQuAD数据集先经过预处理步骤,然后将训练集中的每个问题和对应的答案句子放在一起形成一个问题到答案的平行语料库,共有81345对句子。然后输入到MOSES中训练得到短语表。
3.句子语义特征实施方式
如图2所示,问题句子和答案句子输入到Bi-LSTM中,得到每个时刻的向量表达。然后将两个句子的各个时刻的向量进行交互,形成交互张量。接来下利用k-Max采样从每一个切片中选择出k个最大的值,然后将所有切片的值拼接成一个向量。最后需要用多层感知机将高维的向量降到一维的标量,这个标量经过线性变换后就是两个句子的相似度得分。
对于句子语义特征函数hS(S,Q),本发明首先构建正负样本的集合。对于一个问题,其对应的正确句子为正样本,对应段落中的其他句子作为负样本。训练集中每个问题有一个正样本,同时随机采样两个负样本。这样每个问题对应了三个训练样本,共244035个样本。验证集和测试集采取同样的方式,分别有30144和30864个样本。我们使用基于Theano的Keras实现双向的LSTM模型。训练过程中批的大小为128,优化器选择Adagrad。模型训练的终止条件是验证集上的错误率不再下降。
4.句子结构特征实施方式
图3是问题句子和答案句子的依存关系示意图。图中的箭头代表依存关系,箭头的发出单词是支配词,箭头的接受端是被支配词。在实际的问答当中,问题句子和答案句子的依存关系往往存在相似性,比如对于问题句子“Where was Obama born?”和答案句子“Obama was born in Honolulu.”。可以看出两句话的依存关系基本一样。“where”和“Honolulu”刚好对应,都是“born”的修饰词。
首先找到两个句子中共同的词,这里称为一对锚点。在两个句子中可能会出现多对锚点。然后分别计算出两个句子的依存关系。统计两个依存树从根出发到锚点的相同依存关系的数目。两个句子依存树的根并不一定相同,因此这里的相同的依存关系指的是关系,而忽略词汇的差异。以图3中的问题和答案句子为例,两个句子的拥有相同的根,因此hRM(S,Q)=2,两个句子除根外有两个共同单词,而且根到这两对锚点的依存关系相同,因此hDM(S,Q)=2。
5.答案类型特征实施方式
数据集预处理之后,每个句子都进行了命名实体识别,问题句子在问题处理模块中也有相应的答案类型。根据简单的匹配就可以计算出来。
以上是所有特征函数的实现细节,在所有特征函数训练和计算完成后,我们需要把这些特征函数进行线性加权融合。线性模型的参数为每个特征函数的权重值。线性模型的目标函数公式为:
其中SX代表问题句子,代表正确的答案句子,代表错误的答案句子。和是相应的相似度函数。训练集是将验证集中所有的问题的一个正样本,并随机采样两个负样本,共30144个正负样本。训练完成后即可得到每个特征的权重。
Claims (10)
1.一种基于多级特征的问题和答案句子相似度计算方法,其特征在于,包括以下步骤:
(1)使用五种不同级别的特征来衡量两个句子之间的相似度,每种特征都对应一个相似度得分;所述的五种不同级别特征包括:单词特征、短语特征、句子语义特征、句子结构特征、答案类型特征;
(2)将每种特征的相似度得分进行加权求和得到总体的相似度得分;采用如下线性函数公式实现:
其中,Q,S分别是问题和答案句子,R(Q,S)是一个线性函数,是多个相似度得分函数的集成;hk(S,Q)代表第k个特征相似度得分函数,每个相似度得分函数的权重λk是通过在训练集上训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述的单词级别特征包括:共同单词数特征、单词翻译特征、词向量平均特征和词向量转移特征。
3.根据权利要求2所述的方法,其特征在于,所述的单词翻译特征是使用GIZA++对平行语料库训练后得到的单词翻译成另外一个单词的概率。
4.根据权利要求2所述方法,其特征在于,所述的词向量转移特征是使用计算文档相似度的Word Move’s Distance(WMD)算法来计算两个句子之间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述的短语级别特征包括以下步骤:
(1)假设PP={<si,ti,p(ti|si),p(si,ti)>}是一个短语表,其中si是答案句子中的一个短语,ti是问题句子中的一个短语,p(ti|si)和p(si,ti)分别代表从si翻译成ti和从ti翻译成si的概率;
(2)定义基于短语的相似性得分函数如下:
其中,Q,S分别是问题和答案句子,定义了连续的S中从Sj到的连续的单词或者短语序列,N定义的是最大的N元语法(N-gram)值;
(3)计算如果则如果有并且s∈Q则否则,
6.根据权利要求1所述的方法,其特征在于,所述的句子语义特征包括以下步骤:
(1)将问题句子和答案句子分别用Bi-LSTM计算两个句子每个位置的向量表达;
(2)将两个句子的不同位置进行交互形成新的交互张量;
(3)使用k-Max采样层和多层感知机进行降维,降到一维标量,该标量代表相似度;
训练过程中使用的损失函数是合页损失函数,给定一个三元组其中SX代表问题句子,代表正确的答案句子,代表错误的答案句子。损失函数可以定义为:
其中,和是相应的相似度函数。
7.根据权利要求1所述的方法,其特征在于;所述的句子结构特征包括依存树根匹配特征和依存关系匹配特征。
8.根据权利要求7所述方法,其特征在于;所述的依存树根匹配特征包括以下步骤:
(1)计算问题句子和答案句子的依存关系;
(2)如果问题句子和答案句子对应的依存关系拥有相同的根,则得分为2;
(3)如果答案句子包含问题句子的根或者问题句子包含答案句子的根,则得分为1;
(4)如果步骤(2)(3)均不满足,则得分为0。
9.根据权利要求7所述方法,其特征在于依存关系匹配包括以下步骤:
(1)首先找到两个句子中共同的词,这里称为一对锚点。然后分别计算出两个句子的依存关系;
(2)统计两个依存树从根出发到锚点的相同依存关系的数目,两个句子依存树的根并不一定相同,因此这里的相同的依存关系指的是关系,而忽略词汇的差异。
10.根据权利要求1所述方法,其特征在于答案类型特征包括以下步骤:
(1)首先,利用问题分类表分析问题所需答案类型;
(2)对答案句子进行命名实体识别和词性标注;
判断答案句子中命名实体是否包含问题所需答案类型,如果包含则,得分为1;如果不包含,则得分为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113453.9A CN106997376B (zh) | 2017-02-28 | 2017-02-28 | 一种基于多级特征的问题和答案句子相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710113453.9A CN106997376B (zh) | 2017-02-28 | 2017-02-28 | 一种基于多级特征的问题和答案句子相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106997376A true CN106997376A (zh) | 2017-08-01 |
CN106997376B CN106997376B (zh) | 2020-12-08 |
Family
ID=59431761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710113453.9A Expired - Fee Related CN106997376B (zh) | 2017-02-28 | 2017-02-28 | 一种基于多级特征的问题和答案句子相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106997376B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562728A (zh) * | 2017-09-12 | 2018-01-09 | 电子科技大学 | 基于结构和文本信息的社交媒体短文本过滤方法 |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
CN108804627A (zh) * | 2018-05-31 | 2018-11-13 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109086273A (zh) * | 2018-08-14 | 2018-12-25 | 北京粉笔未来科技有限公司 | 基于神经网络解答语法填空题的方法、装置和终端设备 |
CN109145292A (zh) * | 2018-07-26 | 2019-01-04 | 黑龙江工程学院 | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 |
CN109272262A (zh) * | 2018-11-26 | 2019-01-25 | 广州努比互联网科技有限公司 | 一种自然语言特征的分析方法 |
CN109344236A (zh) * | 2018-09-07 | 2019-02-15 | 暨南大学 | 一种基于多种特征的问题相似度计算方法 |
CN109344399A (zh) * | 2018-09-14 | 2019-02-15 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
CN109460453A (zh) * | 2018-10-09 | 2019-03-12 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109582874A (zh) * | 2018-12-10 | 2019-04-05 | 北京搜狐新媒体信息技术有限公司 | 一种基于双向lstm的相关新闻挖掘方法及系统 |
CN109597994A (zh) * | 2018-12-04 | 2019-04-09 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和系统 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
WO2019148797A1 (zh) * | 2018-01-30 | 2019-08-08 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN110362662A (zh) * | 2018-04-09 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置以及计算机可读存储介质 |
CN110825852A (zh) * | 2019-11-07 | 2020-02-21 | 四川长虹电器股份有限公司 | 面向长文本的语义匹配方法及系统 |
CN110955768A (zh) * | 2019-12-06 | 2020-04-03 | 上海交通大学 | 一种基于句法分析的问答系统答案生成方法 |
CN110969006A (zh) * | 2019-12-02 | 2020-04-07 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN110968674A (zh) * | 2019-12-04 | 2020-04-07 | 电子科技大学 | 基于词向量表征的问题评论对的构建方法 |
CN111027331A (zh) * | 2019-12-05 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 用于评估翻译质量的方法和装置 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN111680515A (zh) * | 2020-05-21 | 2020-09-18 | 平安国际智慧城市科技股份有限公司 | 基于ai识别的答案确定方法、装置、电子设备及介质 |
CN113283605A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 基于预训练模型的交叉聚焦损失的溯因推理方法 |
CN113342950A (zh) * | 2021-06-04 | 2021-09-03 | 北京信息科技大学 | 基于语义联合的答案选取方法及系统 |
CN113761142A (zh) * | 2020-09-25 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种生成答案摘要的方法和装置 |
US11256866B2 (en) | 2017-10-25 | 2022-02-22 | Google Llc | Natural language processing with an N-gram machine |
CN114556327A (zh) * | 2019-10-10 | 2022-05-27 | 莱克波尔有限公司 | 外语句子空白推理问题的自动生成方法及系统 |
US20230069935A1 (en) * | 2019-11-20 | 2023-03-09 | Korea Advanced Institute Of Science And Technology | Dialog system answering method based on sentence paraphrase recognition |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
US20100146041A1 (en) * | 2008-12-10 | 2010-06-10 | Adam Gentry | Methods and Apparatus to Manipulate Services in a Distributed Business Intelligence Computing Environment |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN104133812A (zh) * | 2014-07-17 | 2014-11-05 | 北京信息科技大学 | 一种面向用户查询意图的汉语句子相似度分层计算方法及装置 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
US10242049B2 (en) * | 2015-01-14 | 2019-03-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, system and storage medium for implementing intelligent question answering |
-
2017
- 2017-02-28 CN CN201710113453.9A patent/CN106997376B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
US20100146041A1 (en) * | 2008-12-10 | 2010-06-10 | Adam Gentry | Methods and Apparatus to Manipulate Services in a Distributed Business Intelligence Computing Environment |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN104133812A (zh) * | 2014-07-17 | 2014-11-05 | 北京信息科技大学 | 一种面向用户查询意图的汉语句子相似度分层计算方法及装置 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
US10242049B2 (en) * | 2015-01-14 | 2019-03-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, system and storage medium for implementing intelligent question answering |
Non-Patent Citations (2)
Title |
---|
SHENGXIAN WAN等: "A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations", 《ARXIV》 * |
ZHAO YAN等: "DocChat:an information retrieval approach for chatbot engines using structured documents", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATIONAL FOR COMPUTATIONAL LINGUISTICS》 * |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562728A (zh) * | 2017-09-12 | 2018-01-09 | 电子科技大学 | 基于结构和文本信息的社交媒体短文本过滤方法 |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
US11256866B2 (en) | 2017-10-25 | 2022-02-22 | Google Llc | Natural language processing with an N-gram machine |
US11947917B2 (en) | 2017-10-25 | 2024-04-02 | Google Llc | Natural language processing with an n-gram machine |
CN108153876A (zh) * | 2017-12-26 | 2018-06-12 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
WO2019148797A1 (zh) * | 2018-01-30 | 2019-08-08 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN110362662A (zh) * | 2018-04-09 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置以及计算机可读存储介质 |
CN108804627B (zh) * | 2018-05-31 | 2021-04-06 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN108804627A (zh) * | 2018-05-31 | 2018-11-13 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109145292B (zh) * | 2018-07-26 | 2022-05-27 | 黑龙江工程学院 | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 |
CN109145292A (zh) * | 2018-07-26 | 2019-01-04 | 黑龙江工程学院 | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 |
CN109086273A (zh) * | 2018-08-14 | 2018-12-25 | 北京粉笔未来科技有限公司 | 基于神经网络解答语法填空题的方法、装置和终端设备 |
CN109086273B (zh) * | 2018-08-14 | 2022-04-15 | 北京猿力未来科技有限公司 | 基于神经网络解答语法填空题的方法、装置和终端设备 |
CN109344236B (zh) * | 2018-09-07 | 2020-09-04 | 暨南大学 | 一种基于多种特征的问题相似度计算方法 |
CN109344236A (zh) * | 2018-09-07 | 2019-02-15 | 暨南大学 | 一种基于多种特征的问题相似度计算方法 |
CN109344399A (zh) * | 2018-09-14 | 2019-02-15 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
CN109344399B (zh) * | 2018-09-14 | 2023-02-03 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
CN109460453B (zh) * | 2018-10-09 | 2021-08-17 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109460453A (zh) * | 2018-10-09 | 2019-03-12 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN109670168B (zh) * | 2018-11-14 | 2023-04-18 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN109272262B (zh) * | 2018-11-26 | 2022-04-01 | 广州努比互联网科技有限公司 | 一种自然语言特征的分析方法 |
CN109272262A (zh) * | 2018-11-26 | 2019-01-25 | 广州努比互联网科技有限公司 | 一种自然语言特征的分析方法 |
CN109597994B (zh) * | 2018-12-04 | 2023-06-06 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和系统 |
CN109597994A (zh) * | 2018-12-04 | 2019-04-09 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和系统 |
CN109582874B (zh) * | 2018-12-10 | 2020-12-01 | 北京搜狐新媒体信息技术有限公司 | 一种基于双向lstm的相关新闻挖掘方法及系统 |
CN109582874A (zh) * | 2018-12-10 | 2019-04-05 | 北京搜狐新媒体信息技术有限公司 | 一种基于双向lstm的相关新闻挖掘方法及系统 |
CN114556327A (zh) * | 2019-10-10 | 2022-05-27 | 莱克波尔有限公司 | 外语句子空白推理问题的自动生成方法及系统 |
CN110825852A (zh) * | 2019-11-07 | 2020-02-21 | 四川长虹电器股份有限公司 | 面向长文本的语义匹配方法及系统 |
US20230069935A1 (en) * | 2019-11-20 | 2023-03-09 | Korea Advanced Institute Of Science And Technology | Dialog system answering method based on sentence paraphrase recognition |
CN110969006B (zh) * | 2019-12-02 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN110969006A (zh) * | 2019-12-02 | 2020-04-07 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN110968674B (zh) * | 2019-12-04 | 2023-04-18 | 电子科技大学 | 基于词向量表征的问题评论对的构建方法 |
CN110968674A (zh) * | 2019-12-04 | 2020-04-07 | 电子科技大学 | 基于词向量表征的问题评论对的构建方法 |
KR102401942B1 (ko) | 2019-12-05 | 2022-05-24 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 번역품질 평가 방법 및 장치 |
KR20210070891A (ko) * | 2019-12-05 | 2021-06-15 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 번역품질 평가 방법 및 장치 |
CN111027331A (zh) * | 2019-12-05 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 用于评估翻译质量的方法和装置 |
US11481562B2 (en) | 2019-12-05 | 2022-10-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for evaluating translation quality |
CN110955768A (zh) * | 2019-12-06 | 2020-04-03 | 上海交通大学 | 一种基于句法分析的问答系统答案生成方法 |
CN110955768B (zh) * | 2019-12-06 | 2024-03-15 | 上海交通大学 | 一种基于句法分析的问答系统答案生成方法 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111143539B (zh) * | 2019-12-31 | 2023-06-23 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111680515B (zh) * | 2020-05-21 | 2022-05-03 | 平安国际智慧城市科技股份有限公司 | 基于ai识别的答案确定方法、装置、电子设备及介质 |
CN111680515A (zh) * | 2020-05-21 | 2020-09-18 | 平安国际智慧城市科技股份有限公司 | 基于ai识别的答案确定方法、装置、电子设备及介质 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN113761142A (zh) * | 2020-09-25 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种生成答案摘要的方法和装置 |
CN113342950A (zh) * | 2021-06-04 | 2021-09-03 | 北京信息科技大学 | 基于语义联合的答案选取方法及系统 |
CN113283605B (zh) * | 2021-07-26 | 2021-11-09 | 中国科学院自动化研究所 | 基于预训练模型的交叉聚焦损失的溯因推理方法 |
CN113283605A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 基于预训练模型的交叉聚焦损失的溯因推理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106997376B (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997376B (zh) | 一种基于多级特征的问题和答案句子相似度计算方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
WO2018157789A1 (zh) | 一种语音识别的方法、计算机、存储介质以及电子装置 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
KR101224660B1 (ko) | 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법 | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
KR20180125746A (ko) | 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법 | |
CN110929498B (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN111666764B (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
WO2018056423A1 (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
Atef et al. | AQAD: 17,000+ arabic questions for machine comprehension of text | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
CN114004236B (zh) | 融入事件实体知识的汉越跨语言新闻事件检索方法 | |
CN114970554A (zh) | 一种基于自然语言处理的文档校验方法 | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201208 |
|
CF01 | Termination of patent right due to non-payment of annual fee |