CN107608999A - 一种适用于自动问答系统的问句分类方法 - Google Patents
一种适用于自动问答系统的问句分类方法 Download PDFInfo
- Publication number
- CN107608999A CN107608999A CN201710582070.6A CN201710582070A CN107608999A CN 107608999 A CN107608999 A CN 107608999A CN 201710582070 A CN201710582070 A CN 201710582070A CN 107608999 A CN107608999 A CN 107608999A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- question
- keyword
- answering system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 abstract description 15
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 9
- 238000013398 bayesian method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种适用于自动问答系统的问句分类方法,适用于计算机技术领域,该方法包括:获取待分类的问句,利用分词工具进行分词和词性标注;获取所述分词操作后的待分类问句,进行预处理;获预处理过后的待分类问句,找出问句中的关键词,组成关键词集合,根据改进的TF‑IDF算法计算关键词集合中关键词的权重,根据特定的方法取前N个关键词;根据依存句法分析方法,提取问句中关键词的主谓、动宾及定中三种依存句法关系特征;利用训练好的朴素贝叶斯模型对关键词向量进行分类,得出分类结果。本发明提高了问句分类的准确性及效率。
Description
技术领域
本发明涉及人工智能领域,特别是一种适用于自动问答系统的问句分类方法。
背景技术
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。与传统的关键词检索相比,问答系统能够更好地满足用户对快速、准确得获取信息的需求。
自动问答系统的工作过程主要包括问句分类、答案搜索以及答案抽取三个阶段,其中问句分类是关键步骤。其主要任务是通过对用户提出的中文问题进行分词、词性标注、去停用词、去噪等处理,进而明确问题的意图、确定问题的类别,从而进行答案搜索和答案收取。现有问句分类方式存在效率低下的技术问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种适用于自动问答系统的问句分类方法,本发明提高了问句分类的准确性及效率。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种适用于自动问答系统的问句分类方法,包括以下步骤:
步骤一、获取待分类的问句,利用分词工具进行分词和词性标注,获得分词操作后的待分类的问句;
步骤二、对分词操作后的待分类的问句进行预处理;
步骤三、找出预处理后的待分类的问句中的候选关键词,组成候选关键词集合,在TF-IDF算法的基础上,考虑两两词汇间的相关度和相似度,计算候选关键词的权重值,根据候选关键词的权重值,进行关键词的提取;
步骤四、根据依存句法分析方法,提取关键词的主谓、动宾及定中三种依存句法关系特征;
步骤五、利用训练好的朴素贝叶斯模型,依据含有三种依存句法关系特征的关键词的特征向量进行问句分类。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,步骤一中是基于条件随机场CRF模型对问句进行分词和词性标注。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,所述步骤二具体如下:
去除停用词,将文本噪声用符号#表示;
统计文本噪声在问句中出现的概率,当文字噪声大于某一设定阈值时,判断为普通问句,并利用预先建立的同义词表进行同义词替换。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,计算候选关键词的权重值,具体如下:
其中,S(Vi)是第i个候选关键词Vi的权重值,ni,j是Vi在第j类文档Dj中出现的次数,∑nl,j是第j类所有文档中所有字词的出现次数之和,|D|为总文档的问句数,DF(Vi)为所有问句文档中出现Vi的问句文档数量,Sim(Vi,Vk)为通过Word2Vec计算得到的Vi与Vk之间的相似度,Vk为第k个候选关键词,α为系数,rel(Vi,Vk)是Vi与Vk之间的相关度。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,rel(Vi,Vk)计算公式如下:
其中,count(Vi,Vk)为Vi和Vk同时出现的次数,min(count(Vi),count(Vk))为Vi和Vk单独出现次数的最小值。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,α取0.6。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,步骤三中根据候选关键词的权重,进行关键词的提取,具体如下:
将候选关键词按照权重值从大到小进行排序,取排序后前N个候选关键词作为关键词,N≥1。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,N的确定方法为:将候选关键词按照权重值从大到小进行排序,得到排序后的候选关键词V1,…VM,Vp为排在第P个的候选关键词,计算第p个候选关键词与第p+1个候选关键词的差值D(Vp):D(Vp)=S(Vp)-S(Vp+1),p=1,2…M-1,M为候选关键词的总个数,得到M-1个差值,从这M-1个差值中选取一个最大的差值D(Vq),则N=q,M-1≥q≥1。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,步骤四中,若问句中的关键词只存在主谓、动宾、定中关系中的一种或者两种,则记录这一种或者两种关系。
作为本发明所述的一种适用于自动问答系统的问句分类方法进一步优化方案,训练好的朴素贝叶斯模型是通过如下过程得到的:将训练样本进行分词和词性标注、预处理,并进行问句分类标注,训练样本有七个类别,前六类为预设的有效类别,第七个类别为预设的无效类;对有效类中的关键词和关键词的句法依存关系进行提取,再结合无效类中的全部关键词及其句法依存关系,组成关键词词典,由关键词词典生成训练样本中各问句的关键词的特征向量;利用关键词的特征向量训练朴素贝叶斯分类器。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明在原TF-IDF算法的计算中增加了两个特征词汇之间相似度和相关度这两个变量,可以增加相近词投票的权重,减少无关次投票的权重;
(2)本发明提取了问句中的句法依存关系,不单单是依据词频来选择关键词,提高了关键词选择的准确性;
(3)本发明利用分类模型进行问句分类,提高了问句分类的准确性。
附图说明
图1是本发明算法流程图;
图2是本发明朴素贝叶斯模型训练流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提供一种基于改进的TF-IDF问句分类的方法,该方法结合实际情况,考虑到特征词之间的相似度和相关度,弥补了传统TF-IDF算法的不足,提高了问句分类的效率。
本发明公开了一种针对民生提问的问句分类方法,共有教育、民政、社保、食药、环保、工商和其他七个类别。
图1是本发明的算法流程图,一种适用于自动问答系统的问句分类方法,包括以下步骤:
步骤一:获取待分类的问句,利用分词工具对所述待分类问句进行分词和词性标注,利用的是CRF模型。
步骤二:获取已分词和词性标注的待分类问句,进行预处理操作,使用预先建立的停用词表对分词结果进行处理,剔除停用词,将停用词等文本噪声用特殊符号“#”表示,获得原始特征词汇集合。
其中,对分词结果进行的处理包括去除没有实际意义的字或者词,如“的”、“而且”、“但是”等。
统计文本噪声在问句中出现的概率,当文字噪声大于某一设定阈值时,判断为普通问句,分为“其他”类。
使用预先建立的同义词表对原始特征词汇集合中的同义词进行替换,使得同义词均使用同一个词来表示,如“安装”、“相连”、“连接”、“固定”等词,都替换成“安装”。
步骤三:获取所述预处理过后的待分类问句,找出问句中的关键词,组成关键词集合,根据预置算法来判断关键词集合中关键词的权重;
特征词提取集体包括如下步骤:
获取预处理后的待分类问句,利用改进的TF-IDF算法计算特征词汇集合中的各个特征词汇对应的权重值,取前N个作为关键词,N≥1。其中将两两特征词汇间的关联程度加入到TF-IDF特征值权重,计算公式如下:
其中,S(Vi)是第i个候选关键词Vi的权重值,ni,j是Vi在第j类文档Dj中出现的次数,∑nl,j是第j类所有文档中所有字词的出现次数之和,|D|为总文档的问句数,DF(Vi)为所有问句文档中出现Vi的问句文档数量,Sim(Vi,Vk)为通过Word2Vec计算得到的Vi与Vk之间的相似度,Vk为第k个候选关键词,α为系数,rel(Vi,Vk)是Vi与Vk之间的相关度。
其中,TF是指词频,表示指定类中具体的词频;IDF是指反文档频率。TF值越高表明该词越能代表该类的特征;而IDF越低,则说明该词普遍存在于各个文档,因此区分能力较弱。将两两特征词汇间的关联程度加入到TF-IDF特征值权重之中,能够可以增加相近词投票的权重,减少无关次投票的权重。
rel(Vi,Vk)是Vi与Vk之间的相关度,其计算公式如下:
其中,count(Vi,Vk)为两个词同时出现的次数,min(count(Vi),count(Vk))为词Vi和词Vk单独出现次数的较小值。
进一步的,将每一个有效的特征词汇的S(Vi)从高到低进行排序,依次用当前特征词汇的权重减去下一个特征词汇的权重,记为当前值的差值,选取差值最大的特征词汇为选取点,即差值最大的词为第N个词。
步骤四:根据依存句法分析方法,提取问句中关键词的主谓、动宾及定中三种依存句法关系特征。
步骤五:如图2是本发明朴素贝叶斯模型训练流程图,对现有的训练样本进行分词、预处理,其处理方式与待分类问句相同,将待分类问句的关键词输入到一训练好的朴素贝叶斯分类器中,进行问句分类。
本实施例将测试集作为待分类的文本集合,预测测试集中文本的类别。分类结果与传统的朴素贝叶斯方法进行对比,比较结果如表1所示:
表1
实验结果表明,本发明所提出的特征提取方法在分类效果上优于传统发朴素贝叶斯方法,并且速度快,实现了自动分类,不需要领域专家的参与,不受专家主观认识的影响。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种适用于自动问答系统的问句分类方法,其特征在于,包括以下步骤:
步骤一、获取待分类的问句,利用分词工具进行分词和词性标注,获得分词操作后的待分类的问句;
步骤二、对分词操作后的待分类的问句进行预处理;
步骤三、找出预处理后的待分类的问句中的候选关键词,组成候选关键词集合,在TF-IDF算法的基础上,考虑两两词汇间的相关度和相似度,计算候选关键词的权重值,根据候选关键词的权重值,进行关键词的提取;
步骤四、根据依存句法分析方法,提取关键词的主谓、动宾及定中三种依存句法关系特征;
步骤五、利用训练好的朴素贝叶斯模型,依据含有三种依存句法关系特征的关键词的特征向量进行问句分类。
2.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,步骤一中是基于条件随机场CRF模型对问句进行分词和词性标注。
3.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,所述步骤二具体如下:
去除停用词,将文本噪声用符号#表示;
统计文本噪声在问句中出现的概率,当文字噪声大于某一设定阈值时,判断为普通问句,并利用预先建立的同义词表进行同义词替换。
4.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,计算候选关键词的权重值,具体如下:
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<msub>
<mi>&Sigma;n</mi>
<mrow>
<mi>l</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>&times;</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
<mrow>
<mo>{</mo>
<mi>D</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>}</mo>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mo>{</mo>
<mfrac>
<mn>1</mn>
<mi>k</mi>
</mfrac>
<mo>&times;</mo>
<mi>&Sigma;</mi>
<mo>&lsqb;</mo>
<mi>&alpha;</mi>
<mo>&times;</mo>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>r</mi>
<mi>e</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>}</mo>
</mrow>
其中,S(Vi)是第i个候选关键词Vi的权重值,ni,j是Vi在第j类文档Dj中出现的次数,∑nl,j是第j类所有文档中所有字词的出现次数之和,|D|为总文档的问句数,DF(Vi)为所有问句文档中出现Vi的问句文档数量,Sim(Vi,Vk)为通过Word2Vec计算得到的Vi与Vk之间的相似度,Vk为第k个候选关键词,α为系数,rel(Vi,Vk)是Vi与Vk之间的相关度。
5.根据权利要求4所述的一种适用于自动问答系统的问句分类方法,其特征在于,rel(Vi,Vk)计算公式如下:
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>min</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>,</mo>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,count(Vi,Vk)为Vi和Vk同时出现的次数,min(count(Vi),count(Vk))为Vi和Vk单独出现次数的最小值。
6.根据权利要求4所述的一种适用于自动问答系统的问句分类方法,其特征在于,α取0.6。
7.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,步骤三中根据候选关键词的权重值,进行关键词的提取,具体如下:
将候选关键词按照权重值从大到小进行排序,取排序后前N个候选关键词作为关键词,N≥1。
8.根据权利要求7所述的一种适用于自动问答系统的问句分类方法,其特征在于,N的确定方法为:将候选关键词按照权重值从大到小进行排序,得到排序后的候选关键词V1,…VM,Vp为排在第P个的候选关键词,计算第p个候选关键词与第p+1个候选关键词的差值D(Vp):D(Vp)=S(Vp)-S(Vp+1),p=1,2…M-1,M为候选关键词的总个数,得到M-1个差值,从这M-1个差值中选取一个最大的差值D(Vq),则N=q,M-1≥q≥1。
9.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,步骤四中,若问句中的关键词只存在主谓、动宾、定中关系中的一种或者两种,则记录这一种或者两种关系。
10.根据权利要求1所述的一种适用于自动问答系统的问句分类方法,其特征在于,训练好的朴素贝叶斯模型是通过如下过程得到的:将训练样本进行分词和词性标注、预处理,并进行问句分类标注,训练样本有七个类别,前六类为预设的有效类别,第七个类别为预设的无效类;对有效类中的关键词和关键词的句法依存关系进行提取,再结合无效类中的全部关键词及其句法依存关系,组成关键词词典,由关键词词典生成训练样本中各问句的关键词的特征向量;利用关键词的特征向量训练朴素贝叶斯分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582070.6A CN107608999A (zh) | 2017-07-17 | 2017-07-17 | 一种适用于自动问答系统的问句分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582070.6A CN107608999A (zh) | 2017-07-17 | 2017-07-17 | 一种适用于自动问答系统的问句分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107608999A true CN107608999A (zh) | 2018-01-19 |
Family
ID=61059800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710582070.6A Pending CN107608999A (zh) | 2017-07-17 | 2017-07-17 | 一种适用于自动问答系统的问句分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608999A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287822A (zh) * | 2018-01-23 | 2018-07-17 | 北京容联易通信息技术有限公司 | 一种中文相似问题生成系统与方法 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108595602A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于浅层模型与深度模型结合的问句文本分类方法 |
CN108614860A (zh) * | 2018-03-27 | 2018-10-02 | 成都律云科技有限公司 | 一种律师信息处理方法和系统 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109191354A (zh) * | 2018-08-21 | 2019-01-11 | 安徽讯飞智能科技有限公司 | 一种基于自然语言处理的全民社管任务分发方法 |
CN109241261A (zh) * | 2018-08-30 | 2019-01-18 | 武汉斗鱼网络科技有限公司 | 用户意图识别方法、装置、移动终端及存储介质 |
CN109388801A (zh) * | 2018-09-30 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 相似词集合的确定方法、装置和电子设备 |
CN109472305A (zh) * | 2018-10-31 | 2019-03-15 | 国信优易数据有限公司 | 答案质量确定模型训练方法、答案质量确定方法及装置 |
CN109635281A (zh) * | 2018-11-22 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 业务导图中更新节点的方法和装置 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN110162614A (zh) * | 2019-05-29 | 2019-08-23 | 三角兽(北京)科技有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN111190998A (zh) * | 2019-12-10 | 2020-05-22 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111680501A (zh) * | 2020-08-12 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 基于深度学习的问询信息识别方法、装置及存储介质 |
CN112307206A (zh) * | 2020-10-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 一种关于新技术的领域分类方法 |
CN112396444A (zh) * | 2019-08-15 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种智能机器人应答方法及装置 |
CN112667826A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN113609248A (zh) * | 2021-08-20 | 2021-11-05 | 北京金山数字娱乐科技有限公司 | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
US20220035728A1 (en) * | 2018-05-31 | 2022-02-03 | The Ultimate Software Group, Inc. | System for discovering semantic relationships in computer programs |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320374A (zh) * | 2008-07-10 | 2008-12-10 | 昆明理工大学 | 结合句法结构关系和领域特征的领域问题分类方法 |
-
2017
- 2017-07-17 CN CN201710582070.6A patent/CN107608999A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320374A (zh) * | 2008-07-10 | 2008-12-10 | 昆明理工大学 | 结合句法结构关系和领域特征的领域问题分类方法 |
Non-Patent Citations (4)
Title |
---|
刘端阳、王良芳: "结合语义扩展度和词汇链的关键词提取算法", 《计算机科学》 * |
吕愿愿等: "利用实体与依存句法结构特征的病历短文本分类方法", 《中国医疗器械杂志》 * |
徐建民 等: "利用本体关联度改进的 TF-IDF 特征词提取方法", 《情报科学》 * |
黄琰: "基于微博平台的新兴热点话题检测研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287822A (zh) * | 2018-01-23 | 2018-07-17 | 北京容联易通信息技术有限公司 | 一种中文相似问题生成系统与方法 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108376151B (zh) * | 2018-01-31 | 2020-08-04 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108614860A (zh) * | 2018-03-27 | 2018-10-02 | 成都律云科技有限公司 | 一种律师信息处理方法和系统 |
CN108595602A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于浅层模型与深度模型结合的问句文本分类方法 |
US20220035728A1 (en) * | 2018-05-31 | 2022-02-03 | The Ultimate Software Group, Inc. | System for discovering semantic relationships in computer programs |
US11748232B2 (en) * | 2018-05-31 | 2023-09-05 | Ukg Inc. | System for discovering semantic relationships in computer programs |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109191354A (zh) * | 2018-08-21 | 2019-01-11 | 安徽讯飞智能科技有限公司 | 一种基于自然语言处理的全民社管任务分发方法 |
CN109241261A (zh) * | 2018-08-30 | 2019-01-18 | 武汉斗鱼网络科技有限公司 | 用户意图识别方法、装置、移动终端及存储介质 |
CN109388801A (zh) * | 2018-09-30 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 相似词集合的确定方法、装置和电子设备 |
CN109472305A (zh) * | 2018-10-31 | 2019-03-15 | 国信优易数据有限公司 | 答案质量确定模型训练方法、答案质量确定方法及装置 |
CN109635281A (zh) * | 2018-11-22 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 业务导图中更新节点的方法和装置 |
CN109635281B (zh) * | 2018-11-22 | 2023-01-31 | 创新先进技术有限公司 | 业务导图中更新节点的方法和装置 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110162614A (zh) * | 2019-05-29 | 2019-08-23 | 三角兽(北京)科技有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN110162614B (zh) * | 2019-05-29 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN112396444A (zh) * | 2019-08-15 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种智能机器人应答方法及装置 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110489758B (zh) * | 2019-09-10 | 2023-04-18 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN112667826A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN111190998A (zh) * | 2019-12-10 | 2020-05-22 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111190998B (zh) * | 2019-12-10 | 2024-01-09 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111680501B (zh) * | 2020-08-12 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 基于深度学习的问询信息识别方法、装置及存储介质 |
CN111680501A (zh) * | 2020-08-12 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 基于深度学习的问询信息识别方法、装置及存储介质 |
CN112307206A (zh) * | 2020-10-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 一种关于新技术的领域分类方法 |
CN113609248A (zh) * | 2021-08-20 | 2021-11-05 | 北京金山数字娱乐科技有限公司 | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN101566998B (zh) | 一种基于神经网络的中文问答系统 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
CN111177374A (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN106095928A (zh) | 一种事件类型识别方法及装置 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
WO2020063071A1 (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN113032550B (zh) | 一种基于预训练语言模型的观点摘要评价系统 | |
CN114219248B (zh) | 一种基于lda模型、依存句法和深度学习的人岗匹配方法 | |
CN108717459A (zh) | 一种面向用户评论信息的移动应用缺陷定位方法 | |
CN106960003A (zh) | 抄袭检测中的基于机器学习的源检索的查询生成方法 | |
CN111813933A (zh) | 一种技术图谱中技术领域的自动识别方法 | |
CN108038099A (zh) | 基于词聚类的低频关键词识别方法 | |
CN110851593A (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN114610891B (zh) | 面向不平衡司法裁判文书数据的法条推荐方法及系统 | |
CN115935998A (zh) | 多特征金融领域命名实体识别方法 | |
CN114595691A (zh) | 一种基于课程学习的文本实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |
|
RJ01 | Rejection of invention patent application after publication |