CN104008187A - 一种基于最小编辑距离的半结构化文本匹配方法 - Google Patents
一种基于最小编辑距离的半结构化文本匹配方法 Download PDFInfo
- Publication number
- CN104008187A CN104008187A CN201410257734.8A CN201410257734A CN104008187A CN 104008187 A CN104008187 A CN 104008187A CN 201410257734 A CN201410257734 A CN 201410257734A CN 104008187 A CN104008187 A CN 104008187A
- Authority
- CN
- China
- Prior art keywords
- text
- semi
- structured text
- algorithm
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理领域,提出一种基于最小编辑距离的半结构化文本匹配方法。该方法包括如下步骤:一、对数据进行预处理;二、离线训练,确定对数似然率算法和左右熵算法阈值;三、结合这两种算法,在线为待评测的半结构化文本中非结构化文本抽取多词表达集合;四、利用抽取的多词表达集合,加上原评测文本中的结构化串,得到该文本的基于多词表达集合的文本表达;五、利用基于最小编辑距离的半结构化文本匹配方法,计算输入的半结构化文本和待匹配的半结构化文本的匹配度;六、以特征集合的相似度来衡量文本的匹配度,输出排序结果(Top-N)。利用本发明实施例,能够提高半结构化文本的匹配准确度,具有很大的实用价值。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于最小编辑距离的半结构化文本匹配方法。
背景技术
网络信息的海量增加使得信息检索成为信息获取的重要途径。基于关键词的信息检索已得到了广泛的研究和应用。但是,基于关键词在很多场合下并不能满足日益增长的各种信息获取需求。比如,个人职位搜索,在网络上有许多职位描述,当输入一个关键词时,是可以返回一些满足条件的职位信息,但是,仅凭几个关键词往往很难准确获得所需信息,更为有效的职位搜索是基于求职简历的直接搜索。即输入一份简历,通过简历信息与职位数据的全文匹配,返回与简历要求相吻合的职位信息。在相反方向,公司人才搜索也是同样的情况,需要输入一个职位要求,去和简历数据进行匹配。除了职位和人才搜索,婚介、房租等等都存在供需双方的信息匹配问题。而不论是哪一方的信息,都不是用简单的几个关键词进行描述,而是采用了一个文本进行描述,在描述文本中,可以包括结构化数据,如简历中的身高、年龄、学历等可以结构化地给出,也包含半结构甚至是非结构化的数据,比如简历中的教育和工作经历,个人兴趣,专长以及自我评价等,都可能以半结构或非结构化的方式出现。而往往在求职时,这些非结构化具有重要的作用。
于是,在这种应用中,问题的关键是文本的匹配。与此相关的文本相似度研究也有很丰富的成果,其中典型的是基于向量空间模型的文本相似度计算。其它如基于VSM的文档聚类、基于VSM的文本分类、基于VSM的信息检索等研究,在这些研究中,文本特征的选择、特征值的计算以及相似度度量是关键因素。
传统的计算文本相似度的方法主要有基于向量空间模型(VSM)夹角余弦距离文本相似度算法、基于词共现的文本相似度计算算法、基于事件的文本相似度计算算法等。但是在上述职位搜索等类型的文本匹配应用中,我们采用的是多词表达作为简历职位文本的特征,多词表达的颗粒度一般都比较大,而特征个数也比较少,存在数据很稀疏的问题,传统的基于向量空间模型的计算文本相似度的方法,不是很适用于职位搜索排序,它的计算结果很大可能为0。同时考虑到从用户的角度出发,用简历文本主动地去计算与职位文本的相似度,简历具有主动性,职位具有被动性,这与计算两平等的一般文本间的相似度的物理意义不同。
发明内容
本发明提供一种基于最小编辑距离的半结构化文本匹配方法,包含以下步骤:
一、对数据进行预处理,分别把训练和测试的半结构化文本分成两部分:结构化文本和非结构化文本,并对非结构化文本进行分词处理。
二、根据训练数据,确定对数似然率算法(LLR)和左右熵算法(LRE)的阈值,具体方法如下:
1)首先利用对数似然率(LLR)公式,在非结构化文本中抽取多词表达候选,
计算相邻单元间的score值,其中a:X与Y同时出现的频次;b:紧邻着X右边的词不是Y的频次;c:紧邻着Y左边的词不是X的频次;d:两个紧邻着的词既不是X,也不是Y的频次,即d=N-a-b-c(N为语料集中词的总数);按score值的大小依次构建二叉树,给定一个LLR阈值,如果某节点的score值大于阈值,则以此节点为根的二叉树除叶子节点外的每个节点就是多词表达候选;
2)利用左右熵进一步过滤基于LLR算法得到的多次表达候选,其特征在于,
其中,xy表示候选的单元,a,b分别是左接和右接候选单元xy的汉字,当给定一个左右熵阈值,大于阈值的候选确定为多词表达;
3)根据训练集中抽取的多词表达的正确率和召回率,同时确定两个算法的最佳阈值。
三、根据LLR算法和LRE算法,并利用离线训练出的LLR算法和LRE算法的阈值,在线地为每一个测试的半结构化文本中非结构化文本抽取一个多词表达集合。
四、利用上一步抽取的多词表达集合,再加上这些文本中的原结构化串,就可以得到该文本的基于多词表达集合的文本表达,用多词表达集合和结构化字符串来表征文本。
五、利用发明人提出的基于最小编辑距离(MED)的匹配度计算模型,计算输入的半结构化文本和待匹配的半结构化文本的匹配度,具体方法如下:
1)两个串之间基于MED的相似度s1、s2为两个符号串;
2)两个串集合R,J,R={r1,r2,...,ri,...,rn}、J={j1,j2,...,jk,...,jm},ri(1≤i≤n)和jk(1≤k≤m)均为符号串,集合相似度定义为
其中,|R|=n,|J|=m分别表示关键词集合R和J中关键词的个数;|R∩J|表示集合R和集合J相同的串的个数;R-J表示所有属于集合R而不属于集合J中的串组成的集合;J-R表示所有属于集合J而不属于集合R中的串组成的集合。
六、对计算出的匹配度按从大到小排序,输出排序结果(Top-N),最靠前表示匹配度最强,最靠后表示匹配度最弱。
本发明的有益效果在于,相对于基于传统的向量空间模型中余弦距离的方法,试验结果验证了本发明在半结构化文本匹配中具有更高的准确率和召回率,具有很强的实用性。
附图说明
图1是本发明的流程图。
具体实施方式
本发明提供下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明的流程图,其中虚线表示训练部分流程走向,实现表示测试部分流程走向,包括以下步骤:
第一步:预处理。
步骤S1:把半结构化文本分成两部分:结构化文本和非结构化文本,并对非结构化文本进行分词处理。
第二步:根据训练数据,确定对数似然率算法(LLR)和左右熵算法(LRE)的阈值。
步骤S2:根据对数似然率算法抽取多词表达候选;
步骤S3:根据左右熵算法确定最终的多词表达;
步骤S4:根据F-measure值确定LLR算法和LRE算法的阈值。
第三步:抽取测试文本特征表示。
步骤S5:根据LLR算法和LRE算法,并利用训练得到的阈值,抽取测试文本非结构化部分的文本中的多词表达集合;
步骤S6:使用测试文本中结构化文本集合和抽取的多词表达集合的并集作为原半结构化文本的特征表示。
第四步:计算匹配度并输出结果。
步骤S7:利用发明人提出的基于最小编辑距离的匹配度计算模型计算两半结构化文本的匹配度;
步骤S8:对匹配度进行降序排列,输出结果。
下面将对每个步骤进行具体的说明:
步骤S1分别把训练和测试的半结构化文本分成两部分:结构化文本和非结构化文本,并对结构化文本进行分词处理。
步骤S2在非结构化文本抽取多词表达,利用对数似然率(LLR)公式
计算相邻单元间的score值,其中a:X与Y同时出现的频次;b:紧邻着X右边的词不是Y的频次;c:紧邻着Y左边的词不是X的频次;d:两个紧邻着的词既不是X,也不是Y的频次,即d=N-a-b-c(N为语料集中词的总数);按score值的大小依次构建二叉树,给定一个LLR阈值,如果某节点的score值大于阈值,则以此节点为根的二叉树除叶子节点外的每个节点就是多词表达候选。
步骤S3利用左右熵进一步过滤基于LLR算法得到的多次表达候选,其特征在于,
其中,xy表示候选的单元,a,b分别是左接和右接候选单元xy的汉字,当给定一个左右熵阈值,大于阈值的候选确定为多词表达。
步骤S4根据训练集中抽取的多词表达的正确率和召回率,同时确定两个算法各自的最佳阈值。
步骤S5根据LLR算法和LRE算法,并利用离线训练出的LLR算法和LRE算法的阈值,在线地为每一个测试的半结构化文本中非结构化文本抽取一个多词表达集合。
步骤S6利用上一步抽取的多词表达集合,再加上这些文本中的原结构化串,就可以得到该文本的基于多词表达集合的文本表达,用多词表达集合和结构化字符串来表征文本。
步骤S7利用发明人提出的基于最小编辑距离的匹配度计算模型,计算输入的半结构化文本和待匹配的半结构化文本的匹配度,具体方法如下:
1)两个串之间基于MED的相似度s1、s2为两个符号串;
2)两个串集合R,J,R={r1,r2,...,ri,...,rn}、J={j1,j2,...,jk,...,jm},ri(1≤i≤n)和jk(1≤k≤m)均为符号串,集合相似度定义为
其中,|R|=n,|J|=m分别表示关键词集合R和J中关键词的个数;|R∩J|表示集合R和集合J相同的串的个数;R-J表示所有属于集合R而不属于集合J中的串组成的集合;J-R表示所有属于集合J而不属于集合R中的串组成的集合。
步骤S8对计算出的匹配度按从大到小排序,输出排序结果,最靠前表示匹配度最强,最靠后表示匹配度最弱。
以上结合附图对所提出的基于最小编辑距离的半结构化文本匹配方法的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于最小编辑距离的半结构化文本匹配方法,其特征在于,包括以下步骤:
⑴对数据进行预处理,把半结构化文本分成两部分:结构化文本和非结构化文本,并对非结构化文本进行分词处理;
⑵离线训练:根据对数似然率算法(LLR)和左右熵算法(LRE),抽取训练数据的非结构化文本部分中的多词表达,来确定对数似然率算法和左右熵算法的阈值;
⑶根据LLR算法和LRE算法,并利用离线训练出的LLR算法和LRE算法的阈值,在线地为每一个待测试的半结构化文本中非结构化文本抽取一个多词表达集合;
⑷利用上一步抽取的多词表达集合,再加上这些文本中的原结构化串,就可以得到该文本的基于多词表达集合的文本表达,用多词表达集合和结构化字符串来表征文本;
⑸利用基于基于最小编辑距离的半结构化文本匹配方法,计算输入的半结构化文本和待匹配的半结构化文本的相似度(匹配度);
⑹以特征集合的相似度来衡量文本的相似度(匹配度),对计算出的匹配度按从大到小排序,输出排序结果(Top-N),最靠前表示匹配度最强,最靠后表示匹配度最弱。
2.根据权利要求1所述的一种基于最小编辑距离的半结构化文本匹配方法中,训练对数似然率算法(LLR)的阈值特征在于,利用对数似然率(LLR)公式
计算相邻单元间的score值,其中a:X与Y同时出现的频次;b:紧邻着X右边的词不是Y的频次;c:紧邻着Y左边的词不是X的频次;d:两个紧邻着的词既不是X,也不是Y的频次,即d=N-a-b-c(N为语料集中词的总数);按score值的大小依次构建二叉树,给定一个LLR阈值,如果某节点的score值大于阈值,则以此节点为根的二叉树除叶子节点外的每个节点就是多词表达候选。
3.根据权利要求1所述的利用左右熵进一步过滤基于LLR算法得到的多次表达候选,其特征在于,
其中,xy表示候选的单元,a,b分别是左接和右接候选单元xy的汉字,当给定一个左右熵阈值,大于阈值的候选确定为多词表达。
4.根据权利要求1所述的确定对数似然率算法和左右熵算法的阈值,其特征在于,根据训练集中抽取的多词表达的正确率和召回率,同时确定两个算法的最佳阈值。
5.根据权利要求1所述的一种基于最小编辑距离的半结构化文本匹配方法,其特征在于,以最小编辑距离为基础定义两个文本特征集合的相似度模型步骤为:
1)两个串之间基于MED的相似度s1、s2为两个符号串;
2)两个串集合R,J,R={r1,r2,...,ri,...,rn}、J={j1,j2,...,jk,...,jm},ri(1≤i≤n)和jk(1≤k≤m)均为符号串,集合相似度定义为
其中,|R|=n,|J|=m分别表示关键词集合R和J中关键词的个数;|R∩J|表示集合R和集合J相同的串的个数;R-J表示所有属于集合R而不属于集合J中的串组成的集合;J-R表示所有属于集合J而不属于集合R中的串组成的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410257734.8A CN104008187B (zh) | 2014-06-11 | 2014-06-11 | 一种基于最小编辑距离的半结构化文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410257734.8A CN104008187B (zh) | 2014-06-11 | 2014-06-11 | 一种基于最小编辑距离的半结构化文本匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008187A true CN104008187A (zh) | 2014-08-27 |
CN104008187B CN104008187B (zh) | 2017-02-01 |
Family
ID=51368844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410257734.8A Expired - Fee Related CN104008187B (zh) | 2014-06-11 | 2014-06-11 | 一种基于最小编辑距离的半结构化文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008187B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980961A (zh) * | 2017-03-02 | 2017-07-25 | 中科天地互联网科技(苏州)有限公司 | 一种简历筛选匹配方法及系统 |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN109920431A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110019665A (zh) * | 2017-09-30 | 2019-07-16 | 北京国双科技有限公司 | 文本检索方法及装置 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
CN110781204A (zh) * | 2019-09-09 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN113076734A (zh) * | 2021-04-15 | 2021-07-06 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN103294817A (zh) * | 2013-06-13 | 2013-09-11 | 华东师范大学 | 一种基于类别分布概率的文本特征抽取方法 |
-
2014
- 2014-06-11 CN CN201410257734.8A patent/CN104008187B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN103294817A (zh) * | 2013-06-13 | 2013-09-11 | 华东师范大学 | 一种基于类别分布概率的文本特征抽取方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980961A (zh) * | 2017-03-02 | 2017-07-25 | 中科天地互联网科技(苏州)有限公司 | 一种简历筛选匹配方法及系统 |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN107256245B (zh) * | 2017-06-02 | 2020-05-05 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN110019665A (zh) * | 2017-09-30 | 2019-07-16 | 北京国双科技有限公司 | 文本检索方法及装置 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
CN110162750B (zh) * | 2019-01-24 | 2023-07-07 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
CN109920431A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
US11132996B2 (en) | 2019-03-05 | 2021-09-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for outputting information |
CN109920431B (zh) * | 2019-03-05 | 2021-12-07 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110781204A (zh) * | 2019-09-09 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
CN110781204B (zh) * | 2019-09-09 | 2024-02-20 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN113076734A (zh) * | 2021-04-15 | 2021-07-06 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
CN113076734B (zh) * | 2021-04-15 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104008187B (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
Vateekul et al. | A study of sentiment analysis using deep learning techniques on Thai Twitter data | |
CN104008187B (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
Lahitani et al. | Cosine similarity to determine similarity measure: Study case in online essay assessment | |
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
CN109344399B (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109284406A (zh) | 基于差异循环神经网络的意图识别方法 | |
CN107895000A (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
Anistya et al. | Hate Speech Detection on Twitter in Indonesia with Feature Expansion Using GloVe | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Ong et al. | Sentiment analysis of informal Malay tweets with deep learning | |
Mozafari et al. | Emotion detection by using similarity techniques | |
CN106681986A (zh) | 一种多维度情感分析系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Luo | A new text classifier based on random forests | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170201 |
|
CF01 | Termination of patent right due to non-payment of annual fee |