[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107679110A - 结合文本分类与图片属性提取完善知识图谱的方法及装置 - Google Patents

结合文本分类与图片属性提取完善知识图谱的方法及装置 Download PDF

Info

Publication number
CN107679110A
CN107679110A CN201710834107.XA CN201710834107A CN107679110A CN 107679110 A CN107679110 A CN 107679110A CN 201710834107 A CN201710834107 A CN 201710834107A CN 107679110 A CN107679110 A CN 107679110A
Authority
CN
China
Prior art keywords
image
result
attribute
picture
described image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710834107.XA
Other languages
English (en)
Inventor
崔燕红
徐然
黄惠燕
张智祺
郭安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Vipcom Research Institute Co Ltd
Original Assignee
Guangzhou Vipcom Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Vipcom Research Institute Co Ltd filed Critical Guangzhou Vipcom Research Institute Co Ltd
Priority to CN201710834107.XA priority Critical patent/CN107679110A/zh
Publication of CN107679110A publication Critical patent/CN107679110A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合文本分类与图片属性提取完善知识图谱的方法及装置,属于计算机技术领域。所述方法包括:对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果;根据所述属性分类结果完善知识图谱。本发明通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,最终起到完善知识图谱的作用,可用于多种网络平台或搜索平台等领域中。

Description

结合文本分类与图片属性提取完善知识图谱的方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种结合文本分类与图片属性提取完善知识图谱的方法及装置。
背景技术
文本分类属于文本挖掘方法的一种,文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。高品质的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即学习已命名实体之间的关系)。
目前基于图像识别的方案主要是利用标注的大量图片作为训练集,然后基于训练集学习出一个图像识别模型,利用学习出的模型对新发表的图片进行识别分析,识别出图片中的人物、动物、物品等信息,然后将识别出的信息同内容标签进行映射。其存训练数据有限,从而导致图片识别准确率低,误判率较高,而且识别出的图片信息同用户标签关联难度大的技术缺陷。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种结合文本分类与图片属性提取完善知识图谱的方法及装置。所述技术方案如下:
第一方面,提供了一种结合文本分类与图片属性提取完善知识图谱的方法,所述方法包括:
对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果;根据所述属性分类结果完善知识图谱。
结合第一方面,在第二种可能的实现方式中,所述对代表图片属性类别的文本进行分类,获取属性分类结果,包括:获取已作相应标注的代表图片属性类别的文本的中文训练语料;对所述中文训练语料进行分词和词性标注;进行词向量表达;进行目标分类聚类,获取属性分类结果。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述进行目标分类聚类,获取属性分类结果,包括:
根据预设属性类别关系进行目标分类聚类,获取属性分类结果。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述进行目标分类聚类,获取属性分类结果,包括:判断目标分类数是否大于预设阈值;若目标分类数大于预设阈值,执行目标分类聚类,获取属性分类结果。
结合第一方面,在第五种可能的实现方式中,所述提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息,包括:通过预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达,获取图像表达结果。
结合第一方面,在第六种可能的实现方式中,所述根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果中,包括:将所述图像以及所述图像对应的属性信息通过bagging算法进行处理,获得处理结果;根据所述预设关系将所述处理结果与所述属性分类结果进行匹配,获得匹配结果;将所述匹配结果加入所述属性分类结果。
结合第一方面,在第七种可能的实现方式中,根据所述属性分类结果完善知识图谱,包括:根据预设程序对所述属性分类结果进行数据处理,更新知识图谱。
第二方面,提供了一种结合文本分类与图片属性提取完善知识图谱的装置,所述装置包括:
分类获取模块,用于对代表图片属性类别的文本进行分类,获取属性分类结果;提取存储模块,用于提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;计算模块,用于根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果中,以及根据所述属性分类结果完善知识图谱。
结合第二方面,在第二种可能的实现方式中,所述提取存储模块包括:识别模块,用于通过所述预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达;获取模块,用于获取图像表达结果。
结合第二方面,在第三种可能的实现方式中,所述计算模块包括:数据处理模块,用于将所述图像以及所述图像对应的属性信息通过bagging算法进行处理,获得处理结果;还用于根据所述预设关系将所述处理结果与所述属性分类结果进行匹配,获得匹配结果,以及将所述匹配结果加入所述属性分类结果。
第三方面,提供了一种结合文本分类与图片属性提取完善知识图谱的装置,所述装置包括:
存储器以及与所述存储器连接的处理器,所述存储器用于储存一组程序代码,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果;根据所述属性分类结果完善知识图谱。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法及装置,通过对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,从而起到完善知识图谱的作用,最终实现了图片识别准确率高,误判率较低,而且由于将文本分类与图片属性相结合,并进行匹配关联,克服了以往识别出的图片信息同用户标签关联难度大的技术问题,可用于多种网络平台或搜索平台等领域中。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的结合文本分类与图片属性提取完善知识图谱的方法流程图;
图2是本发明实施例2提供的结合文本分类与图片属性提取完善知识图谱的方法流程图;
图3本发明实施例2提供的结合文本分类与图片属性提取完善知识图谱的方法的一个具体应用实例流程示意图;
图4是本发明实施例3提供的结合文本分类与图片属性提取完善知识图谱的装置结构示意图;
图5是本发明实施例4提供的结合文本分类与图片属性提取完善知识图谱的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法及装置,通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,最终起到完善知识图谱的作用,可用于多种网络平台或搜索平台等领域中。
下面结合具体实施例及附图对本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法及装置作进一步说明。
实施例1
图1是本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法流程图,如图1所示,本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法包括:
101、对代表图片属性类别的文本进行分类,获取属性分类结果。
具体的,
第一步、获取已作相应标注的代表图片属性类别的文本的中文训练语料。这里,代表图片属性类别的文本包括文本分类器中已存在的代表属性类别的文本或当下输入或添加的代表属性类别的文本。一般中文训练语料多以大量的文档存在,但是文档内容是人类的自然语言组成的,计算机不能直接阅读、理解。具体来说,主要具有以下几个原因:第一、自然语言有很复杂的语言结构,如语法、语义、语用等。第二、自然语言容易产生歧义,甚至必须依靠语境信息才能理解语言的意思。最后,自然语言的文档中还会存在“噪声”数据,如果直接用作分析,会对结果产生错误的引导。因此需要对获取的中文训练语料库进行处理,即对中文训练语料进行分词和词性标注。
第二步、对中文训练语料进行分词和词性标注;分词是指将一句或一段连续的文字按照一定的规则划分成词语的过程。在处理英文文档的时候,每个单词都是用空格隔开的,不需要设计算法对文档进行分词处理。而中文文档中,除了单个字、句子、段落间有比较明显的分解符外,词语是无法直接区分开的。所以,相对于英文文档,中文在分词这一层上,就要复杂很多,也一直作为学者们研究的一个方向。而其作为单独的研究方向,也有很多重要的应用,比如信息检索、中外文对译、自动摘要、自动分类等。尤其是互联网数据的迅速增长,中文信息也跟随着急剧膨胀,中文分词就显得越发的重要了。
目前,中文分词的方法主要分为基于词典的分词法和基于标注的分词法两类。顾名思义,基于词典的分词法首先要建立一个足够大的机器词典,然后按照一定得策略将待分析的字串与词典中的词条进行匹配。根据匹配策略的不同,可以分为最大匹配法、最大概率法、最短路径法以及未登录词识别方法。
最大匹配法(Maximum Matching Method,MM)的基本思想是:从待分词的语句中取m个字符作为匹配字段,查找机器字典并与之匹配。若匹配成功,则将此匹配字段作为一个词切分出来;若匹配失败,则去掉该匹配字段的最后一个词,形成新的匹配字段。新的匹配字段继续执行上述过程,直到匹配成功或者剩余字段的长度为零为止。整个过程在待分析的语句中迭代,直到分出所有的词,MM算法就会结束。上面过程中的m是机器字典里最长词中字符的个数。MM算法的本质是基于匹配实现分词的,实际上,基于匹配的分词方法还有很多其他的种类,如:1)正向最大匹配法,即从左到右的最大匹配算法;2)逆向最大匹配(Reverse MM,RMM),与MM的匹配方向相反。对于汉语来说,RMM会略好于MM;3)双向匹配(Bi-direction Matching Method),对比MM算法与RMM算法的分词结果来决定正确的分词;4)最佳匹配(Optimum Matching Method,OM),将机器词典中的词语按照它们在文本中的出现频率从大到小排列,以提高匹配的速度;5)最少切分,即在分词的时候,使得每句中分出来的词数最小。
另一类中文分词的算法是基于标注的方法,前面提到的一系列方法在分词的时候都需要有一个前提:事先编制的机器词典。中文分词的过程需要通过建立词典与待分词语句之间的关联来完成。而基于标注的方法不同,其实际上是一种构词的方法,把分词过程当作字在语句中的标注问题。基于标注的方法基本思想是:对汉字进行标注,即由字构词,也称之为组词的过程。该方法不仅考虑了文字词语出现的频率信息,同时考虑了上下文语境信息。
基于标注的方法主要包括以下三个步骤:
1)学习。所有的字根据预定义的特征进行词位特性的学习,获得一个训练模型。通常使用的学习方法有支持向量机(Support Vector Machine,SVM)、最大熵(MaximumEntropy)、隐马尔科夫模型(Hidden Markov Model,HMM)、条件随机场(Condition RandomFields,CRFs)等等。
2)词位标注。对于分语句的每个字进行词位标注,所谓词位,是指构成词语的每个汉字在一个特定的词语中都占据着一个确定的构词位置。词位一般有四种:词首(B)、词尾(E)、词中(M)、单字词(S)。
3)组合。根据标注的词位得到最终的分词结果。
相比于基于词典的方法,基于标注的方法对歧义词和未登录词的识别都有很好的效果,而且不用事先建立机器词典。但是,基于标注的方法需要训练,而且周期相对较长,计算量也比较大。
4)进行词向量表达,即特征表示或表征。
分词是数据预处理的第一步,也是数据结构化的起步阶段。而特征则是非结构化数据向结构化数据转化的关键操作。特征表示的模型有很多种,常用的布尔逻辑模型、向量空间模型、概率模型等。
布尔模型:建立在经典的集合论和布尔代数的基础上,每个词语在一篇文档中出现与否,用0或者1作为其权值,则文档就可以用0、1来表示。布尔模型简单、易理解,且形式简洁,但是其信息需求的能力表达不足。
向量空间模型(Vector Space Model,VSM):将文档表示为向量空间中的一个矢量或者一个点。VSM是近些年来使用较多、效果较好的模型,基本思想是将文本看作特征词的集合,并使用特征词的权向量表示文本。VSM中最关键的问题是权值的计算,最常用的特征权值计算方法为TF-IDF算法。TF-IDF算法由特征词的词频(Term Frequency,TF)和特征词的倒排文本词频(Inverse Document Frequency,IDF)两个部分组成。其意义是当一个词语在文档中出现的范围越广,说明它区分文本属性的能力越低。另外,还有词频、文档频次等方法。
概率模型:以布尔模型为基础,为了解决检索中存在的一些不确定性。首先,需要设定特征词的概率值,一般是通过计算查询文档与文档的相关性实现的。然后根据每个词语在相关文档和无关文档中的分布情况来计算相关概率,最后将某个文档中所有特征词的权值求和便得到该文档的权值。
在经过特征的表示后,需要对特征进行选择,即特征提取。其主要方法是通过某种评估函数计算每个特征词的评估值,按照大小排序,从中选择出需要的特征词,该过程称之为评估函数法。因此,特征提取的关键问题就是评估函数的设计。当前,实际中应用比较广泛的几种评估函数主要有互信息、信息增益、统计法等。
还有其他方法如期望交叉熵、文本证据权、优势率等等,有研究学者用实验证明在众多方法中,统计法的效果相对较好。
第四步、进行目标分类聚类,获取属性分类结果。在数据预处理后,就是文本挖掘中非常重要的两个工作:文本聚类和分类。文本聚类属于非监督的分类,没有标签信息,自动将文本分成若干类别。实际上,在文本数据经过特征提取、向量化后,其聚类的过程与机器学习中通常聚类过程一样。常用的聚类算法主要有划分法、层次法、密度法、图论聚类法等,其对应的代表算法主要有K-Means算法、BIRCH算法、DBSCAN算法等等。
相比于聚类,文本分类的目的更为明确,属于监督的学习过程。文本分类的任务是对所给定的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类,是许多数据管理任务的重要组成部分。同样,经过数据预处理后,文本分类存在着和一般分类同样多的方法,比较常用的就是Rocchio算法,朴素贝叶斯算法、K-近邻算法、决策树算法、神经网络和支持向量机。另外,近年来提出的深度学习也同样适用于文本分类,并取得较好的效果。
值得注意的是,步骤102对代表图片属性类别的文本进行分类,获取属性分类结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
102、提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息。
具体的,提取图片的图像属性信息可以通过预设神经网络模型进行图像表达,获取图像表达结果,即图片的图像属性信息。
示例性地,通过预设神经网络模型对图片上的所有元素(例如这里的元素可以以图片的每个图案块为单位)或部分元素进行图像表达,获取每个元素的图像表达结果,每一个表达结果对应一个属性标签,用于表达图片的图像信息。进一步地,根据预设神经网络模型对图片所有元素或部分元素的不同,具体的表达过程可以分为以下两种情况:1)将图片的所有元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果;2)当需要根据目标商品进行图片的部分元素表达时,根据预定义规则确定上述部分元素,然后将图片的这些元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果。
示例性地,通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。比如利用16层的VGG模型进行图像表达。该预设深度卷积神经网络模型利用多层神经网络刻画图像中从简单到复杂的一系列特征,比如较低层学习出简单形状,颜色,纹理等简单模式,不断组合形成逐渐复杂的具有语义信息的模式,比如脸部特征,衣领特征等等。如图4所示,VGG模型的卷积部分由五组【3*3*N卷积层+2*2max-pooling+Relu】的block组成;之后连接两层全连接网络(fc6,fc7)得到4096维的特征;之后进行一层全连接网络(fc8)得到多分类的logits;最后对logits进行softmax分类得到所有类别的概率。
值得注意的是,步骤102提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
103、根据预设关系将图像以及图像对应的属性信息加入属性分类结果。
具体的,根据预设关系判断图像和图像对应的属性信息属于属性分类结果中的哪个属性类别,将图像以及图像对应的属性信息加入到属性分类结果中。
值得注意的是,步骤103根据预设关系将图像以及图像对应的属性信息加入属性分类结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定,并且对于其中判断图像和图像对应的属性信息属于属性分类结果中的哪个属性类别的判断方式也不加以限定。
104、根据属性分类结果完善知识图谱。
具体的,根据预设程序对属性分类结果进行相应数据处理(例如数据匹配、数据关联等)后,更新现有的知识图谱,使其形成一个更加完善的知识图谱,为后续的实体推荐、知识推理等打下数据基础。知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络,能够提供实体最全面、关联的知识和解释。
值得注意的是,步骤104根据属性分类结果完善知识图谱,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
综上所述,本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法及装置,通过对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,从而起到完善知识图谱的作用,最终实现了图片识别准确率高,误判率较低,而且由于将文本分类与图片属性相结合,并进行匹配关联,克服了以往识别出的图片信息同用户标签关联难度大的技术问题,可用于多种网络平台或搜索平台等领域中。
实施例2
图2是本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法流程图,图3本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法的一个具体应用实例流程示意图,如图2和图3所示,本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法包括:
201、获取已作相应标注的代表图片属性类别的文本的中文训练语料。这里,代表图片属性类别的文本包括文本分类器中已存在的代表属性类别的文本或当下输入或添加的代表属性类别的文本。
值得注意的是,步骤201获取已作相应标注的代表图片属性类别的文本的中文训练语料,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
202、对中文训练语料进行分词和词性标注。这里采用的方法包括基于词典的分词法和基于标注的分词法两类。基于词典的分词法首先要建立一个足够大的机器词典,然后按照一定得策略将待分析的字串与词典中的词条进行匹配。根据匹配策略的不同,可以分为最大匹配法、最大概率法、最短路径法以及未登录词识别方法。词性标注可以按以下方式进行:根据预定义的特征进行词位特性的学习,获得一个训练模型;对于分语句的每个字进行词位标注;根据标注的词位得到最终的分词结果。
值得注意的是,步骤202对中文训练语料进行分词和词性标注,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
203、进行词向量表达,通过多种预设模型进行特征表示,这里的预设模型包括尔逻辑模型、向量空间模型、概率模型的等等。
示例性地,概率模型以布尔模型为基础,为了解决检索中存在的一些不确定性。首先,需要设定特征词的概率值,一般是通过计算查询文档与文档的相关性实现的。然后根据每个词语在相关文档和无关文档中的分布情况来计算相关概率,最后将某个文档中所有特征词的权值求和便得到该文档的权值。
在经过特征的表示后,需要对特征进行选择,即特征提取。其主要方法是通过某种评估函数计算每个特征词的评估值,按照大小排序,从中选择出需要的特征词,该过程称之为评估函数法。因此,特征提取的关键问题就是评估函数的设计。当前,实际中应用比较广泛的几种评估函数主要有互信息、信息增益、统计法等。
还有其他方法如期望交叉熵、文本证据权、优势率等等,有研究学者用实验证明在众多方法中,统计法的效果相对较好。
值得注意的是,步骤203获取已作相应标注的代表图片属性类别的文本的中文训练语料,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
204、进行目标分类聚类,获取属性分类结果。优选地,根据预设属性类别关系进行目标分类聚类,获取属性分类结果,具体地该过程可以为:判断目标分类数是否大于预设阈值;若目标分类数大于预设阈值,执行目标分类聚类,获取属性分类结果。
值得注意的是,步骤204进行目标分类聚类、获取属性分类结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
205、通过预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达,获取图像表达结果。
示例性地,通过预设深度卷积神经网络模型对图片上的所有元素(例如这里的元素可以以图片的每个图案块为单位)或部分元素进行图像表达,获取每个元素的图像表达结果,每一个表达结果对应一个属性标签,用于表达图片的图像信息。进一步地,根据预设神经网络模型对图片所有元素或部分元素的不同,具体的表达过程可以分为以下两种情况:1)将图片的所有元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果;2)当需要根据目标商品进行图片的部分元素表达时,根据预定义规则确定上述部分元素,然后将图片的这些元素遍历所采用的一个预设神经网络模型或多个预设神经网络模型,最终获得每个元素的图像表达结果。
示例性地,通过预设深度卷积神经网络模型进行全局图像表达,获取图像表达结果。比如利用16层的VGG模型进行图像表达。该预设深度卷积神经网络模型利用多层神经网络刻画图像中从简单到复杂的一系列特征,比如较低层学习出简单形状,颜色,纹理等简单模式,不断组合形成逐渐复杂的具有语义信息的模式,比如脸部特征,衣领特征等等。如图4所示,VGG模型的卷积部分由五组【3*3*N卷积层+2*2max-pooling+Relu】的block组成;之后连接两层全连接网络(fc6,fc7)得到4096维的特征;之后进行一层全连接网络(fc8)得到多分类的logits;最后对logits进行softmax分类得到所有类别的概率。
值得注意的是,步骤205通过预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达、获取图像表达结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
206、将图像以及图像对应的属性信息通过bagging算法进行处理,获得处理结果。具体地,通过bagging vote的方式将图像和图像对应的属性信息分别进行对应填写等相应操作,从而获得处理结果。
值得注意的是,步骤206将图像以及图像对应的属性信息通过bagging算法进行处理、获得处理结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
207、根据预设关系将处理结果与属性分类结果进行匹配,获得匹配结果。具体地,根据预设关系判断处理结果中的图像和图像属性信息属于属性分类结果中的哪个属性类别,将图像以及图像对应的属性信息加入到属性分类结果中。
值得注意的是,步骤207根据预设关系将处理结果与属性分类结果进行匹配、获得匹配结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定,并且对于其中判断处理结果中的图像和图像属性信息属于属性分类结果中的哪个属性类别的判断方式也不加以限定。
208、将匹配结果加入属性分类结果。这里,步骤208将匹配结果加入属性分类结果,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
209、根据预设程序对属性分类结果进行数据处理,更新知识图谱。具体地,根据预设程序对属性分类结果进行相应数据处理(例如数据匹配、数据关联等)后,更新现有的知识图谱,使其形成一个更加完善的知识图谱,为后续的实体推荐、知识推理等打下数据基础。知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络,能够提供实体最全面、关联的知识和解释。
值得注意的是,步骤209根据预设程序对属性分类结果进行数据处理、更新知识图谱,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
综上所述,本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法,通过对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,最终起到完善知识图谱的作用,可用于多种网络平台或搜索平台等领域中。
实施例3
图4是本发明实施例3提供的结合文本分类与图片属性提取完善知识图谱的装置3结构示意图,如图4所示,本发明实施例3提供的结合文本分类与图片属性提取完善知识图谱的装置3包括:
分类获取模块31,用于对代表图片属性类别的文本进行分类,获取属性分类结果。具体地,分类获取模块31又包括分类模块311和获取模块312,分类模块311用于对代表图片属性类别的文本进行分类,获取模块312用于获取属性分类结果。
提取存储模块32,用于提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息。具体地,提取存储模块32又包括识别模块321和获取模块322,识别模块321用于通过所述预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达,获取模块322用于获取图像表达结果。
计算模块33,用于根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果中,以及根据所述属性分类结果完善知识图谱。具体地,计算模块33又包括数据处理模块,用于将所述图像以及所述图像对应的属性信息通过bagging算法进行处理,获得处理结果;还用于根据所述预设关系将所述处理结果与所述属性分类结果进行匹配,获得匹配结果,以及将所述匹配结果加入所述属性分类结果。
本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的装置,通过其包括的分类获取模块、提取存储模块以及计算模块,对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,最终起到完善知识图谱的作用,可用于多种网络平台或搜索平台等领域中。
实施例4
图5是发明实施例4提供的结合文本分类与图片属性提取完善知识图谱的装置4结构示意图,如图5所示,本发明实施例提供的结合图片和文本进行图片属性分类的装置包括:存储器41以及与存储器连接的处理器42,存储器41用于储存一组程序代码,处理器42调用存储器41所存储的程序代码用于执行以下操作:
对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果;根据所述属性分类结果完善知识图谱。
本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的装置,通过其包括的存储器和处理器,对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,最终起到完善知识图谱的作用,可用于多种网络平台或搜索平台等领域中。
综上所述,本发明实施例提供的结合文本分类与图片属性提取完善知识图谱的方法及装置,通过对代表图片属性类别的文本进行分类,获取属性分类结果;提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果,实现了根据属性分类结果完善知识图谱通过结合文本分类与图片属性提取,使获得的目标属性数据更充分、全面,从而起到完善知识图谱的作用,最终实现了图片识别准确率高,误判率较低,而且由于将文本分类与图片属性相结合,并进行匹配关联,克服了以往识别出的图片信息同用户标签关联难度大的技术问题,可用于多种网络平台或搜索平台等领域中。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的结合文本分类与图片属性提取完善知识图谱的装置在进行结合文本分类与图片属性提取完善知识图谱业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置或设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的结合文本分类与图片属性提取完善知识图谱的装置与结合文本分类与图片属性提取完善知识图谱的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种结合文本分类与图片属性提取完善知识图谱的方法,其特征在于,所述方法包括:
对代表图片属性类别的文本进行分类,获取属性分类结果;
提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;
根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果;
根据所述属性分类结果完善知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述对代表图片属性类别的文本进行分类,获取属性分类结果,包括:
获取已作相应标注的代表图片属性类别的文本的中文训练语料;
对所述中文训练语料进行分词和词性标注;
进行词向量表达;
进行目标分类聚类,获取属性分类结果。
3.根据权利要求2所述的方法,其特征在于,所述进行目标分类聚类,获取属性分类结果,包括:
根据预设属性类别关系进行目标分类聚类,获取属性分类结果。
4.根据权利要求2所述的方法,其特征在于,所述进行目标分类聚类,获取属性分类结果,包括:
判断目标分类数是否大于预设阈值;
若目标分类数大于预设阈值,执行目标分类聚类,获取属性分类结果。
5.根据权利要求1所述的方法,其特征在于,所述提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息,包括:
通过预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达,获取图像表达结果。
6.根据权利要求1所述的方法,其特征在于,所述根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果中,包括:
将所述图像以及所述图像对应的属性信息通过bagging算法进行处理,获得处理结果;
根据所述预设关系将所述处理结果与所述属性分类结果进行匹配,获得匹配结果;
将所述匹配结果加入所述属性分类结果。
7.根据权利要求1所述的方法,其特征在于,根据所述属性分类结果完善知识图谱,包括:
根据预设程序对所述属性分类结果进行数据处理,更新知识图谱。
8.一种结合文本分类与图片属性提取完善知识图谱的装置,其特征在于,所述装置包括:
分类获取模块,用于对代表图片属性类别的文本进行分类,获取属性分类结果;
提取存储模块,用于提取图片的图像属性信息,保存所述图像以及所述图像对应的属性信息;
计算模块,用于根据预设关系将所述图像以及所述图像对应的属性信息加入所述属性分类结果中,以及根据所述属性分类结果完善知识图谱。
9.根据权利要求8所述的装置,其特征在于,所述提取存储模块包括:
识别模块,用于通过所述预设深度卷积神经网络模型对图片的图像属性信息进行全局图像表达;
获取模块,用于获取图像表达结果。
10.根据权利要求8所述的装置,其特征在于,所述计算模块包括:
数据处理模块,用于将所述图像以及所述图像对应的属性信息通过bagging算法进行处理,获得处理结果;还用于根据所述预设关系将所述处理结果与所述属性分类结果进行匹配,获得匹配结果,以及将所述匹配结果加入所述属性分类结果。
CN201710834107.XA 2017-09-15 2017-09-15 结合文本分类与图片属性提取完善知识图谱的方法及装置 Pending CN107679110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710834107.XA CN107679110A (zh) 2017-09-15 2017-09-15 结合文本分类与图片属性提取完善知识图谱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710834107.XA CN107679110A (zh) 2017-09-15 2017-09-15 结合文本分类与图片属性提取完善知识图谱的方法及装置

Publications (1)

Publication Number Publication Date
CN107679110A true CN107679110A (zh) 2018-02-09

Family

ID=61136312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710834107.XA Pending CN107679110A (zh) 2017-09-15 2017-09-15 结合文本分类与图片属性提取完善知识图谱的方法及装置

Country Status (1)

Country Link
CN (1) CN107679110A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN108776805A (zh) * 2018-05-03 2018-11-09 北斗导航位置服务(北京)有限公司 一种建立图像分类模型、图像特征分类的方法及装置
CN109101486A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 一种对话角色区分方法、装置、终端设备及存储介质
CN109165293A (zh) * 2018-08-08 2019-01-08 上海宝尊电子商务有限公司 一种面向时尚领域的专业数据标注方法与程序
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111552811A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN112417167A (zh) * 2020-11-20 2021-02-26 中国平安人寿保险股份有限公司 保险知识图谱的构建方法、装置、计算机设备及存储介质
CN112948508A (zh) * 2021-04-15 2021-06-11 平安科技(深圳)有限公司 基于多层关联知识图谱的信息预测方法、装置、设备及介质
CN113792152A (zh) * 2021-08-23 2021-12-14 南京信息工程大学 一种三角图与知识图谱的融合方法
CN114925833A (zh) * 2022-04-20 2022-08-19 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN102254043A (zh) * 2011-08-17 2011-11-23 电子科技大学 一种基于语义映射的服装图像检索方法
CN105787482A (zh) * 2016-02-26 2016-07-20 华北电力大学 一种基于深度卷积神经网络的特定目标轮廓图像分割方法
CN105912656A (zh) * 2016-04-07 2016-08-31 桂林电子科技大学 一种商品知识图谱的构建方法
CN106776710A (zh) * 2016-11-18 2017-05-31 广东技术师范学院 一种基于垂直搜索引擎的图文知识库构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN102254043A (zh) * 2011-08-17 2011-11-23 电子科技大学 一种基于语义映射的服装图像检索方法
CN105787482A (zh) * 2016-02-26 2016-07-20 华北电力大学 一种基于深度卷积神经网络的特定目标轮廓图像分割方法
CN105912656A (zh) * 2016-04-07 2016-08-31 桂林电子科技大学 一种商品知识图谱的构建方法
CN106776710A (zh) * 2016-11-18 2017-05-31 广东技术师范学院 一种基于垂直搜索引擎的图文知识库构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENG CUI,SHAOWEI LIU: "Social-Sensed Image Search", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776805A (zh) * 2018-05-03 2018-11-09 北斗导航位置服务(北京)有限公司 一种建立图像分类模型、图像特征分类的方法及装置
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN108734212B (zh) * 2018-05-17 2024-06-04 腾讯科技(北京)有限公司 一种确定分类结果的方法以及相关装置
CN109101486A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 一种对话角色区分方法、装置、终端设备及存储介质
CN109165293A (zh) * 2018-08-08 2019-01-08 上海宝尊电子商务有限公司 一种面向时尚领域的专业数据标注方法与程序
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110321437B (zh) * 2019-05-27 2024-03-15 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111552811B (zh) * 2020-04-24 2023-06-02 深圳数联天下智能科技有限公司 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN111552811A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN112417167A (zh) * 2020-11-20 2021-02-26 中国平安人寿保险股份有限公司 保险知识图谱的构建方法、装置、计算机设备及存储介质
CN112948508A (zh) * 2021-04-15 2021-06-11 平安科技(深圳)有限公司 基于多层关联知识图谱的信息预测方法、装置、设备及介质
CN112948508B (zh) * 2021-04-15 2024-04-30 平安科技(深圳)有限公司 基于多层关联知识图谱的信息预测方法、装置、设备及介质
CN113792152A (zh) * 2021-08-23 2021-12-14 南京信息工程大学 一种三角图与知识图谱的融合方法
CN113792152B (zh) * 2021-08-23 2023-07-04 南京信息工程大学 一种三角图与知识图谱的融合方法
CN114925833A (zh) * 2022-04-20 2022-08-19 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法

Similar Documents

Publication Publication Date Title
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN108073677A (zh) 一种基于人工智能的多级文本多标签分类方法及系统
US20160350288A1 (en) Multilingual embeddings for natural language processing
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN112836509B (zh) 一种专家系统知识库构建方法及系统
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN108090070A (zh) 一种中文实体属性抽取方法
CN107301163B (zh) 包含公式的文本语义解析方法及装置
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN102289522A (zh) 一种对于文本智能分类的方法
CN108121702A (zh) 数学主观题评阅方法及系统
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN106997341A (zh) 一种创新方案匹配方法、装置、服务器及系统
CN106649250A (zh) 一种情感新词的识别方法及装置
CN108170678A (zh) 一种文本实体抽取方法与系统
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication