CN107862561A - 一种基于图片属性提取建立用户兴趣库的方法及设备 - Google Patents
一种基于图片属性提取建立用户兴趣库的方法及设备 Download PDFInfo
- Publication number
- CN107862561A CN107862561A CN201710832601.2A CN201710832601A CN107862561A CN 107862561 A CN107862561 A CN 107862561A CN 201710832601 A CN201710832601 A CN 201710832601A CN 107862561 A CN107862561 A CN 107862561A
- Authority
- CN
- China
- Prior art keywords
- user
- picture
- commodity
- unit
- item property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Library & Information Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于图片属性提取建立用户兴趣库的方法,包括:获取电商平台信息库中用户感兴趣商品的商品信息;利用预先训练的神经网络提取商品的图片特征,获取与上述图片特征相对应的语义特征,将语义特征定义为商品属性;创建以商品属性为基本知识单元和以商品类别、商品属性类型之间的关联关系为框架的用户兴趣库。本发明还公开了使用上述方法的设备。本发明方法简便易行、设备结构紧凑,通过图像物体识别、结合图像对应的知识图谱,实现了对于难以用语言描述的商品的描述和搜索,给用户带来新颖而舒适的购物体验。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于图片属性提取建立用户兴趣库的方法及设备。
背景技术
电商导购平台发展的前期阶段主要是单纯为用户提供流量引导和商品推荐,并且所专注的市场也多位女性群体,因此并不能全方面满足用户的针对购物需求。后期一直在定位上更加垂直和精准而努力,以期专门针对用户推荐有强烈需求的商品,使得所推荐的商品完全符合用户需求,因而更具精准和用户体验。
而且,现有电商导购一般采用用户搜索查询或者分类查询的方式来找到目标商品,但是对商品的样式比如衣服的样式,皮包的材质等并不易用简单的文字来描述,为用户准确检索感兴趣的商品提升了难度。而近些年,计算机识别和物品特征抽取等计算机技术兴起,为用户导购基于图片信息的读取、识别、检索和推荐,可以帮助发现用户的购买兴趣以及更深层的知识,为用户带来便捷、高效、精准的商品搜索和推荐,从而享受新颖的购物体验。
而商品的图片特征提取基于商品知识图谱在电商平台的建立,利用训练的神经网络可以读取用户感兴趣的商品信息,为垂直精准定位客户需求提供了个性化的信息源。同时,建立图像对应的知识图谱,可以更准确的描述关键词的含义,把关键词拓展为图像表现出来;通过基于图像的搜索,有助于找到最相似的图像。因此,亟需一种基于图片属性提取的用户兴趣库的建立,为用户的购物提供更加个性化、便捷高效的服务。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于图片属性提取建立用户兴趣库的方法及设备。所述技术方案如下:
一方面,本发明提供了一种基于图片属性提取建立用户兴趣库的方法,该方法包括:
获取电商平台信息库中用户感兴趣商品的商品信息,制得用户/商品基础信息表,其中,所述商品信息至少包括商品图片;
利用预先训练的神经网络提取用户/商品基础信息表中商品的图片特征,获取与上述图片特征相对应的语义特征,将语义特征定义为商品属性;
创建以商品属性为基本知识单元和以商品类别、商品属性类型之间的关联关系为框架的用户兴趣库。
进一步地,获取电商平台信息库中用户感兴趣商品的商品信息具体包括,根据用户在电商平台的图片搜索、浏览、购买和收藏记录,获取电商平台信息库中用户感兴趣商品的商品信息;其中,所述商品信息为商品图片或商品图片与文本信息的组合。
其中,商品属性包括商品知识图谱中商品属性包括颜色、材料质地、品质、类型、风格、品牌、产地。
利用预先训练的神经网络提取商品的图片特征时还对商品图片进行预处理,包括模式的采集、模数转换、滤波、消除模糊、减少噪声和纠正几何失真。
商品属性的提取还包括通过电商平台网页内的文本信息提取获得商品属性。
具体地,创建用户兴趣库的方法还包括:
基于包含商品类别和商品属性类型之间的关联关系的初始商品知识图谱框架和基本商品知识单元的集合生成初始用户兴趣库;
判断新的商品信息单元的类型;
以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系形成候选商品知识项;
对候选商品知识项进行修正,根据修正后的商品知识项更新初始用户兴趣库。
其中,新增商品信息单元及新增关联关系的步骤还包括:
根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
与初始用户兴趣库比较,得到新增商品属性和商品属性间新增的关联关系,并对新增商品属性和商品属性间新增的关联关系赋予置信度形成候选知识项。
另一方面,本发明还公开了一种基于图片属性提取建立用户兴趣库的设备,该设备包括:
获取模块,用于获取电商平台信息库中用户感兴趣商品的文本信息和图片信息,制得用户/商品基础信息表;
图片特征提取模块,用于利用预先训练的神经网络提取商品的图片特征;所述图片特征提取模块包括图片颜色提取单元、图片形状提取单元、图片纹理提取单元;
商品属性定义模块,用于获取提取的图片特征相对应的语义特征,将语义特征定义为商品属性;
用户兴趣库构建模块,用于构建包含商品类别、商品属性类型之间的关联关系的知识图谱框架和商品属性基本知识单元的用户兴趣库;
其中,获取模块的输出端与图片特征提取模块的输入端相连,图片特征提取模块的输出端与商品属性定义模块输入端相连,商品属性定义模块的输入端与用户兴趣库构建模块的输入端相连。
进一步地,用户兴趣库构建模块包括:
初始构建单元,用于构建包含商品类别、商品属性类型之间的关联关系的初始商品知识图谱框架和商品属性基本知识单元的集合生成初始用户兴趣库;
判断单元,用于判断新的商品信息单元的类型;
识别单元,用于以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
提取单元,用于提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系;
定义候选商品知识项单元,用于将新增商品属性和商品属性、属性类别间新增的关联关系定义为候选商品知识项;
修正和更新单元,用于对候选商品知识项进行修正,并根据修正后的商品知识项更新初始用户兴趣库;
其中,初始构建单元的输出端与判断单元的输入端相连,判断单元的输出端与识别单元的输入端相连,识别单元的输出端与提取单元的输入端相连,提取单元的输出端与定义候选商品知识项单元的输入端相连,定义候选商品知识项单元的输出端与修正和更新单元的输入端相连。
进一步地,用户兴趣库构建模块还包括:
聚类分类单元,用于根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
其中,聚类分类单元的输入端与判断单元的输出端相连。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明涉及的一种基于图片属性提取建立用户兴趣库的方法,通过计算机识别建立图像对应的知识图谱,结合用户在电商平台的购买和浏览等行为,提取购物兴趣偏好,建立个性化的用户兴趣库;
2、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了计算机识别商品的图片并进行图像特征提取,转换成对应的文字描述,利用自然语言处理相关技术将文字描述与用户和商品的专属特性对应起来,构建商品的知识图谱,用户的知识图谱等信息,为图片搜索提供范围更窄、定位更精准的信息源;
3、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了图像搜索的新的导购模式,而且经历了图像录入、属性识别、图像检索的逻辑链条,使得更准确的获取搜索关键词,且把关键词拓展为图像表现出来,有利于快速便捷准确找到用户最感兴趣的图像及其对应的商品,给用户带来新颖而舒适的购物体验;
4、本发明涉及的发明通过用户地选择,统计分析,利用机器学习的方式,建立用户知识图谱和商品知识图谱,把相似的商品精准地推荐给同类用户群体,完成最终的个性化导购。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于图片属性提取建立用户兴趣库的方法流程图;
图2是本发明实施例涉及的创建用户兴趣库的方法流程图;
图3是本发明实施例提供的一种基于图片属性提取建立用户兴趣库的设备结构示意图;
31-获取模块,32-图片特征提取模块,321-图片颜色提取单元,322-图片形状提取单元,321-图片纹理提取单元,33-商品属性定义模块,34-用户兴趣库构建模块,341-初始构建单元,342-判断单元,343-识别单元,344-提取单元,345-定义候选知识项单元,346-修正和更新单元,347-聚类分类单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供了一种基于图片属性提取建立用户兴趣库的方法,如图1所示,该方法包括:
获取电商平台信息库中用户感兴趣商品的商品信息,制得用户/商品基础信息表,所述商品信息至少包括商品图片;其中用户/商品基础信息表可根据用户的购买、浏览等行为得到用户的购买习惯、偏好;以商品图片作为商品信息获取的依据,可以更加直观、全面、准确。
利用预先训练的神经网络提取用户/商品基础信息表中商品的图片特征,获取与上述图片特征相对应的语义特征,将语义特征定义为商品属性;
基于神经网络进行物品识别、训练学习之后去识别新的图片,这种人工智能在图片识别领域的应用为图片的识别、图片特征的提取乃至以后的图片检索提供了技术基础和信息基础。
创建以商品属性为基本知识单元和以商品类别、商品属性类型之间的关联关系为框架的用户兴趣库。通过对用户感兴趣商品的图像处理、图像识别与知识图谱构建技术的结合,创建针对用户的垂直的、个性化的知识图谱,即用户兴趣库。
本发明实施例具有如下有益效果:
1、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了计算机识别商品的图片并进行图像特征提取,转换成对应的文字描述,利用自然语言处理相关技术将文字描述与用户和商品的专属特性对应起来,构建商品的知识图谱,用户的知识图谱等信息,为图片搜索提供范围更窄、定位更精准的信息源;
2、本发明通过计算机识别建立图像对应的知识图谱,结合用户在电商平台的购买和浏览等行为,提取购物兴趣偏好,建立个性化的用户兴趣库;
3、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了图像搜索的新的导购模式,而且经历了图像录入、属性识别、图像检索的逻辑链条,使得更准确的获取搜索关键词,且把关键词拓展为图像表现出来,有利于快速便捷准确找到用户最感兴趣的图像及其对应的商品,给用户带来新颖而舒适的购物体验;
4、本发明涉及的发明通过用户地选择,统计分析,利用机器学习的方式,建立用户知识图谱和商品知识图谱,把相似的商品精准地推荐给同类用户群体,完成最终的个性化导购。
实施例2
本发明实施例提供了一种基于图片属性提取建立用户兴趣库的方法,如图1所示,该方法包括:
S1:获取电商平台信息库中用户感兴趣商品的商品信息,生成用户/商品基础信息表;
其中,获取电商平台信息库中用户感兴趣商品的商品信息的具体方式包括,根据用户在电商平台的历史记录获取电商平台信息库中用户感兴趣商品的商品信息,历史记录的生成包括但不限于图片搜索、浏览、购买和收藏等行为;进一步地,获取电商平台信息库中用户感兴趣商品的商品信息的方式还包括,根据电商平台根据用户上述行为系统推送的相似商品的商品信息。
进一步地,在具体实施中,所获取电商平台信息库中用户感兴趣商品的商品信息可以仅为商品名称,用户通过商品名称为搜索的关键词在电商平台的信息库中进一步获取该商品对应的其他商品信息;也可以电商平台信息库中同时获取商品名称及其对应的其他商品信息;其他商品信息包括但不限于商品的品牌、产地、颜色、材料质地。
具体地,商品信息至少包括商品图片;在具体实施例中,用户可以单独获取商品图片,或者获取图片和文本的结合;上述商品信息可以通过文本提取或者图片中信息的读取获得;获取多个用户的多个商品的商品信息后,生成用户/商品基础信息表,用户/商品基础信息表包括了用户、商品的二维信息以及每一个商品所对应的上述商品信息。
生成的用户/商品基础信息表使得这种搜索更加有针对性,提升了信息传输的效率和准确性,使得搜索更加高效、便捷、准确;同时,用户/商品基础信息表为确定用户感兴趣商品提供了相对垂直、直接的个性化信息源,相对于在电商平台信息库中直接搜索和推荐某一商品,用户/商品基础信息表有利于快速、便捷、准确找到用户最感兴趣的图像及其对应的商品,给用户带来新颖而舒适的购物体验。
S2:利用预先训练的神经网络提取用户/商品基础信息表中商品的图片特征,获取与上述图片特征相对应的语义特征,将语义特征定义为商品属性;
在进行物体识别之前,通过对物体特征的学习,对视频和图像中的物体进行轮廓检测,进行分类训练和反复识别,创建用于电商平台信息库中商品识别和图像特征提取的神经网络。
需要说明的是,利用预先训练的神经网络提取商品的图片特征时还对商品图片进行预处理,包括模式的采集、模数转换、滤波、消除模糊、减少噪声和纠正几何失真。
基于神经网络进行物品识别、训练学习之后去识别新的图片,这种人工智能在图片识别领域的应用为图片的识别、图片特征的提取乃至以后的图片检索提供了技术基础和信息基础。
优选地,本发明实施例中创建用于电商平台信息库中商品识别和图像特征提取的神经网络为深度卷积神经网络,利用多层神经网络应用简单形状、颜色、纹理底层图像模式和高层次语义信息模式进行图像特征提取。
优选地,商品属性的提取还包括通过电商平台网页内的文本信息提取获得商品属性。其中,商品属性包括商品知识图谱中商品属性包括颜色、材料质地、品质、类型、风格、品牌、产地。
S3:创建以商品属性为基本知识单元和以商品类别、商品属性类型之间的关联关系为框架的用户兴趣库。
通过对用户感兴趣商品的图像处理、图像识别与知识图谱构建技术的结合,创建针对用户的垂直的、个性化的知识图谱,即用户兴趣库。
用户兴趣库是基于用户需求偏好的个性化数据库,本质是针对用户个性化的涵盖用户需求偏好信息的商品知识图谱,在具体实施中,创建商品知识图谱包括应用图像处理技术、自然语言处理技术进行目标识别和图像特征提取,获取实体信息、关系信息、属性信息、知识信息以及应用本体技术、实体对齐技术、知识推理技术架构知识图谱。
具体地,如图2所示,创建用户兴趣库的方法具体包括:
(1)基于包含商品类别和商品属性类型之间的关联关系的初始商品知识图谱框架和基本商品知识单元的集合生成初始用户兴趣库;
(2)判断新的商品信息单元的类型;
(3)以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
(4)提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系形成候选商品知识项;
具体地,新增商品信息单元及新增关联关系的步骤还包括:
根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
与初始用户兴趣库比较,得到新增商品属性和商品属性间新增的关联关系,并对新增商品属性和商品属性间新增的关联关系赋予置信度形成候选知识项。
(5)对候选商品知识项进行修正,根据修正后的商品知识项更新初始用户兴趣库。
具体地,用户/商品基础信息表的获取基于用户日常浏览和购买记录,提取电商平台网页内的文本信息对于商品进行初步分类,所述初步分类基于某一种商品属性或任意多种商品属性的组合。
优选地,在发明实施例中,商品属性的提取方式为基于统计机器学习的方式和深度学习的方式。
本发明实施例采用了Text Rank算法,这是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。
Text Rank一般模型可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。图中任两点Vi,Vj之间边的权重为wji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的得分定义如下:
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。使用TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。
(1)把给定的文本T按照完整句子进行分割,即
(2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。
(3)构建候选关键词图G=(V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
(4)根据上面公式,迭代传播各节点的权重,直至收敛。
(5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
(6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“黑色商务挎包”,如果“黑色”和“商务”均属于候选关键词,则组合成“黑色商务”加入关键词序列。
图像部分的目的是对文本中挖掘到的topic,entity等进行visual grounding(场景可视化)。在本实施例中利用深度卷积神经网络(DCNN),利用16层的VGG模型对图像进行建模、进行图像表达。卷积神经网络利用多层神经网络刻画图像中从简单到复杂的一系列特征,如较低层学习出简单形状,颜色,纹理等简单模式,不断组合形成逐渐复杂的具有语义信息的模式,比如风格特征、衣领特征等等。这样就完成了对图像属性的抽取,如修身、学院风、五分袖、加长款等:
用户个性化数据库建立,需要完成对商品,用户的知识图谱的建立。图像技术在这里是对每一个用户属性的视觉补充。通过几个维度对用户以及商品属性的描述,就已经完成了对商品画像,对用户画像。结合商品和用户的属性,不难发现,这里可以实现对用户购买的精准推荐。
本发明实施例具有如下有益效果:
1、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了计算机识别商品的图片并进行图像特征提取,转换成对应的文字描述,利用自然语言处理相关技术将文字描述与用户和商品的专属特性对应起来,构建商品的知识图谱,用户的知识图谱等信息,为图片搜索提供范围更窄、定位更精准的信息源;
2、本发明通过计算机识别建立图像对应的知识图谱,结合用户在电商平台的购买和浏览等行为,提取购物兴趣偏好,建立个性化的用户兴趣库;
3、本发明涉及的基于图片属性提取建立用户兴趣库的方法采用了图像搜索的新的导购模式,而且经历了图像录入、属性识别、图像检索的逻辑链条,使得更准确的获取搜索关键词,且把关键词拓展为图像表现出来,有利于快速便捷准确找到用户最感兴趣的图像及其对应的商品,给用户带来新颖而舒适的购物体验;
4、本发明涉及的发明通过用户地选择,统计分析,利用机器学习的方式,建立用户知识图谱和商品知识图谱,把相似的商品精准地推荐给同类用户群体,完成最终的个性化导购。
实施例3
本发明还公开了一种基于图片属性提取建立用户兴趣库的设备,如图3所示,该设备包括:
获取模块31,用于获取电商平台信息库中用户感兴趣商品的文本信息和图片信息,制得用户/商品基础信息表;其中,获取电商平台信息库中用户感兴趣商品的商品信息的具体步骤包括,根据用户在电商平台的图片搜索、浏览、购买和收藏记录,获取电商平台信息库中用户感兴趣商品的商品信息;
其中,商品信息至少包括商品图片;在具体实施例中,用户可以单独获取商品图片,或者获取图片和文本的结合。
用户/商品基础信息表可根据用户的购买、浏览等行为得到用户的购买习惯、偏好;以商品图片作为商品信息获取的依据,可以更加直观、全面、准确。
利用预先训练的神经网络提取商品的图片特征时还对商品图片进行预处理,包括模式的采集、模数转换、滤波、消除模糊、减少噪声和纠正几何失真等。
图片特征提取模块32,用于利用预先训练的神经网络提取商品的图片特征;所述图片特征提取模块包括图片颜色提取单元、图片形状提取单元、图片纹理提取单元;基于神经网络进行物品识别、训练学习之后去识别新的图片,这种人工智能在图片识别领域的应用为图片的识别、图片特征的提取乃至以后的图片检索提供了技术基础和信息基础。
商品属性定义模块33,用于获取提取的图片特征相对应的语义特征,将语义特征定义为商品属性;
用户兴趣库构建模块34,用于构建包含商品类别、商品属性类型之间的关联关系的知识图谱框架和商品属性基本知识单元的用户兴趣库;
其中,获取模块31的输出端与图片特征提取模块32的输入端相连,图片特征提取模块32的输出端与商品属性定义模块33输入端相连,商品属性定义模块33的输入端与用户兴趣库构建模块34的输入端相连。
进一步地,用户兴趣库构建模块34包括:
初始构建单元341,用于构建包含商品类别、商品属性类型之间的关联关系的初始商品知识图谱框架和商品属性基本知识单元的集合生成初始用户兴趣库;
判断单元342,用于判断新的商品信息单元的类型;
识别单元343,用于以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
提取单元344,用于提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系;
定义候选商品知识项单元345,用于将新增商品属性和商品属性、属性类别间新增的关联关系定义为候选商品知识项;
修正和更新单元346,用于对候选商品知识项进行修正,并根据修正后的商品知识项更新初始用户兴趣库;
其中,初始构建单元341的输出端与判断单元342的输入端相连,判断单元342的输出端与识别单元343的输入端相连,识别单元343的输出端与提取单元344的输入端相连,提取单元344的输出端与定义候选商品知识项单元345的输入端相连,定义候选商品知识项单元345的输出端与修正和更新单元346的输入端相连。
进一步地,用户兴趣库构建模块34还包括:
聚类分类单元347,用于根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
其中,聚类分类单元347的输入端与判断单元342的输出端相连。
进一步地,本发明实施例还涉及神经网络训练模块,用于通过对物体特征的学习,对视频和图像中的物体进行轮廓检测,进行分类训练和反复识别,创建用于电商平台信息库中商品识别和图像特征提取的神经网络;
在进行物体识别之前,通过对物体特征的学习,对视频和图像中的物体进行轮廓检测,进行分类训练和反复识别,创建用于电商平台信息库中商品识别和图像特征提取的神经网络。
需要说明的是,利用预先训练的神经网络提取商品的图片特征时还对商品图片进行预处理,包括模式的采集、模数转换、滤波、消除模糊、减少噪声和纠正几何失真。
基于神经网络进行物品识别、训练学习之后去识别新的图片,这种人工智能在图片识别领域的应用为图片的识别、图片特征的提取乃至以后的图片检索提供了技术基础和信息基础。
优选地,本发明实施例中创建用于电商平台信息库中商品识别和图像特征提取的神经网络为深度卷积神经网络,利用多层神经网络应用简单形状、颜色、纹理底层图像模式和高层次语义信息模式进行图像特征提取。
通过对用户感兴趣商品的图像处理、图像识别与知识图谱构建技术的结合,创建针对用户的垂直的、个性化的知识图谱,即用户兴趣库。
用户兴趣库是基于用户需求偏好的个性化数据库,本质是针对用户个性化的涵盖用户需求偏好信息的商品知识图谱,在具体实施中,创建商品知识图谱包括应用图像处理技术、自然语言处理技术进行目标识别和图像特征提取,获取实体信息、关系信息、属性信息、知识信息以及应用本体技术、实体对齐技术、知识推理技术架构知识图谱。
本发明实施例具有如下有益效果:
1、本发明涉及的基于图片属性提取建立用户兴趣库的设备采用了计算机识别商品的图片并进行图像特征提取,转换成对应的文字描述,利用自然语言处理相关技术将文字描述与用户和商品的专属特性对应起来,构建商品的知识图谱,用户的知识图谱等信息,为图片搜索提供范围更窄、定位更精准的信息源;
2、本发明通过计算机识别建立图像对应的知识图谱,结合用户在电商平台的购买和浏览等行为,提取购物兴趣偏好,建立个性化的用户兴趣库;
3、本发明涉及的基于图片属性提取建立用户兴趣库的设备采用了图像搜索的新的导购模式,而且经历了图像录入、属性识别、图像检索的逻辑链条,使得更准确的获取搜索关键词,且把关键词拓展为图像表现出来,有利于快速便捷准确找到用户最感兴趣的图像及其对应的商品,给用户带来新颖而舒适的购物体验;
4、本发明涉及的发明通过用户的选择、统计分析,利用机器学习的方式,建立用户知识图谱和商品知识图谱,把相似的商品精准地推荐给同类用户群体,完成最终的个性化导购。
需要说明的是:上述实施例提供的基于图片属性提取建立用户兴趣库的设备在具体实施时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于图片属性提取建立用户兴趣库的设备与基于图片属性提取建立用户兴趣库的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图片属性提取建立用户兴趣库的方法,其特征在于,所述方法包括:
获取电商平台信息库中用户感兴趣商品的商品信息,制得用户/商品基础信息表,其中所述商品信息至少包括商品图片;
利用预先训练的神经网络提取用户/商品基础信息表中商品的图片特征,获取与上述图片特征相对应的语义特征,将语义特征定义为商品属性;
创建以商品属性为基本知识单元和以商品类别、商品属性类型之间的关联关系为框架的用户兴趣库。
2.根据权利要求1所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,所述获取电商平台信息库中用户感兴趣商品的商品信息具体包括,根据用户在电商平台的图片搜索、浏览、购买和收藏记录,获取电商平台信息库中用户感兴趣商品的商品信息;其中,所述商品信息为商品图片或商品图片与文本信息的组合。
3.根据权利要求1所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,所述商品知识图谱中商品属性包括颜色、材料质地、品质、类型、风格、品牌、产地。
4.根据权利要求1所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,利用预先训练的神经网络提取商品的图片特征时还对商品图片进行预处理,包括模式的采集、模数转换、滤波、消除模糊、减少噪声和纠正几何失真。
5.根据权利要求1-4任意一项所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,所述商品属性的提取还包括通过电商平台网页内的文本信息提取获得商品属性。
6.根据权利要求1所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,所述创建用户兴趣库的方法还包括:
基于包含商品类别和商品属性类型之间的关联关系的初始商品知识图谱框架和基本商品知识单元的集合生成初始用户兴趣库;
判断新的商品信息单元的类型;
以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系形成候选商品知识项;
对候选商品知识项进行修正,根据修正后的商品知识项更新初始用户兴趣库。
7.根据权利要求6所述的基于图片属性提取建立用户兴趣库的方法,其特征在于,所述新增商品信息单元及新增关联关系的步骤还包括:
根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
与初始用户兴趣库比较,得到新增商品属性和商品属性间新增的关联关系,并对新增商品属性和商品属性间新增的关联关系赋予置信度形成候选知识项。
8.一种基于图片属性提取建立用户兴趣库的设备,其特征在于,所述设备包括:
获取模块,用于获取电商平台信息库中用户感兴趣商品的文本信息和图片信息,制得用户/商品基础信息表;
图片特征提取模块,用于利用预先训练的神经网络提取商品的图片特征;所述图片特征提取模块包括图片颜色提取单元、图片形状提取单元、图片纹理提取单元;
商品属性定义模块,用于获取提取的图片特征相对应的语义特征,将语义特征定义为商品属性;
用户兴趣库构建模块,用于构建包含商品类别、商品属性类型之间的关联关系的知识图谱框架和商品属性基本知识单元的用户兴趣库;
所述获取模块的输出端与图片特征提取模块的输入端相连,所述图片特征提取模块的输出端与所述商品属性定义模块输入端相连,所述商品属性定义模块的输入端与所述用户兴趣库构建模块的输入端相连。
9.根据权利要求8所述的基于图片属性提取建立用户兴趣库的设备,其特征在于,所述用户兴趣库构建模块包括:
初始构建单元,用于构建包含商品类别、商品属性类型之间的关联关系的初始商品知识图谱框架和商品属性基本知识单元的集合生成初始用户兴趣库;
判断单元,用于判断新的商品信息单元的类型;
识别单元,用于以初始用户兴趣库的框架为约束条件,基于新的商品信息单元的类型识别单一商品信息单元中的商品属性以及商品属性、属性类别之间的关联关系;
提取单元,用于提取新的商品信息单元集合中新增商品属性和商品属性、属性类别间新增的关联关系;
定义候选商品知识项单元,用于将新增商品属性和商品属性、属性类别间新增的关联关系定义为候选商品知识项;
修正和更新单元,用于对候选商品知识项进行修正,并根据修正后的商品知识项更新初始用户兴趣库;
所述初始构建单元的输出端与所述判断单元的输入端相连,所述判断单元的输出端与所述识别单元的输入端相连,所述识别单元的输出端与所述提取单元的输入端相连,所述提取单元的输出端与所述定义候选商品知识项单元的输入端相连,所述定义候选商品知识项单元的输出端与所述修正和更新单元的输入端相连。
10.根据权利要求9所述的基于图片属性提取建立用户兴趣库的设备,其特征在于,所述用户兴趣库构建模块还包括:
聚类分类单元,用于根据商品信息单元集合中文本和图片中提取的商品属性之间的关联关系,以及商品信息所属文字段落或图像区域的属性进行类聚及分类处理;
所述聚类分类单元的输入端与判断单元的输出端相连。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710832601.2A CN107862561A (zh) | 2017-09-15 | 2017-09-15 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710832601.2A CN107862561A (zh) | 2017-09-15 | 2017-09-15 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107862561A true CN107862561A (zh) | 2018-03-30 |
Family
ID=61699462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710832601.2A Pending CN107862561A (zh) | 2017-09-15 | 2017-09-15 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862561A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399563A (zh) * | 2018-05-31 | 2018-08-14 | 徐宝恒 | 方便乡镇居民购物的网络商城平台系统 |
CN109166631A (zh) * | 2018-07-10 | 2019-01-08 | 武汉海云健康科技股份有限公司 | 基于网络科学和卷积神经网络的药品关联图谱的构建方法 |
CN109739970A (zh) * | 2018-12-29 | 2019-05-10 | 联想(北京)有限公司 | 信息处理方法及装置、以及电子设备 |
CN110648206A (zh) * | 2019-09-20 | 2020-01-03 | 秒针信息技术有限公司 | 商品属性识别方法、装置、电子设备及可读存储介质 |
CN110647826A (zh) * | 2019-09-05 | 2020-01-03 | 北京百度网讯科技有限公司 | 商品训练图片的获取方法、装置、计算机设备和存储介质 |
CN110968698A (zh) * | 2018-09-29 | 2020-04-07 | 上海博泰悦臻网络技术服务有限公司 | 基于知识图谱的用户用车体验调研方法、系统和云服务器 |
CN111078730A (zh) * | 2019-12-23 | 2020-04-28 | 广东聚智诚科技有限公司 | 一种基于知识产权新颖性提取建立用户需求库的系统及方法 |
CN111191012A (zh) * | 2018-10-25 | 2020-05-22 | 财团法人资讯工业策进会 | 知识图谱产生装置、方法及其计算机程序产品 |
CN111754306A (zh) * | 2020-06-28 | 2020-10-09 | 李淑娣 | 电商图谱模型的构建方法、系统、设备及存储介质 |
CN112070511A (zh) * | 2020-08-12 | 2020-12-11 | 上海连尚网络科技有限公司 | 一种检测不合格商品的方法与设备 |
CN112837108A (zh) * | 2019-11-25 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及电子设备 |
CN112966681A (zh) * | 2021-04-12 | 2021-06-15 | 深圳市秦丝科技有限公司 | 商品拍照智能识别建档检索的方法、设备及存储介质 |
CN113837824A (zh) * | 2021-08-16 | 2021-12-24 | 上海漫集信息科技有限公司 | 信息推送方法及其系统 |
CN115080865A (zh) * | 2022-08-19 | 2022-09-20 | 山东智豆数字科技有限公司 | 基于多维数据分析的电商数据运营管理系统 |
CN117726849A (zh) * | 2023-09-27 | 2024-03-19 | 书行科技(北京)有限公司 | 一种图像处理方法、装置、设备、可读存储介质及产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866339A (zh) * | 2009-04-16 | 2010-10-20 | 周矛锐 | 基于图像的多内容信息在互联网上的识别,及对已识别内容信息中的商品引导购买的应用 |
CN102609458A (zh) * | 2012-01-12 | 2012-07-25 | 北京搜狗信息服务有限公司 | 一种图片推荐方法和装置 |
CN103412937A (zh) * | 2013-08-22 | 2013-11-27 | 成都数之联科技有限公司 | 一种基于手持终端的搜索购物方法 |
US20130339191A1 (en) * | 2012-05-30 | 2013-12-19 | Shop Hers | Engine, System and Method of Providing a Second-Hand Marketplace |
CN104504055A (zh) * | 2014-12-19 | 2015-04-08 | 常州飞寻视讯信息科技有限公司 | 基于图像相似度的商品相似计算方法及商品推荐系统 |
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及系统 |
CN106776898A (zh) * | 2016-11-29 | 2017-05-31 | 天脉聚源(北京)科技有限公司 | 一种根据用户浏览信息推荐相关物品的方法及装置 |
-
2017
- 2017-09-15 CN CN201710832601.2A patent/CN107862561A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866339A (zh) * | 2009-04-16 | 2010-10-20 | 周矛锐 | 基于图像的多内容信息在互联网上的识别,及对已识别内容信息中的商品引导购买的应用 |
CN102609458A (zh) * | 2012-01-12 | 2012-07-25 | 北京搜狗信息服务有限公司 | 一种图片推荐方法和装置 |
US20130339191A1 (en) * | 2012-05-30 | 2013-12-19 | Shop Hers | Engine, System and Method of Providing a Second-Hand Marketplace |
CN103412937A (zh) * | 2013-08-22 | 2013-11-27 | 成都数之联科技有限公司 | 一种基于手持终端的搜索购物方法 |
CN104504055A (zh) * | 2014-12-19 | 2015-04-08 | 常州飞寻视讯信息科技有限公司 | 基于图像相似度的商品相似计算方法及商品推荐系统 |
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及系统 |
CN106776898A (zh) * | 2016-11-29 | 2017-05-31 | 天脉聚源(北京)科技有限公司 | 一种根据用户浏览信息推荐相关物品的方法及装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399563A (zh) * | 2018-05-31 | 2018-08-14 | 徐宝恒 | 方便乡镇居民购物的网络商城平台系统 |
CN109166631A (zh) * | 2018-07-10 | 2019-01-08 | 武汉海云健康科技股份有限公司 | 基于网络科学和卷积神经网络的药品关联图谱的构建方法 |
CN110968698B (zh) * | 2018-09-29 | 2022-07-29 | 上海博泰悦臻网络技术服务有限公司 | 基于知识图谱的用户用车体验调研方法、系统和云服务器 |
CN110968698A (zh) * | 2018-09-29 | 2020-04-07 | 上海博泰悦臻网络技术服务有限公司 | 基于知识图谱的用户用车体验调研方法、系统和云服务器 |
CN111191012A (zh) * | 2018-10-25 | 2020-05-22 | 财团法人资讯工业策进会 | 知识图谱产生装置、方法及其计算机程序产品 |
CN111191012B (zh) * | 2018-10-25 | 2023-05-30 | 财团法人资讯工业策进会 | 知识图谱产生装置、方法及其计算机可读存储介质 |
CN109739970A (zh) * | 2018-12-29 | 2019-05-10 | 联想(北京)有限公司 | 信息处理方法及装置、以及电子设备 |
CN109739970B (zh) * | 2018-12-29 | 2021-07-16 | 联想(北京)有限公司 | 信息处理方法及装置、以及电子设备 |
US11599743B2 (en) | 2019-09-05 | 2023-03-07 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for obtaining product training images, and non-transitory computer-readable storage medium |
CN110647826B (zh) * | 2019-09-05 | 2022-04-29 | 北京百度网讯科技有限公司 | 商品训练图片的获取方法、装置、计算机设备和存储介质 |
CN110647826A (zh) * | 2019-09-05 | 2020-01-03 | 北京百度网讯科技有限公司 | 商品训练图片的获取方法、装置、计算机设备和存储介质 |
CN110648206A (zh) * | 2019-09-20 | 2020-01-03 | 秒针信息技术有限公司 | 商品属性识别方法、装置、电子设备及可读存储介质 |
CN112837108A (zh) * | 2019-11-25 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及电子设备 |
CN111078730A (zh) * | 2019-12-23 | 2020-04-28 | 广东聚智诚科技有限公司 | 一种基于知识产权新颖性提取建立用户需求库的系统及方法 |
CN111754306A (zh) * | 2020-06-28 | 2020-10-09 | 李淑娣 | 电商图谱模型的构建方法、系统、设备及存储介质 |
CN112070511A (zh) * | 2020-08-12 | 2020-12-11 | 上海连尚网络科技有限公司 | 一种检测不合格商品的方法与设备 |
CN112966681A (zh) * | 2021-04-12 | 2021-06-15 | 深圳市秦丝科技有限公司 | 商品拍照智能识别建档检索的方法、设备及存储介质 |
CN113837824A (zh) * | 2021-08-16 | 2021-12-24 | 上海漫集信息科技有限公司 | 信息推送方法及其系统 |
CN115080865A (zh) * | 2022-08-19 | 2022-09-20 | 山东智豆数字科技有限公司 | 基于多维数据分析的电商数据运营管理系统 |
CN117726849A (zh) * | 2023-09-27 | 2024-03-19 | 书行科技(北京)有限公司 | 一种图像处理方法、装置、设备、可读存储介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862561A (zh) | 一种基于图片属性提取建立用户兴趣库的方法及设备 | |
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
CN107861972A (zh) | 一种用户录入商品信息后显示商品全结果的方法及设备 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN110599592B (zh) | 一种基于文本的三维室内场景重建方法 | |
CN111797898A (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
US20140229486A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN114707516B (zh) | 一种基于对比学习的长文本语义相似度计算方法 | |
Dezfouli et al. | Deep neural review text interaction for recommendation systems | |
CN108920521A (zh) | 基于伪本体的用户画像-项目推荐系统及方法 | |
Jiang et al. | Visual font pairing | |
CN109582868A (zh) | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 | |
Chen et al. | Personalized recommendation model: an online comment sentiment based analysis | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN110874392A (zh) | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |