CN110489649B - 标签关联内容的方法及装置 - Google Patents
标签关联内容的方法及装置 Download PDFInfo
- Publication number
- CN110489649B CN110489649B CN201910764554.1A CN201910764554A CN110489649B CN 110489649 B CN110489649 B CN 110489649B CN 201910764554 A CN201910764554 A CN 201910764554A CN 110489649 B CN110489649 B CN 110489649B
- Authority
- CN
- China
- Prior art keywords
- content
- label
- word
- tag
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims description 48
- 230000011218 segmentation Effects 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 28
- 238000012549 training Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 235000011888 snacks Nutrition 0.000 description 3
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000021186 dishes Nutrition 0.000 description 2
- 235000021209 fruit soup Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 206010001488 Aggression Diseases 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000016571 aggressive behavior Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000015203 fruit juice Nutrition 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例涉及互联网技术领域,提供一种标签关联内容的方法及装置,其中,方法包括:确定待关联标签;根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容;将圈选内容关联至待关联标签。本公开实施例提高了标签关联内容的效率及准确性。
Description
技术领域
本公开涉及互联网技术领域,尤其涉及一种标签关联内容的方法及装置。
背景技术
随着互联网技术的不断飞速发展,人们从互联网上可以获取的内容越来越多。运营网站的过程中设置运营标签来为用户导引。确定运营标签后,在网站服务器端将存储的数据内容依据运营标签进行人工圈选,将运营标签与服务端存储的数据内容进行关联,效率较低。
同一网站的数据内容类型可能有多种,不同类型的数据内容属于不同的业务,在数据内容的形式上可能存在较大的差异。不同人工具有不同的主观意识,难以在内容圈选以及不同类型的数据内容描述上达到统一,并且不足以对一个数据内容标注足够充分的运营标签。
发明内容
为了解决现有技术中存在的上述问题,本公开提供一种标签关联内容的方案。
根据本公开实施例的其中一方面,提供一标签关联内容的方法,包括:标签确定步骤,确定待关联标签;内容圈选步骤,根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容;内容关联步骤,将圈选内容关联至待关联标签。
在一例中,在内容圈选步骤之前,方法还包括:内容解析步骤,对数据内容进行解析,得到与数据内容匹配的关键词;标签匹配步骤,在全部词语标签中选择与关键词匹配的词语标签;内容标注步骤,利用选择的词语标签对数据内容进行标注。
在一例中,内容圈选步骤,包括:标签解析步骤,对待关联标签进行语义分析,得到语义分词;标签推荐步骤,确定与语义分词相似度大于或者等于预设阈值的词语标签;标签筛选步骤,根据接收的操作指令,基于待关联标签对词语标签进行与操作指令匹配的处理,其中,操作指令包括选择指令和/或逻辑运算指令;内容确定步骤,将处理后得到的词语标签所标注的数据内容,作为圈选内容。
在一例中,方法还包括:标签更改步骤,基于与数据内容匹配的关键词,对已有词语标签进行更改,其中,更改包括删除操作、增加操作。
在一例中,数据内容包括图文内容,内容解析步骤,包括:图文内容拆解步骤,对图文内容进行拆解,得到文本内容和图像内容;文本关键词获取步骤,对文本内容进行语义分析和/或位置重要性分析,确定文本关键词;图像特征提取步骤,基于图像语料数据库中的语料数据,对图像内容进行特征提取,得到图像特征关键词。
在一例中,标签匹配步骤,包括:标签选择步骤,分别选择与文本关键词、图像特征关键词匹配的词语标签;标签结合步骤,将与文本关键词匹配的词语标签、与图像特征关键词匹配的词语标签中相同的词语标签,作为标注图文内容的词语标签。
在一例中,方法还包括:内容推送步骤,基于用户在预设时间范围内使用待关联标签的频率,向用户推送与待关联标签匹配的待圈选内容。
在一例中,方法还包括:内容投放步骤,将圈选内容投放至与待关联标签匹配的内容位置。
根据本公开实施例的另一方面,提供一种标签关联内容的装置,包括:标签确定单元,用于确定待关联标签;内容圈选单元,用于根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容;内容关联单元,用于将圈选内容关联至待关联标签。
在一例中,装置还包括:内容解析单元,用于对数据内容进行解析,得到与数据内容匹配的关键词;标签匹配单元,用于在全部词语标签中选择与关键词匹配的词语标签;内容标注单元,用于利用选择的词语标签对数据内容进行标注。
在一例中,内容圈选单元,包括:标签解析模块,用于对待关联标签进行语义分析,得到语义分词;标签推荐模块,用于确定与语义分词相似度大于或者等于预设阈值的词语标签;标签筛选模块,用于根据接收的操作指令,基于待关联标签对词语标签进行与操作指令匹配的处理,其中,操作指令包括选择指令和/或逻辑运算指令;内容确定模块,用于将处理后得到的词语标签所标注的数据内容,作为圈选内容。
在一例中,装置还包括:标签更改单元,用于基于与数据内容匹配的关键词,对已有词语标签进行更改,其中,更改包括删除操作、增加操作。
在一例中,数据内容包括图文内容,内容解析单元,包括:图文内容拆解模块,用于对图文内容进行拆解,得到文本内容和图像内容;文本关键词获取模块,用于对文本内容进行语义分析和/或位置重要性分析,确定文本关键词;图像特征提取模块,用于基于图像语料数据库中的语料数据,对图像内容进行特征提取,得到图像特征关键词。
在一例中,标签匹配单元包括:标签选择模块,用于分别选择与文本关键词、图像特征关键词匹配的词语标签;标签结合模块,用于将与文本关键词匹配的词语标签、与图像特征关键词匹配的词语标签中相同的词语标签,作为标注图文内容的词语标签。
在一例中,装置还包括:内容推送单元,用于基于用户在预设时间范围内使用待关联标签的频率,向用户推送与待关联标签匹配的待圈选内容。
在一例中,装置还包括内容投放单元,用于将圈选内容投放至与待关联标签匹配的内容位置。
根据本公开实施例的另一方面,提供一种电子设备,其中,包括:
存储器,用于存储计算机程序;
处理器,用于执行存储器中存储的计算机程序,且计算机程序被执行时,实现上述任一实施例的标签关联内容的方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,存储有计算机程序,其中,计算机程序被处理器执行时,实现上述任一实施例的标签关联内容的方法。
基于本公开的标签关联内容的方法及装置、电子设备、计算机可读存储介质,通过采用统一的词语标签对多种类型的数据内容进行标注,并通过词语标签匹配运营标签后将数据内容与运营标签进行关联,提高了运营标签关联数据内容的效率以及准确性。
附图说明
通过参考附图阅读下文的详细描述,本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示出了本公开标签关联内容的方法的一个实施例的流程示意图;
图2示出了本公开标签关联内容的方法的另一实施例的流程示意图;
图3示出了本公开标签关联内容的方法的另一实施例的流程示意图;
图4示出了本公开标签关联内容的方法的另一实施例的流程示意图;
图5示出了本公开标签关联内容的方法的另一实施例的流程示意图;
图6示出了本公开标签关联内容的方法的另一实施例的流程示意图;
图7示出了本公开标签关联内容的装置的一个实施例的结构示意图;
图8示出了本公开标签关联内容的装置的另一实施例的结构示意图;
图9示出了本公开标签关联内容的装置的内容圈选单元的一实施例的结构示意图;
图10示出了本公开标签关联内容的装置的另一实施例的结构示意图;
图11示出了本公开的标签关联内容的装置的内容解析单元的一实施例的结构示意图;
图12示出了本公开的标签关联内容的装置的标签匹配单元的一实施例的结构示意图;
图13示出了本公开标签关联内容的装置的另一实施例的结构示意图;
图14示出了本公开的电子设备的一个实施例的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在移动互联网时代,很多公司使用内容作为流量入口,同时使用交易手段实现资源的变现。所以一个内容加交易的平台当中,一般会包含各种UGC,OGC,PGC的内容,同时也会包含各种各样的商品、服务和交易。在一些旅游网站,内容又可以划分为笔记、游记、攻略、问答等多种多样的形式,商品服务也有自由行产品,酒店机票等多种类型。在这样一个大型平台下面,如何让不同类型的内容,内容与商品之间,形成良好的互相转换就成了一个重要的问题。
由于内容的类型众多,又属于不同的业务线,在内容类型存在较大的差异,一个业务线只针对一种类型的内容进行运营,在内容的描述上,不同的业务线没有一个统一的方法。人工标注内容的效率较低,当运营人员不断增多,主观的运营标签会不断扩大,人工很难对全部的内容进行标注,同时也很难对一内容标注足够充分的标签。本公开实施例为解决上述问题,提供一种标签关联内容的方案。
本公开实施例的第一方面提供一种标签关联内容的方法。图1为本公开标签关联内容的方法一个实施例的流程图。如图1所示,该实施例方法包括:步骤100-步骤300。下面结合图1对本实施例的标签关联内容的方法进行详细说明。
步骤100,确定待关联标签。本实施中待关联标签可以是为了吸引用户人为设定的标签,可以是笔记、游记、攻略、问答的标题,也可以是对产品命名的标签、产品作用简述等,本实施例对此不做限定。
步骤200,根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容。词语标签可以是存储在标签数据库中用于给数据内容进行标注的标签,词语标签的形式可以是单个字,也可以是词语或者短语等具有一定意义的文字符号。
本实施例中存储在标签数据库中的词语标签可以是按照类别进行逐级划分后存储的。例如,在旅游网站的标签数据库中,第一级的词语标签可以包括“旅行时间”、“旅行人群”、“旅行方式”、“旅行准备”、“美食”、“住宿”、“交通”、“旅行场景”、“购物”、“娱乐项目”等;在“美食”这一第一级词语标签下还可以包括第二级词语标签,例如“就餐时间”、“就餐服务”、“餐厅”等;在“餐厅”这一第二级词语标签下还可以包括第三级词语标签,例如“米其林”、“中餐厅”、“主题餐厅”、“路边摊”、“茶餐厅”等。
以上各级词语标签均是围绕旅游的相关词汇,从粗粒度到细粒度的词语标签能够从大分类到小分类、到主题、到实体词等等,能够使用词语标签库中的词语标签对内容本身进行详细粒度的刻画,从而把笔记、游记、攻略、问答等不同类型的数据内容转化成一个由多级标签组成的表达形式。词语标签按照分类级别进行管理,在对标签库中的词语标签进行操作时可以更加方便查找相应的词语标签。在待关联标签匹配词语标签的过程中,对标签库中全部的词语标签进行无差别匹配关联,在全部的词语标签中查找与待关联标签相似度在预设阈值范围内的词语标签。避免对待关联标签按照词语标签的分类级别进行分类的操作,提高了待关联标签关联词语标签的效率。
通过上述方式使用同一词语标签可以标注不同类型的数据内容,可有效避免不同业务线上的数据内容难以达到统一及相互关联的弊端。例如,词语标签为“成都”,可以用该词语标签标注成都美食、成都游玩等方面的笔记、游记、攻略、问答,还可以用来标注旅游网站上目的地是成都的“自由行”产品,以及目的地是成都的飞机票、火车票订购等。
同一数据内容可以通过一个或者多个词语标签进行标注。采用既定的统一数据标签对数据内容进行标注的目的是,将各种不同类型的数据内容能够通过数据标签进行数据内容的统一。
待关联标签通过词语标签关联数据内容,可使得同一待关联标签所关联的数据内容的来源出自不同的业务线,提高了待关联标签关联的数据内容的类型的多样性,提高了数据内容的利用率。用户可通过同一待关联标签获取更多类型的数据内容,提高用户的使用体验水平。
步骤300,将圈选内容关联至待关联标签。
对待关联标签经语义分析后与标签库中的词语标签进行匹配,可以确定用来表示待关联标签语义的词语标签。通过词语标签可以确定其所标注的数据内容。以既定的词语标签作为媒介,将待关联标签与数据内容进行关联,从而建立待关联标签与数据内容之间的关联关系。
上述本实施例提供的标签关联内容的方法,通过建立标签库存储用来标注数据内容的词语标签,各类型的数据内容均可以通过该标签库中词语标签进行标注。使同一词语标签可标注不同类型的数据内容。待关联标签通过词语标签进而关联相应数据内容,提高了待关联标签关联数据内容的多样性。降低人力成本,提高了待关联标签匹配数据内容的效率以及准确性。
在一例中,可以用分级词语标签标注数据内容,以一篇游记为例。“漳州古城散发着浓浓的古早味,有了福建漳州,就能假装在台湾。这里有着大片的红砖古厝,有着骑楼式店面,有着中西结合式建筑,还完整的保留了明清时代留下来的牌坊,散发着浓浓地古早味。古城内人文气息浓厚,在这里,有数十种闽南地区的古早味小吃,漳州卤面,三角粿,四果汤,漳州式水果榨汁等,其实台湾的很多小吃都来源于闽南地区。漳州古城,真的可以一站式满足你的所有需求,便宜的物价让你100元就能够吃到扶墙出,既是历史古城,也是吃货天堂!”在这样的一篇内容中,使用本实施例的标签体系对其进行事实刻画。首先对数据内容进行分词,对分词后的数据内容进行语义分析、位置重要性分析等提取数据内容的关键词,关键词与全部的词语标签进行匹配筛选,确定用于标注该数据内容的词语标签。由于词语标签是按照分类级别进行管理的,在待关联标签匹配词语标签完成后确定的词语标签可以是包括该词语标签上一级的词语标签。例如,上述游记中通过关键词与词语标签匹配,最终确定标注该游记的词语标签为“美食”、“古镇”、“福建”、“漳州”、“四果汤”、“漳州卤面”、“三角粿”等,在确定最终词语标签时,可以添加上述词语标签的上一级词语标签,最终提取的词语标签有“行中活动:美食;景色:古镇;目的地:福建;目的地:漳州;话题:tp_548;话题:tp_153;POI:漳州古城;实体词:四果汤;实体词:漳州卤面;实体词:三角粿等。解决了对于不同类型数据内容的描述难以采用统一标签进行标注的问题。
在一些实施例中,图2示出了本公开标签关联内容的方法的另一实施例的流程示意图。如图2所示,在步骤200之前,方法还包括步骤400-步骤600。其中,
步骤400,对数据内容进行解析,得到与数据内容匹配的关键词。
数据内容在提交到服务器后,可以对数据内容进行实时解析,以便在标签数据库中找到与该数据内容匹配的词语标签,对该数据内容进行标注。方便可以通过关联的待关联标签或者运营标签能够及时找到该数据内容,提高数据内容利用率。
在一例中,数据内容解析后得到的结果可以是能够概括该数据内容或者产品的关键词。
步骤500,在全部词语标签中选择与关键词匹配的词语标签。
在获取数据内容关键词之后,通过关键词与词语标签的字或者词语或者短语进行相似度匹配,从全部的词语标签中选择与关键词相同的字或者词语或者短语。还可以通过设置相似度阈值进行关键词与词语标签的匹配。例如与关键词相似度达到0.8的词语标签可以用来标注,小于预设阈值的词语标签不可用来标注该数据内容。其中,关键词与词语标签的相似度可以是基于关键词与词语标签中相同字的个数来确定。比如关键词为“珠穆朗玛峰”,找到相似的词语标签为“珠峰”。关键词与词语标签相同的字的个数为same=2,不同的字的个数为diff=3,“珠穆朗玛峰”的长度为lena=5。关键词与词语标签相似度计算公式可以是:same/lena≈0.4。本实施例对如何确定关键词与词语标签的相似度的方式不做限定。通过数据内容关键词来匹配用来标注数据内容的词语标签,可提高数据内容匹配词语标签的效率。
步骤600,利用选择的词语标签对数据内容进行标注。
选择用来标注数据内容的词语标签是基于数据内容的关键词与词语标签的相似度获得的。对数据内容标注的标签可以充分概括数据内容。并且,相同类型的数据内容以及不同类型的数据内容可以采用同一词语标签进行标注。可以提高词语标签标注数据内容类型的多样性。
在一些实施例中,图3示出了本公开标签关联内容的方法的另一实施例的流程示意图。如图3所示,步骤200,包括步骤201-步骤204,其中,
步骤201,对待关联标签进行语义分析,得到语义分词。
待关联标签为运营人员为推广相应的数据内容而为数据内容人为添加,具有一定的主观性,而且随着运营人员不断增多,主观因素愈发明显。为了能够为待关联标签匹配准确的数据内容,避免受到主观因素影响,本实施例对待关联标签进行语义分析,确定语义分词。通过语义分析后能够将待关联标签所表达的含义统一,例如,待关联标签分别为“上海标志”、“东方明珠”,通过语义分析后,可以得到统一的目的地为上海、景点为东方明珠塔的语义分词。
在一例中,可以通过训练后的神经网络对待关联标签进行语义分析。使用一段时间已关联词语标签的待关联标签,作为训练样本,对运营标签进行机器学习,使得在输入一个待关联标签的时候可以对这个运营标签进行分析,得到语义分词并自动根据语义分词推荐一些词语标签,从而大大简化了运营人员在进行待关联标签关联时候的工作。
步骤202,确定与语义分词相似度大于或者等于预设阈值的词语标签。在解析待关联标签后得到的语义分词,将该语义分词与词语标签进行相似度匹配,选择与语义分词相同的词语标签或者相似度大于或者等于预设阈值的词语标签。
通过待关联标签语义分析后获得语义分词,通过语义分词确定表述待关联标签的词语标签,提高了待关联标签与词语标签匹配的准确性。
步骤203,根据接收的操作指令,基于待关联标签对词语标签进行与操作指令匹配的处理,其中,操作指令包括选择指令和/或逻辑运算指令。
上述本实施例中所涉及的词语标签为通过待关联标签匹配的,得到的词语标签提供给待关联标签制造者进行选择,从而大大简化了运营人员在进行标签关联时候的工作。其中,选择的词语标签可以是在推荐的词语标签中最终保留使用的词语标签;也可以是需要在推荐的词语标签中删除的部分词语标签。逻辑运算指令可以包括取交集、取并集、取差集。以两个词语标签A、B为例,其中,取交集可以是在依据词语标签圈选的同一数据内容既被A标注,也被B标注;取并集可以是在依据词语标签圈选的同一数据内容单独被A标注,或者单独被B标注,或者既被A标注也被B标注;取差集可以是在依据词语标签圈选的同一数据内容被A标注但没有被B标注,或者被B标注但没有被A标注。
以上述的笔记为例,如“福建小吃聚集地”,运营人员为这条运营标签进行关联数据内容,指定该标签对应的规则为,词语标签“目的地:福建,行中活动:美食”,从而保存下运营标签与词语标签的关联关系。这一步骤解决了词语标签与运营标签的关联问题,使得技术性的词语标签可以通过这个系统与运营的业务关联起来,产生具体的业务应用。
在对待关联标签匹配词语标签后,运营人员可以对匹配的词语标签进行操作,用于制定上述规则,减少之后遇到相同或者相似待关联标签关联数据内容的工作,提高待关联标签关联数据内容的效率。
步骤204,将处理后得到的词语标签所标注的数据内容,作为圈选内容。
对于已经经过实时解析的数据内容,所有类型的数据内容都被统一到同样的维度上面,包括各种层级的词语标签,同时也包括待关联标签。通过上述方式,运营人员可以根据运营话题维度去选择所想要的且与词语标签数据内容。
本实施例通过对与待关联标签匹配的词语标签进行选择以及逻辑运算操作,可对数据内容的选择更加具有针对性。
除了对与待关联标签匹配的词语标签进行选择以及逻辑运算后选择数据内容之外,同时也支持按照发布时间,数据内容长度,图片数量等条件去选择,也支持多种组合某些词语标签的筛选条件,从而能够筛选出所需要的具有针对性的数据内容。
图4示出了本公开标签关联内容的方法的另一实施例的流程示意图。如图4所示,本公开的标签关联内容的方法还包括步骤700,基于与数据内容匹配的关键词,对已有词语标签进行更改。其中,更改包括删除操作、增加操作。
标签库中存储的用于标注数据内容的词语标签可根据用户发布的数据内容的撰写方式、撰写用词等因素进行修改。例如随着网络技术的发展,人们在撰写过程中经常会用到网络用语,例如上海可以是魔都,北京可以是堵城等,标签库中的词语标签可以与数据内容匹配的关键词进行更改。更改其中,更改包括删除操作、增加操作。还可以是修改操作,具体为先将标签库中的词语标签删除,再增加新的词语标签。
对标签库中的词语标签进行更改可以按照预设周期进行,例如,每个月对标签库中的词语标签进行更改;也可以按照数据内容解析后得到的关键词的使用频率进行更改,例如在随机抽取的50000篇游记中有48000篇用“堵城”代表北京,则将标签库中的词语标签“北京”删除,然后增加“堵城”这一词语标签,或者在保留“北京”的前提下直接增加“堵城”这一词语标签。
通过对词语标签进行更改,可以对多种不同撰写习惯、撰写风格的数据内容进行词语标签的准确标注。
图5示出了本公开标签关联内容的方法的另一实施例的流程示意图。如图5所示,在数据内容包括图文内容时,本公开标签关联内容的方法中,步骤400可以包括步骤401-步骤403,步骤500可以包括步骤501、步骤502,其中,
步骤401,对图文内容进行拆解,得到文本内容和图像内容。对于不同的数据内容形式需要采用不同的方式进行关键词提取,以确定用来标注图文内容的词语标签。
步骤402,对文本内容进行语义分析和/或位置重要性分析,确定文本关键词。
采用游记对待训练模型进行训练,得到语义模型。游记的每个分割语句作为一个输入,重要不重要作为分类标签,输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别标签的概率。分割句中的词和词组来组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。在预测标签时使用非线性激活函数,在中间层不使用非线性激活函数。例如,选择10000篇游记作为训练样本,人工标注出样本中每个分割句是否重要。训练该待训练模型。基于上下文关系、语义内容来学习训练,进行语义重要性模型训练,得到一个根据输入分割句来判断该分割句是否重要的语义模型。
使用训练后得到的语义模型对分割句重要的概率以及不重要的概率进行预测,将待分析游记的每个分割句输入到该语义模型中进行预测,得到每个分割语句的重要概率Pfast_pos,以及不重要概率Pfast_neg,基于分割语句的重要概率Pfast_pos,以及不重要概率Pfast_neg计算句子语义重要性得分,该得分可以使用上述两者的除法、减法、或者其他运算方法,在此不做具体限定,比如该得分可以是Pfast_pos/Pfast_neg,也可以是Pfast_pos+Pfast_neg等。
由于游记是通过句子来表达完整的意思,通过确定分割语句的语义重要性,可以在关键词提取的过程中缩小关键词的提取范围,即,可以在语义重要性分数较高的分割语句中提取关键词。
将数据内容的分割语句、语义重要性得分,以及分割语句的位置标识,即分割语句章节号、段落号以及分割语句序号,作为输入特征,训练得到位置重要性模型。使用该模型进行游记中语句重要性预测,可以获得一重要的概率Pxgb_pos和一不重要的概率Pxgb_neg,使用Pxgb_pos/Pxgb_neg(或者其他的计算方法,在此不做限定)作为最终的分割语句的重要性分值。
本实施例通过对文本内容进行语义分析和/或位置重要性分析后得到的文本关键词提高对文章重要信息的概括,更准确表达文章的主旨内容。
步骤403,基于图像语料数据库中的语料数据,对图像内容进行特征提取,得到图像特征关键词。
为能够用文字将图像内容进行概括并确定与图像内容匹配的关键词,在提取图像特征过程中可以使用图片的像素特征,通过ImageNet预训练模型,获取图片中的物体或场景结果,如餐厅,湖边,盘子,小狗等。对于一篇内容的若干张图片分别获取结果得到与图像内容匹配的文本,将上述与图像内容匹配的文本通过步骤402的方式提取关键词。
步骤501,分别选择与文本关键词、图像特征关键词匹配的词语标签。通过步骤402、步骤403得到了与图文内容匹配的关键词。本实施例基于得到的关键词分别确定对文本内容部分、图像内容部分匹配词语标签。
步骤502,将与文本关键词匹配的词语标签、与图像特征关键词匹配的词语标签中相同的词语标签,作为标注图文内容的词语标签。在一例中,可以将与文本内容匹配的词语标签存储于集合a,将与图像内容匹配的词语标签存储于集合b,集合a、集合b中均以词语标签作为元素,对应于图文内容的词语标签为集合a、集合b的交集中的词语标签。
图6示出了本公开标签关联内容的方法的另一实施例的流程示意图。如图6所示,本公开的标签关联内容的方法还可以包括步骤800与步骤900,其中,步骤800,基于用户在预设时间范围内使用待关联标签的频率,向用户推送与待关联标签匹配的待圈选内容。
在一例中,用户在某一时间段内经常浏览待关联标签为“北京怎么玩”的攻略,达到一定频率后,服务器可以向用户推送与该待关联标签关联的其他类型的数据内容,迎合用户偏好,提高用户对旅游平台的使用体验。
步骤900,将圈选内容投放至与待关联标签匹配的内容位置。其中,内容投放任务进行任务发布,记录已经调整好的数据内容列表,根据不同的业务需求,对数据内容进行实时排序,包括按时间排序,按内容质量排序,按点赞收藏回复数排序等等。对于同一个任务,不同的业务线可以对数据内容选择按照不同的排序进行输出,输出的方式包括技术的接口对接和运营的Excel导出两种方式。对于技术接口方式,就可以完成自动化的内容投放,直接输出投放到具体的内容位置。
本实施例解决了待关联标签关联的多种类型数据内容无法贯穿统一的问题,以及运营标注不完善效率低的问题,极大的提高了内容圈选和投放的效率。
本公开实施例还可以统计出同一待关联标签关联的数据内容中各种内容类型的内容占多少。比如有多少篇笔记,多少篇游记,多少篇问答等,同时能对每一个词语标签都能覆盖多少内容进行分析,同样的,对于待关联标签,发布时间,待关联标签长度等等都会进行统一的透视分析,从而可以比较直观了解圈选内容的整体情况,从而评估这些内容是否符合所要投放位置的要求。
如果确定圈选内容基本符合待关联标签,可以确认建立任务。如果不符合,则删除该临时任务重新进行圈选。对于已经确定的任务,会在后台存储下该任务的选择条件,并记录下创建任务的业务线以及创建者信息,并生成一个任务号。根据创建者设定的更新频率,会对该任务的结果进行更新,选择一次性任务,或者按小时更新,按天更新等。
对于已经建立的任务,运营可以在内容审核平台对该任务内容进行干预,包括从该任务中删除一条内容,对内容的词语标签,或者运营标签进行调整,对内容的标题和内容进行调整等操作,同时,对于更新的内容,将会在这里标记为未审核内容,从而不会进入到下面的环节。人工干预的任务结果会保存下来,该任务的结果存储起来,在之后的使用中,如果有需要使用同样的任务,可以直接使用该任务结果而不再需要重新干预。
基于相同的发明构思,本公开第二方面提供一种标签关联内容的装置,使用该装置以实现上述第一方面以及各实施例所涉及的标签关联内容的方法中的各个步骤。
图7示出了本公开标签关联内容的装置的一个实施例的结构示意图;如图7所示,本公开的标签关联内容的装置,包括:标签确定单元10,用于确定待关联标签;内容圈选单元20,用于根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容;内容关联单元30,用于将圈选内容关联至待关联标签。
本实施中待关联标签可以是为了吸引用户人为设定的标签,可以是笔记、游记、攻略、问答的标题,也可以是对产品命名的标签、产品作用简述等,本实施例对此不做限定。词语标签可以是存储在标签数据库中用于给数据内容进行标注的标签,词语标签的形式可以是单个字,也可以是词语或者短语等具有一定意义的文字符号。同一数据内容可以通过一个或者多个词语标签进行标注。采用既定的统一数据标签对数据内容进行标注的目的是,将各种不同类型的数据内容能够通过数据标签进行数据内容的统一。
内容关联单元30将待关联标签通过词语标签关联数据内容,可使得同一待关联标签所关联的数据内容的来源出自不同的业务线,提高了待关联标签关联的数据内容的类型的多样性,提高了数据内容的利用率。用户可通过同一待关联标签获取更多类型的数据内容,提高用户的使用体验水平。
通过建立标签库存储用来标注数据内容的词语标签,各类型的数据内容均可以通过该标签库中词语标签进行标注。使同一词语标签可标注不同类型的数据内容。待关联标签通过词语标签进而关联相应数据内容,提高了待关联标签关联数据内容的多样性。提高了待关联标签匹配数据内容的效率以及准确性。
图8示出了本公开标签关联内容的装置的另一实施例的结构示意图,如图8所示,本实施例的标签关联内容的装置还包括:内容解析单元40,用于对数据内容进行解析,得到与数据内容匹配的关键词;标签匹配单元50,用于在全部词语标签中选择与关键词匹配的词语标签;内容标注单元60,用于利用选择的词语标签对数据内容进行标注。
内容解析单元40可以对上传至服务器数据内容进行实时解析,以便在标签数据库中找到与该数据内容匹配的词语标签,对该数据内容进行标注。其中,内容解析单元40解析数据内容得到的结果可以是能够概括该数据内容或者产品的关键词,方便可以通过关联的待关联标签或者运营标签能够及时找到该数据内容,提高数据内容利用率。
在获取数据内容关键词之后,标签匹配单元50通过关键词与词语标签的字或者词语或者短语进行相似度匹配,从全部的词语标签中选择与关键词相同的字或者词语或者短语。还可以通过设置相似度阈值进行关键词与词语标签的匹配。例如与关键词相似度达到0.8的词语标签可以用来标注,小于预设阈值的词语标签不可用来标注该数据内容。其中,关键词与词语标签的相似度可以是基于关键词与词语标签中相同字的个数来确定。
内容标注单元60选择用来标注数据内容的词语标签是基于数据内容的关键词与词语标签的相似度获得的。对数据内容标注的标签可以充分概括数据内容。并且,相同类型的数据内容以及不同类型的数据内容可以采用同一词语标签进行标注。可以提高词语标签标注数据内容类型的多样性。
图9示出了本公开标签关联内容的装置的内容圈选单元的一实施例的结构示意图。如图9所示,内容圈选单元20,包括:标签解析模块21,用于对待关联标签进行语义分析,得到语义分词;标签推荐模块22,用于确定与语义分词相似度大于或者等于预设阈值的词语标签;标签筛选模块23,用于根据接收的操作指令,基于待关联标签对词语标签进行与操作指令匹配的处理,其中,操作指令包括选择指令和/或逻辑运算指令;内容确定模块24,用于将处理后得到的词语标签所标注的数据内容,作为圈选内容。
为了能够为待关联标签匹配准确的数据内容,避免受到主观因素影响,本实施例的标签解析模块21对待关联标签进行语义分析,确定语义分词。通过语义分析后能够将待关联标签所表达的含义统一。
标签推荐模块22在解析待关联标签后得到的语义分词,将该语义分词与词语标签进行相似度匹配,选择与语义分词相同的词语标签或者相似度大于或者等于预设阈值的词语标签。通过待关联标签语义分析后获得语义分词,通过语义分词确定表述待关联标签的词语标签,提高了待关联标签与词语标签匹配的准确性。
标签筛选模块23选择的词语标签可以是在推荐的词语标签中最终保留使用的词语标签;也可以是需要在推荐的词语标签中删除的部分词语标签。逻辑运算指令可以包括取交集、取并集、取差集。以两个词语标签A、B为例,其中,取交集可以是在依据词语标签圈选的同一数据内容既被A标注,也被B标注;取并集可以是在依据词语标签圈选的同一数据内容单独被A标注,或者单独被B标注,或者既被A标注也被B标注;取差集可以是在依据词语标签圈选的同一数据内容被A标注但没有被B标注,或者被B标注但没有被A标注。
除了对与待关联标签匹配的词语标签进行选择以及逻辑运算后选择数据内容之外,同时也支持按照发布时间,数据内容长度,图片数量等条件去选择,也支持多种组合某些词语标签的筛选条件,从而能够筛选出所需要的具有针对性的数据内容。
对于已经经过实时解析的数据内容,内容确定模块24将所有类型的数据内容都统一到同样的维度上面,包括各种层级的词语标签,同时也包括待关联标签。通过上述方式,运营人员可以根据运营话题维度去选择所想要的且与词语标签数据内容。
图10示出了本公开标签关联内容的装置的另一实施例的结构示意图;如图10所示,本实施例的标签关联内容的装置还包括:标签更改单元70,用于基于与数据内容匹配的关键词,对已有词语标签进行更改,其中,更改包括删除操作、增加操作。
本实施例中,标签库中存储的用于标注数据内容的词语标签可根据用户发布的数据内容的撰写方式、撰写用词等因素进行修改。对标签库中的词语标签进行更改可以按照预设周期进行,更改包括删除操作、增加操作。还可以是修改操作,具体为先将标签库中的词语标签删除,再增加新的词语标签。例如,每个月对标签库中的词语标签进行更改;也可以按照数据内容解析后得到的关键词的使用频率进行更改。通过对词语标签进行更改,可以对多种不同撰写习惯、撰写风格的数据内容进行词语标签的准确标注。
在一些实施例中,数据内容包括图文内容,图11示出了本公开的标签关联内容的装置的内容解析单元的一实施例的结构示意图。如图11所示,内容解析单元40,包括:图文内容拆解模块41,用于对图文内容进行拆解,得到文本内容和图像内容;文本关键词获取模块42,用于对文本内容进行语义分析和/或位置重要性分析,确定文本关键词;图像特征提取模块43,用于基于图像语料数据库中的语料数据,对图像内容进行特征提取,得到图像特征关键词。
为保障数据内容关键词提取的准确性以及完整性,对于不同的数据内容形式需要采用不同的方式进行关键词提取,以确定用来标注图文内容的词语标签。采用游记对待训练模型进行训练,得到训练后的语义模型。该训练后的语义模型用于对文本内容进行语义分析和/或位置重要性分析,确定文本关键词。游记的每个分割语句作为一个输入,重要不重要作为分类标签,输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别标签的概率。分割句中的词和词组来组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。在预测标签时使用非线性激活函数,在中间层不使用非线性激活函数。本实施例通过对文本内容进行语义分析和/或位置重要性分析后得到的文本关键词提高对文章重要信息的概括,更准确表达文章的主旨内容。
为能够用文字将图像内容进行概括并确定与图像内容匹配的关键词,在提取图像特征过程中可以使用图片的像素特征,通过ImageNet预训练模型,获取图片中的物体或场景结果,如餐厅,湖边,盘子,小狗等。对于一篇内容的若干张图片分别获取结果得到与图像内容匹配的文本,将上述与图像内容匹配的文本通过文本关键词获取模块42提取关键词。
图12示出了本公开的标签关联内容的装置的标签匹配单元的一实施例的结构示意图;如图12所示,本实施例的标签匹配单元包括:标签选择模块51,用于分别选择与文本关键词、图像特征关键词匹配的词语标签;标签结合模块52,用于将与文本关键词匹配的词语标签、与图像特征关键词匹配的词语标签中相同的词语标签,作为标注图文内容的词语标签。
数据内容经过文本关键词获取模块42确定文本关键词、图像特征提取模块43得到图像特征关键词,基于得到的关键词由标签选择模块51分别确定对文本内容部分、图像内容部分匹配词语标签。在一例中,可以将与文本内容匹配的词语标签存储于集合a,将与图像内容匹配的词语标签存储于集合b,集合a、集合b中均以词语标签作为元素,对应于图文内容的词语标签为集合a、集合b的交集中的词语标签标签结合模块52可以将与文本内容匹配的词语标签存储于集合a,将与图像内容匹配的词语标签存储于集合b,集合a、集合b中均以词语标签作为元素,对应于图文内容的词语标签为集合a、集合b的交集中的词语标签。
图13示出了本公开标签关联内容的装置的另一实施例的结构示意图;如图13所示,本实施例的标签关联内容的装置还包括内容推送单元80,用于基于用户在预设时间范围内使用待关联标签的频率,向用户推送与待关联标签匹配的待圈选内容。用户在某一时间段内经常浏览相同或者相似的待关联标签,达到一定频率后,内容推送单元80可以向用户推送与该待关联标签关联的其他类型的数据内容,迎合用户偏好,提高用户对旅游平台的使用体验。
继续参照图13,如图13所示,本实施例的标签关联内容的装置还包括内容投放单元90,用于将圈选内容投放至与待关联标签匹配的内容位置。内容投放任务进行任务发布,记录已经调整好的数据内容列表,根据不同的业务需求,对数据内容进行实时排序,包括按时间排序,按内容质量排序,按点赞收藏回复数排序等等。对于同一个任务,不同的业务线可以对数据内容选择按照不同的排序进行输出,输出的方式包括技术的接口对接和运营的Excel导出两种方式。
采用上述任一实施例中所涉及的标签关联内容的装置对运营标签关联内容,解决了待关联标签关联的多种类型数据内容无法贯穿同一的问题,以及运营标注不完善效率低的问题,极大的提高了内容圈选和投放的效率。
图14示出了本公开的电子设备的一个实施例的结构示意图。下面参考图14,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图14所示,该电子设备该电子设备包括处理器和存储器。电子设备也可以包括输入输出装置。存储器、输入输出装置均通过总线与处理器连接。其中,存储器,用于存储处理器执行的指令;处理器,用于调用存储器存储的指令,并执行上述实施例涉及的标签关联内容的方法。
本公开实施例中处理器可调用存储器存储的指令,进行确定待关联标签;根据待关联标签与数据内容所标注的词语标签的语义匹配结果,在数据内容中确定圈选内容;将圈选内容关联至待关联标签。其中,电子设备执行标签关联内容的过程,可参阅上述实施例描述的标签关联内容的方法实施过程,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在计算机上运行时,执行上述实施例涉及的标签关联内容的方法。
本公开实施例还提供一种包含指令的计算机程序产品,当包含指令的计算机程序产品在计算机上运行时,使得计算机执行上述实施例涉及的标签关联内容的方法。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机可读存储介质,用于存储计算机可读指令,该指令被执行时使得计算机执行上述任一可能的实现方式中的标签关联内容的方法。在另一个可选例子中,该计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本公开的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。
Claims (8)
1.一种标签关联内容的方法,其中,包括:
标签确定步骤,确定待关联标签;
内容解析步骤,对数据内容进行解析,得到与所述数据内容匹配的关键词;
标签匹配步骤,在全部词语标签中选择与所述关键词匹配的词语标签;
内容标注步骤,利用选择的所述词语标签对所述数据内容进行标注;
内容圈选步骤,根据所述待关联标签与数据内容所标注的词语标签的语义匹配结果,在所述数据内容中确定圈选内容;
内容关联步骤,将所述圈选内容关联至所述待关联标签;
内容推送步骤,基于用户在预设时间范围内使用所述待关联标签的频率,向所述用户推送与所述待关联标签匹配的所述圈选内容;
其中,所述数据内容包括图文内容,所述关键词包括文本关键词与图像特征关键词,所述内容解析步骤包括:
图文内容拆解步骤,对所述图文内容进行拆解,得到文本内容和图像内容;
文本关键词获取步骤,对所述文本内容进行语义分析和/或位置重要性分析,确定文本关键词;
图像特征提取步骤,基于图像语料数据库中的语料数据,对所述图像内容进行特征提取,得到图像特征关键词。
2.根据权利要求1所述的方法,其中,所述内容圈选步骤,包括:
标签解析步骤,对所述待关联标签进行语义分析,得到语义分词;
标签推荐步骤,确定与所述语义分词相似度大于或者等于预设阈值的词语标签;
标签筛选步骤,根据接收的操作指令,基于所述待关联标签对所述词语标签进行与所述操作指令匹配的处理,其中,所述操作指令包括选择指令和/或逻辑运算指令;
内容确定步骤,将处理后得到的所述词语标签所标注的数据内容,作为所述圈选内容。
3.根据权利要求1或2所述的方法,其中,所述方法还包括:
标签更改步骤,基于与所述数据内容匹配的关键词,对已有词语标签进行更改,其中,所述更改包括删除操作、增加操作。
4.根据权利要求1所述的方法,其中,所述标签匹配步骤,包括:
标签选择步骤,分别选择与所述文本关键词、所述图像特征关键词匹配的词语标签;
标签结合步骤,将与所述文本关键词匹配的词语标签、与所述图像特征关键词匹配的词语标签中相同的词语标签,作为标注所述图文内容的词语标签。
5.根据权利要求1所述的方法,其中,所述方法还包括:
内容投放步骤,将所述圈选内容投放至与所述待关联标签匹配的内容位置。
6.一种标签关联内容的装置,其中,包括:
标签确定单元,用于确定待关联标签;
内容解析单元,用于对数据内容进行解析,得到与所述数据内容匹配的关键词;
标签匹配单元,用于在全部词语标签中选择与所述关键词匹配的词语标签;
内容标注单元,用于利用选择的所述词语标签对所述数据内容进行标注;
内容圈选单元,用于根据所述待关联标签与数据内容所标注的词语标签的语义匹配结果,在所述数据内容中确定圈选内容;
内容关联单元,用于将所述圈选内容关联至所述待关联标签;
内容推送单元,用于基于用户在预设时间范围内使用所述待关联标签的频率,向所述用户推送与所述待关联标签匹配的所述圈选内容;
其中,所述数据内容包括图文内容,所述关键词包括文本关键词与图像特征关键词,所述内容解析单元采用如下方式对数据内容进行解析,得到与所述数据内容匹配的关键词:
图文内容拆解步骤,对所述图文内容进行拆解,得到文本内容和图像内容;
文本关键词获取步骤,对所述文本内容进行语义分析和/或位置重要性分析,确定文本关键词;
图像特征提取步骤,基于图像语料数据库中的语料数据,对所述图像内容进行特征提取,得到图像特征关键词。
7.一种电子设备,其中,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现权利要求1-5中任意一项所述的标签关联内容的方法。
8.一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被处理器执行时,实现权利要求1-2中任意一项所述的标签关联内容的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764554.1A CN110489649B (zh) | 2019-08-19 | 2019-08-19 | 标签关联内容的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764554.1A CN110489649B (zh) | 2019-08-19 | 2019-08-19 | 标签关联内容的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489649A CN110489649A (zh) | 2019-11-22 |
CN110489649B true CN110489649B (zh) | 2023-06-27 |
Family
ID=68551500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764554.1A Active CN110489649B (zh) | 2019-08-19 | 2019-08-19 | 标签关联内容的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489649B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462281B (zh) * | 2020-03-31 | 2023-06-13 | 北京创鑫旅程网络技术有限公司 | 海报生成方法、装置、设备及存储介质 |
CN112699237B (zh) * | 2020-12-24 | 2021-10-15 | 百度在线网络技术(北京)有限公司 | 标签确定方法、设备和存储介质 |
CN114492419B (zh) * | 2022-04-01 | 2022-08-23 | 杭州费尔斯通科技有限公司 | 基于标注中新增关键词语的文本标注方法、系统及装置 |
CN115659969B (zh) * | 2022-12-13 | 2023-04-28 | 成方金融科技有限公司 | 文档标注方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750280A (zh) * | 2011-04-19 | 2012-10-24 | 国际商业机器公司 | 用于搜索的计算机处理方法及系统 |
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
CN105354265A (zh) * | 2015-10-23 | 2016-02-24 | 北京京东尚科信息技术有限公司 | 一种自动构建投放关键词关联结构的方法及装置 |
CN105843877A (zh) * | 2016-03-21 | 2016-08-10 | 郑州悉知信息科技股份有限公司 | 一种页面搜索方法及装置 |
-
2019
- 2019-08-19 CN CN201910764554.1A patent/CN110489649B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750280A (zh) * | 2011-04-19 | 2012-10-24 | 国际商业机器公司 | 用于搜索的计算机处理方法及系统 |
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
CN105354265A (zh) * | 2015-10-23 | 2016-02-24 | 北京京东尚科信息技术有限公司 | 一种自动构建投放关键词关联结构的方法及装置 |
CN105843877A (zh) * | 2016-03-21 | 2016-08-10 | 郑州悉知信息科技股份有限公司 | 一种页面搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110489649A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133345B (zh) | 基于人工智能的交互方法和装置 | |
CN110489649B (zh) | 标签关联内容的方法及装置 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN109408622B (zh) | 语句处理方法及其装置、设备和存储介质 | |
CN110134931B (zh) | 媒介标题生成方法、装置、电子设备及可读介质 | |
US10733197B2 (en) | Method and apparatus for providing information based on artificial intelligence | |
CN108280155B (zh) | 基于短视频的问题检索反馈方法、装置及其设备 | |
CN106372060B (zh) | 搜索文本的标注方法和装置 | |
CN113536793A (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
WO2018149115A1 (zh) | 用于提供搜索结果的方法和装置 | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
US11645095B2 (en) | Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications | |
CN111259192A (zh) | 音频推荐方法和装置 | |
CN102436483A (zh) | 一种基于显式共享子空间的视频广告检测方法 | |
US20230214423A1 (en) | Video generation | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN105893404A (zh) | 基于自然信息识别的推送系统和方法及一种客户端 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN113704507A (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
Yuan et al. | MCIC: multimodal conversational intent classification for E-commerce customer service | |
CN115203539A (zh) | 一种媒体内容推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |