CN110619103A - 网页图文检测方法、装置及存储介质 - Google Patents
网页图文检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110619103A CN110619103A CN201910882771.0A CN201910882771A CN110619103A CN 110619103 A CN110619103 A CN 110619103A CN 201910882771 A CN201910882771 A CN 201910882771A CN 110619103 A CN110619103 A CN 110619103A
- Authority
- CN
- China
- Prior art keywords
- web page
- picture
- webpage
- content
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开提供了一种网页图文检测方法、装置及存储介质,该方法包括:根据获取到的待检测的网页链接地址,获得网页内容中的目标图片和所述目标图片对应的文字描述信息,识别所述目标图片后得到与所述目标图片对应的识别内容,确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,并将确认结果作为检测结果。通过上述设置,有效地避免了人工检查图文是否一致时的失误情况,在节约了人力资源的同时,提高了检查的正确率和工作效率。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种网页图文检测方法、装置及存储介质。
背景技术
随着互联网的普及,网上购物已成为广大消费者购物消费的一条重要渠道。网上购物商城利用电子商务的各种手段,达成从买到卖的过程的虚拟商店,从而减少中间环节,消除运输成本和代理中间的差价,使得网上购物受到广大消费者的欢迎和接纳。人们只需打开购物网站或应用,浏览商品图片,便可随时随地的买到自己需要的东西。商家为了吸引消费者购买自己的商品,最重要的手段就是靠有吸引力的商品图片。消费者选择商品时最先看到的也是商品图片,所以商家在发布商品信息时,最重要的步骤就是检查商品图片是否是待销售的商品图片是否是商品文字描述的图片,而目前这种检查都是通过人工进行识别的。
发明内容
本公开提供了一种网页图文检测方法、装置及存储介质,以解决在人工检查网站图文是否一致时,存在的失误情况和工作效率低的问题。
为实现上述目的,本公开实施例的第一方面,提供一种网页图文检测方法,包括:
获取待检测的网页链接地址;
根据所述网页链接地址,获得网页内容中的目标图片和所述目标图片对应的文字描述信息;
识别所述目标图片,以得到所述目标图片对应的识别内容;
确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,并将确认结果作为检测结果。
可选的,所述确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,包括:
通过模糊匹配确认所述目标图片对应的所述文字描述信息与所述识别内容是否匹配;
若所述文字描述信息与所述识别内容匹配,则确认所述文字描述信息与所述识别内容一致;
若所述文字描述信息与所述识别内容不匹配,则确认所述文字描述信息与所述识别内容不一致。
可选的,所述根据所述网页链接地址,获得网页内容中的目标图片,包括:
从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点;
根据资源定位属性,获得所述目标元素节点上的图片链接对应的目标图片。
可选的,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,包括:
根据所述网页标签的标签名,从所述网页内容中查找所述标签名对应的目标元素节点。
可选的,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,还包括:
根据所述网页标签的特征属性,从所述网页内容中查找所述特征属性对应的目标元素节点。
可选的,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,包括:
根据所述网页标签上预设属性的特征值,从所述网页内容中查找所述特征值对应的目标元素节点。
可选的,所述根据所述网页链接地址,获得网页内容中的所述目标图片对应的文字描述信息,包括:
根据文字描述属性,获得所述目标元素节点上的文字描述信息。
可选的,所述根据资源定位属性,获得所述目标元素节点上的图片链接对应的目标图片,包括:
根据所述资源定位属性,获得所述目标元素节点上的图片链接;
在确认所述图片链接对应的请求资源是图片资源时,将所述图片资源作为目标图片。
本公开实施例的第二方面,提供一种网页图文检测装置,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。
本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
采用上述技术方案,至少能够达到如下技术效果:
本公开通过获取待检测的网页链接地址后,根据该网页链接地址获得网页内容中的目标图片和所述目标图片对应的文字描述信息,识别所述目标图片后得到所述目标图片的识别内容,判断所述文字描述信息和所述识别内容是否匹配,如果匹配,则确定所述文字描述信息和所述识别内容一致,从而解决了在人工检查网站图文是否一致时,存在的失误情况和工作效率低的问题。
附图说明
在下文中将基于实施例并参考附图来对本公开进行更详细的描述。其中所包括的附图是:
图1为本公开提供的网页图文检测方法的流程示意图;
图2为图1中步骤S120的流程示意图;
图3为本公开提供的网页图文检测装置的装置框图;
在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
以下将结合附图及实施例来详细说明本公开的实施方式,借此对本公开如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。在不脱离本公开的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本公开的保护范围之内。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
相关技术中,对销售网站的商品图片和描述文字通常都是通过人眼识别的。
本公开发明人研究发现,通过人工去检查网站图文是否一致,十分浪费人力资源。而且人工检查难免有失误的时候,不仅不能保证准确性,还降低了工作效率。因此迫切需要采取有效的自动化检查手段,对网页的图文进行检查,在保证正确率的同时,提高工作效率。
实施例一
本公开提供了一种网页图文检测方法,以解决现有技术中通过人工识别网站图文是否一致导致的失误以及工作效率不高的问题。图1为本公开提供的一种网页图文检测方法的流程示意图,如图1所示,该网页图文检测方法主要包括步骤S110至步骤S140。
在步骤S110中,获取待检测的网页链接地址。
其中,待检测的网页链接地址可以是用户输入的,也可以是系统查询到的。
所述网页链接地址可以包括不同格式、不同属性以及不同位置的各项网络资源的网页地址和本地资源的跳转地址。
在步骤S120中,根据所述网页链接地址,获得网页内容中的目标图片和所述目标图片对应的文字描述信息。如图2所示,目标图片的获取过程可以包括以下步骤:
步骤S1201,从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点。
步骤S1202,根据资源定位属性,获得所述目标元素节点上的图片链接对应的目标图片。
在步骤S1201中,根据所述网页链接地址获得对应的网页内容,所述网页内容包括超文本链接、图片、音频、视频以及文本等。由于网页是一个包含HTML标签的纯文本文件。所述HTML标签包括多种标签名、标签上的属性以及标签上的属性对应的属性值。不同的HTML标签对应着网页不同的元素节点,通过不同程序语言提供的API以及CSS选择器可以查找到对应的目标元素节点。图片资源对应的目标元素可以通过特殊的标签名、网页标签的特征属性以及网页标签上预设属性的特征值作为标识。
其中,CSS选择器包括网页标签、标签上的属性以及标签上的属性对应的属性值中至少一种。
不同程序语言可以是但不限制于是JS或Python,在此不做具体限制,根据实际需求设置即可。
当目标元素的标识是标签名时,根据所述网页标签的标签名,从所述网页内容中查找所述标签名对应的目标元素节点。
例如,网页通常是采用<img>标签来显示图片的,因此可以采用<img>标签作为图片资源对应的目标元素的标识,通过img这个标签名和相应的API即可查找到图片资源对应的目标元素节点。
当目标元素的标识是网页标签的特征属性时,网页可能采用一些不具有图片特征的普通标签显示图片,这时,可以采用所述普通标签的特征属性作为目标元素的标识,根据所述网页标签的普通标签的特征属性,从所述网页内容中查找所述标签名对应的目标元素节点。
例如,在网页中有一些图片没有采用<img>标签显示图片,而是通过<div>这类的普通标签,如果想通过<div>标签查找元素节点,那么查到的元素节点可能大部分都是本实施例不需要的文本元素节点,这时通过给这个<div>标签加上一个特征属性data-img(这是由于网页标签上允许设置自定义属性,并且这个自定义属性约定只用于显示图片的最里层的网页标签),通过查找data-img这个属性即可查找到图片资源对应的目标元素节点。
当目标元素的标识是网页标签上预设属性的特征值时,网页可能采用一些不具有图片特征的普通标签显示图片,这时,可以采用所述网页标签上预设属性的特征值作为目标元素的标识,根据所述网页标签上预设属性的特征值,从所述网页内容中查找所述标签名对应的目标元素节点。
例如,在网页中有一些图片没有采用<img>标签显示图片,也没有采用data-img之类的特征属性作为图片元素的标识,这时通过给普通标签的某些属性(例如class属性)加上一个特征值flag-img作为图片元素的标识,并且约定这个特征值只用于显示图片的最里层的网页标签,此时只需通过查找该特征值flag-img这个属性值即可查找到图片资源对应的目标元素节点。
由此,可以全面地查询到网页中所有需要查找的图片资源,有效地避免了了遗漏图片的情况。
得到所述目标元素节点后,执行步骤S1202,所述目标元素节点包括存放着目标资源地址的资源定位属性,根据资源定位属性,获得所述目标元素节点上的图片链接,根据所述图片链接获得对应的目标图片。
其中,所述资源定位属性可以是但不限制于src属性或url属性,根据实际需求设置即可,在此不做具体限制。
例如,如果网页采用<img>标签显示图片,那么可以通过<img>标签上的src属性获得图片链接(这个src属性的值就是图片链接);如果网页采用<div>标签将图片作为背景图的显示,那么可以通过url属性获得图片链接;根据图片链接即可获得对应的目标图片。
值得说明的是,通过上述步骤找到的目标元素节点上资源定位属性对应的链接可能并不是图片链接,这时需要确认通过该链接下载的资源的文件名后缀是否是图片对应的文件名后缀,如果所述链接对应的资源的文件名后缀是图片文件名后缀,则将该资源作为目标图片;如果不是,则不再对所述链接获得的资源进行下一步的识别处理。
所述图片文件名后缀可以是但不限制于“.jpg”、“.jpeg”、“.gif”以及“.png”,根据实际需求设置即可,在此不做具体限制。
在步骤S130中,识别所述目标图片,以得到所述目标图片对应的识别内容。
可选地,在本实施例中通过模糊识别技术对所述目标图片进行识别后得到所述目标图片对应的识别内容。
其中,模糊识别的过程如下,首先获取图片的待识别的原始数据集,即上述获得的目标图片,对所述目标图片进行特征提取和识别,调用模糊识别特征库的函数计算所述原始数据集和参考集之间的隶属度(参考集为一个预设的包含很多特征子集合的样本集),从而构成隶属集。若对于研究范围U的任一元素x,都有一个数A(x)在区间[0,1]范围内,则A为U上的参考集,A(x)为x对A的隶属度,也可以说隶属度相当于所述原始数据集落在某一子集合的概率,当x在U中变动是,A(x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近1,表示x属于A的程度越高。之后再调用模糊识别动态库中的函数把隶属集作为参数传进去得到范围更小的参考集,循环此过程直至计算得到隶属度值小于最初设定的目标匹配值,此时将得到一个匹配结果。最后,调用模糊识别特征库的函数把得到的匹配结果的下标作为参数传入模糊识别特征库的数据集中,以得到识别内容。
例如,所述图片为白色洗衣机图片,那么通过模糊识别后得到的识别内容为“白色洗衣机”或者“洗衣机”。
由于在发布图片时,网站会自动将图片的描述信息进行关键词提取后将提取后的信息保存在图片对应标签的文字描述属性上。在上述步骤中通过多种方式找到了目标元素节点,此时,可根据特定的文字描述属性获取所述目标图片对应的文字描述信息。
例如,某个洗衣机图片是采用<img>标签显示的,那么在<img>标签上有一个alt文字描述属性,通过alt属性即找到该洗衣机图片对应的文字描述属性“洗衣机”。
在步骤S140中,确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,并将确认结果作为检测结果。
通过预设算法对都和所述目标图对应的所述文字描述信息与所述识别内容进行匹配,若所述文字描述信息与所述识别内容匹配,则确定所述文字描述信息与所述识别内容是一致的,此时的检测结果为图文一致,若所述文字描述信息与所述识别内容不匹配,则确定所述文字描述信息与所述识别内容不一致,此时的检测结果为图文不一致。
可选的,在本实施例中,所述预设算法可以是模糊匹配算法。
例如,针对一张洗衣机图片,对应的所述识别内容为“白色洗衣机”,对应的所述文字描述信息为“洗衣机”,通过模糊匹配判断“白色洗衣机”与“洗衣机”的关键词是一样的,那么确定“白色洗衣机”与“洗衣机”是匹配的,相应的,可以确认所述文字描述信息与所述识别内容是一致的,此时检测结果为图文不一致。
应用本公开的网页图文检测方法,能够根据获取到的待检测的网页链接地址,获取网页内容中的目标图片和所述目标图片对应的文字描述信息,并对所述目标图片进行模糊识别得到所述目标图片对应的识别内容,确认均与所述目标图片对应的所述文字描述信息和所述识别内容是否匹配,并将确认结果作为网页图文是否一致的检测结果。通过上述设置,本公开可以有效地避免人工检查图文是否一致时的失误情况,在节约了人力资源的同时,提高了检查的正确率和工作效率。
实施例二
本实施例提供一种网页图文检测装置,该装置能够应用上述一种网页图文检测方法,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一项可选实施例所述网页图文检测方法的步骤。
图3是本公开提供的一种网页图文检测装置400的装置框图,如图3所示,该网页图文检测装置400可以包括:处理器401,存储器402,多媒体组件403,输入/输出(I/O)接口404,以及通信组件405。
其中,处理器401用于控制该装置400的整体操作,以完成上述的网页图文检测方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该装置400的操作,这些数据例如可以包括用于在该装置400上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该装置400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在本实施例中,装置400可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器(Digital SignalProcessor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的网页图文检测方法。
实施例三
本实施例提供一种存储介质,其上存储有计算机程序,该计算机程序可以被一个或多个处理器执行,以实现如实施例一中描述的网页图文检测方法。
其中,在所述处理器上运行的网页图文检测方法的计算机程序被执行时所实现的方法可参照本公开网页图文检测方法的具体实施例,此处不再赘述。
所述处理器可以是一种集成电路芯片,具有信息处理能力。所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。
应当理解到,所揭露的方法、装置,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
虽然本公开所公开的实施方式如上,但所述的内容只是为了便于理解本公开而采用的实施方式,并非用以限定本公开。任何本公开所属技术领域内的技术人员,在不脱离本公开所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本公开的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种网页图文检测方法,其特征在于,包括:
获取待检测的网页链接地址;
根据所述网页链接地址,获得网页内容中的目标图片和所述目标图片对应的文字描述信息;
识别所述目标图片,以得到所述目标图片对应的识别内容;
确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,并将确认结果作为检测结果。
2.根据权利要求1所述的网页图文检测方法,其特征在于,所述确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否一致,包括:
通过模糊匹配确认均与所述目标图片对应的所述文字描述信息与所述识别内容是否匹配;
若所述文字描述信息与所述识别内容匹配,则确认所述文字描述信息与所述识别内容一致;
若所述文字描述信息与所述识别内容不匹配,则确认所述文字描述信息与所述识别内容不一致。
3.根据权利要求1所述的网页图文检测方法,其特征在于,所述根据所述网页链接地址,获得网页内容中的目标图片,包括:
从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点;
根据资源定位属性,获得所述目标元素节点上的图片链接对应的目标图片。
4.根据权利要求3所述的网页图文检测方法,其特征在于,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,包括:
根据所述网页标签的标签名,从所述网页内容中查找所述标签名对应的目标元素节点。
5.根据权利要求3所述的网页图文检测方法,其特征在于,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,包括:
根据所述网页标签的特征属性,从所述网页内容中查找所述特征属性对应的目标元素节点。
6.根据权利要求3所述的网页图文检测方法,其特征在于,所述从所述网页链接地址对应的网页内容中查找网页标签对应的目标元素节点,包括:
根据所述网页标签上预设属性的特征值,从所述网页内容中查找所述特征值对应的目标元素节点。
7.根据权利要求3所述的网页图文检测方法,其特征在于,所述根据所述网页链接地址,获得网页内容中的所述目标图片对应的文字描述信息,包括:
根据文字描述属性,获得所述目标元素节点上的文字描述信息。
8.根据权利要求3所述的网页图文检测方法,其特征在于,所述根据资源定位属性,获得所述目标元素节点上的图片链接对应的目标图片,包括:
根据所述资源定位属性,获得所述目标元素节点上的图片链接;
在确认所述图片链接对应的请求资源是图片资源时,将所述图片资源作为目标图片。
9.一种网页图文检测装置,其特征在于,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882771.0A CN110619103A (zh) | 2019-09-18 | 2019-09-18 | 网页图文检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882771.0A CN110619103A (zh) | 2019-09-18 | 2019-09-18 | 网页图文检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110619103A true CN110619103A (zh) | 2019-12-27 |
Family
ID=68923413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882771.0A Pending CN110619103A (zh) | 2019-09-18 | 2019-09-18 | 网页图文检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619103A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460763A (zh) * | 2020-03-02 | 2020-07-28 | 南京南瑞继保电气有限公司 | 文件差异的标注方法、装置、设备及计算机可读存储介质 |
CN112036521A (zh) * | 2020-11-09 | 2020-12-04 | 北京沃东天骏信息技术有限公司 | 信息一致性检测方法、装置、设备及存储介质 |
CN112187949A (zh) * | 2020-10-09 | 2021-01-05 | 珠海格力电器股份有限公司 | 图片的批量下载方法和装置、存储介质、电子装置 |
CN115796145A (zh) * | 2022-11-16 | 2023-03-14 | 珠海横琴指数动力科技有限公司 | 一种网页文本的采集方法、系统、服务器及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425644A (zh) * | 2012-05-14 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 网页正文中图片的提取方法及装置 |
CN104156490A (zh) * | 2014-09-01 | 2014-11-19 | 北京奇虎科技有限公司 | 基于文字识别检测可疑钓鱼网页的方法及装置 |
CN104252446A (zh) * | 2013-06-27 | 2014-12-31 | 鸿富锦精密工业(深圳)有限公司 | 计算装置、文件内容一致性验证系统及方法 |
CN104965901A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种目标页面内容抓取方法和装置 |
CN107508903A (zh) * | 2017-09-07 | 2017-12-22 | 维沃移动通信有限公司 | 一种网页内容的访问方法及终端设备 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN108228720A (zh) * | 2017-12-07 | 2018-06-29 | 北京字节跳动网络技术有限公司 | 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质 |
-
2019
- 2019-09-18 CN CN201910882771.0A patent/CN110619103A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425644A (zh) * | 2012-05-14 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 网页正文中图片的提取方法及装置 |
CN104252446A (zh) * | 2013-06-27 | 2014-12-31 | 鸿富锦精密工业(深圳)有限公司 | 计算装置、文件内容一致性验证系统及方法 |
CN104156490A (zh) * | 2014-09-01 | 2014-11-19 | 北京奇虎科技有限公司 | 基于文字识别检测可疑钓鱼网页的方法及装置 |
CN104965901A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种目标页面内容抓取方法和装置 |
CN107508903A (zh) * | 2017-09-07 | 2017-12-22 | 维沃移动通信有限公司 | 一种网页内容的访问方法及终端设备 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN108228720A (zh) * | 2017-12-07 | 2018-06-29 | 北京字节跳动网络技术有限公司 | 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460763A (zh) * | 2020-03-02 | 2020-07-28 | 南京南瑞继保电气有限公司 | 文件差异的标注方法、装置、设备及计算机可读存储介质 |
CN112187949A (zh) * | 2020-10-09 | 2021-01-05 | 珠海格力电器股份有限公司 | 图片的批量下载方法和装置、存储介质、电子装置 |
CN112036521A (zh) * | 2020-11-09 | 2020-12-04 | 北京沃东天骏信息技术有限公司 | 信息一致性检测方法、装置、设备及存储介质 |
CN112036521B (zh) * | 2020-11-09 | 2021-10-01 | 北京沃东天骏信息技术有限公司 | 信息一致性检测方法、装置、设备及存储介质 |
CN115796145A (zh) * | 2022-11-16 | 2023-03-14 | 珠海横琴指数动力科技有限公司 | 一种网页文本的采集方法、系统、服务器及可读存储介质 |
CN115796145B (zh) * | 2022-11-16 | 2023-09-08 | 珠海横琴指数动力科技有限公司 | 一种网页文本的采集方法、系统、服务器及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622135B (zh) | 用于显示信息的方法和装置 | |
CN110619103A (zh) | 网页图文检测方法、装置及存储介质 | |
US11392660B2 (en) | Presentation of information on multiple devices | |
CN104462074A (zh) | 一种进行网页数据翻译的方法、装置和浏览器客户端 | |
US10235712B1 (en) | Generating product image maps | |
US20150227276A1 (en) | Method and system for providing an interactive user guide on a webpage | |
CN104915845B (zh) | 针对窗口的商品信息显示方法和装置 | |
US20090199077A1 (en) | Creating first class objects from web resources | |
CN110825988A (zh) | 一种信息展示方法、装置和电子设备 | |
US20130262463A1 (en) | Method and system to provide smart tagging of search input | |
CN104462590A (zh) | 信息搜索方法及装置 | |
CN110968314B (zh) | 一种页面生成方法及装置 | |
CN111125605B (zh) | 页面元素获取方法和装置 | |
WO2016178068A1 (en) | System and method for testing web pages | |
CN113656737B (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
CN107329981B (zh) | 页面检测的方法和装置 | |
KR102712013B1 (ko) | 정보를 송신하는 방법 및 장치 | |
CN113742551A (zh) | 一种基于scrapy和puppeteer的动态数据抓取方法 | |
CN110781388A (zh) | 针对图像信息的信息推荐方法及装置 | |
CN111753181A (zh) | 基于图像的搜索方法、装置、服务器、客户端及介质 | |
CN109684015B (zh) | 界面数据的加载方法、装置、电子设备及存储介质 | |
US11113461B2 (en) | Generating edit suggestions for transforming digital documents | |
US11258845B2 (en) | Browser management system, browser management method, browser management program, and client program | |
CN114996602A (zh) | 显示方法、搜索方法、设备及计算机存储介质 | |
CN113221035A (zh) | 用于确定异常网页的方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191227 |