[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN101916255B - Html内容对比装置及方法 - Google Patents

Html内容对比装置及方法 Download PDF

Info

Publication number
CN101916255B
CN101916255B CN2010102240001A CN201010224000A CN101916255B CN 101916255 B CN101916255 B CN 101916255B CN 2010102240001 A CN2010102240001 A CN 2010102240001A CN 201010224000 A CN201010224000 A CN 201010224000A CN 101916255 B CN101916255 B CN 101916255B
Authority
CN
China
Prior art keywords
text
difference
label
html
contrast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102240001A
Other languages
English (en)
Other versions
CN101916255A (zh
Inventor
潘海东
梅春
潘雪鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Interactive Encyclopedia Network Technology Co.,Ltd.
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Interactive Online (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Online (beijing) Technology Co Ltd filed Critical Interactive Online (beijing) Technology Co Ltd
Priority to CN2010102240001A priority Critical patent/CN101916255B/zh
Publication of CN101916255A publication Critical patent/CN101916255A/zh
Application granted granted Critical
Publication of CN101916255B publication Critical patent/CN101916255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及HTML内容对比装置和方法。该装置包括:文本节点分析装置,用于通过循环遍历分别对两个HTML内容进行分析,得到两个文本节点序列;文本节点对比装置,用于比较两个文本节点序列中的文本节点并得到包括差异文本和相应差异类型的文本节点比较结果;差异分析装置,用于比较两个HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;差异数据标识装置,用于识别文本节点比较结果中差异文本和相应差异类型以及标签比较结果中差异标签和相应差异类型,并分别对两个HTML内容中差异文本和差异标签进行差异标识使得在显示对比结果时方便观看两个HTML内容中的差异;以及用于显示比较结果的显示装置。

Description

HTML内容对比装置及方法
技术领域
本发明涉及HTML内容对比技术领域,特别是涉及一种HTML内容对比装置及方法。
背景技术
超文本置标语言(HyperText Markup Language,简称为HTML)是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。HTML被用来结构化信息——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。例如,HTML内容<h2>Golf</h2>中的<h2></h2>定义了浏览器将″Golf″显示为二级标题,HTML内容<b>boldface</b>中的<b></b>定义了浏览器将″boldface″显示为粗体文字,即″boldface″。可以发现HTML利用一个开始标签“<X>”和一个结束标签“</X>”来控制标签之间的内容的显示格式。HTML标签是用来控制标签中的内容显示格式的,HTML标签是HTML内容的一部分,但该部分不被HTML内容的用户视觉看到,即用户看到的是有格式的内容,而不会看到HTML标签本身。本领域技术人员已知,HTML内容中包括各种不同类型的节点,例如,一个开始标签和一个结束标签构成HTML文档中一个节点;开始标签和结束标签之间的文本内容,如“Golf”,可被称为文本类型节点,简称文本节点;开始标签和相应的结束标签以及其中的文本内容一起被称为元素类型节点,简称元素节点。一个节点可以嵌套一个或多个其他的节点,如“<html><body><div>A</div><p>B</p></body></html>”,被嵌套的节点<div>A</div>和<p>B</p>为其上一级节点<body></body>的子节点,而嵌套有节点的节点<body></body>为其子节点<div>A</div>和<p>B</p>的父节点。
文本内容对比技术已经在很好的服务于大家。文本文件对比软件尤其是版本控制类软件的文件内容对比功能,可以帮助使用者判断新文件相对于旧文件存在哪些差异,例如判断并标识新文件相对于旧文件增加了哪些内容,修改了哪些内容,删除了哪些内容。
但是,现有技术的文件内容对比技术仅能够以纯文本形式对比新旧文件内容,对于被HTML标签结构化的内容则不能很好的进行对比如果以纯文本对比方式对HTML内容进行对比,会将HTML标签视为文本内容进行对比。然而,将HTML标签视为文本内容进行对比会失去HTML标签用于控制内容格式的存在的意义,有可能损害由HTML标签控制的文本内容的格式。另一方面也不希望去掉HTML标签而仅对文本内容进行对比,因为对比HTML内容的用户同样希望在内容对比结果中看到所比较的内容中HTML标签所控制的文本格式的差异。比如对于两段完全一样的文本内容,其中一个存在HTML标签而另一个不存在,则希望在对比该两段内容的对比结果中,突出显示具有由HTML标签控制的格式的文本内容。
因此,需要一种对比包括HTML标签的HTML内容的对比装置和方法,其中从显示格式控制的角度将HTML标签作为对比内容的一部分进行对比。
发明内容
为了弥补以上现有技术的不足,本发明提供一种对HTML内容对比的方法,以解决保持HTML标签对标签中的文本内容的格式控制的同时,对HTML内容进行差异分析对比的问题。
本发明通过以下技术手段实现:
一种用于对比两个HTML内容的装置,包括:
文本节点分析装置,用于通过循环遍历分别对两个HTML内容进行分析,得到两个文本节点序列;
文本节点对比装置,用于对所述两个文本节点序列中的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
差异分析装置,用于对所述两个HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
差异数据标识装置,用于识别文本节点比较结果中差异文本和相应差异类型以及标签比较结果中差异标签和相应差异类型,并分别对两个HTML内容中差异文本和差异标签进行差异标识使得在显示对比结果时方便观看所述两个HTML内容的差异;
显示装置,用于分别显示其中差异文本和差异标签被标识的所述两个HTML内容。
一种用于对比两个HTML内容的方法,包括:
通过循环遍历分别对两个HTML内容进行分析,得到两个文本节点序列;
对所述两个文本节点序列中的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
对所述两个HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
识别文本节点比较结果中的差异文本和相应差异类型以及标签比较结果中差异标签和相应差异类型,分别对两个HTML内容中的差异文本和差异标签进行差异标识使得在显示对比结果时方便观看所述两个HTML内容的差异;
在HTML页面中分别分别显示其中差异文本和差异标签被标识的所述两个HTML内容。
一种用于对比多个HTML内容的装置,包括:
指定装置,用于将待对比的多个HTML内容之一指定为参考HTML内容;
文本节点分析装置,用于通过循环遍历分别对该多个HTML内容进行分析,得到多个文本节点序列;
文本节点对比装置,分别将所述多个文本节点序列中所述参考HTML内容之外的其他HTML内容的文本节点序列的文本节点与所述参考HTML内容的文本节点序列的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
差异分析装置,将所述其他HTML内容中的标签与所述参考HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
差异数据标识装置,用于识别各文本节点比较结果中差异文本和相应差异类型以及各标签比较结果中差异标签和相应差异类型,分别对差异文本和差异标签进行差异标识使得在显示对比结果时方便观看其他HTML内容相对于参考HTML内容的差异;
显示装置,用于分别显示所述参考HTML内容和其中所述差异文本和所述差异标签被标识的其他HTML内容。
优选地,分别对两个HTML内容中差异文本和差异标签进行差异标识包括分别对所述差异文本增加设置有属性的标签和改变所述差异标签的标签属性。
优选地,通过预先定义标签属性使得具有相同差异类型的文本以相同的突出显示格式显示。
优选地,所述差异类型是文本增加,文本删除,文本修改,标签增加,标签删除或标签修改。
优选地,突出显示格式包括改变文本的字体颜色,对文本增加背景色,对文本增加下划线和对文本增加删除线。
本发明的优点为:
采用本发明所述方法和装置,克服了现有的纯文本对比方法不能比较HTML内容中的标签并且不能在比较结果中突出显示被比较的HTML内容中的格式差异的技术问题,使进行HTML内容对比的用户能够在对比结果中直观地观察到不同版本的HTML内容之间文本内容的变化和显示格式的变化,满足了用户对HTML内容的对比的需求。
附图说明
图1示出了根据本发明实施例的HTML内容对比装置的结构框图;
图2示出根据本发明实施例的实现HTML内容对比方法的流程图;
图3为本发明实施例的HTML内容对比的对比结果示意图。
具体实施方式
下面将参照附图对本发明的实施例进行说明。应当理解,这里描述的实施例是示意性的而非限制性的。本领域技术人员通过阅读说明书,可以对本发明的技术方案有更好的了解,并可以在本发明的精神和宗旨下对本发明的实施例进行各种修改和变型。本发明的保护范围仅由随附权利要求书限定。
图1示出了根据本发明实施例的一种HTML内容对比装置,该装置包括文本节点分析装置1,文本节点对比装置2,差异分析装置3,差异数据标识装置4和显示装置5。
文本节点分析装置1,用于从,例如两个,待对比的HTML内容的HTML内容中分析得到,例如两个,文本节点序列。文本节点序列由HTML内容中的文本节点构成。文本节点分析装置通过对HTML内容进行循环遍历,分析每个节点的节点类型,根据其类型判断该节点是否为文本节点。如果是,则将该文本节点的文本记录在例如一维变量数组中,由此从HTML内容当中分析得到例如以一维数组表示的文本节点序列。例如一段简单的HTML内容“<html><body>hello,<b>world</b>!</body></html>”包括两种类型的节点,例如,文本节点“hello,”和元素节点<b>world</b>。元素节点“<b>world</b>”进一步嵌套有文本节点“world”。通过循环遍历可以找到该段HTML内容中的所有文本节点“hello,”,“world”,“!”,并由此形成文本节点序列{“hello,”,“world”,“!”}。
文本节点对比装置2,用于接收文本节点分析装置分析得到的两个文本节点序列,对文本节点序列进行比较并记录它们的文本差异和相应的差异类型,例如,文本的增加,删除或修改,并将包括文本差异和相应差异类型的文本节点比较结果输出给差异数据标识装置4。
差异分析装置3,用于对待对比的两个HTML内容中的标签进行对比。对标签进行对比包括对两个HTML内容的标签名和标签的内容进行对比。例如,当所对比标签的标签名和标签内容均相同即该标签名和标签内容构成的元素节点相同时,认为所对比的标签相同。如果所对比标签的标签名或标签内容存在差异,差异分析装置3记录该差异和该差异的类型,例如标签的增加,删除或修改。例如,如果标签的标签名不匹配,则认为该标签是被删除的标签或增加的标签;如果标签的标签名匹配但他们的内容完全不同,则同样将该标签认为是被删除的标签或增加的标签。如果标签的标签名匹配但是他们的内容部分相同,则认为是修改的标签。差异分析装置3将包括标签差异和相应的标签差异类型的标签比较结果输出到差异数据标识装置4。
差异数据标识装置4,分别接收文本节点对比装置2和差异分析装置3的比较结果,识别文本节点比较结果中差异的文本和该差异的类型以及标签比较结果中差异的标签和该差异的类型,对差异的文本和差异的标签进行差异标识以便在显示所对比的两个HTML内容时突出显示所述差异的文本和由差异的标签导致的文本的格式差异以方便用户观看。对差异的文本和差异的标签进行差异标识,例如,包括通过分别对差异的文本增加设置有属性的标签和对差异的标签的改变标签属性,在显示对比结果时,将差异文本和具有差异格式的文本以突出显示格式显示。优选地,通过预定义标签属性可以用相同的突出显示格式显示具有相同差异类型的文本。突出显示格式,例如,但不限于,对差异文本和差异标签中文本改变其显示格式,比如添加背景色,或改变文本颜色、增加下划线,增加删除线等。
显示装置4用于在HTML对比页面中对分别经过差异标识的每个HTML内容进行显示。
图2示出根据本发明实施例的实现HTML内容对比方法的流程图。在HTML页面中,用户选择要进行对比的HTML内容并进入HTML内容对比页面。HTML内容对比装置分析所选择的HTML内容的差异,对分析出的差异进行标识,并在HTML内容对比页面中显示对差异进行了标识的HTML内容,由此用户在HTML页面显示的对比结果中能够清楚看到所对比的HTML内容中的差异。本发明将以对比两个HTML内容为例具体描述根据本发明的方法。
步骤S11、文本节点分析装置将每个待对比的HTML内容分析出一个文本节点序列。从HTML内容当中分析文本节点序列的方法是,循环遍历HTML内容的每个节点,分析每个节点的节点类型,根据其类型判断该节点是否为文本节点。如果该节点是文本节点,则将该文本节点的文本记录到例如一个变量数组中,由此从HTML内容当中分析得到例如以一维数组表示的文本节点序列。
步骤S12、文本节点对比装置接收文本节点分析装置分析得到的两个文本节点序列,对文本节点序列进行对比并记录它们的差异和差异类型。在对比两个文本节点序列的过程当中,分析其中一个文本节点序列相对于另一个文本节点序列的各文本节点的差异,即差异文本,和差异的类型,例如文本增加、文本修改或文本删除。将这些差异文本和相应差异的类型作为变量记录并存储在例如数组中,以便在后面的步骤中对差异进行标识。
步骤S13、差异分析装置对待对比的两个HTML内容中的标签进行对比。对标签进行对比包括对两个HTML内容的标签名和标签的内容进行对比。对比方法包括,将其中一个HTML内容的所有标签,逐一在另一个HTML内容当中查找对比。对标签进行对比包括对两个HTML内容的标签名和标签的内容进行对比。例如,当所对比标签的标签名和标签内容均相同即该标签名和标签内容构成的元素节点相同时,认为所对比的标签相同。如果所对比标签的标签名或标签内容存在差异,差异分析装置3记录该差异和该差异的类型,例如标签增加,标签删除或标签修改。例如,如果标签的标签名不匹配,则认为该标签是被删除的标签或增加的标签;如果标签的标签名匹配但他们的内容完全不同,则同样将该标签认为是被删除的标签或增加的标签。如果标签的标签名匹配但是他们的内容部分相同,则认为是修改的标签。将新加的、删除的或被修改的标签记录到数组变量当中,以便在后面步骤中对差异进行标识。
差异分析装置3将包括标签差异和相应差异类型的标签比较结果输出到差异数据标识装置4。
步骤S14、对上述步骤12和步骤S13中得到的所有差异进行标识。
首先,识别文本节点比较结果中差异的文本和相应差异的类型以及标签比较结果中差异的标签和相应差异的类型,对差异的文本和差异的标签进行差异标识以便在显示所对比的两个HTML内容时突出显示HTML内容中差异以方便用户观看。对差异文本和差异标签进行差异标识,例如,包括分别对差异的文本增加设置有属性的标签和对差异的标签的改变其标签属性,在显示对比结果时,将差异文本和由差异的标签结构化的文本以突出显示格式显示。优选地,通过预定义标签属性可以用相同的突出显示格式显示具有相同差异类型的文本。突出显示格式,例如,但不限于,对差异文本和差异标签中的文本改变其显示格式,比如添加背景色,或改变文本颜色、增加下划线或增加删除线等。
对差异文本进行标识例如可以为差异文本添加<span></span>标签。然后例如通过定义新增加的标签的属性,给刚创建这个节点中的文本设置一个背景颜色,由此对该差异文本进行突出显示。如果HTML标签存在,则通过重新定义该标签的属性,将此标签构成的元素节点设置一个背景颜色以便由显示装置突出显示。依次对所有的差异逐个标识,即完成对比操作。
如果需要对多个HTML内容进行对比,用户例如可以进一步选取其中的两个进行对比,对比方式如上所述。或者,用户可以将该多个HTML内容中的一个HTML内容指定为作为参考内容,将该多个HTML内容中除该参考内容的的其他HTML内容与该参考内容进行对比并分别对相比于该参考内容的差异进行标识。
相比于图1所示的HTML内容对比装置,用于对比多个HTML内容的装置进一步包括用于将该多个HTML内容之一指定为参考内容的指定装置。对比多个HTML内容的装置中,文本节点分析装置、文本节点对比装置、差异分析装置和差异数据标识装置分别将多个HTML内容中除参考内容外的其他呢日哦能够与该参考内容进行对比并获得相应的对比结果。
实施例1
对比内容A1“<html><body>hello,world!</body></html>”和对比内容A2“<html><body>hello,<b>world</b>!</body></html>”。
文本节点分析装置1分别对对比内容A1和对比内容A2进行分析,获得文本节点序列A1{“hello,world!”}和文本节点序列A2{“hello,”,“world”,“!”},并将所获得的文本节点序列输出至文本节点对比装置2。
文本节点对比装置2接收文本节点分析装置1输出的文本节点序列A1和文本节点序列A2,并对两个文本节点序列中的每个节点进行比较。通过比较可知,文本节点序列A1和文本节点序列A2中的文本内容完全相同。文本节点对比装置将两个文本节点序列文本内容相同的比较结果输出到差异数据标识装置。
差异分析装置3对对比内容A1中的标签和对比内容A2中的标签进行对比。通过对比可知,相比于对比内容A1,对比内容A2对文本“world”增加了标签<b></b>。差异分析装置3将此标签差异例如作为变量存储,并将该变量输出到差异数据标识装置。
差异数据标识装置4分别接收文本节点对比装置2和差异分析装置3的分析结果并对分析结果中的差异进行标识。在本实施例中,因为对比内容A1和对比内容A2之间不存在文本内容的差异,因而不需要要对文本内容进行差异标识。差异数据标识装置4通过对对比内容2的元素节点<b>world</b>增加标签属性为该元素节点中的文本增加特殊的显示格式,例如在该实施例中为该元素节点中的文本增加背景色。
显示装置5对经过对比并进行差异标识后的对比内容A1和对比内容A2进行显示。该实施例的对比内容A1和对比内容A2的对比结果分别示出在图3的左右两个对比框的第一行中。与对比内容A1相比,对比内容A2中增加了标签“<b></b>”的元素节点中的文本“world”在对比框中被背景色突出显示。
实施例2
对比内容B1“<html><body>HTML内容对比页面之左侧</body></html>”和对比内容B2“<html><body>HTML<a>显示内容</a>对比页面之右侧</body></html>”
文本节点分析装置1分别对对比内容B1和对比内容B2进行分析,获得文本节点序列B1{“HTML内容对比页面之左侧”}和文本节点序列B2{“HTML”,“显示内容”,“对比页面之右侧”},并将所获得的文本节点序列输出至文本节点对比装置2。
文本节点对比装置2接收文本节点分析装置1的输出的文本节点序列B1和文本节点序列B2,并对两个文本节点序列中的每个节点进行比较。通过比较可知,与文本节点序列B 1中的文本节点相比,文本节点序列B2中的文本增加了“显示”,并将“左”修改为“右”。文本节点对比装置2将文本节点序列B1不同于文本节点序列B2的差异文本和差异类型,“左”文本修改;与文本节点序列B2不同于文本节点序列B1的差异文本和差异类型,“显示”文本增加和“右”文本修改;分别输出到差异数据标识装置。
差异分析装置3对对比内容B1中的标签和对比内容B2中的标签进行对比。通过对比可知,相比于对比内容B1,对比内容B2对文本节点“显示内容”增加了标签<a></a>。差异分析装置3将此标签差异以及标签增加的差异类型,例如作为变量,存储,并将该变量输出到差异数据标识装置。
差异数据标识装置4分别接收文本节点对比装置2和差异分析装置3的分析结果。对于节点对比装置2的分析结果,差异数据标识装置4对对比内容B 1中的“左”和对比内容B2中的“显示”和“右”分别增加例如<span></span>的差异标识标签并定义标签属性。增加差异标识标签后,对比内容B1变为“<html><body>HTML内容对比页面之<span class=”shanchu”>左</span>侧</body></html>”,对比内容B2变为“<html><body>HTML<a><spanclass=”zengjia”>显示</span>内容</a>对比页面之<span class=”zengjia”>右</span>侧</body></html>”。本文中,class属性的内容使用了“zengjia”、“shanchu”,其中“zengjia”与“shanchu”只是用来标识属性的,与其是什么字符串没有关系。对于差异分析装置3的分析结果,差异数据标识装置4通过对对比内容B2的元素节点<a>显示内容</a>增加标签属性来对文本“显示内容”增加特殊的显示格式。例如在该实施例中为该元素节点的属性是增加背景色属性。对比内容B2被修改为“<html><body>HTML<aclass=”biaoqian_zengjia”><span class=”zengjia”>显示</span>内容</a>对比页面之<span class=”zengjia”>右</span>侧</body></html>”。
显示装置5对经过对比并进行差异标识后的对比内容B1和对比内容B2进行显示。该实施例对比内容B1和对比内容B2的对比结果分别示出在图3的左右两个对比框的第二行中。与对比内容B2相比,对比内容B1中的“左”被突出显示为绿色。与对比内容B1相比,对比内容B2中的“显示”和“右”被分别突出显示为绿色,带下划线的“显示内容”被背景色突出显示。
实施例3
对比内容C1“<html><body>ABC</body></html>”和对比内容C2“<html><body>XYZ</body></html>”。
文本节点分析装置1分别对对比内容1和对比内容2进行分析,获得文本节点序列C1{“ABC”}和文本节点序列C2{“XYZ”},并将文本节点序列输出至文本节点对比装置2。
文本节点对比装置2接收文本节点分析装置1的输出的文本节点序列C1和文本节点序列C2,并对两个文本节点序列中的每个节点进行比较。通过比较可知,与文本节点序列C1的文本节点相比,文本节点序列C2少了“ABC”,多了“XYZ”。文本节点对比装置2将文本节点序列C1不同于文本节点序列C2的差异和差异属性“ABC”文本删除与文本节点序列C2不同于文本节点序列C1的差异和差异属性“XYZ”文本增加分别输出到差异数据标识装置。
差异分析装置3对对比内容C1中的标签和对比内容C2中的标签进行对比。通过对比可知,对比内容1与对比内容2的标签名相同而标签内的文本内容不同,确定所述差异类型为差异修改。差异分析装置3将此分析结果输出到差异数据标识装置。
差异数据标识装置4分别接收文本节点对比装置2和差异分析装置3的分析结果。对于节点对比装置2的分析结果,差异数据标识装置4对比内容C1中的“ABC”和对比内容C2中的“XYZ”分别增加例如<span></span>的差异标识标签并定义标签属性,以便为存在差异的文本内容增加特殊的显示格式。修改后的对比内容C1例如变为“<html><body><spanclass=”shanchu”>ABC</span></body></html>”,对比内容C2例如变为“<html><body><span class=”zengjia”>XYZ</span></body></html>”。由于对比内容C1与对比内容C2的标签名相同,并且标签内的文本差异已被标识,在本实施例中,不对包括该标签和文本的元素节点进一步增加差异标识标签进行突出显示。
显示装置5对经过对比并进行差异标识后的对比内容C1和对比内容C2进行显示。该实施例的对比内容C1和对比内容C2的对比结果分别示出在图3的左右两个对比框的第三行中,其中对比内容C1中的“ABC”以带删除线的红色字体示出,对比内容C2中的“XYZ”以红色字体示出。

Claims (10)

1.一种用于对比两个HTML内容的装置,包括:
文本节点分析装置,用于通过循环遍历分别对两个HTML内容进行分析,得到两个文本节点序列;
文本节点对比装置,用于对所述两个文本节点序列中的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
差异分析装置,用于对所述两个HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
差异数据标识装置,用于识别文本节点比较结果中差异文本和相应差异类型以及标签比较结果中差异标签和相应差异类型,并分别对两个HTML内容中差异文本和差异标签进行差异标识使得在显示对比结果时方便观看所述两个HTML内容的差异;
显示装置,用于分别显示其中差异文本和差异标签被标识的所述两个HTML内容。
2.根据权利要求1所述的用于对比两个HTML内容的装置,其特征在于,分别对两个HTML内容中差异文本和差异标签进行差异标识包括分别对所述差异文本增加差异标识标签并定义该差异标识标签的标签属性和对所述差异标签改变差异标签的标签属性。
3.根据权利要求2所述的用于对比两个HTML内容的装置,其特征在于,通过预先定义标签属性使得具有相同差异类型的文本以相同的突出显示格式显示。
4.根据权利要求3所述的用于对比两个HTML内容的装置,其特征在于,所述差异类型是文本增加,文本删除,文本修改,标签增加,标签删除或标签修改。
5.根据权利要求3所述的用于对比两个HTML内容的装置,其特征在于,突出显示格式包括改变文本的字体颜色,对文本增加背景色,对文本增加下划线和对文本增加删除线。
6.一种用于对比两个HTML内容的方法,包括:
通过循环遍历分别对两个HTML内容进行分析,得到两个文本节点序列;
对所述两个文本节点序列中的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
对所述两个HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
识别文本节点比较结果中的差异文本和相应差异类型以及标签比较结果中差异标签和相应差异类型,分别对两个HTML内容中的差异文本和差异标签进行差异标识使得在显示对比结果时方便观看所述两个HTML内容的差异;
在HTML页面中分别分别显示其中差异文本和差异标签被标识的所述两个HTML内容。
7.根据权利要求6所述的用于对比两个HTML内容的方法,其特征在于,分别对两个HTML内容中差异文本和差异标签进行差异标识包括分别对所述差异文本增加差异标识标签并定义该差异标识标签的标签属性和对所述差异标签改变差异标签的标签属性
8.根据权利要求7所述的用于对比两个HTML内容的方法,其特征在于,通过预先定义标签属性使得具有相同差异类型的文本以相同的突出显示格式显示。
9.根据权利要求8所述的用于对比两个HTML内容的方法,其特征在于,突出显示格式包括改变文本的字体颜色,对文本增加背景色,对文本增加下划线和对文本增加删除线。
10.一种用于对比多个HTML内容的装置,包括:
指定装置,用于将待对比的多个HTML内容之一指定为参考HTML内容;
文本节点分析装置,用于通过循环遍历分别对该多个HTML内容进行分析,得到多个文本节点序列;
文本节点对比装置,分别将所述多个文本节点序列中所述参考HTML内容之外的其他HTML内容的文本节点序列的文本节点与所述参考HTML内容的文本节点序列的文本节点进行比较并得到包括差异文本和相应差异类型的文本节点比较结果;
差异分析装置,将所述其他HTML内容中的标签与所述参考HTML内容中的标签进行比较并得到包括差异标签和相应差异类型的标签比较结果;
差异数据标识装置,用于识别各文本节点比较结果中差异文本和相应差异类型以及各标签比较结果中差异标签和相应差异类型,分别对差异文本和差异标签进行差异标识使得在显示对比结果时方便观看其他HTML内容相对于参考HTML内容的差异;
显示装置,用于分别显示所述参考HTML内容和其中所述差异文本和所述差异标签被标识的其他HTML内容。
CN2010102240001A 2010-07-02 2010-07-02 Html内容对比装置及方法 Active CN101916255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102240001A CN101916255B (zh) 2010-07-02 2010-07-02 Html内容对比装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102240001A CN101916255B (zh) 2010-07-02 2010-07-02 Html内容对比装置及方法

Publications (2)

Publication Number Publication Date
CN101916255A CN101916255A (zh) 2010-12-15
CN101916255B true CN101916255B (zh) 2012-02-15

Family

ID=43323767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102240001A Active CN101916255B (zh) 2010-07-02 2010-07-02 Html内容对比装置及方法

Country Status (1)

Country Link
CN (1) CN101916255B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737012B (zh) * 2011-04-06 2015-09-30 赛恩倍吉科技顾问(深圳)有限公司 文本信息对比方法及系统
CN102420851B (zh) * 2011-11-10 2015-05-06 百度在线网络技术(北京)有限公司 Http服务监控方法及系统
CN102929999A (zh) * 2012-10-25 2013-02-13 北京数码大方科技股份有限公司 对比数据异同的方法及装置
CN103825632B (zh) * 2012-11-16 2016-08-03 纬创资通股份有限公司 应用近场通信的信息快速同步方法
CN104424194B (zh) * 2013-08-20 2017-10-03 广州汽车集团股份有限公司 CANdb网络文件异同的比较方法及其系统
CN103500169B (zh) * 2013-09-02 2017-02-08 用友网络科技股份有限公司 文件对比装置和文件对比方法
CN105589813B (zh) * 2015-07-02 2018-12-25 中国银联股份有限公司 一种电子文档版本变化跟踪方法
CN106933782A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文本资源文件的比对方法及装置
CN108090165B (zh) * 2017-12-13 2021-12-28 美林数据技术股份有限公司 一种基于嵌入式图数据库的图谱变化差异的获取方法
CN108021952A (zh) * 2017-12-29 2018-05-11 广州品唯软件有限公司 一种多格式文本对比方法及装置
CN108614725B (zh) * 2018-05-11 2020-09-01 维沃移动通信有限公司 一种界面显示方法及终端
CN111061975B (zh) * 2019-12-13 2021-09-07 腾讯科技(深圳)有限公司 一种页面中无关内容的处理方法、装置
CN112507660A (zh) * 2020-12-07 2021-03-16 厦门美亚亿安信息科技有限公司 一种用于复合文档的同源判定、差异化显示方法和系统
CN115357286B (zh) * 2022-08-03 2023-11-10 中信建投证券股份有限公司 一种程序文件对比方法、装置、电子设备及存储介质
CN115544969B (zh) * 2022-11-29 2023-03-21 明度智云(浙江)科技有限公司 基于超文本标记语言的页面对比方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046858A (zh) * 2006-03-29 2007-10-03 腾讯科技(深圳)有限公司 电子信息比较系统和方法以及反垃圾邮件系统
JP4046000B2 (ja) * 2003-04-16 2008-02-13 日本電信電話株式会社 構造化文書の抽出方法及び装置及びプログラム
US7373586B2 (en) * 2004-09-03 2008-05-13 International Business Machines Corporation Differencing and merging tree-structured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4046000B2 (ja) * 2003-04-16 2008-02-13 日本電信電話株式会社 構造化文書の抽出方法及び装置及びプログラム
US7373586B2 (en) * 2004-09-03 2008-05-13 International Business Machines Corporation Differencing and merging tree-structured documents
CN101046858A (zh) * 2006-03-29 2007-10-03 腾讯科技(深圳)有限公司 电子信息比较系统和方法以及反垃圾邮件系统

Also Published As

Publication number Publication date
CN101916255A (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
CN101916255B (zh) Html内容对比装置及方法
US8196036B2 (en) Method and system for converting hypertext markup language web page to plain text
US9218322B2 (en) Producing web page content
KR20170123331A (ko) 정보 추출 방법 및 장치
US20170357913A1 (en) Automated customized web portal template generation systems and methods
CN101025738B (zh) 一种免模板动态网站生成方法
US11003442B2 (en) Application programming interface documentation annotation
US20150067476A1 (en) Title and body extraction from web page
US8910039B2 (en) File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface
US20090164888A1 (en) Automated Content-Based Adjustment of Formatting and Application Behavior
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
US20170060986A1 (en) Systems and methods for detection of content of a predefined content category in a network document
CN102253979A (zh) 基于视觉的web页面萃取方法
CN105677654A (zh) 广告过滤方法及装置
CN102819561A (zh) 一种基于网页的图片显示方法和装置
Insa Cabrera et al. Using the words/leafs ratio in the DOM tree for content extraction
US11334644B2 (en) Methods and systems for three-way merges of object representations
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN104731815B (zh) 一种网页元素的绘制方法及装置
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
EP2599013A1 (en) Visual separator detection in web pages by using code analysis
CN102207974A (zh) 一种上下文web页面合并方法
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN105117434A (zh) 一种网页分类方法和系统
US20120221545A1 (en) Isolating desired content, metadata, or both from social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100191, Beijing, Haidian District, Xueyuan Road Datang Telecom research, four floor, 2 floor

Patentee after: BEIJING HUDONG BAIKE NETWORK TECHNOLOGY CO.,LTD.

Address before: 100191, Beijing, Haidian District, Xueyuan Road Datang Telecom research, four floor, 2 floor

Patentee before: Hudong Online (Beijing) Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder

Address after: 100191, Beijing, Haidian District, Xueyuan Road Datang Telecom research, four floor, 2 floor

Patentee after: Beijing Interactive Encyclopedia Network Technology Co.,Ltd.

Address before: 100191, Beijing, Haidian District, Xueyuan Road Datang Telecom research, four floor, 2 floor

Patentee before: BEIJING HUDONG BAIKE NETWORK TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20191008

Address after: 100041, room 2, building 3, building 30, Xing Xing street, Shijingshan District, Beijing,

Patentee after: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address before: 100191, Beijing, Haidian District, Xueyuan Road Datang Telecom research, four floor, 2 floor

Patentee before: Beijing Interactive Encyclopedia Network Technology Co.,Ltd.

TR01 Transfer of patent right