CN113806661B - 网站信息无障碍检测工具 - Google Patents
网站信息无障碍检测工具 Download PDFInfo
- Publication number
- CN113806661B CN113806661B CN202111099013.5A CN202111099013A CN113806661B CN 113806661 B CN113806661 B CN 113806661B CN 202111099013 A CN202111099013 A CN 202111099013A CN 113806661 B CN113806661 B CN 113806661B
- Authority
- CN
- China
- Prior art keywords
- detection
- information
- website
- standard
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
- G06F8/315—Object-oriented languages
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及计算机技术领域,具体地说是网站信息无障碍检测工具,包括:爬虫设计,结构设计,接口设计,模块设计和数据结构设计,本发明同现有技术相比,具有智能化检测,自动检测,支持增量,暂停续测。智能采样,易于分析,检测结果可以按标准中的可感知性、可操作性、可理解性、可兼容性等分类显示,按标准级别统计等。检测结果可以生成报告导出可以支持国家及行业等多项标准的合规性检测软件,检测流程完整、严谨、快速、准确。
Description
技术领域
本发明涉及计算机技术领域,具体地说是网站信息无障碍检测工具。
背景技术
据统计,政府机构的网站已开通81723个,但是无障碍网站所占比例不到1%,而国外有些地区的网站90%以上已经实现了信息无障碍,我们国家在信息无障碍方面,同发达国家还存在着距离。
政府网站数据量和模板量都比较大,信息无障碍建设是否达到标准只用人工检测是无法覆盖整个网站的页面,所以必须通过计算机辅助完成。在实施网站无障碍建设时技术人员也需要准确的了解实施范围的问题点和改造情况。实施管理人员更需要掌握项目的实施进度,而这些的都需要检测软件的辅助来提高效率和准确性。
目前的检测手段,分为“机器检测”、“辅助检测”、“人工检测三种:
1.机器检测:是机器可以完全判断出这个检测点是错误的。
2.辅助检测:是机器虽然检测出了这个检测点。但不能完全判断就是错误的。需要人为的进行判断。
3.人工检测:机器不能进行检测或者机器检测已经通过,需要人工进行检测判断。
以上第2第3种测试方式,在测试时效率低下,人为出错了较高,如果网页文本很大,检测数据库是否完成网站信息无障碍的检测时间会很长,严重影响数据处理的速度。软件开发文档是软件开发使用和维护过程中的必备资料。它能提高软件开发的效率,保证软件的质量,而且在软件的使用过程中有指导,帮助,解惑的作用,尤其在维护工作中,开发文档是不可或缺的资料。
因此,需要设计网站信息无障碍检测工具,具有智能化检测,自动检测,支持增量,暂停续测,智能采样,易于分析,检测结果可以按标准中的可感知性、可操作性、可理解性、可兼容性等分类显示,按标准级别统计等,检测结果可以生成报告导出可以支持国家及行业等多项标准的合规性检测软件,检测流程完整、严谨、快速、准确。
发明内容
本发明的目的是克服现有技术的不足,提供了网站信息无障碍检测工具,具有智能化检测,自动检测,支持增量,暂停续测,智能采样,易于分析,检测结果可以按标准中的可感知性、可操作性、可理解性、可兼容性等分类显示,按标准级别统计等,检测结果可以生成报告导出可以支持国家及行业等多项标准的合规性检测软件,检测流程完整、严谨、快速、准确。
为了达到上述目的,本发明提供网站信息无障碍检测工具:包括:爬虫设计,结构设计,接口设计,模块设计和数据结构设计;
【爬虫设计】包括:
S1:向服务器发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers信息,等待服务器的响应;
S2:获取响应内容:如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型有HTML、JSON、二进制文件(如图片、视频);
S3:解析内容:得到的内容:
第一种是HTML,用正则表达式、网页解析库进行解析;
第二种是JSON,直接转成JOSN对象进行解析;
第三种是二进制数据,保存或者进一步处理;
S4:保存内容:保存形式多样,保存形式包括文本、数据库、或者特定格式的文件;
【结构设计】为:软件采用CS架构设计JAVA语言开发,用户界面采用SWT开发包,核心模块采用JXBrowse开源chrome浏览器,数据库采用Sqlite嵌入式数据库;
【接口设计】包括:文件接口,接口设置,查看设置,工具栏设置,控制栏设置,检测窗口设置,检测状态设置,检测结果设置,筛选设置和进度状态设置;
文件接口包括:保存或载入检测结果,查询网址或源代码,单页或汇总报表和退出;
接口设置包括模式设置,级别设置,超时设置,深度设置和网页过滤;
模式设置:站内框架式深度检索:默认开启,检索时会自动识别站内的内联框架会检测网页内容及连接;
站内连接式深度检索:默认开启状态,通过连接的href属性的地址对网站进行检索,是主要的检索网站的方式;
站内智能域名检索:开启时检索时不指检索主域名、子域名也会被检索,默认情况下是关闭状态;
级别设置:分三个级别,每个级别对应标准响应的指标,指标可进行详细设定,可以只勾选其中一个或几个,此功能让用户可以针对单个标准进行检测和修改时使用;
超时设置:异步加载等时设置:网页中有异步加载的数据或代码时等待的时间,超过时间将不会等待异步加载的数据,继续进行下一步的检测阶段;
页面加载超时设置:页面加载等待时间由于网络原因和网站本身的原因导致加载网页时长时间访问不到,超时后将忽略跳过加载的网页加载下一个网页;
深度设置:指从网站主页开始树性结构的层级,一般的网页在3-4层左右,一般不会超过6层级别;
网页过滤:默认情况下网站的所有文件、音频、视频都是被过滤掉的,如果有特殊的网址或类型需要设置;
查看设置包括检测结果,源代码,预览和图表;
工具栏设置:通过图标的方式示意操作功能方便用户操作,显示接口主要包括:保存检测结果、载入检测结果、模式设置、级别设置、超时设置、深度设置、网页过滤、高级设置、单报表、汇总报表、帮助、退出;
控制栏设置:控制栏主要作用是对检测过程的控制,主要功能包括:检测停止、暂停、继续;检测的网址输入框,开始检测按钮,载入本地文件进行检测;
检测窗口设置:检测窗口由四个选型卡组成分别为:检测窗口、检测代码、源代码、预览;应的是菜单接口中的四个接口;
检测状态设置:显示检测过程中检测的状态,显示状态有正常、超时、无效、失败,操作包括:刷新、开启刷新、全部和页码显示;
检测结果设置:由两个选项卡组成分别为:检测结果和图表;对应查看的检测结果接口,检测结果由:索引、检测分类、标准编号、等级、检测方式、检测结果、位置、检测点组成;
筛选设置:可以通过筛选栏中的感知性、操作性、理解性、兼容性、机器检测、辅助检测、人工检测、全部显示组合来筛选检测结果中的数据方便查看自己想要的内容;
进度状态设置:主要显示检测的深度和总体进度,深度一般分为1-10层可以自定义设置,最多10层,进度是抓取到网站的数量和检测完成的检测数量;
【模块设计】包括:验证模块,下载模块,筛选模块,模拟模块,检测模块,保存模块,分析模块;
验证模块:通过输入的检测网址对网站进行访问,验证输入的网站是否可以正常访问;
下载模块:验证模块通过后,开启根据设置层级进行访问网页,通过JXBrowse插件完全模仿浏览器访问,当浏览器加载完网页后(包含静态的网页代码和动态加载的代码),下载网站源代码;
筛选模块:根据网页过滤规则对资源路径网址进行过滤,信息无障碍的检测标准内并没有涉及到文件在下载是为提高效率和速度默认将其过滤;
模拟模块:通过模拟操作对网页的键盘操作的部分进行模拟操作,检测是否符合无障碍标准,可以检测键盘的焦点陷入、链接访问是否可以正常访问,是否通过键盘访问全部网页的信息无障碍中涉及操作性的问题;
检测模块:依据行标或国标的各项指标对代码的属性关联性等问题进行逐一检测;
保存模块:检测的结果通过可感知性、可操作性、可理解性、兼容性四个方面和机器检测、人工检测、辅助检测三种检测方式保存到数据库中;
分析模块:分析数据库中的检测结果,汇总整个网站的检测情况,导出报表和图表;
【数据结构设计】包括:检测标准信息数据库,检测信息数据库和导出汇总表;
检测标准信息数据库包括标准信息表和标准描述表,所述检测信息数据库包括检测汇总表、检测信息表、检测源代码存储表和检测链接存储表;
标准信息表:主要保存标准的内容信息用于检测问题时显示出对应的标准信息,创建语句:CREATE TABLE esd_info_standard(ID UNIQUE NOT NULL,DESCRIPTION NOTNULL,LVL VARCHAR,PROP,STANDARD_CODE,IS_CHECKED VARCHAR DEFAULT(1),STANDARD_NAME VARCHAR);
标准描述表:用于显示标准描述或技术描述;
创建语句:CREATE TABLE"esd_info_accessibi l ity"([ID]UNIQUE NOT NULL,[DESCRIPTION]NOT NULL
);
检测汇总表:保存检测的汇总信息;创建语句
CREATE TABLE esd_check_count(ID INTEGER PRIMARY KEY AUTOINCREMENT,SITE,STATE,FIRST,SECOND,THIRD,MACHINERYCOUNT,URL UNIQUE,LVL,DEPTH,TIME,DOWNLOADTIME,CHECKTIME);
检测信息表:保存检测过程中的各项信息;创建语句:
CREATE TABLE esd_check_information(SITE COLLATE RTRIM,URL COLLATE
RTRIM,PROP COLLATE RTRIM,TYPE,LVL,ID,ANCHOR,UNIQUE_ID VARCHAR,ELEMENT_INDEX INT DEFAULT(0));
CREATE INDEX I_queryLvlCount ON esd_check_information(URL COLLATE
RTRIM ASC,SITE COLLATE RTRIM ASC,LVL COLLATE BINARY ASC);
CREATE INDEX I_queryTypeCount ON esd_check_information(URL COLLATE
RTRIM ASC,TYPE COLLATE BINARY ASC,SITE COLLATE RTRIM ASC);
CREATE INDEX TYPE_SITE_INDEX
on esd_check_information(TYPE,SITE);
CREATE INDEX ID_INDEX
on esd_check_information(ID);
检测源代码存储表:用于存储网页的源代码;创建语句:CREATE TABLE esd_html_source(SITE COLLATE BINARY,URL COLLATEBINARY,HTML,CHARSET,ORIGIN_LINK);CREATEINDEX queryhtml ON esd_html_source(SITE COLLATE BINARY ASC,URLCOLLATE BINARYASC);
检测链接存储表:用于存储抓取网站链接地址,创建语句:
CREATE TABLE esd_url(id INTEGER PRIMARY KEY AUTOINCREMENT,url
VARCHAR(256)UNIQUE,parent_url VARCHAR(256),depth INT,checkStatusVARCHAR DEFAULT(0));
导出汇总表:报表导出时临时做汇总的表esd_printAllReports_key,导出语句:CREATE TABLEesd_printReports_key(id VARCHAR PRIMARY KEY,"key"VARCHAR,pathVARCHAR)。
Response包括:
请求方式:主要是GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS;
请求URL:URL全称是统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL来唯一来确定;
请求头:包括请求时的头部信息,如User-Agent、Host、Cookies信息;
请求体:请求时额外携带的数据,如表单提交时的表单数据。
Response包括:
响应状态:有多种响应状态,200代表成功,301代表跳转,404代表找不到页面,502代表服务器错误;
响应头:内容类型、内容长度、服务器信息、设置cookies;
响应体:包括请求资源的内容,如网页HTML、图片二进制数据。
页面内容包括网页文本,图片文件,视频和其他文件。
解析方式包括:直接处理,Json解析,正则表达式,BeautifulSoup,Pyquery和XPath。
保存内容包括:文本,关系型数据库,非关系型数据库和二进制文件。
本发明同现有技术相比,具有智能化检测,自动检测,支持增量,暂停续测。智能采样,易于分析,检测结果可以按标准中的可感知性、可操作性、可理解性、可兼容性等分类显示,按标准级别统计等。检测结果可以生成报告导出可以支持国家及行业等多项标准的合规性检测软件,检测流程完整、严谨、快速、准确。
附图说明
图1为本发明的检测流程示意图;
图2为本发明的标准信息表示意图;
图3为本发明的标准描述表示意图;
图4为本发明的检测汇总表示意图;
图5为本发明的检测信息表示意图;
图6为本发明的检测源代码存储表示意图;
图7为本发明的检测链接存储表示意图;
图8为本发明的主界面示意图;
图9为本发明的工具栏示意图;
图10为本发明的图表结构示意图;
图11为本发明的导出检测报告示意图。
具体实施方式
现结合附图对本发明做进一步描述。
参见图1-7,本发明提供网站信息无障碍检测工具:
包括:爬虫设计,结构设计,接口设计,模块设计和数据结构设计;
【爬虫设计】包括:
S1:向服务器发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers信息,等待服务器的响应;
S2:获取响应内容:如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型有HTML、JSON、二进制文件(如图片、视频);
S3:解析内容:得到的内容:
第一种是HTML,用正则表达式、网页解析库进行解析;
第二种是JSON,直接转成JOSN对象进行解析;
第三种是二进制数据,保存或者进一步处理;
S4:保存内容:保存形式多样,保存形式包括文本、数据库、或者特定格式的文件;
【结构设计】为:软件采用CS架构设计JAVA语言开发,用户界面采用SWT开发包,核心模块采用JXBrowse开源chrome浏览器,数据库采用Sqlite嵌入式数据库。
【接口设计】包括:文件接口,接口设置,查看设置,工具栏设置,控制栏设置,检测窗口设置,检测状态设置,检测结果设置,筛选设置和进度状态设置;
文件接口包括:保存或载入检测结果,查询网址或源代码,单页或汇总报表和退出;
接口设置包括模式设置,级别设置,超时设置,深度设置和网页过滤;
述模式设置:站内框架式深度检索:默认开启,检索时会自动识别站内的内联框架会检测网页内容及连接;
站内连接式深度检索:默认开启状态,通过连接的href属性的地址对网站进行检索,是主要的检索网站的方式;
站内智能域名检索:开启时检索时不指检索主域名、子域名也会被检索,默认情况下是关闭状态;
级别设置:分三个级别,每个级别对应标准响应的指标,指标可进行详细设定,可以只勾选其中一个或几个,此功能让用户可以针对单个标准进行检测和修改时使用;
超时设置:异步加载等时设置:网页中有异步加载的数据或代码时等待的时间,超过时间将不会等待异步加载的数据,继续进行下一步的检测阶段;
页面加载超时设置:页面加载等待时间由于网络原因和网站本身的原因导致加载网页时长时间访问不到,超时后将忽略跳过加载的网页加载下一个网页;
深度设置:指从网站主页开始树性结构的层级,一般的网页在3-4层左右,一般不会超过6层级别;
网页过滤:默认情况下网站的所有文件、音频、视频都是被过滤掉的,如果有特殊的网址或类型需要设置;
查看设置包括检测结果,源代码,预览和图表;
工具栏设置:通过图标的方式示意操作功能方便用户操作,显示接口主要包括:保存检测结果、载入检测结果、模式设置、级别设置、超时设置、深度设置、网页过滤、高级设置、单报表、汇总报表、帮助、退出;
控制栏设置:控制栏主要作用是对检测过程的控制,主要功能包括:检测停止、暂停、继续;检测的网址输入框,开始检测按钮,载入本地文件进行检测;
检测窗口设置:检测窗口由四个选型卡组成分别为:检测窗口、检测代码、源代码、预览;应的是菜单接口中的四个接口;
检测状态设置:显示检测过程中检测的状态,显示状态有正常、超时、无效、失败,操作包括:刷新、开启刷新、全部和页码显示;
检测结果设置:由两个选项卡组成分别为:检测结果和图表;对应查看的检测结果接口,检测结果由:索引、检测分类、标准编号、等级、检测方式、检测结果、位置、检测点组成;
筛选设置:可以通过筛选栏中的感知性、操作性、理解性、兼容性、机器检测、辅助检测、人工检测、全部显示组合来筛选检测结果中的数据方便查看自己想要的内容;
进度状态设置:主要显示检测的深度和总体进度,深度一般分为1-10层可以自定义设置,最多10层,进度是抓取到网站的数量和检测完成的检测数量;
【模块设计】包括:验证模块,下载模块,筛选模块,模拟模块,检测模块,保存模块,分析模块;
验证模块:通过输入的检测网址对网站进行访问,验证输入的网站是否可以正常访问;
下载模块:验证模块通过后,开启根据设置层级进行访问网页,通过JXBrowse插件完全模仿浏览器访问,当浏览器加载完网页后(包含静态的网页代码和动态加载的代码),下载网站源代码;
筛选模块:根据网页过滤规则对资源路径网址进行过滤,信息无障碍的检测标准内并没有涉及到文件在下载是为提高效率和速度默认将其过滤;
模拟模块:通过模拟操作对网页的键盘操作的部分进行模拟操作,检测是否符合无障碍标准,可以检测键盘的焦点陷入、链接访问是否可以正常访问,是否通过键盘访问全部网页的信息无障碍中涉及操作性的问题;
检测模块:依据行标或国标的各项指标对代码的属性关联性等问题进行逐一检测;
保存模块:检测的结果通过可感知性、可操作性、可理解性、兼容性四个方面和机器检测、人工检测、辅助检测三种检测方式保存到数据库中;
分析模块:分析数据库中的检测结果,汇总整个网站的检测情况,导出报表和图表;
【数据结构设计】包括:检测标准信息数据库,检测信息数据库和导出汇总表;
检测标准信息数据库包括标准信息表和标准描述表,所述检测信息数据库包括检测汇总表、检测信息表、检测源代码存储表和检测链接存储表;
标准信息表:主要保存标准的内容信息用于检测问题时显示出对应的标准信息,创建语句:CREATE TABLE esd_info_standard(ID UNIQUE NOT NULL,DESCRIPTION NOTNULL,LVL VARCHAR,PROP,STANDARD_CODE,IS_CHECKED VARCHAR DEFAULT(1),STANDARD_NAME VARCHAR);
标准描述表:用于显示标准描述或技术描述;
创建语句:CREATE TABLE"esd_info_accessibi l ity"([ID]UNIQUE NOT NULL,[DESCRIPTION]NOT NULL
);
检测汇总表:保存检测的汇总信息;创建语句
CREATE TABLE esd_check_count(ID INTEGER PRIMARY KEY AUTOINCREMENT,SITE,STATE,FIRST,SECOND,THIRD,MACHINERYCOUNT,URL UNIQUE,LVL,DEPTH,TIME,DOWNLOADTIME,CHECKTIME);
检测信息表:保存检测过程中的各项信息;创建语句:
CREATE TABLE esd_check_information(SITE COLLATE RTRIM,URL COLLATE
RTRIM,PROP COLLATE RTRIM,TYPE,LVL,ID,ANCHOR,UNIQUE_ID VARCHAR,ELEMENT_INDEX INT DEFAULT(0));
CREATE INDEX I_queryLvlCount ON esd_check_information(URL COLLATE
RTRIM ASC,SITE COLLATE RTRIM ASC,LVL COLLATE BINARY ASC);
CREATE INDEX I_queryTypeCount ON esd_check_information(URL COLLATE
RTRIM ASC,TYPE COLLATE BINARY ASC,SITE COLLATE RTRIM ASC);
CREATE INDEX TYPE_SITE_INDEX
on esd_check_information(TYPE,SITE);
CREATE INDEX ID_INDEX
on esd_check_information(ID);
检测源代码存储表:用于存储网页的源代码;创建语句:CREATE TABLE esd_html_source(SITE COLLATE BINARY,URL COLLATEBINARY,HTML,CHARSET,ORIGIN_LINK);CREATEINDEX queryhtml ON esd_html_source(SITE COLLATE BINARY ASC,URLCOLLATE BINARYASC);
检测链接存储表:用于存储抓取网站链接地址,创建语句:
CREATE TABLE esd_url(id INTEGER PRIMARY KEY AUTOINCREMENT,url
VARCHAR(256)UNIQUE,parent_url VARCHAR(256),depth INT,checkStatus
VARCHAR DEFAULT(0));
导出汇总表:报表导出时临时做汇总的表esd_printAllReports_key,导出语句:CREATE TABLE esd_printReports_key(id VARCHAR PRIMARY KEY,"key"VARCHAR,pathVARCHAR)。
Response包括:
请求方式:主要是GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS;
请求URL:URL全称是统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL来唯一来确定;
请求头:包括请求时的头部信息,如User-Agent、Host、Cookies信息;
请求体:请求时额外携带的数据,如表单提交时的表单数据。
Response包括:
响应状态:有多种响应状态,200代表成功,301代表跳转,404代表找不到页面,502代表服务器错误;
响应头:内容类型、内容长度、服务器信息、设置cookies;
响应体:包括请求资源的内容,如网页HTML、图片二进制数据。
页面内容包括网页文本,图片文件,视频和其他文件。
解析方式包括:直接处理,Json解析,正则表达式,BeautifulSoup,Pyquery和XPath。
保存内容包括:文本,关系型数据库,非关系型数据库和二进制文件。
本发明在实际使用过程中,按照如下操作:
检测软件主页面
保存检测结果:保存检测完成的结果。生成的文件是*.db的文件。
载入检测结果:载入检测结果,文件是*.db的文件模式设置:设计在网页内获取网址的方式以及是否智能搜索二级域名。
站内框架式深度搜索:主要用于设置是否检测<frame>标签和<iframe>里的src属性。
站内链接式深度设置:主要用于设置是否检测<a>标签里的href属性。
站内智能域名搜索:主要用于设置有二级域名的网址是否进行检测。勾选:不搜索二级域名,未勾选:搜索二级域名。
级别设置:检测软件一共把检测点分为4类(感知性,操作性,理解性,兼容性)。每类里分别有3个等级(1级,2级,3级)。这里设置的就是检测时4类,都按那个等级检测。同时也可设置每个等级对应的标准是否进行检测。
超时设置:设置要在多长时间内下载完成网页源代码。如果在设置的时间内没有下载完成就视为超时。在软件里显示为超时状态的网页和无效的网页一样是不会被检测的。但可以通过增加超时时间来让超时状态的网页变为正常状态。
深度设置:设置要检测层数。要和设置模式配合使用。
网页过滤:添加一些没有意义。或不想检测的网址,比如(.avi.mp3)等。
单页报表:对于单个网页生成报表。
批量报表:对于所有检测完成网页的汇总报表。
帮助:软件使用说明。和关于软件的介绍。
退出:退出程序。
检测控制栏:可以在检测的时候。进行停止,暂停和继续的操作控制。
地址栏:输入要检测的网址或本地路径。
检测按钮:点击开始对输入的网址或文件进行检测。
载入本地文件:点击可以选择本地文件的路径。选择要检测的文件后,点击“打开”程序会自动把路径设置到地址栏中。
主窗口中主要包括(检测窗口,源代码、预览);
检测窗口:主要用于显示检测完成的网页。每一行代表一个检测完成的网页。
查看网址:查看当前网页的网址信息。
标记全部:在预览的浏览器中,标记出该网页内所有检测点的信息。
查看链接来源:查看当前网页链接来源信息。
表格每列的意义:
索引:代表行号。
下载状态:代表下载源码的状态包括(正常,超时,无效)
第一级:当前网页第一级检测结果的的总数。
第二级:当前网页第二级检测结果的的总数。
第三级:当前网页第三级检测结果的的总数。
机器检测:当前网页机器检测的结果。如果为0就会显示YES。
检测网址:显示当前网页的网址信息
源代码窗口:单击检测窗口中的一条记录(一条记录就代表一个网页)。源代码窗口里相应显示经过处理代有行号的html源代码。
预览:单击检测窗口中的一条记录(一条记录就代表一个网页)。预览窗口会显示当前网址的页面。
辅助窗口中包括(检测结果,图表);
检测分类查询:分为两个部分(特性查询区,检测方式查询区)。
特性查询区:是多选按钮,可以按想要查询的特性任意组合筛选检测结果。
检测方式查询区:是单选按钮,根据检测方式筛选。全部显示是指机器和人工检测都包括,相当于对检测方式不做筛选。
检测结果:显示所选中的网页对应的检测信息。每一行代表一个检测点所对应检测结果的信息。左键单击某一行,会在检测窗口【预览】中以红框的形式标注出当前元素位置信息。左键双击某行,会在检测窗口【源代码】中显示当前所检测元素的源代码信息。
审核通过:标记所选检测点或对应的标准,在当前网站或者网页下是否通过检测。
整站:当前所选择的标准,在整个网站下被标记为通过检测。
网页:当前所选择的标准,在当前网页下,被标记为通过检测。
检测点:当前网页下,所选检测点对应的所有检测记录被标记为通过检测。
单条:当前网页下,当前所选中的检测点对应的一条检测结果被标记为通过检测。
查看描述:查看当前检测点对应的标准描述。检测结果表格所有列的意义:
索引:代表行号。
检测分类:检测标准里的4大特性。
标准编号:检测点所对应标准的编号。
测试等级:检测点所对应标准的名称以及等级。
检测方式:分为“机器检测”、“辅助检测”、“人工检测”两种。
机器检测:是机器可以完全判断出这个检测点是错误的。辅助检测:是机器虽然检测出了这个检测点。但不能完全判断就是错误的。需要人为的进行判断。
人工检测:机器不能进行检测或者机器检测已经通过,需要人工进行检测判断。
检测点结果:检测点对应的检测标准信息。
位置:检测点错误位置的具体位置。
检测点:当前检测点编号信息
图表:显示当前选择网页的检测点汇总。以4大属性分类显示柱状图。
状态栏分为4个区域从左向右依次是(运行动态,下载状态,深度,检测进度)。
运动状态:动态显示(初始化,开始下载,正在下载,下载完成,开始检测,正在检测,检测完成。)可以根据显示的提示了解软件的运行状态。
下载状态:下载状态分为(正常,超时,无效)。
深度:显示要检测的深度,当前检测的深度,(1/10)表示。要检测10层,当前正在检测第1层。
检测进度:表示要检测的网页数和检测完成的网页数。要检测的网页数会根据层数的变化增加。
模式设置:至少要选择一种模式来抓取网址。否则只会检测输入的网页。
深度设置:根据需求选择深度(也叫层数)。软件会根据“模式设置”里你选择的方式来按层抓取网址进行检测。“页面限制”设置为0。
超时设置:超时在整站检测时最好在30秒,设置太少会产生过多的超时和无效网页。
操作:在网址栏里输入要检测网站的主页地址。点击检测按钮。
注意事项:对于整站的检测软件会针对站内的网址进行检测不会对外链接的网址进行检测。如何分辨是否是站内网址,是根据你输入的主页网址特征来判断的,例如:http://www.163.com、http://www.hao123.com、那么(.163.)(.hao123.)就是特征。如果想针对输入的网址做完全匹配检测,可以在模式设置里把“站内智能超链接检测”取消,那么特征就会改为(www.163.com/*)其中*代表任意。
深度设置:对于单页检测就是只检测你输入的那个网址的网页,不需要层数设置,所以只需要把“检测深度”设置为0就表示只检测本页,推荐使用。也可以在不限制检测深度的情况下把“页面限制”里的值设置为1也可以达到只检测当前网页的效果,但不推荐使用此方法。
在网址栏里输入要检测网站的主页地址,点击检测按钮。
本地页面,文件检测:
深度设置:对于本地的文件深度设置也会起作用。如果只是对本地文件做检测那也要检测深度设置0。如果设置了层数。软件会把文件当成主页的效果来操作,但不会有主页特征,外链接也会检测,导致无尽的检测。
操作:两种方法
第一种:点击“载入本地文件”按钮。选择你要检测的文件,点击“打开”,可以看到网址栏里出现所选择的文件路径,之后点击检测。
第二种:在网址栏中直接输入文件路径,点击检测;
保存和载入检测结果
注意事项:载入和文件和保存的文件最好是同一个版本的软件。如果不是同一个版本的软件可能会出现错误等问题。
保存:点击工具栏里的保存检测结果,选择要保存的路径。
载入:点击工具栏里的载入检测结果,选择要载入的文件。
单页检测生成报表
注意事项:单页报表在检测的时候就可以导出。只要检测完成的表格里的显示出的网址都可以选择后导出。
在检测窗口中选择要导出报表的网址。点击工具栏里的单页报表。既可以导出单页报表。
整站生成汇总报表
注意事项:汇总报表只有在软件停止检测,或检测结束后。才可以汇总。暂停是不可以导出汇总报表的。
检测结束点击“确定”后,点击工具栏里的汇总报表。既可以导出汇总报表。
在检测过程中。点击“停止”按钮确定后,在点击工具栏里的汇总报表。也可以导出汇总报表。详细操作如下:
点击确定按钮即可先保存检测结果数据,以.db格式存储。
【全部导出】:导出汇总页面,以及各个子页面,【导出汇总页面】:只导出汇总页面。
本发明解决了测试时效率低下,人为出错了较高的问题,提供了网站信息无障碍检测工具,具有智能化检测,自动检测,支持增量,暂停续测,智能采样,易于分析,检测结果可以按标准中的可感知性、可操作性、可理解性、可兼容性等分类显示,按标准级别统计等,检测结果可以生成报告导出可以支持国家及行业等多项标准的合规性检测软件,检测流程完整、严谨、快速、准确。
以上,对本发明的实施方式进行了说明,但本发明的范围并不仅仅限于此,使用者可以在不脱离本发明的主旨的范围内进行各种变更,加以实施,但是都包括在本专利的保护范围内。
Claims (6)
1.网站信息无障碍检测工具,其特征在于包括:爬虫设计,结构设计,接口设计,模块设计和数据结构设计;
所述【爬虫设计】包括:
S1:向服务器发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers信息,等待服务器的响应;
S2:获取响应内容:如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型有HTML、JSON、二进制文件;
S3:解析内容:得到的内容:
第一种是HTML,用正则表达式、网页解析库进行解析;
第二种是JSON,直接转成JOSN对象进行解析;
第三种是二进制数据,保存或者进一步处理;
S4:保存内容:保存形式多样,保存形式包括文本、数据库、或者特定格式的文件;
所述【结构设计】为:软件采用CS架构设计JAVA语言开发,用户界面采用SWT开发包,核心模块采用JXBrowse开源chrome浏览器,数据库采用Sqlite嵌入式数据库;
所述【接口设计】包括:文件接口,接口设置,查看设置,工具栏设置,控制栏设置,检测窗口设置,检测状态设置,检测结果设置,筛选设置和进度状态设置;
所述文件接口包括:保存或载入检测结果,查询网址或源代码,单页或汇总报表和退出;
所述接口设置包括模式设置,级别设置,超时设置,深度设置和网页过滤;
所述模式设置:站内框架式深度检索:默认开启,检索时会自动识别站内的内联框架会检测网页内容及连接;
站内连接式深度检索:默认开启状态,通过连接的href属性的地址对网站进行检索;
站内智能域名检索:开启时检索时不指检索主域名、子域名也会被检索,默认情况下是关闭状态;
所述级别设置:分三个级别,每个级别对应标准响应的指标,指标可进行详细设定,可以只勾选其中一个或几个,此功能让用户可以针对单个标准进行检测和修改时使用;
所述超时设置:异步加载等时设置:网页中有异步加载的数据或代码时等待的时间,超过时间将不会等待异步加载的数据,继续进行下一步的检测阶段;
页面加载超时设置:页面加载等待时间由于网络原因和网站本身的原因导致加载网页时长时间访问不到,超时后将忽略跳过加载的网页加载下一个网页;
所述深度设置:指从网站主页开始树性结构的层级;
所述网页过滤:默认情况下网站的所有文件、音频、视频都是被过滤掉的,如果有特殊的网址或类型需要设置;
所述查看设置包括检测结果,源代码,预览和图表;
所述工具栏设置:通过图标的方式示意操作功能方便用户操作,显示接口包括:保存检测结果、载入检测结果、模式设置、级别设置、超时设置、深度设置、网页过滤、高级设置、单报表、汇总报表、帮助、退出;
所述控制栏设置:控制栏作用是对检测过程的控制,功能包括:检测停止、暂停、继续;检测的网址输入框,开始检测按钮,载入本地文件进行检测;
所述检测窗口设置:检测窗口由四个选型卡组成分别为:检测窗口、检测代码、源代码、预览;应的是菜单接口中的四个接口;
所述检测状态设置:显示检测过程中检测的状态,显示状态有正常、超时、无效、失败,操作包括:刷新、开启刷新、全部和页码显示;
所述检测结果设置:由两个选项卡组成分别为:检测结果和图表;对应查看的检测结果接口,检测结果由:索引、检测分类、标准编号、等级、检测方式、检测结果、位置、检测点组成;
所述筛选设置:可以通过筛选栏中的感知性、操作性、理解性、兼容性、机器检测、辅助检测、人工检测、全部显示组合来筛选检测结果中的数据方便查看自己想要的内容;
所述进度状态设置:显示检测的深度和总体进度,深度分为1-10层可以自定义设置,最多10层,进度是抓取到网站的数量和检测完成的检测数量;
所述【模块设计】包括:验证模块,下载模块,筛选模块,模拟模块,检测模块,保存模块,分析模块;
所述验证模块:通过输入的检测网址对网站进行访问,验证输入的网站是否可以正常访问;
所述下载模块:验证模块通过后,开启根据设置层级进行访问网页,通过JXBrowse插件完全模仿浏览器访问,当浏览器加载完网页后,下载网站源代码;
所述筛选模块:根据网页过滤规则对资源路径网址进行过滤,信息无障碍的检测标准内并没有涉及到文件在下载是为提高效率和速度默认将其过滤;
所述模拟模块:通过模拟操作对网页的键盘操作的部分进行模拟操作,检测是否符合无障碍标准,可以检测键盘的焦点陷入、链接访问是否可以正常访问,是否通过键盘访问全部网页的信息无障碍中涉及操作性的问题;
所述检测模块:依据行标或国标的各项指标对代码的属性关联性问题进行逐一检测;
所述保存模块:检测的结果通过可感知性、可操作性、可理解性、兼容性四个方面和机器检测、人工检测、辅助检测三种检测方式保存到数据库中;
所述分析模块:分析数据库中的检测结果,汇总整个网站的检测情况,导出报表和图表;
所述【数据结构设计】包括:检测标准信息数据库,检测信息数据库和导出汇总表;
所述检测标准信息数据库包括标准信息表和标准描述表,所述检测信息数据库包括检测汇总表、检测信息表、检测源代码存储表和检测链接存储表;
所述标准信息表:保存标准的内容信息用于检测问题时显示出对应的标准信息,创建语句:CREATE TABLE esd_info_standard(ID UNIQUE NOT NULL,DESCRIPTION NOT NULL,LVL VARCHAR,PROP,STANDARD_CODE,IS_CHECKED VARCHAR DEFAULT(1),STANDARD_NAMEVARCHAR);
所述标准描述表:用于显示标准描述或技术描述;
创建语句:CREATE TABLE"esd_info_accessibility"([ID]UNIQUE NOT NULL,[DESCRIPTION]NOT NULL
);
所述检测汇总表:保存检测的汇总信息;创建语句
CREATE TABLE esd_check_count(ID INTEGER PRIMARY KEY AUTOINCREMENT,SITE,STATE,FIRST,SECOND,THIRD,MACHINERYCOUNT,URL UNIQUE,LVL,DEPTH,TIME,DOWNLOADTIME,CHECKTIME);
所述检测信息表:保存检测过程中的各项信息;创建语句:
CREATE TABLE esd_check_information(SITE COLLATE RTRIM,URL COLLATE
RTRIM,PROP COLLATE RTRIM,TYPE,LVL,ID,ANCHOR,UNIQUE_ID VARCHAR,ELEMENT_INDEX INT DEFAULT(0));
CREATE INDEX I_queryLvlCount ON esd_check_information(URL COLLATE
RTRIM ASC,SITE COLLATE RTRIM ASC,LVL COLLATE BINARY ASC);
CREATE INDEX I_queryTypeCount ON esd_check_information(URL COLLATE
RTRIM ASC,TYPE COLLATE BINARY ASC,SITE COLLATE RTRIM ASC);CREATE INDEXTYPE_SITE_INDEX
on esd_check_information(TYPE,SITE);
CREATE INDEX ID_INDEX
on esd_check_information(ID);
所述检测源代码存储表:用于存储网页的源代码;创建语句:CREATE TABLE esd_html_source(SITE COLLATE BINARY,URL COLLATEBINARY,HTML,CHARSET,ORIGIN_LINK);CREATEINDEX queryhtml ON esd_html_source(SITE COLLATE BINARY ASC,URLCOLLATE BINARYASC);
所述检测链接存储表:用于存储抓取网站链接地址,创建语句:
CREATE TABLE esd_url(id INTEGER PRIMARY KEY AUTOINCREMENT,url
VARCHAR(256)UNIQUE,parent_url VARCHAR(256),depth INT,checkStatus
VARCHAR DEFAULT(0));
所述导出汇总表:报表导出时临时做汇总的表esd_printAllReports_key,导出语句:CREATE TABLE esd_printReports_key(id VARCHAR PRIMARY KEY,"key"VARCHAR,pathVARCHAR)。
2.根据权利要求1所述的网站信息无障碍检测工具,其特征在于:所述Response包括:
请求方式:GET、POST、HEAD、PUT、DELETE、OPTIONS;
请求URL:URL全称是统一资源定位符;
请求头:包括请求时的头部信息;
请求体:请求时额外携带的数据。
3.根据权利要求1所述的网站信息无障碍检测工具,其特征在于:所述Response包括:
响应状态:有多种响应状态,200代表成功,301代表跳转,404代表找不到页面,502代表服务器错误;
响应头:内容类型、内容长度、服务器信息、设置cookies;
响应体:包括请求资源的内容。
4.根据权利要求1所述的网站信息无障碍检测工具,其特征在于:所述页面内容包括网页文本,图片文件,视频和其他文件。
5.根据权利要求1所述的网站信息无障碍检测工具,其特征在于:解析方式包括:直接处理,Json解析,正则表达式,BeautifulSoup,Pyquery和XPath。
6.根据权利要求1所述的网站信息无障碍检测工具,其特征在于:所述保存内容包括:文本,关系型数据库,非关系型数据库和二进制文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111099013.5A CN113806661B (zh) | 2021-09-18 | 2021-09-18 | 网站信息无障碍检测工具 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111099013.5A CN113806661B (zh) | 2021-09-18 | 2021-09-18 | 网站信息无障碍检测工具 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806661A CN113806661A (zh) | 2021-12-17 |
CN113806661B true CN113806661B (zh) | 2023-08-25 |
Family
ID=78939710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111099013.5A Active CN113806661B (zh) | 2021-09-18 | 2021-09-18 | 网站信息无障碍检测工具 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806661B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115373649B (zh) * | 2022-07-26 | 2023-03-31 | 哈尔滨亿时代数码科技开发有限公司 | 动态互联网内容无障碍改造方法及装置及网站内容无障碍改造方法 |
WO2024059961A1 (en) * | 2022-09-19 | 2024-03-28 | Pricewaterhousecoopers Llp | Automated accessibility assessment tool |
CN116319674A (zh) * | 2023-03-28 | 2023-06-23 | 中金金融认证中心有限公司 | 子域名收集方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989303A (zh) * | 2010-11-02 | 2011-03-23 | 浙江大学 | 网站无障碍检测的自动化方法 |
CN103218286A (zh) * | 2012-01-20 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种网页无障碍功能检测方法及其系统 |
CN103838823A (zh) * | 2014-01-22 | 2014-06-04 | 浙江大学 | 一种基于网页模板的网站内容无障碍检测方法 |
CN107229669A (zh) * | 2016-03-23 | 2017-10-03 | 塔塔咨询服务公司 | 用于选择关于评估网站无障碍性的样本集的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2909144C (en) * | 2015-03-05 | 2021-03-30 | Tata Consultancy Services Limited | A system and method for accessiblility assessment of a web application |
-
2021
- 2021-09-18 CN CN202111099013.5A patent/CN113806661B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989303A (zh) * | 2010-11-02 | 2011-03-23 | 浙江大学 | 网站无障碍检测的自动化方法 |
CN103218286A (zh) * | 2012-01-20 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种网页无障碍功能检测方法及其系统 |
CN103838823A (zh) * | 2014-01-22 | 2014-06-04 | 浙江大学 | 一种基于网页模板的网站内容无障碍检测方法 |
CN107229669A (zh) * | 2016-03-23 | 2017-10-03 | 塔塔咨询服务公司 | 用于选择关于评估网站无障碍性的样本集的方法和系统 |
Non-Patent Citations (1)
Title |
---|
网站信息无障碍标准符合性检测研究;宋文林 等;《中国标准化》;172-175 * |
Also Published As
Publication number | Publication date |
---|---|
CN113806661A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113806661B (zh) | 网站信息无障碍检测工具 | |
US11475001B1 (en) | Quantifying complexity of a database query | |
US7669112B2 (en) | Automated spell analysis | |
US8321435B2 (en) | Quick find for data fields | |
US8489630B2 (en) | Methods and software for analysis of research publications | |
US6502233B1 (en) | Automated help system for reference information | |
US8359550B2 (en) | Method for dynamically generating a “table of contents” view of the HTML-based information system | |
US11294869B1 (en) | Expressing complexity of migration to a database candidate | |
AU2009238294B2 (en) | Data transformation based on a technical design document | |
US20080235567A1 (en) | Intelligent form filler | |
US20020161569A1 (en) | Machine translation system, method and program | |
US7908260B1 (en) | Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems | |
US20080163122A1 (en) | File content preview tool | |
JPH11161686A (ja) | 連続インデックス機構 | |
US8560518B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
US7895337B2 (en) | Systems and methods of generating a content aware interface | |
CA2794763C (en) | System for use in editorial review of stored information | |
KR100284580B1 (ko) | 웹 문서 자동 생성장치 및 그 방법 | |
CN111368167A (zh) | 基于网络爬虫技术的中文文献数据自动化获取方法 | |
US7509303B1 (en) | Information retrieval system using attribute normalization | |
KR20100069147A (ko) | 웹사이트 품질 테스트 방법 및 시스템 | |
KR20080030196A (ko) | 인터넷 웹페이지의 태그 방법 및 태그 검색 시스템 | |
KR20030051577A (ko) | 검색사이트의 검색결과 표시방법 | |
CN117057820A (zh) | 一种基于安全评价报告的文件辅助审核系统及方法 | |
Carchiolo et al. | Structuring the web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |