CN113672086A

CN113672086A - 一种页面处理方法、装置、设备及介质

Info

Publication number: CN113672086A
Application number: CN202110896067.8A
Authority: CN
Inventors: 田野
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-19
Anticipated expiration: 2041-08-05
Also published as: CN113672086B

Abstract

本申请实施例提供了一种页面处理方法、装置、设备及介质，支持在显示目标页面的过程中，当目标页面中包含图像时，结合图像的模式识别技术能够将图像处理成模板化的内容描述文字，来描述图像的语义，这样就能较为精确地提供出图像所包含的内容及所表达的含义，结合无障碍朗读能力，即可将完整的目标页面的页面信息传递出来。采用本申请实施例能够对目标页面中的图像(非文本内容)进行有效读屏，提高页面信息读取的完整性。

Description

一种页面处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及一种页面处理方法、装置、设备及介质。

背景技术

互联网上的海量信息通常是以视觉方式呈现的，视障人士很难像健康人士一样使用互联网浏览信息，这使得视障人士无法使用互联网进行办公或沟通。

目前，部分智能设备(或智能设备中部署的应用程序)提供无障碍读屏功能来帮助视障人士读取页面中的信息，所谓无障碍读屏功能是指由智能设备读取页面中信息后，采用语音播报的方式将读取的信息播报出来，以便于视障人士通过听力接收。但实践发现，现有无障碍读屏功能支持读取的信息类型是有限的，通常只能读取页面中的文本内容，而一些非文本内容经常无法读取或读取错误，这导致页面中部分信息的丢失，无法为视障人士提供更为完整的页面信息。

发明内容

本申请实施例提供一种页面处理方法、装置、设备及介质，能够对目标页面中的图像(非文本内容)进行有效读屏，提高页面信息读取的完整性。

一方面，本申请实施例提出来一种页面处理方法，该方法包括：

显示目标页面；

若目标页面中包含图像，则获取图像的语义描述信息；

播放与图像的语义描述信息相匹配的提示音频。

另一方面，本申请实施例提出一种页面处理装置，该装置包括：

显示单元，用于显示目标页面；

处理单元，用于若目标页面中包含图像，则获取图像的语义描述信息；

处理单元，还用于播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，图像的语义描述信息用于从语义上对图像进行描述；

语义描述信息包括以下至少一项：对图像呈现出的目标颜色的描述信息，对图像包含的文字内容的描述信息，对图像的来源的描述信息，对图像的作者的描述信息，对图像中包含的对象的描述信息，以及对图像中包含的对象所执行的行为的描述信息；

提示音频用于提示以下至少一项：用于提示图像呈现出的目标颜色，用于提示图像包含的文字内容，用于提示图像的来源，用于提示图像的作者，用于提示图像中包含的对象，以及用于提示图像中包含的对象所执行的行为。

在一种实现方式中，处理单元，还用于启动读屏模式；

处理单元，用于播放与图像的语义描述信息相匹配的提示音频时，具体用于：在读屏模式下，播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，目标页面中还包含其他内容，其他内容包括以下至少一项：文本、富文本、图标；处理单元，还用于：

在读屏模式下，按照目标页面中各内容的排列顺序，依次朗读与各内容相匹配的音频。

在一种实现方式中，目标页面中还包含操作信息，操作信息包括以下至少一项：操作者的信息、被操作的对象、被操作的对象的类型、操作项的信息、操作项被选中时呈现的反馈，以及操作信息引起目标页面产生的变化；处理单元，还用于：

在读屏模式下，将目标页面中的操作信息转换为操作音频进行播放输出。

在一种实现方式中，目标页面是指目标应用程序中的任一服务页面；目标应用程序支持读屏模式，并提供读屏模式的入口；处理单元，用于启动读屏模式时，具体用于：

当读屏模式的入口被触发时，启动读屏模式；

其中，读屏模式的入口包括以下任一项：按键、图标、菜单项、语音口令。

在一种实现方式中，若目标页面是第一页面，图像是第一页面中的原生图像且不支持编辑；则处理单元，用于获取图像的语义描述信息时，具体用于：

在加载第一页面的过程中，获取图像的语义描述信息；

其中，第一页面包括以下任一种：网页、应用程序的服务页面、小程序的页面、多媒体播放页面。

在一种实现方式中，若目标页面是第二页面，图像是通过编辑操作被添加至第二页面中的；则处理单元，用于获取图像的语义描述信息时，具体用于：

当在第二页面添加图像时，获取图像的语义描述信息；

其中，第二页面包括以下任一种：文档编辑页面、在线文档编辑页面、社交会话页面。

在一种实现方式中，语义描述信息包括对图像呈现出的目标颜色的描述信息；处理单元，用于获取图像的语义描述信息时，具体用于：

从图像中识别出S种颜色，S为大于1的整数；

获取S种颜色中每种颜色的像素数量以及饱和度；

分别将每一种颜色的像素数量与饱和度相乘，得到每一种颜色的颜色分值；

将S种颜色中最大颜色分值所对应的颜色确定为图像的目标颜色；

生成用于描述目标颜色的描述信息。

在一种实现方式中，语义描述信息包括对图像包含的文字内容的描述信息；处理单元，用于获取图像的语义描述信息时，具体用于：

对图像进行预处理；

对预处理后的图像进行图像特征提取，得到图像特征；

采用分类器对图像特征进行分类处理，以识别出图像包含的文字内容；

生成用于描述图像所包含的文字内容的描述信息。

在一种实现方式中，语义描述信息包括对图像的来源的描述信息及对图像的作者的描述信息；处理单元，用于获取图像的语义描述信息时，具体用于：

获取图像的来源；

若图像的来源指示图像来自于本地空间，则从本地空间中读取图像的作者；

若图像的来源指示图像来自于网络文件，则获取图像的链接，并根据链接读取图像的作者；

生成对图像的来源的描述信息以及对图像的作者的描述信息。

在一种实现方式中，语义描述信息包括对图像中包含的对象的描述信息及对图像中包含的对象所执行的行为的描述信息；处理单元，用于获取图像的语义描述信息时，具体用于：

调用视觉词表模型对图像进行对象识别处理，识别得到图像所包含的对象及对象关联的行为句式；

生成对图像中包含的对象的描述信息，以及，根据对象及对象关联的行为句式，生成对图像中包含的对象所执行的行为的描述信息。

在一种实现方式中，处理单元，用于播放与图像的语义描述信息相匹配的提示音频时，具体用于：

为目标页面创建一个隐藏的文档对象节点，并为隐藏的文档对象节点设置辅助属性；

将图像的语义描述信息按照模板化的形式处理为模板文本；

将模板文本写入至隐藏的文档对象节点中；

在监听到写入操作时，为写入的模板文本匹配提示音频；以及，

播放提示音频。

在一种实现方式中，目标页面采用Canvas方式进行渲染；处理单元，还用于：

将Canvas节点内的内容写入至隐藏的文档对象节点中；

在监听到写入操作时，为写入的内容匹配内容音频；以及播放内容音频。

在一种实现方式中，处理单元，还用于：

监听Canvas节点上的操作事件及操作事件的反馈结果；

将操作事件和反馈结果写入至隐藏的文档对象节点中；

在监听到写入操作时，为写入的操作事件和反馈结果匹配操作音频；以及播放操作音频。

另一方面，本申请提供了一种计算机设备，该设备包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述页面处理方法。

一方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述页面处理方法。

一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述页面处理方法。

本申请实施例中，对于显示的目标页面，如果该目标页面中包含图像，则可以获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频。上述方案中，语义描述信息可以从语义上对图像所表达的内容进行描述，该语义描述信息再被转换成相匹配的提示音频进行播报，这就实现了对目标页面中的图像(非文本内容)进行有效读屏，提高了页面信息读取的完整性；另外，通过播放提示音频就可以较为准确、完整地表达出图像所表达的内容，从而辅助对图像的语义进行理解，这样就可以在对目标页面进行读屏的过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a示出了本申请一个示例性实施例提供的一种页面处理场景的示意图；

图1b示出了本申请一个示例性实施例提供的一种目标页面的示意图；

图2示出了本申请一个示例性实施例提供的一种页面处理方法的流程示意图；

图3示出了本申请一个示例性实施例提供的一种目标页面中包含图像和其他内容的示意图；

图4a示出了本申请一个示例性实施例提供的一种启动读屏模式的流程示意图；

图4b示出了本申请一个示例性实施例提供的一种确认窗口的示意图；

图5a示出了本申请一个示例性实施例提供的一种音频所指示内容的示意图；

图5b示出了本申请一个示例性实施例提供的一种音频所指示内容的示意图；

图5c示出了本申请一个示例性实施例提供的一种音频所指示内容的示意图；

图6示出了本申请一个示例性实施例提供的一种页面处理方法的流程示意图；

图7示出了本申请一个示例性实施例提供的一种HSL色彩模式的示意图；

图8示出了本申请一个示例性实施例提供的一种目标页面的示意图；

图9示出了本申请一个示例性实施例提供的一种获取图像包含文字内容的流程示意图；

图10示出了本申请一个示例性实施例提供的一种获取图像的来源的描述信息以及作者的描述信息的流程示意图；

图11a示出了本申请一个示例性实施例提供的一种视觉词表模型的示意图；

图11b示出了本申请一个示例性实施例提供的一种视觉词表模型的示意图；

图12示出了本申请一个示例性实施例提供的一种监听canvas节点内容的流程示意图；

图13示出了本申请一个示例性实施例提供的一种页面处理装置的结构示意图；

图14示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及无障碍读屏，无障碍读屏是一种采用语音(或音频)来播报页面所包含的内容的读屏方式。无障碍读屏的过程可包括：对页面所包含内容进行识别，并采用语音播报方式输出与识别的内容相匹配的语音，该语音可用于描述识别的内容的语义。由于互联网上的信息大多数都以视觉方式进行呈现，因此，无障碍读屏功能对于视障人士来说具有较为重要的意义。例如：视障人士在采用浏览器浏览网页的场景下，基于无障碍读屏功能能够读取网页页面上的网页内容，并将网页内容通过语音播报的方式进行播放，这能帮助视障人士便捷地获取网页所包含的网页内容；其中，一种构建网页页面(或web页面)的语言描述方式为HTML5(超文本5.0)。再如：视障人士在使用在线文档进行协同办公的场景下，基于无障碍读屏功能能够读取在线文档中的文档内容，并将文档内容语音播报出来，这方便视障人士通过互联网进行办公和沟通；其中，在线文档是在一种可以在线编辑、查看、多人协同的文档工具。

上述提及的无障碍读屏涉及人工智能(Artificial Intelligence，AI)领域的语音处理技术，具体地，通过语音处理技术能够将无障碍读屏功能识别到的页面内容进行语音输出。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，语音处理技术(Speech Technology)的关键技术有自动语音识别技术(AS R)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

具体地，可采用具备无障碍读屏功能的目标应用程序(或简称为应用，如任一应用程序)来实现无障碍读屏，其中，应用程序是指为完成某项或多项特定工作的计算机程序；例如，目标应用程序可以包括具备无障碍读屏功能的文档应用程序，该文档应用程序可用于打开在线文档，如腾讯文档应用。按照目标应用程序的运行方式，目标应用程序可包括但不限于：①安装并运行于终端中的应用程序；终端可包括但不限于：PC(PersonalComputer，个人计算机)、PDA(平板电脑)、手机、可穿戴设备、智能车载等智能设备。②免安装的应用程序，即无需下载安装即可使用的应用程序，这类应用程序又俗称小程序，它通常作为子程序运行于客户端中。③通过浏览器打开的web应用程序；等等。

本申请实施例提出一种页面处理方案，该页面处理方案不仅支持对目标页面(如任一服务页面)中正文的文字内容(如DOM节点所包含的文字内容)进行识别后采用语音提示输出；还支持在目标页面中包含图像的情况下，获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频。上述提及的语义描述信息可以从语义上对图像所表达的内容进行描述，再将语义描述信息转换成相匹配的提示音频进行播放，实现对目标页面中图像进行有效读屏，提高页面信息读取的完整性。另外，通过播放提示音频就可以较为准确、完整地表达出图像所表达的内容，从而辅助对图像的语义进行理解，这样就可以在对目标页面进行读屏的过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

本申请实施例提出的页面处理方案可以由计算机设备来执行，或者由计算机设备中运行的目标应用程序(如文档应用程序)来执行。其中，计算机设备可以是任一具备无障碍读屏功能的智能设备，该智能终端可包括但不限于：智能手机(如Android手机、iOS手机等)、平板电脑、个人电脑、便携式个人计算机、移动互联网设备(MobileInternetDevices，简称MID)、智能电视、车载设备、头戴设备等可以进行触屏的智能设备，本申请实施例并不对计算机设备的类型进行限定，在此说明。一种示例性的页面处理场景的示意图可参见图1a，如图1a所示，假设计算机设备101中显示有目标页面，该目标页面可以属于文档应用程序；若该目标页面中包含图像，则可以对该图像进行视觉语义的读取，得到图像的语义描述信息，再输出与该图像的语义描述信息相匹配的语音提示。当然，本申请实施例还包括计算机设备102，该计算机设备102是文档应用程序或计算机设备101的后台服务器，可以为计算机设备101或文档应用程序提供服务支持；这种实现方式下，本申请实施例提及的对图像进行视觉语义的读取的操作可以是由计算机设备102来执行的，计算机设备102将识别到图像的语义描述信息发送给计算机设备101或计算机设备101中运行的文档应用程序，以便于计算机设备101将语义描述信息转换成相匹配的提示音频进行播放；如图1a所示播放的提示音频1011的内容为“图片上有文字写着：我养的宠物；图片的背景颜色是浅灰色；图片上有一只灰色的猫；猫在舔猫爪；图片来自于XX；图片的作者是XX”；本申请实施例对本申请实施例的执行主体不作限定，在此说明。值得一提的是，上述提及的图像可以是视频流所包含的图像帧；在实际应用场景中，当视障人士在播放视频时选择该视频的某一图像帧，则可以采用本申请实施例提供的页面处理方法对该被选择的图像帧进行处理；并播放与该图像帧的语义描述信息相匹配的提示音频。

经实践发现，采用本申请实施例提供的页面处理方案对目标页面进行无障碍读屏时具有明显的优势。下面以本申请方案与现有主流无障碍读屏功能进行比对为例对本申请实施例的优势进行说明。现有主流的无障碍读屏功能只能对目标页面中正文的文字内容进行识别并语音播报；当目标页面中包含图像这类内容时，只能简单的语音播报出该内容的格式；如图1b所示的第一幅图，目标页面为幻灯片页面，该幻灯片页面中包含文字和图像，那么采用现有主流无障碍读屏功能对该幻灯片页面进行读屏时，输出的提示音频为“我养的宠物，[图像]”；如果文本“我养的宠物”是属于图像中的文本，那么输出的提示音频更为简单，即输出“[图像]”。对于视障人士来说，其并不能获取到该图像的具体内容，只知道幻灯片页面中包含图像，这导致视障人士不能得到页面的完整的信息。而采用本申请实施例提供的页面处理方案对图1b所示的幻灯片页面进行无障碍读屏时，不仅可以读出该幻灯片页面中的文字“我养的宠物”，还能够对图像所包含的对象、对象的行为以及该图像的其他信息进行获取和语音播报；如图1b所示的第二幅图，采用本申请实施例播放的提示音频为“图像上有文字写着：我养的宠物；图像的背景色是浅灰色；图像上有一只灰色的猫；猫在舔猫爪；图像来自于XX；图像作者是XX……”。基于此，本申请实施例可以获取目标页面中图像的语义描述信息，并将语义描述信息转换为相匹配的提示音频，这种通过播放提示音频的方式可以较为准确、完整地表达出图像所表达的内容，从而辅助对图像的语义进行理解，提高页面读屏处理的智能性。

基于上述描述的页面处理方案，本申请实施例提出更为详细的页面处理方法，下面将结合附图对本申请实施例提出的页面处理方法进行详细介绍。

图2示出了本申请一个示例性实施例提供的一种页面处理方法的流程示意图；该页面处理方法可以由计算机设备(如上述提及的计算机设备101)来执行，该页面处理方法可包括但不限于步骤S201-S203：

S201：显示目标页面。

当目标用户(如使用计算机设备101的使用者)打开并使用计算机设备(如智能设备)时可在计算机设备的显示屏幕中显示目标页面。可选的，目标页面可以是计算机设备的操作系统页面，如用于配置计算机设备的功能的配置页面。可选的，目标页面也可以是指计算机设备(如智能终端)中运行的目标应用程序中的任一服务页面；例如：目标应用程序为运行于计算机设备中、具备文档编辑功能的文档应用程序，则目标应用程序中的任一服务页面可以包括文档应用程序所包含的任一文档的文档页面，该任一文档可为在线文档(如在线表格、在线文本以及在线幻灯片等等)，即可实现多人协同编辑的文档。为便于阐述，后续均以计算机设备中运行有文档应用程序，且目标页面为文档应用程序所包含的任一文档的文档页面为例，进行介绍。

目标页面中可包括图像以及其他内容，其他内容可包括以下至少一项：文本、富文本、图标、视频以及音频等。其中，文本或称为纯文本(Plain Text)，是指一种书面语言的表现形式；文本中可包括多个字符，一个或多个字符组成字符串，字符可包括以下至少一种：中文字符(即汉字)、英文字符(即字母)、数字和标点符号(如逗号“，”、句号“。”、方括号“【】”)；例如，目标页面中包含如下文本“我养的宠物”，该文本中包含多个字符，如字符“我”、字符“养”、字符“的”、……。富文本(Rich Text)或者称为富文本格式，是与纯文本相对而言的，简单来说就是在文本中可以使用多种格式，如字体颜色、图片、表格、动画以及表情等等。图标可以包括但不限于：功能性图标以及非功能性图标；所谓功能性图标可是指可触发以实现某种功能的图标，如插入图标，当点击插入图标后，可在目标页面中插入内容；非功能性图标可是指不可触发、仅起到提示或观赏的图标。

需要说明的是，上述只是对目标页面中可能包含的内容进行示例性介绍，在实际应用场景中，目标页面中还可以包含上述未提及的内容，本申请实施例对目标页面所包含的内容的数量和种类不作限定。

S202：若目标页面中包含图像，则获取图像的语义描述信息。

图像的语义描述信息用于从语义上对图像进行描述；图像的语义描述信息可包括以下至少一项：对图像呈现出的目标颜色的描述信息，对图像所包含的文字内容的描述信息，对图像的来源的描述信息，对图像的作者的描述信息，对图像中包含的对象的描述信息，以及对图像中包含的对象所执行的行为的描述信息。其中，图像包含的对象是指图像中所包含的类别个体，如图像中包含猫、人、伞、沙发等等；图像中包含的对象所执行的行为是指：对象执行的动作。如图3所示，目标页面301中包含图像3011，图像3011呈现出的目标颜色为灰色，如图像的目标颜色是指背景颜色，图像的背景颜色为灰色；图像所包含的文字内容为“我养的宠物”；图像来源于XX；图像的作者为XX；图像中包含的对象为猫；图像中包含的对象——猫所执行的行为为“舔猫爪”。

可以理解的是，目标页面中还包含其他内容时，本申请实施例支持在获取图像的语义描述信息时一并获取其他内容的描述信息；例如：目标页面中还包含文本，则可以获取文本的描述信息。这便于后续对目标页面所包含的所有内容进行语音播报。继续参见图3，如图3所示，在目标页面301中除包含图像3011外还包括文本3012，那么可一并对文本3012的文本内容进行识别，得到文本3012的描述信息，该文本3012的描述信息其实质就是文本内容；如文本3012的文本内容为“标题：XXXX”，则识别出的文本3012的描述信息为“标题：XXXX”。值得一提的是，步骤S202所示的获取图像的语义描述信息的过程是对图像进行模式识别的过程；所谓模式识别(Pattern recognition)就是用计算的方法根据样本的特征将样本划分到一定的类别中去，在本申请实施例中样本为本申请实施例所提及的图像。

S203：播放与图像的语义描述信息相匹配的提示音频。

采用语音播报的方式播放与图像的语义描述信息相匹配的提示音频，使得视障人士能够通过听觉理解图像欲表达的语义。其中，与语义描述信息相匹配(或相对应)的提示音频可用于提示以下至少一项：用于提示图像呈现出的目标颜色(其对应的语义描述信息包括对图像呈现出的目标颜色的描述信息)；用于提示图像包含的文字内容；(其对应的语义描述信息包括对图像包含的文字内容的描述信息)；用于提示图像的来源(其对应的语义描述信息包括对图像的来源的描述信息)；用于提示图像的作者(其对应的语义描述信息包括对图像的作者的描述信息)；用于提示图像中包含的对象(其对应的语义描述信息包括对图像中包含的对象的描述信息)；以及用于提示图像中包含的对象所执行的行为(其对应的语义描述信息包括对图像中包含的对象所执行的行为的描述信息)。

不难理解的是，上述步骤S201-S203是在启动读屏模式之后实现的；换句话说，无障碍读屏功能是具备开关项的，只有启动读屏模式，才开启无障碍读屏功能，这样对于非视力障碍人士可以不开启读屏模式。具体实现中，本申请实施例支持启动读屏模式，这样步骤S203所示的播放与图像的语义描述信息相匹配的提示音频包括：在读屏模式下，播放与图像的语义描述信息相匹配的提示音频。当目标页面是指目标应用程序中的任一服务页面时，表示目标应用程序支持读屏模式；当目标页面是指智能终端中的任一服务页面时，表示智能终端支持读屏模式；本申请实施例以目标应用程序支持读屏模式为例进行说明。目标应用程序提供读屏模式的入口，当目标应用程序的入口被触发时，启动目标应用程序的读屏模式；其中，目标应用程序的读屏模式的入口可以包括以下任一项：按键、图标、菜单项以及语音口令。下面对几种启动读屏模式的实现方式进行简单介绍，其中：

(1)通过菜单项启动读屏模式。具体实现中，在目标页面中显示有菜单控件(或组件、选项等)；当菜单控件被触发时，触发显示选项窗口，选项窗口中包含一个或多个选项，一个或多个选项中包括读屏选项；若读屏选项被触发，则在目标页面中显示通知消息，该通知消息用于通知成功开启读屏模式。结合图4a所示的启动读屏模式的流程示意图来对启动读屏模式的实现方式进行详细说明；如图4a所示，在目标页面中显示有菜单控件401，当菜单控件401被触发时，显示选项窗口402，选项窗口402中包含读屏选项4021；若读屏选项4021被触发，表示用户想要开启目标应用程序的无障碍读屏功能，则在目标页面中显示通知消息403，该通知消息403指示启动目标应用程序的读屏模式。

需要说明的是，上述只是给出的一种示例性的启动目标应用程序的读屏模式的实现方式；可以理解的是，在实际应用场景下启动目标应用程序的读屏模式的实现方式还可以发生变化；例如：本申请实施例支持在读屏选项被触发后，还可以输出确认窗口，以再次通知用户确认是否启动目标应用程序的读屏模式。确认窗口包含确认选项和取消选项；当确认选项被触发时，表示用户确定启动目标应用程序的读屏模式，当取消选项被触发时，表示用户取消启动目标应用程序的读屏模式。确认窗口的一种示例性示意图可参见图4b，如图4b所示，确认窗口404中包含确认选项4041和取消选项4042。另外，上述是以选项窗口、确认窗口覆盖显示于目标页面之上为例进行描述的，但其还可以单独页面的形式进行显示，本申请实施例对选项窗口、确认窗口的表现形式不作限定。

(2)通过语音口令启动读屏模式。具体实现中，当智能终端开启语音输入功能后，智能终端可采集其所处物理环境中的音频，这样用户可以在智能终端开启语音输入功能的状态下，说出类似于“开启无障碍读屏”的语句；智能终端接收到该语句后，可自动启动读屏模式。其中，智能终端是通过智能终端所部署的麦克风采集其物理环境中的音频的。

(3)通过快捷键启动读屏模式。具体实现中，本申请实施例支持通过快捷键快速开启读屏模式，如快捷键为ctrl+XX；这样用户可以在输入快捷键时快速实现启动读屏模式。可选的，用户可以在智能终端的显示屏幕上显示的虚拟键盘中输入快捷键；可选的，智能终端可以外接实体键盘，这样用户在实体键盘上输入快捷键。综上，本申请实施例支持多种启动读屏模式的实现方式，丰富启动读屏模式的方式，帮助视障人士能够较快地开启目标应用程序或智能终端的读屏模式，提高启动读屏模式的快捷性和简便性。

另外，本申请实施例支持在目标页面中包含图像以及其他内容(如文本、图标等)时，播放与各个内容相匹配的音频。一种实现方式中，在读屏模式下，可以按照目标页面中各个内容的排列顺序，依次朗读与各个内容相匹配的音频。举例来说，继续参见图3，在图3所示的目标页面301中首行从左至右依次显示有返回选项302、目标应用程序的应用图标303、目标应用程序的应用名称304以及收藏选项305、……、等；那么可以依次朗读与各个内容相匹配的音频，来提示视障人士该目标页面301中所包含的内容。在另一种实现方式中，在读屏模式下，可以根据用户在目标页面上对内容的选中操作(如触发操作、长按操作、拖拽操作、双击操作等)，播放与被选中的内容相匹配的音频；也就是说，当在目标页面中存在任一内容被用户选中时，获取该被选中内容的语义描述信息，并播放与该任一内容的语义描述信息相匹配的音频。其他实现方式中，在读屏模式下，可以按照目标页面中各个内容的排列顺序，依次朗读与各个内容相匹配的音频；当目标页面中存在任一内容被触发时，停止朗读当前音频，并播放与被触发的内容相匹配的音频。例如，在读屏模式下，依次朗读第一内容的音频、第二内容的音频、以及第三内容的音频；当朗读到第二内容的音频时，检测到目标页面中存在对第一内容的触发操作，则停止朗读第二内容的音频，而播放与第一内容相匹配的音频。这能满足用户即点即播的需求，提高用户的无障碍读屏体验。

其中，与目标内容相匹配的音频可用于提示该目标内容的基本内容、与该目标内容相关的操作信息、该目标内容的内容格式以及该目标内容的结构和位置；目标内容为目标页面所包含的多个内容中的任一个。下面结合图5a、图5b以及图5c对音频所指示的内容(如基本内容、操作信息等)进行简单介绍：

(1)如图5a所示，音频用于提示目标页面中各个内容的基于内容和操作信息。

根据目标页面所包含的内容的类型不同，内容对应的基本内容并不相同。例如，目标页面包含图像，则图像的基本内容可以包括但不限于前述所描述的：图像所呈现出的目标颜色、图像所包含的文字内容、图像的来源、图像的作者、图像所包含的对象以及图像所包含的对象所执行的行为等；再如，目标页面包含文本，则文本的基本内容可以包括但不限于：组成文本的字符、字符所采用的字体、字符的颜色等。

操作信息可以包括以下至少一项：操作者的信息、被操作的对象、被操作的对象的类型、操作项的信息、操作项被选中时呈现的反馈、以及操作信息引起目标页面产生的变化。也就是说，本申请实施例支持在读屏模式下将目标页面中的操作信息转换为操作音频进行播放输出。举例来说，若用户在目标页面中选中某一操作项(如选项)，则可播放该操作项被选中时所呈现的反馈，如操作项被突出显示；还可以播放该操作项被选中后引起目标页面产生的变化，如操作项被选中后，目标页面中显示与该操作项相关联的内容；等等。再如，假设目标应用程序为具备多人协同编辑文档的文档应用程序，当参与协同编辑的任一协同者对目标页面进行编辑时，视障人士侧可即时播放该任一协同者相关的操作信息，如该任一协同者(即操作者)的信息、被操作的对象、被操作的对象的类型、操作项的信息、操作项被选中时呈现的反馈以及操作信息引起目标页面产生的变化等。这能帮助视障人士即时了解协同者的操作信息，实现视障人士参与正常的工作和生活的沟通。

综上所述，本申请实施例能够播放目标页面中各个内容的基本内容，以及播放目标页面中的所有用户操作(如选中、增删、修改等操作)和系统反馈(如基于用户操作目标页面所发生的变化等)，通过这种即时播放目标页面中的变化，能够让视障人士即时感知自己和目标应用程序之间的交互，提高视障人士使用目标应用程序的安全感。

(2)如图5b所示，音频用于提示目标页面中各个内容的内容格式。

不难理解的是，目标页面中的内容的格式可能会对用户的认知产生影响；参见图3所示，第一行文本的内容格式为文本，如果在语音播报时只播放该文本的基本内容，那么会丢失该文本的格式信息，进而影响视障人士对该文本的认知和理解；因此，本申请实施例支持在语音播报该文本时，一并播报该文本的格式。例如，带文字标签的形状，其可读为“方形”、“圆形”等；再如，带文字标签的链接，其可读为“链接”。其中，一种可选的播放内容的内容格式的原则可包括：对于目标页面中的文字，播报时播报该文字的格式；对于目标页面中非文字的内容，则尽量“文字化”，以便于视障人士对该非文字的内容进行理解。

(3)如图5c所示，音频用于提示目标页面中各个内容的结构和位置。

目标页面中内容的结构和位置是“图形化”的概念，如功能菜单在目标页面中的哪个位置、功能菜单是列表还是宫格、……，均是需要视觉感知的，如果输出的音频丢失内容的结构和位置，则可能导致视障人士不能对目标页面中的内容进行更为准确的理解。基于此，本申请实施例支持读出目标页面的当前状态是进入或离开某区域(或内容、功能区等)，还支持读出当前光标(如鼠标光标)在目标页面中的位置，以帮助视障人士实时定位自己在目标页面中的位置，帮助视障人士对目标页面进行理解，而避免在目标页面中迷失方向。举例来说，当视障人士通过快捷键进入工具栏后，需要读出“进入工具栏”；当再从工具栏进入到具体的某个菜单，需要读出“进入菜单”；在进入菜单后，还需要读出当前的光标位于菜单的哪个项目位置等。

本申请实施例中，如果显示的目标页面中包含图像，则可以获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频。图像的语义描述信息可以从语义上对图像所表达的内容进行描述，该语义描述信息还被转换成相匹配的提示音频进行播报，实现了对目标页面中的图像(即非文本内容)进行有效读屏，提高页面信息读取的完整性。另外，采用语音播报的当时播放图像的语义描述信息匹配的提示音频，可以较为准确、完整地表达出图像所表达的内容，从而辅助视障人士对图像的语义进行理解，可以在对目标页面进行读屏过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

图6示出了本申请一个示例性实施例提供的一种页面处理方法的流程示意图；该页面处理方法可以由计算机设备(如上述提及的计算机设备101)来执行，该页面处理方法可包括但不限于步骤S601-S606：

S601：显示目标页面。

根据目标页面的页面类型不同，获取图像的语义描述信息的方式并不相同。在一种实现方式中，目标页面是第一页面，第一页面是不支持用户对页面中内容进行编辑的页面，第一页面可包括以下任一种：网页、应用程序的服务页面、小程序的服务页面以及多媒体播放页面等；当目标页面是第一页面时，目标页面所包含的图像是第一页面中的原生图像(如不是用户所添加的图像)且不支持编辑，则获取图像的语义描述信息的实现方式可包括：在加载第一页面的过程中，获取图像的语义描述信息。换句话说，当目标页面是第一页面时，在后台加载(或渲染)第一页面的过程中，就触发执行获取图像的语义描述信息的操作。举例来说，目标页面是浏览器中显示的任一网页页面，该网页页面只支持用户对网页页面所包含的内容进行浏览，则在后台加载该网页页面的过程中，就可以触发获取网页页面中图像的语义描述信息。

其他实现方式中，目标页面是第二页面，第二页面是支持用户对页面中的内容进行编辑的页面，第二页面可以包括以下任一项：文档编辑页面、在线文档编辑页面、社交会话页面以及问卷类页面等；当目标页面是第二页面，且目标页面中的图像是通过编辑操作被添加至第二页面中的，则获取图像的语义描述信息的实现方式可包括：当在第二页面中添加图像时，获取图像的语义描述信息。当然，若第二页面中也包含原生图像，则在加载该第二页面的过程中获取该原生图像的语义描述信息。

正如前述图2所示实施例所描述的，获取的图像的语义描述信息可包括以下至少一项：对图像呈现出的目标颜色的描述信息，对图像包含的文字内容的描述信息，对图像的来源的描述信息，对图像的作者的描述信息，对图像中包含的对象的描述信息，以及对图像中包含的对象所执行的行为的描述信息。由于语义描述信息包括了对图像的颜色以及其所包含的对象等相关信息的识别；不难发现，本申请实施例涉及人工智能领域的计算机视觉技术(Computer Vision,CV)，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。具体地，基于计算机视觉技术获取图像的语义描述信息的方式可参见如下步骤S602-S605所示的具体实现方式的相关描述；本申请实施例对步骤S602-S605的执行先后顺序不作限定，在此说明。

S602：若目标页面中包含图像，则获取图像呈现出的目标颜色的描述信息。

目标颜色可以是指图像中显示面积最大的颜色，或者，目标颜色可以是指图像中所包含对象的颜色，或者，目标颜色可以是指图像的背景颜色，等等；具体可以根据业务需求来定义目标颜色，本申请实施例对此不作限定。本申请实施例可基于HSL色彩模式来确定图像的目标颜色，HSL色彩模式是一种将RGB(即红绿蓝)色彩模式中的点在圆柱坐标系中进行表示的色彩表示方法；其中，H表示色相(即颜色)，H取值范围为[0,360]，当H＝0或360时，色相(即颜色)为红色、H＝120时，色相为绿色，当H＝240时，色相为蓝色；S表示饱和度，S的取值范围为[0％，100％]，当S＝0％时，饱和度为灰色，当S＝100％时，饱和度为透明；L表示明度，L的取值范围为[0％，100％]，当L＝0％时，明度表现为暗，当L＝50％时，明度表现为普通，当L＝100％时，明度表现为白。采用圆柱坐标系表示色彩的示意图可参见图7。

本申请实施例以目标颜色是图像中显示面积最大的颜色为例，对获取图像所呈现的目标颜色的描述信息进行说明；具体地，首先，从图像中识别出S种颜色，S为大于1的整数，这S种颜色可以是图像中不同对象(如对象为人、帽子、沙发等)对应的颜色，当然，同一对象可以对应不同的颜色，例如，对象为人，人所穿的上衣可为红色，人所穿的裤子可以为黑色；获取S种颜色中每种颜色的像素数量以及饱和度，再分别将每一种颜色的像素数量与饱和度相乘，得到每一种颜色的颜色分值；最后，将S种颜色中最大颜色分值所对应的颜色确定为图像的目标颜色，并生成用于描述目标颜色的描述信息。也就是说，使用图像所包含的每种颜色的饱和度以及像素数量去评价一种颜色的颜色分值，并将最高颜色分值所对应的颜色确定为图像的目标颜色；其中，计算每种颜色的颜色分值的公式如下：

score＝pixel nums*saturation

score表示颜色分值，pixel nums表示像素数量以及saturation表示饱和度。

举例来说，图像中包含3种颜色，分别为红色、黄色以及蓝色；其中，红色的像素数量为40、饱和度为40％，黄色的像素数量为70、饱和度为64％，蓝色的像素数量为80、饱和度为49％；则分别计算三种颜色的颜色分值，可得：红色的颜色分值＝40*40％＝16、黄色的颜色分值＝70*64％＝44.8以及蓝色的颜色分值＝80*49％＝39.2，确定黄色的颜色分值最高，则将黄色确定为图像的目标颜色。

可以理解的是，本申请实施例还支持对图像所包含的S种颜色对应的S个颜色分值按照从高至低的顺序进行排序，并将排序位置位于位置阈值之前的多个颜色确定为目标颜色；在播放与颜色相匹配的音频时，可将颜色与颜色对应的对象一并播放出来。参见图8，图像所包含的对象包括：小男孩801、滑板802以及帽子803，其中，帽子803为黑色，滑板802为白色，则播放的与图像相匹配的音频可为“一个戴黑色帽子，且在滑白色滑板的男孩”。需要说明的是，位置阈值可以是业务人员根据业务需求设定的，本申请实施例对位置阈值的具体取值不作限定。

S603：获取图像包含的文字内容的描述信息。

图9示出了本申请一个示例性实施例提供的一种获取图像包含文字内容的流程示意图；如图9所示，获取图像包含的文字内容的流程可包括：

①对图像进行预处理。

对图像进行预处理，可以减少图像中的无用信息，有利于后续进行特征提取和学习。其中，预处理可包括但不限于：灰度化、降噪、二值化、字符切分以及归一化等。其中，对图像(如彩色图像)进行灰度化处理，可以减少图像的原始数据量，使得后续处理时间以及计算量更小；对图像进行降噪处理，可以消除或抑制图像中的噪声，提高图像质量，降噪的好坏对后续的特征提取具有较大影响；对图像进行二值化就是将图像上的各个像素点的灰度值设置为0或255，使得图像呈现出明显的黑白效果的过程；字符切分是指将图像中的文字分割成单个文字，这样后续在识别文字时是一个字一个字的进行识别，当然，如果图像中的文字是倾斜的，往往还需要对该文字进行倾斜矫正，便于后续对该文字进行处理；归一化是将图像中单个的文字规整到同一尺寸和规则，这样便于后续采用同一算法对文字进行处理。在其他实施例中，也可以将图像中的文字分割成词语，这样后续在识别文字时可以一个词一个词的进行识别。

②对预处理后的图像进行图像特征提取，得到图像特征。

图像特征是用于识别图像中文字内容的关键信息，图像中每个不同的文字均能通过图像特征来和其他文字进行区分。本申请实施例支持采用多种特征提取算法来对目标页面中的图像进行特征提取，特征提取算法可包括但不限于：方向梯度直方图(histogram oforiented gradient，HOG)、尺度不变特征变化(scale-invariant features transform，SIFT)以及高斯函数差分(differenceof gaussians)等算法；本申请实施例不限定具体使用哪种特征提取算法来提取图像的图像特征。当然，如果提取到的图像特征的维数太高，会影响后续对该图像特征的识别效率和质量，因此，本申请实施例还支持对维数较高的图像特征进行降维处理，以便于后续的识别。

③采用分类器对图像特征进行分类处理，以识别出图像包含的文字内容。

分类器是对数据进行分类的方法的统称；分类器可用于接收图像的图像特征，并对图像特征进行分类，以识别出图像特征该识别成哪个文字内容。常见的分类器可包括但不限于：决策树、逻辑回归、朴素贝叶斯以及神经网络算法等；本申请实施例并不限定具体使用的分类器。

④生成用于描述图像所包含的文字内容的描述信息。

S604：获取图像的来源的描述信息及图像的作者的描述信息。

本申请实施例以图像来源于本地空间或网络文件为例，对获取图像的来源的描述信息及图像的作者的描述信息的实现方式进行介绍。参见图10，图10示出了本申请一个示例性实施例提出一种获取图像的来源的描述信息和图像的作者的描述信息的流程示意图；如图10所示：首先，获取图像的来源，该来源指示图像来自于本地空间或网络文件。其次，若图像的来源指示图像来自于本地空间，则从本地空间中读取图像的作者，例如，从智能设备的操作系统中的文件属性中读取图像信息，该图像信息中包含图像的作者；若图像的来源指示图像来自于网络文件，则获取图像的链接，并根据该链接读取图像的作者；其中，图像的链接可以为超链接，其支持被点击后直接跳转至包含图像的网页页面。最后，生成对图像的来源的描述信息以及对图像的作者的描述信息。

S605：获取图像中包含的对象的描述信息及对图像中包含的对象所执行的行为的描述信息。

具体实现中，可调用视觉词表模型对图像进行对象识别处理，识别得到图像所包含的对象及对象关联的行为句式；再生成对图像中包含的对象的描述信息，以及，根据对象及对象关联的行为句式，以及，生成对图像中包含的对象所执行的行为的描述信息。其中，视觉词表模型可以包括基于注意力机制的transformer模型(或称为机器翻译模型)；对于给定的图像和候选对象(即预先设定好的可识别的对象)，视觉词表模型可以采用自回归(即一种回归分析的形式)的方式生成一系列字符，再根据行为句式生成描述图像的句子(即字符串)。下面结合图11a和图11b来对视觉词表模型的训练和应用进行较为详细的介绍：

本申请实施例采用视觉词表预训练方法来对视觉词表模型进行训练；其中，对视觉词表模型进行训练的过程可包括预训练阶段和微调阶段。具体地，视觉词表预训练方法支持在没有文本标注(如标注样本图像欲表达的语义的文本)的情况下也能进行图像和文本的多模态预训练，所谓多模态可是指物体的不同表现形式，如采用图像、文字以及动画等来表现同一对象等。这使得视觉词表模型的训练不再依赖于配对的图像和文本标注，而可以利用大量的计算机视觉数据集，如用于图像识别的类别标签(tag)；借助视觉词表预训练方法，使得视觉词表模型可以通过大规模数据学习建立多种对象(或物体)的视觉外表和语义名称之间的联系，即视觉词表(visual vocabulary)。视觉词表可以被定义为一个图像和文字的联合特征空间(joint embedding space)，在该联合特征空间内可以将语义相近的文本(或字符)映射至距离更近的特征向量上。下面对预训练阶段和微调阶段分别进行介绍，其中：

①预训练阶段。在预训练阶段可以将语义相似的类别标签(或文本)与对应的图像特征映射至距离更近的特征向量上；如图11a所示，假设图像1的语义描述了一只小黄狗，图像2的语义描述了一只黑狗，由于图像1的语义以及图像2的语义均表示了同一类别——狗，则可以将图像1的图像特征和对应的类别标签(黄狗)，以及图像2的图像特征和对应的类别标签(黑狗)映射至视觉词表的左上角的特征向量上；假设图像3的语义描述了乐器，图像4的语义描述了手风琴，则可以将图像3的图像特征和对应的类别标签(乐器)，以及图像4的图像特征和对应的类别标签(手风琴)映射至视觉词表的左下角的特征向量上，等等；进而在预训练阶段建立视觉词表，视觉词表中语义相近的类别标签与对应的图像特征会被映射至距离更近的特征向量上。更为具体的，如图11b所示，在预训练阶段可采用多层的视觉词表模型对图像进行分类的预测；具体来说，先给定多个样本图像，以及每个和该样本图像对应的类别标签，然后随机抹去部分类别标签，再让视觉词表模型来预测这些被抹去的类别标签，实现对视觉词表模型预测图像中所包含的对象的功能的训练。如图11b所示，可将类别标签“滑板”抹去，让视觉词表模型来预测该类别标签。当然，由于多个类别标签之间的顺序是可以互换的，因此，本申请实施例可采用匈牙利算法(Hungarian matching)来找到预测的类别结果和类别标签之间的一一对应，然后计算交叉熵损失(cross entropy loss)函数来评估视觉词表模型是否优化成功。其中，匈牙利算法是一种组合优化算法，采用匈牙利算法可以将预测的类别结果与类别标签之间进行匹配。

②微调阶段。在预训练阶段生成视觉词表后，本申请实施例还支持采用配对有文本标注的样本图像对视觉词表模型进行微调，使得视觉词表模型能够具有根据样本图像和识别到的对象来生成一个通用的行为句式模板的功能，这样把识别到的对象填入至行为句式模板即可以得到描述图像中对象的行为的描述信息。需要说明的是，微调时样本图像对应的类别标签可以是来自于样本数据集(即包含多个配对有文本标注的样本图像的集合)本身的标注，也可以是由其他已经训练好的图像分类或物体识别模型自动生成的，本申请实施例对此不作限定。如图11a所示，在微调阶段，一个样本图像对应的文本标注为“一个带着帽子滑滑板的男孩”，该文本标注中包含对象“帽子”、对象“滑板”以及对象“男孩”；如果采用视觉词表模型对该样本图像进行识别后，得到的预测的文本内容为“一个戴帽子的男孩”，则确定视觉词表模型未能预测出对象“滑板”，则需要继续对视觉词表模型进行训练；反之，则确定得到优化后的视觉词表模型。综上所述，对视觉词表模型进行微调，可训练视觉词表模型生成用于描述图像的语义的句子的能力。

综上所述，对视觉词表模型进行预训练和微调，使得训练后的视觉词表模型可以较为准确的识别出图像所包含的对象以及对象所执行的行为等信息，这能够提高视觉词表模型的识别性能和效率。

S606：播放与图像的语义描述信息相匹配的提示音频。

具体实现中，在得到图像的语义描述信息后，可为目标页面创建一个隐藏的文档对象节点，其中，文档对象节点是一种与平台和语言无关的应用程序接口(API)，文档对象节点可以动态地访问程序和脚本，更新其内容、结构和www文档的风格，并为隐藏的文档对象节点设置辅助属性(如aria-live属性)；将图像的语义描述信息按照模板化的形式处理为模板文本；将模板文本写入至隐藏的文档对象节点中；在监听到写入操作时，为写入的模板文本匹配提示音频；以及，播放提示音频。

需要说明的是，目标页面可以是采用canvas方式进行渲染的，上述提及的图像可以是采用canvas方式渲染得到的。其中，canvas标签是超文本中的一种标签，可通过脚本(如JavaScript)动态绘制图形。当目标页面是由canvas标签渲染得到时，步骤S606所示的播放与图像的语义描述信息相匹配的提示音频的实现方式可包括：为目标页面创建一个隐藏的文档对象节点，并为隐藏的文档对象节点设置辅助属性；将canvas节点内的内容写入至隐藏的文档对象节点中；并在监听到写入操作时，为写入的内容匹配内容音频，以及播放该内容音频。换句话说，当目标页面是采用canvas标签渲染时，本申请实施例支持识别canvas标签所渲染的内容，并播放该内容对应的内容音频。

下面结合图12并以canvas节点上存在操作事件(如全选事件)为例，对播放与canvas节点所包含内容相匹配的内容音频的实现方式进行示例性介绍。如图12所示，①监听用户在canvas节点上的操作事件，如用户通过键盘(如实体键盘)对canvas节点上的内容进行全选，如通过全选快捷键(ctrl+A)全选canvas节点上的内容。②获取canvas节点对操作事件的反馈结果；如监听组件(accessibility组件)监听在canvas节点上的操作事件，并由监听组件向用户操作分类发送操作事件，以便于判断用户操作后，获取反馈结果。③将反馈结果发送至隐藏的文档对象节点，以便于隐藏的文档对象节点将反馈结果更为节点内容。④监听到文档对象节点的节点内容发生变动时，为写入的操作事件和反馈结果匹配操作音频，并播放操作音频。

本申请实施例中，对于显示的目标页面，如果该目标页面中包含图像，则可以获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频；其中，语义描述信息可以从语义上对图像所表达的内容进行描述，该语义描述信息再被转换成相匹配的提示音频进行播报。另外，若目标页面是由canvas方式渲染得到的，本申请实施例还可以对canvas节点所包含内容进行识别，并播放与canvas节点所包含内容匹配的内容音频。这就实现了对目标页面中的图像或canvas节点(非文本内容)进行有效读屏，提高了页面信息读取的完整性；并且，通过播放提示音频就可以较为准确、完整地表达出图像或canvas节点所表达的内容，从而辅助对图像或canvas节点的语义进行理解，这样就可以在对目标页面进行读屏的过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

图13示出了本申请一个示例性实施例提供的一种页面处理装置的结构示意图；该页面处理装置可以用于是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该页面处理装置可以是计算机设备中的应用程序(如腾讯文档)；该页面处理装置可以用于执行图2以及图6所示的方法实施例中的部分或全部步骤。请参见图13，该页面处理装置包括如下单元：

显示单元1301，用于显示目标页面；

处理单元1302，用于若目标页面中包含图像，则获取图像的语义描述信息；

处理单元1302，还用于播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，处理单元1302，还用于启动读屏模式；

处理单元1302，用于播放与图像的语义描述信息相匹配的提示音频时，具体用于：在读屏模式下，播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，目标页面中还包含其他内容，其他内容包括以下至少一项：文本、富文本、图标；处理单元1302，还用于：

在一种实现方式中，目标页面中还包含操作信息，操作信息包括以下至少一项：操作者的信息、被操作的对象、被操作的对象的类型、操作项的信息、操作项被选中时呈现的反馈，以及操作信息引起目标页面产生的变化；处理单元1302，还用于：

在一种实现方式中，目标页面是指目标应用程序中的任一服务页面；目标应用程序支持读屏模式，并提供读屏模式的入口；处理单元1302，用于启动读屏模式时，具体用于：

当读屏模式的入口被触发时，启动读屏模式；

在一种实现方式中，若目标页面是第一页面，图像是第一页面中的原生图像且不支持编辑；则处理单元1302，用于获取图像的语义描述信息时，具体用于：

在加载第一页面的过程中，获取图像的语义描述信息；

在一种实现方式中，若目标页面是第二页面，图像是通过编辑操作被添加至第二页面中的；则处理单元1302，用于获取图像的语义描述信息时，具体用于：

当在第二页面添加图像时，获取图像的语义描述信息；

在一种实现方式中，语义描述信息包括对图像呈现出的目标颜色的描述信息；处理单元1302，用于获取图像的语义描述信息时，具体用于：

从图像中识别出S种颜色，S为大于1的整数；

获取S种颜色中每种颜色的像素数量以及饱和度；

生成用于描述目标颜色的描述信息。

在一种实现方式中，语义描述信息包括对图像包含的文字内容的描述信息；处理单元1302，用于获取图像的语义描述信息时，具体用于：

对图像进行预处理；

对预处理后的图像进行图像特征提取，得到图像特征；

生成用于描述图像所包含的文字内容的描述信息。

在一种实现方式中，语义描述信息包括对图像的来源的描述信息及对图像的作者的描述信息；处理单元1302，用于获取图像的语义描述信息时，具体用于：

获取图像的来源；

在一种实现方式中，语义描述信息包括对图像中包含的对象的描述信息及对图像中包含的对象所执行的行为的描述信息；处理单元1302，用于获取图像的语义描述信息时，具体用于：

在一种实现方式中，处理单元1302，用于播放与图像的语义描述信息相匹配的提示音频时，具体用于：

将图像的语义描述信息按照模板化的形式处理为模板文本；

将模板文本写入至隐藏的文档对象节点中；

播放提示音频。

在一种实现方式中，目标页面采用Canvas方式进行渲染；处理单元1302，还用于：

将Canvas节点内的内容写入至隐藏的文档对象节点中；

在一种实现方式中，处理单元1302，还用于：

监听Canvas节点上的操作事件及操作事件的反馈结果；

将操作事件和反馈结果写入至隐藏的文档对象节点中；

根据本申请的一个实施例，图13所示的页面处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该页面处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图13中所示的页面处理装置，以及来实现本申请实施例的页面处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，对于显示的目标页面，如果该目标页面中包含图像，则处理单元1302可以获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频。上述方案中，语义描述信息可以从语义上对图像所表达的内容进行描述，该语义描述信息再被转换成相匹配的提示音频进行播报，这就实现了对目标页面中的图像(非文本内容)进行有效读屏，提高了页面信息读取的完整性；另外，通过播放提示音频就可以较为准确、完整地表达出图像所表达的内容，从而辅助对图像的语义进行理解，这样就可以在对目标页面进行读屏的过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

图14示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图14，该计算机设备包括处理器1401、通信接口1402以及计算机可读存储介质1403。其中，处理器1401、通信接口1402以及计算机可读存储介质1403可通过总线或者其它方式连接。其中，通信接口1402用于接收和发送数据。计算机可读存储介质1403可以存储在计算机设备的存储器中，计算机可读存储介质1403用于存储计算机程序，计算机程序包括程序指令，处理器1401用于执行计算机可读存储介质1403存储的程序指令。处理器1401(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机设备可以是前述实施例提到的智能设备；该计算机可读存储介质中存储有一条或多条指令；由处理器1401加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述页面处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1401加载并执行如下步骤：

显示目标页面；

若目标页面中包含图像，则获取图像的语义描述信息；

播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：启动读屏模式；

计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行播放与图像的语义描述信息相匹配的提示音频时，具体执行如下步骤：

在读屏模式下，播放与图像的语义描述信息相匹配的提示音频。

在一种实现方式中，目标页面中还包含其他内容，其他内容包括以下至少一项：文本、富文本、图标；计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：

在一种实现方式中，目标页面中还包含操作信息，操作信息包括以下至少一项：操作者的信息、被操作的对象、被操作的对象的类型、操作项的信息、操作项被选中时呈现的反馈，以及操作信息引起目标页面产生的变化；计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：

在一种实现方式中，目标页面是指目标应用程序中的任一服务页面；目标应用程序支持读屏模式，并提供读屏模式的入口；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行启动读屏模式时，具体执行如下步骤：

当读屏模式的入口被触发时，启动读屏模式；

在一种实现方式中，若目标页面是第一页面，图像是第一页面中的原生图像且不支持编辑；则计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

在加载第一页面的过程中，获取图像的语义描述信息；

在一种实现方式中，若目标页面是第二页面，图像是通过编辑操作被添加至第二页面中的；则计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

当在第二页面添加图像时，获取图像的语义描述信息；

在一种实现方式中，语义描述信息包括对图像呈现出的目标颜色的描述信息；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

从图像中识别出S种颜色，S为大于1的整数；

获取S种颜色中每种颜色的像素数量以及饱和度；

生成用于描述目标颜色的描述信息。

在一种实现方式中，语义描述信息包括对图像包含的文字内容的描述信息；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

对图像进行预处理；

对预处理后的图像进行图像特征提取，得到图像特征；

生成用于描述图像所包含的文字内容的描述信息。

在一种实现方式中，语义描述信息包括对图像的来源的描述信息及对图像的作者的描述信息；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

获取图像的来源；

在一种实现方式中，语义描述信息包括对图像中包含的对象的描述信息及对图像中包含的对象所执行的行为的描述信息；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取图像的语义描述信息时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行播放与图像的语义描述信息相匹配的提示音频时，具体执行如下步骤：

将图像的语义描述信息按照模板化的形式处理为模板文本；

将模板文本写入至隐藏的文档对象节点中；

播放提示音频。

在一种实现方式中，目标页面采用Canvas方式进行渲染；计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：

将Canvas节点内的内容写入至隐藏的文档对象节点中；

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：

监听Canvas节点上的操作事件及操作事件的反馈结果；

将操作事件和反馈结果写入至隐藏的文档对象节点中；

本申请实施例中，对于显示的目标页面，如果该目标页面中包含图像，则处理器1401可以获取该图像的语义描述信息，进而播放与该图像的语义描述信息相匹配的提示音频。上述方案中，语义描述信息可以从语义上对图像所表达的内容进行描述，该语义描述信息再被转换成相匹配的提示音频进行播报，这就实现了对目标页面中的图像(非文本内容)进行有效读屏，提高了页面信息读取的完整性；另外，通过播放提示音频就可以较为准确、完整地表达出图像所表达的内容，从而辅助对图像的语义进行理解，这样就可以在对目标页面进行读屏的过程中提供更为丰富的页面信息，提高页面读屏处理的智能性。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述页面处理方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种页面处理方法，其特征在于，包括：

显示目标页面；

若所述目标页面中包含图像，则获取所述图像的语义描述信息；

播放与所述图像的语义描述信息相匹配的提示音频。

2.如权利要求1所述的方法，其特征在于，所述图像的语义描述信息用于从语义上对所述图像进行描述；

所述语义描述信息包括以下至少一项：对所述图像呈现出的目标颜色的描述信息，对所述图像包含的文字内容的描述信息，对所述图像的来源的描述信息，对所述图像的作者的描述信息，对所述图像中包含的对象的描述信息，以及对所述图像中包含的对象所执行的行为的描述信息；

所述提示音频用于提示以下至少一项：用于提示所述图像呈现出的目标颜色，用于提示所述图像包含的文字内容，用于提示所述图像的来源，用于提示所述图像的作者，用于提示所述图像中包含的对象，以及用于提示所述图像中包含的对象所执行的行为。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：启动读屏模式；

所述播放与所述图像的语义描述信息相匹配的提示音频，包括：在所述读屏模式下，播放与所述图像的语义描述信息相匹配的提示音频。

4.如权利要求3所述的方法，其特征在于，所述目标页面中还包含其他内容，所述其他内容包括以下至少一项：文本、富文本、图标；所述方法还包括：

在所述读屏模式下，按照所述目标页面中各内容的排列顺序，依次朗读与所述各内容相匹配的音频。

5.如权利要求3所述的方法，其特征在于，所述目标页面中还包含操作信息，所述操作信息包括以下至少一项：操作者的信息、被操作的对象、所述被操作的对象的类型、操作项的信息、所述操作项被选中时呈现的反馈，以及所述操作信息引起所述目标页面产生的变化；所述方法还包括：

在所述读屏模式下，将所述目标页面中的操作信息转换为操作音频进行播放输出。

6.如权利要求3所述的方法，其特征在于，所述目标页面是指目标应用程序中的任一服务页面；所述目标应用程序支持读屏模式，并提供读屏模式的入口；所述启动读屏模式，包括：

当所述读屏模式的入口被触发时，启动读屏模式；

其中，所述读屏模式的入口包括以下任一项：按键、图标、菜单项、语音口令。

7.如权利要求1所述的方法，其特征在于，若所述目标页面是第一页面，所述图像是所述第一页面中的原生图像且不支持编辑；则所述获取所述图像的语义描述信息，包括：

在加载所述第一页面的过程中，获取所述图像的语义描述信息；

其中，所述第一页面包括以下任一种：网页、应用程序的服务页面、小程序的页面、多媒体播放页面。

8.如权利要求1所述的方法，其特征在于，若所述目标页面是第二页面，所述图像是通过编辑操作被添加至所述第二页面中的；则所述获取所述图像的语义描述信息，包括：

当在所述第二页面添加所述图像时，获取所述图像的语义描述信息；

其中，所述第二页面包括以下任一种：文档编辑页面、在线文档编辑页面、社交会话页面。

9.如权利要求1或2所述的方法，其特征在于，所述语义描述信息包括对所述图像呈现出的目标颜色的描述信息；所述获取所述图像的语义描述信息，包括：

从所述图像中识别出S种颜色，S为大于1的整数；

获取所述S种颜色中每种颜色的像素数量以及饱和度；

分别将每一种颜色的像素数量与饱和度相乘，得到所述每一种颜色的颜色分值；

将所述S种颜色中最大颜色分值所对应的颜色确定为所述图像的目标颜色；

生成用于描述所述目标颜色的描述信息。

10.如权利要求1或2所述的方法，其特征在于，所述语义描述信息包括对所述图像包含的文字内容的描述信息；所述获取所述图像的语义描述信息，包括：

对所述图像进行预处理；

对预处理后的图像进行图像特征提取，得到图像特征；

采用分类器对所述图像特征进行分类处理，以识别出所述图像包含的文字内容；

生成用于描述所述图像所包含的文字内容的描述信息。

11.如权利要求1或2所述的方法，其特征在于，所述语义描述信息包括对所述图像的来源的描述信息及对所述图像的作者的描述信息；所述获取所述图像的语义描述信息，包括：

获取所述图像的来源；

若所述图像的来源指示所述图像来自于本地空间，则从所述本地空间中读取所述图像的作者；

若所述图像的来源指示所述图像来自于网络文件，则获取所述图像的链接，并根据所述链接读取所述图像的作者；

生成所述对所述图像的来源的描述信息以及对所述图像的作者的描述信息。

12.如权利要求1或2所述的方法，其特征在于，所述语义描述信息包括对所述图像中包含的对象的描述信息及对所述图像中包含的对象所执行的行为的描述信息；所述获取所述图像的语义描述信息，包括：

调用视觉词表模型对所述图像进行对象识别处理，识别得到所述图像所包含的对象及所述对象关联的行为句式；

生成对所述图像中包含的对象的描述信息，以及，根据所述对象及所述对象关联的行为句式，生成对所述图像中包含的对象所执行的行为的描述信息。

13.如权利要求1或2所述的方法，其特征在于，所述播放与所述图像的语义描述信息相匹配的提示音频，包括：

为所述目标页面创建一个隐藏的文档对象节点，并为所述隐藏的文档对象节点设置辅助属性；

将所述图像的语义描述信息按照模板化的形式处理为模板文本；

将所述模板文本写入至所述隐藏的文档对象节点中；

在监听到写入操作时，为写入的所述模板文本匹配所述提示音频；以及，

播放所述提示音频。

14.如权利要求1所述的方法，其特征在于，所述目标页面采用Canvas方式进行渲染；所述方法还包括：

将Canvas节点内的内容写入至所述隐藏的文档对象节点中；

在监听到写入操作时，为写入的所述内容匹配内容音频；以及播放所述内容音频。

15.如权利要求14所述的方法，其特征在于，所述方法还包括：

监听所述Canvas节点上的操作事件及所述操作事件的反馈结果；

将所述操作事件和所述反馈结果写入至所述隐藏的文档对象节点中；

在监听到写入操作时，为写入的所述操作事件和所述反馈结果匹配操作音频；以及播放所述操作音频。

16.一种页面处理装置，其特征在于，包括：

显示单元，用于显示目标页面；

处理单元，用于若所述目标页面中包含图像，则获取所述图像的语义描述信息；

所述处理单元，还用于播放与所述图像的语义描述信息相匹配的提示音频。

17.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-15任一项所述的页面处理方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-15任一项所述的页面处理方法。