CN110572716B

CN110572716B - 多媒体数据播放方法、装置及存储介质

Info

Publication number: CN110572716B
Application number: CN201910927850.9A
Authority: CN
Inventors: 平思嘉; 沈艳慧; 张仁寿; 贝俊达; 梁志杰; 徐子闻; 林婧; 周文翊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-05-17
Anticipated expiration: 2039-09-27
Also published as: CN110572716A

Abstract

本申请公开了一种多媒体数据播放方法、装置及存储介质，属于计算机技术领域。该方法包括：基于播放界面播放多媒体数据，并显示多媒体数据的评论信息；在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点；将多媒体数据从第一播放时间点跳转至第二播放时间点。仅通过触发对多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的播放时间点，从该播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。

Description

多媒体数据播放方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种多媒体数据播放方法、装置及存储介质。

背景技术

随着计算机技术的快速发展和用户的娱乐需求的日益提升，多种类型的多媒体数据在互联网中广泛传播，如视频数据、音频数据等，播放多媒体数据已成为人们常用的一种功能。

相关技术中，终端基于播放界面播放多媒体数据。并且，播放界面中包括时间轴，时间轴上设置有用于表示当前播放进度的进度条。用户需要将多媒体数据跳转至目标播放时间点时，手动将该进度条拖动到目标播放时间点的位置即可。

但是，用户的手动操作存在误差，可能会将进度条拖动到目标播放时间点的位置附近，但无法准确地拖动到目标播放时间点，导致定位的播放时间点错误，定位精确度低。

发明内容

本申请实施例提供了一种多媒体数据播放方法、装置及存储介质，能够避免定位的播放时间点错误的问题，提高了定位精确度。所述技术方案如下：

一方面，提供了一种多媒体数据播放方法，所述方法包括：

基于播放界面播放多媒体数据，并显示所述多媒体数据的评论信息；

在所述多媒体数据的第一播放时间点检测到对所述评论信息的跳转操作时，获取所述评论信息关联的第二播放时间点；

将所述多媒体数据从所述第一播放时间点跳转至所述第二播放时间点。

另一方面，提供了一种多媒体数据播放装置，所述装置包括：

显示模块，用于基于播放界面播放多媒体数据，并显示所述多媒体数据的评论信息；

时间点获取模块，用于在所述多媒体数据的第一播放时间点检测到对所述评论信息的跳转操作时，获取所述评论信息关联的第二播放时间点；

跳转模块，用于将所述多媒体数据从所述第一播放时间点跳转至所述第二播放时间点。

可选地，所述显示模块，用于基于所述播放界面，显示返回选项；

所述跳转模块，用于当检测到对所述返回选项的触发操作时，将所述多媒体数据从所述第二播放时间点跳转至所述第一播放时间点。

可选地，所述时间点获取模块，包括：

第一查询单元，用于查询评论信息与播放时间点的关联关系，得到所述评论信息关联的播放时间点，作为所述第二播放时间点；或者，

所述多媒体数据为视频数据，第二查询单元，用于查询评论信息与视频帧的关联关系，得到所述评论信息关联的视频帧，将所述视频帧对应的播放时间点确定为所述第二播放时间点。

可选地，所述装置还包括：

第一建立模块，用于当所述评论信息中包括用于指示播放时间点的词汇时，建立所述评论信息与所述词汇指示的播放时间点的关联关系。

可选地，所述第一建立模块，还用于：

当所述评论信息中包括用于指示播放时间点的词汇，且所述播放时间点位于所述多媒体数据的起始时间点和终止时间点之间时，建立所述评论信息与所述词汇指示的播放时间点的关联关系。

可选地，所述装置还包括：

集合获取模块，用于获取所述多媒体数据的信息集合，所述信息集合中包括至少一条文本信息及每条文本信息对应的播放时间点，且所述每条文本信息与所述多媒体数据中对应播放时间点的语音信息匹配；

所述第一建立模块，还用于当所述评论信息与所述信息集合中任一条文本信息的相似度大于预设相似度时，建立所述评论信息与所述任一条文本信息对应的播放时间点的关联关系。

可选地，所述装置还包括：

分词模块，用于对所述评论信息进行分词，得到所述评论信息的至少一个词汇；

所述分词模块，还用于对于所述信息集合中的每条文本信息，对所述文本信息进行分词，得到所述文本信息的至少一个词汇；

第一相似度获取模块，用于根据所述评论信息的至少一个词汇和所述文本信息的至少一个词汇，获取所述评论信息与所述文本信息的相似度。

可选地，所述多媒体数据为视频数据，所述集合获取模块还用于从所述视频数据中提取每个视频帧包含的字幕信息以及所述每个视频帧对应的播放时间点；或者，

所述多媒体数据为音频数据，所述集合获取模块还用于从所述音频数据中提取每帧音频数据包含的文本信息以及所述每帧音频数据对应的播放时间点。

可选地，所述装置还包括：

视频帧获取模块，用于获取所述视频帧数据包括的多个视频帧；

第二建立模块，用于当所述评论信息与所述多个视频帧中的任一个视频帧的相似度大于预设相似度时，建立所述评论信息与所述任一个视频帧的关联关系。

可选地，所述装置还包括：

语义特征确定模块，用于对所述评论信息进行分词，得到所述评论信息的至少一个词汇，根据所述至少一个词汇确定所述评论信息的第一语义特征；

所述语义特征确定模块，还用于对于所述多个视频帧中的每个视频帧，基于特征提取模型，得到所述视频帧的第二语义特征；

第二相似度获取模块，用于根据所述第一语义特征和所述第二语义特征，获取所述评论信息和所述视频帧的相似度。

另一方面，提供了一种多媒体数据播放装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如所述多媒体数据播放方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如所述多媒体数据播放方法。

本申请实施例提供的多媒体数据播放方法、装置及存储介质，基于播放界面播放多媒体数据，并显示多媒体数据的评论信息，在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点，将多媒体数据从第一播放时间点跳转至第二播放时间点。提供了一种定位播放时间点的方式，仅通过触发对多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的播放时间点，从该播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。

并且，通过建立评论信息与多媒体数据的播放时间点的关联关系，可以确定多媒体的评论信息关联的任一播放时间点对应的多媒体数据，该任一播放时间点对应的多媒体数据即为发布评论信息的用户所关注的关键数据。或者通过建立评论信息与多媒体数据的视频帧的关联关系，可以确定多媒体数据的评论信息关联的视频帧，该视频帧即为发布评论信息的用户所关注的关键数据。多个用户可以从多个角度对多媒体数据进行评价，发布多个评论信息，通过多个评论信息可以获取多媒体数据中更多的关键数据，则播放该多媒体数据的用户可以通过任一评论信息跳转至对应的关键数据，使播放多媒体数据的过程更加智能化。

并且，将多媒体数据从第一播放时间点跳转至第二播放时间点后，还可以在播放界面中显示返回选项，当检测到对返回选项的触发操作时，将多媒体数据从第二播放时间点跳转至第一播放时间点，当用户对第二播放时间点的多媒体数据不感兴趣时，可以通过触发返回选项回到第一播放时间点的多媒体数据，充分为用户考虑，简化了操作，使播放多媒体数据的过程更加智能化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种建立关联关系的方法流程图；

图3是本申请实施例提供的一种视频帧的界面图；

图4是本申请实施例提供的一种识别文本信息的方法流程图；

图5是本申请实施例提供的一种对评论信息分词的方法的流程图；

图6是本申请实施例提供的一种建立弹幕信息与播放时间点的关联关系的流程图；

图7是本申请实施例提供的一种建立关联关系的方法流程图；

图8是本申请实施例提供的一种多媒体数据播放方法的流程图；

图9是本申请实施例提供的一种播放界面的示意图；

图10是本申请实施例提供的一种播放界面的示意图；

图11是本申请实施例提供的一种显示跳转按钮的界面示意图；

图12是本申请实施例提供的一种显示跳转按钮的界面示意图；

图13是本申请实施例提供的一种播放界面示意图；

图14是本申请实施例提供的一种显示返回选项的界面示意图；

图15是本申请实施例提供的一种多媒体数据播放装置的结构示意图；

图16是本申请实施例提供的另一种多媒体数据播放装置的结构示意图；

图17是本申请实施例提供的一种终端的结构示意图；

图18是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例采用NLP(Natural Language Processing，自然语言处理)技术进行处理。该自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是一门融合语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供了一种多媒体数据播放方法，能够在检测到对评论信息的跳转操作时，跳转至该评论信息关联的播放时间点。

本申请实施例提供的方法，可以应用于视频播放场景中，终端在播放界面中播放视频数据，且在该播放界面中显示观看该视频数据的用户对该视频数据的评论信息，采用本申请实施例提供的方法，可以确定评论信息与该视频数据关联的播放时间点，当用户对该评论信息执行跳转操作时，终端即可跳转到该评论信息关联的播放时间点，从该播放时间点开始播放。

或者，本申请实施例提供的方法，可以应用于音频播放场景中，终端在播放界面中播放音频数据，且在该播放界面中显示用户对该音频数据的评论信息，采用本申请实施例提供的方法，可以确定评论信息与该音频数据关联的播放时间点，当用户对该评论信息执行跳转操作时，终端即可跳转到该评论信息关联的播放时间点，从该播放时间点开始播放。

或者，本申请实施例提供的方法，可以应用于直播场景中，在任一用户使用终端进行直播的过程中，以该终端开始直播的时间点作为起始时间点，将该终端的直播数据进行缓存，且在播放界面中不仅会显示该直播数据，还会显示其他用户的评论信息，采用本申请实施例提供的方法，即可确定评论信息与历史直播数据关联的播放时间点，当其他用户对该评论信息执行跳转操作时，终端即可跳转到该历史直播数据对应的播放时间点，从该播放时间点开始播放历史直播数据。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，本申请实施例中包括服务器101和多个终端102。

其中，服务器101可以一台服务器101，或者由若干服务器101组成的服务器101集群，或者是一个云计算服务中心。终端102可以为手机、平板电脑、个人计算机等。终端102可以基于用户标识登录服务器101，该用户标识用于表示唯一对应的用户，该用户标识可以为电话号码、用户昵称、用户账号等。

该服务器101用于存储至少一个多媒体数据，且终端102用于播放任一多媒体数据。其中，该多媒体数据可以为视频数据、音频数据或者其他类型的数据。当终端102播放任一多媒体数据时，可以发布用户对该多媒体数据的评论信息，该多媒体数据的评论信息用于表示用户对多媒体数据的评价。因此服务器101可以收集每个终端102对多媒体数据的评论信息，将收集的评论信息与多媒体数据对应存储，并且还可以将任一多媒体数据的评论信息提供给终端102。

其中，播放多媒体数据的过程包括：终端102接收服务器101发送的多媒体数据和多媒体数据的评论信息后，播放该多媒体数据，并在播放过程中显示多媒体数据的评论信息。

例如，终端102显示服务器101提供的多个多媒体数据标识，当终端102检测到对任一多媒体数据标识的触发操作时，向服务器101发送携带该多媒体数据标识的数据获取请求，当服务器101接收到终端102发送的数据获取请求时，将该多媒体数据标识对应的多媒体数据和该多媒体数据的评论信息发送给终端102，终端102接收到多媒体数据和该多媒体数据的评论信息后，即可播放该多媒体数据，并在播放过程中显示多媒体数据的评论信息。

另外，发布评论信息的过程包括：终端102播放多媒体数据的过程中，获取用户输入的评论信息，该评论信息表示了用户对该多媒体数据的评价。终端102向服务器101发送评论发布请求，该评论发布请求中包括评论信息和多媒体数据标识，当服务器101接收到该评论发布请求后，将评论信息和多媒体数据标识对应存储。

在上述实施环境的基础上，图2是本申请实施例提供的一种建立关联关系的方法流程图。参见图2，该方法应用于终端中，该方法包括：

201、获取多媒体数据的评论信息。

本申请实施例对终端建立多媒体数据的评论信息与播放时间点的关联关系的过程进行说明。

在一种可能实现方式中，建立关联关系的过程在播放多媒体数据时执行。则终端开始播放多媒体数据时，执行本申请实施例提供的方法。

在另一种可能实现方式中，建立关联关系的过程在播放多媒体数据之前执行。终端预先针对任一多媒体数据，执行本申请实施例提供的方法。该多媒体数据可以为用户指定的多媒体数据，或者是服务器为终端推荐的多媒体数据等。

在本申请实施例中，服务器可以将任一多媒体数据下发给终端，也可以将该多媒体数据的评论信息下发给终端。

例如，服务器将多媒体数据标识与评论信息对应存储，在服务器为终端推荐任一多媒体数据标识时，向终端发送该多媒体数据标识对应评论信息。

需要说明的是，多媒体数据的评论信息包括一条或多条，本申请实施例仅是以一条评论信息为例，而每条评论信息建立关联关系的过程与此类似，本申请实施例中对此不再赘述。

202、获取多媒体数据的信息集合。

其中，该信息集合中包括至少一条文本信息及每条文本信息对应的播放时间点，且每条文本信息与多媒体数据中对应播放时间点的语音信息匹配。

该文本信息可以为多媒体数据中的字幕信息、由多媒体数据中的音频数据转换生成的文本信息、或者还可以为通过其他方式为多媒体数据生成的信息。

在一种可能实现方式中，该多媒体数据为视频数据，从视频数据中提取每个视频帧包含的字幕信息以及每个视频帧对应的播放时间点。其中，每个视频帧在视频数据中均对应一个播放时间点，因此，从视频帧中提取包含的字幕信息后，该字幕信息也对应所属视频帧的播放时间点。

在从视频数据中提取视频帧时，可以采用FFmpeg(一种开源跨平台的视频和音频流方案)从视频数据中提取视频帧。

可选地，提取该视频数据中的每个视频帧以及每个视频帧对应的播放时间点，对于该视频数据中的每个视频帧，基于文字检测模型，检测每个视频帧中的文字信息，将检测到的文字信息作为该视频帧的字幕信息，且每个视频帧中检测到的文字信息均对应该视频帧的播放时间点。

由于视频数据中的字幕信息均为白色字体，因此，该文字检测模型识别视频帧中颜色为白色的区域，根据识别出来的白色的区域确定视频帧中的字幕信息。例如，如图3所示，该视频数据中的一个视频帧中包含“就是你”的文本信息，通过文字检测模型即可识别出视频帧中的文本信息。

在另一种可能实现方式中，多媒体数据为音频数据，从音频数据中提取每帧音频数据包含的文本信息以及每帧音频数据对应的播放时间点。其中，从音频数据中提取每帧音频数据包含的文本信息时，采用语音识别算法，提取音频数据中的每帧音频数据，将提取的音频数据中的语音信息转换成文本信息，即可得到每帧音频数据包含的文本信息。

在一种可能实现方式中，当多媒体数据为视频数据，且该视频数据中不包括字幕信息时，可以从视频数据中提取音频数据，将该音频数据转换为文本信息，作为视频数据中的字幕信息。在另一种可能实现方式中，当多媒体数据为视频数据，且该视频数据中包括字幕信息时，直接将视频数据划分为视频帧，提取每个视频帧中的字幕信息，作为视频数据中的字幕信息。

在一种可能实现方式中，服务器根据多媒体数据获取信息集合，将信息集合发送给终端，或者服务器将多媒体数据发送给终端，由终端根据多媒体数据获取信息集合。

203、对于信息集合中的每条文本信息，对文本信息进行分词，得到文本信息的至少一个词汇。

该信息集合中的每条文本信息能够表示多媒体数据中对应播放时间点的多媒体数据，对于信息集合中的每条文本信息，对该文本信息进行分词，得到该文本信息的至少一个词汇，该至少一个词汇可以代表该文本信息的语义特征。

其中，在对文本信息进行分词的过程中，可以得到标注好词性的至少一个词汇，例如，将得到的词汇划分成专有名词、常用口语、动词、形容词等。

在一种可能实现方式中，对文本信息进行分词处理时，可以采用Jiaba(结巴)分词、NLTK(Natural Language Toolkit，自然语言工具)、LTP(Language TechnologyPlatform，语言技术平台)或者其他工具。

例如，如图4所示，当多媒体数据为视频数据时，通过调用图像识别接口，从该视频数据中提取视频帧，从而检测出视频帧中的文本信息，获取该视频帧的语义特征。

204、对评论信息进行分词，得到评论信息的至少一个词汇。

对该评论信息进行分词，可以得到该评论信息的至少一个词汇，该至少一个词汇可以代表该评论信息的语义特征。

其中，在对评论信息进行分词的过程中，可以得到标注好词性的至少一个词汇，例如，将得到的词汇划分成专有名词、常用口语、动词、形容词等。

在一种可能实现方式中，对评论信息进行分词处理时，可以采用Jiaba(结巴)分词、NLTK(Natural Language Toolkit，自然语言工具)、LTP(Language TechnologyPlatform，语言技术平台)或者其他工具。

例如，如图5所示，获取到评论信息后，即可对该评论信息进行分词，得到该评论信息的至少一个词汇。

205、根据文本信息的至少一个词汇和评论信息的至少一个词汇，获取评论信息与文本信息的相似度。

评论信息用于表示用户对媒体数据的评价，而文本信息用于表示在对应播放时间点上播放的多媒体数据，通过获取文本信息与评论信息之间的相似度，可以确定评论信息是否与对应播放时间点上播放的多媒体数据关联。

在一种可能实现方式中，获取文本信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该文本信息的第一向量，获取评论信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该评论信息的第二向量，获取该第一向量与第二向量之间的相似度，作为文本信息与评论信息之间的相似度。

在另一种可能实现方式中，获取文本信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该文本信息的第一向量，获取评论信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该评论信息的第二向量，计算该第一向量与第二向量的向量差，获取该向量差的模，采用该向量差的模表示文本信息与评论信息之间的相似度，该向量差的模与相似度呈负相关关系。

需要说明的是，本申请实施例仅是根据文本信息和评论信息中原始的词汇获取文本信息与评论信息之间的相似度为例。在另一实施例中，还可以根据评论信息和文本信息中原始的词汇进行扩展，得到相似词汇，将原始的词汇与相似词汇一起参与到获取相似度的过程中。

可选地，终端获取评论信息中的至少一个词汇的相似词汇，将评论信息中的至少一个词汇及对应的相似词汇组成第一词汇集合，获取文本信息中的至少一个词汇的相似词汇，将文本信息中的至少一个词汇及对应的相似词汇组成第二词汇集合，根据第一词汇集合和第二词汇集合获取文本信息与评论信息之间的相似度。

可选地，在步骤203和步骤204中，分别对文本信息和评论信息进行分词，得到文本信息的至少一个词汇和评论信息的至少一个词汇，且文本信息的至少一个词汇和评论信息的至少一个词汇中均可能包括专有名词，此时，根据数据库中存储的专有名词，可以得到与文本信息的专有名词和评论信息的专有名词相似的其他专有名词。并且，文本信息的至少一个词汇和评论信息的至少一个词汇中均可能包括动词，通过数据库中存储的动词，可以得到与文本信息或评论信息的动词相似的其他动词。

通过文本信息和评论信息的专有名词和动词的相似词汇获取文本信息和评论信息的相似度，可以包括以下任一项：

一、获取文本信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该文本信息的第一向量，获取评论信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该评论信息的第二向量，获取该第一向量与第二向量之间的相似度，作为文本信息与评论信息之间的第一相似度，将文本信息和评论信息中的专有名词和动词替换为相似词汇，获取替换后的文本信息中至少一个词汇的词向量的平均值，作为该文本信息的第三向量，获取替换后的评论信息中至少一个词汇的词向量的平均值，作为该评论信息的第四向量，获取该第三向量与第四向量之间的相似度，作为文本信息与评论信息之间的第二相似度，获取第一相似度和第二相似度的平均值，作为文本信息与评论信息的相似度。

二、获取文本信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该文本信息的第一向量，获取评论信息的至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，作为该评论信息的第二向量，计算该第一向量与第二向量的第一向量差，获取该第一向量差的模，将文本信息和评论信息中的专有名词和动词替换为相似词汇，获取替换后的文本信息中至少一个词汇的词向量的平均值，作为该文本信息的第三向量，获取替换后的评论信息中至少一个词汇的词向量的平均值，作为该评论信息的第四向量，计算该第三向量与第四向量的第二向量差，获取该第二向量差的模，获取第一向量差的模和第二向量差的模，作为文本信息与评论信息的差的模，采用该向量的模表示文本信息与评论信息之间的相似度，该向量差的模与相似度呈负相关关系。

三、将文本信息和评论信息中的专有名词和动词替换为相似词汇，获取替换后的文本信息中至少一个词汇的词向量的平均值，作为该文本信息的第三向量，获取替换后的评论信息中至少一个词汇的词向量的平均值，作为该评论信息的第四向量，获取该第三向量与第四向量之间的相似度，作为文本信息与评论信息之间的相似度。

四、将文本信息和评论信息中的专有名词和动词替换为相似词汇，获取替换后的文本信息中至少一个词汇的词向量的平均值，作为该文本信息的第三向量，获取替换后的评论信息中至少一个词汇的词向量的平均值，作为该评论信息的第四向量，计算该第三向量与第四向量的向量差，获取该向量差的模，采用该向量的模表示文本信息与评论信息之间的相似度，该向量差的模与相似度呈负相关关系。

本申请实施例中，由于文本信息和评论信息中的词汇可能表达相同的含义，也即是两个词汇相似，但是由于两个词汇不完全相同，所确定的词向量不同，可能会影响获取的相似度。而获取文本信息和评论信息中的词汇的相似词汇，将文本信息和评论信息中的词汇均替换为相似词汇，避免出现上述情况，可以提高相似度的准确性，保证后续建立的关联关系的准确性。

206、当评论信息与信息集合中任一条文本信息的相似度大于预设相似度时，建立评论信息与任一条文本信息对应的播放时间点的关联关系。

其中，评论信息和文本信息的相似度用于表示评论信息和文本信息之间的相似程度，该评论信息与文本信息的相似度越高，表示评论信息与文本信息越相似，该评论信息与文本信息的相似度越低，表示评论信息与文本信息越不相似。

在一种可能实现方式中，通过步骤205获取评论信息与信息集合中每个文本信息的相似度后，判断该评论信息与文本信息的相似度是否大于预设相似度，当评论信息与文本信息的相似度大于预设相似度时，表示该评论信息与文本信息越相似，建立该评论信息与文本信息对应的播放时间点的关联关系，而当评论信息与文本信息的相似度不大于预设相似度时，表示该评论信息与文本信息越不相似，不建立该评论信息与文本信息对应的播放时间点的关联关系。

其中，该预设相似度可以由终端设置，或者由开发人员设置。

在一种可能实现方式中，本申请实施例直接获取了评论信息与文本信息的相似度，当判断评论信息与文本信息的相似度是否大于预设相似度时，直接将评论信息与文本信息的相似度与预设相似度进行对比即可。

在另一种可能实现方式中，本申请实施例还可以计算评论信息与文本信息的向量差的模，采用该向量差的模表示文本信息与评论信息的相似度。由于向量差的模与相似度呈负相关关系，因此，当判断评论信息与文本信息的相似度是否大于预设相似度时，设置与预设相似度对应的预设数值，当向量差的模小于预设数值时，表示评论信息与文本信息相似，而当向量差的模不小于预设数值时，表示评论信息与文本信息不相似。

建立评论信息与相似度较大的文本信息对应的播放时间点的关联关系后，后续过程中如果用户对评论信息感兴趣，则用户可以触发对该评论信息的跳转操作，此时终端检测到对该评论信息的跳转操作，获取该评论信息关联的播放时间点，将多媒体数据跳转至该播放时间点，开始播放该多媒体数据，用户即可观看与评论信息关联的播放时间点对应的多媒体数据。

在一种可能实现方式中，当存在与评论信息相似的两个或两个以上文本信息时，获取相似度最大的文本信息，建立评论信息与该文本信息对应的播放时间点的关联关系。

在另一种可能实现方式中，当存在与评论信息相似的两个或两个以上文本信息时，从这两个或两个以上的文本信息中，获取播放时间点与当前播放时间点最近的文本信息，建立评论信息与该文本信息对应的播放时间点的关联关系。

图6是本申请实施例提供的一种建立弹幕信息与播放时间点的关联关系的流程图。参见图6，当多媒体数据为视频数据时，任一用户发送一条弹幕信息，获取视频数据中的视频帧，对视频帧进行文字检测，得到视频帧中的文本信息，获取弹幕信息与文本信息的相似度，根据相似度确定弹幕信息与视频数据中该文本信息所在的视频帧匹配，建立弹幕信息与视频数据中的视频帧对应的播放时间点的关联关系，根据相似度确定弹幕信息与视频数据中该文本信息所在的视频帧不匹配，不建立弹幕信息与视频数据中的视频帧对应的播放时间点的关联关系。

需要说明的第一点是，本申请实施例仅是以获取信息集合，根据信息集合中的文本信息与评论信息的相似度建立评论信息与文本信息的关联关系为例进行说明。在另一实施例中，无需执行步骤202-203及步骤205-206，仅需在步骤204之后，检测评论信息中是否包含用于指示播放时间点的词汇，当评论信息中包括用于指示播放时间点的词汇时，建立评论信息与词汇指示的播放时间点的关联关系。

在一种可能实现方式中，由于评论信息中的播放时间可能会超出多媒体数据的终止播放时间点，因此，当评论信息中包括用于指示播放时间点的词汇，且播放时间点位于多媒体数据的起始时间点和终止时间点之间时，建立评论信息与该词汇指示的播放时间点的关联关系。而当播放时间点没有位于多媒体数据的起始时间点和终止时间点之间时，不建立评论信息与该词汇指示的播放时间点的关联关系。

需要说明的第二点是，本申请实施例仅是以终端为执行主体为例进行说明。在另一实施例中，还可以以服务器为执行主体，由服务器执行步骤201-206，建立评论信息与文本信息对应的播放时间点的关联关系后存储于本地，或者，还可以将该关联关系发送给终端，由终端存储。

本申请实施例提供的方法，获取多媒体数据的评论信息和信息集合，该信息集合中包括至少一条文本信息及每条文本信息对应的播放时间点，且每条文本信息与多媒体数据中对应播放时间点的语音信息匹配，当评论信息与信息集合中任一条文本信息的相似度大于预设相似度时，建立评论信息与任一条文本信息对应的播放时间点的关联关系。后续过程中仅通过触发对多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的播放时间点，从该播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。并且，通过对文本信息和评论信息进行分词，根据文本信息的至少一个词汇和评论信息的至少一个词汇，获取评论信息和文本信息的相似度，提高了相似度的准确性。

并且，通过建立评论信息与多媒体数据的播放时间点的关联关系，可以通过多媒体的评论信息关联任一播放时间点对应的多媒体数据，该任一播放时间点对应的多媒体数据即为发布评论信息的用户所关注的关键数据。并且，多个用户可以从多个角度对多媒体数据进行评价，发布多个评论信息，则通过多个评论信息可以获取多媒体数据中更多的关键数据，则播放该多媒体数据的用户可以通过任一评论信息跳转至对应的关键数据，使播放多媒体数据的过程更加智能化。

在上述实施环境的基础上，图7是本申请实施例提供的一种建立关联关系的方法流程图。参见图7，该方法应用于终端中，该方法包括：

701、获取多媒体数据的评论信息。

其中，步骤701中获取评论信息的过程与上述步骤201类似，在此不再赘述。

702、获取多媒体数据的多个视频帧。

其中，该多媒体数据为视频数据，该视频数据中包括多个视频帧。

由于视频数据中的多个视频帧可以具有不同的画面，因此，获取到视频数据后，从该视频数据中提取该多个视频帧，后续根据该多个视频帧，即可确定与该多个视频帧匹配的评论信息。

703、对评论信息进行分词，得到评论信息的至少一个词汇，根据至少一个词汇确定评论信息的第一语义特征。

其中，步骤703中对评论信息进行分词的过程与上述步骤204类似，在此不再赘述。

例如，获取到评论信息的至少一个词汇后，获取该至少一个词汇的词向量，计算该至少一个词汇的词向量的平均值，将计算得到的平均值作为该评论信息的第一语义特征。

704、对于多个视频帧中的每个视频帧，基于特征提取模型，得到该视频帧的第二语义特征。

由于该多个视频帧中的每个视频帧的画面可能不同，例如，该多个视频帧中可以包括以河流为背景的图像、以山川为背景的图像、动物运动的图像等。因此，获取该多个视频帧中每个视频帧的第二语义特征，采用该第二语义特征即可表示对应的视频帧的画面。

其中，该特征提取模型用于根据任一视频帧的画面，获取该任一视频帧的语义特征。

在一种可能实现方式中，该特征提取模型可以为卷积神经网络模型、全卷积神经网络模型或者为其他模型等。

对于该多个视频帧中的每个视频帧，将该视频帧输入至特征提取模型中，该特征提取模型即可输出该视频帧的第二语义特征，后续根据获取的第二语义特征确定与该视频帧匹配的评论信息。

705、根据第一语义特征和第二语义特征，获取评论信息和视频帧的相似度。

评论信息用于表示用户对视频数据的评价，而视频帧属于视频数据的一部分，因此，获取评论信息的第一语义特征与视频帧的第二语义特征的相似度，获取的相似度即可表示评论信息和视频帧的相似度，根据该相似度即可确定评论信息是否与视频帧关联。

当评论信息与视频帧的相似度越高时，表示评论信息与视频帧的关联性越高，而当评论信息与视频帧的相似度越低时，表示评论信息与视频帧的关联性越低。

在一种可能实现方式中，第一语义特征与第二语义特征的相似度可以采用余弦相似度、杰卡德相似度、欧式距离等参数来表示。

706、当评论信息与多个视频帧中的任一个视频帧的相似度大于预设相似度时，建立评论信息与任一个视频帧的关联关系。

在一种可能实现方式中，通过步骤705获取评论信息与视频帧的相似度后，判断该评论信息与视频帧的相似度是否大于预设相似度，当评论信息与视频帧的相似度大于预设相似度时，表示该评论信息与视频帧相似，则建立该评论信息与视频帧的关联关系，当评论信息与视频帧的相似度不大于预设相似度时，表示该评论信息与视频帧不相似，则不建立评论信息与视频帧的关联关系。

需要说明的是，本申请实施例直接获取评论信息与视频帧的相似度。而在另一种可能实现方式中，本申请实施例还可以计算评论信息与视频帧的向量差的模，采用该向量差的模表示视频帧与评论信息的相似度。由于向量差的模与相似度呈负相关关系，因此，当判断评论信息与视频帧的相似度是否大于预设相似度时，设置与预设相似度对应的预设数值，当向量差的模小于预设数值时，表示评论信息与视频帧相似，而当向量差的模不小于预设数值时，表示评论信息与视频帧不相似。

建立评论信息与相似度较大的视频帧的关联关系后，后续过程中如果用户对评论信息感兴趣，则用户可以触发对该评论信息的跳转操作，此时终端检测到对该评论信息的跳转操作，获取该评论信息关联的视频帧，将多媒体数据跳转至该视频帧，以该视频帧为起点开始播放多媒体数据。

在一种可能实现方式中，当存在与评论信息相似的两个或两个以上视频帧时，获取相似度最大的视频帧，建立评论信息与该视频帧的关联关系。

在另一种可能实现方式中，当存在与评论信息相似的两个或两个以上视频帧时，从这两个或两个以上的视频帧中，获取播放时间点与当前播放时间点最近的视频帧，建立评论信息与该视频帧的关联关系。

需要说明的是，本申请实施例仅是以终端为执行主体为例进行说明。在另一实施例中，还可以以服务器为执行主体，由服务器执行步骤701-706，建立评论信息与视频帧的关联关系后存储于本地，或者，还可以将该关联关系发送给终端，由终端存储。

本申请实施例提供的方法，获取多媒体数据的评论信息和多个视频帧，当评论信息与任一视频帧的相似度大于预设相似度时，建立该评论信息与该任一视频帧的关联关系，表示评论信息与视频帧的画面关联。后续过程中，仅通过触发对该多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的视频帧对应的播放时间点，从该视频帧对应的播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。

另外，需要补充的是，上述图2所示实施例和图7所示实施例中分别建立了评论信息与播放时间点的关联关系，以及评论信息与视频帧的关联关系。而对于同一条评论信息来说，可以建立上述两种关联关系，或者仅建立其中一种关联关系。

例如，可以以评论信息中是否包括用于指示播放时间点的词汇作为判断标准，当评论信息中包括用于指示播放时间点的词汇时，建立该评论信息与该词汇指示的播放时间点的关联关系，而当评论信息中不包括用于指示播放时间点的词汇时，建立该评论信息与视频帧的关联关系。

图8是本申请实施例提供的一种多媒体数据播放方法的流程图。参见图8，应用于终端，该方法包括：

801、基于播放界面播放多媒体数据，并显示多媒体数据的评论信息。

其中，该播放界面为用于播放多媒体数据的界面。

在一种可能实现方式中，终端安装有应用程序，当终端运行该应用程序时，显示该应用程序的主界面，在该应用程序的主界面中显示至少一个多媒体数据标识，当检测到对任一个多媒体数据标识的触发操作时，终端由主界面切换至播放界面，在该播放界面中播放该多媒体数据标识对应的多媒体数据。

可选地，当终端显示应用程序的主界面时，在该主界面中显示预览显示区域，在该预览显示区域中可以播放任一个多媒体数据。

其中，该应用程序可以为视频播放应用程序、音频播放应用程序、直播应用程序或者还可以为浏览器应用程序，或者还可以为其他类型的应用程序。

终端基于播放界面播放多媒体数据时，不仅播放该多媒体数据，还可以显示多媒体数据的评论信息。

播放多媒体数据的过程中，终端的用户也可以在终端上输入评论信息，发表自己对多媒体数据的观点。终端将评论信息发送给服务器，则服务器可以收集每个终端对多媒体数据的评论信息，且还会将收集到的评论信息发送给播放该多媒体数据的每个终端，由每个终端进行显示。另外，服务器还会存储每个终端发送的评论信息，后续当任一终端播放多媒体数据时，服务器将存储的评论信息发送给该终端，由该终端显示接收的评论信息。

另外，当终端基于播放界面显示评论信息时，可以以不同的形式显示评论信息。

在一种可能实现方式中，该评论信息悬浮显示于播放界面的上层，且该评论信息可以位于播放界面的上部、中部、下部中的至少一部分。且该评论信息可以在该播放界面中从右向左移动或者从上向下移动或者从下向上移动。

当评论信息在播放界面中从右向左移动时，该评论信息从播放界面的右侧边缘逐渐出现，且逐渐向左侧移动，当移动到播放界面的左侧边缘时，逐渐消失。或者，当评论信息在播放界面中从上向下移动时，该评论信息从播放界面的上侧边缘逐渐出现，且逐渐向下侧移动，当移动到播放界面的下侧边缘时，逐渐消失。或者，当评论信息在播放界面中从下向上移动时，该评论信息从播放界面的下侧边缘逐渐出现，且逐渐向上侧移动，当移动到播放界面的上侧边缘时，逐渐消失。

例如，如图9所示，该多媒体数据中的评论信息可以为弹幕信息。该弹幕信息在播放界面中滑动显示，由播放界面的一侧逐渐出现，在另一侧逐渐消失。

并且，由于评论信息悬浮显示于播放界面中，为了防止评论信息对播放的多媒体数据产生影响，终端还可以调整该评论信息的透明度，按照调整后的透明度在播放界面中显示。

在另一种可能实现方式中，终端的播放界面包括第一显示区域和第二显示区域，该第一显示区域用于显示播放的多媒体数据，该第二显示区域用于显示用户的评论信息，第一显示区域与第二显示区域不同。例如，如图10所示，播放界面的上部区域为第一显示区域，用于播放多媒体数据，播放界面的下部区域为第二显示区域，用于显示评论信息。

当终端在该第二显示区域中显示该多媒体数据的评论信息时，该评论信息显示的方式与上述在播放界面中显示的方式类似，在此不再赘述。

在一种可能实现方式中，在已经建立评论信息与播放时间点的关联关系的基础上，终端还可以显示该评论信息对应的跳转按钮，且跳转操作为对跳转按钮的触发操作。则当在第一播放时间点终端检测到对跳转按钮的触发操作时，确定检测到对评论信息的跳转操作，获取该评论信息关联的第二播放时间点。

可选地，终端在显示评论信息的过程中，当评论信息存在关联的播放时间点时，显示该评论信息对应的跳转按钮。而当评论信息不存在关联的播放时间点时，仅显示该评论信息，不显示该评论信息对应的跳转按钮。

例如，如图11所示，由于仅有“想去这个地方”的评论信息具有关联的播放时间点，因此显示该评论信息时，还显示“去围观”的跳转按钮。

可选地，终端显示每条评论信息对应的跳转按钮。当评论信息存在关联的播放时间点时，该评论信息对应的跳转按钮处于可触发状态，而当评论信息不存在关联的播放时间点时，该评论信息对应的跳转按钮处于不可触发状态。

例如，如图12所示，在播放界面中均显示评论信息的“去围观”的跳转按钮，但是仅有“想去这个地方”的评论信息具有关联的播放时间点，因此仅有该评论信息的跳转按钮处于因处于可触发状态。

802、在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点。

终端基于多媒体数据的播放时间点播放该多媒体数据，当检测到对评论信息的跳转操作时，当前播放多媒体数据的播放时间点为第一播放时间点，获取的评论信息关联的播放时间点为第二播放时间点。

其中，该跳转操作可以为对评论信息的点击操作、双击操作、长按操作等。

在一种可能实现方式中，在已经建立评论信息与播放时间点的关联关系的基础上，且在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，查询评论信息与播放时间点的关联关系，得到评论信息关联的播放时间点，作为第二播放时间点。

由于在图2的实施例中已经建立了评论信息与播放时间点的关联关系，因此，终端可以获取已建立的关联关系，当检测到对评论信息的跳转操作后，查询该关联关系，获取该评论信息关联的第二播放时间点。

在另一种可能实现方式中，在没有建立评论信息与播放时间点的关联关系的基础上，在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，可以执行上述步骤201-205，获取到评论信息与至少一个文本信息的相似度，将与评论信息的相似度大于预设相似度的文本信息对应的播放时间点作为该评论信息关联的播放时间点。

在另一种可能实现方式中，当终端检测到对评论信息的跳转操作时，在播放界面中显示确认窗口，当终端通过该确认窗口检测到用户的确认操作时，获取评论信息对应的第二播放时间点。而当终端通过确认窗口检测到用户的否定操作时，则关闭确认窗口，不执行获取评论信息对应的第二播放时间点的操作，继续从第一播放时间点播放该多媒体数据。

可选地，当多媒体数据为视频数据时，当终端检测到对评论信息的跳转操作时，还可以获取该评论信息关联的视频帧，将该视频帧对应的播放时间点作为第二播放时间点。

在一种可能实现方式中，在已经建立评论信息与视频帧的关联关系的基础上，当在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，查询评论信息与视频帧的关联关系，得到评论信息关联的视频帧，将该视频帧对应的播放时间点作为第二播放时间点。

在另一种可能实现方式中，在没有建立评论信息与播放时间点的关联关系的基础上，当在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，可以执行上述步骤701-705，获取评论信息与多个视频帧的相似度，将与评论信息的相似度大于预设相似度的视频帧作为该评论信息关联的视频帧，将该视频帧对应的播放时间点作为第二播放时间点。

在另一种可能实现方式中，当终端检测到对评论信息的跳转操作时，在播放界面中显示确认窗口，当终端通过该确认窗口检测到用户的确认操作时，获取评论信息关联的视频帧。而当终端通过确认窗口检测到用户的否定操作时，则关闭确认窗口，不执行获取评论信息关联的视频帧的步骤，继续从第一播放时间点播放该多媒体数据。

本申请实施例通过跳转到评论信息关联的视频帧对应的播放时间点，从而展示了与该评论信息关联的视频画面，从用户的角度来讲，用户只需触发对评论信息的跳转操作，即可跳转到关联的视频画面，从而观看该视频画面，操作简便快捷。

需要说明的是，本申请实施例中，可以直接获取评论信息关联的播放时间点或者获取评论信息关联的视频帧后再获取对应的播放时间点。在另一实施例中，可以以评论信息中是否包括用于指示播放时间点的词汇作为判断标准，当评论信息中包括用于指示播放时间点的词汇时，可以将该词汇指示的播放时间点作为评论信息关联的第二播放时间点，而当评论信息中不包括用于指示播放时间点的词汇时，获取该评论信息关联的视频帧，将该视频帧对应的播放时间点作为第二播放时间点。

在另一实施例中，在已经获取到评论信息关联的播放时间点和视频帧的情况下，也可以获取评论信息关联的播放时间点与评论信息当前所在的第一播放时间点的时间差，以及评论信息关联的视频帧对应的播放时间点与该第一播放时间点的时间差，选取时间差较小的播放时间点作为第二播放时间点。

803、将多媒体数据从第一播放时间点跳转至第二播放时间点。

终端在第一播放时间点播放该多媒体数据，获取到评论信息对应的第二播放时间点后，即可将多媒体数据从第一播放时间点跳转至第二播放时间点，从该第二播放时间点开始播放该多媒体数据，通过触发对多媒体数据的评论信息的跳转操作，即可跳转至对应的播放时间点播放多媒体数据。

例如，当在图12所示的播放界面中，播放的多媒体数据的播放时间点为11:51，当终端检测到对“想去这个地方”的跳转操作时，终端将多媒体数据从11:51跳转到如图13所示的26:51，从该26:51开始播放多媒体数据。

在本申请实施例中，终端在播放界面播放多媒体数据时，还会在播放界面中显示评论信息，当用户观看该多媒体数据时，还会观看该多媒体数据的评论信息，当用户对任一评论信息感兴趣时，可以通过触发对该评论信息的跳转操作，终端即可检测到该评论信息的跳转操作，跳转到评论信息关联的播放时间点，播放多媒体数据，用户即可观看自己感兴趣的多媒体数据。

在一种可能实现方式中，多媒体数据存储在终端中，当终端检测到对评论信息的跳转操作后，确定了该评论信息关联的第二播放时间点，则终端直接将多媒体数据由第一播放时间点跳转至第二播放时间点即可。

在另一种可能实现方式中，多媒体数据存储在服务器中，当终端检测到对评论信息的跳转操作后，确定了该评论信息关联的第二播放时间点，则终端向服务器发送数据获取请求，该数据获取请求中携带该第二播放时间点，当服务器接收到该数据获取请求时，从第二播放时间点开始，将多媒体数据发送给终端，终端接收到多媒体数据后，播放该多媒体数据。

终端在播放界面中由播放第一播放时间点的多媒体数据切换到播放第二播放时间点的多媒体数据时，采用预设动态效果显示切换过程。

其中，该预设动态效果可以为第二播放时间点对应的视频帧从上向下逐渐出现，第一播放时间点对应的视频帧从上向下逐渐消失、第二播放时间点对应的视频帧从左向右滑动逐渐出现，第一播放时间点对应的视频帧从右向左滑动逐渐消失、第二播放时间点对应的视频帧从上向下滚动逐渐出现，第一播放时间点对应的视频帧从上向下滚动逐渐消失、第一播放时间点对应的视频帧从一侧逐渐翻动消失，第二播放时间点对应的视频帧从一侧逐渐翻动出现等。

804、基于播放界面，显示返回选项。

805、当检测到对返回选项的触发操作时，将多媒体数据从第二播放时间点跳转至第一播放时间点。

终端将多媒体数据从第一播放时间点跳转至第二播放时间点后，用户可能对第二播放时间点的多媒体数据不感兴趣，此时为了保证用户还可以控制终端返回至第一播放时间点，在播放界面中，显示返回选项，该返回选项用于指示跳转前的第一播放时间点，当用户对该返回选项执行触发操作时，终端即可检测到对该返回选项的触发操作，将多媒体数据从第二播放时间点跳转至第一播放时间点，继续从第一播放时间点开始播放该多媒体数据。

其中，该触发操作可以为单击操作、双击操作、长按操作等。

例如，如图14所示，终端由第一播放时间点跳转至第二播放时间点后，在播放界面的右下角显示返回选项。当终端检测到对该返回选项的触发操作时，返回至如图11所示的第一播放时间点。

在一种可能实现方式中，当终端检测到对返回选项的触发操作时，在播放界面中显示确认窗口，当终端通过该确认窗口检测到用户的确认操作时，将多媒体数据从第一播放时间点跳转至第二播放时间点。而当终端通过确认窗口检测到用户的否定操作时，则关闭确认窗口，不执行将多媒体数据从第一播放时间点跳转至第二播放时间点的操作，继续从第二播放时间点播放该多媒体数据。

在另一种可能实现方式中，当终端在播放界面中显示返回选项的时长达到预设时长后，不再显示该返回选项。

终端将多媒体数据从第一播放时间点跳转至第二播放时间点后，如果在预设时长内均未检测到对返回选项的触发操作，则可以认为用户会继续观看该多媒体数据，不会再触发该返回选项，终端将不再显示该返回选项。

其中，该预设时长可以由终端设置，或者还可以由用户设置。该预设时长可以为30秒、60秒、90秒或者其他数值。

需要说明的是，步骤804-805为可选步骤。在另一实施例中，无需在播放界面中显示返回选项，也无需根据返回选项，将多媒体数据从第二播放时间点跳转至第一播放时间点。

本申请实施例提供的方法，基于播放界面播放多媒体数据，并显示多媒体数据的评论信息，在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点，将多媒体数据从第一播放时间点跳转至第二播放时间点。提供了一种定位播放时间点的方式，仅通过触发对多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的播放时间点，从该播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。

并且，通过建立评论信息与多媒体数据的播放时间点的关联关系，可以确定多媒体数据的评论信息关联的任一播放时间点对应的多媒体数据，该任一播放时间点对应的多媒体数据即为发布评论信息的用户所关注的关键数据。或者通过建立评论信息与多媒体数据的视频帧的关联关系，可以确定多媒体数据的评论信息关联的任一视频帧，该视频帧即为发布评论信息的用户所关注的关键数据。多个用户可以从多个角度对多媒体数据进行评价，发布多个评论信息，通过多个评论信息可以获取多媒体数据中更多的关键数据，则播放该多媒体数据的用户可以通过任一评论信息跳转至对应的关键数据，使播放多媒体数据的过程更加智能化。

图15是本申请实施例提供的一种多媒体数据播放装置的结构示意图，参见图15，该装置包括：

显示模块1501，用于基于播放界面播放多媒体数据，并显示多媒体数据的评论信息；

时间点获取模块1502，用于在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点；

跳转模块1503，用于将多媒体数据从第一播放时间点跳转至第二播放时间点。

本申请实施例提供的装置，基于播放界面播放多媒体数据，并显示多媒体数据的评论信息，在多媒体数据的第一播放时间点检测到对评论信息的跳转操作时，获取评论信息关联的第二播放时间点，将多媒体数据从第一播放时间点跳转至第二播放时间点。提供了一种定位播放时间点的方式，仅通过触发对多媒体数据中的评论信息的跳转操作，即可跳转至评论信息关联的播放时间点，从该播放时间点播放多媒体数据，无需用户手动将进度条拖动到目标播放时间点的位置，避免了定位的播放时间点错误的问题，提高了定位精确度。

可选地，参见图16，显示模块1501，包括：

显示单元15011，用于基于播放界面播放多媒体数据，并显示评论信息以及评论信息对应的跳转按钮；跳转操作为对跳转按钮的触发操作。

可选地，显示模块1501，用于基于播放界面，显示返回选项；

跳转模块1503，用于当检测到对返回选项的触发操作时，将多媒体数据从第二播放时间点跳转至第一播放时间点。

可选地，参见图16，时间点获取模块1502，包括：

第一查询单元15021，用于查询评论信息与播放时间点的关联关系，得到评论信息关联的播放时间点，作为第二播放时间点；或者，

多媒体数据为视频数据，第二查询单元15022，用于查询评论信息与视频帧的关联关系，得到评论信息关联的视频帧，将视频帧对应的播放时间点确定为第二播放时间点。

可选地，参见图16，装置还包括：

第一建立模块1504，用于当评论信息中包括用于指示播放时间点的词汇时，建立评论信息与词汇指示的播放时间点的关联关系。

可选地，第一建立模块1504，还用于：

当评论信息中包括用于指示播放时间点的词汇，且播放时间点位于多媒体数据的起始时间点和终止时间点之间时，建立评论信息与词汇指示的播放时间点的关联关系。

可选地，参见图15，装置还包括：

集合获取模块1505，用于获取多媒体数据的信息集合，信息集合中包括至少一条文本信息及每条文本信息对应的播放时间点，且每条文本信息与多媒体数据中对应播放时间点的语音信息匹配；

第一建立模块1504，还用于当评论信息与信息集合中任一条文本信息的相似度大于预设相似度时，建立评论信息与任一条文本信息对应的播放时间点的关联关系。

可选地，参见图16，装置还包括：

分词模块1506，用于对评论信息进行分词，得到评论信息的至少一个词汇；

分词模块1506，还用于对于信息集合中的每条文本信息，对文本信息进行分词，得到文本信息的至少一个词汇；

第一相似度获取模块1507，用于根据评论信息的至少一个词汇和文本信息的至少一个词汇，获取评论信息与文本信息的相似度。

可选地，多媒体数据为视频数据，集合获取模块还用于从视频数据中提取每个视频帧包含的字幕信息以及每个视频帧对应的播放时间点；或者，

多媒体数据为音频数据，集合获取模块还用于从音频数据中提取每帧音频数据包含的文本信息以及每帧音频数据对应的播放时间点。

可选地，装置还包括：

视频帧获取模块1508，用于获取视频帧数据包括的多个视频帧；

第二建立模块1509，用于当评论信息与多个视频帧中的任一个视频帧的相似度大于预设相似度时，建立评论信息与任一个视频帧的关联关系。

可选地，装置还包括：

语义特征确定模块1510，用于对评论信息进行分词，得到评论信息的至少一个词汇，根据至少一个词汇确定评论信息的第一语义特征；

语义特征确定模块1510，还用于对于多个视频帧中的每个视频帧，基于特征提取模型，得到视频帧的第二语义特征；

第二相似度获取模块1511，用于根据第一语义特征和第二语义特征，获取评论信息和视频帧的相似度。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的多媒体数据播放装置在播放多媒体数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将多媒体数据播放装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体数据播放装置的实施例与多媒体数据播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图17是本申请实施例提供的一种终端的结构示意图。该终端1700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端1700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所具有以实现本申请中方法实施例提供的多媒体数据播放方法。

在一些实施例中，终端1700还可选包括有：外围设备接口1703和至少一个外围设备。处理器1701、存储器1702和外围设备接口1703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1703相连。具体地，外围设备包括：射频电路1704、触摸显示屏1705、摄像头组件1706、音频电路1707、定位组件1708和电源1709中的至少一种。

外围设备接口1703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1701和存储器1702。在一些实施例中，处理器1701、存储器1702和外围设备接口1703被集成在同一芯片或电路板上；在一些其他实施例中，处理器1701、存储器1702和外围设备接口1703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1705用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1705是触摸显示屏时，显示屏1705还具有采集在显示屏1705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1701进行处理。此时，显示屏1705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1705可以为一个，设置终端1700的前面板；在另一些实施例中，显示屏1705可以为至少两个，分别设置在终端1700的不同表面或呈折叠设计；在再一些实施例中，显示屏1705可以是柔性显示屏，设置在终端1700的弯曲表面上或折叠面上。甚至，显示屏1705还可以设置成非矩形的不规则图形，也即异形屏。显示屏1705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1706用于采集图像或视频。可选地，摄像头组件1706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1701进行处理，或者输入至射频电路1704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1701或射频电路1704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1707还可以包括耳机插孔。

定位组件1708用于定位终端1700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1709用于为终端1700中的各个组件进行供电。电源1709可以是交流电、直流电、一次性电池或可充电电池。当电源1709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1700还包括有一个或多个传感器1710。该一个或多个传感器1710包括但不限于：加速度传感器1711、陀螺仪传感器1712、压力传感器1713、指纹传感器1714、光学传感器1715以及接近传感器1716。

加速度传感器1711可以检测以终端1700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1711可以用于检测重力加速度在三个坐标轴上的分量。处理器1701可以根据加速度传感器1711采集的重力加速度信号，控制触摸显示屏1705以横向视图或纵向视图进行用户界面的显示。加速度传感器1711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1712可以检测终端1700的机体方向及转动角度，陀螺仪传感器1712可以与加速度传感器1711协同采集用户对终端1700的3D动作。处理器1701根据陀螺仪传感器1712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1713可以设置在终端1700的侧边框和/或触摸显示屏1705的下层。当压力传感器1713设置在终端1700的侧边框时，可以检测用户对终端1700的握持信号，由处理器1701根据压力传感器1713采集的握持信号进行左右手识别或快捷操作。当压力传感器1713设置在触摸显示屏1705的下层时，由处理器1701根据用户对触摸显示屏1705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1714用于采集用户的指纹，由处理器1701根据指纹传感器1714采集到的指纹识别用户的身份，或者，由指纹传感器1714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1701授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1714可以被设置终端1700的正面、背面或侧面。当终端1700上设置有物理按键或厂商Logo时，指纹传感器1714可以与物理按键或厂商标志集成在一起。

光学传感器1715用于采集环境光强度。在一个实施例中，处理器1701可以根据光学传感器1715采集的环境光强度，控制触摸显示屏1705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1705的显示亮度；当环境光强度较低时，调低触摸显示屏1705的显示亮度。在另一个实施例中，处理器1701还可以根据光学传感器1715采集的环境光强度，动态调整摄像头组件1706的拍摄参数。

接近传感器1716，也称距离传感器，通常设置在终端1700的前面板。接近传感器1716用于采集用户与终端1700的正面之间的距离。在一个实施例中，当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变小时，由处理器1701控制触摸显示屏1705从亮屏状态切换为息屏状态；当接近传感器1716检测到用户与终端1700的正面之间的距离逐渐变大时，由处理器1701控制触摸显示屏1705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图17中示出的结构并不构成对终端1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图18是本申请实施例提供的一种服务器的结构示意图，该服务器1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1801和一个或一个以上的存储器1802，其中，所述存储器1802中存储有至少一条指令，所述至少一条指令由所述处理器1801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1800可以用于执行上述多媒体数据播放方法中服务器所执行的步骤。

本申请实施例还提供了一种多媒体数据播放装置，该装置包括处理器和存储器，存储器中存储有至少一条程序代码，至少一条程序代码由处理器加载并具有以实现上述实施例的多媒体数据播放方法中所具有的操作。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，至少一条程序代码由处理器加载并具有以实现上述实施例的多媒体数据播放方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多媒体数据播放方法，其特征在于，所述方法包括：

在所述多媒体数据的第一播放时间点检测到对所述评论信息的跳转操作时，基于第一关联关系或者第二关联关系，获取所述评论信息关联的第二播放时间点，所述第一关联关系为所述评论信息与播放时间点之间的关联关系，在所述多媒体数据为视频数据的情况下，所述第二关联关系为所述评论信息与视频帧之间的关联关系，所述视频帧对应的播放时间点为所述第二播放时间点；

将所述多媒体数据从所述第一播放时间点跳转至所述第二播放时间点；

其中，建立所述第一关联关系的过程包括：

获取所述多媒体数据的信息集合，所述信息集合中包括至少一条文本信息及每条文本信息对应的播放时间点，且所述每条文本信息与所述多媒体数据中对应播放时间点的语音信息匹配；

对于所述信息集合中的每条文本信息，对所述文本信息进行分词，得到所述文本信息的至少一个第一词汇，根据所述至少一个第一词汇的词向量，确定所述文本信息的第一向量；对所述评论信息进行分词，得到所述评论信息的至少一个第二词汇，根据所述至少一个第二词汇的词向量，确定所述评论信息的第二向量；获取所述第一向量和所述第二向量之间的相似度，作为所述文本信息与评论信息之间的第一相似度；

将所述文本信息和所述评论信息中的至少一个词汇替换为相似词汇，根据替换后的所述至少一个第一词汇的词向量，确定所述文本信息的第三向量，并根据替换后的所述至少一个第二词汇的词向量，确定所述评论信息的第四向量；获取所述第三向量与所述第四向量之间的相似度，作为所述文本信息与所述评论信息之间的第二相似度；

根据所述第一相似度和所述第二相似度，确定所述文本信息与所述评论信息的相似度；当所述评论信息与所述信息集合中任一条文本信息的相似度大于预设相似度时，建立所述评论信息与所述任一条文本信息对应的播放时间点的关联关系。

2.根据权利要求1所述的方法，其特征在于，所述基于播放界面播放多媒体数据，并显示所述多媒体数据的评论信息，包括：

基于所述播放界面播放所述多媒体数据，并显示所述评论信息以及所述评论信息对应的跳转按钮；所述跳转操作为对所述跳转按钮的触发操作。

3.根据权利要求1所述的方法，其特征在于，所述将所述多媒体数据从所述第一播放时间点跳转至所述第二播放时间点之后，所述方法还包括：

基于所述播放界面，显示返回选项；

当检测到对所述返回选项的触发操作时，将所述多媒体数据从所述第二播放时间点跳转至所述第一播放时间点。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述评论信息中包括用于指示播放时间点的词汇时，执行所述建立所述第一关联关系的步骤。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述评论信息中包括所述用于指示播放时间点的词汇，且所述播放时间点位于所述多媒体数据的起始时间点和终止时间点之间时，执行所述建立所述第一关联关系的步骤。

6.根据权利要求1所述的方法，其特征在于，所述获取所述多媒体数据的信息集合，包括：

所述多媒体数据为所述视频数据，从所述视频数据中提取每个视频帧包含的字幕信息以及所述每个视频帧对应的播放时间点；或者，

所述多媒体数据为音频数据，从所述音频数据中提取每帧音频数据包含的文本信息以及所述每帧音频数据对应的播放时间点。

7.根据权利要求1所述的方法，其特征在于，建立所述第二关联关系的过程包括：

获取所述视频数据包括的多个视频帧；

当所述评论信息与所述多个视频帧中的任一个视频帧的相似度大于预设相似度时，建立所述评论信息与所述任一个视频帧的第二关联关系。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述评论信息进行分词，得到所述评论信息的至少一个词汇，根据所述至少一个词汇确定所述评论信息的第一语义特征；

对于所述多个视频帧中的每个视频帧，基于特征提取模型，得到所述视频帧的第二语义特征；

根据所述第一语义特征和所述第二语义特征，获取所述评论信息和所述视频帧的相似度。

9.一种多媒体数据播放装置，其特征在于，所述装置包括：

时间点获取模块，用于在所述多媒体数据的第一播放时间点检测到对所述评论信息的跳转操作时，基于第一关联关系或者第二关联关系，获取所述评论信息关联的第二播放时间点，所述第一关联关系为所述评论信息与播放时间点之间的关联关系，在所述多媒体数据为视频数据的情况下，所述第二关联关系为所述评论信息与视频帧之间的关联关系，所述视频帧对应的播放时间点为所述第二播放时间点；

跳转模块，用于将所述多媒体数据从所述第一播放时间点跳转至所述第二播放时间点；

分词模块，用于对于所述信息集合中的每条文本信息，对所述文本信息进行分词，得到所述文本信息的至少一个第一词汇；

所述分词模块，还用于对所述评论信息进行分词，得到所述评论信息的至少一个第二词汇；

第一相似度获取模块：根据所述至少一个第一词汇的词向量，确定所述文本信息的第一向量；根据所述至少一个第二词汇的词向量，确定所述评论信息的第二向量；获取所述第一向量和所述第二向量之间的相似度，作为所述文本信息与评论信息之间的第一相似度；将所述文本信息和所述评论信息中的至少一个词汇替换为相似词汇，根据替换后的所述至少一个第一词汇的词向量，确定所述文本信息的第三向量，并根据替换后的所述至少一个第二词汇的词向量，确定所述评论信息的第四向量；获取所述第三向量与所述第四向量之间的相似度，作为所述文本信息与所述评论信息之间的第二相似度；根据所述第一相似度和所述第二相似度，确定所述文本信息与所述评论信息的相似度；

第一建立模块，用于当所述评论信息与所述信息集合中任一条文本信息的相似度大于预设相似度时，建立所述评论信息与所述任一条文本信息对应的播放时间点的关联关系。

10.根据权利要求9所述的装置，其特征在于，所述显示模块，包括：

显示单元，用于基于所述播放界面播放所述多媒体数据，并显示所述评论信息以及所述评论信息对应的跳转按钮；所述跳转操作为对所述跳转按钮的触发操作。

11.一种多媒体数据播放装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至8任一权利要求所述的多媒体数据播放方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至8任一权利要求所述的多媒体数据播放方法。