CN104572952B

CN104572952B - 直播多媒体文件的识别方法及装置

Info

Publication number: CN104572952B
Application number: CN201410849032.9A
Authority: CN
Inventors: 谭傅伦; 许泽军; 王晓萌; 王英杰; 袁斌
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2018-04-17
Anticipated expiration: 2034-12-29
Also published as: CN104572952A

Abstract

本发明公开了一种直播多媒体文件的识别方法及装置。该方法包括：根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息；根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录；根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本；接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录；获取目标多媒体文件对应的多媒体文件的标识信息。通过本发明，能够识别直播视频。

Description

直播多媒体文件的识别方法及装置

技术领域

本发明涉及视频识别技术领域，具体而言，特别涉及一种直播多媒体文件的识别方法及装置。

背景技术

当前的视频搜索方式，通常使用是视频的“关键字”进行搜索。这不但要求用户知晓该视频的相关信息，同时也要求搜索服务提供方能及时维护与视频一一对应的“关键字”数据库。而实际上，我们常常会遭遇到这样的尴尬：在大街小巷或者电视机前邂逅一段有趣的视频，但我们并不熟悉甚至不知道这段视频的信息，更别说通过“关键字”搜索到这段视频了。

因而，基于声音识别视频便在这一实际需求的推动之下应运而生。在基于声音识别视频的技术中，当用户需要识别某视频时，首先通过移动端(如：智能手机)的录音设备获取视频中的声音信息，将反映该声音信息的特征数据与云端服务器中的特征数据库进行匹配，并将匹配结果(视频流或者视频相关的信息)返回到移动端。

但是，视频文件具有快速更新、快速上线的特点，甚至很多视频文件采用的是网络直播的形式，所以用户需要识别的视频常常是正在直播的视频。而在现有技术的上述方法中，云端服务器在获取到视频源产生的完整视频后，才会根据视频对应的音频信息构建特征数据库，因此，现有技术的方法并不能识别直播视频。

针对现有技术不能识别直播视频的问题，目前尚未提出有效的解决方法。

发明内容

本发明的主要目的在于提供一种直播多媒体文件的识别方法及装置，以解决现有技术不能识别直播视频的问题。

依据本发明的一个方面，提供了一种直播多媒体文件的识别方法。

根据本发明的直播多媒体文件的识别方法包括：根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息；根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，特征数据库用于存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，特征样本的时间长度为第一预定时间；根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本；接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录；获取目标多媒体文件对应的多媒体文件的标识信息。

进一步地，特征信息为多媒体文件的音频数据的指纹信息，根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息，包括：根据实时数据流获取直播多媒体文件的当前时段的音频数据；将当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，第二预定时间小于第一预定时间；以及提取每个音频片段的指纹信息，以得到直播多媒体的当前时段的特征信息。

进一步地，特征样本为n个音频片段的指纹信息，直播多媒体文件的当前时段的特征信息为m个音频片段的指纹信息，m<n，n个音频片段的时间长度为第一预定时间，根据直播多媒体文件的特征信息更新待更新的多媒体记录中的特征样本包括：删除待更新的多媒体记录中特征样本的最早的m个指纹信息；将直播多媒体文件的当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录的特征样本中。

进一步地，根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本，具体包括：步骤S1：特征指针指向直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；步骤S2：获取特征指针指向的指纹信息；步骤S3：提取与直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；步骤S4：将特征指针指向的指纹信息拼接至第一特征样本的末尾，以得到第二特征样本；步骤S5：从第二特征样本的起始删除一个指纹信息；步骤S6：判断计时器中的时间是否达到第三预定时间，若未达到第三预定时间，特征指针指向下一个指纹信息，并重复执行步骤S2至S6；若达到第三预定时间，用得到的第二特征样本替换多媒体记录中多媒体标识对应的特征样本，其中，第三预定时间为m个指纹信息对应的多媒体文件的播放时间。

进一步地，提取音频片段的指纹信息包括：合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据；以及提取音频片段的立体声数据的时频特征数据作为音频片段的指纹信息。

进一步地，识别请求中包括的目标多媒体文件的特征信息为直播多媒体文件的当前时段的N个指纹信息,N个指纹信息中的一个指纹信息为目标多媒体的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为si′＝ai′*l′+bi′*r′，ai′+bi′＝1，l′为直播多媒体文件的当前时段的左声道数据，r′为直播多媒体文件的当前时段的右声道数据，ai′和bi′为预设的参数，i＝1,2,3…N。在该方法中，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录包括：将目标多媒体文件的每个指纹信息分别与特征数据库中的特征样本匹配，得到每个指纹信息的匹配率；将最大匹配率对应的特征样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。

依据本发明的一个方面，提供了一种直播多媒体文件的识别装置。

根据本发明的直播多媒体文件的识别装置包括：获取模块，用于根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息；定位模块，用于根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，特征数据库用于存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，特征样本的时间长度为第一预定时间；更新模块，用于根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本；匹配模块，用于接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录；识别模块，用于获取目标多媒体文件对应的多媒体文件的标识信息。

进一步地，特征信息为多媒体文件的音频数据的指纹信息，获取模块包括：音频数据获取模块，用于根据实时数据流获取直播多媒体文件的当前时段的音频数据；音频片段分割模块，用于将当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，第二预定时间小于第一预定时间；以及指纹信息提取模块，用于提取每个音频片段的指纹信息，以得到直播多媒体的当前时段的特征信息。

进一步地，特征样本为n个音频片段的指纹信息，直播多媒体文件的当前时段的特征信息为m个音频片段的指纹信息，m<n，n个音频片段的时间长度为第一预定时间，更新模块包括：删除模块，用于删除待更新的多媒体记录中特征样本的最早的m个指纹信息；添加模块，用于将直播多媒体文件的当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录的特征样本中。

进一步地，更新模块具体执行以下步骤：

步骤S1：特征指针指向直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；步骤S2：获取特征指针指向的指纹信息；步骤S3：提取与直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；步骤S4：将特征指针指向的指纹信息拼接至第一特征样本的末尾，以得到第二特征样本；步骤S5：从第二特征样本的起始删除一个指纹信息；步骤S6：判断计时器中的时间是否达到第三预定时间，若未达到第三预定时间，特征指针指向下一个指纹信息，并重复执行步骤S2至S6；若达到第三预定时间，用得到的第二特征样本替换多媒体记录中多媒体标识对应的特征样本，其中，第三预定时间为m个指纹信息对应的多媒体文件的播放时间。

进一步地，指纹信息提取模块包括：立体声数据合成模块，用于合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据；以及时频特征提取模块，用于提取音频片段的立体声数据的时频特征数据作为音频片段的指纹信息。

进一步地，识别请求中包括的目标多媒体文件的特征信息为直播多媒体文件的当前时段的N个指纹信息,N个指纹信息中的一个指纹信息为目标多媒体的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为si′＝ai′*l′+bi′*r′，ai′+bi′＝1，l′为直播多媒体文件的当前时段的左声道数据，r′为直播多媒体文件的当前时段的右声道数据，ai′和bi′为预设的参数，i＝1,2,3…N,在该装置中，匹配模块包括：匹配率确定模块，用于将目标多媒体文件的每个指纹信息分别与特征数据库中的特征样本匹配，得到每个指纹信息的匹配率；多媒体记录确定模块，用于将最大匹配率对应的特征样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。

通过本发明，预设一个特征数据库存储直播多媒体的特征信息，具体地，在该特征数据库中存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，并且特征样本的时间长度为第一预定时间，在有直播多媒体文件的实时数据流输入时，首先根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息，然后根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本，从而保证特征数据库中存储直播多媒体文件当前最新的特征信息。在接收识别目标多媒体文件的识别请求时，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录，然后获取目标多媒体文件对应的多媒体文件的标识信息，以达到识别目标多媒体文件的目的，解决了现有技术中不能识别直播视频的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明实施例一的方法流程图；

图2是根据本发明实施例二的方法流程图；

图3是根据本发明实施例三的方法流程图；

图4是根据本发明实施例四的系统示意图；

图5是根据本发明实施例四的终端框图；

图6是根据本发明实施例四的视频检索服务器框图；

图7是根据本发明实施例四的指纹管理服务器框图；

图8是根据本发明实施例四的视频管理服务器框图；以及

图9是根据本发明实施例五的装置框图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供了直播多媒体文件的识别方法，在该方法中，预置特征数据库，在直播多媒体文件直播的过程中，根据直播多媒体文件的实时数据流更新特征数据库，以保证特征数据库中存储有当前直播多媒体文件最新的信息。当用户需要识别直播的目标多媒体文件时，将目标多媒体文件的特征信息与预置特征数据库中的特征样本进行匹配，若目标多媒体文件的特征信息与某一特征样本匹配成功，则通过该特征样本对应的标识信息即可达到识别目标多媒体文件的目的。

需要说明的是，直播多媒体文件的直播时间与实时数据流的产生时间通常会有一个时间差，直播多媒体文件的直播时间(即传送至用户的时间)晚于直播多媒体文件的实时数据流的产生时间，本发明实施例正是基于这一时间差，使得特征数据库中特征样本的更新时间早于或同步于直播多媒体文件的直播时间，使得特征数据库能够保持存储当前直播多媒体文件的特征信息，进而能够在特征数据库中匹配到直播的目标多媒体文件，达到识别目标多媒体文件的目的。

具体地，该特征数据库中存储有一条或多条多媒体记录，每条多媒体记录对应一个直播多媒体文件，例如，该多媒体文件为视频，则每条多媒体记录对应一个直播视频；该多媒体文件为音频，则每条多媒体记录对应一个直播音频。每条多媒体记录包括一个直播多媒体文件的特征样本和该直播多媒体文件的标识信息，其中，特征样本由预置固定时间长度的多媒体文件的特征信息组成，例如特征样本为固定时间长度的视频的特征信息组成；标识信息为能够辨识不同直播多媒体的信息。

当有直播多媒体文件的实时数据流输入时，进一步根据实时数据流获取到该直播多媒体文件当前时段的特征信息，由直播多媒体文件的标识信息在特征数据库中找到该直播多媒体文件对应的多媒体记录，再由特征信息更新该多媒体记录中的特征样本，从而保证特征数据库中存储直播多媒体文件当前最新的特征信息。

当接收到识别目标多媒体文件的识别请求时，进一步根据识别请求获取目标多媒体文件的特征信息，然后通过目标多媒体文件的特征信息与特征数据库中的特征样本相匹配，由匹配到的特征样本定位到一条多媒体记录，进而得到该多媒体记录中的标识信息，最终可由该标识信息得到目标多媒体文件的识别结果。

本发明实施例的任意识别方法均可用于直播多媒体文件的搜索方法中。在直播多媒体文件的搜索方法中，通过本发明实施例的直播多媒体文件的识别方法识别到目标多媒体文件，也即得到目标多媒体文件的标识信息后，通过标识信息找到目标多媒体文件的链接，进而搜索到目标多媒体文件。

例如，手机用户在街头广告屏上看到正在直播的某视频，希望能通过手机搜索并播放到该视频，此时，用户操作手机终端，手机终端对直播视频录音，再根据记录的直播视频的声音数据生成目标视频识别请求发送至云端服务器，云端服务器采用本发明实施例的识别方法识别到目标视频后，一种情况云端服务器可将目标视频的标识信息返回至手机终端，手机终端再根据目标视频的标识信息查找到目标视频的链接，进而通过查找到的链接播放视频；另一种情况云端服务器可通过目标视频的标识信息查找到目标视频的链接后返回至手机终端，进而手机终端通过该链接播放视频。

以下将对本发明所提供的多种实施例进行详细的描述。

实施例一

该实施例一提供了一种直播多媒体文件的识别方法的实施例，该实施例提供的方法的执行主体为云端服务器，发送目标多媒体文件识别请求的是用户终端。其中，在云端服务器中预置特征数据库，特征数据库中存储有当前直播多媒体文件最新的信息。当用户终端需要识别直播的目标多媒体文件时，云端服务器接收到识别请求，将目标多媒体文件的特征信息与预置特征数据库中的特征样本进行匹配，通过匹配成功的特征样本对应的标识信息识别目标多媒体文件。

图1是根据本发明实施例一的方法流程图，如图1所示，该方法具体包括以下步骤S102至步骤S116，其中，步骤S102至步骤S108实现特征数据库的更新，步骤S110至步骤S116实现根据特征数据库识别目标多媒体文件。

步骤S102：获取直播多媒体文件的实时数据流和标识信息。

云端服务器与直播源的后台数据库服务器相互通信，实时获取到直播多媒体文件的实时数据流，在获取实时数据流的同时，也可获取到直播多媒体文件的标识信息。该处的多媒体文件可以为视频或者音频，则获取到的实时数据流相应的为视频流或音频流。直播多媒体文件的标识信息为能够在多个多媒体文件(包括直播多媒体文件和非直播多媒体文件)中唯一辨识和确定该直播多媒体文件的信息。

对于直播多媒体文件而言，一个直播源在同一时间只能直播一个多媒体文件，并且直播源的身份信息具有简单、唯一和辨识度高的特点，因而，直播多媒体文件的标识信息优选为直播源的身份信息，例如，直播多媒体文件为视频时，其标识信息为播放直播视频的视频源的频道数据，具体如直播多媒体文件为新闻联播，其标识信息为“CCTV1”；又如，直播多媒体文件为音频时，其标识信息为播放直播音频的音频源的频道数据，具体如直播多媒体文件为直播的评书广播连播，其标识信息为“中央人民广播电台”。

步骤S104：根据实时数据流获取直播多媒体文件当前时段的特征信息。

云端服务器每次获取到直播多媒体文件的实时数据流后，采用预设的特征提取模块，对实时数据流进行数据处理，以提取实时数据流的特征数据，得到直播多媒体文件当前时段的特征信息。

例如，获取到直播视频的视频流数据，采用特征提取模块对视频流数据进行处理，以提取直播视频对应音频指纹，得到直播视频当前时段的特征信息。

步骤S106：根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录。

其中，特征数据库存储有多条多媒体记录，每一条多媒体记录包括多媒体文件的特征样本和与特征样本对应的多媒体文件的标识信息两部分，其中，特征样本的时间长度是固定的，每次进行更新后，特征样本中的特征信息相应变化为更新后的特征信息，但特征样本的时间长度并不发生变化，以保证特征数据库存储的特征样本总是最新一段时间的直播多媒体文件的特征信息。

在步骤S102获取到直播多媒体文件的标识信息后，在该步骤S106中，查找特征数据库，可在特征数据库中定位到与直播多媒体文件的标识信息相对应的多媒体记录，该多媒体记录即为待更新的多媒体记录。

步骤S108：根据直播多媒体文件的特征信息更新待更新的多媒体记录中的特征样本。

定位到待更新的多媒体记录后，采用直播多媒体文件的特征信息更新多媒体记录中的特征样本。更新时，当直播多媒体文件当前时段的特征信息的时间长度大于或等于特征样本的时间长度时，可将特征样本中的特征信息全部更新；当直播多媒体文件当前时段的特征信息的时间长度小于特征样本的时间长度时，可进行部分更新。

无论采用什么样的更新方式，为避免数据冲突，可将当前的特征数据库进行备份，对备份的特征数据库进行更新，然后用更新后的备份的特征数据库覆盖原特征数据库。

在云端服务器中，实时接收不同直播多媒体文件的数据流，通过步骤S102至步骤S108及时的更新特征数据库，从而针对任意的直播多媒体文件，在特征数据库中总存储有当前最新一段时间内的特征信息。

步骤S110：接收识别目标多媒体文件的识别请求。

该识别请求可由用户终端发送，用户需要识别某正在直播的多媒体文件时(本申请将该待识别的正在直播的多媒体文件定义为目标多媒体文件)，获取该目标多媒体文件的一段时间内的数据流，当该段时间内的数据流数据量较大时，可在用户终端提取目标多媒体文件的特征信息，将提取到的特征信息封装为识别请求发送至云端服务器，云端服务器接收包含目标多媒体文件的特征信息的识别请求，以达到减少数据传输量的目的；当该数据流数据量较小时，可直接将数据流封装为识别请求发送至云端服务器，云端服务器接收包含目标多媒体文件的数据流的识别请求，以降低对用户终端数据处理能力的要求。

步骤S112：根据识别请求获取目标多媒体文件的特征信息。

云端服务器在接收到识别请求之后，根据识别请求获取特征信息，具体地，当识别请求包含目标多媒体文件的特征信息，云端服务器通过解析识别请求即可得到目标多媒体文件的特征信息；当识别请求包含目标多媒体文件的数据流，云端服务器调用预设的特征提取模块，对目标多媒体文件的数据流进行数据处理，以提取目标多媒体文件的特征信息。

步骤S114：匹配目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录。

云端服务器在得到目标多媒体文件的特征信息后，与特征数据库中的各特征样本进行匹配，若目标多媒体文件的特征信息与某一特征样本匹配成功，则匹配结束，该特征样本所在的多媒体记录即为目标多媒体文件对应的多媒体记录。

步骤S116：获取目标多媒体文件对应的多媒体记录中的标识信息，以识别目标多媒体文件。

定位到目标多媒体文件对应的多媒体记录后，通过该多媒体记录中的标识信息即可达到识别目标多媒体文件的目的。例如，该多媒体记录中的标识信息为“CCTV5”，则目标多媒体文件即为CCTV5正在直播的视频。

在该实施例提供的直播多媒体文件的识别方法中，预置一个特征数据库来存储直播多媒体文件的特征样本和标识信息，并通过获取直播源后台的实时数据流实时更新和维护该特征数据库，当有目标多媒体文件需要被识别时，根据目标多媒体文件的特征信息在特征数据库中找到对应的直播多媒体文件的标识信息，达到识别直播多媒体文件的目的。综上，采用该实施例提供的直播多媒体文件的识别方法，能够实时的识别直播多媒体文件，从而也能够实时的识别直播视频。

实施例二

该实施例二提供了一种直播多媒体文件的识别方法的优选实施例，该实施例是在实施例一的基础上进一步优选的实施例，具体的改进之处在于：

首先，该实施例中采用多媒体文件的音频数据的指纹信息作为多媒体文件的特征信息，也即，在特征数据库中存储的特征样本为音频数据的指纹信息，获取到的目标多媒体文件的特征信息也相应为目标多媒体文件的音频数据的指纹信息，从而无论在更新特征数据库时，还是在获取目标多媒体文件的特征信息时，均需获取多媒体文件的音频数据、提取音频数据的指纹信息，极大减小了系统的数据传输量，降低了流量的消耗，增加识别方法的可用性。具体地，将直播多媒体文件的当前时段的音频数据分割为多个音频片段，提取每个音频片段的指纹信息，从而直播多媒体文件当前时段的特征信息由该多个音频片段的指纹信息构成。

进一步地，该实施例中特征样本的时间长度(也即n个音频片段的时间长度)大于获取到的直播多媒体文件的特征信息的时间长度(也即m个音频片段的时间长度)，在更新特征数据库(当特征数据库中存储的特征样本为指纹信息时，也将特征数据库称为指纹数据库，将特征样本称为指纹样本)，将直播多媒体文件对应的指纹信息添加至指纹样本中，并将指纹样本中最早的、时间长度为添加特征信息的时间长度的指纹信息删除，从而一方面保证了指纹样本的长度，在匹配指纹样本时，保证了任意时间段直播的目标多媒体文件的有效识别，另一方面保证了指纹样本的实时更新，以保证识别的实时性。

进一步地，在指纹数据库更新时，采用备份表结合计时器的更新方式，一方面能够避免数据冲突，另一方面能够根据实际需要控制更新周期。

具体地，图2是根据本发明实施例二的方法流程图，如图2所示，该方法具体包括以下步骤S202至步骤S216。

步骤S202：获取直播多媒体文件的实时数据流和标识信息。

步骤S204：根据实时数据流获取直播多媒体文件当前时段的音频数据。

云端服务器在获取到直播多媒体文件的实时数据流时，能够进一步获取直播多媒体文件当前时段的音频数据你，例如，该当前时段的时间长度为第三预定时间，调用音频提取模块，提取数据流中的音频数据，从而得到的音频数据为第三预定时间的数据。

优选地，在获取到音频数据时，可对音频数据进行格式转换，将获取到的音频数据转换为统一格式的数据，以方便后续处理；还可对音频数据进行去噪处理，例如采用滑动窗去噪的技术，去掉音频数据中的“尖刺”；还可对音频数据进行下采样，在保证数据精度的前提下，可减少数据的存储量和运算量。

步骤S206：将当前时段的音频数据按照时间顺序分割为m个音频片段。

获取到第三预定时间的音频数据后，调用音频分割模块按时间顺序将音频流分割为m个时间长度为第二预定时间t的音频片段。

需要说明的是，在执行步骤S204和步骤S206时，也可采用以下方式：先将当前时段内的实时数据流案时间顺序分割为m个数据片段，再获取每个数据片段的音频数据得到音频片段。该方式与上述步骤S204和步骤S206相互等同，均在本申请的保护范围之内。

步骤S208：提取每个音频片段的指纹信息，以得到直播多媒体文件当前时段的特征信息。

得到m个时间长度为t的音频片段后，提取每个音频片段的指纹信息，其中，所有音频片段的指纹信息构成直播多媒体文件当前时段的特征信息，从而直播多媒体文件当前时段的特征信息包括m个指纹信息，该特征信息的时间长度相应为第三预定时间。

直播多媒体文件当前时段的特征信息由按时间先后顺序排列的m个指纹信息组成，第一个指纹信息为最早的一个指纹信息，第m个指纹信息为最新的一个指纹信息。

其中，该音频片段优选为立体声数据，同时，目标多媒体文件的特征信息也为立体声数据的指纹信息，二者数据源的统一能够提高匹配的准确性。

在提取音频片段的指纹信息时，可提取音频的时域特征，例如提取音频片段的幅值作为指纹信息，也可提取音频的时频特征，前者数据处理速度快，后者抗噪能力较强。

步骤S210：根据直播多媒体文件的标识信息在指纹数据库定位待更新的多媒体记录。

其中，该指纹数据库存储有多条多媒体记录，每一条多媒体记录包括多媒体文件的特征样本和与特征样本对应的多媒体文件的标识信息两部分，其中，特征样本由按时间先后顺序排列的n个指纹信息组成，特征样本中的第一个指纹信息为最早的一个指纹信息，最后一个指纹信息为最新的一个指纹信息。每个指纹信息的时间长度为t，该n个指纹信息的时间长度为第一预定时间T，并且m<n，或者第三预定时间小于第一预定时间，也即直播多媒体文件当前时段的特征信息的时间长度小于指纹样本的时间长度。

在得到标识信息之后，可在指纹数据库中定位到包括该标识信息的多媒体记录。

步骤S212：删除待更新的多媒体记录中指纹样本的最早的m个指纹信息。

在定位到待更新的多媒体记录，对该多媒体记录中的指纹样本进行更新，在更新时，将指纹样本中的前m个指纹信息删除，也即，将指纹样本中当前最早的m个指纹信息删除。

步骤S214：将直播多媒体文件当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录中指纹样本中。

在更新时，将直播多媒体文件当前时段的m个指纹信息添加至指纹样本的末尾，从而添加的指纹信息在指纹样本中是最新的指纹信息。

需要说明的是，在该实施例中，可先执行步骤S212，后执行步骤S214，也可先执行步骤S214，后执行步骤S212。其中，在实现步骤S214和步骤S212时，可采用如下具体的方法步骤实现：

步骤S1：特征指针指向直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；

步骤S2：获取特征指针指向的指纹信息；

步骤S3：提取与直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；

步骤S4：将特征指针指向的指纹信息拼接至第一特征样本的末尾，以得到第二特征样本；

步骤S5：从第二特征样本的起始删除一个指纹信息；

步骤S6：判断计时器中的时间是否达到第三预定时间，若未达到第三预定时间，特征指针指向下一个指纹信息，并重复执行步骤S2至S6；若达到第三预定时间，用得到的第二特征样本替换多媒体记录中多媒体标识对应的特征样本，其中，第三预定时间为m个指纹信息对应的多媒体文件的播放时间。

在云端服务器中，实时接收不同直播多媒体文件的数据流和标识信息，通过步骤S202至步骤S214及时的更新指纹数据库，从而针对任意的直播多媒体文件，在指纹数据库中总存储有当前最新一段时间内的直播多媒体文件的指纹信息。

步骤S216：接收识别目标多媒体文件的识别请求，并识别目标多媒体文件。

具体地，该步骤S216包括上述实施例中的步骤S110至步骤S116，此处不再赘述。

实施例三

该实施例三提供了一种直播多媒体文件的识别方法的实施例，该实施例是在实施例二的基础上进一步优选的实施例，具体的改进之处在于：

首先，直播多媒体文件的音频片段是由左声道数据和右声道数据合并而成，相应地，目标多媒体文件的特征信息也为立体声数据的指纹信息，并且在合并左、右声道数据为立体声数据时，设置权重参数，以能够根据实际需要调整左右声道数据在立体声数据中所占的比重。

进一步地，在构建目标多媒体文件的特征信息时，通过设置多组权重数据，将目标多媒体文件的左右声道数据转化为多组立体声数据，提取每组立体声数据对应的指纹信息，从而目标多媒体文件的特征信息包括多组指纹信息。在进行目标多媒体文件识别时，将每组指纹信息与指纹数据库中的指纹样本分别相匹配，将最大匹配率对应的指纹样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录，增加识别的准确性。

进一步地，在提取音频片段的立体声数据的指纹信息时，或者在提取目标多媒体文件的每组立体声数据的时频特征数据时，均提取立体声数据的时频特征，并依据能量极大值点所处的时刻，所处的频率和能量构建指纹，使得指纹能够保持良好的稳定性。并将构建的指纹采用哈希码表示，方便数据存储与处理。

具体地，图3是根据本发明实施例三的方法流程图，如图3所示，该方法具体包括以下步骤S302至步骤S318。

步骤S302：获取直播多媒体文件的实时数据流和标识信息，并根据实时数据流得到直播多媒体文件当前时段的多个音频片段。

具体地，该步骤S216包括上述实施例中的步骤S202至步骤S206，此处不再赘述。

步骤S304：针对每个音频片段，合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据。

具体地，可采用如下的公式得到立体声数据：

s＝a*l+b*r，其中，a+b＝1，s为音频片段的立体声数据，l为音频片段的左声道数据，r为音频片段的右声道数据，a和b为预设的参数。

步骤S306：提取每个音频片段的立体声数据的时频特征数据作为该音频片段的指纹信息，从而得到直播多媒体文件当前时段的特征信息。

在提取音频片段的立体声数据的时频特征数据时，具体包括以下的步骤：

首先对音频片段的立体声数据进行短时傅里叶变换，以得到音频片段的立体声数据的时频分布图，然后获取时频分布图中的能量极大值点，根据两个不同时刻的极大值点A[ta,fa,Va]、B[tb,fb,Vb]构建一个指纹为fp[ta,fa,fb,tb-ta]，并转换为哈希码fp[hashData，ta]，其中，ta为极值大点A所处的时刻，fa为极值大点A所处的频率，Va为极值大点A的能量，tb为极值大点B所处的时刻，fb为极值大点B所处的频率，Vb为极值大点B的能量，ta<tb，极大值点A和极值大点B为时频分布图中任意两个相邻的能量极大值点，最后将构建的所有指纹按照时间顺序组合得到音频片段的指纹信息。

步骤S308：根据直播多媒体文件当前时段的特征信息更新指纹数据库。

具体地，该步骤S216包括上述实施例中的步骤S210至步骤S214，此处不再赘述。

步骤S310：接收识别目标多媒体文件的识别请求。

步骤S312：根据识别请求获取目标多媒体文件的特征信息。

其中，目标多媒体文件的特征信息为目标多媒体文件的立体声数据的时频特征数据，具体获得视频特征数据的方法与步骤S306中提取音频片段的立体声数据的时频特征数据方法相同，此处不再赘述，

其中，目标多媒体文件的立体声数据由目标多媒体文件的音频数据中的左声道数据和右声道数据合并而成，具体采用多组参数可得到多个立体声数据，相应地，得到目标多媒体文件的特征信息为多个指纹信息。

在构建目标多媒体文件的指纹信息时，目标多媒体文件的特征信息为N个指纹信息，N个指纹信息中的一个指纹信息为目标多媒体文件的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为si′＝ai′*l′+bi′*r′，ai′+bi′＝1，i＝1,2,3…N。

步骤S314：将目标多媒体文件的每个指纹信息分别与指纹数据库中的指纹样本匹配，得到每个指纹信息的匹配率。

将每组立体声数据对应的指纹信息与指纹数据库中的指纹样本进行匹配，对于任意一组立体声数据的指纹信息，均会得到与之匹配的指纹样本，并且每个匹配到的指纹样本均会对应一个匹配率，将匹配率最大(也即最大匹配率)对应的指纹样本所在的多媒体记录作为所述目标多媒体文件对应的多媒体记录。

步骤S316：将最大匹配率对应的指纹样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。

步骤S318：获取目标多媒体文件对应的多媒体记录中的标识信息，以识别目标多媒体文件。

实施例四

该实施例四提供了一种直播多媒体文件的识别方法，在该方法中，直播多媒体文件为直播视频，构建指纹数据库时使用视频的音频数据的时频特征数据作为指纹样本构建。

在该方法中，视频的音频数据一律使用立体声数据，保证目标视频的指纹信息音频源和指纹数据库中指纹样本音频源的数据格式一致。同时，在对目标视频的音频数据进行预处理时，针对录音方式获取目标视频的音频数据时环境噪声对音频数据质量的影响，设置自适应参数，使得提取到的目标视频的指纹信息更为鲁棒。

综上，从用户终端和指纹数据库两个方面，实现了对视频的快速、精确的识别。在该方法中，通过对指纹数据库的实时更新，实现了对网络直播视频的实时在线识别。

接下来，将从实现该实施例方法的系统的角度，详细描述该实施例提供的直播多媒体文件的识别方法。

如图4所示，该系统由4部分构成：用户终端、视频搜索服务器、指纹管理服务器、视频管理服务器，其中，视频搜索服务器、指纹管理服务器、视频管理服务器可共同构成云端服务器。

具体地，用户终端负责获取目标视频的音频数据，以及呈现视频搜索的结果。视频搜索服务器负责管理不同用户终端的视频识别请求，并向指纹管理服务器发送这些请求；还用于接收指纹管理服务器传来的视频识别结果，并将结果返回给提出识别请求的用户终端。指纹管理服务器一方面负责在指纹数据库中搜索目标视频对应的指纹样本；另一方面，负责创建、更新、维护指纹数据库。视频管理服务器一方面负责存储和管理视频源发送来的视频数据，将视频数据存储至视频数据库；同时，将视频对应的音频数据和视频信息上传给指纹管理服务器。视频搜索服务器和指纹管理服务器配合实现目标视频的搜索，而指纹管理服务器和视频管理服务器配合实现指纹数据库的创建和更新。

如图5所示，用户终端包括以下模块：

录音模块：用于录制视频播放时的音频数据；音频预处理模块：对录音模块获取的音频数据进行混合、下采样、降噪等操作，降低录音环境的噪声对于匹配结果的影响；指纹提取模块：提取预处理后音频数据的指纹信息；结果显示模块：利用用户终端音频播放器、视频播放器、显示屏幕等硬件资源，显示视频搜索的结果(如：播放识别结果、在手机屏幕呈现相似的视频)；网络传输模块：实现用户终端与视频搜索服务器之间的数据传输需求，向视频搜索服务器发送内容为“场景信息、目标指纹(也即目标视频的指纹信息)”的识别请求，接收视频搜索服务器发来的视频识别结果。

如图6所示，视频搜索服务器包括以下模块：

网络传输模块1：用于与用户终端的信息交互。接收用户终端的视频识别请求。将视频搜索的结果返回给用户终端；视频搜索管理模块：处理海量用户的视频识别请求。将用户终端发送的视频识别请求提交给指纹管理服务器；识别结果管理模块：处理视频搜索的结果；网络传输模块2：用于与指纹管理服务器信息交互。接收指纹管理服务器发送的视频识别结果。将来自用户终端的视频识别请求发送给指纹管理服务器。

如图7所示，指纹管理服务器包括以下模块：

网络传输模块1：用于与视频搜索服务器的信息交互。接收视频识别请求。将视频搜索的结果返回给视频搜索服务器；指纹搜索模块：在指纹数据库中搜索目标指纹，返回识别结果；指纹提取模块：提取来自视频管理服务器的音频数据的指纹信息，将生成的指纹信息连同视频信息(也即视频的标识信息)传给指纹管理模块；指纹管理模块：根据视频信息和指纹信息生成的指纹数据库所需的数据，并将生成的数据存储至指纹数据库中；网络传输模块2：用于指纹管理服务器与视频管理服务器的信息交互。

如图8所示，视频管理服务器包括以下模块：

网络传输模块1：实现视频源和视频管理服务器的数据传输；视频管理模块：根据视频源的信息(如：频道、ur l等)，将视频流存储至视频数据库中相应的位置，同时，将视频流连同视频源信息传入音频提取模块；音频提取模块：获取视频管理服务器传来的数据、提取视频流中的音频流，将音频流连同视频源信息传入音频分割模块；音频预处理模块：将双声道音频数据混合成立体声，将不同格式的音频数据转成统一的格式，并对音频数据进行下采样，将处理后的音频数据连同视频源信息传给音频分割模块；音频分割模块：按时间顺序将音频数据分割成或拼接成时间长度为T的音频片段，将音频片段连同视频源信息上传至指纹管理服务器；网络传输模块2：实现视频管理服务器和指纹管理服务器的数据传输。

该实施例的方法在采用上述的系统实现视频识别时，需要经过以下步骤：步骤一，获取待识别的目标视频的音频数据；对获取到的音频数据进行预处理；步骤三，获取目标视频的音频数据的指纹信息；步骤四，将该指纹信息与事先构建好(或是实时更新的)的指纹数据库中的指纹样本进行匹配，获得匹配结果；步骤五，将匹配结果返回给用户终端，用户终端可根据获取的结果，呈现和播放相关的视频内容。

系统的视频数据采用分布式存储方式存储在多个视频数据库中，并由多个视频管理服务器进行管理。不同的视频数据库之间，通过统一的视频列表进行资源的共享，所有的视频管理服务器共享一个视频列表。当其中一个视频数据库的视频列表更新，则该视频数据库对应的视频管理服务器向全网广播列表更新报文(报文中携带更新之后的视频列表)，其他视频数据库根据报文更新自己的视频列表。

系统拥有唯一的指纹数据库，该指纹数据库由指纹管理服务器进行管理，在指纹管理服务器上，配置了指纹提取模块和指纹搜索模块。指纹提取模块用来处理视频管理服务器传来的信息，形成指纹样本；指纹搜索模块用来处理视频搜索服务器发出的视频识别请求，在指纹数据库中搜索目标指纹，并将识别结果返回给视频搜索服务器。

视频源与视频管理服务器间的交互：视频源产生新的视频数据，向视频管理服务器提交上传视频数据的请求报文(报文中包含视频源信息，视频内容信息)和视频流；视频管理服务器提取报文中的视频源信息、视频内容信息和视频流；更新视频管理服务器的视频列表；一方面，将上述信息和视频流存储至视频数据库中，建立列表信息与存储视频数据间的关联，将该关联信息添加到本地的视频列表中，同时向全网广播视频列表更新信息，更新全网视频列表的表单。另一方面，提取视频数据中的音频数据，将上述视频源和视频内容信息、新增视频列表信息连同提取的音频数据封装成视频库更新报文，通过网络向指纹管理服务器提交该报文。

指纹管理服务器与视频管理服务器间的交互：(1)指纹管理服务器接收到视频库更新报文，根据报文中视频源信息和视频内容信息，生成该与该视频唯一对应的Track ID。将Track ID添加入指纹管理服务器的指纹列表中。(2)获取报文中的音频数据，提取该音频数据的指纹信息。针对不同类型的视频源(直播/非直播)，采用不同的指纹信息提取方案。(3)将Track ID、指纹信息、视频源信息和视频内容信息封装，保存至指纹数据库中。指纹数据库用来存储视频数据的指纹信息和视频的关联信息、视频的相关信息。

指纹数据库从逻辑上分成两个子数据库(1)直播视频指纹子数据库；(2)视频指纹子数据库，这两个数据库共同由指纹管理服务器进行统一管理，实现创建、更新、维护的操作。

直播视频指纹子数据库存储当前直播视频的相关信息：Track ID、指纹信息、视频信息、视频相关信息。每个频道对应唯一的Track ID。

Track ID：视频的指纹信息在指纹数据库中的唯一标识。

指纹信息：仅仅保留最新时长为T的直播视频的指纹信息。指纹信息伴随直播视频数据库的更新进行相应的更新。具体的实现方案在下一部分有具体阐述。

视频信息：与直播视频内容相关的信息以及视频存储信息。包括：视频频道、直播名称、直播内容、主持人，直播频道ur l、存储位置等。

视频相关信息：与直播视频相似的其他视频链接，视频中出现的商品或者地点的信息等。

直播视频指纹子数据库的更新：

(1)视频管理服务器收到直播间(也即视频源)发来的视频信息和视频流。提取其中视频信息部分。调用音频提取模块，提取视频的音频数据。调用音频预处理模块对获取的音频数据进行预处理操作；调用视频分割模块按时间顺序将视频流分割成时间长度为t(t远远小于T)的音频片段；将所有音频片段添加入网络传输模块1的发送队列中；将视频信息连同发送队列中长度为t的音频片段依次封装成视频库更新报文，上传至指纹管理服务器。

(2)指纹管理服务器接收到视频库更新报文，从报文中视频信息部分解析出该直播视频的频道，生成对应的Track ID；调用指纹提取模块，提取时间长度为t音频数据的指纹信息；指纹数据库的更新周期为P(T>>P＝kt,k为整数)。将新指纹长度为kt添加到指纹数据库的指纹列表中，同时移除原有的长度为kt的指纹信息，保证指纹列表中的指纹信息长度始终保持T。

在该系统中，对于用户终端，通过结合指纹识别算法、指纹数据库实时更新技术，使得系统能够快速识别直播视频。同时，在创建指纹数据库时，从立体声数据提取指纹信息，使用户终端获取的目标视频的指纹信息更大概率匹配上指纹数据库中的它对应的真实指纹信息，提高了识别过程的抗噪能力。

实施例五

该实施例五提供了一种直播多媒体文件的识别装置的实施例，该装置可设置于云端服务器，如图9所示，该装置包括获取模块610、定位模块620、更新模块630、匹配模块640和识别模块650。

其中，云端服务器与直播源的后台数据库服务器相互通信，实时获取到直播多媒体文件的实时数据流，在获取实时数据流的同时，也可获取到直播多媒体文件的标识信息。获取模块610用于根据输入的直播多媒体文件的实时数据流获取直播多媒体文件当前时段的特征信息。例如，获取到直播视频的视频流数据，采用特征提取模块对视频流数据进行处理，以提取直播视频对应音频指纹，得到直播视频当前时段的特征信息。

在云端服务器中设置有特征数据库，该特征数据库用于存储至少一条多媒体记录，多媒体记录包括多媒体文件的特征样本、与特征样本对应的标识信息，特征样本的时间长度为第一预定时间。定位模块620用于根据直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录。

更新模块630用于根据直播多媒体文件当前时段的特征信息更新待更新的多媒体记录中的特征样本，从而针对任意的直播多媒体文件，在特征数据库中总存储有当前最新一段时间内的特征信息。

匹配模块640用于接收识别目标多媒体文件的识别请求，匹配识别请求中包括的目标多媒体文件的特征信息与特征数据库中的特征样本，以定位目标多媒体文件对应的多媒体记录。识别模块650用于获取目标多媒体文件对应的多媒体文件的标识信息。

采用该实施例提供的直播多媒体文件的识别装置，预置一个特征数据库来存储直播多媒体文件的特征样本和标识信息，并通过获取直播源后台的实时数据流实时更新和维护该特征数据库，当有目标多媒体文件需要被识别时，根据目标多媒体文件的特征信息在特征数据库中找到对应的直播多媒体文件的标识信息，达到识别直播多媒体文件的目的。综上，采用该实施例提供的直播多媒体文件的识别装置，能够实时的识别直播多媒体文件，从而也能够实时的识别直播视频。

优选地，特征信息为多媒体文件的音频数据的指纹信息，获取模块610包括音频数据获取模块、音频片段分割模块和指纹信息提取模块。其中，音频数据获取模块用于根据实时数据流获取直播多媒体文件的当前时段的音频数据；音频片段分割模块用于将当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段；指纹信息提取模块用于提取每个音频片段的指纹信息，以得到直播多媒体的当前时段的特征信息，其中，第二预定时间小于第一预定时间。

优选地，特征样本为n个音频片段的指纹信息，直播多媒体文件的当前时段的特征信息为m个音频片段的指纹信息，m<n，n个音频片段的时间长度为第一预定时间，更新模块630包括删除模块和添加模块。其中，删除模块用于删除待更新的多媒体记录中特征样本的最早的m个指纹信息；添加模块用于将直播多媒体文件的当前时段的m个指纹信息按时间顺序置于待更新的多媒体记录的特征样本中。

进一步优选地，更新模块630具体执行以下步骤：

步骤S2：获取特征指针指向的指纹信息；

步骤S5：从第二特征样本的起始删除一个指纹信息；

进一步优选地，指纹信息提取模块包括立体声数据合成模块和时频特征提取模块。其中，立体声数据合成模块用于合并音频片段的左声道数据和右声道数据，以得到音频片段的立体声数据；时频特征提取模块用于提取音频片段的立体声数据的时频特征数据作为音频片段的指纹信息。

优选地，识别请求中包括的目标多媒体文件的特征信息为直播多媒体文件的当前时段的N个指纹信息,N个指纹信息中的一个指纹信息为目标多媒体的N个立体声数据中的一个立体声数据的时频特征数据，其中，N个立体声数据中的第i个立体声数据为si′＝ai′*l′+bi′*r′，ai′+bi′＝1，l′为直播多媒体文件的当前时段的左声道数据，r′为直播多媒体文件的当前时段的右声道数据，ai′和bi′为预设的参数，i＝1,2,3…N,匹配模块640包括匹配率确定模块和多媒体记录确定模块。其中，匹配率确定模块用于将目标多媒体文件的每个指纹信息分别与特征数据库中的特征样本匹配，以得到每个指纹信息的匹配率；多媒体记录确定模块用于将最大匹配率对应的特征样本所在的多媒体记录作为目标多媒体文件对应的多媒体记录。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种直播多媒体文件的识别方法，其特征在于，包括：

根据输入的直播多媒体文件的实时数据流获取所述直播多媒体文件当前时段的特征信息；

根据所述直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，所述特征数据库用于存储至少一条所述多媒体记录，所述多媒体记录包括多媒体文件的特征样本、与所述特征样本对应的标识信息，所述特征样本的时间长度为第一预定时间；

根据所述直播多媒体文件当前时段的特征信息更新所述待更新的多媒体记录中的特征样本；

接收识别目标多媒体文件的识别请求，匹配所述识别请求中包括的所述目标多媒体文件的特征信息与所述特征数据库中的特征样本，以定位所述目标多媒体文件对应的多媒体记录；

获取所述目标多媒体文件对应的多媒体文件的标识信息。

2.根据权利要求1 所述的直播多媒体文件的识别方法，其特征在于，所述特征信息为多媒体文件的音频数据的指纹信息，所述根据输入的直播多媒体文件的实时数据流获取所述直播多媒体文件当前时段的特征信息，包括：

根据所述实时数据流获取所述直播多媒体文件的当前时段的音频数据；

将所述当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，所述第二预定时间小于所述第一预定时间；以及

提取每个所述音频片段的指纹信息，以得到所述直播多媒体的当前时段的特征信息。

3.根据权利要求2 所述的直播多媒体文件的识别方法，其特征在于，所述特征样本为n个音频片段的指纹信息，所述直播多媒体文件的当前时段的特征信息为m 个音频片段的指纹信息，m<n，所述n 个音频片段的总时间长度为所述第一预定时间，根据所述直播多媒体文件的特征信息更新所述待更新的多媒体记录中的特征样本包括：

删除所述待更新的多媒体记录中特征样本的最早的m 个指纹信息；

将所述直播多媒体文件的当前时段的m 个指纹信息按时间顺序置于所述待更新的多媒体记录的特征样本中。

4.根据权利要求3 所述的直播多媒体文件的识别方法，其特征在于，所述根据所述直播多媒体文件当前时段的特征信息更新所述待更新的多媒体记录中的特征样本，具体包括：

步骤S1 ：特征指针指向所述直播多媒体文件当前时段的特征信息中的第一个指纹信息，并将计时器清零开始特征提取计时；

步骤S2 ：获取所述特征指针指向的指纹信息；

步骤S3 ：提取与所述直播多媒体的标识信息相对应的多媒体记录的特征样本，以得到第一特征样本；

步骤S4 ：将所述特征指针指向的指纹信息拼接至所述第一特征样本的末尾，以得到第二特征样本；

步骤S5 ：从所述第二特征样本的起始删除一个指纹信息；

步骤S6 ：判断计时器中的时间是否达到第三预定时间，若未达到所述第三预定时间，所述特征指针指向下一个指纹信息，并重复执行步骤S2 至S6 ；若达到所述第三预定时间，用得到的所述第二特征样本替换所述多媒体记录中所述多媒体标识对应的特征样本，其中，所述第三预定时间为所述m 个指纹信息对应的多媒体文件的播放时间的总时长。

5.根据权利要求2 所述的直播多媒体文件的识别方法，其特征在于，提取所述音频片段的指纹信息包括：

合并所述音频片段的左声道数据和右声道数据，以得到所述音频片段的立体声数据；以及

提取所述音频片段的立体声数据的时频特征数据作为所述音频片段的指纹信息。

6.根据权利要求2 所述的直播多媒体文件的识别方法，其特征在于，所述识别请求中包括的所述目标多媒体文件的特征信息为所述直播多媒体文件的当前时段的N 个指纹信息, 所述N 个指纹信息中的一个指纹信息为所述目标多媒体的N 个立体声数据中的一个立体声数据的时频特征数据，其中，所述N 个立体声数据中的第i 个立体声数据为si′＝ai′ *l′ +bi′ *r′，其中，ai′ +bi′＝ 1，l′为所述直播多媒体文件的当前时段的左声道数据，r′为所述直播多媒体文件的当前时段的右声道数据，ai′和bi′为预设的参数，i ＝ 1,2,3… N,

在所述方法中，所述匹配所述识别请求中包括的所述目标多媒体文件的特征信息与所述特征数据库中的特征样本，以定位所述目标多媒体文件对应的多媒体记录包括：

将所述目标多媒体文件的每个指纹信息分别与所述特征数据库中的特征样本匹配，得到所述每个指纹信息的匹配率；

将最大匹配率对应的特征样本所在的多媒体记录作为所述目标多媒体文件对应的多媒体记录。

7.一种直播多媒体文件的识别装置，其特征在于，包括：

获取模块，用于根据输入的直播多媒体文件的实时数据流获取所述直播多媒体文件当前时段的特征信息；

定位模块，用于根据所述直播多媒体文件的标识信息在特征数据库中定位待更新的多媒体记录，其中，所述特征数据库用于存储至少一条所述多媒体记录，所述多媒体记录包括多媒体文件的特征样本、与所述特征样本对应的标识信息，所述特征样本的时间长度为第一预定时间；

更新模块，用于根据所述直播多媒体文件当前时段的特征信息更新所述待更新的多媒体记录中的特征样本；

匹配模块，用于接收识别目标多媒体文件的识别请求，匹配所述识别请求中包括的所述目标多媒体文件的特征信息与所述特征数据库中的特征样本，以定位所述目标多媒体文件对应的多媒体记录；

识别模块，用于获取所述目标多媒体文件对应的多媒体文件的标识信息。

8.根据权利要求7 所述的直播多媒体文件的识别装置，其特征在于，所述特征信息为多媒体文件的音频数据的指纹信息，所述获取模块包括：

音频数据获取模块，用于根据所述实时数据流获取所述直播多媒体文件的当前时段的音频数据；

音频片段分割模块，用于将所述当前时段的音频数据按照时间顺序分割为第二预定时间的多个音频片段，其中，所述第二预定时间小于所述第一预定时间；以及

指纹信息提取模块，用于提取每个所述音频片段的指纹信息，以得到所述直播多媒体的当前时段的特征信息。

9.根据权利要求8 所述的直播多媒体文件的识别装置，其特征在于，所述特征样本为n个音频片段的指纹信息，所述直播多媒体文件的当前时段的特征信息为m 个音频片段的指纹信息，m<n，所述n 个音频片段的总时间长度为所述第一预定时间，所述更新模块包括：

删除模块，用于删除所述待更新的多媒体记录中特征样本的最早的m 个指纹信息；

添加模块，用于将所述直播多媒体文件的当前时段的m 个指纹信息按时间顺序置于所述待更新的多媒体记录的特征样本中。

10.根据权利要求9 所述的直播多媒体文件的识别装置，其特征在于，所述更新模块具体执行以下步骤：

步骤S2 ：获取所述特征指针指向的指纹信息；

步骤S5 ：从所述第二特征样本的起始删除一个指纹信息；