[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104156478A - 一种互联网视频的字幕匹配与检索方法 - Google Patents

一种互联网视频的字幕匹配与检索方法 Download PDF

Info

Publication number
CN104156478A
CN104156478A CN201410423582.4A CN201410423582A CN104156478A CN 104156478 A CN104156478 A CN 104156478A CN 201410423582 A CN201410423582 A CN 201410423582A CN 104156478 A CN104156478 A CN 104156478A
Authority
CN
China
Prior art keywords
sequence
video
coupling
matching
captions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410423582.4A
Other languages
English (en)
Other versions
CN104156478B (zh
Inventor
程国艮
袁翔宇
王宇晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese translation language through Polytron Technologies Inc
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201410423582.4A priority Critical patent/CN104156478B/zh
Publication of CN104156478A publication Critical patent/CN104156478A/zh
Application granted granted Critical
Publication of CN104156478B publication Critical patent/CN104156478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)

Abstract

本发明是一种互联网视频的字幕匹配与检索方法,包括以下步骤:针对已有文本字幕的视频文件,构建索引;得到按照Sms划分的视频的基础音频特征序列Z序列:Z1Z2Z3Z4Z5...Zn和积分和序列,T序列:T1T2T3T4...Tn-9;每个字幕对应一个Z序列片段对视频字幕的检索,在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A1A2A3...An,片段Seg的T序列,设为序列B:B1B2B3...Bm 计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,查找得到距离最小的视频V,作为匹配得到的视频;对匹配得到的视频里的每个字幕,进行反匹配寻找最佳匹配,实现字幕匹配。本发明基于音频数据来建立索引,提供一个针对格式不同视频的一种字幕索引机制及字幕检测方法,高效而且准确。

Description

一种互联网视频的字幕匹配与检索方法
技术领域
本发明涉及计算机软件技术领域,尤指一种互联网视频的字幕匹配与检索方法。
背景技术
互联网上的视频多种多样,相同内容的视频,可能编码格式不一样,可能码率不一样,可能分辨率不一样,可能一个视频是另一个视频的片段。本专利提供一个针对格式不同视频的一种字幕索引机制及字幕检测方法。在这种情况下,很难高效并且准备的进行视频字幕的索引,实现字幕的匹配。
发明内容
为解决上述问题,本发明提供一种基于音频数据来建立索引的互联网视频的字幕匹配与检索方法。
本发明是一种互联网视频的字幕匹配与检索方法,包括以下步骤:
步骤一、针对已有文本字幕的视频文件,构建索引;
(1)对视频的音频数据进行分析,如果视频有多个声道,则将多声道数据合并为1声道;
(2)将音频数据采样率归一化; 
(3)对音频数据进行分帧; 
(4)对于每一帧,计算过零率,得到按照 S ms 划分的视频的基础音频特征序列Z序列:Z1Z2Z3Z4Z5...Zn;
(5)对于每一个视频,除了保存基础音频特征序列外,还保存一个时间窗口为1000ms的积分和序列,T序列:T1T2T3T4...Tn-9,其中,Tn = Zn+Zn+1+...+Zn+9;每个字幕对应一个Z序列片段;
步骤二:视频字幕的检索
(1)对于互联网上的视频 I,按照上述步骤一中(1)、(2)步骤进行音频数据的归一化处理;
(2)通过端点检测算法,区分出人声和非人声;
(3)对视频I,在其中取出人声密集的片段Seg,片段Seg的长度为10-30秒;
(4)按照上述步骤一的方法,计算出片段Seg的基础音频特征序列Z序列和积分和序列T序列;
(5)在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A1A2A3...An,片段Seg的T序列,设为序列B:B1B2B3...Bm,计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,计算方法如下:
、从序列A的头部取出和序列B同样长度的数据:A1A2A3...Am,计算该数据与序列B:B1B2B3...Bm:的欧式距离;
、将子序列偏移k,即序列A1+kA2+kA3+k...Am+k,计算与序列B的欧式距离;
、将子序列偏移2k,即序列A1+2kA2+2kA3+2k...Am+2k,计算与序列B的欧式距离;
、如此,直到扫描完全部序列;
、找出匹配欧式距离最短的子序列 A1+jkA2+jkA3+jk...Am+jk,进行更细致的扫描,也找出序列集合 A1+jk+dA2+jk+dA3+jk+d...Am+jk+d,其中 -m/2 <= d <= m/2 里,与序列BB1B2B3...Bm欧式距离最短的序列,作为最佳匹配序列;最佳匹配序列与序列B的距离为片段Seg与视频的距离;
(6)查找得到距离最小的视频V,作为匹配得到的视频;
(7)对匹配得到的视频里的每个字幕,进行反匹配,计算出输入视频的积分序列,作为A序列,按照步骤二(5)的流程,以每个字幕对应的Z序列片段为B序列,寻找最佳匹配,实现字幕匹配。
步骤一(2)中采样率归一化为16bit,8,000 Hz。
步骤一(3)对音频数据进行分帧,按照帧长L ms,帧移S ms进行分帧。
步骤一(4)中取 S 为 10 ms。
本发明的有益技术效果在于:本发明基于音频数据来建立索引,通过音频特征序列的构建(积分和序列)、基于积分和序列查找最有匹配视频的方法及基于积分和序列进行字幕匹配的方法,提供一个针对格式不同视频的一种字幕索引机制及字幕检测方法,高效而且准确。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种互联网视频的字幕匹配与检索方法,包括以下步骤:
步骤一、针对已有文本字幕的视频文件,构建索引;
(1)对视频的音频数据进行分析,如果视频有多个声道,则将多声道数据合并为1声道。
(2)将音频数据采样率归一化,采样率归一化为16bit,8,000 Hz,也可以是其他采样率。 
(3)对音频数据进行分帧,按照帧长L ms,帧移S ms进行分帧。 
(4)对于每一帧,计算过零率,得到按照 S ms 划分的视频的基础音频特征序列Z序列:Z1Z2Z3Z4Z5...Zn,取 S 为 10 ms。
(5)对于每一个视频,除了保存基础音频特征序列外,还保存一个时间窗口为1000ms的积分和序列,T序列:T1T2T3T4...Tn-9,其中,Tn = Zn+Zn+1+...+Zn+9;每个字幕对应一个Z序列片段。
步骤二:视频字幕的检索
(1)对于互联网上的视频 I,按照上述步骤一中(1)、(2)步骤进行音频数据的归一化处理。
(2)通过端点检测算法,区分出人声和非人声。
(3)对视频I,在其中取出人声密集的片段Seg,片段Seg的长度为10-30秒。
(4)按照上述步骤一的方法,计算出片段Seg的基础音频特征序列Z序列和积分和序列T序列。
(5)在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A1A2A3...An,片段Seg的T序列,设为序列B:B1B2B3...Bm,计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,计算方法如下:
、从序列A的头部取出和序列B同样长度的数据:A1A2A3...Am,计算该数据与序列B:B1B2B3...Bm:的欧式距离;
、将子序列偏移k,即序列A1+kA2+kA3+k...Am+k,计算与序列B的欧式距离;
、将子序列偏移2k,即序列A1+2kA2+2kA3+2k...Am+2k,计算与序列B的欧式距离;
、如此,直到扫描完全部序列;
、找出匹配欧式距离最短的子序列 A1+jkA2+jkA3+jk...Am+jk,进行更细致的扫描,也找出序列集合 A1+jk+dA2+jk+dA3+jk+d...Am+jk+d,其中 -m/2 <= d <= m/2 里,与序列BB1B2B3...Bm欧式距离最短的序列,作为最佳匹配序列;最佳匹配序列与序列B的距离为片段Seg与视频的距离;
(6)查找得到距离最小的视频V,作为匹配得到的视频。
(7)对匹配得到的视频里的每个字幕,进行反匹配,计算出输入视频的积分序列,作为A序列,按照步骤二(5)的流程,以每个字幕对应的Z序列片段为B序列,寻找最佳匹配,实现字幕匹配。

Claims (4)

1.一种互联网视频的字幕匹配与检索方法,其特征在于, 包括以下步骤:
步骤一、针对已有文本字幕的视频文件,构建索引;
(1)对视频的音频数据进行分析,如果视频有多个声道,则将多声道数据合并为1声道;
(2)将音频数据采样率归一化; 
(3)对音频数据进行分帧; 
(4)对于每一帧,计算过零率,得到按照 S ms 划分的视频的基础音频特征序列Z序列:Z1Z2Z3Z4Z5...Zn;
(5)对于每一个视频,除了保存基础音频特征序列外,还保存一个时间窗口为1000ms的积分和序列,T序列:T1T2T3T4...Tn-9,其中,Tn = Zn+Zn+1+...+Zn+9;每个字幕对应一个Z序列片段;
步骤二:视频字幕的检索
(1)对于互联网上的视频 I,按照上述步骤一中(1)、(2)步骤进行音频数据的归一化处理;
(2)通过端点检测算法,区分出人声和非人声;
(3)对视频I,在其中取出人声密集的片段Seg,片段Seg的长度为10-30秒;
(4)按照上述步骤一的方法,计算出片段Seg的基础音频特征序列Z序列和积分和序列T序列;
(5)在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A1A2A3...An,片段Seg的T序列,设为序列B:B1B2B3...Bm,计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,计算方法如下:
、从序列A的头部取出和序列B同样长度的数据:A1A2A3...Am,计算该数据与序列B:B1B2B3...Bm:的欧式距离;
、将子序列偏移k,即序列A1+kA2+kA3+k...Am+k,计算与序列B的欧式距离;
、将子序列偏移2k,即序列A1+2kA2+2kA3+2k...Am+2k,计算与序列B的欧式距离;
、如此,直到扫描完全部序列;
、找出匹配欧式距离最短的子序列 A1+jkA2+jkA3+jk...Am+jk,进行更细致的扫描,也找出序列集合 A1+jk+dA2+jk+dA3+jk+d...Am+jk+d,其中 -m/2 <= d <= m/2 里,与序列BB1B2B3...Bm欧式距离最短的序列,作为最佳匹配序列;最佳匹配序列与序列B的距离为片段Seg与视频的距离;
(6)查找得到距离最小的视频V,作为匹配得到的视频;
(7)对匹配得到的视频里的每个字幕,进行反匹配,计算出输入视频的积分序列,作为A序列,按照步骤二(5)的流程,以每个字幕对应的Z序列片段为B序列,寻找最佳匹配,实现字幕匹配。
2.根据权利要求1所述的互联网视频的字幕匹配与检索方法,其特征在于,步骤一(2)中采样率归一化为16bit,8,000 Hz。
3.根据权利要求1所述的互联网视频的字幕匹配与检索方法,其特征在于,步骤一(3)对音频数据进行分帧,按照帧长L ms,帧移S ms进行分帧。
4.根据权利要求1所述的互联网视频的字幕匹配与检索方法,其特征在于,步骤一(4)中取 S 为 10 ms。
CN201410423582.4A 2014-08-26 2014-08-26 一种互联网视频的字幕匹配与检索方法 Active CN104156478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410423582.4A CN104156478B (zh) 2014-08-26 2014-08-26 一种互联网视频的字幕匹配与检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410423582.4A CN104156478B (zh) 2014-08-26 2014-08-26 一种互联网视频的字幕匹配与检索方法

Publications (2)

Publication Number Publication Date
CN104156478A true CN104156478A (zh) 2014-11-19
CN104156478B CN104156478B (zh) 2017-07-07

Family

ID=51881976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410423582.4A Active CN104156478B (zh) 2014-08-26 2014-08-26 一种互联网视频的字幕匹配与检索方法

Country Status (1)

Country Link
CN (1) CN104156478B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101573A (zh) * 2016-06-24 2016-11-09 中译语通科技(北京)有限公司 一种视频标注的锚定及匹配方法
CN114579806A (zh) * 2022-04-27 2022-06-03 阿里巴巴(中国)有限公司 视频检测方法、存储介质和处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367906A (zh) * 1999-07-31 2002-09-04 朴奎珍 使用数字音频和字幕数据的学习方法和装置
US7378588B1 (en) * 2006-09-12 2008-05-27 Chieh Changfan Melody-based music search
CN102724598A (zh) * 2011-12-05 2012-10-10 新奥特(北京)视频技术有限公司 一种拆分新闻条目的方法
CN102937972A (zh) * 2012-10-15 2013-02-20 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
US20130262089A1 (en) * 2012-03-29 2013-10-03 The Echo Nest Corporation Named entity extraction from a block of text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367906A (zh) * 1999-07-31 2002-09-04 朴奎珍 使用数字音频和字幕数据的学习方法和装置
US7378588B1 (en) * 2006-09-12 2008-05-27 Chieh Changfan Melody-based music search
CN102724598A (zh) * 2011-12-05 2012-10-10 新奥特(北京)视频技术有限公司 一种拆分新闻条目的方法
US20130262089A1 (en) * 2012-03-29 2013-10-03 The Echo Nest Corporation Named entity extraction from a block of text
CN102937972A (zh) * 2012-10-15 2013-02-20 上海外教社信息技术有限公司 一种视听字幕制作系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨友庆等: "基于视频的字幕检索与提取", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101573A (zh) * 2016-06-24 2016-11-09 中译语通科技(北京)有限公司 一种视频标注的锚定及匹配方法
CN114579806A (zh) * 2022-04-27 2022-06-03 阿里巴巴(中国)有限公司 视频检测方法、存储介质和处理器

Also Published As

Publication number Publication date
CN104156478B (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN107305541B (zh) 语音识别文本分段方法及装置
US20120150890A1 (en) Method of searching for multimedia contents and apparatus therefor
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
US9378423B2 (en) Data recognition in content
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
US20140161263A1 (en) Facilitating recognition of real-time content
CN106649713B (zh) 一种基于内容的电影可视化处理方法及其系统
CN109644283B (zh) 基于音频能量特性的音频指纹识别
RU2011104001A (ru) Способ и дискриминатор для классификации различных сегментов сигнала
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
WO2020228418A1 (zh) 视频处理方法及装置、电子设备和存储介质
TWI569263B (zh) 聲頻訊號的訊號擷取方法與裝置
US20150170044A1 (en) Pattern based audio searching method and system
CN108307250B (zh) 一种生成视频摘要的方法及装置
CN104463139A (zh) 一种音频情感驱动下的体育视频精彩事件检测方法
CN103813169A (zh) 视频编解码器中可伸缩的对象表示方法和装置
CN104156478A (zh) 一种互联网视频的字幕匹配与检索方法
CN108735230B (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN106550268B (zh) 视频处理方法和视频处理装置
CN102214219B (zh) 音视频内容检索系统及其方法
CN103294696A (zh) 音视频内容检索方法及系统
Peymanfard et al. Word-level Persian lipreading dataset
CN111382302B (zh) 一种基于变速模板的音频样例检索方法
US10515656B2 (en) Pitch extraction device and pitch extraction method by encoding a bitstream organized into equal sections according to bit values
Mahmud et al. MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee after: Chinese translation language through Polytron Technologies Inc

Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing

Patentee before: Mandarin Technology (Beijing) Co., Ltd.

CP01 Change in the name or title of a patent holder