CN105245917A - 一种多媒体语音字幕生成的系统和方法 - Google Patents
一种多媒体语音字幕生成的系统和方法 Download PDFInfo
- Publication number
- CN105245917A CN105245917A CN201510628334.8A CN201510628334A CN105245917A CN 105245917 A CN105245917 A CN 105245917A CN 201510628334 A CN201510628334 A CN 201510628334A CN 105245917 A CN105245917 A CN 105245917A
- Authority
- CN
- China
- Prior art keywords
- captions
- audio
- unit
- speech
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 33
- 238000005520 cutting process Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 24
- 241001672694 Citrus reticulata Species 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 206010028916 Neologism Diseases 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Circuits (AREA)
Abstract
本发明提供一种多媒体语音字幕生成系统和方法,所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块,所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上,所述控制模块另一端连接云端服务器,所述方法通过对音视频的获取、分析、识别、切分、生成字幕、校准和后期加工等步骤,完成多媒体语音字幕的自动生成,解决了影视字幕依靠手工拍字幕局限性,无论音视频文件是否具有语音标准文档(即台词),均可自动高效连续生成字幕,人性化的人机交互系统可根据实际情况选择字幕样式,包括每行字数、行数和字体等,多次精准校对使生成的字幕与视频匹配率达100%。
Description
技术领域
本发明属于多媒体字幕领域,具体涉及一种多媒体语音字幕生成的系统和方法。
背景技术
影视节目上字幕是国家广电总局的规定和硬性要求。多媒体中的音频语音及时转换成文字并生成字幕,目前是属于速记和字幕员的任务。影视节目中的音频语音生成字幕可分为两类:
第一类:没有撰写好的语音标准文档(即台词)
这一类影视节目的音频语音字幕的生成包含两方面的工作。首先把没有语音标准文档(即台词)的音频语音转换为文字,俗称“扒词”。目前仍为人工键盘速记完成,电视台和影视公司一般外包给速记公司完成。其次,根据“扒好的词”,由字幕员应用相应的字幕软件手工完成时间轴,俗称为“拍字幕”。这两项工作对于影视公司来说,是“烦人”的工作,且效率低,工序繁多。电视台和影视公司为此要付出大量的人力和物力。
第二类:已经具有撰写好的语音标准文档(即台词)
这一类影视作品的音视频语音字幕的生成一般是植入“台词”后,通过拍字幕软件手工完成时间轴和字幕后期。其中台词植入后的手工拍字幕仍要付出大量的人力物力。
在现有技术中(专利号:201220227996.6(已授权)、专利申请号201310148995.1(实质审查中)、201510364419X)实现了精准完成连续自然语音文本化,该技术很好的解决了影视字幕前期的“扒词”的难题;在此基础上,根据时间戳,进一步实现了为影视字幕自动生成SRT或可适用于FinalCutPro(该软件运行于MACOS)的XML文件,解决了影视字幕依靠手工“拍字幕”的难题。
发明内容
为了解决上述问题,本发明提供一种多媒体语音字幕生成系统,所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块,所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上,所述控制模块另一端连接云端服务器;
进一步地,所述控制模块包括音视频获取单元和存储集成单元,所述音视频获取单元连接所述存储集成单元,所述音视频获取单元输出为获取的要生成字幕的多媒体音视频文件或音视频流,所述存储集成单元内包括获取的音视频文件、执行标准和系统所生成的文件;
进一步地,所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成单元,所述字数选择单元通过行数选择单元连接所述显示标准生成单元,所述字数选择单元和显示标准生成单元另一端均连接所述控制模块;
进一步地,所述字数选择单元为控制模块提供的影视节目有关规定或要求屏幕单行显示的最多字数,所述行数选择单元为根据影视节目有关规定或要求所确定显示行数,所述显示标准生成模块输出为自动进行换行换帧显示的显示标准;
进一步地,所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元,所述音频分析单元通过所述音频识别单元连接所述音频切分单元;
进一步地,所述音频分析单元输出为音视频文件分析出的独立于视频文件中的无语音段、音乐段和噪音段的字幕语音段,所述音频识别单元包括无语音标准文档模型和有语音标准文档模型;
进一步地,所述无语音标准文档模型,音频识别单元输出为通过云端语音识别引擎转化文本,完成“扒词”工作的字幕语音段,所述有语音标准文档模型输出为包括字幕和语音的字幕语音段;
进一步地,所述云端语音识别引擎包括汉语语音分节处理模块和汉语语音识别模块;所述的汉语语音分节处理模块将输入的语音切分成小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,汉语语音分节处理模块输出为针对输入语音的分段时间信息;所述汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元;
进一步地,所述音频切分单元输出为语音切分模型、断句分行模型、显示标准切分模型和语音字幕合成模型,所述语音切分模型将影视音频语音,依语意自动切分为分节语音片段,所述断句分行模型将影视作品的标准文档依语意断句分行显示,所述显示标准切分模型由波形图调整段句的切分,保证与显示标准相同,所述语音字幕合成模型将分行显示的显示标准文件调入音频片段进行语音与字幕的合成;
进一步地,所述校对分段模块包括字幕校对单元和字幕分段单元,所述字幕校对单元连接所述字幕分段单元;
进一步地,所述字幕校对单元包括语音波形校对模型,所述字幕语音波形校对模型对字幕再次复读,根据复读的语音波形图进行字幕与文字的校对,每一段对应一个字幕行,所述字幕分段单元为根据复读的语音波形图调整时间戳对字幕文字根据语意进行分段,对分段的字幕进行分隔;
进一步地,所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元,所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元;
进一步地,所述三维一体生成单元为校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档,输出带时间戳的字幕文档,所述字幕文档可以是但不限于是SRT或XML格式,所述字幕编辑效果单元将带时间戳的字幕文档输入字幕效果编辑单元,继续进行字幕效果编辑,包括字体、字号的选择和字幕动态效果的编辑,实时编辑,实时显示编辑效果,所述字幕生成单元将编辑好的字幕生成文档输入到所述控制模块的存储集成单元,自动生成加载字幕的影视文件;
一种多媒体语音字幕生成方法,所述字幕生成方法包括以下步骤:
A、获取已经完成采集的音视频文件或音视频流;
B、字幕字数、行数选择与生成显示标准:选择每帧字幕的行数和每行最大字数;
C、将获得音视频流或音视频文件进行预处理:依语意切分音频语音与空白段;
D、对于没有语音标准文档影视节目,依据云端服务器提供的语音识别引擎,按照语音识别方法完成“扒词”;
E、对于有语音标准文档的影视节目的字幕,将根据显示标准和句意分行显示文本文件;
F、依据语音波形图调整时间戳,并对调整时间戳后的语音文本依据波形图及回放的语音进行修改;
G、选择时间戳文档的类型:所述时间戳文档的类型包括SRT和XML格式或其他格式;
H、进行字幕效果编辑;
I、生成字幕并输出;
进一步地,所述步骤C中,将获得音视频流或音视频文件进行预处理,对音视频流或音视频文件分析、判断,依语意对音频中的语音段按句进行切分,并分离出音频中的噪音段、音乐段和空白段,其中多人语音的叠加按噪音处理,然后对每一段的起始点和结束点进行时间标序,取得每一段的时间戳;
进一步地,所述步骤E中,对于有语音标准文档的影视节目的字幕,首先由音视频流或音视频文件中分离出音频,然后对音频语音,依语意自动切分为分节语音片段,并分离出音频中的噪音段、音乐段和空白段;再将影视作品的标准文档依语意断句分行显示;接着将分行显示的标准文本文件调入系统音频片段文字显示行,最后依据音频波形图,调整段句的切分,保证与显示标准句数和行数相同;
进一步地,所述步骤F中,依据语音波形图调整时间戳为通过计算机程序切分所获取时间戳的误差,并对调整时间戳后的语音文本依据波形图进行修改,其修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;对上述修改后的语音文本进行精准校对,并对精准校对后的语音文本,依语意分段处理。
本发明的有益效果:本发明解决了影视字幕依靠手工拍字幕局限性,带来的有益效果如下:1、实时采集音视频语音信息,信息采集不间断,到毫秒级,采集率达到100%;信息丢失率为0;2、自动化将多媒体中的音频语音及时转换成文字并生成字幕;3、无论音视频文件是否具有语音标准文档(即台词),均可高效连续生成字幕;4、人性化的人机交互系统可根据实际情况选择字幕样式,包括每行字数、行数和字体等;5、多次精准校对使生成的字幕与视频匹配率达100%。
附图说明
图1为本发明字幕生成系统模块图;
图2为本发明字幕生成方法流程图;
图3为本发明字幕生成方法步骤B细节流程图;
图4为本发明字幕生成方法步骤C细节流程图;
图5为本发明字幕生成方法步骤F细节流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:
如图1所示为本发明一种多媒体语音字幕生成系统的模块图,所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块。所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上,所述控制模块另一端连接云端服务器。
所述控制模块包括音视频获取单元和存储集成单元,所述音视频获取单元连接所述存储集成单元,所述音视频获取单元获取要生成字幕的多媒体音视频文件或音视频流,所述存储集成单元用以存储音视频文件、云端执行标准和系统所生成的文件。
所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成,所述字数选择单元连接一端连接所述音视频获取模块另一端连接所述行数选择单元,所述显示标准生成连接所述行数选择单元另一端,所述字数选择单元根据影视节目有关规定或要求,确定屏幕单行显示的最多字数,系统提供由一至任意字数的选择功能,所述行数选择单元根据字数选择单元提供的字数信息确定显示行数,系统提供单行、多行显示的选择功能,所述显示标准生成即生成显示标准,所述显示标准根据字数选择单元和行数选择单元的结果自动进行换行换帧显示。
所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元,所述音频分析单元通过所述音频识别单元连接所述音频切分单元,所述音频分析单元对音视频文件进行分析,找出视频文件中的无语音段、音乐段和噪音段,将上述分段分离独立于字幕语音段,所述音频识别单元分析字幕语音段,当该字幕语音段为没有语音标准文档(即台词)影视节目,音频识别单元采用语音识别技术,将字幕语音段通过云端语音识别引擎转化为文本,完成“扒词”工作,所述云端语音识别引擎包括汉语语音分节处理模块、汉语语音识别模块,所述云端语音识别引擎具体处理并实现上述识别工作,其中所述的汉语语音分节处理模块将输入的大段语音切分成细的小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,每一小节的长短随讲话人的具体内容而不同,一般在10-20几个字。所述汉语语音分节处理模块输入的“语音数据”为引擎的“语音识别器”需要的语音汉语普通话语音数据。引擎的输出为针对输入语音的分段时间信息。
所述汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元。
a、汉语语音特征抽取单元:模块输入的为经过麦克风USB声卡录制的16K采样,PCM线性16位的分段后的汉语语音数据,该模块输出的为针对输入分段语音的美尔倒谱特征。
b、汉语语音到文字转换识别核心单元:输入的为被识别经过麦克风USB声卡录制的16K采样,PCM线性16位语音美尔倒谱特征,输出为本段语音的文字内容。
c、汉语语音文字关联信息单元:对于识别模块输出的文字和原始的经过麦克风USB声卡录制的16K采样,PCM线性16位语音建立时间对应关系。
d、汉语强制切分单元:输入为经过麦克风USB声卡录制的16K采样,PCM线性16位语音和该段语音被识别的标准文字答案,输出文字和语音的时间对应的信息。
e、汉语拼音标注单元:为用户输入的文字按照语言模型的要求进行拼音的标注,以备语言模型识别。
f、汉语日常词汇单元:该单元为标准汉语拼音标注使用,及为语言模型提供引导知识。
g、汉语声学模型单元:该模型单元为语音识别引擎提供声学指导知识。
上述的声学模型由下述步骤创建而成,获取多个标准教师语音;从所述多个标准教师语音中选择均衡的语音参数,即为所有标准语音教师的语音均数值,其中,所述的语音参数包括:声学参数、音高、节奏信息;
根据所述多个标准教师语音中的均衡的语音参数合成声调匹配语音;根据声调匹配语音及结合TD-PSOLA算法合成所述汉语声学模型单元。
h、汉语语言模型单元:该模型为语音识别引擎提供语言指导知识。
所述该汉语语音模型为现有技术中适用于提供语音指导知识及库的语音模型即可。
j、新词自适应识别单元:提供相应的工具,以便能加入新词并重新生成语言模型。对于系统用计算机进行文本输入第一次出现的专业词语的文本和拼音,以后语音中再出现该词语,系统就能够识别出来。
将语音流上传给语音识别引擎以后,按照上述的模块及单元自动完成没有语音标准文档(即台词)的字幕语音段的语音识别,当该字幕语音段为有语音标准文档(即台词)的影视节目或已经完成“扒词”工作,所述音频切分单元依据a语音切分模型、b断句分行模型、c显示标准切分模型和d语音字幕合成模型对字幕语音段进行切分处理,切分处理包括以下步骤:
a将影视音频语音,依语意自动切分为分节语音片段;
b将影视作品的标准文档(即台词)依语意断句分行显示;
c根据波形图调整段句的切分,保证与显示标准相同;
d将分行显示的显示标准文件调入系统音频片段文字显示行。
所述校对分段模块包括字幕校对单元和字幕分段单元,所述字幕校对单元连接所述字幕分段单元,所述字幕校对单元对字幕语音进行复读,依据复读的语音波形图进行字幕与文字的校对,每一段对应一个字幕行,所述字幕分段单元根据语音波形图调整时间戳,并对字幕文字根据语意进行分段,对分段的字幕进行分隔,依语意分段处理在校对和分段的过程中始终保持视频语音的文字与语音、图像的一一对应的关联。
所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元,所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元,所述三维一体生成单元将校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档,输出带时间戳的字幕文档,例如:SRT或XML文档,所述字幕编辑效果单元将的字幕文档(例如:SRT或XML文档)输入字幕效果编辑单元,继续进行字幕效果编辑,包括字体、字号的选择和字幕动态效果的编辑,实时编辑,实时显示编辑效果,所述字幕生成单元将编辑好的字幕生成文档,输入到控制模块的存储集成单元,自动生成加载字幕的影视文件,也可输出制作DVD光盘。
如图2所示为一种多媒体语音字幕生成方法的流程图,所述字幕生成方法包括以下步骤:
A、通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件;
B、字幕字数、行数选择与生成显示标准:选择每帧字幕的行数和每行最大字数;
C、将获得音视频流或音视频文件进行预处理:依语意切分音频语音与空白段;
D、对于没有语音标准文档(即台词)影视节目,依据云端服务器提供的语音识别引擎,按照语音识别方法完成“扒词”;
E、对于有语音标准文档(即台词)的影视节目的字幕,将根据显示标准和句意分行显示文本文件;
F、依据语音波形图调整时间戳,对调整时间戳后的语音文本依据波形图进行修改,修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;对上述修改后的语音文本进行精准校对,并对精准校对后的语音文本,依语意分段处理;
G、选择时间戳的文档类型:例如:SRT或XML;
H、进行字幕效果编辑;
I、生成字幕并输出。
所述步骤A中所述通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件,包括连接到计算机的音视频输入设备,实施现场进行音视频语音信息的采集,然后传送给多媒体语音字幕生成系统,实时进行字幕处理。
所述步骤B中所述字幕字数、行数选择与生成显示标准,具体为:如附图3所示的流程图。所述显示标准会选择每帧字幕的行数和每行最大字数。
所述步骤C中,将获得音视频流或音视频文件进行预处理,具体为:如图4所示,对音视频流或音视频文件分析、判断,依语意对音频中的语音段按句进行切分,并分离出音频中的噪音段、音乐段和空白段,其中多人语音的叠加按噪音处理。然后对每一段的起始点和结束点进行时间标序,取得每一段的时间戳。
所述步骤E中,对于有语音标准文档(即台词)的影视节目的字幕,将分行显示的标准文本文件调入系统音频片段文字显示行,具体为:如附图4,首先由音视频流或音视频文件中分离出音频,然后对音频语音,依语意自动切分为分节语音片段,并分离出音频中的噪音段、音乐段和空白段。
进一步的将影视作品的标准文档(即台词)依语意断句分行显示。
进一步的将分行显示的标准文本文件调入系统音频片段文字显示行。
进一步的依据音频波形图,调整段句的切分,保证与显示标准句数(行数)相同。
所述步骤F中,依据语音波形图调整时间戳具体为:如图5所示,通过计算机程序切分所获取时间戳误差,依据语音波形图及分段回放的语音,进行精准校对与分段处理。
以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种多媒体语音字幕生成系统,其特征在于,所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块,所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上,所述控制模块另一端连接云端服务器。
2.根据权利要求1所述的字幕生成系统,其特征在于,所述控制模块包括音视频获取单元和存储集成单元,所述音视频获取单元连接所述存储集成单元,所述音视频获取单元输出为获取的生成字幕的多媒体音视频文件或音视频流,所述存储集成单元内包括获取的音视频文件、执行标准和系统所生成的文件。
3.根据权利要求1所述的字幕生成系统,其特征在于,所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成单元,所述字数选择单元通过行数选择单元连接所述显示标准生成单元,所述字数选择单元和显示标准生成单元另一端均连接所述控制模块;
所述字数选择单元为控制模块提供的影视节目有关规定或要求屏幕单行显示的最多字数,所述行数选择单元为根据影视节目有关规定或要求确定显示行数,所述显示标准生成模块输出为自动进行换行换帧显示的显示标准。
4.根据权利要求1所述的字幕生成系统,其特征在于,所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元,所述音频分析单元通过所述音频识别单元连接所述音频切分单元;
所述音频分析单元输出为音视频文件分析出的独立于视频文件中的无语音段、音乐段和噪音段的字幕语音段,所述音频识别单元包括无语音标准文档模型和有语音标准文档模型;
所述无语音标准文档模型,音频识别单元输出为通过云端语音识别引擎转化文本,完成“扒词”工作的字幕语音段,所述有语音标准文档模型输出为包括字幕和语音的字幕语音段;
所述音频切分单元输出为语音切分模型、断句分行模型、显示标准切分模型和语音字幕合成模型,所述语音切分模型将影视音频语音,依语意自动切分为分节语音片段,所述断句分行模型将影视作品的标准文档依语意断句分行显示,所述显示标准切分模型由波形图调整段句的切分,保证与显示标准相同,所述语音字幕合成模型将分行显示的显示标准文件调入音频片段进行语音与字幕的合成;
所述云端语音识别引擎包括汉语语音分节处理模块和汉语语音识别模块;所述的汉语语音分节处理模块将输入的语音切分成小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,汉语语音分节处理模块输出为针对输入语音的分段时间信息;所述汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元。
5.根据权利要求1所述的字幕生成系统,其特征在于,所述校对分段模块包括字幕校对单元和字幕分段单元,所述字幕校对单元连接所述字幕分段单元;
所述字幕校对单元包括语音波形校对模型,所述字幕语音波形校对模型对字幕再次复读,根据复读的语音波形图进行字幕与文字的校对,每一段对应一个字幕行,所述字幕分段单元为根据复读的语音波形图调整时间戳,并对字幕文字根据语意进行分段,对分段的字幕进行分隔。
6.根据权利要求1所述的字幕生成系统,其特征在于,所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元,所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元;
所述三维一体生成单元为校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档,输出带时间戳的字幕文档,所述字幕文档可以是但不限于是SRT或XML格式,所述字幕编辑效果单元将带时间戳的字幕文档输入字幕效果编辑单元,继续进行字幕效果编辑,包括字体、字号的选择和字幕动态效果的编辑,实时编辑,实时显示编辑效果,所述字幕生成单元将编辑好的字幕生成文档输入到所述控制模块的存储集成单元,自动生成加载字幕的影视文件。
7.一种多媒体语音字幕生成方法,应用上述权利要求1-6之一的字幕生成系统,其特征在于,所述字幕生成方法包括以下步骤:
A、获取已经完成采集的音视频文件或音视频流;
B、字幕字数、行数选择与生成显示标准:选择每帧字幕的行数和每行最大字数;
C、将获得音视频流或音视频文件进行预处理:依语意切分音频语音与空白段;
D、对于没有语音标准文档影视节目,依据云端服务器提供的语音识别引擎,按照语音识别方法完成“扒词”;
E、对于有语音标准文档的影视节目的字幕,将根据显示标准和句意分行显示文本文件;
F、依据语音波形图调整时间戳,并对调整时间戳后的语音文本依据波形图及回放的语音进行修改;
G、选择时间戳文档的类型,所述时间戳文档的类型包括SRT和XML或其他类型;
H、进行字幕效果编辑;
I、生成字幕并输出。
8.根据权利要求7所述的字幕生成方法,其特征在于,所述步骤C中,将获得音视频流或音视频文件进行预处理,对音视频流或音视频文件分析、判断,依语意对音频中的语音段按句进行切分,并分离出音频中的噪音段、音乐段和空白段,其中多人语音的叠加按噪音处理,然后对每一段的起始点和结束点进行时间标序,取得每一段的时间戳。
9.根据权利要求7所述的字幕生成方法,其特征在于,所述步骤E中,对于有语音标准文档的影视节目的字幕,首先由音视频流或音视频文件中分离出音频,然后对音频语音,依语意自动切分为分节语音片段,并分离出音频中的噪音段、音乐段和空白段;再将影视作品的标准文档依语意断句分行显示;接着将分行显示的标准文本文件调入系统音频片段文字显示行,最后依据音频波形图,调整段句的切分,保证与显示标准句数和行数相同。
10.根据权利要求7所述的字幕生成方法,其特征在于,所述步骤F中,依据语音波形图调整时间戳为通过计算机程序切分所获取时间戳的误差,并对调整时间戳后的语音文本依据波形图进行修改,其修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;对上述修改后的语音文本进行精准校对,并对精准校对后的语音文本,依语意分段处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510628334.8A CN105245917B (zh) | 2015-09-28 | 2015-09-28 | 一种多媒体语音字幕生成的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510628334.8A CN105245917B (zh) | 2015-09-28 | 2015-09-28 | 一种多媒体语音字幕生成的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105245917A true CN105245917A (zh) | 2016-01-13 |
CN105245917B CN105245917B (zh) | 2018-05-04 |
Family
ID=55043360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510628334.8A Active CN105245917B (zh) | 2015-09-28 | 2015-09-28 | 一种多媒体语音字幕生成的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105245917B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105721796A (zh) * | 2016-03-23 | 2016-06-29 | 中国农业大学 | 一种视频字幕自动生成装置和方法 |
CN106303695A (zh) * | 2016-08-09 | 2017-01-04 | 北京东方嘉禾文化发展股份有限公司 | 音频翻译多语言文字处理方法和系统 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106816151A (zh) * | 2016-12-19 | 2017-06-09 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN106997764A (zh) * | 2016-01-26 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的即时通信方法和即时通信系统 |
CN107222792A (zh) * | 2017-07-11 | 2017-09-29 | 成都德芯数字科技股份有限公司 | 一种字幕叠加方法及装置 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN108320318A (zh) * | 2018-01-15 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN108449651A (zh) * | 2018-05-24 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 字幕添加方法及装置 |
CN108924583A (zh) * | 2018-07-19 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 视频文件生成方法及其设备、系统、存储介质 |
CN108959163A (zh) * | 2018-06-28 | 2018-12-07 | 掌阅科技股份有限公司 | 有声电子书的字幕显示方法、电子设备及计算机存储介质 |
CN109036422A (zh) * | 2018-08-10 | 2018-12-18 | 科大讯飞股份有限公司 | 一种语音数据的处理方法和装置 |
CN109168024A (zh) * | 2018-09-26 | 2019-01-08 | 平安科技(深圳)有限公司 | 一种目标信息的识别方法及设备 |
CN109213974A (zh) * | 2018-08-22 | 2019-01-15 | 北京慕华信息科技有限公司 | 一种电子文档转换方法及装置 |
CN109215655A (zh) * | 2018-10-30 | 2019-01-15 | 维沃移动通信有限公司 | 视频中添加文本的方法和移动终端 |
CN109257659A (zh) * | 2018-11-16 | 2019-01-22 | 北京微播视界科技有限公司 | 字幕添加方法、装置、电子设备及计算机可读存储介质 |
CN109377798A (zh) * | 2018-11-22 | 2019-02-22 | 江苏海事职业技术学院 | 一种英文教学用辅助装置 |
CN110390930A (zh) * | 2018-04-15 | 2019-10-29 | 高翔 | 一种音频文字校对的方法和系统 |
CN110415706A (zh) * | 2019-08-08 | 2019-11-05 | 常州市小先信息技术有限公司 | 一种在视频通话中实时叠加字幕的技术及其应用 |
WO2020024353A1 (zh) * | 2018-08-01 | 2020-02-06 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN110781649A (zh) * | 2019-10-30 | 2020-02-11 | 中央电视台 | 一种字幕编辑方法、装置及计算机存储介质、电子设备 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN111986656A (zh) * | 2020-08-31 | 2020-11-24 | 上海松鼠课堂人工智能科技有限公司 | 教学视频自动字幕处理方法与系统 |
CN112233661A (zh) * | 2020-10-14 | 2021-01-15 | 广州欢网科技有限责任公司 | 基于语音识别的影视内容字幕生成方法、系统及设备 |
CN112261321A (zh) * | 2020-10-26 | 2021-01-22 | 维沃移动通信有限公司 | 字幕处理方法、装置及电子设备 |
CN113301268A (zh) * | 2021-04-30 | 2021-08-24 | 南京大学 | 基于风格迁移与语音识别的视频自动生成连环画的方法 |
CN113329192A (zh) * | 2021-06-29 | 2021-08-31 | 北京烫手科技有限公司 | 一种智能影视字幕制作方法及系统 |
CN114420104A (zh) * | 2022-01-27 | 2022-04-29 | 网易有道信息技术(北京)有限公司 | 自动生成字幕的方法及其相关产品 |
CN115150660A (zh) * | 2022-06-09 | 2022-10-04 | 深圳市大头兄弟科技有限公司 | 一种基于字幕的视频编辑方法和相关设备 |
CN115810346A (zh) * | 2023-02-17 | 2023-03-17 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110740275B (zh) * | 2019-10-30 | 2022-07-19 | 中央电视台 | 一种非线性编辑系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100329505A1 (en) * | 2009-06-30 | 2010-12-30 | Kabushiki Kaisha Toshiba | Image processing apparatus and method for processing image |
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
-
2015
- 2015-09-28 CN CN201510628334.8A patent/CN105245917B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100329505A1 (en) * | 2009-06-30 | 2010-12-30 | Kabushiki Kaisha Toshiba | Image processing apparatus and method for processing image |
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997764A (zh) * | 2016-01-26 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的即时通信方法和即时通信系统 |
CN106997764B (zh) * | 2016-01-26 | 2021-07-27 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的即时通信方法和即时通信系统 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105721796A (zh) * | 2016-03-23 | 2016-06-29 | 中国农业大学 | 一种视频字幕自动生成装置和方法 |
CN106303695A (zh) * | 2016-08-09 | 2017-01-04 | 北京东方嘉禾文化发展股份有限公司 | 音频翻译多语言文字处理方法和系统 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106816151A (zh) * | 2016-12-19 | 2017-06-09 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN106816151B (zh) * | 2016-12-19 | 2020-07-28 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN107222792A (zh) * | 2017-07-11 | 2017-09-29 | 成都德芯数字科技股份有限公司 | 一种字幕叠加方法及装置 |
CN108320318A (zh) * | 2018-01-15 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN110390930A (zh) * | 2018-04-15 | 2019-10-29 | 高翔 | 一种音频文字校对的方法和系统 |
CN108449651A (zh) * | 2018-05-24 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 字幕添加方法及装置 |
CN108449651B (zh) * | 2018-05-24 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 字幕添加方法、装置、设备及存储介质 |
CN108959163A (zh) * | 2018-06-28 | 2018-12-07 | 掌阅科技股份有限公司 | 有声电子书的字幕显示方法、电子设备及计算机存储介质 |
CN108924583B (zh) * | 2018-07-19 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 视频文件生成方法及其设备、系统、存储介质 |
CN108924583A (zh) * | 2018-07-19 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 视频文件生成方法及其设备、系统、存储介质 |
WO2020024353A1 (zh) * | 2018-08-01 | 2020-02-06 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN109036422A (zh) * | 2018-08-10 | 2018-12-18 | 科大讯飞股份有限公司 | 一种语音数据的处理方法和装置 |
CN109213974A (zh) * | 2018-08-22 | 2019-01-15 | 北京慕华信息科技有限公司 | 一种电子文档转换方法及装置 |
CN109213974B (zh) * | 2018-08-22 | 2022-12-20 | 北京慕华信息科技有限公司 | 一种电子文档转换方法及装置 |
CN109168024A (zh) * | 2018-09-26 | 2019-01-08 | 平安科技(深圳)有限公司 | 一种目标信息的识别方法及设备 |
CN109168024B (zh) * | 2018-09-26 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种目标信息的识别方法及设备 |
CN109215655A (zh) * | 2018-10-30 | 2019-01-15 | 维沃移动通信有限公司 | 视频中添加文本的方法和移动终端 |
CN109257659A (zh) * | 2018-11-16 | 2019-01-22 | 北京微播视界科技有限公司 | 字幕添加方法、装置、电子设备及计算机可读存储介质 |
CN109377798A (zh) * | 2018-11-22 | 2019-02-22 | 江苏海事职业技术学院 | 一种英文教学用辅助装置 |
CN110415706A (zh) * | 2019-08-08 | 2019-11-05 | 常州市小先信息技术有限公司 | 一种在视频通话中实时叠加字幕的技术及其应用 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN110781649B (zh) * | 2019-10-30 | 2023-09-15 | 中央电视台 | 一种字幕编辑方法、装置及计算机存储介质、电子设备 |
CN110781649A (zh) * | 2019-10-30 | 2020-02-11 | 中央电视台 | 一种字幕编辑方法、装置及计算机存储介质、电子设备 |
CN111986656A (zh) * | 2020-08-31 | 2020-11-24 | 上海松鼠课堂人工智能科技有限公司 | 教学视频自动字幕处理方法与系统 |
CN112233661A (zh) * | 2020-10-14 | 2021-01-15 | 广州欢网科技有限责任公司 | 基于语音识别的影视内容字幕生成方法、系统及设备 |
CN112233661B (zh) * | 2020-10-14 | 2024-04-05 | 广州欢网科技有限责任公司 | 基于语音识别的影视内容字幕生成方法、系统及设备 |
CN112261321A (zh) * | 2020-10-26 | 2021-01-22 | 维沃移动通信有限公司 | 字幕处理方法、装置及电子设备 |
CN112261321B (zh) * | 2020-10-26 | 2023-02-28 | 维沃移动通信有限公司 | 字幕处理方法、装置及电子设备 |
CN113301268A (zh) * | 2021-04-30 | 2021-08-24 | 南京大学 | 基于风格迁移与语音识别的视频自动生成连环画的方法 |
CN113329192A (zh) * | 2021-06-29 | 2021-08-31 | 北京烫手科技有限公司 | 一种智能影视字幕制作方法及系统 |
CN114420104A (zh) * | 2022-01-27 | 2022-04-29 | 网易有道信息技术(北京)有限公司 | 自动生成字幕的方法及其相关产品 |
CN115150660A (zh) * | 2022-06-09 | 2022-10-04 | 深圳市大头兄弟科技有限公司 | 一种基于字幕的视频编辑方法和相关设备 |
CN115150660B (zh) * | 2022-06-09 | 2024-05-10 | 深圳市闪剪智能科技有限公司 | 一种基于字幕的视频编辑方法和相关设备 |
CN115810346A (zh) * | 2023-02-17 | 2023-03-17 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105245917B (zh) | 2018-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105245917A (zh) | 一种多媒体语音字幕生成的系统和方法 | |
US8966360B2 (en) | Transcript editor | |
US20200294487A1 (en) | Hands-free annotations of audio text | |
CN105704538A (zh) | 一种音视频字幕生成方法及系统 | |
CN107968959B (zh) | 一种教学视频的知识点分割方法 | |
CN105159870A (zh) | 一种精准完成连续自然语音文本化的处理系统及方法 | |
CN110166816B (zh) | 用于人工智能教育的基于语音识别的视频编辑方法和系统 | |
US20160021334A1 (en) | Method, Apparatus and System For Regenerating Voice Intonation In Automatically Dubbed Videos | |
US20160133251A1 (en) | Processing of audio data | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP2007519987A (ja) | 内部及び外部オーディオビジュアルデータの統合解析システム及び方法 | |
WO2005027092A1 (ja) | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
Boeffard et al. | Towards Fully Automatic Annotation of Audio Books for TTS. | |
CN110740275B (zh) | 一种非线性编辑系统 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
EP4322029A1 (en) | Method and apparatus for generating video corpus, and related device | |
CN104994404A (zh) | 一种为视频获取关键词的方法及装置 | |
Roy et al. | Fast transcription of unstructured audio recordings | |
Tardel | Effort in semi-automatized subtitling processes: speech recognition and experience during transcription | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
US9666211B2 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
KR20210138311A (ko) | 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법 | |
CN116468054B (zh) | 基于ocr技术辅助构建藏汉音译数据集的方法及系统 | |
KR102555698B1 (ko) | 인공지능을 이용한 자동 자막 동기화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210915 Address after: Room 1002-1003, Pacific International Building, 106 Zhichun Road, Haidian District, Beijing 100086 Patentee after: Beijing Zhongke Mosi Technology Co.,Ltd. Address before: 102206 No. 7 Nong Road, Changping District, Beijing Patentee before: Xu Xin |