CN109257547A - 中文在线音视频的字幕生成方法 - Google Patents
中文在线音视频的字幕生成方法 Download PDFInfo
- Publication number
- CN109257547A CN109257547A CN201811107225.1A CN201811107225A CN109257547A CN 109257547 A CN109257547 A CN 109257547A CN 201811107225 A CN201811107225 A CN 201811107225A CN 109257547 A CN109257547 A CN 109257547A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- subtitle
- chinese
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000005520 cutting process Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 238000011946 reduction process Methods 0.000 claims abstract description 5
- 239000004615 ingredient Substances 0.000 claims description 27
- 239000000203 mixture Substances 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 239000004744 fabric Substances 0.000 claims 1
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明揭示了一种中文在线音视频的字幕生成方法,包括如下步骤:S1、音频数据提取步骤,服务器接收音视频文件、提取音频数据并转化为标准格式;S2、降噪步骤,对音频数据进行降噪处理,得到音频文件;S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。
Description
技术领域
本发明涉及一种字幕自动生成方法,具体而言,涉及一种中文在线课程音视频的字幕自动生成方法,属于音频识别技术领域。
背景技术
伴随着互联网技术的不断进步和提高,各类中文在线音频、视频课程网站也得到了广泛地普及和迅速的发展,传播各领域专业知识的途径和形式都发生了改变。音频、视频信息中的同步字幕,帮助学习者克服了由于地域文化和语言差异在理解新知识时造成的困难,也消除了由于授课人吐词不清、同音字、语音不标准等引起的收听、观看音视频信息的障碍。同时,给音视频加上字幕,还能有效帮助一些听力功能衰弱或有障碍的人群理解课程中的学习内容。
传统的对音视频进行字幕添加的方式,是由专业的速记人员在收听、观看音视频数据的同时,以文字的方式快速记录每个时刻听到的声音信息,并记录下相应信息的时间戳,再由人工校对的方式将记录下的文字添加到音视频的特定时间戳位置上。该方式不仅对速记人员提出了很高的专业要求,还经常需要反复校对才能保证字幕内容的完善。此外,在添加字幕的过程中,往往也会因时间轴上存在误差而进行大量的精细调整,十分耗费人力资源。
国外的一些视频课程网站,比如Coursera,已经开始为所有的英语视频提供自动生成的字幕。对于听力有障碍的用户或者希望观看他国语言视频的用户是一个极大的福利。Google科学家Mike Cohen表示,字幕生成技术集语音识别和翻译算法于一体,但这一技术并非完美无缺,仍需要不断进步。并且,目前也有一些学者针对国内目前的中文音视频的自动字幕生成技术进行了调研,发现在中文在线课程的相关站点中,该项技术尚未得到广泛应用。
综上所述,如何在现有技术的基础上提出一种中文在线音视频的字幕生成方法,结合现有技术中的诸多优点,也就成为了本领域内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明提出了一种中文在线音视频的字幕生成方法,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;
S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;
S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。
优选地,S1所述音频数据提取步骤,具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式;所述参数信息至少包括声道数、编码方式及采样率。
优选地,所述的标准格式为单声道和16000帧率的WAV格式。
优选地,S2所述降噪步骤,具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。
优选地,S3所述数据切分步骤,具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理。
优选地,S3所述数据切分步骤中,所述双门限语音端点检测技术中的两个门限为包括过零率及短时能量。
优选地,S4所述片段识别步骤,具体包括:按照默认的最小静音长度和最短有效声音两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果。
优选地,S4所述片段识别步骤中,依存语法关系包括以下条件:
一个句子中只有一个成分是独立的;
句子的其他成分都从属于某一成分;
句子中的任何一个成分都不能依存于两个或两个以上的成分;
若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;
句子中心成分左右两边的其他成分相互不发生关系。
优选地,S4所述片段识别步骤中,若识别结果与上述的语法关系存在较大差异,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤;若识别结果经过用户确认后满足预期,则进入S5所述字幕生成步骤。
优选地,S5所述字幕生成步骤,具体包括:将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。同时,本方法能够自动地将字幕文本对齐到时间轴,不仅省去了传统人工反复校正时间轴和精细调整等繁琐的工作,还提高了生成字幕的质量,使得中文在线课程音视频制作人员可以将更多的时间放在制作高质量的视频工作上,而非制作和调整大量视频字幕数据上,从而大大地降低了中文在线课程音视频制作的后期维护成本。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他音频识别项目的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的流程示意图。
具体实施方式
如图1所示,本发明揭示了一种中文在线音视频的字幕生成方法,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式。
具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式。所述参数信息至少包括声道数、编码方式及采样率。
本步骤中处理分析的生成的音频格式为wav格式,wav是微软与IBM公司所开发在个人电脑存储音频流的编码格式,此格式属于资源交换档案个十(RIFF)应用之一。RIFF是由chunk构成的,chunk是RIFF组成的基本单位,每个CHUNK可看作存贮了视频的一帧数据或者是音频的一帧数据。其中Format CHUNK记录了WAV的各种参数信息,有FormatTag音频数据的编码方式、Channels声道数、SamplesPerSec采样率(每秒样本数)、BitsPerSample*每个声道的采样精度等。这里我们对数据的声道数和采样频率进行检测,如果不是标准格式就将其转化为标准格式。
所述的标准格式为单声道和16000帧率的WAV格式。
S2、降噪步骤,使用噪声门技术对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件。
此处使用了一种噪声门技术对音频数据进行了降噪处理,以提高识别率,其基本方法是选取一段噪声样本,对噪声样本进行建模,然后降低用户上传的原始音频信号中噪声的分贝。在样本信号的若干频段f[1], ..., f[M]上,分别设置噪声门g[1], ..., g[M],每个门对应一个阈值t[1], ..., t[M]。这些阈值是根据噪声样本确定。当通过某个门g[m]的信号强度超过阈值t[m]时,门就会关闭,反之,则会重新打开。以此保留下强度更大的声音。
具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本。
具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理。
所述双门限语音端点检测技术中的两个门限为包括过零率(ZCR)及短时能量(Ep)。
所述ZCR的数学形式化定义为:
zcr=π{<0},
其中,s是采样点的值,T为帧长,函数π{A}在A为真时值为1,否则为0。
Ep的数学形式化定义为:
volume=10∗log10。
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果。
具体包括:按照默认的最小静音长度(space)和最短有效声音(min_voice)两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果。
所述的依存语法关系包括以下五个条件:
1、一个句子中只有一个成分是独立的。
2、句子的其他成分都从属于某一成分。
3、句子中的任何一个成分都不能依存于两个或两个以上的成分。
4、若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分。
5、句子中心成分左右两边的其他成分相互不发生关系。
需要说明的是,本步骤中,通过向BosonNLP的api发送一个POST请求,按照要求将HTTPHeader设置成指定的格式,请求Body为需要依存分析的JSON文本,最终得到依存文法分析引擎返回的结果。以此能够判断出识别出的句式是否大致满足依存关系。若识别结果与上述语法关系存在较大差异,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤。若识别结果在经过用户确认后满足预期,则进入S5所述字幕生成步骤。
S5、字幕生成步骤,利用Python自动化脚本,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配,按照生成的字幕文件里各段文字的时间轴将字幕自动添加进去,生成带字幕的音视频文件。
具体包括:将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。
同时,本方法能够自动地将字幕文本对齐到时间轴,不仅省去了传统人工反复校正时间轴和精细调整等繁琐的工作,还提高了生成字幕的质量,使得中文在线课程音视频制作人员可以将更多的时间放在制作高质量的视频工作上,而非制作和调整大量视频字幕数据上,从而大大地降低了中文在线课程音视频制作的后期维护成本。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他音频识别项目的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种中文在线音视频的字幕生成方法,其特征在于,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;
S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;
S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。
2.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S1所述音频数据提取步骤,具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式;所述参数信息至少包括声道数、编码方式及采样率。
3.根据权利要求1或2任一所述的中文在线音视频的字幕生成方法,其特征在于:所述的标准格式为单声道和16000帧率的WAV格式。
4.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S2所述降噪步骤,具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。
5.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S3所述数据切分步骤,具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理。
6.根据权利要求5所述的中文在线音视频的字幕生成方法,其特征在于,S3所述数据切分步骤中,所述双门限语音端点检测技术中的两个门限为包括过零率及短时能量。
7.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S4所述片段识别步骤,具体包括:按照默认的最小静音长度和最短有效声音两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Hanlp、Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果。
8.根据权利要求7所述的中文在线音视频的字幕生成方法,其特征在于,S4所述片段识别步骤中,依存语法关系包括以下条件:
一个句子中只有一个成分是独立的;
句子的其他成分都从属于某一成分;
句子中的任何一个成分都不能依存于两个或两个以上的成分;
若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;
句子中心成分左右两边的其他成分相互不发生关系。
9.根据权利要求7所述的中文在线音视频的字幕生成方法,其特征在于:S4所述片段识别步骤中,若识别结果不满足预期,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤;若识别结果满足预期,则进入S5所述字幕生成步骤。
10.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于,S5所述字幕生成步骤,具体包括:将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107225.1A CN109257547B (zh) | 2018-09-21 | 2018-09-21 | 中文在线音视频的字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107225.1A CN109257547B (zh) | 2018-09-21 | 2018-09-21 | 中文在线音视频的字幕生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109257547A true CN109257547A (zh) | 2019-01-22 |
CN109257547B CN109257547B (zh) | 2021-04-06 |
Family
ID=65048519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811107225.1A Active CN109257547B (zh) | 2018-09-21 | 2018-09-21 | 中文在线音视频的字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109257547B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110691204A (zh) * | 2019-09-09 | 2020-01-14 | 苏州臻迪智能科技有限公司 | 一种音视频处理方法、装置、电子设备及存储介质 |
CN110740283A (zh) * | 2019-10-29 | 2020-01-31 | 杭州当虹科技股份有限公司 | 一种基于视频通讯的语音转文字方法 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111312219A (zh) * | 2020-01-16 | 2020-06-19 | 上海携程国际旅行社有限公司 | 电话录音标注方法、系统、存储介质和电子设备 |
CN113329192A (zh) * | 2021-06-29 | 2021-08-31 | 北京烫手科技有限公司 | 一种智能影视字幕制作方法及系统 |
CN113992940A (zh) * | 2021-12-27 | 2022-01-28 | 北京美摄网络科技有限公司 | Web端文字视频编辑方法、系统、电子设备及存储介质 |
CN114554246A (zh) * | 2022-02-23 | 2022-05-27 | 北京纵横无双科技有限公司 | 一种基于ugc模式的医疗科普视频制作方法及系统 |
CN116721662A (zh) * | 2023-02-03 | 2023-09-08 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
WO2024056022A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京字跳网络技术有限公司 | 字幕处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
CN104902081A (zh) * | 2015-04-30 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种飞行模式的控制方法及移动终端 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
CN106409284A (zh) * | 2015-07-28 | 2017-02-15 | 三星电子株式会社 | 用于更新语言模型并执行语音识别的方法和装置 |
CN106601230A (zh) * | 2016-12-19 | 2017-04-26 | 苏州金峰物联网技术有限公司 | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 |
CN107103902A (zh) * | 2017-06-14 | 2017-08-29 | 上海适享文化传播有限公司 | 完整语音内容递归识别方法 |
EP3232436A2 (en) * | 2012-11-16 | 2017-10-18 | 2236008 Ontario Inc. | Application services interface to asr |
US20180041783A1 (en) * | 2016-08-05 | 2018-02-08 | Alibaba Group Holding Limited | Data processing method and live broadcasting method and device |
WO2018053502A1 (en) * | 2016-09-19 | 2018-03-22 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
-
2018
- 2018-09-21 CN CN201811107225.1A patent/CN109257547B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
EP3232436A2 (en) * | 2012-11-16 | 2017-10-18 | 2236008 Ontario Inc. | Application services interface to asr |
CN104902081A (zh) * | 2015-04-30 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种飞行模式的控制方法及移动终端 |
CN106409284A (zh) * | 2015-07-28 | 2017-02-15 | 三星电子株式会社 | 用于更新语言模型并执行语音识别的方法和装置 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
US20180041783A1 (en) * | 2016-08-05 | 2018-02-08 | Alibaba Group Holding Limited | Data processing method and live broadcasting method and device |
WO2018053502A1 (en) * | 2016-09-19 | 2018-03-22 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN106601230A (zh) * | 2016-12-19 | 2017-04-26 | 苏州金峰物联网技术有限公司 | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 |
CN107103902A (zh) * | 2017-06-14 | 2017-08-29 | 上海适享文化传播有限公司 | 完整语音内容递归识别方法 |
Non-Patent Citations (2)
Title |
---|
GYÖRGY SZASZÁK: "Exploiting Prosody for Automatic Syntactic Phrase Boundary Detection in Speech", 《JOURNAL OF LANGUAGE MODELLING》 * |
汪丹丹: "一种基于遗传算法的语法网络搜索方法", 《电子世界》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110691204A (zh) * | 2019-09-09 | 2020-01-14 | 苏州臻迪智能科技有限公司 | 一种音视频处理方法、装置、电子设备及存储介质 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN110740283A (zh) * | 2019-10-29 | 2020-01-31 | 杭州当虹科技股份有限公司 | 一种基于视频通讯的语音转文字方法 |
CN111050201B (zh) * | 2019-12-10 | 2022-06-14 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111312219A (zh) * | 2020-01-16 | 2020-06-19 | 上海携程国际旅行社有限公司 | 电话录音标注方法、系统、存储介质和电子设备 |
CN111312219B (zh) * | 2020-01-16 | 2023-11-28 | 上海携程国际旅行社有限公司 | 电话录音标注方法、系统、存储介质和电子设备 |
CN113329192A (zh) * | 2021-06-29 | 2021-08-31 | 北京烫手科技有限公司 | 一种智能影视字幕制作方法及系统 |
CN113992940A (zh) * | 2021-12-27 | 2022-01-28 | 北京美摄网络科技有限公司 | Web端文字视频编辑方法、系统、电子设备及存储介质 |
CN113992940B (zh) * | 2021-12-27 | 2022-03-29 | 北京美摄网络科技有限公司 | Web端文字视频编辑方法、系统、电子设备及存储介质 |
CN114554246A (zh) * | 2022-02-23 | 2022-05-27 | 北京纵横无双科技有限公司 | 一种基于ugc模式的医疗科普视频制作方法及系统 |
CN114554246B (zh) * | 2022-02-23 | 2024-05-31 | 北京纵横无双科技有限公司 | 一种基于ugc模式的医疗科普视频制作方法及系统 |
WO2024056022A1 (zh) * | 2022-09-14 | 2024-03-21 | 北京字跳网络技术有限公司 | 字幕处理方法及装置 |
CN116721662A (zh) * | 2023-02-03 | 2023-09-08 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN116721662B (zh) * | 2023-02-03 | 2023-12-01 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109257547B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109257547A (zh) | 中文在线音视频的字幕生成方法 | |
US8229748B2 (en) | Methods and apparatus to present a video program to a visually impaired person | |
US9547642B2 (en) | Voice to text to voice processing | |
US10037313B2 (en) | Automatic smoothed captioning of non-speech sounds from audio | |
US20070011012A1 (en) | Method, system, and apparatus for facilitating captioning of multi-media content | |
US20110184721A1 (en) | Communicating Across Voice and Text Channels with Emotion Preservation | |
US20110093263A1 (en) | Automated Video Captioning | |
US10354676B2 (en) | Automatic rate control for improved audio time scaling | |
US9767825B2 (en) | Automatic rate control based on user identities | |
KR102044689B1 (ko) | 방송자막 제작 시스템 및 방법 | |
Federico et al. | An automatic caption alignment mechanism for off-the-shelf speech recognition technologies | |
EP4073792A1 (en) | Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US20200312302A1 (en) | System for improving dysarthria speech intelligibility and method thereof | |
US20240373089A1 (en) | Methods and systems for selective playback and attenuation of audio based on user preference | |
CN114930865A (zh) | 用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品 | |
CN114842858A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
Alumäe et al. | Automatic Closed Captioning for Estonian Live Broadcasts | |
CN113392234A (zh) | 多媒体文件处理方法、装置、设备及介质 | |
Eizmendi | Automatic speech recognition for live TV subtitling for hearing-impaired people | |
CN114913837B (zh) | 一种音频处理方法及装置 | |
CN109712604A (zh) | 一种情感语音合成控制方法和装置 | |
Imai et al. | Application of speech rate conversion technology to video editing: allows up to 5 times normal speed playback while maintaining speech intelligibility | |
Trmal et al. | Online TV captioning of Czech parliamentary sessions | |
Lim et al. | Dynamic Subtitle Authoring Method Based on Audio Analysis for the Hearing Impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |