CN102937972A

CN102937972A - 一种视听字幕制作系统及方法

Info

Publication number: CN102937972A
Application number: CN2012103897081A
Authority: CN
Inventors: 张云梯; 庄智象; 黄卫; 黄河; 张中良
Original assignee: SHANGHAI FOREIGN LANGUAGE EDUCATION PRESS INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI FOREIGN LANGUAGE EDUCATION PRESS INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-10-15
Filing date: 2012-10-15
Publication date: 2013-02-20
Anticipated expiration: 2032-10-15
Also published as: CN102937972B

Abstract

本发明提供了一种视听字幕制作系统及方法，所述系统包括原始文本处理模块、注音模块、原始声音处理模块、强制切分模块、切分可信度评估模块、错误处理模块、字幕生成模块。本发明能自动处理原始文本，分割为限定长度的句子或短语；采用形近词替代等方法自动处理非登录词，建立多发音注音网络；将注音网络展开为隐含马尔科夫识别语音对齐网络，使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分；通过语音识别技术对每个切分段的切分结果进行可信度评估，可很容易发现切分错误以便进一步处理；直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此，本发明可在无人工干预或很少人工干预的情况下直接得到高质量的视听字幕文件。

Description

一种视听字幕制作系统及方法

技术领域

本发明涉及外语电化教学领域，尤其涉及一种视听字幕制作系统及方法。

背景技术

语言学习主要通过获得大量的可理解输入来实现，而“听”是获得可理解语言输入的最重要的渠道。中国的外语学习者面临着一个“读得懂却听不懂”的尴尬状态。基于多媒体技术的视听输入教学法，能再现人们真实交际场景，对改进外语教学起到了积极的推动作用。在视听输入教学法基础上，将话语信息以文字的形式（即视听字幕）同时呈现给受众，对外语视听教学更具有显著的积极意义。

目前，有字幕加配的视听教学内容少之又少，其主要原因是当前字幕的加配主要是手工完成。专业技术人员需花费大量的时间和精力才能制作完成长度有限的字幕，成本太高而不能大规模应用。

现代语音识别技术领域中，在给定单句文本及其声音后，可以用基于隐含马尔科夫模型的核心模块将音节起止信息在音轴上显示出来。此方法主要应用于建立音节切分语音语料库，它要求文本与声音高度一致，否则就会切分失败或效果很差。而视听字幕的制作要求切分的单位是句子或短语，制作中要求方法有很高的容错性，要能处理文本中含未知发音的未登录词、多音词、含有错误文本段落等情况，要能发现指出切分错误之处，这些要求在传统方法中均无法满足。

发明内容

针对上述的缺陷，本发明的目的在于提供一种视听字幕制作系统及方法，其能够在无人工干预或很少人工干预的情况下直接得到高质量的用于外语电化教学的视听字幕文件。

为了实现上述目的，本发明提供视听字幕制作系统，所述系统包括：

原始文本处理模块，用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语，并将所述句子或短语发送到注音模块；

注音模块，用于处理所述句子或短语中的非登录词，然后通过查注音词典生成注音网络，并将所述注音网络发送到强制切分模块；

原始声音处理模块，用于将输入的原始声音处理成预定要求的声音流，并将所述声音流发送到强制切分模块；

强制切分模块，用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络，然后将所述声音流提取为特征流并在所述对齐网络对齐，并将切分结果输入到切分可信度评估模块；

切分可信度评估模块，用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果，若所述切分可信度评估结果达到预定值，则将所述切分结果直接发送到字幕生成模块，否则将所述切分可信度评估结果发送到错误处理模块；

错误处理模块，用于显示所述切分可信度评估结果，判断是所述原始文本有误还是所述切分结果需要人工微调，若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块，若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分；

字幕生成模块，用于结合预定的字幕文件格式，将所述切分结果输出字幕文件。

根据本发明所述的视听字幕制作系统，所述原始文本处理模块还包括：

分词子模块，用于将所述原始文本用双数组Trie树分词算法分成含有若干个词的词语流；

文本切分子模块，用于将所述词语流自动切分成长度合适的句子或短语，具体切分方法为：从前向后遍历所述词语流，依据句子边界符号将所述词语流切分成句子流；从前向后遍历每个句子，若所述句子的长度大于预定值，则依次尝试从逗号、从句、连接词或任意词处分开所述句子，直到所述句子的长度小于或等于所述预定值。

根据本发明所述的视听字幕制作系统，所述注音模块还包括：

非登录词处理子模块，用于将切分好的所述句子或短语中含有的不在所述注音词典中的词，通过形近词替换、直接删除或人工注音方法转换为已知的读音的词；

注音网络生成子模块，首先将切分处理非登录词后的词语流中每个词语首尾相连，建立词语网络，再查得每个词语所有可能的发音展开为注音网络。

根据本发明所述的视听字幕制作系统，所述形近词替换，用于自动选中词库中一个最相近的词w^*替换原词；其中替换词w^*通过以下方法得到：

w^* = arg min_c∈C D(w，c)，

公式中w为原词，w^*为替换词，C为注音词典集合，D为两词间的编辑距离函数。

根据本发明所述的视听字幕制作系统，所述原始声音处理模块，用于根据所述原始声音的格式，采用对应的算法进行解码，根据声学模型的要求重新采样为指定的采样频率，再经过去噪声处理转换为预定要求的声音流。

根据本发明所述的视听字幕制作系统，所述强制切分模块还包括：

声学网络生成子模块，用于将所述注音网络展开，并在词语间加入哑音，扩充为隐马尔科夫声学模型的声学网络，发送到隐藏状态序列搜索模块中；

特征提取子模块，用于将从所述声音流中逐帧提取音频，经过加窗处理后提取符合隐马尔科夫声学模型的声学参数，生成逐帧的所述特征流，发送到隐藏状态序列搜索模块中；

隐藏状态序列搜索子模块，用于将所述特征流与所述声学网络通过维特比算法进行对齐，并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列，将隐藏状态序列搜索结果发送到切分结果生成模块；

切分结果生成子模块，用于从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置S_n和E_n。

根据本发明所述的视听字幕制作系统，所述句子的起止位置S_n和E_n通过以下公式得到：

S_n= (A_n+B_n-1)/2* FD，E_n= (B_n+A_n+1) /2*FD；

其中，所述S_n和E_n的计算公式中A_n、B_n为分别表示第n个切分后的句子的一个隐藏状态序列的序号和最后一个隐藏状态序列的序号，并令B₀ =A₁、A_N+1=B_N（N为切分后的句子个数），FD为特征提取子模块所用音频帧的时长。

根据本发明所述的视听字幕制作系统，所述切分可信度评估模块还包括：

特征段切分子模块，用于将每个所述句子依据得到的起止位置S_n和E_n从所述特征流中独立提取出来；

音节识别子模块，用于将所述特征流识别为音节流，所述音节识别子模块包括识别网络建立单元和对齐解码单元；

所述识别网络建立单元，用于将语料中计算得到的一元二元音节语法模型，建立音节转移概率网络，再将每个音节扩充为隐马尔科夫声学模型中的状态序列，组成最后的语音识别网络；

所述对齐解码单元，用于通过维特比算法，根据所述特征流和所述语音识别网络求出具有最大概率的路径，并将其对应的音节序列，即语音识别出的音节序列发送到可信度分数计算子模块；

可信度分数计算子模块，用于计算得到识别出的所述音节序列和文本中的音节序列的相似度分数F，将F作为切分可信度评估结果。

根据本发明所述的视听字幕制作系统，所述相似度分数F使用以下公式计算得到：

F = ( L_R- LD(S_S，S_R) ) / L_S*100；

其中，所述L_R、L_S分别为识别出的所述音节序列、文本中的音节序列音节个数，S_S，S_R分别为识别出的音节序列、文本中的音节序列，LD为计算两序列最小编辑距离的函数。

根据本发明所述的视听字幕制作系统，所述错误处理模块还包括：

切分结果与可信度展示子模块，用于显示所述切分结果与所述切分可信度评估结果；

人工辅助切分子模块，用于所述切分结果需要人工微调时，将手动矫正所述切分结果，并将矫正后的所述切分结果发送到所述字幕生成模块，以及用于在所述原始文本有误时，则人工修改原始文本后交由所述原始文本处理模块重新切分。

本发明还提供一种视听字幕制作方法，包括步骤如下：

原始文本处理步骤，将输入的原始文本分词后按指定规则分割为合适长度的句子或短语；

注音步骤，处理所述句子或短语中的非登录词，然后通过查注音词典生成注音网络；

原始声音处理步骤，将输入的原始声音处理成预定要求的声音流；

强制切分步骤，将所述注音网络切分为隐含马尔科夫识别语音的对齐网络，然后将所述声音流提取为特征流并在所述对齐网络对齐；

切分可信度评估步骤，通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果，若所述切分可信度评估结果达到预定值，则将所述切分结果直接发送到字幕生成步骤处理，否则将所述切分可信度评估结果发送到错误处理步骤处理；

错误处理步骤，显示所述切分可信度评估结果，判断是所述原始文本有误还是所述切分结果需要人工微调，若所述切分结果需要人工微调则人工微调所述切分结果，若是所述原始文本有误则人工修改原始文本后交由所述原始文本处理步骤重新切分；

字幕生成步骤，结合预定的字幕文件格式，将所述切分结果输出字幕文件。

根据本发明所述的视听字幕制作方法，所述原始文本处理步骤还包括：

分词子步骤，将所述原始文本用双数组Trie树分词算法分成含有若干个词的词语流；

文本切分子步骤，将所述词语流自动切分成长度合适的句子或短语，具体切分方法为：从前向后遍历所述词语流，依据句子边界符号将所述词语流切分成句子流；从前向后遍历每个句子，若所述句子的长度大于预定值，则依次尝试从逗号、从句、连接词或任意词处分开所述句子，直到所述句子的长度小于或等于所述预定值。

根据本发明所述的视听字幕制作方法，所述注音步骤还包括：

非登录词处理子步骤，将切分好的所述句子或短语中含有的不在所述注音词典中的词，通过形近词替换、直接删除或人工注音方法转换为已知的读音的词；

注音网络生成子步骤，首先将切分处理非登录词后的词语流中每个词语首尾相连，建立词语网络，再查得每个词语所有可能的发音展开为注音网络。

根据本发明所述的视听字幕制作方法，所述形近词替换，自动选中词库中一个最相近的词w^*替换原词；其中替换词w^*通过以下方法得到：

w^* = arg min_c∈C D(w，c)，

根据本发明所述的视听字幕制作方法，所述原始声音处理步骤，根据所述原始声音的格式，采用对应的算法进行解码，根据声学模型的要求重新采样为指定的采样频率，再经过去噪声处理转换为预定要求的声音流。

根据本发明所述的视听字幕制作方法，所述强制切分步骤还包括：

声学网络生成子步骤，将所述注音网络展开，并在词语间加入哑音，扩充为隐马尔科夫声学模型的声学网络；

特征提取子步骤，将从所述声音流中逐帧提取音频，经过加窗处理后提取符合隐马尔科夫声学模型的声学参数，生成逐帧的所述特征流；

隐藏状态序列搜索子步骤，将所述特征流与所述声学网络通过维特比算法进行对齐，并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列搜索结果；

切分结果生成子步骤，从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置S_n和E_n。

根据本发明所述的视听字幕制作方法，所述句子的起止位置S_n和E_n通过以下公式得到：

S_n= (A_n+B_n-1)/2* FD，E_n= (B_n+A_n+1) /2*FD；

其中，所述S_n和E_n的计算公式中A_n、B_n为分别表示第n个切分后的句子的一个隐藏状态序列的序号和最后一个隐藏状态序列的序号，并令B₀ =A₁、A_N+1=B_N（N为切分后的句子个数），FD为特征提取子步骤所用音频帧的时长。

根据本发明所述的视听字幕制作方法，所述切分可信度评估步骤还包括：

特征段切分子步骤，将每个所述句子依据得到的起止位置S_n和E_n从所述特征流中独立提取出来；

音节识别子步骤，将所述特征流识别为音节流，所述音节识别子步骤包括识别网络建立单元和对齐解码单元；

所述识别网络建立单元，将语料中计算得到的一元二元音节语法模型，建立音节转移概率网络，再将每个音节扩充为隐马尔科夫声学模型中的状态序列，组成最后的语音识别网络；

所述对齐解码单元，通过维特比算法，根据所述特征流和所述语音识别网络求出具有最大概率的路径，并将其对应的音节序列，即语音识别出的音节序列发送到可信度分数计算子步骤处理；

可信度分数计算子步骤，计算得到识别出的所述音节序列和文本中的音节序列的相似度分数F，将F作为切分可信度评估结果。

根据本发明所述的视听字幕制作方法，所述相似度分数F使用以下公式计算得到：

F = ( L_R- LD(S_S，S_R) ) / L_S*100；

根据本发明所述的视听字幕制作方法，所述错误处理步骤还包括：

切分结果与可信度展示子步骤，显示所述切分结果与所述切分可信度评估结果；

人工辅助切分子步骤，所述切分结果需要人工微调时，将手动矫正所述切分结果，并将矫正后的所述切分结果发送到所述字幕生成步骤，以及在所述原始文本有误时，则人工修改原始文本后交由所述原始文本处理步骤重新切分。

本发明能自动处理原始文本，分割为限定长度的句子或短语；采用形近词替代等方法自动处理非登录词，建立多发音注音网络；将注音网络展开为隐含马尔科夫识别语音对齐网络，使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分；通过语音识别技术对每个切分段的切分结果进行可信度评估，可很容易发现切分错误之处便于进一步处理；直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此，本发明可以在无人工干预或很少人工干预的情况下直接得到高质量的视听字幕文件，从而大大提供视听教学字幕加配的工作效率。

附图说明

图1是本发明视听字幕制作系统的结构示意图；

图2是本发明视听字幕制作系统的原始文本处理模块的优选结构图；

图3是本发明视听字幕制作系统的注音模块的优选结构图；

图4是本发明视听字幕制作系统的强制切分模块的优选结构图；

图5是本发明视听字幕制作系统的切分可信度评估模块的优选结构图；

图6是本发明视听字幕制作系统的错误处理模块的优选结构图；

图7是本发明视听字幕制作方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明视听字幕制作系统的结构示意图，所述视听字幕制作系统100可以是软件单元，硬件单元或软硬件结合单元，并且所述视听字幕制作系统100包括原始文本处理模块10、注音模块20、原始声音处理模块30、强制切分模块40、切分可信度评估模块50、错误处理模块60以及字幕生成模块70，其中：

所述原始文本处理模块10，用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语，并将所述句子或短语发送到注音模块20。

所述注音模块20，用于处理所述句子或短语中的非登录词，然后通过查注音词典生成注音网络，并将所述注音网络发送到强制切分模块40。

所述原始声音处理模块30，用于将输入的原始声音处理成预定要求的声音流，并将所述声音流发送到强制切分模块40。所述原始声音处理模块30用于规范化声音文件，即经过重采样、去噪声等操作转换为符合要求的格式，而后将规范化后的声音流送入强制切分模块40。优选的是，所述原始声音处理模块30用于根据所述原始声音的格式，采用对应的算法进行解码，根据声学模型的要求重新采样为指定的采样频率，再经过去噪声处理转换为预定要求的声音流。

所述强制切分模块40，用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络，然后将所述声音流提取为特征流并在所述对齐网络对齐，并将切分结果输入到切分可信度评估模块50。

所述切分可信度评估模块50，用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果，若所述切分可信度评估结果达到预定值，则将所述切分结果直接发送到字幕生成模块70，否则将所述切分可信度评估结果发送到错误处理模块60。

所述错误处理模块60，用于显示所述切分可信度评估结果，判断是所述原始文本有误还是所述切分结果需要人工微调，若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块70，若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分。错误处理模块60用于显示切分可信度评估结果，重点是把切分可信度得分低的地方标记出来，便于人工判断是原始文本有误还是需要人工微调切分结果，若需要人工微调切分结果则微调后把结果送入字幕生成模块，若发现是原始文本有误则人工修改原始文本后重新切分。

所述字幕生成模块70，用于结合预定的字幕文件格式，将所述切分结果输出字幕文件。优选的是，字幕生成模块70用于将切分结果结合输入的作者、版权、备注、字幕格式的信息输出包括LRC、SRT、SSA等格式的字幕文件。

图2是本发明视听字幕制作系统的原始文本处理模块的优选结构图，所述原始文本处理模块10还包括：

分词子模块11，用于将所述原始文本用双数组Trie树分词算法分成含有若干个词的词语流。

文本切分子模块12，用于将所述词语流自动切分成长度合适的句子或短语，具体切分方法为：从前向后遍历所述词语流，依据句子边界符号将所述词语流切分成句子流。从前向后遍历每个句子，若所述句子的长度大于预定值，则依次尝试从逗号、从句、连接词或任意词处分开所述句子，直到所述句子的长度小于或等于所述预定值。

图3是本发明视听字幕制作系统的注音模块的优选结构图，所述注音模块20还包括：

非登录词处理子模块21，用于将切分好的所述句子或短语中含有的不在所述注音词典中的词，通过形近词替换、直接删除或人工注音方法转换为已知的读音的词。

注音网络生成子模块22，首先将切分处理非登录词后的词语流中每个词语首尾相连，建立词语网络，再查得每个词语所有可能的发音展开为注音网络。

所述形近词替换，用于自动选中词库中一个最相近的词w*替换原词。其中替换词w*通过以下方法得到：

w* = arg min c∈C D(w，c)，

公式中w为原词，w*为替换词，C为注音词典集合，D为两词间的编辑距离函数。

图4是本发明视听字幕制作系统的强制切分模块的优选结构图，所述强制切分模块40还包括：

声学网络生成子模块41，用于将所述注音网络展开，并在词语间加入哑音（SP音），扩充为隐马尔科夫声学模型的声学网络，发送到隐藏状态序列搜索模块中。

特征提取子模块42，用于将从所述声音流中逐帧提取音频，经过加窗处理后提取符合隐马尔科夫声学模型的声学参数，生成逐帧的所述特征流，发送到隐藏状态序列搜索模块中。

隐藏状态序列搜索子模块43，用于将所述特征流与所述声学网络通过维特比算法进行对齐，并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列，将隐藏状态序列搜索结果发送到切分结果生成模块。

切分结果生成子模块44，用于从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置Sn和En。

所述句子的起止位置Sn和En通过以下公式得到：

Sn = (An+Bn-1)/2* FD，En = (Bn+An+1) /2*FD。

其中，所述Sn和En的计算公式中An、Bn为分别表示第n个切分后的句子的一个隐藏状态序列的序号和最后一个隐藏状态序列的序号，并令B0 =A1、AN+1=BN（N为切分后的句子个数），FD为特征提取子模块所用音频帧的时长。

图5是本发明视听字幕制作系统的切分可信度评估模块的优选结构图，所述切分可信度评估模块50还包括：

特征段切分子模块51，用于将每个所述句子依据得到的起止位置Sn和En从所述特征流中独立提取出来。

音节识别子模块52，用于将所述特征流识别为音节流，所述音节识别子模块包括识别网络建立单元和对齐解码单元。

所述识别网络建立单元53，用于将语料中计算得到的一元二元音节语法模型，建立音节转移概率网络，再将每个音节扩充为隐马尔科夫声学模型中的状态序列，组成最后的语音识别网络。

所述对齐解码单元54，用于通过维特比算法，根据所述特征流和所述语音识别网络求出具有最大概率的路径，并将其对应的音节序列，即语音识别出的音节序列发送到可信度分数计算子模块。

可信度分数计算子模块55，用于计算得到识别出的所述音节序列和文本中的音节序列的相似度分数F，将F作为切分可信度评估结果。

所述相似度分数F使用以下公式计算得到：

F = ( LR - LD(SS，SR) ) / LS *100。

其中，所述LR、LS分别为识别出的所述音节序列、文本中的音节序列音节个数，SS，SR分别为识别出的音节序列、文本中的音节序列，LD为计算两序列最小编辑距离的函数。

图6是本发明视听字幕制作系统的错误处理模块的优选结构图，所述错误处理模块60还包括：

切分结果与可信度展示子模块61，用于显示所述切分结果与所述切分可信度评估结果。优选的是，所述切分结果与可信度展示子模块61用于将同步展示规范化后声音声波波形、切分的文本和其切分可信度得分，并可从任意选中的位置回放规范化后的声音。同步展示通过如下方法：将规范化后声音的数字采样值作纵坐标、时间作横坐标做波形图，再将切分后的文本按切分结果显示在相应区域，最后对波形图分段着色，红色表示此段可信度得分低，黄色表示此段可信度得分较低，绿色表示此段可信度得分高。可信度得分高低的判断是通过比较可信度得分和预先设定的阈值来确定的。

人工辅助切分子模块62，用于所述切分结果需要人工微调时，将手动矫正所述切分结果，并将矫正后的所述切分结果发送到所述字幕生成模块，以及用于在所述原始文本有误时，则人工修改原始文本后交由所述原始文本处理模块重新切分。

图7是本发明视听字幕制作方法的流程图，所述方法包括步骤如下：

步骤S701，原始文本处理步骤：将输入的原始文本分词后按指定规则分割为合适长度的句子或短语。优选的是，根据原始文本的实际格式和字幕应用场合的其它要求，使用原始文本处理模块10将输入的原始文本分词后按指定规则分割为适当长度合适的句子或短语。

优选的是，所述原始文本处理步骤还包括：

分词子步骤，将所述原始文本用双数组Trie树分词算法分成含有若干个词的词语流。

文本切分子步骤，将所述词语流自动切分成长度合适的句子或短语，具体切分方法为：从前向后遍历所述词语流，依据句子边界符号将所述词语流切分成句子流。从前向后遍历每个句子，若所述句子的长度大于预定值，则依次尝试从逗号、从句、连接词或任意词处分开所述句子，直到所述句子的长度小于或等于所述预定值。所述形近词替换，自动选中词库中一个最相近的词w*替换原词。其中替换词w*通过以下方法得到：

w* = arg min c∈C D(w，c)，

例如，为MP3播放设备制作的字幕，最大切分长度可设为12个单词。根据词典和预先定义的分词规则，生成双数组Trie树，然后将原始文本流送入双数组Trie树进行分词。从前向后遍历每个词，从句子边界符将词语切分成句子，比如英语中的句子边界符号集为“.!?”等。再一次变量每个句子，如果句子长度大于所设定的最大切分长度，就先尝试从逗号分开再依次尝试从从句、连接词、任意词等处分开直到长度达到要求。比如英语中如果存在“，”就先从“，”分开，如果分开后的长度达到要求就继续下一个句子，否则尝试从what、that等从句引导词前面分开，还没达到要求可从and、or等连词中分开。最后如果还没达到要求就从中间的一个任意单词分开直到到达切分要求为止。

步骤S702，注音步骤：处理所述句子或短语中的非登录词，优选将非登录词替换为形近的登录词或直接去掉非登录词，然后通过查注音词典生成注音网络。

优选的是，所述注音步骤还包括：

非登录词处理子步骤，将切分好的所述句子或短语中含有的不在所述注音词典中的词，通过形近词替换、直接删除或人工注音方法转换为已知的读音的词。

对切分好的句子标注发音，生成发音网络。在生成网络之前，需要扫描每个句子的所有词，找出其中所有不在一个预先制作的发音词典之中的词，即非登录词。由于对齐模块的强容错性，如果非登录词在句子的中间可以假设它不发音（相对于生成注音网络时把这个词从直接删除了），对切分结果影响不大。如果非登录词在句子的开头或末尾，可以人工进行注音，也可以选择一个词典中形近的词替换它。通过以上处理后，再将处理后的所有词首尾相连，建立词语网络，查得每个词语所有可能的发音展开为注音网络。

步骤S703，原始声音处理步骤：将输入的原始声音处理成预定要求的声音流。

优选的是，所述原始声音处理步骤中根据所述原始声音的格式，采用对应的算法进行解码，根据声学模型的要求重新采样为指定的采样频率，再经过去噪声处理转换为预定要求的声音流。

例如，原始声音为采样频率44100赫兹、双声道的MP3格式，声学模型适用采样频率16000赫兹、单声道的PCM格式的声音，就需要进行转换。先调用MP3解码器解码MP3数据流为PCM格式，再重采样把采样频率44100赫兹、双声道转换为16000赫兹、单声道。如果原始声音噪音较大，可以进行去噪声处理。例如如果声音文件的首尾只有噪声成分，那么可以截取首尾各0.3秒进行学习得到噪声成分参数，再根据此噪声成分参数去噪声。

步骤S704，强制切分步骤：将所述注音网络切分为隐含马尔科夫识别语音的对齐网络，然后将所述声音流提取为特征流并在所述对齐网络对齐，将切分结果保存并输出。

优选的是，所述强制切分步骤还包括：

声学网络生成子步骤，将所述注音网络展开，并在词语间加入哑音，扩充为隐马尔科夫声学模型的声学网络。例如，英语中单词is在注音网络里为—ih—z—，ih音在声学模型中有4个状态，z音在声学模型中有5个状态，那么可以—ih1—...—ih4—z1—...—z5—sp—。

特征提取子步骤，将从所述声音流中逐帧提取音频，经过加窗处理后提取符合隐马尔科夫声学模型的声学参数，生成逐帧的所述特征流。例如每25ms 为一帧进行分帧处理，窗偏移量为10ms，采用汉明窗进行加窗处理，再提取出MFCC特征。

隐藏状态序列搜索子步骤，将所述特征流与所述声学网络通过维特比算法进行对齐，并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列搜索结果。

切分结果生成子步骤，从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置Sn和En。

所述句子的起止位置Sn和En通过以下公式得到：

Sn = (An+Bn-1)/2* FD，En = (Bn+An+1) /2*FD。

其中，所述Sn和En的计算公式中An、Bn为分别表示第n个切分后的句子的一个隐藏状态序列的序号和最后一个隐藏状态序列的序号，并令B0 =A1、AN+1=BN（N为切分后的句子个数），FD为特征提取子步骤所用音频帧的时长。

步骤S705，切分可信度评估步骤：通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果，若所述切分可信度评估结果达到预定值，则将所述切分结果直接发送到字幕生成步骤处理，否则将所述切分可信度评估结果发送到错误处理步骤处理。优选的是，对每个切分段，提取相应的特征流段，调用切分可信度评估模块，通过语音识别得到一串音节序列，和原始比较得出此切分段切分效果的可信度评估分数。如果评估分数高于预设的值则转到步骤S707，否则转到步骤S706。

优选的是，所述切分可信度评估步骤还包括：

特征段切分子步骤，将每个所述句子依据得到的起止位置Sn和En从所述特征流中独立提取出来。

音节识别子步骤，将所述特征流识别为音节流，所述音节识别子步骤包括识别网络建立步骤和对齐解码步骤。

所述识别网络建立步骤，将语料中计算得到的一元二元音节语法模型，建立音节转移概率网络，再将每个音节扩充为隐马尔科夫声学模型中的状态序列，组成最后的语音识别网络。

所述对齐解码步骤，通过维特比算法，根据所述特征流和所述语音识别网络求出具有最大概率的路径，并将其对应的音节序列，即语音识别出的音节序列发送到可信度分数计算子步骤处理。

所述相似度分数F使用以下公式计算得到：

F = ( LR - LD(SS，SR) ) / LS *100。

步骤S706，错误处理步骤：显示所述切分可信度评估结果，判断是所述原始文本有误还是所述切分结果需要人工微调，若所述切分结果需要人工微调则人工微调所述切分结果，若是所述原始文本有误则人工修改原始文本后交由所述原始文本处理步骤重新切分。

优选的是，所述错误处理步骤还包括：

切分结果与可信度展示子步骤，显示所述切分结果与所述切分可信度评估结果。重点是把切分可信度评估结果的得分低的地方标记出来，便于人工判断是原始文本有误还是需要人工微调切分结果。

例如，将规范化后声音的数字采样值作纵坐标、时间作横坐标做波形图，再将切分后的文本按切分结果显示在相应区域，最后对波形图分段着色，红色表示此段评估得分低，黄色表示此段评估得分较低，绿色表示此段评估得分高。其中得分高低的判断是通过比较评估得分和预先设定的阈值来确定的，例如本实施例中得分大于80分为绿色，得分60~80间为黄色，60分以下为红色。操作员重点观察红色部分，确认是原始文本中有错误还是切分错误。如果是原始文本有错误，修改后转到步骤S701。如果是切分错误，可以手动矫正切分结果，保存矫正后的结果，转到步骤S707。

步骤S707，字幕生成步骤：结合预定的字幕文件格式，将所述切分结果输出字幕文件。优选的是，调用字幕生成模块70用于将切分结果结合输入的作者、版权、备注、字幕格式的信息输出包括LRC、SRT、SSA等格式的字幕文件，其中，其中LRC格式主要用于音频文件的字幕，SRT主要应用于简单的视频字幕，SSA格式用于复杂的字幕显示如像类似卡拉OK字幕的展示。

其中，所述步骤S701、步骤S702两个步骤和步骤S703是独立的，没有先后顺序，可以互换。

综上所述，本发明能自动处理原始文本，分割为限定长度的句子或短语；采用形近词替代等方法自动处理非登录词，建立多发音注音网络；将注音网络展开为隐含马尔科夫识别语音对齐网络，使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分；通过语音识别技术对每个切分段的切分结果进行可信度评估，可很容易发现切分错误之处便于进一步处理；直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此，本发明可以在无人工干预或很少人工干预的情况下直接得到高质量的视听字幕文件，从而大大提供视听教学字幕加配的工作效率。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种视听字幕制作系统，其特征在于，所述系统包括：

2.根据权利要求1所述的视听字幕制作系统，其特征在于，所述原始文本处理模块还包括：

3.根据权利要求1所述的视听字幕制作系统，其特征在于，所述强制切分模块还包括：

4.根据权利要求3所述的视听字幕制作系统，其特征在于，所述句子的起止位置S_n和E_n通过以下公式得到：

S_n= (A_n+B_n-1)/2* FD，E_n= (B_n+A_n+1) /2*FD；

5.根据权利要求4所述的视听字幕制作系统，其特征在于，所述切分可信度评估模块还包括：

6.根据权利要求5所述的视听字幕制作系统，其特征在于，所述相似度分数F使用以下公式计算得到：

F = ( L_R- LD(S_S，S_R) ) / L_S*100；

7.根据权利要求1所述的视听字幕制作系统，其特征在于，所述错误处理模块还包括：

8.一种视听字幕制作方法，其特征在于，包括步骤如下：

9.根据权利要求8所述的视听字幕制作方法，其特征在于，所述原始文本处理步骤还包括：

10.根据权利要求8所述的视听字幕制作方法，其特征在于，所述强制切分步骤还包括：

11. 根据权利要求10所述的视听字幕制作方法，其特征在于，所述句子的起止位置S_n和E_n通过以下公式得到：

S_n= (A_n+B_n-1)/2* FD，E_n= (B_n+A_n+1) /2*FD；

12.根据权利要求11所述的视听字幕制作方法，其特征在于，所述切分可信度评估步骤还包括：

13.根据权利要求12所述的视听字幕制作方法，其特征在于，所述相似度分数F使用以下公式计算得到：

F = ( L_R- LD(S_S，S_R) ) / L_S*100；

14.根据权利要求8所述的视听字幕制作方法，其特征在于，所述错误处理步骤还包括：