CN114049885A

CN114049885A - 标点符号识别模型构建方法和装置

Info

Publication number: CN114049885A
Application number: CN202210030614.9A
Authority: CN
Inventors: 陈梦喆; 陈谦
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-02-15
Anticipated expiration: 2042-01-12
Also published as: CN114049885B

Abstract

本申请公开了标点符号识别模型构建方法、装置及设备。其中，所述方法包括：获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；根据对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。采用这种处理方式，使得模型在通用领域具有较为一致的识别准确率，同时还从覆盖较少领域的少量平行数据中更好地学习语音处理模块，引入了声学信息后就可以更好地利用说话人本身的用意，得到更符合口语的标点符号。

Description

标点符号识别模型构建方法和装置

技术领域

本申请涉及语音处理技术领域，具体涉及标点符号识别模型构建方法、装置和设备，语音转写系统，语音交互系统。

背景技术

语音转写系统是一种可将语音转写为文字的语音处理系统。通过该系统可自动形成会议纪要，以提高会议效率、发挥会议功能，避免人力物力财力浪费、降低会议成本、达成人力资源效率化。

为了方便用户阅读，实时语音转写系统输出的文本通常是带有标点符号的文本。口语标点符号预测是一种对语音转写文本判断出标点符号的任务。一种典型的口语标点符号预测方法为，通过预先训练的口语标点符号识别模型，综合考虑语音转写文本和对应的语音声学特征，对语音转写文本中可能出现的标点符号进行预测。其中，口语标点符号识别模型训练要求的语料需要同时有音频和文本标注。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：这种平行数据的标注量特别是领域的覆盖性上远远小于纯文本的数据，用有限领域的少量平行数据来训练模型，会导致只能在部分领域获得较好的口语标点符号识别效果。综上所述，如何用覆盖领域有限的少量平行数据来训练模型，使得模型在通用领域能有一致的效果提升，成为本领域技术人员迫切需要解决的问题。

发明内容

本申请提供标点符号识别模型构建方法，以解决现有技术存在的模型仅在平行语料覆盖领域具有较高识别准确率的问题。本申请另外提供标点符号识别模型构建装置，电子设备，语音转写系统，语音交互系统。

本申请提供一种标点符号识别模型构建方法，包括：

获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；

根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；

根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

可选的，所述第一文本集和第一语音信息集包括第一领域和/或第一语种的文本和语音信息，所述对应关系集包括第二领域和/或第二语种的文本和语音信息，所述模型用于识别第一领域和/或第一语种的语音转写文本的标点符号。

可选的，所述文本处理模块包括多个文本特征提取层；

所述文本特征提取层的输入数据包括：上一文本特征提取层输出的文本特征，语音处理模块输出的声学特征。

可选的，所述第二语音数据包括含有噪声的语音数据；

所述语音处理模块包括：声学特征提取模块，音频质量检测模块，声学特征调整模块；

所述音频质量检测模块，用于获取所述第二语音数据的音频质量数据；

所述声学特征调整模块，用于根据音频质量数据，对声学特征提取模块输出的声学特征进行调整，将调整后的声学特征作为对应的文本特征提取层的输入数据。

可选的，所述语音处理模块还包括：与各文本特征提取层分别对应的声学特征转换层；

所述声学特征转换层，用于对调整后的声学特征进行特征转换，将转换后的声学特征作为对应的文本特征提取层的输入数据。

可选的，所述音频质量检测模块包括：时频特征提取模块，音频质量确定模块；

时频特征提取模块，用于从所述第二语音数据中提取时频特征；

所述音频质量确定模块，用于根据时频特征，获取所述音频质量数据。

可选的，所述语音处理模块包括：声学特征提取模块，与各文本特征提取层分别对应的声学特征转换层；

所述声学特征转换层，用于对声学特征提取模块输出的声学特征进行特征转换，将转换后的声学特征作为对应的文本特征提取层的输入数据。

可选的，所述根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数，包括：

去除第一文本中的标点符号；

将去除标点符号的第一文本作为文本处理模块的输入数据，通过文本处理模块预测输入文本的标点符号；

根据预测出的标点符号和第一文本的标点符号标注信息之间的差异，调整文本处理模块的网络参数。

可选的，所述根据第一语音信息集，学习得到所述模型包括的语音处理模块的第一网络参数，包括：

通过自学习方式，根据第一语音信息集，学习得到所述模型包括的语音处理模块的第一网络参数。

可选的，所述根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数，包括：

将去除标点符号的第二文本作为文本处理模块的输入数据，将与第二文本对应的第二语音数据作为语音处理模块的输入数据，通过所述模型预测输入文本的标点符号；

根据预测出的标点符号和第二文本的标点符号标注信息之间的差异，调整语音处理模块的网络参数。

本申请还提供一种标点符号识别模型构建装置，包括：

数据获取单元，用于获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；

预训练单元，用于根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；

调优单元，用于根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

本申请还提供一种电子设备，包括：

语音采集装置；

扬声器；

处理器；以及

存储器，用于存储实现根据上述语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序。

本申请还提供一种语音转写系统，包括：

服务端，用于接收会议终端发送的会议语音数据；获取所述语音数据的语音转写文本；通过标点符号识别模型，根据所述语音数据和所述语音转写文本，识别所述语音转写文本的标点符号信息；向会议终端回送带有标点符号的语音转写文本；

会议终端，用于采集所述语音数据，展示所述带有标点符号的语音转写文本；

其中，所述模型采用如下方式构建：获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

本申请还提供一种语音交互系统，包括：

服务端，用于接收客户端发送的针对目标语音数据的语音交互请求；获取所述语音数据的语音转写文本；通过标点符号识别模型，根据所述语音数据和所述语音转写文本，识别所述语音转写文本的标点符号信息；根据带有标点的语音转写文本，确定语音回复信息和/或语音指令信息；向客户端回送所述语音回复信息；

客户端，用于采集所述目标语音数据；展示所述语音回复信息, 和/或执行语音指令信息；

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的标点符号识别模型构建方法，先用大量容易获取的覆盖更多领域的单项数据（第一文本集和第一语音数据集）对模型进行预训练，使得模型获得较好的初始效果，然后固定文本处理模块的网络参数值，用覆盖较少领域的平行数据（第二语音数据与第二文本之间的对应关系集）来微调语音处理模块的网络参数。这样，模型对于主要的信号源“覆盖更多领域的大量文本”产生的效果不会有本质的改变，使得模型在通用领域具有较为一致的识别准确率。同时，还从覆盖较少领域的少量平行数据中更好地学习语音处理模块，引入了声学信息后就可以更好地利用说话人本身的用意，得到更符合口语的标点符号，使得模型对更多领域也能达到较高标点识别准确率，模型在通用领域能有一致的识别准确率提升。

本申请实施例提供的标点符号识别方法，通过上述标点符号识别模型，对语音转写文本的标点符号进行识别，使得即使该文本与模型训练阶段的平行数据属于不同的领域，仍能较好的识别标点符号。

本申请实施例提供的语音转写系统，通过上述标点符号识别模型，对会议语音的转写文本进行标点符号识别，使得即使会议语音与模型训练阶段的平行数据属于不同的领域，仍能达到较高的标点符号识别准确率。

本申请实施例提供的语音交互系统，通过上述标点符号识别模型，对交互语音的转写文本进行标点符号识别，使得即使交互语音与模型训练阶段的平行数据属于不同的领域，仍能达到较高的标点符号识别准确率，从而获得更好的语音交互效果。

附图说明

图1本申请提供的标点符号识别模型构建方法的实施例的流程示意图；

图2本申请提供的标点符号识别模型构建方法的实施例的模型示意图；

图3本申请提供的标点符号识别模型构建方法的实施例的又一模型示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了标点符号识别模型构建方法和装置，电子设备，语音转写系统，语音交互系统。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的标点符号识别模型构建方法的实施例的流程图。该方法的执行主体为标点符号识别模型构建装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述方法的任何设备。本实施例提供的标点符号识别模型构建方法包括：

步骤S101：获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集。

所述第一文本集包括多个带有标点符号的第一文本，如第一文本为“药品短缺患者用不上、市场被违规操纵导致价格攀高……近年来，国内短缺药品供应问题一直备受关注。日前, ……”。所述第一语音信息集包括多个第一语音数据，所述第一语音信息可以是通过麦克风采集到的语音数据。第一文本和第一语音信息之间不具有对应关系，两者均为单项数据。

所述对应关系集包括多个第二语音数据与第二文本之间的对应关系，将每个对应关系称为一对平行数据。所述第二文本为第二语音数据的带有标点符号的文本标注数据。通常由人工对第二语音数据进行文本标注，得到对应的第二文本。

所述第一文本集和第一语音数据集可覆盖的领域、语种基本不受限，可分别获得大量第一文本和第一语音数据。所述对应关系集覆盖的领域、语种通常较为有限，只能获得较少数量的所述对应关系。

在一个示例中，所述第一文本集和第一语音数据集可分别包括第一领域的文本和语音数据，所述对应关系集包括第二领域的文本和语音数据，所述模型可用于识别第一领域和第二领域的语音转写文本的标点符号。具体实施时，所述第一文本集还可同时包括第二领域的文本，也即第一文本集覆盖多领域文本。所述第一语音数据集可包括第二领域的语音数据，也可不第二领域的语音数据。所述第一文本集和第一语音数据集中的文本和语音数据无需是平行数据。例如，第一文本集和第一语音信息集包括计算机类会议和政务类会议的文本和语音数据，所述对应关系集只包括政务类会议的语音数据及对应的文本，基于这三个数据集训练得到的模型，在通过该模型识别政务类会议内容和计算机类会议内容的标点符号时，可获得较为一致的识别准确率。

在另一个示例中，所述第一文本集和第一语音数据集可分别包括第一语种的文本和语音数据，所述对应关系集包括第二语种的文本和语音数据，所述模型可用于识别第一语种和第二语种的语音转写文本的标点符号。具体实施时，所述第一文本集还可同时包括第二语种的文本，也即第一文本集覆盖多语种文本。所述第一语音数据集可包括第二语种的语音数据，也可不第二领语种域的语音数据。所述第一文本集和第一语音数据集中的文本和语音数据无需是平行数据。例如，第一文本集和第一语音数据集包括英文会议和中文会议的文本和语音数据，所述对应关系集只包括中文会议的语音数据及对应的文本，基于这三个数据集训练得到的模型，在通过该模型识别英文会议内容和中文会议内容的标点符号时，可获得较为一致的识别准确率。

在又一个示例中，所述第一文本集和第一语音数据集可分别包括第一领域且第一语种的文本和语音数据，所述对应关系集包括第二领域且第二语种的文本和语音数据，所述模型可用于识别第一领域且第一语种的语音转写文本的标点符号。所述第一文本集和第一语音数据集还可包括第二领域且第二语种的文本和语音数据，但这些文本和语音信息无需是平行数据。例如，第一文本集和第一语音数据集包括英文计算机类会议和中文政务类会议的文本和语音数据，所述对应关系集只包括中文政务类会议的语音数据及对应的文本，基于这三个数据集训练得到的模型，在通过该模型识别英文计算机类会议和中文政务类会议的标点符号时，可获得较为一致的识别准确率。

步骤S103：根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数。

所述模型，用于根据语音数据和语音转写文本，预测文本中出现的标点符号。所述模型包括语音处理模块和文本处理模块。所述文本处理模块的输入数据为不带有标点符号的文本，语音处理模块的输入数据为语音数据。所述语音处理模块，可通过多层特征提取输出高阶的声学特征。所述文本处理模块，可通过多层特征提取出文本特征，同时还引入语音处理模块输出的高阶声学特征。所述文本处理模块基于文本特征和高阶声学特征，预测文本包括的标点符号。

在实现本发明过程中，发明人发现现有技术中常用的引入声音信息的方式是全局的调整模型参数，这会导致模型拟合于平行数据所覆盖的领域及语言风格。为了解决这个问题，本实施例提供的方法分两步对模型进行训练，第一步是通过步骤S103基于覆盖更多领域的大量单项数据（第一文本集和第一语音数据集）对模型进行全局训练，第二步是通过步骤S105基于覆盖较少领域的少量平行数据优化其中的语音处理模块，以使得模型可以有效获取音频信息带来的收益，但同时对于主要的信号源文本产生的效果不会有本质的改变，这样模型就不会拟合于平行数据所覆盖的领域及语言风格。

步骤S103是对模型进行预训练，使得模型获得较好的初始效果。在该预训练阶段，根据各单项数据，分别训练文本处理模块的网络参数和语音处理模块的网络参数。

在一个示例中，所述根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数，可采用如下方式实现：先去除第一文本中的标点符号，将去除标点符号的第一文本作为文本处理模块的输入数据，通过文本处理模块预测输入文本的标点符号，将预测出的标点符号和第一文本的标点符号标注信息进行比对，计算模型损失，根据模型损失对文本处理模块的网络参数进行调整，直至达到模型的优化目标后，得到文本处理模块的网络参数。

在一个示例中，所述根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数，可采用如下方式实现：通过自学习方式，根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数。所述自学习方式，可以是通过预测被掩盖部分的语音单元来完成建模任务，即对于输入的语音数据覆盖掉一定比例的音频帧，目标是将这些位置的帧复现出来。采用这种无需标注的自学习方法，可获得较好的声学信息表征。

步骤S105：根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

步骤S105是对语音处理模块进行调优训练，该阶段可固定文本处理模块的网络参数值，用覆盖较少领域的平行数据（所述对应关系集）来微调语音处理模块的网络参数。

在一个示例中，步骤S105可采用如下方式实现：1）将去除标点符号的第二文本作为文本处理模块的输入数据，将与第二文本对应的第二语音数据作为语音处理模块的输入数据，通过所述模型预测输入文本的标点符号；2）根据预测出的标点符号和第二文本的标点符号标注信息之间的差异，调整语音处理模块的网络参数。具体实施时，可将预测出的标点符号和第二文本的标点符号进行比对，计算模型损失，根据模型损失对语音处理模块的网络参数进行调整，直至达到模型的优化目标后，得到语音处理模块的第二网络参数。

在一个示例中，所述文本处理模块可包括多个文本特征提取层；所述文本特征提取层的输入数据包括：上一文本特征提取层输出的文本特征，语音处理模块输出的声学特征。这样，可对模型的每一层均进行文本和语音的融合，使得文本和语音达到更充分的融合，因此可以有效提升识别准确率。

如图2所示，文本处理模块包括一个嵌入层和4个Transformer层，语音处理模块包括一个线性转换层和多个Transformer层。在文本处理模块中，嵌入层的输入数据是不带标点符号的文本，嵌入层的输出数据O₁是该文本的词向量；再经过4层的Transformer网络，各层输出数据分别为O₂、O₃、O₄、O₅, O₅是文本处理模块输出的文本特征，文本特征O₅是有利于标点判断的文本表征。

在语音处理模块中，线性转换层的输入数据是初步的语音信号表征。该语音信号表征可以是通过音频特征提取模块从语音数据中提取得到的语音声学特性的物理量（如停顿信息，pitch，能量，谱特征），也可以是来源于训练数据中直接包括的语音数据的声学特征。所述音频特征提取模块还可以是基于多层模型实现的音频特征提取模块，这样线性转换层的输入数据是经过多层模型提取的高阶信息（如wav2vec）。该初步的语音信号表征经过线性变换再输入到若干层的Transformer网络中，经过多层的Transformer网络进行特征提取，进一步抽象为高阶的声音表征S。由图2可见，语音处理模块输出的S向量会加到文本处理模块的每一个文本特征提取层中，作为每一个文本特征提取层的输入数据。

具体实施时，考虑到语音数据和文本在建模单元个数上无法一致（前者是语音帧，后者是字），需要在融合时做好对齐，对齐的方式可以采用forcealign的方式将二者对齐，也可以采用模型自己来学习每个字与每一帧的对应概率的方式进行对齐。

在一个示例中，所述文本处理模块可包括多个文本特征提取层；所述语音处理模块包括：声学特征提取模块，与各文本特征提取层分别对应的声学特征转换层；所述声学特征转换层，用于对声学特征提取模块输出的声学特征进行特征转换，将转换后的声学特征作为对应的文本特征提取层的输入数据。这样，使得语音处理模块的微调能够更充分地根据文本从浅层到深层的信息对自身权重进行调整，因此可以进一步提升识别准确率。

如图3所示，语音处理模块输出的声学特征S会乘以不同的权重层C_i-1，再与文本相关层进行融合。具体实施时，可采用如下计算公式：O_i=Relu((O_i-1+S*C_i-1)*W_i )。该公式表示：第i个文本特征提取层的输出数据O_i，可由该层的输入数据乘以权重层W_i，再经过激活函数得到的。而文本特征提取层的输入由两部分组成：一部分是上一文本特征提取层的输出数据O_i-1；另一部分是语音处理模块的基础输出数据S，之后会乘以不同的权重层C_i-1，再与文本相关层进行融合。具体实施时，对文本特征和声学特征进行融合的方式，可以是特征拼接或者特征相加。

在另一个示例中，所述模型还可引入音频质量数据，相应的，所述第二语音数据可包括含有噪声的语音数据。在这种情况下，所述语音处理模块包括：声学特征提取模块，音频质量检测模块，声学特征调整模块。所述音频质量检测模块，用于获取所述第二语音数据的音频质量数据；所述声学特征调整模块，用于根据音频质量数据，对声学特征提取模块输出的声学特征进行调整，将调整后的声学特征作为对应的文本特征提取层的输入数据。

如图3所示，所述模型引入了音频质量检测模块，该模块给出语音质量评分，评分以类似软开关的方式乘到语音处理模块输出的声学特征中，控制在不同音频质量上的音频保留比例。具体实施时，可采用如下计算公式：O_i=Relu((O_i-1+S*Q *C_i-1)*W_i )，其中Q是音频质量数据。

所述音频质量检测模块，可包括：时频特征提取模块，音频质量确定模块。时频特征提取模块，用于从所述第二语音数据中提取时频特征，如图3所示的提取STFT（短时傅里叶变换）数据；所述音频质量确定模块，用于根据时频特征，获取所述音频质量数据。所述音频质量确定模块，可基于神经网络实现。

所述语音数据经过音频质量检测模块处理后，输出数据是对于声音质量0到1的打分Q。1表示质量好，0表示质量差。音频质量检测模块的引入是为了针对实际场景中可能存在的声音的信噪比过低甚至是非语音的情况。实际上，训练数据无法完全覆盖这种情况，为了规避异常数据带来的风险，作了这样一个类似软开关的设计，最终的向量S会乘上Q作为音频模块的输出，当音频质量很差时，Q=0，则相当于屏蔽了声音信息，当Q=1时，相当于完整保留了声音信息，Q为0-1的某个值，则是以不同程度保留声音信息。

音频质量检测模块，可以在质量较好的语音数据上进行加高噪声，以及加入非语音作为训练数据，这样就生成了自带标注的数据可以用于训练。采用这种处理方式，使得训练可用的平行数据在音频质量多样性上覆盖更加充分，在引入声音信息后，仍可以确保较高的系统鲁棒性。

从上述实施例可见，本申请实施例提供的标点符号识别模型构建方法，先用大量容易获取的覆盖更多领域的单项数据（第一训练样本集）对模型进行预训练，使得模型获得较好的初始效果，然后固定文本处理模块的网络参数值，用覆盖较少领域的平行数据（第二训练样本集）来微调语音处理模块的网络参数，这样使得模型利用上了声学特征信息后就可以更好地利用说话人本身的用意，得到更符合口语的标点符号，但同时对于主要的信号源文本产生的效果不会有本质的改变，使得从覆盖较少领域的少量平行数据中就可以学习到对更多领域也能达到较高标点识别准确率的模型，模型在通用领域能有一致的识别准确率提升。

第二实施例

在上述的实施例中，提供了一种标点符号识别模型构建方法，与之相对应的，本申请还提供一种标点符号识别模型构建装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种标点符号识别模型构建装置包括：数据获取单元，预训练单元，调优单元。

数据获取单元，用于获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；预训练单元，用于根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；调优单元，用于根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

在一个示例中，所述第一文本集可包括第一领域和第二领域的文本，第一语音信息集可包括第一领域的语音信息，所述对应关系集包括第二领域的文本和语音信息，所述模型用于识别第一领域和第二领域的语音转写文本的标点符号。

在一个示例中，所述第一文本集可包括第一语种和第二语种的文本，第一语音信息集可包括第一语种的语音信息，所述对应关系集包括第二语种的文本和语音信息，所述模型用于识别第一语种和第二语种的语音转写文本的标点符号。

在一个示例中，所述第一文本集可包括第一领域且第一语种、第二领域且第二语种的文本，第一语音信息集可包括第一领域且第一语种的语音信息，所述对应关系集包括第二领域且第二语种的文本和语音信息，所述模型既能用于识别第一领域且第一语种的语音转写文本的标点符号，又能用于识别第二领域且第二语种的语音转写文本的标点符号。

在一个示例中，所述文本处理模块包括多个文本特征提取层；所述文本特征提取层的输入数据包括：上一文本特征提取层输出的文本特征，语音处理模块输出的声学特征。

在一个示例中，所述第二语音数据包括含有噪声的语音数据；所述语音处理模块包括：声学特征提取模块，音频质量检测模块，声学特征调整模块；所述音频质量检测模块，用于获取所述第二语音数据的音频质量数据；所述声学特征调整模块，用于根据音频质量数据，对声学特征提取模块输出的声学特征进行调整，将调整后的声学特征作为对应的文本特征提取层的输入数据。

在一个示例中，所述语音处理模块还包括：与各文本特征提取层分别对应的声学特征转换层；所述声学特征转换层，用于对调整后的声学特征进行特征转换，将转换后的声学特征作为对应的文本特征提取层的输入数据。

在一个示例中，所述音频质量检测模块包括：时频特征提取模块，音频质量确定模块；时频特征提取模块，用于从所述第二语音数据中提取时频特征；所述音频质量确定模块，用于根据时频特征，获取所述音频质量数据。

在一个示例中，所述语音处理模块包括：声学特征提取模块，与各文本特征提取层分别对应的声学特征转换层；所述声学特征转换层，用于对声学特征提取模块输出的声学特征进行特征转换，将转换后的声学特征作为对应的文本特征提取层的输入数据。

在一个示例中，所述预训练单元，具体用于去除第一文本中的标点符号；将去除标点符号的第一文本作为文本处理模块的输入数据，通过文本处理模块预测输入文本的标点符号；根据预测出的标点符号和第一文本的标点符号标注信息之间的差异，调整文本处理模块的网络参数。

在一个示例中，所述预训练单元，具体用于通过自学习方式，根据第一语音信息集，学习得到所述模型包括的语音处理模块的第一网络参数。

在一个示例中，所述调优单元，具体用于将去除标点符号的第二文本作为文本处理模块的输入数据，将与第二文本对应的第二语音数据作为语音处理模块的输入数据，通过所述模型预测输入文本的标点符号；根据预测出的标点符号和第二文本的标点符号标注信息之间的差异，调整语音处理模块的网络参数。

第三实施例

在上述的实施例中，提供了一种标点符号识别模型构建方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，包括：处理器和存储器；所述存储器，用于存储实现标点符号识别模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：获取第一文本集和第一语音数据集，及第二语音数据与第二文本之间的对应关系集；根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数；根据第一语音数据集，学习得到所述模型包括的语音处理模块的第一网络参数；根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数。

第四实施例

在上述的实施例中，提供了一种标点符号识别模型构建方法，与之相对应的，本申请还提供一种语音转写系统。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音转写互系统，包括：服务端和会议终端。所述会议终端，包括但不限于：拾音器，免提电话，视频会议终端等。

会议终端，用于采集所述语音数据，展示所述带有标点符号的语音转写文本；服务端，用于接收会议终端发送的会议语音数据；获取所述语音数据的语音转写文本；通过标点符号识别模型，根据所述语音数据和所述语音转写文本，识别所述语音转写文本的标点符号信息；向会议终端回送带有标点符号的语音转写文本，通过会议终端展示该文本，如展示在会议现场的大屏幕上。

从上述实施例可见，本申请实施例提供的语音转写，通过实施例一构建的标点符号识别模型，对会议语音的转写文本进行标点符号识别，使得即使会议语音与模型训练阶段的平行数据属于不同的领域，仍能达到较高的标点符号识别准确率。

第五实施例

在上述的实施例中，提供了一种标点符号识别模型构建方法，与之相对应的，本申请还提供一种语音交互系统。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

本申请另外提供一种语音交互系统，包括：服务端和客户端。所述客户端，包括但不限于：个人电脑、平板电脑、智能手机、智能音箱等终端设备。

服务端，用于接收客户端发送的针对目标语音数据的语音交互请求；获取所述语音数据的语音转写文本；通过标点符号识别模型，根据所述语音数据和所述语音转写文本，识别所述语音转写文本的标点符号信息；根据带有标点的语音转写文本，确定语音回复信息和/或语音指令信息；向客户端回送所述语音回复信息和/或语音指令信息；客户端，用于采集所述目标语音数据；展示所述语音回复信息, 和/或执行语音指令信息。

所述语音回复信息，可以是文字形式的回复信息，也可以是语音形式的回复信息或其它形式的回复信息。

在一个示例中，客户端为智能音箱，其采集用户语音数据，如“天猫精灵，把空调温度调高些”，通过所述系统可确定语音指令信息为“空调：温度大于25度”，该智能音箱可执行该指令，将空调调至大于25度。

从上述实施例可见，本申请实施例提供的语音交互系统，通过实施例一构建的标点符号识别模型，对交互语音的转写文本进行标点符号识别，使得即使交互语音与模型训练阶段的平行数据属于不同的领域，仍能达到较高的标点符号识别准确率，从而获得更好的语音交互效果。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

Claims

1.一种标点符号识别模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一文本集和第一语音信息集包括第一领域和/或第一语种的文本和语音信息，所述对应关系集包括第二领域和/或第二语种的文本和语音信息，所述模型用于识别第一领域和/或第一语种的语音转写文本的标点符号。

3.根据权利要求1所述的方法，其特征在于，

所述文本处理模块包括多个文本特征提取层；

4.根据权利要求3所述的方法，其特征在于，

所述第二语音数据包括含有噪声的语音数据；

5.根据权利要求4所述的方法，其特征在于，

所述语音处理模块还包括：与各文本特征提取层分别对应的声学特征转换层；

6.根据权利要求4所述的方法，其特征在于，

所述音频质量检测模块包括：时频特征提取模块，音频质量确定模块；

7.根据权利要求3所述的方法，其特征在于，

所述语音处理模块包括：声学特征提取模块，与各文本特征提取层分别对应的声学特征转换层；

8.根据权利要求1所述的方法，其特征在于，所述根据第一文本集，学习得到所述模型包括的文本处理模块的网络参数，包括：

去除第一文本中的标点符号；

9.根据权利要求1所述的方法，其特征在于，所述根据第一语音信息集，学习得到所述模型包括的语音处理模块的第一网络参数，包括：

10.根据权利要求1所述的方法，其特征在于，所述根据所述对应关系集，对基于第一网络参数的语音处理模块进行训练，得到语音处理模块的第二网络参数，包括：

11.一种标点符号识别模型构建装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

语音采集装置；

扬声器；

处理器；以及

存储器，用于存储实现根据权利要求1-10任一项所述的标点符号识别模型构建方法的程序，该设备通电并通过所述处理器运行该方法的程序。

13.一种语音转写系统，其特征在于，包括：

14.一种语音交互系统，其特征在于，包括：

服务端，用于接收客户端发送的针对目标语音数据的语音交互请求；获取所述语音数据的语音转写文本；通过标点符号识别模型，根据所述语音数据和所述语音转写文本，识别所述语音转写文本的标点符号信息；根据带有标点的语音转写文本，确定语音回复信息和/或语音指令信息；向客户端回送所述语音回复信息和/或语音指令信息；