CN101542593B

CN101542593B - 语音波形内插装置及方法

Info

Publication number: CN101542593B
Application number: CN2007800433010A
Authority: CN
Inventors: 松本智佳子
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-12
Filing date: 2007-03-12
Publication date: 2013-04-17
Anticipated expiration: 2027-03-12
Also published as: JPWO2008111158A1; WO2008111158A1; JP5233986B2; CN101542593A; US20090326950A1

Abstract

本发明涉及一种语音波形内插装置及方法，其针对所存储的语音数据(D_in)的一部分，利用该语音数据的另一部分进行内插，生成语音数据(D_c)。为此，所述语音波形内插装置具有：语音存储部(2)；生成内插语音数据(D_c)的内插波形生成部(3)；输出通过语音数据(D_c)将一部分替换的语音数据(D_out)的波形结合部(4)；以及内插波形设定功能部(5)，其判断上述语音数据的另一部分作为在内插波形生成部(3)中生成的内插语音数据(D_c)是否合适，并选择合适的语音数据。

Description

语音波形内插装置及方法

技术领域

本发明涉及语音波形的内插装置，例如涉及在分组通信系统中，用于在接收侧再生与语音分组的传送途中消失的语音分组相当的语音波形的语音波形内插装置。并且，涉及例如可用于对蓄积的语音段的数据进行编辑或加工而生成新的语音数据的语音编辑/加工处理系统的语音波形内插装置。

下面，将前者的语音分组通信系统作为代表例进行说明。

背景技术

近年来，在因特网普及的背景下，经由IP（Internet Protocol）网络来传送将语音数据分组化的语音分组的、所谓VoIP（Voice over IP）通信系统正在迅速普及。

在像这样以分组单位来传送PCM数据的IP网络中，若应接收的语音分组的一部分消失或缺失，则导致通过该语音分组再生的语音的语音质量变差。因此，以往就已提出各种极力不会使用户察觉到因该语音分组消失等而引起的语音质量劣化的方法。

作为该语音分组消失掩蔽方法之一，已知有ITU-T（InternationalTelecommunication Union：国际电信联盟）标准G.711 Appendix I。在该G.711 Appendix I中规定的分组消失掩蔽方法中，首先，利用波形相关，提取作为语音的物理特性之一的音调周期。并且，在与消失的语音分组相当的部分，重复配置该提取的音调图案，从而生成消失掩蔽信号。另外，在连续消失语音分组的情况下，使该消失掩蔽信号慢慢衰减。

此外，还提出了几种消失语音的内插再生方法，例如可举出下述的[专利文献1]～[专利文献3]。

[专利文献1]中公开了如下方式，即，赋予根据分组消失前正常接收到的语音数据估计的、音调周期的波动和功率变动，生成消失掩蔽信号。并且，在[专利文献2]中，参照分组消失前及消失后的分组之中的至少一方，利用该音调变动特性和功率变动特性，估计语音消失区间的音调变动及功率变动。并且，公开了一种通过使用该估计出的特性来再生语音消失区间的语音波形的方式。此外，在[专利文献3]中公开了如下方式，即，通过非标准化差分运算处理，计算与缺失之前输入的语音分组信号之间的最佳匹配波形，根据计算结果的最小值，由缺失之前输入的语音分组信号，决定要内插的内插信号。

专利文献1：日本特开2001-228896号公报

专利文献2：WO 2004/068098号公报

专利文献3：日本特开平2-4062号公报

根据上述现有的消失语音的波形内插方法，提取消失分组的前一个波形或后一个波形，提取其音调周期，重复该音调波形，从而生成内插语音波形。该情况下，由于提取该消失分组的前一个或后一个波形，所以无论该提取出的波形如何，都同样地重复音调波形，生成内插语音波形。

用于上述用于生成内插语音波形的前一个波形例如在母音的中间附近，振幅为一定值以上，且振幅变动也小，比较稳定时，可以生成几乎没有音质劣化的语音波形。但是，例如在从母音变为辅音，共振峰变化较大的过渡部分，或呼气段落末尾等，发生分组消失的情况下，即使上述用于生成内插语音波形的波形是自相关性高的周期性波形，也会出现蜂鸣声这样的再生音，有时引起音质劣化。将该情况示于图。

图14是表示发送语音波形（A）、以及对该发送来的语音波形（A）之中的因语音分组消失而引起的波形缺失部分进行内插的内插语音波形（B）的图。图14（A）中，一连串的语音波形之中的、因发生分组消失（分组遗失）而在语音分组中发生缺失的部分表示为P_a。根据上述现有的方法，始终提取该缺失部分P_a的前一个分组P_b，如图14（B）所示，作为重复的分组P_b′，插入配置到缺失部分P_a。

该P_b′的波形似乎是不错的波形，但若作为实际语音再生，则成为使用户感到不快的蜂鸣声。

发明内容

因此，本发明是鉴于上述问题而提出的，其目的在于，提供一种不产生不愉快的再生音的语音波形内插装置。

并且，本发明的目的还在于，提供一种用于解决上述情况的语音波形内插方法、以及用于计算机的语音波形内插程序。

如下面使用附图说明基于本发明的语音波形内插装置如下，其由如下部分构成：

（i）语音存储部，其存储语音数据；

（ii）内插波形生成部，其针对所述语音数据的一部分，利用该语音数据的另一部分进行内插，生成内插语音数据；

（iii）波形结合部，其将来自所述语音存储部的语音数据和替代该语音数据的一部分的由所述内插波形生成部生成的所述内插语音数据结合；以及

（iv）内插波形设定功能部，其判断所述语音数据的另一部分作为应由所述内插波形生成部进行内插的内插语音数据是否合适其中，在判断为合适的语音数据时，所述内插波形生成部生成所述内插语音数据。其中，本发明的最大的特征在于，上述（iv）的内插波形设定功能部。

该内插波形设定功能部（iv）具体还包括：振幅信息分析单元，其对来自所述语音存储部的所述语音数据，进行其振幅信息分析；以及语音波形判断部，其根据该分析结果，判断作为所述内插语音数据是否合适。

进一步详细地说，计算语音数据的每单位帧的振幅信息，根据时间方向的振幅值，求出振幅包络线，根据该振幅包络线，确定应该用于波形内插的附近波形在振幅包络线上的位置。根据所确定的位置的振幅信息，在上述语音波形判断部中判断是否是适合于上述重复的波形。

本发明提供一种语音波形内插装置，其特征在于，所述语音波形内插装置具有：

语音存储部，其存储语音数据；

内插波形生成部，其针对所述语音数据的一部分，利用该语音数据的另一部分进行内插，生成内插后语音数据；

波形结合部，其将来自所述语音存储部的语音数据和替代该语音数据的一部分的由所述内插波形生成部生成的所述内插后语音数据结合；以及

内插波形设定功能部，其判断所述语音数据的另一部分作为应在所述内插波形生成部中内插的内插语音数据是否合适，选择判断为合适的语音数据，将该合适的语音数据设定为所述内插语音数据，

所述内插波形设定功能部由振幅信息分析单元和语音波形判断部构成，

所述振幅信息分析单元具有：

振幅值计算部，其计算所述语音数据的振幅值，得到时间方向的振幅值；以及

振幅信息存储部，其将该计算出的振幅值作为振幅信息临时存储，

所述语音波形判断部根据由所述时间方向的振幅信息确定的振幅包络线上的位置的振幅是否在该振幅包络线的预定的振幅范围内，来判断作为所述内插语音数据是否合适。

附图说明

图1是表示本发明的基本结构的图。

图2是进一步具体表示图1的基本结构的图。

图3是表示与图14（A）的波形相同的波形（A）、将波形（A）包含在中间的长时间的语音波形（B）、以及通过波形（B）的振幅值计算得到的振幅包络线（C）的图。

图4是表示分组通信系统的语音波形内插装置的第一例的图。

图5是表示与图14（A）的波形相同的波形（A）、以及通过背景噪声区间内插的语音波形（B）的图。

图6是表示与图14（A）的波形相同的波形（A）、以及通过后方语音数据内插的语音波形（B）的图。

图7是表示语音波形内插装置的第二例的图。

图8是表示图7所示的语音波形内插装置的动作的流程图。

图9是进一步详细表示图8所示的步骤S19的流程图。

图10是表示语音波形内插装置的第三例的图。

图11是表示语音波形内插装置的第四例的图。

图12是表示对图14（A）的波形进行变形的一例（A）、以及通过前方语音数据内插的语音波形（B）的图。

图13是表示图6和图12所示的进行波形内插时的动作的流程图。

图14是表示发送语音波形（A）、以及对该发送来的语音波形（A）之中的因语音分组消失而引起的波形缺失部分进行内插的内插语音波形（B）的图。

符号说明

1语音波形内插装置；2语音存储部；3内插波形生成部；4波形结合部；5内插波形设定功能部；6振幅信息分析部；7语音波形判断部；8振幅值计算部；9振幅信息存储部；11有声/无声判断部；12判断阈值判断部；13振幅使用范围设定部；14发言者识别部；15判断阈值存储部；16振幅使用范围存储部

具体实施方式

图1是表示本发明的基本结构的图。如图1所示，本发明涉及的语音波形内插装置1具有：语音存储部2，其存储语音数据D_in；内插波形生成部3，其针对语音数据D_in的一部分，利用该语音数据D_in的另一部分进行内插，生成语音数据D_c；波形结合部4，其将来自语音存储部2的语音数据D_in和替代该一部分的来自内插波形生成部3的内插语音数据D_c结合，作为语音数据D_out输出；以及内插波形设定功能部5，其判断上述的语音数据D_in的一部分作为应在内插波形生成部3内插的内插语音数据是否合适，选择判断为合适的语音数据，将该语音数据设定为内插语音数据D_c。

在此，内插波形设定功能部5包括：振幅信息分析单元6，其对来自语音存储部2的语音数据D_in，进行其振幅信息分析；以及语音波形判断部7，其根据该分析结果，判断作为内插语音数据D_c是否合适。

图2是进一步具体表示图1的基本结构的图。另外，通过整个图，对相同结构要素赋予相同标号或符号。

图2中进一步具体表示图1的振幅信息分析单元6。即，振幅信息分析单元6具有：振幅值计算部8，其计算语音数据D_in的振幅值，得到时间方向的振幅值；以及振幅信息存储部9，其将该计算出的振幅值作为振幅信息临时存储。该振幅值计算部8还计算振幅包络线或该振幅的最大值及最小值。

在此，语音波形判断部7根据由上述时间方向的振幅信息确定的振幅包络线上的位置，判断作为内插语音数据D_c是否合适。另外，本图的右上所示的SW是择一切换下述两种情况的信号来作为输出语音数据D_out的开关，即，使输入语音数据D_in直接通过，或是包含通过内插得到的来自波形结合部5的内插语音数据D_c的语音数据。在此，为了便于理解本发明的原理，参照图3。

图3是表示与图14（A）的波形相同的波形（A）、将波形（A）包含在中间的长时间的语音波形（B）、以及通过波形（B）的振幅值计算（8）得到的振幅包络线（C）的图。本图（A）的P_a部分发生语音分组消失的情况下，在语音波形判断部7中判断与该消失分组的前一个分组相当的语音波形P_b作为内插波形（D_c）是否合适。

为了说明该语音波形判断部7中的判断方法，参照图3的（B）及（C）。语音波形判断部7对作为内插波形的几个候补进行如下判断：将在振幅信息分析部6中对以模拟波形表示时为该图（B）所示的输入语音数据D_in进行分析的结果，即，以模拟表示时为该图（C）所示的振幅包络线EV，作为输入时，作为该内插波形是否合适。

该情况下，以该候补位于振幅包络线EV上的哪一位置作为判断基准。在此，分析本图（C）的振幅包络线EV，P_b部分的语音波形位于振幅局部变小的位置，不能成为上述内插波形的候补。并且，P_c1部分或P_c2部分的各语音波形位于取振幅包络线的极小值的位置，也不能成为上述内插波形的候补。此外，P_d部分语音波形仅接在振幅包络线上的无声区间S的前面，也不能成为内插波形的候补。若将这些P_b、P_c1、P_c2、P_d的任意一个所在的语音波形用作内插波形，则例如会再生上述的蜂鸣声那样的声音。在此，本发明中，作为在内插波形生成部3中用作内插波形的图3（C）的振幅包络线（EV）上的波形，选择不位于P_b、P_c1、P_c2、P_d等的波形。

通过上述的本发明的原理来实现用于语音编辑/加工处理系统的语音内插装置或用于分组通信系统的语音波形内插装置。

前者的用于语音编辑/加工处理系统的语音波形内插装置由如下部分构成：语音存储部2，其蓄积多个语音段，进行保持；内插波形生成部3，其通过重复使用该语音段，对一连串的语音数据D_in的一部分进行内插，生成语音数据D_c；波形结合部4，其将存储于语音存储部2的语音数据和替代其一部分的来自内插波形生成部4的内插语音数据结合；以及内插波形设定功能部5，其判断语音数据的一部分作为应在内插波形生成部3内插的内插语音数据是否合适，选择判断为合适的语音数据，将该语音数据设定为内插语音数据。若使用该语音波形内插装置，例如在进行语音合成波形的标签中的辅音的音素边界的决定处理时，并且，进行语音合成时的语音段的配置处理时，或者，进行语速变换处理的情况下，决定语音段长度延长的语音段时，能够判断相应音段是否合适。

另一方面，后者的用于分组通信系统的语音波形内插装置由如下部分构成：语音存储部2，其按顺序存储依次接收的各分组之中、正常接收到的各分组具有的语音数据；内插波形生成部3，其在因分组的消失（废弃或延迟）而在语音数据D_in的一部分上发生缺失时，利用语音数据D_in的另一部分对该缺失部进行内插，生成语音数据D_c；波形结合部4，其将存储于语音存储部2的语音数据D_in和替代该一部分的来自内插波形生成部3的内插语音数据D_c结合；以及内插波形设定功能部5，其判断语音数据D_in的一部分作为应在内插波形生成部3内插的内插语音数据_c是否合适，选择判断为合适的语音数据，将该语音数据设定为该内插语音数据。

图4是表示上述分组通信系统的语音波形内插装置的第一例的图。本图中，参考符号“F”表示从分组通信网络正常接收语音分组时激活的模块，另一方面，参考符号“G”表示检测到来自分组通信网络的一连串的语音分组之中存在缺失的语音分组时激活的模块。其中，这些模块F及G内的结构与图2所示的结构相同。

作为本发明要部的内插波形设定功能部5由振幅值计算部8、振幅信息存储部9以及语音波形判断部7构成。在上述分组通信网络中的分组通信中，在分组正常接收区间，输入语音数据D_in被保存于语音存储部2。振幅值计算部8根据语音存储部2中的语音数据D_in，计算帧单位的振幅值，计算振幅包络线信息、振幅最大值、振幅最小值等振幅信息。振幅信息存储部9保存由振幅值计算部8计算出的振幅信息。

在发生分组消失的情况下，当从语音存储部2输入该消失的分组的前方或后方的波形位置到语音波形判断部7时，语音波形判断部7确定该部分在振幅包络线（EV）上的位置。判断应作为内插波形候补的波形是否在振幅包络线（EV）上的极小值位置或是无声区间S的前一部分P_d，将该判断结果通知给内插波形生成部3。

内插波形生成部3按照该判断结果，生成分组消失区间的波形。此外，波形结合部4将正常接收到的区间的语音波形和由内插波形生成部3生成的内插区间的波形结合，并使这些波形的连结部分圆滑，将结合波形作为输出语音数据D_out。

而且，语音波形判断部7判断作为替代候补的内插语音数据D_c在振幅包络线（EV）上的位置至少是振幅极小位置P_c1、P_c2或是无声区间的前一位置P_d时，不将该部分的语音数据采用为内插语音数据D_c，搜索该部分的语音数据以外的位置上的其他语音数据，或搜索背景噪声区间（参见图5）。

图5是表示与图14（A）的波形相同的波形（A）、以及通过背景噪声区间内插的语音波形（B）的图。图5（B）的参考符号P_n表示背景噪声区间。在判断分组消失区间（P_a）的前一区间不适合波形重复的情况下，也可以不通过该重复生成波形，而替代于此，将背景噪声数据配置在分组消失区间P_a。该背景噪声区间的语音数据利用存储于语音存储部2的语音数据和有声/无声的判断结果（参见图7的有声/无声判断部11），仅提取无声的噪声部分的语音数据来使用。另外，背景噪声数据也时时刻刻发生变化，所以使用区间优选使用尽量接近消失分组P_a的语音数据。

此外，语音波形判断部7将依次出现在应被内插的语音数据D_in的时间轴上的前方的前方语音数据的任意一个以及、依次出现在该应被内插的语音数据D_in的时间轴上的后方的后方语音数据的任意一个的至少一方，设定为作为上述代替候补的内插语音数据D_c（参见图6）。

图6是表示与图14（A）的波形相同的波形（A）、以及通过上述后方语音数据（P_r）内插的语音波形（B）的图。图6的内插波形生成例是，不仅对消失分组的前方的语音数据进行判断，还对消失分组的后方的语音数据进行判断，生成内插波形的例子。判断为消失分组的前一个分组不适合重复、而消失分组的后一个分组适合重复的情况下，重复配置该判断为合适的后方分组的语音数据，从而生成内插区间的波形D_c。但是，只有在允许语音发生些许延迟的情况下，才能够利用后方语音数据。

另外，内插波形的生成方法当然也可以相互组合，在基于波形重复的内插波形上重叠噪声波形，或者在分组消失连续且较长的情况下，分为消失分组区间的前半和后半，变更波形生成方法。

图7是表示语音波形内插装置的第二例的图。图7和图4（第一例）之间的差异在于，追加了有声/无声判断部11。即，基于该第二例的语音波形内插装置1还具备将存储于语音存储部2的语音数据D_in分类成有声部分和无声部分来进行判断的有声/无声判断部11，针对判断出的有声部分，通过振幅计算部8计算其振幅最大值和振幅变动率，将该结果保持在振幅信息存储部9中；针对判断出的无声部分，通过振幅计算部8计算其振幅平均值，将该结果保持在振幅信息存储部9中。进一步详细说明如下。

输入语音数据D_in被输入到有声/无声判断部11，被分类成语音区间和无声区间。在下一段的振幅值计算部8中，根据存储于语音存储部2的输入语音数据D_in，以帧单位（例如4msec）计算语音的振幅值。除了表示该振幅值的时间方向的变化的振幅包络线（EV）的信息之外，还根据上述有声/无声判断部11进行分类的结果，分别计算有声区间的振幅的最大值和最小值、语音区间的平均振幅。而且，在振幅信息存储部9中保存如上所述由振幅值计算部8计算出的振幅信息和有声/无声的判断结果。

在发生了分组消失的情况下，若从语音存储部2输入消失分组的前方（或后方）的波形位置到语音波形判断部7，则该语音波形判断部7确定该部分在振幅包络线（EV）上的位置。判断应作为内插候补的波形是否是振幅包络线（EV）上的极小值位置或是无声区间S的前一部分。如上所述，参见图5，使用实际的语音波形进行了说明。

引入上述有声/无声判断部11具有如下优点，不仅最大值、最小值、极小值的计算精度有所提高，振幅值计算部8中的运算负荷减轻。下面，说明引入了该有声/无声判断部11时的动作流程。

图8是表示图7所示的语音波形内插装置的动作的流程图。图8中，

步骤S11：判断是否正常收到了分组。

步骤S12：若进行了上述的正常接收（是），则取入其中的1个分组数据（语音数据），

步骤S13：将该输入语音数据D_in存储到语音存储部2中。

步骤S14：此外，上述有声/无声判断部11对语音数据D_in进行有声部分和无声部分的分类处理，

步骤S15：根据该分类结果，进行判断。

步骤S16：通过上述判断，判断为有声时，计算语音数据的振幅包络线（EV）和该振幅的最大值，

步骤S17：另一方面，通过上述判断，判断为无声时，计算出该无声语音的振幅平均值（即，有声语音的振幅的最小值），

步骤S18：将这些计算数据保持在振幅信息存储部9中。

步骤S19：在上述初始步骤S11中判断为未能正常接收到分组（分组消失）时，根据在步骤S18中保持的振幅信息，进行基于上述语音波形判断部7的判断，

步骤S20：如上所述，通过内插波形生成部3生成内插语音数据D_c。

步骤S21：进一步利用波形结合部4将输入语音数据D_in和内插语音数据D_c圆滑地结合，

步骤S22：得到输出语音数据D_out。在此，进一步详细说明上述步骤S19。

图9是更加详细地表示图8的步骤S19的流程图。图9中，

步骤S31：语音波形判断部7调查要作为内插语音波形候补的、振幅包络线EV（图3）上的位置的振幅变化率。该振幅变化率较小之处包含作为内插波形不合适的部分。

步骤S32：但是，从振幅变化率较小的部分之中，通过下面的3个步骤的判断，判断出作为内插波形不合适的位置。首先，若（振幅值-振幅最小值）＜无声前一区间判断阈值，则立即判断作为内插波形不合适，将判断标志设为OFF（不可使用）。

步骤S33：若上述不等式的成立为“否”，则接着，调查（振幅值-振幅最小值）＜极小值判断阈值1的不等式是否成立，

步骤S34：若该不等式成立（是），则进一步调查（振幅最大值-振幅值）＜极小值判断阈值2的不等式是否成立，

步骤S35：若该不等式成立（是），则最终不允许该语音数据作为内插波形使用（判断标志=OFF）。参见上述图3可知，例如进入到本图中的振幅范围“TH”内时，设定为不可使用。

步骤S36：因此，若上述步骤S31、S33及S34的判断结果的任意一个为“否”，则允许该语音数据作为内插波形使用（判断标志=ON）。

图10是表示语音波形内插装置的第三例的图，图11是表示语音波形内插装置的第四例的图。

简单地说，第三例和第四例示出还具备判断阈值设定部12的语音波形内插装置，该判断阈值设定部12根据存储于语音存储部2的语音数据D_in和存储于振幅信息存储部9的振幅信息，设定语音波形判断部7中判断作为内插语音数据D_c是否合适时的振幅判断阈值T1，

并且还示出具备发言者识别部14的语音波形内插装置（图11），从而对识别出的每个发言者设定上述振幅判断阈值T1，

还示出具备振幅使用范围设定部13的语音波形内插装置（图10、图11），该振幅使用范围设定部13设定应使用语音波形判断部7所使用的振幅信息之中的哪一范围。

为了与时时刻刻变化的语音数据D_in对应，判断阈值设定部12根据语音存储部2的语音数据和振幅信息存储部9的振幅信息，计算进行语音波形判断时的判断阈值T1，存储于判断阈值存储部15。另外，下面示出各种判断阈值的具体例。

·呼气段落末尾判断阈值=（无声区间）振幅平均值×1.2

·极小值判断阈值1=（有声区间）振幅最小值×1.2（参见图9的S33）

·极小值判断阈值2=（有声区间）振幅最大值×0.8（参见图9的S34）

另一方面，在图10和图11的振幅使用范围设定部13中设定语音波形判断部7所使用的振幅信息的使用范围。作为振幅信息的使用范围的设定方式，可以考虑，（i）设定为时间范围；（ii）参考有声/无声判断部11的判断结果，将夹在2个无声区间的有声区间设定为振幅的使用范围；（iii）参考有声/无声判断部11的判断结果，将一呼气段落设定为振幅的使用范围。

进一步详细说明上述（i）～（iii）如下：

（i）指定例如分组消失前3秒钟的时间；

（ii）根据有声/无声判断部11的判断结果，将夹在无声和无声之间的区间设定为振幅使用范围，无声不仅包含只有背景噪声的区间，还包括摩擦音（例如“日语サ行”音的辅音部分）或爆破音（例如“日语タ行”音的辅音部分）；

（iii）根据有声/无声判断部11的判断结果，将一个呼气段落、即一口气叙述的范围设定为振幅使用范围。

图10和图11的语音波形判断部7使用振幅信息存储部9的振幅信息、判断阈值存储部15的判断阈值、振幅使用范围存储部16的振幅使用范围，判断语音波形是否是可重复使用的语音波形。

并且，由振幅信息存储部9得到保持于振幅使用范围存储部16内的位于振幅使用范围内的振幅信息，计算振幅最小值、振幅最大值等。此外，使用判断阈值存储部15的判断阈值进行判断，对于此时的判断方法，如图9所示的流程图。

图11的第四例中的发言者识别部14根据语音存储部2的语音数据D_in，对发言者进行识别。对于发言者的识别方法，通过FFT（Fast FourierTransform，快速傅里叶变换）对语音数据进行频率变换，调查其平均频率、共振峰，从而进行识别。根据发言者的不同，从母音转移到辅音时的振幅变化率有所不同，极小值部分的辅音的振幅平均值也不同，此外，振幅最大值和振幅最小值之差也不同。在此，在判断阈值存储部15中存储各发言者的阈值信息。

在发生语音分组消失的情况下，根据语音存储部2的语音数据识别发言者，语音波形判断部7使用保持于判断阈值存储部15内的各发言者的阈值信息，判断波形，但此时，通过使用各发言者的阈值，能够进一步提高判断性能。

波形内插的方法如上所述有很多种。例如，上述的图5和图6所示的方法，下面还示出一种方法。

图12是表示对图14（A）的波形进行变形的一例（A）、以及通过前方语音数据内插的语音波形（B）的图。图12的波形生成例是，仅使用消失分组P_a的前方语音波形数据，生成内插区间（W区间）波形的例子。在判断为分组消失区间（P_a）的前一区间（U区间）的语音波形不适合波形重复使用的情况下，再判断前方分组（V区间），其结果，判断为适合波形重复使用的情况下，将V区间的波形重复配置在W区间，再连续配置U区间的波形，从而生成内插区间W的波形PV。

此外，作为其他方式，使用消失分组的后方语音波形数据的情况下，该消失分组区间后一个区间被判断为不适合波形重复使用时，再判断其后方的分组，判断为在此处适合重复使用的情况下，首先，仅配置一次认为适合重复使用的上述区间的波形，重复使用上述后方分组的波形，使它们相连，从而能够生成内插区间W的波形。

图13是表示进行图6和图12所示的波形内插时的动作的流程图。图13中，

步骤S41：在内插波形设定功能部5中得到作为判断对象的输入语音信号（D_in）。

步骤S42：判断形成该输入语音信号的分组是消失分组的前方分组还是后方分组，

步骤S43：若是前方分组，则对该波形（参见图12的U区间）进行判断。

步骤S44：根据该判断结果，认为该前方分组不适合在内插区间重复使用时（否）；

步骤S45：进一步将再前一个分组（图12的V区间）作为判断对象，重复相同操作；

步骤S46：在步骤S44中判断为适合在内插区间重复使用时（是），通过该判断为适合的前方波形，生成该内插区间的波形。并且，其他内插方法如下。

步骤S47：在上述步骤S42中，判断形成输入语音信号的分组是消失分组的前方分组还是后方分组，若是后方分组，则对其波形（参见图6的Pr）进行判断。

步骤S48：通过该判断结果，认为该后方分组不适合在内插区间重复使用时（否），

步骤S49：将再后一个的分组作为判断对象，重复相同操作，

步骤S50：在步骤S48中判断为适合在内插区间重复使用时（是），通过该认为合适的后方波形，生成在该内插区间的波形。

以上所述的本发明的语音波形内插装置还可以作为方法的步骤来实现。即，一种语音波形内插方法，针对所存储的语音数据D_c的一部分，利用该语音数据的另一部分进行内插，生成语音数据，所述语音波形内插方法包括：（i）存储语音数据D_in的第一步骤；（ii）第二步骤，判断该语音数据的一部分作为应内插的内插语音数据D_c是否合适，选择判断为合适的语音数据，将该语音数据设定为内插语音数据D_c；以及（iii）将在第一步骤（i）中存储的语音数据和在第二步骤（ii）中设定的内插语音数据D_c结合的第三步骤。

此外，所述语音波形内插方法在第二步骤（ii）中包括：对在第一步骤（i）中存储的语音数据D_in分析其振幅信息的分析步骤；以及根据其分析结果判断作为内插语音数据D_c是否合适的语音波形判断步骤。

并且，本发明可以作为语音波形内插程序表现，该语音波形内插程序使计算机针对所存储的语音数据D_in的一部分，利用该语音数据的另一部分进行内插，生成语音数据，所述语音波形内插程序使计算机执行如下步骤：（i）存储语音数据D_in的第一步骤；（ii）第二步骤，判断该语音数据的一部分作为应内插的内插语音数据D_c是否合适，选择判断为合适的语音数据，将该语音数据设定为内插语音数据D_c；以及（iii）将在第一步骤（i）中存储的语音数据和在第二步骤（ii）中设定的内插语音数据结合的第三步骤。

Claims

1.一种语音波形内插装置，其特征在于，所述语音波形内插装置具有：

语音存储部，其存储语音数据；

所述振幅信息分析单元具有：

2.根据权利要求1所述的语音波形内插装置，其特征在于，所述语音波形判断部在判断为作为替代候补的所述内插语音数据的所述振幅包络线上的位置至少是振幅极小值位置或无声区间的前一位置时，不将相应部分的语音数据作为所述内插语音数据采用，而搜索相应部分的语音数据以外的位置上的其他语音数据或背景噪音区间。

3.根据权利要求2所述的语音波形内插装置，其特征在于，所述语音波形判断部将在应被内插的所述语音数据的时间轴上的前方依次出现的前方语音数据的任意一个、以及在应被内插的所述语音数据的时间轴上的后方依次出现的后方语音数据的任意一个的至少一方，设为作为所述替代候补的所述内插语音数据。

4.根据权利要求1所述的语音波形内插装置，其特征在于，所述语音波形内插装置还具有将存储于所述语音存储部的所述语音数据分类成有声部分和无声部分来进行判断的有声/无声判断部，对于判断出的有声部分，在所述振幅计算部中计算其振幅最大值和振幅变动率，将其结果保持在所述振幅信息存储部中，针对判断出的无声部分，在所述振幅计算部中计算其振幅平均值，将其结果保持在所述振幅信息存储部中。

5.根据权利要求1所述的语音波形内插装置，其特征在于，所述语音波形内插装置还具备判断阈值设定部，该判断阈值设定部根据存储于所述语音存储部的所述语音数据和存储于所述振幅信息存储部的振幅信息，设定所述语音波形判断部中判断作为所述内插语音数据是否合适时的振幅判断阈值。

6.根据权利要求5所述的语音波形内插装置，其特征在于，所述语音波形内插装置还具备发言者识别部，对识别出的每个发言者设定所述振幅判断阈值。

7.根据权利要求4所述的语音波形内插装置，其特征在于，所述语音波形内插装置还具备振幅使用范围设定部，该振幅使用范围设定部设定应使用所述语音波形判断部所使用的所述振幅信息之中的哪个范围。

8.根据权利要求7所述的语音波形内插装置，其特征在于，所述振幅使用范围设定为时间范围。

9.根据权利要求7所述的语音波形内插装置，其特征在于，所述振幅使用范围参考所述有声/无声判断部的判断结果，将夹在2个无声区间的有声区间设定为振幅的使用范围。

10.根据权利要求7所述的语音波形内插装置，其特征在于，所述振幅使用范围参考所述有声/无声判断部的判断结果，将一个呼气段落设定为振幅使用范围。

11.一种用于分组通信系统的语音波形内插装置，其特征在于，所述语音波形内插装置具有：

语音存储部，其按顺序存储依次接收的各分组之中、正常接收到的各分组具有的语音数据；

内插波形生成部，其在因分组的消失而在所述语音数据的一部分上发生缺失时，利用所述语音数据的另一部分对缺失部进行内插，生成内插后语音数据；

波形结合部，其将存储于所述语音存储部的语音数据和替代该语音数据的一部分的由所述内插波形生成部生成的所述内插后语音数据结合；以及

内插波形设定功能部，其判断所述语音数据的另一部分作为应在所述内插波形生成部内插的内插语音数据是否合适，选择判断为合适的语音数据，将该合适的语音数据设定为所述内插语音数据，

所述振幅信息分析单元具有：

12.一种用于语音编辑/加工处理系统的语音波形内插装置，其特征在于，所述语音波形内插装置具有：

语音存储部，其蓄积多个语音段，并保持；

内插波形生成部，其生成通过所述语音段的重复使用而对一连串语音数据的一部分进行内插的内插后语音数据；

所述振幅信息分析单元具有：

13.一种语音波形内插方法，针对所存储的语音数据的一部分，利用该语音数据的另一部分进行内插，生成内插后语音数据，该语音波形内插方法的特征在于，所述语音波形内插方法包括：

存储所述语音数据的第一步骤；

第二步骤，判断所述语音数据的另一部分作为应内插的所述内插语音数据是否合适，选择判断为合适的语音数据，将该合适的语音数据设定为所述内插语音数据，利用所述内插语音数据进行内插，生成所述内插后语音数据；以及

将在所述第一步骤中存储的语音数据和在所述第二步骤中设定的所述内插后语音数据结合的第三步骤，

在所述第二步骤中，

计算所述语音数据的振幅值，得到时间方向的振幅值，将该计算出的振幅值作为振幅信息临时存储，

根据临时存储的所述时间方向的振幅信息确定的振幅包络线上的位置的振幅是否在该振幅包络线的预定的振幅范围内，来判断作为所述内插语音数据是否合适。