JPH10124089A - Processor and method for speech signal processing and device and method for expanding voice bandwidth - Google Patents
Processor and method for speech signal processing and device and method for expanding voice bandwidthInfo
- Publication number
- JPH10124089A JPH10124089A JP8282235A JP28223596A JPH10124089A JP H10124089 A JPH10124089 A JP H10124089A JP 8282235 A JP8282235 A JP 8282235A JP 28223596 A JP28223596 A JP 28223596A JP H10124089 A JPH10124089 A JP H10124089A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- affricate
- codebook
- fricative
- narrowband
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、電話回線等の伝
送路を介されることにより周波数帯域が狭帯域に制限さ
れている音声信号から広帯域の音声信号を生成するため
の音声信号処理装置及び方法、並びに、帯域幅拡張装置
及び方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio signal processing apparatus and method for generating a wideband audio signal from an audio signal whose frequency band is restricted to a narrow band by passing through a transmission line such as a telephone line. And a bandwidth extension device and method.
【0002】[0002]
【従来の技術】電話回線の帯域は例えば300〜340
0kHzと狭く、電話回線を介して送られてくる音声信
号の周波数帯域は制限されている。このため、従来のア
ナログ電話回線の音質はあまり良好とは言えない。ま
た、ディジタル携帯電話の音質についても不満がある。2. Description of the Related Art The bandwidth of a telephone line is, for example, 300 to 340.
It is as narrow as 0 kHz, and the frequency band of the audio signal transmitted via the telephone line is limited. For this reason, the sound quality of the conventional analog telephone line is not very good. They also complain about the sound quality of digital mobile phones.
【0003】そこで、受話側で音声帯域幅を拡張し、音
質の改善を図るようにしたシステムが種々提案されてい
る。この中で、予め複数の音声信号のパターンから得ら
れた狭帯域音声信号のパラメータがコードベクタとして
格納された狭帯域コードブックと、これと同一の音声信
号のパターンから得られた広帯域音声信号のパラメータ
がコードベクタとして予め格納された広帯域コードブッ
クとを用意しておき、入力信号を狭帯域コードブックで
分析し、この分析結果に基づいて広帯域コードブックを
用いて音声合成を行なうことにより、音声帯域幅を拡張
し、音質を改善するようにしたシステムが提案されてい
る。Therefore, various systems have been proposed in which the voice bandwidth is expanded on the receiving side to improve the sound quality. Among them, a narrowband codebook in which parameters of a narrowband audio signal obtained in advance from a plurality of audio signal patterns are stored as code vectors, and a wideband audio signal obtained from the same audio signal pattern. By preparing a wideband codebook in which parameters are stored in advance as code vectors, analyzing the input signal with the narrowband codebook, and performing speech synthesis using the wideband codebook based on this analysis result, Systems have been proposed that extend the bandwidth and improve sound quality.
【0004】つまり、図6に示すように、電話回線のよ
うな伝送路を通じて音声信号を伝送する場合、送話側1
01からの音声信号は、伝送路102を介されることに
より周波数帯域が制限される。例えば、送話側101か
らの音声信号の周波数帯域が300Hzから7000H
z程度あったとしても、伝送路102を介されることに
より、受話側103に送られる音声信号の周波数帯域
は、例えば300Hzから3400Hz程度に制限され
る。That is, as shown in FIG. 6, when transmitting a voice signal through a transmission line such as a telephone line, the transmitting side 1
The frequency band of the audio signal from 01 is restricted by passing through the transmission line 102. For example, the frequency band of the audio signal from the transmitting side 101 is 300 Hz to 7000 H
Even if z is about z, the frequency band of the audio signal sent to the receiving side 103 is limited to, for example, about 300 Hz to 3400 Hz by passing through the transmission path 102.
【0005】そこで、図7に示すように、予め複数の音
声信号のパターンから得られる狭帯域音声信号のパラメ
ータがコードベクタとして格納された狭帯域コードブッ
ク105と、狭帯域コードブック105に対応して、同
一の音声信号のパターンから得られた広帯域音声信号の
パラメータがコードベクタとして予め格納された広帯域
コードブック106とが用意される。Therefore, as shown in FIG. 7, a narrow-band codebook 105 in which parameters of a narrow-band audio signal previously obtained from a plurality of audio signal patterns are stored as code vectors corresponds to the narrow-band codebook 105. A wideband codebook 106 in which parameters of a wideband audio signal obtained from the same audio signal pattern are stored in advance as code vectors is prepared.
【0006】なお、コードブック105及び106は、
例えば、同一の広帯域の音声信号を所定の長さのフレー
ムに分割して複数の音声信号のパターンを形成し、各フ
レーム毎にスペクトラム包絡を分析することにより作成
される。すなわち、コードブック作成時には、広帯域の
音声信号が用いられ、この広帯域の音声信号が所定のフ
レーム毎に分割される。広帯域コードブック106に
は、この広帯域の音声信号を広帯域のまま分析したとき
のスペクトラム包絡情報がコードベクタとして格納され
る。狭帯域コードブック105には、広帯域の音声信号
を例えば300〜3400Hzに帯域制限して分析した
ときのスペクトラム包絡情報がコードベクタとして格納
される。The code books 105 and 106 are:
For example, it is created by dividing the same broadband audio signal into frames of a predetermined length to form a plurality of audio signal patterns, and analyzing the spectrum envelope for each frame. That is, when creating a codebook, a wideband audio signal is used, and the wideband audio signal is divided into predetermined frames. The wideband codebook 106 stores, as a code vector, spectrum envelope information when the wideband audio signal is analyzed as it is in a wideband. The narrow-band codebook 105 stores, as a code vector, spectrum envelope information when a wideband audio signal is analyzed with its band limited to, for example, 300 to 3400 Hz.
【0007】狭帯域コードブック105及び広帯域コー
ドブック106に格納するスペクトラム包絡情報として
は、従来、LPCケプトラムが用いられている。LPC
ケプトラムは、線形予測係数によるケプトラムであり、
以下の式で示されるようにして求められる。[0007] As the spectrum envelope information stored in the narrowband codebook 105 and the wideband codebook 106, an LPC cepstrum is conventionally used. LPC
Ceptoram is a ceptoram with a linear prediction coefficient,
It is obtained as shown by the following equation.
【数1】 (Equation 1)
【0008】図7において、伝送路102を介して送話
側101から受話側103に送られてきた狭帯域の音声
信号は、先ず、分析回路104に送られる。分析回路1
04で、入力音声信号が所定のフレーム毎に分けられ、
スペクトラム包絡が求められる。分析回路104の出力
が狭帯域コードブック105に送られる。狭帯域コード
ブック105で、分析回路104で分析されたスペクト
ラム包絡と、狭帯域コードブック105に格納されてい
るスペクトラム包絡情報とが比較され、マッチング処理
が行なわれる。そして、狭帯域コードブック105の出
力が広帯域コードブック106に送られ、狭帯域コード
ブック105において最もマッチしているスペクトラム
包絡情報と対応する広帯域のスペクトラム包絡情報が、
広帯域コードブック106から読み出される。In FIG. 7, a narrow-band audio signal transmitted from a transmitting side 101 to a receiving side 103 via a transmission line 102 is first transmitted to an analysis circuit 104. Analysis circuit 1
At 04, the input audio signal is divided into predetermined frames,
A spectrum envelope is required. The output of analysis circuit 104 is sent to narrowband codebook 105. In the narrowband codebook 105, the spectrum envelope analyzed by the analysis circuit 104 is compared with the spectrum envelope information stored in the narrowband codebook 105, and a matching process is performed. Then, the output of the narrowband codebook 105 is sent to the wideband codebook 106, and the wideband spectrum envelope information corresponding to the spectrum matching information most closely matched in the narrowband codebook 105 is
Read from wideband codebook 106.
【0009】この広帯域スペクトラム包絡情報が合成回
路107に送られる。合成回路107で、広帯域コード
ブック106から読み出された広帯域のスペクトラム包
絡情報を用いて、音声信号が合成される。この合成され
た音声信号は、広帯域コードブック106を用いて合成
されるので、広帯域の音声信号となる。[0009] This broadband spectrum envelope information is sent to the synthesis circuit 107. The synthesis circuit 107 synthesizes the audio signal using the wideband spectrum envelope information read from the wideband codebook 106. Since the synthesized audio signal is synthesized using the wideband codebook 106, it becomes a wideband audio signal.
【0010】[0010]
【発明が解決しようとする課題】上述のように、従来の
音声帯域幅拡張システムでは、コードブックベクタとし
てLPCケプトラムを用いている。また、音声信号を合
成する際の励振源としては、ノイズとパルス列を用いて
いる。ところが、LPCケプトラムでは、聴感上の歪と
量子化誤差が比較的一致するものの、リニアスケールを
用いる場合より対数スケールが用いられるため、エネル
ギーの小さい部分が重視され、エネルギーの大きい部分
での誤差が大きくなる。このような音声帯域幅拡張シス
テムに用いるには、聴感上では、母音部分での歪をでき
るだけ抑えることが好ましい。したがって、LPCケプ
トラムは、必ずしも最適なものとは言えない。また、励
振源については、広帯域のLPC残差にできるだけ近い
ものが良いはずであるが、ノイズとパルス列を用いた従
来の方式は、これとは程遠いものである。As described above, in the conventional voice bandwidth extension system, an LPC cepstrum is used as a codebook vector. Also, noise and a pulse train are used as excitation sources when synthesizing audio signals. However, in the LPC cepstrum, although the distortion on hearing and the quantization error relatively match, a logarithmic scale is used rather than using a linear scale. Therefore, a portion having a small energy is emphasized, and an error in a portion having a large energy is reduced. growing. For use in such an audio bandwidth extension system, it is preferable that distortion in a vowel portion be suppressed as much as possible in terms of hearing. Therefore, LPC ceptoram is not always optimal. The excitation source should be as close as possible to the LPC residual in a wide band, but the conventional method using noise and a pulse train is far from this.
【0011】そこで、コードブックベクタとして自己相
関を用い、LPC残差をアップサンプルしたものを励振
源として用い、LPC合成により広帯域音声信号を合成
することが考えられる。自己相関は、対数スケールでは
ないので、母音部分での歪が改善されると考えられる。
ところが、コードブックベクタとして自己相関を用い、
LPC残差をアップサンプルしたものを励振源として用
い、LPC合成により広帯域の音声信号を形成するよう
にすると、特に、摩擦音、破擦音が不足し、歯切れの悪
い音になるという問題が生じる。これは、スペクトラム
包絡の予測が十分でないことも原因に上げられるが、種
として、励振源のパワー不足に起因すると考えられる。Therefore, it is conceivable to synthesize a wideband speech signal by LPC synthesis using autocorrelation as a codebook vector and upsampled LPC residuals as an excitation source. Since the autocorrelation is not on a logarithmic scale, it is considered that distortion in vowel parts is improved.
However, using autocorrelation as a codebook vector,
If an upsampled LPC residual is used as an excitation source to form a wideband audio signal by LPC synthesis, there is a problem in that fricative and affricate sounds are insufficient, resulting in a crisp sound. This can be attributed to insufficient prediction of the spectrum envelope, but it is considered to be due to insufficient power of the excitation source as a seed.
【0012】すなわち、摩擦音、破擦音の場合、比較的
良くLPC合成による予測が行なわれ、残差のパワーが
小さくなる。ところが、広帯域音声では予測が不十分
で、残差のパワーが小さくならない。このため、摩擦
音、破擦音の帯域を拡張する際には、残差パワーもそれ
と同等に大きくなっていなければならない。ところが、
残差は狭帯域残差から予測して作成されるため、パワー
が十分に大きくなっていない。このため、摩擦音、破擦
音の場合に、励振源のパワーが不足する。That is, in the case of a fricative or affricate, prediction by LPC synthesis is performed relatively well, and the power of the residual is reduced. However, prediction is not sufficient for wideband speech, and the power of the residual does not decrease. For this reason, when the band of the fricative and affricate is extended, the residual power must be as large. However,
Since the residual is created by predicting from the narrowband residual, the power is not sufficiently large. For this reason, in the case of a fricative or affricate, the power of the excitation source is insufficient.
【0013】したがって、この発明の目的は、音声帯域
幅を拡張する際に、摩擦音、破擦音を明瞭に再現できる
ようにした音声信号処理装置及び方法、並びに、音声帯
域幅拡張装置及び方法を提供することにある。Accordingly, an object of the present invention is to provide an audio signal processing apparatus and method, and an audio bandwidth extending apparatus and method capable of clearly reproducing a fricative sound and an affricate sound when the audio bandwidth is extended. To provide.
【0014】[0014]
【課題を解決するための手段】この発明は、入力音声信
号を分析し、分析された音声信号に対して信号処理を行
なった後、音声信号を合成するようにした音声信号処理
装置において、入力音声信号の摩擦音や破擦音を検出す
る破擦音検出手段と、摩擦音や破擦音が検出された場合
に、励振源に対してブーストを与えるブースト手段とを
備えるようしたことを特徴とする音声信号処理装置であ
る。SUMMARY OF THE INVENTION The present invention relates to an audio signal processing apparatus which analyzes an input audio signal, performs signal processing on the analyzed audio signal, and synthesizes the audio signal. It is characterized by comprising an affricate detecting means for detecting a fricative or affricate of an audio signal, and a boost means for giving a boost to an excitation source when a fricative or affricate is detected. It is an audio signal processing device.
【0015】また、この発明は、入力狭帯域音声信号か
ら自己相関のパラメータを求める分析手段と、入力狭帯
域音声信号のLPC残差から励振源を求める励振源形成
手段と、予め複数の音声信号のパターンから得られた狭
帯域音声信号の自己相関のパラメータが格納された狭帯
域コードブックと、予め複数の音声信号のパターンから
得られた広帯域音声信号の自己相関のパラメータが狭帯
域コードブックに対応して格納された広帯域コードブッ
クと、摩擦音、破擦音を検出する破擦音検出手段と、摩
擦音、破擦音が検出されたときに励振源に対してブース
トを与えるブースト手段と、入力狭帯域の音声信号の自
己相関のパラメータと、狭帯域コードブックに格納され
ている入力狭帯域音声信号の自己相関のパラメータとを
比較し、最適なパラメータを検索するマッチング手段
と、マッチング手段での検索結果に基づいて、広帯域コ
ードブックに格納されている広帯域音声信号の自己相関
のパラメータの中から対応するパラメータを読み出し、
この読み出されたパラメータと励振源を基にして出力広
帯域音声信号を合成する合成手段とを備えたことを特徴
とする音声帯域幅拡張装置である。Further, the present invention provides an analyzing means for obtaining an autocorrelation parameter from an input narrow-band audio signal, an excitation source forming means for obtaining an excitation source from an LPC residual of the input narrow-band audio signal, The narrowband codebook in which the parameters of the autocorrelation of the narrowband audio signal obtained from the pattern are stored, and the parameters of the autocorrelation of the wideband audio signal obtained in advance from a plurality of voice signal patterns are stored in the narrowband codebook. A correspondingly stored broadband codebook, fricatives, fricatives detecting means for detecting fricatives, fricatives, boosting means for providing a boost to the excitation source when fricatives are detected, input The autocorrelation parameters of the narrowband speech signal are compared with the autocorrelation parameters of the input narrowband speech signal stored in the narrowband codebook, and the optimum Reading and matching means for searching the meter, based on the search result of the matching means, the corresponding parameter from the parameters of the autocorrelation of the wide band audio signal stored in the wide band code book,
An audio bandwidth extending apparatus comprising: a synthesizing unit that synthesizes an output broadband audio signal based on the read parameters and the excitation source.
【0016】この発明では、破擦音検出手段は、入力音
声信号の自己相関の値及びフレームパワーの値を用い
て、摩擦音や破擦音を検出するものである。In the present invention, the fricative sound detecting means detects fricative sounds and fricative sounds using the value of the autocorrelation of the input audio signal and the value of the frame power.
【0017】このように、摩擦音や破擦音を検出する破
擦音検出し、摩擦音や破擦音が検出された場合に、励振
源に対してブーストを与えるよにすると、摩擦音や破擦
音の場合のパワー不足が改善され、摩擦音、破擦音を明
瞭に再現できる。As described above, when the fricative sound or fricative noise is detected and the fricative sound or fricative noise is detected, a boost is applied to the excitation source. In this case, the power shortage is improved, and the fricative and affricate can be reproduced clearly.
【0018】[0018]
【発明の実施の形態】以下、この発明の実施の形態につ
いて図面を参照して説明する。図1は、この発明が適用
された音声帯域幅拡張システムの一例を示すものであ
る。図1において、入力端子1に、周波数帯域が例えば
300Hz〜3400Hzで、サンプリング周波数が8
kHzの狭帯域音声信号が供給される。この狭帯域音声
信号は、LPC(Linear Predictive Coding)分析フィ
ルタ2に供給されると共に、アップサンプル回路3に供
給される。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows an example of an audio bandwidth extension system to which the present invention is applied. In FIG. 1, the input terminal 1 has a frequency band of, for example, 300 Hz to 3400 Hz and a sampling frequency of 8 Hz.
A kHz narrowband audio signal is provided. This narrowband audio signal is supplied to an LPC (Linear Predictive Coding) analysis filter 2 and also to an up-sampling circuit 3.
【0019】アップサンプル回路3は、サンプリング周
波数を8kHzから16kHzにアップサンプルするた
めのものである。アップサンプル回路3の出力は、30
0Hz〜3400Hzの通過帯域のバンドパスフィルタ
4を介して、加算回路5に供給される。このアップサン
プル回路3、バンドパスフィルタ4、加算回路5に通じ
る経路は、後に説明するように、元の周波数帯域の成分
の信号を、音声合成された高域の音声信号に付加するた
めの経路である。The up-sampling circuit 3 is for up-sampling the sampling frequency from 8 kHz to 16 kHz. The output of the up-sampling circuit 3 is 30
The signal is supplied to the addition circuit 5 via the band-pass filter 4 having a pass band of 0 Hz to 3400 Hz. As will be described later, a path leading to the up-sampling circuit 3, the band-pass filter 4, and the adding circuit 5 is a path for adding a signal of an original frequency band component to a high-band sound signal synthesized by voice. It is.
【0020】LPC分析フィルタ2は、入力端子1から
の狭帯域音声信号をフレーム化し、10次のLPC分析
を行なうものである。LPC分析の過程で、10次の自
己相関が得られる。この自己相関は狭帯域コードブック
6に送られると共に、破擦音検出回路7に送られる。ま
た、LPC分析フィルタ2で求められたLPC残差は、
アップサンプル回路8に送られる。The LPC analysis filter 2 converts the narrow-band audio signal from the input terminal 1 into a frame and performs a tenth-order LPC analysis. In the course of the LPC analysis, a tenth-order autocorrelation is obtained. This autocorrelation is sent to the narrow band codebook 6 and to the affricate detection circuit 7. The LPC residual obtained by the LPC analysis filter 2 is:
It is sent to the up-sampling circuit 8.
【0021】アップサンプル回路8により、狭帯域の音
声のLPC残差がアップサンプルされる。アップサンプ
ル回路8の出力がローパスフィルタ9、ブースト回路1
0をを介して、LPC合成フィルタ11に送られる。こ
のLPC残差をアップサンプルし、高域を抑圧した信号
は、後に説明するように、音声信号を合成する際の励振
源として用いられる。ブースト回路10は、破擦音や摩
擦音が検出された場合に、励振源をブーストするための
もので、ブースト回路10のブースト量は、破擦音検出
回路7の出力により制御される。The up-sampling circuit 8 up-samples the LPC residual of the narrow-band sound. The output of the up-sampling circuit 8 is a low-pass filter 9 and a boost circuit 1
0 to the LPC synthesis filter 11. The signal obtained by up-sampling the LPC residual and suppressing the high frequency band is used as an excitation source when synthesizing the audio signal, as described later. The boost circuit 10 is for boosting the excitation source when an affricate or a fricative is detected. The boost amount of the boost circuit 10 is controlled by an output of the affricate detecting circuit 7.
【0022】狭帯域コードブック6には、予め複数の音
声信号のパターンから得られた狭帯域音声信号の10次
の自己相関情報がコードベクタとして格納されている。
狭帯域コードブック6で、LPC分析フィルタ2から得
られた自己相関と、狭帯域コードブック6に格納されて
いる自己相関情報とが比較され、マッチング処理が行な
われる。そして、最もマッチしている自己相関情報のイ
ンデックスが広帯域コードブック12に送られる。The narrow-band codebook 6 stores 10th-order autocorrelation information of a narrow-band audio signal obtained from a plurality of audio signal patterns in advance as a code vector.
In the narrowband codebook 6, the autocorrelation obtained from the LPC analysis filter 2 is compared with the autocorrelation information stored in the narrowband codebook 6, and a matching process is performed. Then, the index of the best matching autocorrelation information is sent to the wideband codebook 12.
【0023】広帯域コードブック12には、狭帯域コー
ドブック6と対応して、狭帯域コードブック6を作成し
たときと同一のパターンの音声信号から得られる広帯域
音声信号の20次の自己相関情報がコードベクタとして
格納されている。狭帯域コードブック6で最もマッチし
ている自己相関情報が判断されると、このインデックス
が広帯域コードブック12に送られ、広帯域コードブッ
ク12により、最もマッチしていると判断された狭帯域
の自己相関情報に対応する広帯域の自己相関情報が読み
出される。The wideband codebook 12 has, in correspondence with the narrowband codebook 6, 20th-order autocorrelation information of a wideband audio signal obtained from an audio signal of the same pattern as when the narrowband codebook 6 was created. It is stored as a code vector. When the best matching autocorrelation information is determined in the narrowband codebook 6, this index is sent to the wideband codebook 12, and the narrowband self-correlation information determined by the wideband codebook 12 to be the best matching is obtained. Broadband autocorrelation information corresponding to the correlation information is read.
【0024】自己相関は、時間領域のパラメータで、以
下のようにして求められる。The autocorrelation is a parameter in the time domain and is obtained as follows.
【数2】 (Equation 2)
【0025】広帯域コードブック12は、サンプリング
周波数が16kHzの、0〜8000kHzの広帯域音
声信号を用いて、以下のようにして作成される。すなわ
ち、広帯域コードブック12の作成時には、この広帯域
音声信号が、長さ32m秒、前進20m秒毎のフレーム
に分割され、各フレームで20次の自己相関が求められ
る。これを利用して、GLA(General Lloyd Algorith
m )アルゴリズムにより、8ビットのコードブックが作
成される。これが広帯域コードブック4とされる。ここ
で、広帯域コードブックのi番目のコードベクタにエン
コードされたフレーム番号をAiする。The wideband codebook 12 is created as follows using a wideband audio signal of 0 to 8000 kHz with a sampling frequency of 16 kHz. That is, when the wideband codebook 12 is created, the wideband audio signal is divided into frames each having a length of 32 ms and a forward period of 20 ms, and a 20th-order autocorrelation is obtained in each frame. Using this, GLA (General Lloyd Algorith
m) The algorithm creates an 8-bit codebook. This is the wideband codebook 4. Here, Ai is the frame number encoded in the i-th code vector of the wideband codebook.
【0026】狭帯域コードブック6は、広帯域コードブ
ック12を作成したのと同一の音声信号で、サンプリン
グ周波数を8kHzで周波数帯域を300Hz〜340
0Hzに制限したものを用いて作成される。この狭帯域
に制限された音声信号が、広帯域コードブック12を作
成したときと同じ時刻でフレームに分割され、各フレー
ムで10次の自己相関が求められる。そして、フレーム
番号Aiに属するフレームの狭帯域自己相関の重心を求
め、そのベクターを狭帯域のコードブックのi番目のコ
ードベクタとすることで、フレーム番号Aiの広帯域コ
ードブックの広帯域自己相関に対応させるようにする。The narrow-band codebook 6 is the same audio signal as used to create the wideband codebook 12, and has a sampling frequency of 8 kHz and a frequency band of 300 Hz to 340.
It is created using the one limited to 0 Hz. This narrow-band audio signal is divided into frames at the same time as when the wideband codebook 12 was created, and a 10th-order autocorrelation is determined for each frame. Then, the center of gravity of the narrow-band autocorrelation of the frame belonging to the frame number Ai is obtained, and the vector is used as the i-th code vector of the narrow-band codebook, thereby coping with the wideband autocorrelation of the wideband codebook of the frame number Ai. Let it do.
【0027】図1において、広帯域コードブック12か
ら読み出された広帯域の自己相関情報は、自己相関−線
形予測係数変換回路13に送られる。自己相関−線形予
測係数変換回路13により、自己相関から線形予測係数
への変換が行なわれる。この線形予測係数がLPC合成
フィルタ11に送られる。In FIG. 1, the wideband autocorrelation information read from the wideband codebook 12 is sent to an autocorrelation-linear prediction coefficient conversion circuit 13. The autocorrelation-linear prediction coefficient conversion circuit 13 converts the autocorrelation into a linear prediction coefficient. This linear prediction coefficient is sent to the LPC synthesis filter 11.
【0028】LPC合成フィルタ11には、LPC分析
フィルタ2からのLPC残差をアップサンプル回路8で
アップサンプルして折返し歪を発生させ、ローパスフィ
ルタ9を介して高域側を抑圧した信号が供給されてい
る。LPC合成フィルタ11で、このLPC残差をアッ
プサンプルし、折返し歪の高域側を抑圧したようなもの
を励振源として用い、自己相関−線形予測係数変換回路
部13からの線形予測係数により、LPC合成が行なわ
れる。これにより、300Hz〜7000Hzの広帯域
の音声信号が合成される。The LPC synthesis filter 11 is supplied with a signal in which the LPC residual from the LPC analysis filter 2 is up-sampled by the up-sampling circuit 8 to generate aliasing distortion, and a low-pass filter 9 is suppressed through the low-pass filter 9. Have been. The LPC synthesis filter 11 up-samples the LPC residual, uses a signal obtained by suppressing the high frequency side of the aliasing distortion as an excitation source, and obtains a linear prediction coefficient from the autocorrelation-linear prediction coefficient conversion circuit unit 13 using: LPC synthesis is performed. As a result, a wideband audio signal of 300 Hz to 7000 Hz is synthesized.
【0029】LPC合成フィルタ11で合成された音声
信号は、バンドストップフィルタ14に供給される。バ
ンドストップフィルタ14は、入力狭帯域音声信号の周
波数帯域の信号成分を除去するものである。バンドスト
ップフィルタ14で、LPC合成フィルタ11で合成さ
れた周波数300Hz〜7000Hzの広帯域の音声信
号の中から、元の狭帯域の音声信号に含まれる300H
z〜3400Hzの信号成分が除去される。このバンド
ストップフィルタ14の出力が加算回路5に供給され
る。The audio signal synthesized by the LPC synthesis filter 11 is supplied to a band stop filter 14. The band stop filter 14 removes signal components in the frequency band of the input narrowband audio signal. The band stop filter 14 selects 300H included in the original narrowband audio signal from the wideband audio signal having a frequency of 300 Hz to 7000 Hz synthesized by the LPC synthesis filter 11.
Signal components of z to 3400 Hz are removed. The output of the band stop filter 14 is supplied to the adding circuit 5.
【0030】加算回路5で、アップサンプル回路3、バ
ンドパスフィルタ4を介された周波数300Hz〜34
00Hzの元の狭帯域の音声信号の成分と、バンドスト
ップフィルタ14を介された周波数3400Hz〜70
00Hzの音声合成された音声信号の成分とが加算され
る。これにより、周波数帯域が300〜7000Hz
で、サンプリング周波数が16kHzのディジタル音声
信号が得られる。このディジタル音声信号が出力端子1
5から出力される。The frequency of 300 Hz to 34 passed through the up-sampling circuit 3 and the band-pass filter 4 in the adding circuit 5
The original narrow band audio signal component of 00 Hz and the frequency of 3400 Hz to 70
The component of the voice signal synthesized with the voice of 00 Hz is added. Thereby, the frequency band is 300 to 7000 Hz
Thus, a digital audio signal having a sampling frequency of 16 kHz is obtained. This digital audio signal is output to output terminal 1
5 is output.
【0031】このように、この発明が適用された音声帯
域幅拡張装置では、狭帯域コードブック6を用いて入力
狭帯域音声信号が分析され、広帯域コードブック12を
用いて広帯域の音声信号が合成される。そして、コード
ブックの情報としては、自己相関が用いられる。従来、
一般には、スペクトラム包絡情報としてLPCケプトラ
ムが用いらていたが、実験の結果、LPCケプトラムを
用いるより、対数スケールでない自己相関を用いた方が
聴感上好ましいことが分かったからである。これは、L
PCケプトラムでは、対数スケールを用いているため、
パワーの小さい子音部分では誤差は小さくなるが、パワ
ーの大きい母音部分での誤差が相対的に大きくなるため
であると考えられる。As described above, in the audio bandwidth extending apparatus to which the present invention is applied, the input narrowband audio signal is analyzed using the narrowband codebook 6, and the wideband audio signal is synthesized using the wideband codebook 12. Is done. Then, autocorrelation is used as codebook information. Conventionally,
In general, LPC cepstrum was used as the spectrum envelope information. However, as a result of experiments, it has been found that using an autocorrelation that is not on a logarithmic scale is more audible than using LPC cepstrum. This is L
Since PC Ceptrum uses a logarithmic scale,
It is considered that the error is small in a consonant part with low power, but the error is relatively large in a vowel part with high power.
【0032】そして、この発明が適用された音声帯域幅
拡張システムでは、励振源として、LPC残差をアップ
サンプルし、折返し歪を発生させ、折返し歪の高域側を
抑圧したものが用いられる。このようにすると、元の音
声のパワーや調波構造が保存されているため、励振源と
して十分な性能が得られる。In the speech bandwidth extension system to which the present invention is applied, an excitation source that upsamples the LPC residual, generates aliasing distortion, and suppresses the high frequency side of aliasing distortion is used. In this way, since the power and harmonic structure of the original sound are preserved, sufficient performance as an excitation source can be obtained.
【0033】このように、コードブック6、12の情報
として自己相関を用い、LPC残差をアップサンプル
し、折返し歪の高域側を抑圧したもの励振源として用い
て音声信号を合成することにより、LPC合成フィルタ
11からは、300Hz〜7000Hzの良好な広帯域
の音声信号が得られる。As described above, the autocorrelation is used as the information of the codebooks 6 and 12, the LPC residual is up-sampled, and the audio signal is synthesized by using the high frequency side of the aliasing distortion suppressed as the excitation source. , And the LPC synthesis filter 11, a good wideband audio signal of 300 Hz to 7000 Hz can be obtained.
【0034】このようにして、LPC合成フィルタ11
から得られる広帯域の音声信号は、元の帯域の周波数成
分の信号をも含んでおり、これらの処理により元の帯域
の周波数成分に歪が及ぶため、LPC合成フィルタ11
の出力信号をそのまま用いると、元の帯域の周波数成分
の歪の影響が生じる。Thus, the LPC synthesis filter 11
Since the wideband audio signal obtained from the above also includes the signal of the frequency component of the original band, and the frequency components of the original band are distorted by these processes, the LPC synthesis filter 11
If the output signal is used as it is, the influence of the distortion of the frequency component of the original band occurs.
【0035】そこで、バンドストップフィルタ14によ
り、LPC合成フィルタ11の出力から、300Hz〜
3400Hzの元の帯域の周波数成分を除去し、バンド
パスフィルタ4を介して取り出された300Hz〜34
00Hzの元の音声信号の成分と、LPC合成フィルタ
11で合成された3400Hz〜7000Hzの音声信
号の成分とを加算するようしている。Therefore, the output of the LPC synthesis filter 11 is set to 300 Hz to
The frequency component of the original band of 3400 Hz is removed, and 300 Hz to 34 Hz extracted through the band-pass filter 4.
The component of the original audio signal of 00 Hz and the component of the audio signal of 3400 Hz to 7000 Hz synthesized by the LPC synthesis filter 11 are added.
【0036】なお、コードブック作成時の距離計算にお
いて、高次のデータの重みが小さくなるように重み付け
処理を行なうようにしても良い。すなわち、狭帯域コー
ドブック6においては1次から3次までの重みを「1」
とし、それ以上の次数では重みを「0」とし、広帯域コ
ードブック12においては1次から6次までの重みを
「1」とし、それ以上の次数では重みを「0」とする。
このようにすると、メモリ容量の節約ができるばかりで
なく、自己相関パラメータの性質として、大まかなスペ
クトル包絡の再現を重視することになり、より品質の良
い音声が得られる。In the distance calculation at the time of creating the code book, a weighting process may be performed so that the weight of higher-order data is reduced. That is, in the narrow-band codebook 6, the weight from the first to the third order is “1”.
The weight is set to "0" for higher orders, the weight for the first to sixth orders is set to "1" in the wideband codebook 12, and the weight is set to "0" for higher orders.
In this way, not only can the memory capacity be saved, but also the emphasis is placed on the reproduction of a rough spectral envelope as a property of the autocorrelation parameter, and a higher quality voice can be obtained.
【0037】ところで、このように、コードベクタとし
て自己相関を用い、LPC残差をアップサンプルして高
域を抑圧したものを励振源として、LPC合成により広
帯域の音声信号を形成するようにすると、特に、摩擦
音、破擦音が不足し、歯切れの悪い音になる。これは、
スペクトラム包絡の予測が十分でないことも原因に上げ
られるが、主として、励振源のパワー不足に起因すると
考えられる。By the way, when the autocorrelation is used as the code vector, the LPC residual is up-sampled, and the high frequency band is suppressed and the excitation source is used as the excitation source to form a wideband speech signal by LPC synthesis. In particular, the fricative and affricate are insufficient, resulting in a crisp sound. this is,
The cause may be that the spectrum envelope is not sufficiently predicted, but this is mainly due to insufficient power of the excitation source.
【0038】そこで、この発明が適用されたシステムで
は、摩擦音や破擦音を検出する破擦音検出回路7と、摩
擦音や破擦音が検出されたときに、励振源の全帯域又は
一部の帯域をブーストするブースト回路10が設けられ
る。破擦音検出回路7には、LPC分析フィルタ2で求
められた10次の自己相関が供給される。破擦音検出回
路7で、この10次の自己相関のうち、0次のフレーム
パワー、1次の自己相関、2次の自己相関を用いて、摩
擦音や破擦音が入力されたかどうかが検出される。破擦
音検出回路7で摩擦音や破擦音が検出されると、ブース
ト回路10により、励振源の全帯域又は一部の帯域がブ
ーストされる。Therefore, in the system to which the present invention is applied, an affricate detection circuit 7 for detecting a fricative or affricate is provided, and when a fricative or affricate is detected, the whole or a part of the excitation source is detected. Is provided. The tenth autocorrelation obtained by the LPC analysis filter 2 is supplied to the affricate detection circuit 7. The affricate detection circuit 7 uses the 0th-order frame power, the 1st-order autocorrelation, and the 2nd-order autocorrelation of the 10th-order autocorrelation to detect whether a fricative or affricate has been input. Is done. When a fricative or affricate is detected by the affricate detection circuit 7, the boost circuit 10 boosts all or a part of the band of the excitation source.
【0039】つまり、入力音声信号の自己相関を解析し
た結果、母音の場合と摩擦音や破擦音の場合とでは、0
次の自己相関すなわちフレームパワー、1次の自己相
関、2次の自己相関の位置関係に、以下のような違いが
あることが分かった。すなわち、0次のフレームパワー
をR0、1次の自己相関をR1、2次の自己相関R2と
すると、図2に示すように、入力音声信号が母音の場合
には、0次のフレームパワーR0、1次の自己相関R
1、2次の自己相関R2が略直線上に並ぶ。これに対し
て、図3に示すように、摩擦音や破擦音の場合には、0
次のフレームパワーR0、1次の自己相関R1、2次の
自己相関R2の位置関係が、下に凸に並ぶような関係と
なる。このことから、0次のフレームパワーをR0、1
次の自己相関をR1、2次の自己相関R2の位置関係が
下に凸に並んでいるかどうかを判断すれば、摩擦音や破
擦音の検出が行なえる。That is, as a result of analyzing the autocorrelation of the input voice signal, it is found that the vowel and the fricative or affricate have 0
The following differences were found in the positional relationship between the next autocorrelation, that is, the frame power, the first order autocorrelation, and the second order autocorrelation. That is, assuming that the 0th-order frame power is R0, the 1st-order autocorrelation is R1, and the 2nd-order autocorrelation is R2, as shown in FIG. , First-order autocorrelation R
The first and second order autocorrelations R2 are arranged on a substantially straight line. On the other hand, as shown in FIG.
The positional relationship between the next frame power R0, the first-order autocorrelation R1, and the second-order autocorrelation R2 is such that they are arranged in a convex shape. From this, the 0th-order frame power is R0, 1
By judging whether or not the positional relationship between the next autocorrelation R1 and the second-order autocorrelation R2 is convex downward, it is possible to detect a fricative or affricate.
【0040】このことを利用して、この発明が適用され
たシステムでは、以下の条件を満足するときに摩擦音や
破擦音であると判断される。Utilizing this, in the system to which the present invention is applied, when the following conditions are satisfied, it is determined that the sound is a fricative or affricate.
【0041】条件(1) R0が一定値以上であり、かつR1が一定値以上であ
り、かつR1/R2が一定値以下である場合には、摩擦
音や破擦音であると判断する。Condition (1) If R0 is equal to or greater than a certain value, R1 is equal to or more than a certain value, and R1 / R2 is equal to or less than a certain value, it is determined that the sound is a fricative or affricate.
【0042】条件(2) R0が一定値以上、一定値以下であり、かつR1が一定
値以下であり、かつ1−R1>R1−R2である場合に
は、摩擦音や破裂音であると判断する。Condition (2) When R0 is equal to or more than a certain value and equal to or less than a certain value, and R1 is equal to or less than a certain value and 1-R1> R1-R2, it is determined that the sound is a fricative sound or a plosive sound. I do.
【0043】条件(3) R0が一定値以上、一定値以下であり、かつ(R1−d
c)/(R0−dc)が一定値以下であり、かつ1−R
1>R1−R2である場合には、摩擦音や破裂音である
と判断する。なお、dcはフレームバンド毎に一定の値
である。Condition (3): R0 is equal to or more than a certain value and equal to or less than a certain value, and (R1-d
c) / (R0-dc) is equal to or less than a certain value, and 1-R
If 1> R1−R2, it is determined that the sound is a fricative sound or a plosive sound. Note that dc is a constant value for each frame band.
【0044】条件(1)又は条件(2)により摩擦音や
破擦音であると判断された場合には、励振源が例えば1
0dBブーストされる。また、条件(3)により摩擦音
や破擦音であると判断された場合には、励振源が例えば
5dBブーストされる。If it is determined that the sound is a fricative or affricate according to the condition (1) or the condition (2), the excitation source is set to, for example, 1
It is boosted by 0 dB. When it is determined that the sound is a fricative or affricate according to the condition (3), the excitation source is boosted by, for example, 5 dB.
【0045】また、以上のような条件が満たされるとき
に、瞬時に励振源のブーストを行なってしまうと、急に
音が変化して、違和感を与える。そこで、励振源が急激
に変化しないように、フレーム毎に励振源のブーストを
スムージングするようにし、励振源のブーストの変化が
目立たないようにしている。If the excitation source is instantaneously boosted when the above conditions are satisfied, the sound suddenly changes, giving a sense of incongruity. Therefore, the boost of the excitation source is smoothed for each frame so that the excitation source does not change abruptly, so that the change of the boost of the excitation source is not noticeable.
【0046】この発明が適用された音声帯域幅拡張シス
テムにより、良好な特性の音声帯域幅拡張が行なわれる
ことは、実験により明らかである。すなわち、図4は、
この発明が適用された音声帯域幅拡張システムを用いて
音声信号の帯域幅拡張を行なったときの実験結果を示す
ものである。図4Aは、ソースとなる広帯域の音声信号
のスペクトラム図である。このソースとなる音声信号
を、図4Bに示すように帯域制限し、この発明が適用さ
れた音声帯域幅拡張システムにより帯域幅拡張を行なう
ものとする。図4Cは、この信号の帯域幅拡張を行なっ
て得られた音声信号である。図4Aと図4Cとを比較す
れば、この発明が適用された音声帯域幅拡張システムに
より、かなりの精度で音声信号の帯域幅拡張が行なえた
ことが分かる。It is evident from experiments that the voice bandwidth expansion system to which the present invention is applied performs voice bandwidth expansion with good characteristics. That is, FIG.
FIG. 9 shows experimental results when the bandwidth of an audio signal is extended using the audio bandwidth extension system to which the present invention is applied. FIG. 4A is a spectrum diagram of a wideband audio signal serving as a source. The audio signal serving as the source is band-limited as shown in FIG. 4B, and the bandwidth is extended by the audio bandwidth extension system to which the present invention is applied. FIG. 4C is an audio signal obtained by extending the bandwidth of this signal. 4A and 4C, it can be seen that the audio signal bandwidth expansion system to which the present invention is applied can expand the audio signal bandwidth with considerable accuracy.
【0047】なお、この発明は、アナログの電話回線の
音質改善や、ディジタル携帯電話の音質改善に用いるこ
とができる。特に、ディジタル携帯電話では、変調方式
としてVSELPやPSI−CELPが用いられてい
る。VSELPやPSI−CELPでは、線形予測係数
や励振源が使われるので、これらの情報を音声帯域幅拡
張システムにおけるLPC分析やLPC合成の際に用い
ることができる。The present invention can be used for improving the sound quality of an analog telephone line and the sound quality of a digital portable telephone. In particular, VSELP and PSI-CELP are used as modulation schemes in digital mobile phones. Since VSELP and PSI-CELP use linear prediction coefficients and excitation sources, such information can be used for LPC analysis and LPC synthesis in a voice bandwidth extension system.
【0048】つまり、図5はディジタル携帯電話での適
用例を示すものである。図5に示すように、ディジタル
携帯電話においては、励振源と線形予測係数α1 〜α10
若しくはこれと等価なパラメータが送られてくる。この
励振源が入力端子21に供給され、線形予測係数が入力
端子22に供給される。入力端子21からの励振源は、
LPC合成フィルタ23に送られると共に、アップサン
プル回路24に送られる。入力端子22からの自己相関
係数は、LPC合成フィルタ23に送られる。FIG. 5 shows an example of application to a digital portable telephone. As shown in FIG. 5, in a digital cellular phone, excitation sources and linear prediction coefficients α 1 to α 10
Alternatively, an equivalent parameter is sent. This excitation source is supplied to the input terminal 21 and the linear prediction coefficient is supplied to the input terminal 22. The excitation source from the input terminal 21 is
The signal is sent to the LPC synthesis filter 23 and to the up-sampling circuit 24. The autocorrelation coefficient from the input terminal 22 is sent to the LPC synthesis filter 23.
【0049】LPC合成フィルタ23で、入力端子21
からの励振源を基に、入力端子22からの線形予測係数
を用いて、音声信号が合成される。LPC合成フィルタ
23で合成された音声信号は、アップサンプル回路25
に供給される。In the LPC synthesis filter 23, the input terminal 21
The audio signal is synthesized using the linear prediction coefficient from the input terminal 22 based on the excitation source from the. The audio signal synthesized by the LPC synthesis filter 23 is output to an up-sampling circuit 25.
Supplied to
【0050】アップサンプル回路25は、サンプリング
周波数をアップサンプルするためのものである。アップ
サンプル回路25の出力は、バンドパスフィルタ26を
介して、加算回路27に供給される。このアップサンプ
ル回路25、バンドパスフィルタ26、加算回路27に
通じる経路は、元の周波数帯域の成分の信号を合成され
た音声信号に付加するための経路である。The up-sampling circuit 25 is for up-sampling the sampling frequency. The output of the up-sampling circuit 25 is supplied to an adding circuit 27 via a band-pass filter 26. The path leading to the up-sampling circuit 25, the band-pass filter 26, and the adding circuit 27 is a path for adding the signal of the component of the original frequency band to the synthesized audio signal.
【0051】また、LPC合成フィルタ23から線形予
測係数−自己相関変換回路28に線形予測係数が送られ
る。線形予測係数−自己相関変換回路28は、線形予測
係数を自己相関に変換するものである。この自己相関は
狭帯域コードブック29に送られると共に、破擦音検出
回路30に送られる。The linear prediction coefficient is sent from the LPC synthesis filter 23 to the linear prediction coefficient-autocorrelation conversion circuit 28. The linear prediction coefficient-autocorrelation conversion circuit 28 converts the linear prediction coefficient into autocorrelation. This autocorrelation is sent to the narrowband codebook 29 and to the affricate detection circuit 30.
【0052】また、入力端子21からの励振源は、アッ
プサンプル回路24に送られる。アップサンプル回路2
4の出力がローパスフィルタ31、ブースト回路32を
介して、LPC合成フィルタ33に送られる。ブースト
回路32は、破擦音や摩擦音が検出された場合に励振源
をブーストするためのもので、ブースト回路32のブー
スト量は、破擦音検出回路30の出力により制御され
る。The excitation source from the input terminal 21 is sent to the up-sampling circuit 24. Upsampling circuit 2
4 is sent to an LPC synthesis filter 33 via a low-pass filter 31 and a boost circuit 32. The boost circuit 32 boosts the excitation source when an affricate or fricative is detected. The boost amount of the boost circuit 32 is controlled by an output of the affricate detector 30.
【0053】狭帯域コードブック29には、予め複数の
音声信号のパターンから得られた狭帯域音声信号の自己
相関情報がコードベクタとして格納されている。狭帯域
コードブック29で、線形予測係数−自己相関変換回路
28からの自己相関と、狭帯域コードブック29に格納
されている自己相関情報とが比較され、マッチング処理
が行なわれる。そして、最もマッチしている自己相関情
報のインデックスが広帯域コードブック34に送られ
る。In the narrowband codebook 29, autocorrelation information of narrowband audio signals obtained from a plurality of audio signal patterns is stored in advance as code vectors. In the narrowband codebook 29, the autocorrelation from the linear prediction coefficient-autocorrelation conversion circuit 28 is compared with the autocorrelation information stored in the narrowband codebook 29, and a matching process is performed. Then, the index of the best matching autocorrelation information is sent to the wideband codebook 34.
【0054】広帯域コードブック34には、狭帯域コー
ドブック29と対応して、狭帯域コードブック29を作
成したときと同一のパターンの音声信号から得られる広
帯域音声信号の自己相関情報がコードベクタとして格納
されている。狭帯域コードブック29で最もマッチして
いる自己相関情報が判断されると、このインデックスが
広帯域コードブック34に送られ、広帯域コードブック
34により、最もマッチしていると判断された狭帯域の
自己相関情報に対応する広帯域の自己相関情報が読み出
される。In the wideband codebook 34, corresponding to the narrowband codebook 29, autocorrelation information of a wideband audio signal obtained from an audio signal of the same pattern as when the narrowband codebook 29 was created is used as a code vector. Is stored. When the best matching autocorrelation information is determined in the narrowband codebook 29, this index is sent to the wideband codebook 34, and the narrowband self-correlation information determined to be the best matching by the wideband codebook 34 is obtained. Broadband autocorrelation information corresponding to the correlation information is read.
【0055】広帯域コードブック34から読み出された
広帯域の自己相関情報は、自己相関−線形予測係数変換
回路35に送られる。自己相関−線形予測係数変換回路
35により、自己相関から線形予測係数への変換が行な
われる。この線形予測係数がLPC合成フィルタ33に
送られる。The wideband autocorrelation information read from the wideband codebook 34 is sent to an autocorrelation / linear prediction coefficient conversion circuit 35. The autocorrelation-linear prediction coefficient conversion circuit 35 converts the autocorrelation into a linear prediction coefficient. This linear prediction coefficient is sent to the LPC synthesis filter 33.
【0056】LPC合成フィルタ33で、LPC合成が
行なわれる。これにより、広帯域の音声信号が合成され
る。LPC合成フィルタ33で合成された音声信号は、
バンドストップフィルタ36に供給される。バンドスト
ップフィルタ36の出力が加算回路27に供給される。The LPC synthesis filter 33 performs LPC synthesis. As a result, a wideband audio signal is synthesized. The audio signal synthesized by the LPC synthesis filter 33 is
The signal is supplied to the band stop filter 36. The output of the band stop filter 36 is supplied to the adding circuit 27.
【0057】加算回路27で、アップサンプル回路2
5、バンドパスフィルタ26を介され元の狭帯域の音声
信号の成分と、バンドストップフィルタ36を介された
音声合成された高域の音声信号の成分とが加算される。
これにより、広帯域の音声信号が得られる。この音声信
号が出力端子37から出力される。The up-sampling circuit 2 is added by the adding circuit 27.
5. The component of the original narrow-band audio signal passed through the band-pass filter 26 and the component of the high-band voice signal synthesized through the band-stop filter 36 are added.
Thereby, a wideband audio signal is obtained. This audio signal is output from the output terminal 37.
【0058】このように、変調方式としてVSELPや
PSI−CELPを用いた携帯電話システムでは、線形
予測係数や励振源が送られてくるので、これらの情報を
用いて、音声帯域幅を拡張することかできる。As described above, in a portable telephone system using VSELP or PSI-CELP as a modulation method, since a linear prediction coefficient and an excitation source are transmitted, it is necessary to extend the voice bandwidth by using such information. I can do it.
【0059】[0059]
【発明の効果】この発明によれば、入力音声信号をLP
C合成して帯域幅を拡張する際に、摩擦音や破擦音を検
出する破擦音検出し、摩擦音や破擦音が検出された場合
に、励振源に対してブーストを与えるようにしている。
このため、摩擦音や破擦音が入力された場合のパワー不
足が改善され、摩擦音、破擦音を明瞭に再現できる。According to the present invention, the input audio signal is converted to LP
When the C is synthesized to extend the bandwidth, an affricate is detected to detect a fricative or affricate, and a boost is applied to the excitation source when the fricative or affricate is detected. .
For this reason, the power shortage when a fricative or fricative is input is improved, and fricative or fricative can be clearly reproduced.
【図1】この発明が適用された音声帯域幅拡張システム
の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a voice bandwidth extension system to which the present invention is applied.
【図2】この発明が適用された音声帯域幅拡張システム
の説明に用いるグラフである。FIG. 2 is a graph used for describing an audio bandwidth extension system to which the present invention is applied.
【図3】この発明が適用された音声帯域幅拡張システム
の説明に用いるグラフである。FIG. 3 is a graph used for describing an audio bandwidth extension system to which the present invention is applied.
【図4】この発明が適用された音声帯域幅拡張システム
の効果の説明に用いるスペクトラム図である。FIG. 4 is a spectrum diagram used to explain the effect of the voice bandwidth extension system to which the present invention is applied.
【図5】この発明が携帯電話に適用された場合の一例を
示すブロック図である。FIG. 5 is a block diagram showing an example in which the present invention is applied to a mobile phone.
【図6】周波数帯域が制限される音声伝送経路の説明に
用いるブロック図である。FIG. 6 is a block diagram used for describing an audio transmission path whose frequency band is restricted.
【図7】従来の音声帯域幅拡張システムの説明に用いる
ブロック図である。FIG. 7 is a block diagram used for describing a conventional voice bandwidth extension system.
2・・・LPC分析フィルタ,6・・・狭帯域コードブ
ック,7・・・破擦音検出回路,11・・・LPC合成
フィルタ,12・・・広帯域コードブック2 ... LPC analysis filter, 6 ... Narrow band codebook, 7 ... Affect detection circuit, 11 ... LPC synthesis filter, 12 ... Broadband codebook
Claims (12)
音声信号に対して信号処理を行なった後、音声信号を合
成するようにした音声信号処理装置において、 上記入力音声信号の摩擦音や破擦音を検出する破擦音検
出手段と、 上記摩擦音や破擦音が検出された場合に、励振源に対し
てブーストを与えるブースト手段とを備えるようしたこ
とを特徴とする音声信号処理装置。1. An audio signal processing apparatus which analyzes an input audio signal, performs signal processing on the analyzed audio signal, and synthesizes an audio signal. An audio signal processing device comprising: an affricate detection means for detecting an affricate; and a boost means for providing a boost to an excitation source when the fricative or affricate is detected.
入力音声信号の自己相関の値及びフレームパワーの値を
用いて、摩擦音や破擦音を検出するものである請求項1
記載の音声信号処理装置。2. The fricative sound detecting means detects fricative sound and fricative sound using at least the value of the autocorrelation of the input audio signal and the value of frame power.
An audio signal processing device as described in the above.
に変化させるものである請求項1又は2記載の音声信号
処理装置。3. The audio signal processing apparatus according to claim 1, wherein said boost means changes a boost value gradually.
音声信号に対して信号処理を行なった後、音声信号を合
成するようにした音声信号処理方法において、 上記入力音声信号の摩擦音や破擦音を検出し、 上記摩擦音や破擦音が検出された場合に、励振源の全帯
域又は一部の帯域をブーストするようしたことを特徴と
する音声信号処理方法。4. An audio signal processing method for analyzing an input audio signal, subjecting the analyzed audio signal to signal processing, and then synthesizing the audio signal. An audio signal processing method comprising: detecting an affricate; and boosting the entire band or a part of the band of the excitation source when the fricative or affricate is detected.
力音声信号の自己相関の値及びフレームパワーの値を用
いて行なうようにした請求項4記載の音声信号処理方
法。5. The audio signal processing method according to claim 4, wherein the detection of the affricate is performed using at least an autocorrelation value and a frame power value of the input audio signal.
にした請求項4又は5記載の音声信号処理方法。6. The audio signal processing method according to claim 4, wherein said boost value is gradually changed.
める分析手段と、 上記入力狭帯域音声信号のLPC残差から励振源を求め
る励振源形成手段と、 予め複数の音声信号のパターンから得られた狭帯域音声
信号のパラメータが格納された狭帯域コードブックと、 予め複数の音声信号のパターンから得られた広帯域音声
信号のパラメータが上記狭帯域コードブックに対応して
格納された広帯域コードブックと、 摩擦音、破擦音を検出する破擦音検出手段と、 上記摩擦音、破擦音が検出されたときに上記励振源に対
してブーストを与えるブースト手段と、 上記入力狭帯域の音声信号のパラメータと、上記狭帯域
コードブックに格納されている入力狭帯域音声信号のパ
ラメータとを比較し、最適なパラメータを検索するマッ
チング手段と、 上記マッチング手段での検索結果に基づいて、上記広帯
域コードブックに格納されている広帯域音声信号のパラ
メータの中から対応するパラメータを読み出し、上記読
み出されたパラメータと上記励振源を基にして出力広帯
域音声信号を合成する合成手段とを備えたことを特徴と
する音声帯域幅拡張装置。7. An analysis means for obtaining a parameter from an input narrowband audio signal, an excitation source forming means for obtaining an excitation source from an LPC residual of the input narrowband audio signal, and an excitation source forming means for obtaining an excitation source from a plurality of audio signal patterns in advance. A narrowband codebook in which the parameters of the narrowband audio signal are stored, and a wideband codebook in which the parameters of the wideband audio signal obtained in advance from a plurality of audio signal patterns are stored corresponding to the narrowband codebook, Fricative sound, affricate detection means for detecting affricate, the fricative sound, boost means for boosting the excitation source when the affricate is detected, and parameters of the input narrowband audio signal Matching means for comparing parameters of the input narrowband audio signal stored in the narrowband codebook and searching for optimal parameters; Based on the search result in the matching means, a corresponding parameter is read out from the parameters of the wideband speech signal stored in the wideband codebook, and the output wideband speech is output based on the read parameter and the excitation source. An audio bandwidth extending device comprising: synthesizing means for synthesizing a signal.
入力音声信号の自己相関の値及びフレームパワーの値を
用いて、摩擦音や破擦音を検出するものである請求項7
記載の音声帯域幅拡張装置。8. The fricative sound detecting means detects fricative sound and fricative sound using at least the value of the autocorrelation of the input audio signal and the value of frame power.
A voice bandwidth extender as described.
に変化させるものである請求項7又は8記載の音声帯域
幅拡張装置。9. The audio bandwidth extending apparatus according to claim 7, wherein said boost means changes a boost value gradually.
られた狭帯域音声信号のパラメータが格納された狭帯域
コードブックと、予め複数の音声信号のパターンから得
られた広帯域音声信号のパラメータが上記狭帯域コード
ブックに対応して格納された広帯域コードブックとを設
け、 入力狭帯域音声信号からパラメータを求める分析し、 上記入力狭帯域音声信号のLPC残差から励振源を求
め、 摩擦音、破擦音を検出し、 上記摩擦音、破擦音が検出されたときに上記励振源に対
してブーストを与え、 上記入力狭帯域の音声信号のパラメータと、上記狭帯域
コードブックに格納されている入力狭帯域音声信号のパ
ラメータとを比較し、最適なパラメータを検索し、 上記マッチングでの検索結果に基づいて、上記広帯域コ
ードブックに格納されている広帯域音声信号のパラメー
タの中から対応するパラメータを読み出し、 上記読み出されたパラメータと上記励振源を基にして出
力広帯域音声信号を合成するようにしたことを特徴とす
る音声帯域幅拡張方法。10. A narrow-band codebook in which parameters of a narrow-band audio signal previously obtained from a plurality of audio signal patterns are stored, and parameters of a wide-band audio signal previously obtained from a plurality of audio signal patterns are stored in the narrow-band codebook. A wideband codebook stored in correspondence with the narrowband codebook, and analyzing parameters for the input narrowband audio signal to obtain an excitation source from the LPC residual of the input narrowband audio signal; When a sound is detected, a boost is applied to the excitation source when the fricative or affricate is detected, and a parameter of the input narrowband audio signal and an input narrowband stored in the narrowband codebook are input. Comparing with the parameters of the band audio signal, searching for the optimal parameters, and storing the parameters in the wideband codebook based on the search result of the matching. A corresponding parameter from among the parameters of the broadband audio signal being read, and synthesizing an output broadband audio signal based on the read parameter and the excitation source. .
信号の自己相関の値及びフレームパワーの値を用いて検
出するものである請求項10記載の音声帯域幅拡張方
法。11. The audio bandwidth extending method according to claim 10, wherein said affricate or fricative is detected by using an autocorrelation value and a frame power value of said input audio signal.
うにした請求項10又は11記載の音声帯域幅拡張方
法。12. The audio bandwidth extending method according to claim 10, wherein the boost value is gradually changed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8282235A JPH10124089A (en) | 1996-10-24 | 1996-10-24 | Processor and method for speech signal processing and device and method for expanding voice bandwidth |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8282235A JPH10124089A (en) | 1996-10-24 | 1996-10-24 | Processor and method for speech signal processing and device and method for expanding voice bandwidth |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10124089A true JPH10124089A (en) | 1998-05-15 |
Family
ID=17649823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8282235A Pending JPH10124089A (en) | 1996-10-24 | 1996-10-24 | Processor and method for speech signal processing and device and method for expanding voice bandwidth |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10124089A (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004109661A1 (en) * | 2003-06-05 | 2004-12-16 | Matsushita Electric Industrial Co., Ltd. | Sound quality adjusting apparatus and sound quality adjusting method |
US6889186B1 (en) * | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
US7529670B1 (en) | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US7660715B1 (en) | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
US7675411B1 (en) | 2007-02-20 | 2010-03-09 | Avaya Inc. | Enhancing presence information through the addition of one or more of biotelemetry data and environmental data |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
WO2011080855A1 (en) * | 2009-12-28 | 2011-07-07 | 三菱電機株式会社 | Speech signal restoration device and speech signal restoration method |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
JP2014167558A (en) * | 2013-02-28 | 2014-09-11 | Oki Electric Ind Co Ltd | Voice band extension device and program, and unvoiced sound extension device and program |
CN111602197A (en) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | Decoding device, encoding device, methods thereof, and program |
-
1996
- 1996-10-24 JP JP8282235A patent/JPH10124089A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6889186B1 (en) * | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
WO2004109661A1 (en) * | 2003-06-05 | 2004-12-16 | Matsushita Electric Industrial Co., Ltd. | Sound quality adjusting apparatus and sound quality adjusting method |
US7660715B1 (en) | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
US7529670B1 (en) | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
US7675411B1 (en) | 2007-02-20 | 2010-03-09 | Avaya Inc. | Enhancing presence information through the addition of one or more of biotelemetry data and environmental data |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
WO2011080855A1 (en) * | 2009-12-28 | 2011-07-07 | 三菱電機株式会社 | Speech signal restoration device and speech signal restoration method |
US8706497B2 (en) | 2009-12-28 | 2014-04-22 | Mitsubishi Electric Corporation | Speech signal restoration device and speech signal restoration method |
JP2014167558A (en) * | 2013-02-28 | 2014-09-11 | Oki Electric Ind Co Ltd | Voice band extension device and program, and unvoiced sound extension device and program |
CN111602197A (en) * | 2018-01-17 | 2020-08-28 | 日本电信电话株式会社 | Decoding device, encoding device, methods thereof, and program |
CN111602197B (en) * | 2018-01-17 | 2023-09-05 | 日本电信电话株式会社 | Decoding device, encoding device, methods thereof, and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10124088A (en) | Device and method for expanding voice frequency band width | |
EP1252621B1 (en) | System and method for modifying speech signals | |
US6732070B1 (en) | Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching | |
JP4662673B2 (en) | Gain smoothing in wideband speech and audio signal decoders. | |
JP3566652B2 (en) | Auditory weighting apparatus and method for efficient coding of wideband signals | |
RU2257556C2 (en) | Method for quantizing amplification coefficients for linear prognosis speech encoder with code excitation | |
JP4843124B2 (en) | Codec and method for encoding and decoding audio signals | |
US6757649B1 (en) | Codebook tables for multi-rate encoding and decoding with pre-gain and delayed-gain quantization tables | |
US6604070B1 (en) | System of encoding and decoding speech signals | |
KR100421226B1 (en) | Method for linear predictive analysis of an audio-frequency signal, methods for coding and decoding an audiofrequency signal including application thereof | |
EP0673013B1 (en) | Signal encoding and decoding system | |
JP3557662B2 (en) | Speech encoding method and speech decoding method, and speech encoding device and speech decoding device | |
JP4302978B2 (en) | Pseudo high-bandwidth signal estimation system for speech codec | |
US20040023677A1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
KR20070121254A (en) | Method and apparatus for wideband encoding and decoding | |
JPH10149199A (en) | Voice encoding method, voice decoding method, voice encoder, voice decoder, telephon system, pitch converting method and medium | |
JPH10124089A (en) | Processor and method for speech signal processing and device and method for expanding voice bandwidth | |
JP2000122679A (en) | Audio range expanding method and device, and speech synthesizing method and device | |
JP3230782B2 (en) | Wideband audio signal restoration method | |
JP4287840B2 (en) | Encoder | |
WO2004040553A1 (en) | Bandwidth expanding device and method | |
JPH11184499A (en) | Voice encoding method and voice encoding method | |
Gardner et al. | Survey of speech-coding techniques for digital cellular communication systems | |
Parsa et al. | Evaluation of the G. 729 speech coder with pathological voice samples | |
JPH09179588A (en) | Voice coding method |