JP2008309875A

JP2008309875A - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Info

Publication number: JP2008309875A
Application number: JP2007155308A
Authority: JP
Inventors: Hiroyasu Ide; 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2007-06-12
Filing date: 2007-06-12
Publication date: 2008-12-25
Anticipated expiration: 2027-06-12
Also published as: JP5098453B2

Abstract

【課題】音声信号の特性と聴覚の特性とが考慮された、高品質音声再生に適した高速な音声符号化及び復号を可能にする。
【解決手段】音声符号化装置として機能する音声符号化兼復号装置１１１は、入力された音声を、変形離散コサイン変換（ＭＤＣＴ）することによりＭＤＣＴ係数から構成されるスペクトルに変換した後、ＭＤＣＴ係数の時間依存性を所定の中区画帯域毎に差分又は比率で表し、該差分又は比率に基づく情報をエントロピ符号化して、音声復号装置として機能する別の音声符号化兼復号装置１１１に送信する。ＣＰＵ１２１は、音声符号化に際してはある時刻における前記差分又は比率を求め、音声復号に際しては該差分又は比率に基づいて前記スペクトルを復元する。ＣＰＵ１２１によるかかる処理には、直前時刻におけるＭＤＣＴ係数に基づく情報が必要となり、該情報は記憶部１２５に格納される。
【選択図】図１

Description

本発明は、聴覚の特性を考慮した音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。

通信容量が限られている状況下でなされる音声通信においては、できるだけ少ないデータによりできるだけ高品質の声音が復元可能となるように、音声符号化及び音声復号に工夫が必要となる。

かかる工夫のひとつの方向として、人間の聴覚の特性を有効に利用することが挙げられる。

聴覚の特性を考慮した音声符号化方法としては、音声信号をスペクトルに変換した後、聴覚の特性から導かれる臨界帯域を考慮しつつ、該スペクトルを複数のサブバンドに分割する方法が知られている（例えば、特許文献１及び非特許文献１参照）。

かかる方法においては、上述のサブバンド毎に、信号値、マスキング量、雑音等が勘案され、符号化に必要なビット数が算出された後、符号化が行われる。
特開平７−４６１３７号公報 JIS規格番号JISX4323"ディジタル記録媒体のための動画信号及び付随する音響信号の1.5Mbit/s符号化−第3部音響"、p. 96［online］、［平成１８年８月７日検索］、インターネット（URL：http://www.jisc.go.jp/app/pager?id=22028）

しかし、かかる方法においては、符号化に必要なビット数の算出の手順が複雑であり、多くの計算ステップが必要となる。これは、例えばひとつには、マスキング量の算出が容易ではないためである。

よって、かかる方法を採用すると、符号化装置等の内部のＣＰＵ等の演算装置の処理負担が大きくなってしまい、処理速度の低下を招き得る。すると例えば、携帯電話等の用途において、リアルタイムで相互通話を行うのが困難になる。

そこで、聴覚特性を考慮しつつ高速な音声符号化及び復号処理を可能とするような、リアルタイム通話等が実用上問題のない音質で行われる符号化及び復号装置が必要とされている。

本発明は、上記実情に鑑みてなされたものである。すなわち、通信容量が制約されている状況において、音声符号化にあたっては、音声信号の連続性及び定常性に着目することによる符号長の短縮と、聴覚特性を考慮した帯域別信号処理による高速化と、が図られ、音声復号にあたっては、実用上問題のない品質の音声を高速で復元できるようにした、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。

上記目的を達成するために、この発明の第１の観点に係る音声符号化装置は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換手段と、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
を備え、
前記最大値検索手段は、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。

音声信号の連続性及び定常性ゆえに、前記現最大値と前記過去最大値とを関連付けることにより前記情報の内容に偏りを生じさせることができる。そして、かかる偏りのある情報をエントロピ符号化するため、高い効率で符号化することができる。

前記中区画帯域に低域から順に中区画識別用整数を割り当て、前記中区画帯域の中心周波数の対数が、前記中区画識別用整数に線型的に依存するように前記中区画帯域を構成する中区画帯域構成手段をさらに備える、ことが望ましい。

人間の聴覚には、低周波音であるほど、周波数のわずかな差にも敏感であり、その感度は、周波数に対して対数的に変化する、という特性がある。よって、かかる中区画帯域構成手段をさらに備えることは、聴覚特性を考慮した音声符号化装置にふさわしい。

前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記符号化手段は、前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。

音声信号の連続性及び定常性ゆえに、前記現最大値自体として出現する値に比べると、前記差分として出現する値は小さい値に偏る。よって、偏りのある情報がエントロピ符号化されることになり、高い効率で符号化することができる。

あるいは、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記符号化手段は、前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。

前記比率として出現する値は1の近傍に偏るので、高い効率で符号化することができる。

最大差分決定手段をさらに備え、前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記最大差分決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、前記符号化手段は、前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。

差分に関する情報として最大差分だけが符号化されるので、符号量が少なくて済む。

あるいは、最大比率決定手段をさらに備え、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記最大比率決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、前記符号化手段は、前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。

比率に関する情報として最大比率だけが符号化されるので、符号量が少なくて済む。また、音声信号のスペクトル形状は時間とともに相似性を保ちつつ変化する場合が多いため、符号化の際の精度低下が抑制される。

前記離散スペクトル変換手段は、例えば、ＭＤＣＴ（Modified Discrete Cosine Transform）を用いる。

上記目的を達成するために、この発明の第２の観点に係る音声復号装置は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信手段と、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
前記規格化用値を記憶する規格化用値記憶手段と、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
を備え、
前記逆変形手段は、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。

上記目的を達成するために、この発明の第３の観点に係る音声符号化方法は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
から構成され、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。

上記目的を達成するために、この発明の第４の観点に係る音声復号方法は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
から構成され、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。

上記目的を達成するために、この発明の第５の観点に係るプログラムは、
コンピュータに、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
を実行させるプログラムであって、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。

上記目的を達成するために、この発明の第６の観点に係るプログラムは、
コンピュータに、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
を実行させるプログラムであって、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。

本発明によれば、音声信号の特性と聴覚の特性とが考慮された上で音声信号が帯域毎に処理される。よって、高音質を確保しつつも、音声信号を高速かつ軽快に符号化及び復号することが可能となる。

以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。

なお、ユーザにとっての利便性を確保する観点から、音声符号化装置と音声復号装置とは、音声符号化兼復号装置として、単一の装置に統合されているものとする。

（実施形態１）
図１に、本実施形態に係る音声符号化兼復号装置１１１を示す。該装置としては、例えば、携帯電話機が想定される。

音声符号化兼復号装置１１１は、ＣＰＵ１２１と、ＲＯＭ（Read Only Memory）１２３と、記憶部１２５と、音声処理部１４１と、無線通信部１６１と、操作キー入力内容処理部１７１と、を備え、これらは、システムバス１８１で相互に接続されている。システムバス１８１は、命令やデータを転送するための伝送経路である。

ＲＯＭ１２３には、音声符号化及び復号のための動作プログラムが格納されている。

記憶部１２５は、ＲＡＭ（Random Access Memory）１３１と、ハードディスク１３３と、から構成されて、デジタル音声信号、ＭＤＣＴ係数、帯域毎のＭＤＣＴ係数の最大値、所定の時間間隔毎の該最大値の変化量等を記憶する。特に本実施形態においては、音声符号化兼復号装置１１１は、音声符号化と音声復号のいずれの場合にも、ある時刻における処理に際して直前の時刻の音声信号に基づく情報を必要とするので、記憶部１２５は、かかる情報を一時的にせよ格納しておく遅延処理用バッファメモリとして、重要な役割を果たす。

音声符号化兼復号装置１１１は、マイクロフォン１５１と、スピーカ１５３と、アンテナ１６３と、操作キー１７３と、をさらに備える。

マイクロフォン１５１は、送信側すなわち符号化側のユーザの音声を収集し、音声処理部１４１に引き渡す。スピーカ１５３は、音声処理部１４１から引き渡された復元音声を、受信側すなわち復号側のユーザに対して、発する。アンテナ１６３は、無線通信部１６１から無線信号として引き渡された符号を受信側すなわち復号側の音声符号化兼復号装置１１１に送信したり、送信側すなわち符号化側の音声符号化兼復号装置１１１から送信された無線信号を受信して無線通信部１６１に引き渡したりする。操作キー１７３は、あらかじめ与えられている初期設定値、例えば、信号処理のための各種帯域の境界周波数を、ユーザ自らの判断で変更するときや、送信側すなわち符号化側のユーザが、通話の相手方である受信側及び復号側の装置１１１を特定したりするときに、ユーザの意図を装置１１１に伝達するために用いられる。

音声処理部１４１、無線通信部１６１、操作キー入力内容処理部１７１は、システムバス１８１を介してＣＰＵ１２１の制御下にある。

マイクロフォン１５１に入力された音声は、音声処理部１４１の内部のＡ／Ｄコンバータ（図示せず）による、例えば16kHzサンプリング及び16ビット量子化により、デジタル音声信号に変換される。

かかるデジタル音声信号は、音声処理部１４１により、音声信号圧縮の基本的な処理単位であるフレームに時分割されつつ、順次、記憶部１２５に送られる。

後述のとおり、ひとつのフレームのデジタル音声信号はひとまとまりのものとして、記憶部１２５への格納、ＣＰＵ１２１による周波数領域への変換、無線通信部１６１への伝達、アンテナ１６３による無線送信、といった過程を経る。

例えば、記憶部１２５に存在するあるフレームの信号が、ＣＰＵ１２１による処理を施されて無線通信部１６１へ伝達され終わったとする。すると、記憶部１２５からは、該フレームの信号に関わるデータは記憶部１２５から削除される。そして、記憶部１２５には、音声処理部１４１から次のフレームの信号が引き渡される。

このように、音声信号が入力され続ける限り、空きプロセスが生じることなく、次から次へとフレーム単位での信号処理が進行する。このような鎖状の処理方法を採ることにより、携帯電話として必要な、音声信号のリアルタイム処理が可能になる。

ただし、フレームは上述のとおりあくまでも基本的な処理単位である。本実施形態においては、後述するように、１フレーム毎の処理に加えて、時間軸上で隣接する２フレームのデジタル音声信号の相違に着目した処理が実行されるので、この意味では、２フレームが基本的な処理単位となる。

以下では、理解を容易にするために、まず、音声が、ある時刻tに対応する1フレーム分の時間に渡ってのみ、マイクロフォン１５１に入力されたと仮定して、説明する。

１フレームがM個の信号値から構成されるとして、マイクロフォン１５１に入力された音声信号が、音声処理部１４１によってデジタル音声信号x₀、・・・、x_M-1に変換され記憶部１２５に引き渡されたとする。装置１１１内部の各構成要素間のデータ移動は、ＣＰＵ１２１の指示に従ってシステムバス１８１を用いて行われる。ＣＰＵ１２１の指示は、ＲＯＭ１２３に格納された動作プログラムに従って発せられる。

記憶部１２５に格納されたデジタル音声信号x₀、・・・、x_M-1は、ＣＰＵ１２１の汎用レジスタ（図示せず。）のひとつにロードされる。実時間領域の信号であるデジタル音声信号x₀、・・・、x_M-1は、ＣＰＵ１２１により周波数領域の信号X₀、・・・、X_M/2-1に変換され、汎用レジスタに格納される。変換方法は、実時間領域の信号を周波数領域の信号へと変換するものであれば任意の方法であってよいが、変換後の数値に虚部が生じないため扱いが容易となることから、変形離散コサイン変換（ＭＤＣＴ、Modified Discrete Cosine Transform）を採用するのが好適である。

なお、実時間領域のM個の信号値が、上述のように周波数領域ではM/2個の周波数変換係数値に対応するのは、周波数変換にＭＤＣＴを用いたからである。他の周波数変換方法の場合、実時間領域におけるデータ数と周波数領域におけるデータ数とが、2：1の比になるとは限らないが、その場合は、周波数係数の最終値に付された数字を適宜読み替えれば、以下の説明はそのままあてはまる。

図２（ａ）は、こうして生成されたＭＤＣＴ係数を模式的に表したものである。図２（ｂ）は、その一部を拡大したものである。ＭＤＣＴは離散的周波数変換の一種であるから、周波数軸を区切ることによって生じるM/2個の小区画帯域毎に、ひとつの周波数変換係数が割り当てられることになる。図に示すように、低周波数側から数えてk+1番目の小区画帯域には番号kが与えられ、周波数変換係数X_kが割り当てられる（ただし、0≦k≦M/2-1である。）。X_kはＭＤＣＴ係数と呼ばれる。

有限の時間長を有する時間区画１つにつき１回のＭＤＣＴを行う。かかる時間区画をＭＤＣＴブロックと呼ぶ。また、ＭＤＣＴブロックひとつに含まれる信号サンプルの数をＭＤＣＴの次数という。ＭＤＣＴの次数としては、例えば５１２が好適である。

フレームは音声圧縮の処理単位であるから、基本的には、ＭＤＣＴブロックの時間長は1個のフレームの時間長を超えてはならない。一方、1個のフレームは複数のＭＤＣＴブロックを含んでもよく、例えば、1個のフレームが4個のＭＤＣＴブロックを含むのが好適である。

ただし、ここでは、発明の本質のみを抽出することにより理解を容易にするために、フレーム1個がＭＤＣＴブロック1個と１対１の対応をしているとする。つまり、1個のフレームがそのまま1個のＭＤＣＴブロックに対応しているとする。すると、図２以降のＭＤＣＴ係数の模式図においては、フレーム１個にM個の実時間信号値が含まれていることから、ＭＤＣＴの次数はMであることになる。

なお、図２以降では、ＭＤＣＴ係数は全て正の値をとるかのように描かれているが、これは理解を容易にするためにすぎない。実際のＭＤＣＴ係数は負の値をとる場合もある。かかる場合には、符号を表すためのビットを設ける等、任意の既知の手法を用いればよい。上述のように、図２以降のＭＤＣＴ係数に関する図は、あくまでも説明のための模式図である。

ＣＰＵ１２１は、汎用レジスタに格納されているＭＤＣＴ係数X_k（0≦k≦M/2-1）について、後の処理を円滑に行うために、各ＭＤＣＴ係数を識別するための記号を付け替える。該付け替えは、ＣＰＵ１２１が、ＲＯＭ１２３から読み出した動作プログラムに従って行う。具体的には、次のように、各ＭＤＣＴ係数を、時刻tの他に、２個の記号で識別し直す。

まず、図３（ａ）に示すように、周波数領域全体を、ω_MaxRANGE個の中区画帯域に分割し、低周波数側から1、2、・・・、ω_MaxRANGEのように番号を付けて各帯域を区別する。

ＭＤＣＴ係数の識別のための新たな記号のひとつは、この番号である。

各中区画帯域の中心周波数の対数が、該番号に線型的に依存するように、中区画帯域による周波数領域の分割が行われる。換言すると、ＣＰＵ１２１がＲＯＭ１２３から読み出す動作プログラムには、かかる分割が行われるような命令が含まれている。かかる分割によれば、高周波領域の中区画帯域ほど、帯域幅が広くなる。図３（ａ）にはその様子が模式的に示されている。

このように対数を基準に分割を行う理由は、人間の聴覚における周波数の違いに対する感度が、高周波成分ほど対数的に鈍くなるためである。そこで、限られた通信容量でできる限り有効な音声信号伝達を行うためには、低周波成分については、再生音質の確保のために詳しく再現し得るようにする一方で、高周波成分については、おおまかな情報だけ伝達することにして、情報量が全体として少なくなるようにするのが適切である。

例えば、マイクロフォン１５１に入力された音声が音声処理部１４１においてサンプリング周波数16kHzでデジタル信号に変換された場合には、ＲＯＭ１２３に格納されている動作プログラムにおいて、中区画帯域を11個設けることとし、中区画帯域の境界を187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hz、のように設定しておくのが好適である。

次に、各ＭＤＣＴ係数が、その属する中区画帯域のうち低周波側から数えて何番目のものであるか、が決定される。ω_RANGE（1≦ω_RANGE≦ω_MaxRANGE）という番号が付された中区画帯域にはq(ω_RANGE)個のＭＤＣＴ係数が含まれるとする。

すると、ＭＤＣＴ係数は、どの中区画帯域に属するかということと、中区画帯域の中で低周波数側から数えて何番目の係数であるかということと、を表す２つの記号により、特定される。すなわち、これまで図２（ｂ）に示すように全周波数に渡って1乃至M/2-1という番号で区別されていたＭＤＣＴ係数は、新たに、時刻tにおける、ω_RANGE番目の中区画帯域（1≦ω_RANGE≦ω_MaxRANGE)に属する、X(ω_RANGE、1、t)、・・・、X(ω_RANGE、ｑ(ω_RANGE)、t)、という形で記述されることにより、相互に区別されることになる。この様子は、図３（ａ）の一部を拡大した図３（ｂ）により、示される。

ＣＰＵ１２１は、こうして識別し直されたＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、ｑ(ω_RANGE)、t)（1≦ω_RANGE≦ω_MaxRANGE）を、記憶部１２５に格納する。

また、時刻tにおいて、ω_RANGEで表される中区画帯域におけるＭＤＣＴ係数の最大値を、中区画帯域最大値X_MAX(ω_RANGE、t)とする。

以下では理解を容易にするために、図２及び図３に示したグラフの縦軸方向の分解能すなわちデジタル化のために割り当てられたビット数は、全ての中区画帯域で一定であるとするが、帯域毎に異なるビット数をあらかじめ定めておいてもよい。例えば、連続する複数の中区画帯域をまとめた大区画帯域を定義した上で、ＭＤＣＴ係数を取り扱うに際しての精度を大区画帯域毎にあらかじめ決定しておくことととし、かつ、聴覚特性を考慮して、低周波数側の大区画帯域ほど該精度を高くすることとしてもよい。聴覚には、低周波音であるほど、音量の大小に敏感であるという特性があるからである。また、以下では差分の計算等に際してＭＤＣＴ係数をそのまま用いるが、ＭＤＣＴ係数の対数をとってから各種処理を実行し、最終段階でかかる対数から元のＭＤＣＴ係数に戻すように取り扱ってもよい。

本実施形態においては、音声符号化兼復号装置１１１は、ある時刻tにおけるＭＤＣＴ係数を授受するにあたって、該時刻より時間Δtだけ前の時刻におけるＭＤＣＴ係数を利用する。理解を容易にするために、まず、図４〜図６を参照しつつ、音声符号化側の音声符号化兼復号装置１１１と音声復号側の音声符号化兼復号装置１１１とが行う演算及び両者間で授受される情報について、概略的に述べる。その後、より詳細な処理の流れを、図７以降のフローチャートを参照しつつ説明する。

本実施形態の特徴は、時刻t-Δtと時刻tとの間のスペクトルの変化に基づく情報つまり差分が授受される点にある。したがって前提として、音声符号化側の音声符号化兼復号装置１１１から音声復号側の音声符号化兼復号装置１１１への通信開始時には、初期値として必要なＭＤＣＴ係数が、任意の既知の手法により、前者の装置から後者の装置に伝達されるものとする。また、通信が長時間に及ぶ場合には、差分が積算されることによる誤差を無視することができなくなることもあり得る。これに対処するために、リフレッシュレートをあらかじめ定めておき、一定の頻度で通信開始時と同様の初期化処理を行うようにしてもよい。以下では、本実施形態における特徴的な処理である、差分の授受についてのみ説明する。

図４〜図６では、左側に音声符号化側の音声符号化兼復号装置１１１が、右側に音声復号側の音声符号化兼復号装置１１１が描かれている。以下、それぞれの装置を単に送信機、受信機と呼ぶ。なお、図が煩雑にならないように、図４〜図６では、図１に示した音声符号化兼復号装置１１１の構成要素のうち、記憶部１２５及びアンテナ１６３以外は省略してある。

はじめに、図４（ａ）に示すように、送信機及び受信機いずれの記憶部１２５にも、時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)が格納されている。時刻がtになると、送信機のＣＰＵ１２１は、時刻tにおけるＭＤＣＴ係数を算出し、送信機の記憶部１２５に格納する（図４（ａ）参照）。

続いて、送信機のＣＰＵ１２１は、中区画帯域内における検索を行い、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)を算出し、記憶部１２５に格納する。この時点で、図４（ｂ）に示すように、送信機の記憶部１２５には、時刻t-Δt及びtにおける中区画帯域内のＭＤＣＴ係数の最大値と、時刻tにおけるＭＤＣＴ係数と、が格納されている。受信機の記憶部１２５には、時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)が格納されたまま、変化はない。

送信機のＣＰＵ１２１は、送信機の記憶部１２５に格納されている時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)を、同じく記憶部１２５に格納されている時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)から減算することにより、時刻tにおける最大値の差分値を求め、記憶部１２５に格納する。この後は送信機においては時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)は不要である。よって、送信機の記憶部１２５の記憶容量が圧迫されないよう、消去してもよい。送信機のＣＰＵ１２１はさらに、送信機の記憶部１２５に格納されている時刻tにおけるＭＤＣＴ係数を、同じく記憶部１２５に格納されている時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)により除算することにより、時刻tにおけるＭＤＣＴ係数の規格化値を求め、記憶部１２５に格納する。この時点で、図５（ａ）に示すように、送信機の記憶部１２５には、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)と、時刻tにおける最大値の差分値と、時刻tにおけるＭＤＣＴ係数の規格化値と、が格納されている。受信機の記憶部１２５には、時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)が格納されたまま、変化はない。

送信機の記憶部１２５に格納された時刻tにおける最大値の差分値と、時刻tにおけるＭＤＣＴ係数の規格化値と、は、送信機のＣＰＵ１２１により、記憶部１２５から取り出されて量子化され、エントロピ符号化され、送信機のアンテナ１６３から無線送信される。かかるエントロピ符号化により生成された符号が重畳された無線信号は、受信機において、受信機のアンテナ１６３により捕捉される。この様子を、図５（ｂ）に模式的に示す。なお、代表的なエントロピ符号化方法としては、ハフマンコードや、RangeCoderが挙げられる。

受信機のアンテナ１６３により捕捉された符号は、受信機のＣＰＵ１２１により復号される。復号の結果生じた、時刻tにおける最大値の差分値と、時刻tにおけるＭＤＣＴ係数の規格化値と、は、受信機の記憶部１２５に格納される。この時点で、図６（ａ）に示すように、受信機の記憶部１２５には、時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)と、時刻tにおける最大値の差分値と、時刻tにおけるＭＤＣＴ係数の規格化値と、が格納されている。送信機の記憶部１２５には、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)が残されている。

受信機のＣＰＵ１２１は、受信機の記憶部１２５に格納されている時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)に、同じく記憶部１２５に格納されている時刻tにおける最大値の差分値を加算することにより、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)を求め、記憶部１２５に格納する。この後、時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)と、時刻tにおける最大値の差分値と、は、不要であるので、これらの値は消去してもよい。受信機のＣＰＵ１２１は続いて、受信機の記憶部１２５に格納されている時刻tにおけるＭＤＣＴ係数の規格化値に、同じく記憶部１２５に格納されている時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)を乗算することにより、時刻tにおけるＭＤＣＴ係数を求め、記憶部１２５に格納する。この時点で、図６（ｂ）に示すように、受信機の記憶部１２５には、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)と、時刻tにおけるＭＤＣＴ係数と、が格納されている。送信機の記憶部１２５には、時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)が残されている。

このようにして、図４（ａ）に示したとおり初めは送信機の記憶部１２５に格納されていた時刻tにおけるＭＤＣＴ係数は、図６（ｂ）に示したとおり受信機の記憶部１２５に格納される。これはスペクトルについての情報が送信機から受信機に伝達されたことを意味する。この後、受信機は、周波数逆変換等により、送信機に入力された音声信号を復元することができる。

なお、図４（ａ）において送信機と受信機のいずれの記憶部１２５にも時刻t-Δtにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t-Δt)が格納されていたことに対応して、図６（ｂ）では、送信機と受信機のいずれの記憶部１２５にも時刻tにおける中区画帯域内のＭＤＣＴ係数の最大値X_MAX(ω_RANGE、t)が格納されている。よって、時刻t+Δt以降は、図４〜図６に示した処理と同様の処理を繰り返すことにより、各時刻のＭＣＤＴ係数を送信機から受信機に伝達することが可能である。

ＭＤＣＴ係数自体は、様々な値をとる。それに対して、音声信号の時間的連続性ゆえに、上述の最大値の差分値としては、比較的小さな値が高い頻度で出現する。この傾向は、音声信号が定常状態にある時間帯にはいっそう顕著である。このように偏りのある情報は、エントロピ符号化による圧縮効率が高い。よって、本実施形態によれば、単にＭＤＣＴ係数自体を符号化する場合に比べて、伝達レートの割に高品質の音声を復元することができる。

なお、理解を容易にするために、図４〜図６を用いた上述の説明においては、ＭＤＣＴ係数を求める時間間隔と符号化処理の時間間隔とを共にΔtで表したが、かかる２種の時間間隔が等しい必要はない。例えば、音声通話におけるリアルタイム感を損なわない限り、いくつかの連続した時間帯の音声信号から算出される複数組のＭＤＣＴ係数を送信機の記憶部１２５に貯めておいてから、一括して量子化し、エントロピ符号化してもよい。

以下では、上述の処理の流れを、フローチャートを参照しつつ説明する。図７は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、規格化ＭＤＣＴ係数の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にＭＤＣＴを施されており、送信機の記憶部１２５にはＭＤＣＴ係数が格納されているものとする。

送信機のＣＰＵ１２１は、帯域識別変数ω_RANGEを1に初期化し（ステップＳ７１１）、記憶部１２５からＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)をロードし（ステップＳ７１３）、ロードしたこれらのＭＤＣＴ係数のうちの最大値である中区画帯域最大値X_MAX(ω_RANGE、t)を求め（ステップＳ７１５）、X_MAX(ω_RANGE、t)を記憶部１２５に格納する（ステップＳ７１７）。

ステップＳ７１７でX_MAX(ω_RANGE、t)を記憶部１２５に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。

ＣＰＵ１２１は、直前時刻の中区画帯域最大値X_MAX(ω_RANGE、t-Δt)を記憶部１２５からロードする（ステップＳ７１９）。

ステップＳ７１９でＣＰＵ１２１がX_MAX(ω_RANGE、t-Δt)を記憶部１２５からロードすることができるのは、直前時刻におけるステップＳ７１７に相当するステップでX_MAX(ω_RANGE、t-Δt)が記憶部１２５に格納されたからである。

ＣＰＵ１２１は、中区画帯域差分ΔX_MAX(ω_RANGE、t)を、ΔX_MAX(ω_RANGE、t)=X_MAX(ω_RANGE、t)-X_MAX(ω_RANGE、t-Δt)により計算し（ステップＳ７２１）、記憶部１２５に格納する（ステップＳ７２３）。格納されたΔX_MAX(ω_RANGE、t)は、符号化の対象となる。ＣＰＵ１２１は続いて、規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)を、X_REG(ω_RANGE、1、t)=X(ω_RANGE、1、t)/X_MAX(ω_RANGE、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)=X(ω_RANGE、q(ω_RANGE)、t)/X_MAX(ω_RANGE、t)のように計算し（ステップＳ７２５）、記憶部１２５に格納する（ステップＳ７２７）。格納されたX_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)は、符号化の対象となる。ＣＰＵ１２１はさらに、全ての中区画帯域についての処理が終わったか否かを判別し（ステップＳ７２９）、終わったと判別された場合（ステップＳ７２９；Ｙｅｓ）は処理を終了し、終わっていないと判別された場合（ステップＳ７２９；Ｎｏ）は次の帯域について処理するためにω_RANGEを1増加してから（ステップＳ７３１）、ステップＳ７１３に戻る。

時刻tに送信機において行われる上述の図７のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図８に示すフローチャートを参照しつつ説明する。受信機は、中区画帯域最大値及びＭＤＣＴ係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された中区画帯域差分ΔX_MAX(ω_RANGE、t)及び規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)は、既に復号されて、受信機の記憶部１２５に格納されているものとする。

受信機のＣＰＵ１２１は、帯域識別変数ω_RANGEを1に初期化し（ステップＳ７４１）、記憶部１２５から直前時刻の中区画帯域最大値X_MAX(ω_RANGE、t-Δt)をロードし（ステップＳ７４３）、中区画帯域差分ΔX_MAX(ω_RANGE、t)をロードし（ステップＳ７４５）、中区画帯域最大値X_MAX(ω_RANGE、t)をX_MAX(ω_RANGE、t)= X_MAX(ω_RANGE、t-Δt)+ΔX_MAX(ω_RANGE、t)により求め（ステップＳ７４７）、X_MAX(ω_RANGE、t)を記憶部１２５に格納する（ステップＳ７４９）。

ステップＳ７４９でX_MAX(ω_RANGE、t)を記憶部１２５に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。また、前の時刻であるt-Δtにおいて、このステップＳ７４９に相当する処理が行われていたからこそ、時刻tにおける上述のステップＳ７４３において、ＣＰＵ１２１が記憶部１２５からX_MAX(ω_RANGE、t-Δt)をロードすることができたのである。

ＣＰＵ１２１は、規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)をロードし（ステップＳ７５１）、ＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)を、X(ω_RANGE、1、t)=X_REG(ω_RANGE、1、t)×X_MAX(ω_RANGE、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)=X_REG(ω_RANGE、q(ω_RANGE)、t)×X_MAX(ω_RANGE、t)のように計算し（ステップＳ７５３）、X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)を記憶部１２５に格納する（ステップＳ７５５）。これらのＭＤＣＴ係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。ＣＰＵ１２１はさらに、全ての中区画帯域についての処理が終わったか否かを判別し（ステップＳ７５７）、終わったと判別された場合（ステップＳ７５７；Ｙｅｓ）は処理を終了し、終わっていないと判別された場合（ステップＳ７５７；Ｎｏ）は次の帯域について処理するためにω_RANGEを1増加してから（ステップＳ７５９）、ステップＳ７４３に戻る。

（実施形態１の変形例）
以下では、本発明の実施形態１の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態１に係る音声符号化兼復号装置１１１と同様である。

中区画帯域最大値の変化を表す量として、実施形態１においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。

送信機が行う処理は、既に説明した図７のフローチャートの一部を変更した処理である。すなわち、図７のステップＳ７２１において、中区画帯域比率RaX_MAX(ω_RANGE、t)をRaX_MAX(ω_RANGE、t)=X_MAX(ω_RANGE、t)/X_MAX(ω_RANGE、t-Δt)により計算するよう変更する。また、ステップＳ７２３において、RaX_MAX(ω_RANGE、t)を記憶部１２５に格納するよう変更する。

受信機が行う処理は、既に説明した図８のフローチャートの一部を変更した処理である。すなわち、図８のステップＳ７４５において、中区画帯域比率RaX_MAX(ω_RANGE、t)をロードするよう変更する。また、ステップＳ７４７において、中区画帯域最大値X_MAX(ω_RANGE、t)をX_MAX(ω_RANGE、t)= X_MAX(ω_RANGE、t-Δt)×RaX_MAX(ω_RANGE、t)により求めるよう変更する。

中区画帯域比率RaX_MAX(ω_RANGE、t)として出現する値は1の近傍に偏るので、高い効率で符号化することができる。

（実施形態２）
以下では、本発明の実施形態２に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態１に係る音声符号化兼復号装置１１１と同様である。また、送信機と受信機とが行う演算及び両者間で授受される情報の概要は、図４〜図６を参照しつつ説明した実施形態１の場合と、ほぼ同様である。

実施形態１やその変形例においては、全ての中区画帯域についての差分値や比率が送受信機間で授受された。それに対して、本実施形態においては、中区画帯域の差分値や比率のうち最大の値だけが、送受信機間で授受される。以下では、かかる処理の流れを、図９〜図１１に示すフローチャートを参照しつつ説明する。

図９は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、最大差分の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にＭＤＣＴを施されており、送信機の記憶部１２５にはＭＤＣＴ係数が格納されているものとする。

送信機のＣＰＵ１２１は、最大差分MaxΔX_MAX(t)を0に初期化し（ステップＳ７７１）、帯域識別変数ω_RANGEを1に初期化し（ステップＳ７７３）、記憶部１２５からＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)をロードし（ステップＳ７７５）、ロードしたこれらのＭＤＣＴ係数のうちの最大値である中区画帯域最大値X_MAX(ω_RANGE、t)を求め（ステップＳ７７７）、X_MAX(ω_RANGE、t)を記憶部１２５に格納する（ステップＳ７７９）。ステップＳ７７９における格納は、次の時刻である時刻t+Δtにおける処理に役立てるためである。

ＣＰＵ１２１は、直前時刻の中区画帯域最大値X_MAX(ω_RANGE、t-Δt)を記憶部１２５からロードする（ステップＳ７８１）。かかるロードが可能なのは、直前時刻においてステップＳ７７９に相当するステップが実行されたからからである。

ＣＰＵ１２１は、中区画帯域差分ΔX_MAX(ω_RANGE、t)を、ΔX_MAX(ω_RANGE、t)=X_MAX(ω_RANGE、t)-X_MAX(ω_RANGE、t-Δt)により計算し（ステップＳ７８３）、ΔX_MAX(ω_RANGE、t) がMaxΔX_MAX(t)以上であるか否かを判別する（ステップＳ７８５）。ΔX_MAX(ω_RANGE、t) がMaxΔX_MAX(t)以上であると判別された場合（ステップＳ７８５；Ｙｅｓ）は、MaxΔX_MAX(t)をMaxΔX_MAX(t)=ΔX_MAX(ω_RANGE、t)のように更新してから（ステップＳ７８７）、ステップＳ７８９に進む。ΔX_MAX(ω_RANGE、t)がMaxΔX_MAX(t)以上ではないと判別された場合（ステップＳ７８５；Ｎｏ）は、すぐにステップＳ７８９に進む。ステップＳ７８９では、ＣＰＵ１２１は、全ての中区画帯域についての処理が終わったか否かを判別し、終わったと判別された場合（ステップＳ７８９；Ｙｅｓ）はステップＳ７９３に進み、終わっていないと判別された場合（ステップＳ７８９；Ｎｏ）は次の帯域について処理するためにω_RANGEを1増加してから（ステップＳ７９１）、ステップＳ７７５に戻る。ステップＳ７９３では、ＣＰＵ１２１は、MaxΔX_MAX(t)を記憶部１２５に格納し、その後、処理を終了する。ステップＳ７９３で格納されたMaxΔX_MAX(t)は、符号化の対象となる。

送信機のＣＰＵ１２１は、図９のフローチャートに示す処理を終了した後、図１０のフローチャートに示す処理により最大差分使用時の規格化ＭＤＣＴ係数の計算を行う。

送信機のＣＰＵ１２１は、記憶部１２５から最大差分MaxΔX_MAX(t)をロードし（ステップＳ８１１）、帯域識別変数ω_RANGEを1に初期化し（ステップＳ８１３）、記憶部１２５からＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)をロードし（ステップＳ８１５）、直前時刻の中区画帯域最大値X_MAX(ω_RANGE、t-Δt)をロードする（ステップＳ８１７）。かかるロードが可能なのは、直前時刻において図９のステップＳ７７９に相当するステップが実行されたからからである。ＣＰＵ１２１は続いて、規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)を、X_REG(ω_RANGE、1、t)=X(ω_RANGE、1、t)/{X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)}、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)=X(ω_RANGE、q(ω_RANGE)、t)/{X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)}のように計算し（ステップＳ８１９）、記憶部１２５に格納する（ステップＳ８２１）。格納されたX_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)は、符号化の対象となる。ＣＰＵ１２１はさらに、全ての中区画帯域についての処理が終わったか否かを判別し（ステップＳ８２３）、終わったと判別された場合（ステップＳ８２３；Ｙｅｓ）は処理を終了し、終わっていないと判別された場合（ステップＳ８２３；Ｎｏ）は次の帯域について処理するためにω_RANGEを1増加してから（ステップＳ８２５）、ステップＳ８１５に戻る。

時刻tに送信機において行われる上述の図９及び図１０のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図１１に示すフローチャートを参照しつつ説明する。本実施形態においては、受信機は、送信機から伝達された最大差分MaxΔX_MAX(t)に基づいて、中区画帯域最大値及びＭＤＣＴ係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された最大差分MaxΔX_MAX(t)及び規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)は、既に復号されて、受信機の記憶部１２５に格納されているものとする。

受信機のＣＰＵ１２１は、記憶部１２５から最大差分MaxΔX_MAX(t)をロードし（ステップＳ８３１）、帯域識別変数ω_RANGEを1に初期化し（ステップＳ８３３）、記憶部１２５から直前時刻の中区画帯域最大値X_MAX(ω_RANGE、t-Δt)をロードし（ステップＳ８３５）、記憶部１２５から規格化ＭＤＣＴ係数X_REG(ω_RANGE、1、t)、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)をロードし（ステップＳ８３７）、ＭＤＣＴ係数X(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)を、X(ω_RANGE、1、t)=X_REG(ω_RANGE、1、t)×{X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)}、・・・、X(ω_RANGE、q(ω_RANGE)、t)=X_REG(ω_RANGE、q(ω_RANGE)、t)×{X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)}のように計算し（ステップＳ８３９）、記憶部１２５に格納する（ステップＳ８４１）。これらのＭＤＣＴ係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。

ＣＰＵ１２１は続いて、ステップＳ８３９で求めたX(ω_RANGE、1、t)、・・・、X(ω_RANGE、q(ω_RANGE)、t)のうちの最大値である中区画帯域最大値X_MAX(ω_RANGE、t)を求め（ステップＳ８４３）、記憶部１２５に格納する（ステップＳ８４５）。ステップＳ８４５における格納は、次の時刻であるt+Δtにおける処理に役立てるためである。なお、ステップＳ８３５においてX_MAX(ω_RANGE、t-Δt)がロード可能であるのは、前の時刻であるt-ΔtにおいてステップＳ８４５に相当するステップが実行されたからである。ＣＰＵ１２１はさらに、全ての中区画帯域についての処理が終わったか否かを判別し（ステップＳ８４７）、終わったと判別された場合（ステップＳ８４７；Ｙｅｓ）は処理を終了し、終わっていないと判別された場合（ステップＳ８４７；Ｎｏ）は次の帯域について処理するためにω_RANGEを1増加してから（ステップＳ８４９）、ステップＳ８３５に戻る。

図７のステップＳ７２５と図１０のステップ８１９とを比較すれば、次のことが明らかである。すなわち、実施形態１においては、規格化ＭＤＣＴ係数を求めるための除数が、中区画帯域毎のＭＤＣＴ係数の最大値であるために、規格化ＭＤＣＴ係数は最も精度良く求まる。一方、本実施形態においては、規格化ＭＤＣＴ係数を求めるための除数として、最大差分に基づく値を採用しているため、実施形態１に比べ求めた規格化ＭＤＣＴ係数の精度が低く、したがって受信機によるＭＤＣＴ係数の復元の精度も実施形態１に比べて低い。換言すると、図９に示された最大差分MaxΔX_MAX(t)の定義から明らかなように、実施形態１における規格化のための除数X_MAX(ω_RANGE、t)と、本実施形態における規格化のための除数X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)と、の間には、X_MAX(ω_RANGE、t)≦X_MAX(ω_RANGE、t-Δt)+MaxΔX_MAX(t)という関係が成立する。つまり本実施形態においては、ＭＤＣＴ係数を必要以上に大きい値で除してしまう場合が多くなると考えられる。かかる場合には、結果として、規格化ＭＤＣＴ係数が全体的に必要以上に小さい値となる。ところで、規格化ＭＤＣＴ係数を表すためのビット数は、規格化という操作の性質ゆえに、規格化ＭＤＣＴ係数が0以上1以下の値をとることを前提にして、あらかじめ決められていることが妥当である。よって、上述のように規格化ＭＤＣＴ係数が必要以上に小さい値になった場合には、1に近い数を表すように準備されていたビットが無駄になるとともに、ビット単位で量子化する際の誤差が大きくなる。この意味で、本実施形態は、実施形態１に比べて、精度の低い音声符号化及び復号がなされるといえる。

しかし、実施形態１の場合は全ての中区画帯域における差分を送受信機間で授受しなければならなかったのに対して、本実施形態の場合は、全ての中区画帯域における差分のうちの最大値のみを授受すればよい。よって、本実施形態によれば、実施形態１の場合に比べて、符号化の対象となるデータの量を減少させることができ、低ビットレート通信に資する。

（実施形態２の変形例）
以下では、本発明の実施形態２の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態１に係る音声符号化兼復号装置１１１と同様である。

中区画帯域最大値の変化を表す量として、実施形態２においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。

送信機が行う処理は、既に説明した図９及び図１０のフローチャートの一部を変更した処理である。すなわち、図９のステップＳ７７１において、最大差分MaxΔX_MAX(t)を最大比率MaxRaX_MAX(t)に置換し、ステップＳ７８３において、中区画帯域比率RaX_MAX(ω_RANGE、t)をRaX_MAX(ω_RANGE、t)=X_MAX(ω_RANGE、t)/X_MAX(ω_RANGE、t-Δt)により計算するよう変更し、ステップＳ７８５において、RaX_MAX(ω_RANGE、t)≧MaxRaX_MAX(t)であるか否かを判別するよう変更し、ステップＳ７８７において、MaxRaX_MAX(t)= RaX_MAX(ω_RANGE、t)に更新するよう変更し、ステップＳ７９３において、MaxRaX_MAX(t)を記憶部１２５に格納するよう変更し、図１０のステップＳ８１１において、最大比率MaxRaX_MAX(t)をロードするよう変更し、ステップＳ８１９において、規格化ＭＤＣＴ係数をX_REG(ω_RANGE、1、t)=X(ω_RANGE、1、t)/{X_MAX(ω_RANGE、t-Δt)×MaxRaX_MAX(t)}、・・・、X_REG(ω_RANGE、q(ω_RANGE)、t)=X(ω_RANGE、q(ω_RANGE)、t)/{X_MAX(ω_RANGE、t-Δt)×MaxRaX_MAX(t)}のように計算するよう変更する。

受信機が行う処理は、既に説明した図１１のフローチャートの一部を変更した処理である。すなわち、図１１のステップＳ８３１において、最大比率MaxRaX_MAX(t)をロードするよう変更し、ステップＳ８３９において、ＭＤＣＴ係数をX(ω_RANGE、1、t)=X_REG(ω_RANGE、1、t)×{X_MAX(ω_RANGE、t-Δt)×MaxRaX_MAX(t)}、・・・、X(ω_RANGE、q(ω_RANGE)、t)=X_REG(ω_RANGE、q(ω_RANGE)、t)×{X_MAX(ω_RANGE、t-Δt)×MaxRaX_MAX(t)}のように計算するよう変更する。

比率については、中区画帯域全てについての比率ではなく最大比率MaxRaX_MAX(t)だけを符号化すればよい点で、本変形例によれば、実施形態２と同様の効果がある。加えて、次の効果もある。

各中区画帯域の性質を該中区画帯域に含まれるＭＤＣＴ係数の最大値で代表させたようなスペクトルを想定する。すると、音声の特性ゆえに、かかるスペクトルは、時間とともに全帯域が底上げ又は底下げされるように変化するよりは、各中区画帯域の成分が時間とともに比例するように、つまりスペクトル全体としては相似なまま、変化する傾向が強い。よって、差分ではなく比率を用いてスペクトルの時間変化を表現する本変形例によれば、実施形態２に比べ、規格化のための除数が大きすぎるために符号化の精度が低下する度合いを、減少させることができる。

なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。

例えば、図１に示される音声符号化兼復号装置１１１として携帯電話を想定して説明したが、ＰＨＳ（Personal Handyphone System）や、ＰＤＡ（Personal Digital Assistants）、あるいは一般的なパーソナルコンピュータには、本発明を容易に適用することができる。すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。

本発明の実施の形態に係る音声符号化兼復号装置の構成を示す図である。音声スペクトルが、小区画帯域に属するＭＤＣＴ係数により表される様子を、模式的に示す図である。本発明の実施形態１における、中区画帯域と、時刻の関数としてのＭＤＣＴ係数と、を模式的に示す図である。本発明の実施形態１における、音声符号化装置が行う演算の概略を示す図である。本発明の実施形態１における、音声符号化装置から音声復号装置へ伝達される情報の概略を示す図である。本発明の実施形態１における、音声復号装置が行う演算の概略を示す図である。本発明の実施形態１における、中区画帯域最大値検索、中区画帯域差分の計算、及び、規格化ＭＤＣＴ係数の計算の流れを示す図である。本発明の実施形態１における、中区画帯域最大値及びＭＤＣＴ係数の計算の流れを示す図である。本発明の実施形態２における、中区画帯域最大値検索、中区画帯域差分の計算、及び、最大差分の計算の流れを示す図である。本発明の実施形態２における、最大差分使用時の規格化ＭＤＣＴ係数の計算の流れを示す図である。本発明の実施形態２における、最大差分に基づく、中区画帯域最大値及びＭＤＣＴ係数の計算の流れを示す図である。

符号の説明

１１１・・・音声符号化兼復号装置、１２１・・・ＣＰＵ、１２３・・・ＲＯＭ、１２５・・・記憶部、１３１・・・ＲＡＭ、１３３・・・ハードディスク、１４１・・・音声処理部、１５１・・・マイクロフォン、１５３・・・スピーカ、１６１・・・無線通信部、１６３・・・アンテナ、１７１・・・操作キー入力内容処理部、１７３・・・操作キー、１８１・・・システムバス

Claims

デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換手段と、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
を備え、
前記最大値検索手段は、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする音声符号化装置。
前記中区画帯域に低域から順に中区画識別用整数を割り当て、前記中区画帯域の中心周波数の対数が、前記中区画識別用整数に線型的に依存するように前記中区画帯域を構成する中区画帯域構成手段をさらに備える、
請求項１に記載の音声符号化装置。
前記最大値検索手段は、
前記現最大値から前記過去最大値を減算した値である差分を求め、
前記符号化手段は、
前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項１又は２に記載の音声符号化装置。
前記最大値検索手段は、
前記現最大値を前記過去最大値により除算した値である比率を求め、
前記符号化手段は、
前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項１又は２に記載の音声符号化装置。
最大差分決定手段をさらに備え、
前記最大値検索手段は、
前記現最大値から前記過去最大値を減算した値である差分を求め、
前記最大差分決定手段は、
前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、
前記符号化手段は、
前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項１又は２に記載の音声符号化装置。
最大比率決定手段をさらに備え、
前記最大値検索手段は、
前記現最大値を前記過去最大値により除算した値である比率を求め、
前記最大比率決定手段は、
前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、
前記符号化手段は、
前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項１又は２に記載の音声符号化装置。
前記離散スペクトル変換手段は、
ＭＤＣＴ（Modified Discrete Cosine Transform）を用いる、
ことを特徴とする請求項１乃至６の何れか１項に記載の音声符号化装置。
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信手段と、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
前記規格化用値を記憶する規格化用値記憶手段と、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
を備え、
前記逆変形手段は、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする音声復号装置。
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
から構成され、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする音声符号化方法。
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
から構成され、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする音声復号方法。
コンピュータに、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
を実行させるプログラムであって、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とするプログラム。
コンピュータに、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
を実行させるプログラムであって、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とするプログラム。