[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2008309875A - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム - Google Patents

音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム Download PDF

Info

Publication number
JP2008309875A
JP2008309875A JP2007155308A JP2007155308A JP2008309875A JP 2008309875 A JP2008309875 A JP 2008309875A JP 2007155308 A JP2007155308 A JP 2007155308A JP 2007155308 A JP2007155308 A JP 2007155308A JP 2008309875 A JP2008309875 A JP 2008309875A
Authority
JP
Japan
Prior art keywords
maximum value
value
predetermined time
past
time segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007155308A
Other languages
English (en)
Other versions
JP5098453B2 (ja
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2007155308A priority Critical patent/JP5098453B2/ja
Publication of JP2008309875A publication Critical patent/JP2008309875A/ja
Application granted granted Critical
Publication of JP5098453B2 publication Critical patent/JP5098453B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声信号の特性と聴覚の特性とが考慮された、高品質音声再生に適した高速な音声符号化及び復号を可能にする。
【解決手段】音声符号化装置として機能する音声符号化兼復号装置111は、入力された音声を、変形離散コサイン変換(MDCT)することによりMDCT係数から構成されるスペクトルに変換した後、MDCT係数の時間依存性を所定の中区画帯域毎に差分又は比率で表し、該差分又は比率に基づく情報をエントロピ符号化して、音声復号装置として機能する別の音声符号化兼復号装置111に送信する。CPU121は、音声符号化に際してはある時刻における前記差分又は比率を求め、音声復号に際しては該差分又は比率に基づいて前記スペクトルを復元する。CPU121によるかかる処理には、直前時刻におけるMDCT係数に基づく情報が必要となり、該情報は記憶部125に格納される。
【選択図】図1

Description

本発明は、聴覚の特性を考慮した音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。
通信容量が限られている状況下でなされる音声通信においては、できるだけ少ないデータによりできるだけ高品質の声音が復元可能となるように、音声符号化及び音声復号に工夫が必要となる。
かかる工夫のひとつの方向として、人間の聴覚の特性を有効に利用することが挙げられる。
聴覚の特性を考慮した音声符号化方法としては、音声信号をスペクトルに変換した後、聴覚の特性から導かれる臨界帯域を考慮しつつ、該スペクトルを複数のサブバンドに分割する方法が知られている(例えば、特許文献1及び非特許文献1参照)。
かかる方法においては、上述のサブバンド毎に、信号値、マスキング量、雑音等が勘案され、符号化に必要なビット数が算出された後、符号化が行われる。
特開平7−46137号公報 JIS規格番号JISX4323"ディジタル記録媒体のための動画信号及び付随する音響信号の1.5Mbit/s符号化−第3部 音響"、p. 96[online]、[平成18年8月7日検索]、インターネット(URL:http://www.jisc.go.jp/app/pager?id=22028)
しかし、かかる方法においては、符号化に必要なビット数の算出の手順が複雑であり、多くの計算ステップが必要となる。これは、例えばひとつには、マスキング量の算出が容易ではないためである。
よって、かかる方法を採用すると、符号化装置等の内部のCPU等の演算装置の処理負担が大きくなってしまい、処理速度の低下を招き得る。すると例えば、携帯電話等の用途において、リアルタイムで相互通話を行うのが困難になる。
そこで、聴覚特性を考慮しつつ高速な音声符号化及び復号処理を可能とするような、リアルタイム通話等が実用上問題のない音質で行われる符号化及び復号装置が必要とされている。
本発明は、上記実情に鑑みてなされたものである。すなわち、通信容量が制約されている状況において、音声符号化にあたっては、音声信号の連続性及び定常性に着目することによる符号長の短縮と、聴覚特性を考慮した帯域別信号処理による高速化と、が図られ、音声復号にあたっては、実用上問題のない品質の音声を高速で復元できるようにした、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。
上記目的を達成するために、この発明の第1の観点に係る音声符号化装置は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換手段と、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
を備え、
前記最大値検索手段は、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
音声信号の連続性及び定常性ゆえに、前記現最大値と前記過去最大値とを関連付けることにより前記情報の内容に偏りを生じさせることができる。そして、かかる偏りのある情報をエントロピ符号化するため、高い効率で符号化することができる。
前記中区画帯域に低域から順に中区画識別用整数を割り当て、前記中区画帯域の中心周波数の対数が、前記中区画識別用整数に線型的に依存するように前記中区画帯域を構成する中区画帯域構成手段をさらに備える、ことが望ましい。
人間の聴覚には、低周波音であるほど、周波数のわずかな差にも敏感であり、その感度は、周波数に対して対数的に変化する、という特性がある。よって、かかる中区画帯域構成手段をさらに備えることは、聴覚特性を考慮した音声符号化装置にふさわしい。
前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記符号化手段は、前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。
音声信号の連続性及び定常性ゆえに、前記現最大値自体として出現する値に比べると、前記差分として出現する値は小さい値に偏る。よって、偏りのある情報がエントロピ符号化されることになり、高い効率で符号化することができる。
あるいは、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記符号化手段は、前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。
前記比率として出現する値は1の近傍に偏るので、高い効率で符号化することができる。
最大差分決定手段をさらに備え、前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記最大差分決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、前記符号化手段は、前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。
差分に関する情報として最大差分だけが符号化されるので、符号量が少なくて済む。
あるいは、最大比率決定手段をさらに備え、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記最大比率決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、前記符号化手段は、前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。
比率に関する情報として最大比率だけが符号化されるので、符号量が少なくて済む。また、音声信号のスペクトル形状は時間とともに相似性を保ちつつ変化する場合が多いため、符号化の際の精度低下が抑制される。
前記離散スペクトル変換手段は、例えば、MDCT(Modified Discrete Cosine Transform)を用いる。
上記目的を達成するために、この発明の第2の観点に係る音声復号装置は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信手段と、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
前記規格化用値を記憶する規格化用値記憶手段と、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
を備え、
前記逆変形手段は、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
上記目的を達成するために、この発明の第3の観点に係る音声符号化方法は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
から構成され、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
上記目的を達成するために、この発明の第4の観点に係る音声復号方法は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
から構成され、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
上記目的を達成するために、この発明の第5の観点に係るプログラムは、
コンピュータに、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
を実行させるプログラムであって、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
上記目的を達成するために、この発明の第6の観点に係るプログラムは、
コンピュータに、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
を実行させるプログラムであって、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
本発明によれば、音声信号の特性と聴覚の特性とが考慮された上で音声信号が帯域毎に処理される。よって、高音質を確保しつつも、音声信号を高速かつ軽快に符号化及び復号することが可能となる。
以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。
なお、ユーザにとっての利便性を確保する観点から、音声符号化装置と音声復号装置とは、音声符号化兼復号装置として、単一の装置に統合されているものとする。
(実施形態1)
図1に、本実施形態に係る音声符号化兼復号装置111を示す。該装置としては、例えば、携帯電話機が想定される。
音声符号化兼復号装置111は、CPU121と、ROM(Read Only Memory)123と、記憶部125と、音声処理部141と、無線通信部161と、操作キー入力内容処理部171と、を備え、これらは、システムバス181で相互に接続されている。システムバス181は、命令やデータを転送するための伝送経路である。
ROM123には、音声符号化及び復号のための動作プログラムが格納されている。
記憶部125は、RAM(Random Access Memory)131と、ハードディスク133と、から構成されて、デジタル音声信号、MDCT係数、帯域毎のMDCT係数の最大値、所定の時間間隔毎の該最大値の変化量等を記憶する。特に本実施形態においては、音声符号化兼復号装置111は、音声符号化と音声復号のいずれの場合にも、ある時刻における処理に際して直前の時刻の音声信号に基づく情報を必要とするので、記憶部125は、かかる情報を一時的にせよ格納しておく遅延処理用バッファメモリとして、重要な役割を果たす。
音声符号化兼復号装置111は、マイクロフォン151と、スピーカ153と、アンテナ163と、操作キー173と、をさらに備える。
マイクロフォン151は、送信側すなわち符号化側のユーザの音声を収集し、音声処理部141に引き渡す。スピーカ153は、音声処理部141から引き渡された復元音声を、受信側すなわち復号側のユーザに対して、発する。アンテナ163は、無線通信部161から無線信号として引き渡された符号を受信側すなわち復号側の音声符号化兼復号装置111に送信したり、送信側すなわち符号化側の音声符号化兼復号装置111から送信された無線信号を受信して無線通信部161に引き渡したりする。操作キー173は、あらかじめ与えられている初期設定値、例えば、信号処理のための各種帯域の境界周波数を、ユーザ自らの判断で変更するときや、送信側すなわち符号化側のユーザが、通話の相手方である受信側及び復号側の装置111を特定したりするときに、ユーザの意図を装置111に伝達するために用いられる。
音声処理部141、無線通信部161、操作キー入力内容処理部171は、システムバス181を介してCPU121の制御下にある。
マイクロフォン151に入力された音声は、音声処理部141の内部のA/Dコンバータ(図示せず)による、例えば16kHzサンプリング及び16ビット量子化により、デジタル音声信号に変換される。
かかるデジタル音声信号は、音声処理部141により、音声信号圧縮の基本的な処理単位であるフレームに時分割されつつ、順次、記憶部125に送られる。
後述のとおり、ひとつのフレームのデジタル音声信号はひとまとまりのものとして、記憶部125への格納、CPU121による周波数領域への変換、無線通信部161への伝達、アンテナ163による無線送信、といった過程を経る。
例えば、記憶部125に存在するあるフレームの信号が、CPU121による処理を施されて無線通信部161へ伝達され終わったとする。すると、記憶部125からは、該フレームの信号に関わるデータは記憶部125から削除される。そして、記憶部125には、音声処理部141から次のフレームの信号が引き渡される。
このように、音声信号が入力され続ける限り、空きプロセスが生じることなく、次から次へとフレーム単位での信号処理が進行する。このような鎖状の処理方法を採ることにより、携帯電話として必要な、音声信号のリアルタイム処理が可能になる。
ただし、フレームは上述のとおりあくまでも基本的な処理単位である。本実施形態においては、後述するように、1フレーム毎の処理に加えて、時間軸上で隣接する2フレームのデジタル音声信号の相違に着目した処理が実行されるので、この意味では、2フレームが基本的な処理単位となる。
以下では、理解を容易にするために、まず、音声が、ある時刻tに対応する1フレーム分の時間に渡ってのみ、マイクロフォン151に入力されたと仮定して、説明する。
1フレームがM個の信号値から構成されるとして、マイクロフォン151に入力された音声信号が、音声処理部141によってデジタル音声信号x0、・・・、xM-1に変換され記憶部125に引き渡されたとする。装置111内部の各構成要素間のデータ移動は、CPU121の指示に従ってシステムバス181を用いて行われる。CPU121の指示は、ROM123に格納された動作プログラムに従って発せられる。
記憶部125に格納されたデジタル音声信号x0、・・・、xM-1は、CPU121の汎用レジスタ(図示せず。)のひとつにロードされる。実時間領域の信号であるデジタル音声信号x0、・・・、xM-1は、CPU121により周波数領域の信号X0、・・・、XM/2-1に変換され、汎用レジスタに格納される。変換方法は、実時間領域の信号を周波数領域の信号へと変換するものであれば任意の方法であってよいが、変換後の数値に虚部が生じないため扱いが容易となることから、変形離散コサイン変換(MDCT、Modified Discrete Cosine Transform)を採用するのが好適である。
なお、実時間領域のM個の信号値が、上述のように周波数領域ではM/2個の周波数変換係数値に対応するのは、周波数変換にMDCTを用いたからである。他の周波数変換方法の場合、実時間領域におけるデータ数と周波数領域におけるデータ数とが、2:1の比になるとは限らないが、その場合は、周波数係数の最終値に付された数字を適宜読み替えれば、以下の説明はそのままあてはまる。
図2(a)は、こうして生成されたMDCT係数を模式的に表したものである。図2(b)は、その一部を拡大したものである。MDCTは離散的周波数変換の一種であるから、周波数軸を区切ることによって生じるM/2個の小区画帯域毎に、ひとつの周波数変換係数が割り当てられることになる。図に示すように、低周波数側から数えてk+1番目の小区画帯域には番号kが与えられ、周波数変換係数Xkが割り当てられる(ただし、0≦k≦M/2-1である。)。XkはMDCT係数と呼ばれる。
有限の時間長を有する時間区画1つにつき1回のMDCTを行う。かかる時間区画をMDCTブロックと呼ぶ。また、MDCTブロックひとつに含まれる信号サンプルの数をMDCTの次数という。MDCTの次数としては、例えば512が好適である。
フレームは音声圧縮の処理単位であるから、基本的には、MDCTブロックの時間長は1個のフレームの時間長を超えてはならない。一方、1個のフレームは複数のMDCTブロックを含んでもよく、例えば、1個のフレームが4個のMDCTブロックを含むのが好適である。
ただし、ここでは、発明の本質のみを抽出することにより理解を容易にするために、フレーム1個がMDCTブロック1個と1対1の対応をしているとする。つまり、1個のフレームがそのまま1個のMDCTブロックに対応しているとする。すると、図2以降のMDCT係数の模式図においては、フレーム1個にM個の実時間信号値が含まれていることから、MDCTの次数はMであることになる。
なお、図2以降では、MDCT係数は全て正の値をとるかのように描かれているが、これは理解を容易にするためにすぎない。実際のMDCT係数は負の値をとる場合もある。かかる場合には、符号を表すためのビットを設ける等、任意の既知の手法を用いればよい。上述のように、図2以降のMDCT係数に関する図は、あくまでも説明のための模式図である。
CPU121は、汎用レジスタに格納されているMDCT係数Xk(0≦k≦M/2-1)について、後の処理を円滑に行うために、各MDCT係数を識別するための記号を付け替える。該付け替えは、CPU121が、ROM123から読み出した動作プログラムに従って行う。具体的には、次のように、各MDCT係数を、時刻tの他に、2個の記号で識別し直す。
まず、図3(a)に示すように、周波数領域全体を、ωMaxRANGE個の中区画帯域に分割し、低周波数側から1、2、・・・、ωMaxRANGEのように番号を付けて各帯域を区別する。
MDCT係数の識別のための新たな記号のひとつは、この番号である。
各中区画帯域の中心周波数の対数が、該番号に線型的に依存するように、中区画帯域による周波数領域の分割が行われる。換言すると、CPU121がROM123から読み出す動作プログラムには、かかる分割が行われるような命令が含まれている。かかる分割によれば、高周波領域の中区画帯域ほど、帯域幅が広くなる。図3(a)にはその様子が模式的に示されている。
このように対数を基準に分割を行う理由は、人間の聴覚における周波数の違いに対する感度が、高周波成分ほど対数的に鈍くなるためである。そこで、限られた通信容量でできる限り有効な音声信号伝達を行うためには、低周波成分については、再生音質の確保のために詳しく再現し得るようにする一方で、高周波成分については、おおまかな情報だけ伝達することにして、情報量が全体として少なくなるようにするのが適切である。
例えば、マイクロフォン151に入力された音声が音声処理部141においてサンプリング周波数16kHzでデジタル信号に変換された場合には、ROM123に格納されている動作プログラムにおいて、中区画帯域を11個設けることとし、中区画帯域の境界を187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hz、のように設定しておくのが好適である。
次に、各MDCT係数が、その属する中区画帯域のうち低周波側から数えて何番目のものであるか、が決定される。ωRANGE(1≦ωRANGE≦ωMaxRANGE)という番号が付された中区画帯域にはq(ωRANGE)個のMDCT係数が含まれるとする。
すると、MDCT係数は、どの中区画帯域に属するかということと、中区画帯域の中で低周波数側から数えて何番目の係数であるかということと、を表す2つの記号により、特定される。すなわち、これまで図2(b)に示すように全周波数に渡って1乃至M/2-1という番号で区別されていたMDCT係数は、新たに、時刻tにおける、ωRANGE番目の中区画帯域(1≦ωRANGE≦ωMaxRANGE)に属する、X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)、という形で記述されることにより、相互に区別されることになる。この様子は、図3(a)の一部を拡大した図3(b)により、示される。
CPU121は、こうして識別し直されたMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)(1≦ωRANGE≦ωMaxRANGE)を、記憶部125に格納する。
また、時刻tにおいて、ωRANGEで表される中区画帯域におけるMDCT係数の最大値を、中区画帯域最大値XMAXRANGE、t)とする。
以下では理解を容易にするために、図2及び図3に示したグラフの縦軸方向の分解能すなわちデジタル化のために割り当てられたビット数は、全ての中区画帯域で一定であるとするが、帯域毎に異なるビット数をあらかじめ定めておいてもよい。例えば、連続する複数の中区画帯域をまとめた大区画帯域を定義した上で、MDCT係数を取り扱うに際しての精度を大区画帯域毎にあらかじめ決定しておくことととし、かつ、聴覚特性を考慮して、低周波数側の大区画帯域ほど該精度を高くすることとしてもよい。聴覚には、低周波音であるほど、音量の大小に敏感であるという特性があるからである。また、以下では差分の計算等に際してMDCT係数をそのまま用いるが、MDCT係数の対数をとってから各種処理を実行し、最終段階でかかる対数から元のMDCT係数に戻すように取り扱ってもよい。
本実施形態においては、音声符号化兼復号装置111は、ある時刻tにおけるMDCT係数を授受するにあたって、該時刻より時間Δtだけ前の時刻におけるMDCT係数を利用する。理解を容易にするために、まず、図4〜図6を参照しつつ、音声符号化側の音声符号化兼復号装置111と音声復号側の音声符号化兼復号装置111とが行う演算及び両者間で授受される情報について、概略的に述べる。その後、より詳細な処理の流れを、図7以降のフローチャートを参照しつつ説明する。
本実施形態の特徴は、時刻t-Δtと時刻tとの間のスペクトルの変化に基づく情報つまり差分が授受される点にある。したがって前提として、音声符号化側の音声符号化兼復号装置111から音声復号側の音声符号化兼復号装置111への通信開始時には、初期値として必要なMDCT係数が、任意の既知の手法により、前者の装置から後者の装置に伝達されるものとする。また、通信が長時間に及ぶ場合には、差分が積算されることによる誤差を無視することができなくなることもあり得る。これに対処するために、リフレッシュレートをあらかじめ定めておき、一定の頻度で通信開始時と同様の初期化処理を行うようにしてもよい。以下では、本実施形態における特徴的な処理である、差分の授受についてのみ説明する。
図4〜図6では、左側に音声符号化側の音声符号化兼復号装置111が、右側に音声復号側の音声符号化兼復号装置111が描かれている。以下、それぞれの装置を単に送信機、受信機と呼ぶ。なお、図が煩雑にならないように、図4〜図6では、図1に示した音声符号化兼復号装置111の構成要素のうち、記憶部125及びアンテナ163以外は省略してある。
はじめに、図4(a)に示すように、送信機及び受信機いずれの記憶部125にも、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)が格納されている。時刻がtになると、送信機のCPU121は、時刻tにおけるMDCT係数を算出し、送信機の記憶部125に格納する(図4(a)参照)。
続いて、送信機のCPU121は、中区画帯域内における検索を行い、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)を算出し、記憶部125に格納する。この時点で、図4(b)に示すように、送信機の記憶部125には、時刻t-Δt及びtにおける中区画帯域内のMDCT係数の最大値と、時刻tにおけるMDCT係数と、が格納されている。受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)が格納されたまま、変化はない。
送信機のCPU121は、送信機の記憶部125に格納されている時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)を、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)から減算することにより、時刻tにおける最大値の差分値を求め、記憶部125に格納する。この後は送信機においては時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)は不要である。よって、送信機の記憶部125の記憶容量が圧迫されないよう、消去してもよい。送信機のCPU121はさらに、送信機の記憶部125に格納されている時刻tにおけるMDCT係数を、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)により除算することにより、時刻tにおけるMDCT係数の規格化値を求め、記憶部125に格納する。この時点で、図5(a)に示すように、送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)と、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、が格納されている。受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)が格納されたまま、変化はない。
送信機の記憶部125に格納された時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、は、送信機のCPU121により、記憶部125から取り出されて量子化され、エントロピ符号化され、送信機のアンテナ163から無線送信される。かかるエントロピ符号化により生成された符号が重畳された無線信号は、受信機において、受信機のアンテナ163により捕捉される。この様子を、図5(b)に模式的に示す。なお、代表的なエントロピ符号化方法としては、ハフマンコードや、RangeCoderが挙げられる。
受信機のアンテナ163により捕捉された符号は、受信機のCPU121により復号される。復号の結果生じた、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、は、受信機の記憶部125に格納される。この時点で、図6(a)に示すように、受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)と、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、が格納されている。送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)が残されている。
受信機のCPU121は、受信機の記憶部125に格納されている時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)に、同じく記憶部125に格納されている時刻tにおける最大値の差分値を加算することにより、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)を求め、記憶部125に格納する。この後、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)と、時刻tにおける最大値の差分値と、は、不要であるので、これらの値は消去してもよい。受信機のCPU121は続いて、受信機の記憶部125に格納されている時刻tにおけるMDCT係数の規格化値に、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)を乗算することにより、時刻tにおけるMDCT係数を求め、記憶部125に格納する。この時点で、図6(b)に示すように、受信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)と、時刻tにおけるMDCT係数と、が格納されている。送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)が残されている。
このようにして、図4(a)に示したとおり初めは送信機の記憶部125に格納されていた時刻tにおけるMDCT係数は、図6(b)に示したとおり受信機の記憶部125に格納される。これはスペクトルについての情報が送信機から受信機に伝達されたことを意味する。この後、受信機は、周波数逆変換等により、送信機に入力された音声信号を復元することができる。
なお、図4(a)において送信機と受信機のいずれの記憶部125にも時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t-Δt)が格納されていたことに対応して、図6(b)では、送信機と受信機のいずれの記憶部125にも時刻tにおける中区画帯域内のMDCT係数の最大値XMAXRANGE、t)が格納されている。よって、時刻t+Δt以降は、図4〜図6に示した処理と同様の処理を繰り返すことにより、各時刻のMCDT係数を送信機から受信機に伝達することが可能である。
MDCT係数自体は、様々な値をとる。それに対して、音声信号の時間的連続性ゆえに、上述の最大値の差分値としては、比較的小さな値が高い頻度で出現する。この傾向は、音声信号が定常状態にある時間帯にはいっそう顕著である。このように偏りのある情報は、エントロピ符号化による圧縮効率が高い。よって、本実施形態によれば、単にMDCT係数自体を符号化する場合に比べて、伝達レートの割に高品質の音声を復元することができる。
なお、理解を容易にするために、図4〜図6を用いた上述の説明においては、MDCT係数を求める時間間隔と符号化処理の時間間隔とを共にΔtで表したが、かかる2種の時間間隔が等しい必要はない。例えば、音声通話におけるリアルタイム感を損なわない限り、いくつかの連続した時間帯の音声信号から算出される複数組のMDCT係数を送信機の記憶部125に貯めておいてから、一括して量子化し、エントロピ符号化してもよい。
以下では、上述の処理の流れを、フローチャートを参照しつつ説明する。図7は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、規格化MDCT係数の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にMDCTを施されており、送信機の記憶部125にはMDCT係数が格納されているものとする。
送信機のCPU121は、帯域識別変数ωRANGEを1に初期化し(ステップS711)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS713)、ロードしたこれらのMDCT係数のうちの最大値である中区画帯域最大値XMAXRANGE、t)を求め(ステップS715)、XMAXRANGE、t)を記憶部125に格納する(ステップS717)。
ステップS717でXMAXRANGE、t)を記憶部125に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。
CPU121は、直前時刻の中区画帯域最大値XMAXRANGE、t-Δt)を記憶部125からロードする(ステップS719)。
ステップS719でCPU121がXMAXRANGE、t-Δt)を記憶部125からロードすることができるのは、直前時刻におけるステップS717に相当するステップでXMAXRANGE、t-Δt)が記憶部125に格納されたからである。
CPU121は、中区画帯域差分ΔXMAXRANGE、t)を、ΔXMAXRANGE、t)=XMAXRANGE、t)-XMAXRANGE、t-Δt)により計算し(ステップS721)、記憶部125に格納する(ステップS723)。格納されたΔXMAXRANGE、t)は、符号化の対象となる。CPU121は続いて、規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)を、XREGRANGE、1、t)=X(ωRANGE、1、t)/XMAXRANGE、t)、・・・、XREGRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/XMAXRANGE、t)のように計算し(ステップS725)、記憶部125に格納する(ステップS727)。格納されたXREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)は、符号化の対象となる。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS729)、終わったと判別された場合(ステップS729;Yes)は処理を終了し、終わっていないと判別された場合(ステップS729;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS731)、ステップS713に戻る。
時刻tに送信機において行われる上述の図7のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図8に示すフローチャートを参照しつつ説明する。受信機は、中区画帯域最大値及びMDCT係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された中区画帯域差分ΔXMAXRANGE、t)及び規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)は、既に復号されて、受信機の記憶部125に格納されているものとする。
受信機のCPU121は、帯域識別変数ωRANGEを1に初期化し(ステップS741)、記憶部125から直前時刻の中区画帯域最大値XMAXRANGE、t-Δt)をロードし(ステップS743)、中区画帯域差分ΔXMAXRANGE、t)をロードし(ステップS745)、中区画帯域最大値XMAXRANGE、t)をXMAXRANGE、t)= XMAXRANGE、t-Δt)+ΔXMAXRANGE、t)により求め(ステップS747)、XMAXRANGE、t)を記憶部125に格納する(ステップS749)。
ステップS749でXMAXRANGE、t)を記憶部125に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。また、前の時刻であるt-Δtにおいて、このステップS749に相当する処理が行われていたからこそ、時刻tにおける上述のステップS743において、CPU121が記憶部125からXMAXRANGE、t-Δt)をロードすることができたのである。
CPU121は、規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)をロードし(ステップS751)、MDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を、X(ωRANGE、1、t)=XREGRANGE、1、t)×XMAXRANGE、t)、・・・、X(ωRANGE、q(ωRANGE)、t)=XREGRANGE、q(ωRANGE)、t)×XMAXRANGE、t)のように計算し(ステップS753)、X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を記憶部125に格納する(ステップS755)。これらのMDCT係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS757)、終わったと判別された場合(ステップS757;Yes)は処理を終了し、終わっていないと判別された場合(ステップS757;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS759)、ステップS743に戻る。
(実施形態1の変形例)
以下では、本発明の実施形態1の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。
中区画帯域最大値の変化を表す量として、実施形態1においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。
送信機が行う処理は、既に説明した図7のフローチャートの一部を変更した処理である。すなわち、図7のステップS721において、中区画帯域比率RaXMAXRANGE、t)をRaXMAXRANGE、t)=XMAXRANGE、t)/XMAXRANGE、t-Δt)により計算するよう変更する。また、ステップS723において、RaXMAXRANGE、t)を記憶部125に格納するよう変更する。
受信機が行う処理は、既に説明した図8のフローチャートの一部を変更した処理である。すなわち、図8のステップS745において、中区画帯域比率RaXMAXRANGE、t)をロードするよう変更する。また、ステップS747において、中区画帯域最大値XMAXRANGE、t)をXMAXRANGE、t)= XMAXRANGE、t-Δt)×RaXMAXRANGE、t)により求めるよう変更する。
中区画帯域比率RaXMAXRANGE、t)として出現する値は1の近傍に偏るので、高い効率で符号化することができる。
(実施形態2)
以下では、本発明の実施形態2に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。また、送信機と受信機とが行う演算及び両者間で授受される情報の概要は、図4〜図6を参照しつつ説明した実施形態1の場合と、ほぼ同様である。
実施形態1やその変形例においては、全ての中区画帯域についての差分値や比率が送受信機間で授受された。それに対して、本実施形態においては、中区画帯域の差分値や比率のうち最大の値だけが、送受信機間で授受される。以下では、かかる処理の流れを、図9〜図11に示すフローチャートを参照しつつ説明する。
図9は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、最大差分の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にMDCTを施されており、送信機の記憶部125にはMDCT係数が格納されているものとする。
送信機のCPU121は、最大差分MaxΔXMAX(t)を0に初期化し(ステップS771)、帯域識別変数ωRANGEを1に初期化し(ステップS773)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS775)、ロードしたこれらのMDCT係数のうちの最大値である中区画帯域最大値XMAXRANGE、t)を求め(ステップS777)、XMAXRANGE、t)を記憶部125に格納する(ステップS779)。ステップS779における格納は、次の時刻である時刻t+Δtにおける処理に役立てるためである。
CPU121は、直前時刻の中区画帯域最大値XMAXRANGE、t-Δt)を記憶部125からロードする(ステップS781)。かかるロードが可能なのは、直前時刻においてステップS779に相当するステップが実行されたからからである。
CPU121は、中区画帯域差分ΔXMAXRANGE、t)を、ΔXMAXRANGE、t)=XMAXRANGE、t)-XMAXRANGE、t-Δt)により計算し(ステップS783)、ΔXMAXRANGE、t) がMaxΔXMAX(t)以上であるか否かを判別する(ステップS785)。ΔXMAXRANGE、t) がMaxΔXMAX(t)以上であると判別された場合(ステップS785;Yes)は、MaxΔXMAX(t)をMaxΔXMAX(t)=ΔXMAXRANGE、t)のように更新してから(ステップS787)、ステップS789に進む。ΔXMAXRANGE、t)がMaxΔXMAX(t)以上ではないと判別された場合(ステップS785;No)は、すぐにステップS789に進む。ステップS789では、CPU121は、全ての中区画帯域についての処理が終わったか否かを判別し、終わったと判別された場合(ステップS789;Yes)はステップS793に進み、終わっていないと判別された場合(ステップS789;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS791)、ステップS775に戻る。ステップS793では、CPU121は、MaxΔXMAX(t)を記憶部125に格納し、その後、処理を終了する。ステップS793で格納されたMaxΔXMAX(t)は、符号化の対象となる。
送信機のCPU121は、図9のフローチャートに示す処理を終了した後、図10のフローチャートに示す処理により最大差分使用時の規格化MDCT係数の計算を行う。
送信機のCPU121は、記憶部125から最大差分MaxΔXMAX(t)をロードし(ステップS811)、帯域識別変数ωRANGEを1に初期化し(ステップS813)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS815)、直前時刻の中区画帯域最大値XMAXRANGE、t-Δt)をロードする(ステップS817)。かかるロードが可能なのは、直前時刻において図9のステップS779に相当するステップが実行されたからからである。CPU121は続いて、規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)を、XREGRANGE、1、t)=X(ωRANGE、1、t)/{XMAXRANGE、t-Δt)+MaxΔXMAX(t)}、・・・、XREGRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/{XMAXRANGE、t-Δt)+MaxΔXMAX(t)}のように計算し(ステップS819)、記憶部125に格納する(ステップS821)。格納されたXREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)は、符号化の対象となる。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS823)、終わったと判別された場合(ステップS823;Yes)は処理を終了し、終わっていないと判別された場合(ステップS823;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS825)、ステップS815に戻る。
時刻tに送信機において行われる上述の図9及び図10のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図11に示すフローチャートを参照しつつ説明する。本実施形態においては、受信機は、送信機から伝達された最大差分MaxΔXMAX(t)に基づいて、中区画帯域最大値及びMDCT係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された最大差分MaxΔXMAX(t)及び規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)は、既に復号されて、受信機の記憶部125に格納されているものとする。
受信機のCPU121は、記憶部125から最大差分MaxΔXMAX(t)をロードし(ステップS831)、帯域識別変数ωRANGEを1に初期化し(ステップS833)、記憶部125から直前時刻の中区画帯域最大値XMAXRANGE、t-Δt)をロードし(ステップS835)、記憶部125から規格化MDCT係数XREGRANGE、1、t)、・・・、XREGRANGE、q(ωRANGE)、t)をロードし(ステップS837)、MDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を、X(ωRANGE、1、t)=XREGRANGE、1、t)×{XMAXRANGE、t-Δt)+MaxΔXMAX(t)}、・・・、X(ωRANGE、q(ωRANGE)、t)=XREGRANGE、q(ωRANGE)、t)×{XMAXRANGE、t-Δt)+MaxΔXMAX(t)}のように計算し(ステップS839)、記憶部125に格納する(ステップS841)。これらのMDCT係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。
CPU121は続いて、ステップS839で求めたX(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)のうちの最大値である中区画帯域最大値XMAXRANGE、t)を求め(ステップS843)、記憶部125に格納する(ステップS845)。ステップS845における格納は、次の時刻であるt+Δtにおける処理に役立てるためである。なお、ステップS835においてXMAXRANGE、t-Δt)がロード可能であるのは、前の時刻であるt-ΔtにおいてステップS845に相当するステップが実行されたからである。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS847)、終わったと判別された場合(ステップS847;Yes)は処理を終了し、終わっていないと判別された場合(ステップS847;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS849)、ステップS835に戻る。
図7のステップS725と図10のステップ819とを比較すれば、次のことが明らかである。すなわち、実施形態1においては、規格化MDCT係数を求めるための除数が、中区画帯域毎のMDCT係数の最大値であるために、規格化MDCT係数は最も精度良く求まる。一方、本実施形態においては、規格化MDCT係数を求めるための除数として、最大差分に基づく値を採用しているため、実施形態1に比べ求めた規格化MDCT係数の精度が低く、したがって受信機によるMDCT係数の復元の精度も実施形態1に比べて低い。換言すると、図9に示された最大差分MaxΔXMAX(t)の定義から明らかなように、実施形態1における規格化のための除数XMAXRANGE、t)と、本実施形態における規格化のための除数XMAXRANGE、t-Δt)+MaxΔXMAX(t)と、の間には、XMAXRANGE、t)≦XMAXRANGE、t-Δt)+MaxΔXMAX(t)という関係が成立する。つまり本実施形態においては、MDCT係数を必要以上に大きい値で除してしまう場合が多くなると考えられる。かかる場合には、結果として、規格化MDCT係数が全体的に必要以上に小さい値となる。ところで、規格化MDCT係数を表すためのビット数は、規格化という操作の性質ゆえに、規格化MDCT係数が0以上1以下の値をとることを前提にして、あらかじめ決められていることが妥当である。よって、上述のように規格化MDCT係数が必要以上に小さい値になった場合には、1に近い数を表すように準備されていたビットが無駄になるとともに、ビット単位で量子化する際の誤差が大きくなる。この意味で、本実施形態は、実施形態1に比べて、精度の低い音声符号化及び復号がなされるといえる。
しかし、実施形態1の場合は全ての中区画帯域における差分を送受信機間で授受しなければならなかったのに対して、本実施形態の場合は、全ての中区画帯域における差分のうちの最大値のみを授受すればよい。よって、本実施形態によれば、実施形態1の場合に比べて、符号化の対象となるデータの量を減少させることができ、低ビットレート通信に資する。
(実施形態2の変形例)
以下では、本発明の実施形態2の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。
中区画帯域最大値の変化を表す量として、実施形態2においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。
送信機が行う処理は、既に説明した図9及び図10のフローチャートの一部を変更した処理である。すなわち、図9のステップS771において、最大差分MaxΔXMAX(t)を最大比率MaxRaXMAX(t)に置換し、ステップS783において、中区画帯域比率RaXMAXRANGE、t)をRaXMAXRANGE、t)=XMAXRANGE、t)/XMAXRANGE、t-Δt)により計算するよう変更し、ステップS785において、RaXMAXRANGE、t)≧MaxRaXMAX(t)であるか否かを判別するよう変更し、ステップS787において、MaxRaXMAX(t)= RaXMAXRANGE、t)に更新するよう変更し、ステップS793において、MaxRaXMAX(t)を記憶部125に格納するよう変更し、図10のステップS811において、最大比率MaxRaXMAX(t)をロードするよう変更し、ステップS819において、規格化MDCT係数をXREGRANGE、1、t)=X(ωRANGE、1、t)/{XMAXRANGE、t-Δt)×MaxRaXMAX(t)}、・・・、XREGRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/{XMAXRANGE、t-Δt)×MaxRaXMAX(t)}のように計算するよう変更する。
受信機が行う処理は、既に説明した図11のフローチャートの一部を変更した処理である。すなわち、図11のステップS831において、最大比率MaxRaXMAX(t)をロードするよう変更し、ステップS839において、MDCT係数をX(ωRANGE、1、t)=XREGRANGE、1、t)×{XMAXRANGE、t-Δt)×MaxRaXMAX(t)}、・・・、X(ωRANGE、q(ωRANGE)、t)=XREGRANGE、q(ωRANGE)、t)×{XMAXRANGE、t-Δt)×MaxRaXMAX(t)}のように計算するよう変更する。
比率については、中区画帯域全てについての比率ではなく最大比率MaxRaXMAX(t)だけを符号化すればよい点で、本変形例によれば、実施形態2と同様の効果がある。加えて、次の効果もある。
各中区画帯域の性質を該中区画帯域に含まれるMDCT係数の最大値で代表させたようなスペクトルを想定する。すると、音声の特性ゆえに、かかるスペクトルは、時間とともに全帯域が底上げ又は底下げされるように変化するよりは、各中区画帯域の成分が時間とともに比例するように、つまりスペクトル全体としては相似なまま、変化する傾向が強い。よって、差分ではなく比率を用いてスペクトルの時間変化を表現する本変形例によれば、実施形態2に比べ、規格化のための除数が大きすぎるために符号化の精度が低下する度合いを、減少させることができる。
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。
例えば、図1に示される音声符号化兼復号装置111として携帯電話を想定して説明したが、PHS(Personal Handyphone System)や、PDA(Personal Digital Assistants)、あるいは一般的なパーソナルコンピュータには、本発明を容易に適用することができる。すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。
本発明の実施の形態に係る音声符号化兼復号装置の構成を示す図である。 音声スペクトルが、小区画帯域に属するMDCT係数により表される様子を、模式的に示す図である。 本発明の実施形態1における、中区画帯域と、時刻の関数としてのMDCT係数と、を模式的に示す図である。 本発明の実施形態1における、音声符号化装置が行う演算の概略を示す図である。 本発明の実施形態1における、音声符号化装置から音声復号装置へ伝達される情報の概略を示す図である。 本発明の実施形態1における、音声復号装置が行う演算の概略を示す図である。 本発明の実施形態1における、中区画帯域最大値検索、中区画帯域差分の計算、及び、規格化MDCT係数の計算の流れを示す図である。 本発明の実施形態1における、中区画帯域最大値及びMDCT係数の計算の流れを示す図である。 本発明の実施形態2における、中区画帯域最大値検索、中区画帯域差分の計算、及び、最大差分の計算の流れを示す図である。 本発明の実施形態2における、最大差分使用時の規格化MDCT係数の計算の流れを示す図である。 本発明の実施形態2における、最大差分に基づく、中区画帯域最大値及びMDCT係数の計算の流れを示す図である。
符号の説明
111・・・音声符号化兼復号装置、121・・・CPU、123・・・ROM、125・・・記憶部、131・・・RAM、133・・・ハードディスク、141・・・音声処理部、151・・・マイクロフォン、153・・・スピーカ、161・・・無線通信部、163・・・アンテナ、171・・・操作キー入力内容処理部、173・・・操作キー、181・・・システムバス

Claims (12)

  1. デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換手段と、
    聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
    前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
    前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
    を備え、
    前記最大値検索手段は、
    前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
    ことを特徴とする音声符号化装置。
  2. 前記中区画帯域に低域から順に中区画識別用整数を割り当て、前記中区画帯域の中心周波数の対数が、前記中区画識別用整数に線型的に依存するように前記中区画帯域を構成する中区画帯域構成手段をさらに備える、
    請求項1に記載の音声符号化装置。
  3. 前記最大値検索手段は、
    前記現最大値から前記過去最大値を減算した値である差分を求め、
    前記符号化手段は、
    前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
    ことを特徴とする請求項1又は2に記載の音声符号化装置。
  4. 前記最大値検索手段は、
    前記現最大値を前記過去最大値により除算した値である比率を求め、
    前記符号化手段は、
    前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
    ことを特徴とする請求項1又は2に記載の音声符号化装置。
  5. 最大差分決定手段をさらに備え、
    前記最大値検索手段は、
    前記現最大値から前記過去最大値を減算した値である差分を求め、
    前記最大差分決定手段は、
    前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、
    前記符号化手段は、
    前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
    ことを特徴とする請求項1又は2に記載の音声符号化装置。
  6. 最大比率決定手段をさらに備え、
    前記最大値検索手段は、
    前記現最大値を前記過去最大値により除算した値である比率を求め、
    前記最大比率決定手段は、
    前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、
    前記符号化手段は、
    前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
    ことを特徴とする請求項1又は2に記載の音声符号化装置。
  7. 前記離散スペクトル変換手段は、
    MDCT(Modified Discrete Cosine Transform)を用いる、
    ことを特徴とする請求項1乃至6の何れか1項に記載の音声符号化装置。
  8. 所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信手段と、
    前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
    復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
    前記規格化用値を記憶する規格化用値記憶手段と、
    復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
    を備え、
    前記逆変形手段は、
    前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
    ことを特徴とする音声復号装置。
  9. デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
    聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
    前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
    前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
    から構成され、
    前記最大値検索ステップは、
    前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
    ことを特徴とする音声符号化方法。
  10. 所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
    前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
    復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
    前記規格化用値を記憶する規格化用値記憶ステップと、
    復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
    から構成され、
    前記逆変形ステップは、
    前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
    ことを特徴とする音声復号方法。
  11. コンピュータに、
    デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
    聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
    前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
    前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
    を実行させるプログラムであって、
    前記最大値検索ステップは、
    前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
    ことを特徴とするプログラム。
  12. コンピュータに、
    所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
    前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
    復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
    前記規格化用値を記憶する規格化用値記憶ステップと、
    復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
    を実行させるプログラムであって、
    前記逆変形ステップは、
    前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
    ことを特徴とするプログラム。
JP2007155308A 2007-06-12 2007-06-12 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム Expired - Fee Related JP5098453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007155308A JP5098453B2 (ja) 2007-06-12 2007-06-12 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007155308A JP5098453B2 (ja) 2007-06-12 2007-06-12 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2008309875A true JP2008309875A (ja) 2008-12-25
JP5098453B2 JP5098453B2 (ja) 2012-12-12

Family

ID=40237560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007155308A Expired - Fee Related JP5098453B2 (ja) 2007-06-12 2007-06-12 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP5098453B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02153639A (ja) * 1988-12-06 1990-06-13 Fujitsu Ltd 帯域分割正規化制御方式
JPH0822298A (ja) * 1994-07-07 1996-01-23 Sharp Corp 符号化装置および復号化装置
JPH08251031A (ja) * 1995-03-07 1996-09-27 Mitsubishi Electric Corp 符号器および復号器
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
WO2002052732A1 (en) * 2000-12-22 2002-07-04 Sony Corporation Encoder and decoder
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02153639A (ja) * 1988-12-06 1990-06-13 Fujitsu Ltd 帯域分割正規化制御方式
JPH0822298A (ja) * 1994-07-07 1996-01-23 Sharp Corp 符号化装置および復号化装置
JPH08251031A (ja) * 1995-03-07 1996-09-27 Mitsubishi Electric Corp 符号器および復号器
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
WO2002052732A1 (en) * 2000-12-22 2002-07-04 Sony Corporation Encoder and decoder
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
JP5098453B2 (ja) 2012-12-12

Similar Documents

Publication Publication Date Title
JP4396683B2 (ja) 音声符号化装置、音声符号化方法、及び、プログラム
KR102194557B1 (ko) 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
US10909992B2 (en) Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
CN110459231B (zh) 产生hoa信号的混合的空间/系数域表示的方法和设备
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
KR20210083225A (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
JP2013502619A (ja) 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
US8593321B2 (en) Computation apparatus and method, quantization apparatus and method, and program
JP5098453B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
EP1121686A1 (en) Speech parameter compression
US20100082717A1 (en) Computation apparatus and method, quantization apparatus and method, and program
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
CN117789737A (zh) 一种优化sbc编码器的方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5098453

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees