[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6769299B2 - オーディオ符号化装置およびオーディオ符号化方法 - Google Patents

オーディオ符号化装置およびオーディオ符号化方法 Download PDF

Info

Publication number
JP6769299B2
JP6769299B2 JP2016254286A JP2016254286A JP6769299B2 JP 6769299 B2 JP6769299 B2 JP 6769299B2 JP 2016254286 A JP2016254286 A JP 2016254286A JP 2016254286 A JP2016254286 A JP 2016254286A JP 6769299 B2 JP6769299 B2 JP 6769299B2
Authority
JP
Japan
Prior art keywords
envelope
information
peak
frequency
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016254286A
Other languages
English (en)
Other versions
JP2018106076A (ja
Inventor
晃 釜野
晃 釜野
洋平 岸
洋平 岸
鈴木 政直
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016254286A priority Critical patent/JP6769299B2/ja
Priority to US15/809,623 priority patent/US10224048B2/en
Priority to EP17201820.2A priority patent/EP3343560B1/en
Publication of JP2018106076A publication Critical patent/JP2018106076A/ja
Application granted granted Critical
Publication of JP6769299B2 publication Critical patent/JP6769299B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化装置およびオーディオ符号化方法に関する。
音声や音楽などのオーディオ信号を圧縮・伸張するオーディオ符号化技術の一つに、SBR(Spectral Band Replication)技術がある。SBR技術は、低域成分から高域成分を再現することにより、オーディオ信号を圧縮する技術である。SBR技術は、低レートで高音質に符号化が可能な技術であるため、様々な用途で用いられている。
オーディオ符号化においてSBR技術は、入力音源から低域成分を抽出すると共に、高域成分からは情報量圧縮のため、包絡情報とトーン情報を抽出する。SBR技術は、低域成分を複製し高域成分を再現する。包絡情報は、複製し再現した高域成分のエネルギーの大きさを補正するために使用される。一方、高域成分にのみ存在する信号は、低域成分の複製では再現することが出来ない。そこで、SBR技術は、高域成分にのみ存在するトーン信号の、周波数とエネルギーの大きさに関する情報をトーン情報として取得する。トーン信号は、人工的に付与された単一周波数の信号である。高域のみに存在するトーン信号は、電子楽器によって演奏される楽曲等に含まれる。復号時には、包絡情報により再現した高域成分に対しトーン情報に基づきトーン信号を付加することにより、高域成分を精度よく復号することが出来る。例えば特許文献1には、SBRを用いた技術が開示されている。
特開2008−96567号公報
しかしながら、特許文献1の技術では、包絡情報に基づき再現した包絡線上のピークと、トーン情報に基づき付与したトーン信号のピークが非常に小さな周波数の差分で存在する場合がある。このようなピークが存在する場合に、包絡情報とトーン情報に基づきSBR技術で高域成分を再現すると、復号した信号には2つのピークが隣接して存在することとなる。2つのピークが隣接することにより聴覚上、唸りが発生し、復号されたオーディオ信号が著しく劣化する。
開示の技術は、トーン信号に対し周波数の隣接するピークが取得された場合であっても、唸りの生じないトーン信号が復号されるようにする符号化処理を実現することを目的とする。
上述した課題を解決し、目的を達成するため、オーディオ符号化装置は、入力信号から低域の周波数成分を有する低域信号を抽出するフィルタと、入力信号のうち低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出する包絡情報抽出部と、入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出するトーン情報検出部と、トーン信号の周波数と包絡線のピークの周波数との差分に基づき包絡情報を補正する包絡情報補正部と、低域信号、トーン情報、および補正された包絡情報を符号化する符号化部とを有する。
本件の開示するオーディオ符号化装置およびオーディオ符号化方法の一つの態様によれば、トーン信号に対し周波数の隣接するピークが取得された場合であっても、唸りの生じないトーン信号が復号されるようにする符号化処理を実現することが出来るという効果を奏する。
図1は、オーディオ符号化装置の一例を示す機能ブロック図である。 図2は、オーディオ符号化装置に入力される入力音源のスペクトル図である。 図3は、トーン情報検出時に発生する問題を説明する図である。 図4は、包絡情報補正処理を説明する図である。 図5は、包絡情報補正処理フローを示す図である。 図6は、サブバンド番号iに対するサブバンド幅SBWの変化を示すグラフである。 図7は、包絡情報のピーク検出における検出範囲の具体例を示す図である。 図8は、包絡情報のピーク検出における検出範囲の他の具体例を示す図である。 図9は、包絡情報のピークの補正について説明する図である。 図10は、包絡情報のピークの他の補正について説明する図である。 図11は、オーディオ符号化装置のハードウェアブロック図である。 図12は、オーディオ復号装置の機能ブロック図である。 図13は、オーディオ復号装置による復号処理を説明する図である。
図1は、オーディオ符号化装置の一例を示す機能ブロック図である。図1においてオーディオ符号化装置1は、ローパスフィルタ2、包絡情報抽出部3、トーン情報検出部4、包絡情報補正部5、符号化部6を有する。
包絡情報補正部5は、包絡情報抽出部3から出力された包絡情報、およびトーン情報検出部4から出力されたトーン情報に基づき、包絡情報の補正を行う。包絡情報補正部5は、包絡ピーク検出部7、補正判定部8、ピーク抑圧部9を有する。
包絡ピーク検出部7は、包絡情報からあらかじめ設定した閾値以上のピークを検出した場合に、ピークの周波数およびピーク値をピーク情報として出力する。補正判定部8は、包絡ピーク検出部7から出力されたピーク情報およびトーン情報検出部4から出力されたトーン情報に基づき、包絡情報を補正すべきか否かの補正要否判定処理を行う。補正判定部8は、ピーク情報およびトーン情報に含まれる周波数およびピーク値に関する情報に基づき補正要と判定した場合、判定結果として、包絡情報の補正をピーク抑圧部9に指示するための補正制御信号を出力する。ピーク抑圧部9は、補正判定部8から包絡情報の補正を指示する補正制御信号を受信した場合に、包絡ピーク検出部7から受信したピーク情報に基づき、包絡情報抽出部3から受信した包絡情報を補正し、補正包絡情報を符号化部6へ出力する。
符号化部6は、ローパスフィルタ2から受信した低域信号、包絡情報補正部5から受信した補正包絡情報、およびトーン情報検出部4から受信したトーン情報を符号化および多重化処理し、ストリーム信号として出力する。
以上の通りオーディオ符号化装置1は、包絡情報およびトーン情報に基づき、包絡情報を補正することが出来る。
図2は、オーディオ符号化装置に入力される入力音源のスペクトル図である。図2において、横軸は周波数、縦軸は各周波数における音源のエネルギーの大きさを示す。領域41は低域信号領域を示す。領域42は高域信号領域を示す。例えば低域の周波数領域は0〜5kHz、高域の周波数領域は5k〜24kHzとする。
スペクトル45は、入力音源をフーリエ変換等により周波数変換した周波数スペクトルである。オーディオ符号化装置1におけるローパスフィルタ2は、入力音源に対応するスペクトル45のうち、領域41にある低域のスペクトルを抽出する。包絡線43は、包絡情報抽出部3により抽出された包絡情報である。包絡情報抽出部3は、スペクトル45のうち領域42に含まれる高域のスペクトルから包絡線43に示す包絡情報を抽出する。ピーク44は、トーン情報検出部4により抽出されたトーン情報である。トーン情報検出部4は、スペクトル45のうち領域42に含まれる高域のスペクトルからピーク44に示すトーン情報を検出する。
以上の通りオーディオ符号化装置1は、入力音源に対しSBR処理を行い、高域信号について包絡情報およびトーン情報を抽出することにより、符号化における圧縮率を上げることが出来る。
図3は、トーン情報検出時に発生する問題を説明する図である。図3において、グラフ14は、オーディオ符号化装置1に入力されるトーン信号の原音の時間波形を示す。グラフ14において、横軸は時間、縦軸はエネルギーを示す。トーン信号は単一の周波数を有する信号なので、グラフ14に示す通り、一定振幅を有する正弦波となる。
グラフ18は、周波数変換した原音であるトーン信号からトーン情報を抽出する処理を示すものである。グラフ18において、スペクトル11は周波数変換した原音のスペクトルを示す。領域17aおよび17bは、サブバンド領域を示す。サブバンド領域とは、オーディオ符号化の対象となる周波数領域を複数の周波数領域に分割したものである。グラフ18のように、原音のスペクトル11のピークが領域17aと領域17bの境界に位置する場合、スペクトル11のピークの情報が領域17aと領域17bの双方に含まれる。オーディオ符号化装置1において、包絡情報の抽出処理とトーン情報の検出処理はそれぞれのサブバンド領域において別個に行われる。したがって、例えば包絡情報の抽出処理とトーン情報の検出処理が異なる分解能で行われている場合、トーン情報が異なるサブバンド領域で取得される場合がある。グラフ18において、包絡線12は、領域17aにおいて、包絡情報抽出部3により原音のスペクトル11を抽出したものである。またトーン情報13は、領域17bにおいて、トーン情報検出部4により原音のスペクトル11からトーン信号の情報を抽出したものである。2つの異なるサブバンド領域において包絡情報とトーン情報が原音の情報を抽出することにより、原音の情報として元々1つのピークであったにも関わらず、符号化により2つのピークが隣接して存在する情報となる。
グラフ19は、グラフ18の通り、オーディオ符号化において1つのトーン信号11の原音に対し、包絡情報として包絡線12の通りピークが抽出され、トーン情報としてトーン情報13の通り包絡線12のピーク周波数と異なる周波数でピークが検出された場合に、トーン信号11を復号した結果である。SBR処理された高域信号の復号は、低域スペクトルを高域にコピーし、包絡情報に基づきエネルギーレベルを調整する。低域スペクトルをコピーした結果、コピーしたスペクトルのピークと包絡線12のピークの周波数が重なった場合、包絡情報により抽出されたピークが高域信号スペクトルとして残る。包絡情報に基づき復号した高域信号スペクトルに対し、トーン情報13に基づきトーン信号スペクトルを復号すると、スペクトル15の通り、2つのピークが隣接するスペクトルが復号される。
グラフ16は、スペクトル15に対応する時間波形である。2つのピークが隣接するスペクトルを逆フーリエ変換等により時間波形に変換すると、グラフ16に示す通り、2つの隣接する周波数の信号が互いに干渉し、唸りが生じる。このような唸りは原音では生じていないため、唸りの発生は、復号した音質の低下の原因となる。
なお、図3では原音であるトーン信号がサブバンド領域の境界に存在する場合を例に包絡情報におけるピーク周波数とトーン情報におけるピーク周波数が隣接する場合を説明したが、2つの異なる情報におけるピーク周波数が発生する原因を特定するものではない。
図4は、包絡情報補正処理を説明する図である。図4においてグラフ31は、包絡情報におけるピーク周波数とトーン情報におけるピーク周波数が隣接している様子を示す。図1における包絡情報補正部5は、包絡情報において閾値21以上のピークを検出すると、当該ピークがトーン情報のピーク周波数に対し検出範囲35以内に存在するか否かをチェックする。包絡情報について当該条件を満たすピークが検出された場合、当該ピークを包絡情報の補正対象とする。検出範囲35の具体例については後述する。
グラフ32は、包絡情報におけるピーク周波数とトーン情報におけるピーク周波数がΔ以上離れている必要があることを示す。Δは限りなくゼロに近い値であるが、Δがゼロの場合は唸りが発生しないため、唸りが発生しない場合を除く主旨である。
グラフ33は、グラフ31およびグラフ32に示す条件を満たす包絡情報のピークが検出された場合における包絡情報の補正を示すものである。グラフ33において、点線は補正前の包絡情報、実線38は補正後の包絡情報を示す。包絡情報補正部5は、検出された包絡情報について、あらかじめ定めた一定の範囲37に基づき、実線38に示す通り補正する。補正の結果、包絡情報のピークエネルギーはトーン情報のピークエネルギーよりも十分小さくなるため、唸りの発生を抑えることが出来る。
なお、図4では、包絡情報のピーク値を抑える場合について説明しているが、包絡情報のかわりにトーン情報のピーク値を抑えることによっても、唸りの発生を抑えることが出来る。また、SBRのトーン情報は、MPEGなどの規格上ではサブバンド毎にON/OFFを指定する方式になっている為、トーン情報をOFFにすることができる。この方式の場合、トーン情報が有するピークの周波数は、サブバンド毎にあらかじめ対応づけられた所定の周波数となる。
図5は、包絡情報補正処理フローを示す図である。包絡情報補正処理フローは、例えば包絡情報補正部5により実行される。包絡情報補正処理フローは、メモリとプロセッサを有する汎用コンピュータにおいて、メモリに記憶された包絡情報補正プログラムをプロセッサにより実行することで実現してもよい。
包絡情報補正部5は、トーン情報に基づき、検出範囲内の包絡情報のピークを検出する(ステップS11)。包絡情報補正部5は、検出したピークの値が予め設定した閾値以上である場合(ステップS12:YES)、検出した包絡情報のピーク周波数と、トーン情報のピーク周波数との差を算出する(ステップS13)。なお、検出したピークの値が閾値より小さい場合(ステップS12:NO)、包絡情報補正部5は包絡情報補正処理を終了する。
ステップS13において算出した差分値が予め設定した閾値以上である場合(ステップS14:YES)、包絡情報補正部5は検出範囲内の包絡情報のピークを抑圧し、ピークの値を唸りが発生しないレベルに補正する(ステップS15)。なお、差分値が閾値より小さい場合(ステップS14:NO)、包絡情報補正部5は包絡情報補正処理を終了する。
以上の通り包絡情報補正部5は、包絡情報補正処理フローに基づき包絡情報を補正することにより、唸りの発生を防ぐことが出来る。
(数1)は、サブバンド番号iとサブバンド幅SBWとの関係を表す式である。(数1)において、INTは小数点以下を切り捨てる関数、powは指数関数、Fは周波数分解能、startは高域生成開始周波数index、stopは高域生成終了周波数index、numbandsはサブバンド数を示す。周波数indexは、Fに対応する周波数分解能で分割した周波数帯域について、低域から順に番号を付与したものである。例えば、48kHzサンプリングの信号を分析長1024サンプルずつ変形離散コサイン変換等の直行変換により周波数変換した場合、上限を24kHzとする512サンプルで表現できる周波数スペクトルとなる。この周波数スペクトルとspec[j](j=0〜512)と表現した場合、jが周波数indexとなる。
(数1)
Figure 0006769299
図6は、サブバンド番号iに対するサブバンド幅SBWの変化を示すグラフである。グラフ91は、(数1)において、F=1、start=1、stop=1025、numbands=20を設定した場合のサブバンド番号iとサブバンド幅SBWとの関係を示したものとなっている。
サブバンド番号iは、オーディオ符号化処理の対象となる周波数帯域を複数の帯域に分割した場合に、周波数の低い帯域から順に番号付けしたものである。サブバンド幅SBWは、各サブバンド番号iを付したサブバンドの帯域幅である。図6におけるグラフ91に示す通り、サブバンド番号iが大きくなるほど、すなわち、周波数が高くなるほど、サブバンド幅SBWは大きくなる。サブバンド幅SBWが小さい領域を人の可聴帯域に対応させることにより、可聴帯域に含まれるサブバンドの数を多くすることが出来る。オーディオ信号の処理はサブバンド単位で実行されるため、サブバンドごとに設定されるサンプリング数が同じである場合、サブバンドの数を多くすることにより、可聴帯域の分解能を高くすると共に、重要度の低い帯域の分解能を低くすることが出来る。
図7は、包絡情報のピーク検出における検出範囲の具体例を示す図である。図7において、サブバンド92a〜92dはそれぞれのサブバンド領域、範囲93a〜93cはピーク検出処理における検出範囲を示す。
図7の実施形態において、包絡情報のピークを検出するための検出範囲Wは、連続する2つのサブバンドのサブバンド幅SBWを合計した値となる。包絡情報補正部5は、サブバンド番号iを1ずつ増加させながら、検出範囲Wの帯域を変化させる。図3で説明したように、原音のトーン信号がサブバンド領域の境界に存在する場合、包絡情報のピークとトーン情報のピークがそれぞれ異なるサブバンド領域に含まれる。この場合でもそれぞれのピークが検出できるようにするため、検出範囲Wをサブバンド領域2つ分の帯域幅とするのが望ましい。なお検出範囲Wは、サブバンド領域2つ分に限定されるものではない。
(数2)は、ピーク検出の検出範囲Wを(数1)に基づき定めたものである。
(数2)
Figure 0006769299
(数1)と(数2)を比較すると、サブバンド番号iに加算する整数値が1から2に変更されている。包絡情報補正部5は、(数2)に基づきサブバンド番号iに加算する整数値を調整し検出範囲Wを定めることにより、包絡情報のピーク検出を実行することが出来る。
図8は、包絡情報のピーク検出における検出範囲の他の具体例を示す図である。図8において、図7と同一要素には同一符号を付する。図8の通りサブバンド領域92cにトーン情報13がある場合に、トーン情報13に対応するトーン周波数をft、サブバンド領域92cの帯域の最小値をT(ft)、最大値をT(ft)とする。トーン周波数ftに対し、T(ft)およびT(ft)との差分のうち、絶対値が大きい方の差分値をd(ft)とすると、d(ft)=max{|T(ft)−ft|,|T(ft)−ft|}となる。図8において、範囲94aが差分d(ft)に相当する。図8の通りトーン周波数ftに対しT(ft)との差分が大きい場合に、包絡情報補正部5は、検出範囲Wを、トーン周波数ftを基準とする周波数の低い方へも範囲d(ft)を拡げる。すなわち、包絡情報補正部5は、検出範囲Wを、W=[ft−d(ft),ft+d(ft)]と設定する。図8において、範囲99が検出範囲Wに相当し、範囲94aと範囲94bを足した範囲となる。
以上の通り包絡情報補正部5は、トーン周波数を中心として検出範囲Wを設定することにより、トーン情報13に関連のある包絡情報12のピークをより効率よく検出することが出来る。
図9は、包絡情報のピークの補正について説明する図である。図9において、包絡情報12のピークが唸りを発生させる原因となる場合に、包絡情報12のピークが存在するサブバンド区間のピーク値を抑圧する。包絡情報12のピークが検出されたサブバンド領域のサブバンド番号をbとすると、図9におけるピーク抑圧区間の最小値i0および最大値i1はそれぞれ(数3)の通りとなる。
(数3)
Figure 0006769299
包絡情報補正部5は、包絡情報12のピークが検出されたサブバンド領域のサブバンド番号bおよび(数3)に基づきi0およびi1を算出し、包絡情報12において、i0に対応する値とi1に対応する値とを直線で結ぶ包絡線に補正する。かかる補正によって唸りを発生させる包絡情報のピークを抑制することによりオーディオ符号化装置1は、復号後のオーディオ信号の品質が向上するように入力信号を符号化することが出来る。
図10は、包絡情報のピークの他の補正について説明する図である。図10において、マスキング閾値98は、等ラウドネス曲線などにより求められる、人の音量に対する聴覚限界に基づいて設定した閾値である。等ラウドネス曲線は、音の周波数を変化させたときに、人の聴覚による音の大きさが等しくなる音圧レベルを測定し、等高線として結んだものである。等ラウドネス曲線はISO226:2003として国際標準規格化されている。
マスキング閾値には、オーディオ符号化対象となる信号の、周波数帯域に対応する等ラウドネス曲線の最小値を設定してもよいし、包絡情報の補正対象となるピークの周波数に基づき、等ラウドネス曲線が示す音圧レベルを設定してもよい。
マスキング閾値との大小関係に基づいて包絡情報の補正を行うことにより、より少ない計算量で復号時の唸りを防止することが出来る。
図11は、オーディオ符号化装置のハードウェアブロック図である。オーディオ符号化装置1は、CPU50、記憶装置52、入力装置56、出力装置58、DSP60、インタフェース装置62を有する。それぞれの装置は、互いにバス68で接続されている。
CPU50は、記憶装置52に記憶されたオーディオ符号化プログラム53を実行することにより、図1に示された各機能ブロックを機能的に実現する。記憶装置52は、プログラムやデータを記憶するための装置であり、HDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)、RAM(Random Access Memory)などを含む。
入力装置56は、オーディオ符号化装置1の処理に必要な情報を外部から入力するための装置である。入力装置56は、マイク、キーボード、マウスなどを含む。出力装置58は、オーディオ符号化装置1の処理結果を外部に出力するための装置である。出力装置58は、スピーカー、ディスプレイなどを含む。DSP60はDigital Signal Processorの略であり、デジタル信号に変換されたオーディオ信号の周波数変換などの処理を高速に実行する。インタフェース装置62は、オーディオ符号化装置1のネットワークへの接続や、外部の記憶装置への接続を実現するための接続部分である。
以上の通りオーディオ符号化装置1は、汎用的なコンピュータを用いて、オーディオ符号化プログラムを実行することにより実現することが出来る。
図12は、オーディオ復号装置の機能ブロック図である。オーディオ復号装置10は、オーディオ符号化装置1により符号化されたストリーム信号を復号し、オーディオ信号を出力する。オーディオ復号装置10は、DEMUX71、低域信号復号部72、高域生成部73、包絡情報復号部74、トーン情報復号部75、高域整形部76、トーン生成部77、MIX78を有する。
DEMUX71は、デマルチプレクサの意味であり、多重化されたストリーム信号を複数の信号に分離する。低域信号復号部72は、分離された信号のうち、符号化された低域信号スペクトルを復号する。高域生成部73は、復号した低域信号スペクトルを高域にコピーすることにより、高域信号スペクトルを生成する。包絡情報復号部74は、分離された信号のうち、符号化された包絡情報を復号する。トーン情報復号部75は、分離された信号のうち、符号化されたトーン情報を復号する。高域整形部76は、包絡情報復号部74から出力された包絡情報に基づき、高域生成部73により生成された高域信号スペクトルのピークを補正する。トーン生成部77は、復号されたトーン情報に基づき、トーン信号を生成する。MIX78は、高域整形部76から出力された、補正後の高域信号スペクトルと、トーン生成部77から出力されたトーン信号とを合成し、合成された復号信号スペクトルを出力する。
以上の通りオーディオ復号装置10は、本実施形態により符号化された信号に基づき、復号された信号を出力することが出来る。
図13は、オーディオ復号装置による復号処理を説明する図である。図13のグラフ101において、領域81は低域信号領域、領域82は高域信号領域を示す。高域生成部73は、領域81の低域信号スペクトルを領域82にコピーし、高域信号スペクトルを生成する。
グラフ102において、包絡線83は包絡情報に基づく高域信号スペクトルの包絡線、ピーク84はトーン情報に基づくトーン信号のピークを示す。高域整形部76は、コピーした高域信号スペクトルに対し、包絡線83に基づくエネルギーレベルの補正を行う。MIX78は、包絡線83により補正された高域信号スペクトルに対し、ピーク84を合成する。
以上の通りオーディオ復号装置10は、復号した低域信号スペクトル、包絡情報、およびピーク情報に基づき、オーディオ信号を復号することが出来る。
1:オーディオ符号化装置
3:包絡情報抽出部
4:トーン情報検出部
5:包絡情報補正部
7:包絡ピーク検出部
8:補正判定部
9:ピーク抑圧部
50:CPU
52:記憶装置
53:オーディオ符号化プログラム
56:入力装置
58:出力装置
60:DSP
62:インタフェース装置

Claims (6)

  1. 入力信号から低域の周波数成分を有する低域信号を抽出するフィルタと、
    前記入力信号のうち前記低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出する包絡情報抽出部と、
    前記入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出するトーン情報検出部と、
    前記トーン信号の周波数と前記包絡線のピークの周波数との差分に基づき前記包絡情報を補正する包絡情報補正部と、
    前記低域信号、前記トーン情報、および補正された前記包絡情報を符号化する符号化部と
    を有するオーディオ符号化装置。
  2. 前記包絡情報補正部は、
    前記包絡情報に含まれるピークである包絡ピークを検出する包絡ピーク検出部と、
    前記包絡ピークと前記トーン情報に基づき、前記包絡情報を補正するか否かを判定する補正判定部と、
    前記補正判定部の判定結果に基づき、前記包絡情報に含まれるピークを抑圧するピーク抑圧部と
    を有する、請求項1に記載のオーディオ符号化装置。
  3. 前記補正判定部は、前記包絡ピークのピーク値、および前記包絡ピークのピーク値における周波数と前記トーン情報のピーク値における周波数との差分値が所定値以上の場合に補正要と判定する、請求項に記載のオーディオ符号化装置。
  4. 前記高域信号スペクトルを複数のサブバンドに分割して符号化処理する場合に、隣接する2つの前記サブバンドを前記包絡ピーク検出部における検出範囲として前記包絡ピークを検出する、請求項2に記載のオーディオ符号化装置。
  5. 前記補正判定部が補正要と判定した場合に、マスキング閾値に基づいて前記包絡ピークのピーク値または前記トーン情報のピーク値を補正する、請求項3に記載のオーディオ符号化装置。
  6. 入力信号を符号化処理するオーディオ符号化方法であって、コンピュータに、
    前記入力信号から低域の周波数成分を有する低域信号を抽出し、
    前記入力信号のうち前記低域信号よりも周波数の高い高域信号の包絡線に関する包絡情報を抽出し、
    前記入力信号から高域信号スペクトルに含まれるトーン信号の情報であるトーン情報を検出し、
    前記トーン信号の周波数と前記包絡線のピークの周波数との差分に基づき前記包絡情報を補正し、
    前記低域信号および補正された前記包絡情報を符号化する
    処理を実行させる、オーディオ符号化方法。
JP2016254286A 2016-12-27 2016-12-27 オーディオ符号化装置およびオーディオ符号化方法 Active JP6769299B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016254286A JP6769299B2 (ja) 2016-12-27 2016-12-27 オーディオ符号化装置およびオーディオ符号化方法
US15/809,623 US10224048B2 (en) 2016-12-27 2017-11-10 Audio coding device and audio coding method
EP17201820.2A EP3343560B1 (en) 2016-12-27 2017-11-15 Audio coding device and audio coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016254286A JP6769299B2 (ja) 2016-12-27 2016-12-27 オーディオ符号化装置およびオーディオ符号化方法

Publications (2)

Publication Number Publication Date
JP2018106076A JP2018106076A (ja) 2018-07-05
JP6769299B2 true JP6769299B2 (ja) 2020-10-14

Family

ID=60327202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016254286A Active JP6769299B2 (ja) 2016-12-27 2016-12-27 オーディオ符号化装置およびオーディオ符号化方法

Country Status (3)

Country Link
US (1) US10224048B2 (ja)
EP (1) EP3343560B1 (ja)
JP (1) JP6769299B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896684B2 (en) 2017-07-28 2021-01-19 Fujitsu Limited Audio encoding apparatus and audio encoding method
CN111210832B (zh) * 2018-11-22 2024-06-04 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置
CN109473116B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 语音编码方法、语音解码方法及装置
CN113192523B (zh) * 2020-01-13 2024-07-16 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN113539281B (zh) * 2020-04-21 2024-09-06 华为技术有限公司 音频信号编码方法和装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597B (zh) * 2020-05-30 2024-10-29 华为技术有限公司 一种音频编码方法和音频编码装置
CN113259115B (zh) * 2021-05-06 2022-03-25 上海大学 一种基于钙钛矿晶体制备密码原语的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
US7069212B2 (en) * 2002-09-19 2006-06-27 Matsushita Elecric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing adjustment
WO2005104094A1 (ja) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. 符号化装置
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
JP5071479B2 (ja) * 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
WO2014115225A1 (ja) * 2013-01-22 2014-07-31 パナソニック株式会社 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
EP3731226A1 (en) * 2013-06-11 2020-10-28 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Device and method for bandwidth extension for acoustic signals
EP2830061A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping

Also Published As

Publication number Publication date
US10224048B2 (en) 2019-03-05
EP3343560B1 (en) 2019-08-14
EP3343560A1 (en) 2018-07-04
US20180182403A1 (en) 2018-06-28
JP2018106076A (ja) 2018-07-05

Similar Documents

Publication Publication Date Title
JP6769299B2 (ja) オーディオ符号化装置およびオーディオ符号化方法
EP1334484B1 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
EP1840874B1 (en) Audio encoding device, audio encoding method, and audio encoding program
JP6542717B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
WO2010024371A1 (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
RU2733533C1 (ru) Устройство и способы для обработки аудиосигнала
KR101375582B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
KR20070045993A (ko) 오디오 처리
JP2006048043A (ja) オーディオデータの高周波数の復元方法及びその装置
JPWO2004010415A1 (ja) オーディオ復号装置と復号方法およびプログラム
WO2016002551A1 (ja) 信号処理装置及び信号処理方法
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP3179476B1 (en) Coding device and method, and program
JP5365380B2 (ja) 音響信号処理装置、その処理方法およびプログラム
JP5817499B2 (ja) 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
JP4313993B2 (ja) オーディオ復号化装置およびオーディオ復号化方法
CN105324815A (zh) 信号处理装置和信号处理方法
US20130085762A1 (en) Audio encoding device
US10896684B2 (en) Audio encoding apparatus and audio encoding method
KR20080084043A (ko) 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN112771610A (zh) 用压扩对密集瞬态事件进行译码
JP5569476B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR20100062063A (ko) 오디오 신호 디코딩 방법, 이를 적용한 오디오 디코더, 기록매체 및 av 기기
JP2008250347A (ja) 信号処理方法、信号処理装置及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200907

R150 Certificate of patent or registration of utility model

Ref document number: 6769299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150