JP4886907B2 - Audio signal correction apparatus and audio signal correction method - Google Patents
Audio signal correction apparatus and audio signal correction method Download PDFInfo
- Publication number
- JP4886907B2 JP4886907B2 JP2011132362A JP2011132362A JP4886907B2 JP 4886907 B2 JP4886907 B2 JP 4886907B2 JP 2011132362 A JP2011132362 A JP 2011132362A JP 2011132362 A JP2011132362 A JP 2011132362A JP 4886907 B2 JP4886907 B2 JP 4886907B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- music
- input audio
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Stereophonic System (AREA)
Description
本発明は、オーディオ信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施すオーディオ信号補正技術に関する。 The present invention relates to an audio signal correction technique for adaptively performing sound quality correction processing on an audio signal and a music signal included in an audio signal.
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。 As is well known, for example, in a broadcast receiving device that receives a television broadcast or an information reproducing device that reproduces recorded information from an information recording medium, the received broadcast signal or the signal read from the information recording medium When reproducing an audio signal, the audio signal is subjected to a sound quality correction process to further improve the sound quality.
この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。 In this case, the content of the sound quality correction processing applied to the audio signal differs depending on whether the audio signal is a sound signal such as a human voice or a music (non-speech) signal such as a music piece. In other words, sound quality is improved by performing sound quality correction processing to emphasize and clarify the center localization component, such as talk scenes and sports conditions, for audio signals, and stereo for music signals. The sound quality is improved by applying a sound quality correction process with a feeling of emphasis.
このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。 For this reason, it is considered to determine whether the acquired audio signal is a voice signal or a music signal, and perform a corresponding sound quality correction process according to the determination result. However, since an audio signal and a music signal are often mixed in an actual audio signal, it is difficult to discriminate between them, so that an appropriate sound quality correction process is performed on the audio signal. The current situation is not to say.
特許文献1には、音声信号がスピーチか非スピーチかをスピーチ性の度合およびミュージック性の度合に応じて判定し、さらに、音声信号がモノラル信号かステレオ信号かに応じてスピーチか非スピーチかの判定を最適化する構成が開示されている。
しかしながら、特許文献1の構成では、音声信号がデュアルモノラル信号の場合やステレオ信号であってもモノラル伝送する場合には、信号内容を適切に判別することは困難である。
However, in the configuration of
本発明の目的は、入力オーディオ信号の内容を評価し、適応的な音質補正処理を施すオーディオ信号補正装置及を提供することにある。 An object of the present invention is to provide an audio signal correction apparatus and an audio signal correction apparatus that evaluate the contents of an input audio signal and perform adaptive sound quality correction processing.
本発明の実施形態に係るオーディオ信号補正装置は、入力オーディオ信号をチャンル情報に基づいてモノラル信号またはステレオ信号のいずれか判別し、前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを抽出する特徴抽出手段と、前記特徴抽出手段で抽出された前記複数の特徴量パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する信号種別判定手段と、前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出するレベル算出手段と、前記レベル算出手段で算出された前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す音質補正手段とを有する。 An audio signal correction apparatus according to an embodiment of the present invention determines whether an input audio signal is a monaural signal or a stereo signal based on channel information, and determines whether the input audio signal is an audio signal or a music signal. A feature extracting means for extracting a plurality of feature quantity parameters, and a voice indicating whether the input audio signal is close to a speech signal or a music signal based on the plurality of feature quantity parameters extracted by the feature extraction means A signal type determining means for calculating a music identification score, a level calculating means for calculating a sound level of the input audio signal and an output level of the music level using the sound music identification score, and the level calculated by the level calculating means Based on the output level, a sound quality correction process is performed on the input audio signal. With the door.
本発明によれば、入力オーディオ信号の内容を評価し、適応的な音質補正処理を施すオーディオ信号補正装置を提供できる。 ADVANTAGE OF THE INVENTION According to this invention, the audio signal correction apparatus which evaluates the content of an input audio signal and performs an adaptive sound quality correction process can be provided.
以下、この発明の実施形態について図面を参照して詳細に説明する。図1は、デジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャネルの放送信号が選局される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a main signal processing system of the digital
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調モジュール46及びTS(transport stream)復号モジュール47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理モジュール48に出力される。
The broadcast signal selected by the
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャネルの放送信号が選局される。
The terrestrial digital television broadcast signal received by the terrestrial
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調モジュール52及びTS復号モジュール53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理モジュール48に出力される。
The broadcast signal selected by the
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調モジュール55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理モジュール48に出力される。
The terrestrial analog television broadcast signal received by the terrestrial
ここで、上記信号処理モジュール48は、TS復号モジュール47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理モジュール56及びオーディオ処理モジュール57に出力している。
Here, the
また、上記信号処理モジュール48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
The
信号処理モジュール48は、上記アナログ復調モジュール55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理モジュール56及びオーディオ処理モジュール57に出力する。
The
グラフィック処理モジュール56は、信号処理モジュール48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成モジュール59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理モジュール56は、信号処理モジュール48の出力映像信号と、OSD信号生成モジュール59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
The
グラフィック処理モジュール56から出力されたデジタルの映像信号は、映像処理モジュール60に供給される。この映像処理モジュール60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
The digital video signal output from the
また、上記オーディオ処理モジュール57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
The
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御モジュール63によって統括的に制御されている。この制御モジュール63は、CPU(central processing unit)64を内蔵しており、前記操作モジュール16からの操作情報、または、リモートコントローラ17から送出され前記受光モジュール18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
Here, in the digital television
この場合、制御モジュール63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
In this case, the
図2は、上記オーディオ処理モジュール57内に信号特性解析モジュール70と音質補正モジュール80を備える構成を示している。信号特性解析モジュール70は、特徴抽出モジュール72、信号種別判定モジュール74、レベル算出モジュール76を備える。さらに、特徴抽出モジュール72は、第1の特徴抽出モジュール72a、第2の特徴抽出モジュール72bを備える。信号種別判定モジュール74は、第1の信号種別判定モジュール74a、第2の信号種別判定モジュール74bを備える。入力端子71には、入力オーディオ信号が供給される。制御モジュール63は、入力オーディオ信号を特徴抽出モジュール72に供給する。制御モジュール63は、入力オーディオ信号のチャネル情報(モノラル/ステレオ信号情報)を信号特性解析モジュール70を構成する各モジュールに供給する。
FIG. 2 shows a configuration in which a signal
第1の特徴抽出モジュール72aは、入力オーディオ信号がステレオ信号の場合、入力オーディオ信号が音声信号と音楽信号のいずれであるかを判別するための各種の特徴量パラメータを算出する。第2の特徴抽出モジュール72bは、入力オーディオ信号がモノラル信号の場合、入力オーディオ信号が音声信号と音楽信号のいずれであるかを判別するための各種の特徴量パラメータを算出する。特徴抽出モジュール72は、入力オーディオ信号がステレオ信号かモノラル信号かに応じて第1の特徴抽出モジュール72aか第2の特徴抽出モジュール72bに切り替える。
When the input audio signal is a stereo signal, the first
第1の信号種別判定モジュール74aは、入力オーディオ信号(ステレオ信号)が音声信号または音楽信号のいずれであるかを判別する。同様に第2の特徴抽出モジュール74bは、入力オーディオ信号(モノラル信号)が音声信号または音楽信号のいずれであるかを判別する。信号種別判定モジュール74は、入力オーディオ信号がステレオ信号かモノラル信号かに応じて第1の信号種別判定モジュール74aか第2の信号種別判定モジュール74bに切り替える。
The first signal
レベル算出モジュール76は、音声信号または音楽信号に対して、音質を細かく制御するための確度情報を含む音声・音楽レベルを算出する。レベル算出モジュール76は、音声・音楽レベル情報を音質補正モジュール80に出力する。
The
本実施形態では、第1の特徴抽出モジュール72aと第2の特徴抽出モジュール72bを異なるモジュール、第1の信号種別判定モジュール74aと第2の特徴抽出モジュール74bを異なるモジュールとした構成であるが、それぞれ一体となっていてもよい。
In the present embodiment, the first
音質補正モジュール80は、信号特性解析モジュール70で算出された音楽・音声レベル情報に基づいて、音質補正処理を施す。音質補正モジュール80は、音質補正処理を施した出力オーディオ信号を出力端子77に供給する。
The sound
つまり、信号特性解析モジュール70および音質補正モジュール80は、放送受信や記録媒体からのコンテンツ再生において、音楽区間と音声区間を処理遅延することなく識別し、シーンの内容に応じて入力オーディオ信号に適切な音質補正処理を施すことで高音質化を図るシーン適応音質補正を実行する機能を有する。
That is, the signal
次に、第1の特徴抽出モジュール72と第2の特徴抽出モジュール73の動作について説明する。図3は、特徴量抽出処理を説明するフローチャートである。はじめに、特徴抽出モジュール72は、入力オーディオ信号を数百msec程度ごとにフレームとして切り出す。さらに、特徴抽出モジュール72は、それらを数十msec程度ごとにサブフレームに分割する(ステップS101)。例えば、1つのサブフレームは、20msecである。
Next, operations of the first
特徴抽出モジュール72は、入力オーディオ信号のチャネル情報に基づいて、入力オーディオ信号のチャネル数が2か否か(つまりモノラル信号かステレオ信号か)を判断する(ステップS102)。ここでは、信号処理モジュール48は、例えばチューナ51で選局された放送信号から復調された入力オーディオ信号がマルチチャネルのステレオ信号であった場合、マルチチャネルから2チャネルのステレオ信号にダウンミックス処理していることを前提とする。信号処理モジュール48は、2チャネルのステレオ信号を入力端子71に入力オーディオ信号として供給する。
The
チャネル数が2の場合(ステップS102、YES)、特徴抽出モジュール72は、入力オーディオ信号がデュアルモノラル信号ではない通常のステレオ信号か否かを判断する(ステップS103)。デュアルモノラル信号は、デュアルモノラル信号のチャネル数は2であっても、メイン/サブの各チャネルに重畳される音は本来別々のモノラル信号である。
When the number of channels is 2 (step S102, YES), the
入力オーディオ信号がデュアルモノラル信号でない通常のステレオ信号である場合(ステップS103、YES)、特徴抽出モジュール72は、サブフレーム単位で入力オーディオ信号における2チャネルステレオの左右(LR)信号のパワー比(LRパワー比)を算出する。ここで、入力オーディオ信号のフォーマットがステレオ信号であっても、実際はモノラル信号のように伝送されるケースがある。この場合、LRチャネル相互でほぼ同等の信号となり、特徴抽出モジュール72は、チャネル数だけでは判断できない。そこで、特徴抽出モジュール72は、LRチャネルの差成分値を和成分値で除したLRパワー比を算出し、予め設定された閾値thPwと比較する。次に、特徴抽出モジュール72は、LRパワー比が閾値thPwよりも大きいか否かを判断する(ステップS104)。
When the input audio signal is a normal stereo signal that is not a dual monaural signal (step S103, YES), the
LRパワー比が閾値thPwよりも大きい場合(ステップS104、YES)、第1の特徴抽出モジュール72aは、LRパワー比が閾値thPwよりも大きいステレオ信号からステレオ向け判別情報を抽出する(ステップS105)。本実施形態では、ステレオ信号は、チャネル数が2の信号の中でも、デュアルモノラル信号ではなく、LRチャネルのパワー比が一定以上のステレオ性の強い信号を意味しているものとする。
When the LR power ratio is larger than the threshold thPw (step S104, YES), the first
第1の特徴抽出モジュール72aは、サブフレーム単位でLRパワー比(信号振幅の2乗和)、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル成分変動等の判別情報を算出する。判別情報の内容としてはこれらに限定せず追加することができる。
The first
第1の特徴抽出モジュール72aは、入力オーディオ信号に対してステレオ向け判別情報を示す変数paramSet=stereoをセットする(ステップS106)。特徴抽出モジュール72は、サブフレームを統合して数百msec程度ごとにフレームを抽出する(ステップS107)。次に、特徴抽出モジュール72は、ステレオ向け判別情報またはモノラル向け判別情報からフレーム単位での統計特徴量(例えば平均,分散,最大,最小等)を求め特徴量パラメータセットを生成する(ステップS108)。特徴抽出モジュール72は、特徴量抽出処理を終了する。
The first
入力オーディオ信号がデュアルモノラル信号であって通常のステレオ信号でない場合(ステップS103、NO)、第2の特徴抽出モジュール72bは、ユーザにより決定されるメイン/サブの選択情報を受け取り、検出対象となるチャネルのフォーカスを決定する(ステップS109)。第2の特徴抽出モジュール72bは、メイン/サブのうち該当するいずれかのチャネルについてモノラル向けの判別情報を抽出する(ステップS110)。同様に、チャネル数が2でない場合(つまり、チャネル数が1の場合)(ステップS102、NO)、第2の特徴抽出モジュール72bは、モノラル向けの判別情報を抽出する(ステップS110)。同様に、LRパワー比が閾値thPw以下の場合(ステップS104、NO)、第2の特徴抽出モジュール72bは、モノラル向けの判別情報を抽出する(ステップS110)。
If the input audio signal is a dual monaural signal and not a normal stereo signal (NO in step S103), the second
第2の特徴抽出モジュール72aは、サブフレーム単位で、LRパワー比、零交差周波数、スペクトル成分変動等の判別情報を算出する。判別情報の内容としてはこれらに限定せず追加することができる。
The second
第2の特徴抽出モジュール72bは、入力オーディオ信号に対してモノラル向け判別情報を示す変数paramSet=monoをセットする(ステップS111)。次に、第2の特徴抽出モジュール72bは、ステップS107以降の動作を続行する。
The second
ステレオ向け判別情報とモノラル向けの判別情報は、互いに共通するものもあれば、それぞれに特有なものもある。ステレオ向け判別情報の特有の特徴量パラメータとしては、例えばLRパワー比がある。LRパワー比は、音楽区間では値が大きくなる傾向にあり、音声区間では値が小さくなる傾向にある。 The discrimination information for stereo and the discrimination information for monaural may be common to each other, or may be unique to each. As the characteristic feature parameter peculiar to the discrimination information for stereo, for example, there is an LR power ratio. The LR power ratio tends to increase in the music section and decreases in the voice section.
上記説明したように、特徴抽出モジュール72は、入力オーディオ信号のチャネル情報とともに入力オーディオ信号の内容に応じてステレオ向け判別情報またはモノラル向けの判別情報を抽出し、抽出した判別情報に基づいて特徴量パラメータセットを生成する。したがって、特徴抽出モジュール72は、入力オーディオ信号が音声信号または音楽信号のいずれかを判別するために用いる最適な判別情報を選択することができる。特徴抽出モジュール72で生成された各種の特徴量パラメータセットは、信号種別判定モジュール74に供給される。
As described above, the
次に、信号種別判定モジュール74の動作について説明する。図4は、特徴量パラメータセットおよびチャネル情報を用いた信号種別判定処理を説明するフローチャートである。はじめに、信号種別判定モジュール74は、入力オーディオ信号に対してparamSet=stereoがセットされているか否かを判断する(ステップS201)。paramSet=stereoがセットされている場合(ステップS201、YES)、第1の信号種別判定モジュール74aは、以下のようにステレオ向け線形判別式を算出する(ステップS202)。
Next, the operation of the signal
ステレオ向け線形判別式は、信号種別判定モジュール74が入力オーディオ信号を音声信号または音楽信号のいずれであるか判断するために用いる音声・音楽識別スコアS1の算出に用いられる。信号種別判定モジュール74は、特徴抽出モジュール72で生成した特徴量パラメータセットについて、各特徴量パラメータの重要度に応じた重み付け係数を付与し、係数を乗じた値の線形和をとることで音楽・音声に属する確からしさを表す音声・音楽識別スコアS1を算出する。信号種別判定モジュール74は、音楽・音声の音種別期待値があらかじめ判明しているデータを用いて学習することで重み付け係数を決定する。
The stereo linear discriminant is used to calculate the speech / music identification score S1 used by the signal
この重み付け係数としては、信号種別の判別に効果の高い特徴量パラメータほど大きい値が与えられる。例として、信号種別判定モジュール74は、以下のようなステレオ向け線形判定式を利用する。また、重み付け係数は、音声・音楽識別スコアS1については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴量パラメータを学習することで算出される。
As this weighting coefficient, a larger value is given to a feature amount parameter that is more effective in determining the signal type. As an example, the signal
学習対象とする参照データのk番目のフレームの特徴量パラメータセットをベクトルxで表わし、入力オーディオ信号が属する信号区間{音声、音楽}としてyで以下のように表わすものとする。
ここで、上記(1)式の各要素は、抽出したn個の特徴量パラメータに対応する。また、上記(2)式の−1,+1は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽用学習データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。上記(2)式の−1,+1は、便宜的な定義であるので、逆にしてもよい。さらに、上記(2)式より、以下の線形識別関数を立てる。
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルxを抽出し、(3)式の評価値と正解信号種別(2)式の誤差二乗和(4)式が最小となる正規方程式を解くことにより、各特徴量パラメータに対する重み付け係数βi(i=0〜n)が決定される。
paramSet=stereoがセットされてない場合(つまり、paramSet=monoがセットされている場合)(ステップS201、NO)、第2の信号種別判定モジュール74bは、上記同様(1)式から(4)式を用いてモノラル向け線形判別式を算出する(ステプS202)。このとき、第2の信号種別判定モジュール74aは、ステレオ向け線形判別式とは異なり、m個の特徴量パラメータによってモノラル向け線形判別式を算出する。
When paramSet = stereo is not set (that is, when paramSet = mono is set) (step S201, NO), the second signal
信号種別判定モジュール74は、ステレオ向け線形判別式またはモノラル向け線形判別式について、学習によって決定した重み付け係数を用い、実際に識別する入力オーディオ信号の評価値を(3)式よりフレーム毎に算出する(ステップS204)。f(x)が上記音声・音楽識別スコアS1に相当する。
For the linear discriminant for stereo or the linear discriminant for monaural use, the signal
なお、音声・音楽識別スコアS1の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴量パラメータに乗ずる手法に限定されるものではない。例えば各特徴量パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴量パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。 Note that the calculation of the speech / music identification score S1 is not limited to the method of multiplying the feature parameter by the weighting coefficient obtained by offline learning using the above-described linear identification function. For example, an empirical threshold is set for the calculated value of each feature parameter, and a weighted score is assigned to each feature parameter in accordance with comparison with the threshold, and a score is calculated. It is possible.
信号種別判定モジュール74は、S1<0か否かを判断する(ステップS205)。信号種別判定モジュール74は、S1<0であれば音楽区間、f(x)>0であれば音声区間と判定する。信号種別判定モジュール74は、各フレームを音声区間か音楽区間に排他的に判別する。
The signal
S1<0でない場合(つまり、音声区間である場合)(ステップS205、NO)、信号種別判定モジュール74は、変数cntSpをインクリメントする(ステップS206)。S1<0である場合(つまり、音楽区間である場合)(ステップS205、YES)、信号種別判定モジュール74は、変数cntMsをインクリメントする。
When S1 <0 is not satisfied (that is, when it is a voice section) (step S205, NO), the signal
信号種別判定モジュール74で算出された音声・音楽識別スコアS1およびインクリメントされた変数は、レベル算出モジュール76に供給される。信号種別判定モジュール74は、信号種別判定を終了する。
The voice / music identification score S1 calculated by the signal
ここで、信号種別判定モジュール74は、チャネル情報に基づいて判別した入力オーディオ信号がステレオ信号かモノラル信号かに応じて異なる特徴量パラメータセットを選定している。信号種別判定モジュール74が特徴量パラメータセットを選定する有効性について説明する。
Here, the signal
例えば、ステレオ向け特徴量パラメータセットの特徴量パラメータの数nは、モノラル向け特徴量パラメータセットの特徴量パラメータの数mと異なる。上述したように、入力オーディオ信号がステレオ信号の場合、信号種別判定モジュール74は判別情報であるLRパワー比から算出した統計特徴量を含めた特徴量パラメータセットを使用するため、音声・音楽識別スコアS1の検出精度の向上が期待できる。一方、入力オーディオ信号がモノラル信号の場合、信号種別判定モジュール74がLRパワー比から算出した統計特徴量を含めた特徴量パラメータセットを使用しても音声・音楽識別スコアS1の検出精度の向上が期待できない。逆に、検出精度が低下することもありうる。
For example, the number n of feature quantity parameters in the stereo feature quantity parameter set is different from the number m of feature quantity parameters in the monaural feature quantity parameter set. As described above, when the input audio signal is a stereo signal, the signal
(5)式は、第1の信号種別判定モジュール74aが各特徴量パラメータの重要度に応じた重み付け係数βiを決定し、(3)式に適用した一例である。χnはLRパワー比における特徴量パラメータとする。
(2)式に示すように、線形識別関数の値が負であれば、入力オーディオ信号の音楽性が高くなる。ここで、通常のステレオ音楽信号ではLRチャネルで異なる楽音が配置されているため、LRパワー比は大きくなりやすい傾向にある。 As shown in equation (2), if the value of the linear discriminant function is negative, the musicality of the input audio signal is increased. Here, in the normal stereo music signal, since different musical sounds are arranged in the LR channel, the LR power ratio tends to increase.
この傾向は、どのようなステレオ楽曲でも一般的に当てはまる。学習の結果、LRパワー比における特徴量パラメータに対応する重み付け係数の値は、他の特徴量パラメータが音楽区間・音声区間の判別を指し示す重み付け係数値に比べると相対的に大きくなりやすい。言い換えると、LRパワー比における特徴量パラメータは、他の特徴量パラメータが音楽区間・音声区間の判別に寄与する度合いよりも強い。したがって線形識別関数の値も大きい負の値となる傾向をもつ。 This trend is generally true for any stereo song. As a result of learning, the value of the weighting coefficient corresponding to the feature quantity parameter in the LR power ratio is likely to be relatively larger than the weighting coefficient value in which the other feature quantity parameters indicate the discrimination of the music section / speech section. In other words, the feature amount parameter in the LR power ratio is stronger than the degree to which other feature amount parameters contribute to the determination of the music section / speech section. Therefore, the value of the linear discriminant function also tends to be a large negative value.
一方、入力オーディオ信号が音楽であってもモノラル信号であれば、特徴量パラメータχnは省略される。第2の信号種別判定モジュール74bは、通常χnに0の値を入れて線形識別関数の値を算出する。つまり、線形識別関数の値は、LRパワー比における特徴量パラメータの項が音楽区間・音声区間の判定に寄与しなくなる。第2の信号種別判定モジュール74bは音楽区間・音声区間の検出精度が落ちる。第2の信号種別判定モジュール74bは、重み付け係数の重みを特徴量パラメータごとに音楽区間・音声区間の判定への寄与を考慮して決定している。LRパワー比における特徴量パラメータは、音楽区間・音声区間の判定への寄与が他の特徴量パラメータに比べて相対的に大きい。LRパワー比における特徴量パラメータの項が線形識別関数から省略されると、第2の信号種別判定モジュール74bは、音楽区間・音声区間の判定をしづらくなる。
On the other hand, if the input audio signal is music but is a monaural signal, the feature parameter χ n is omitted. The second signal
そこで、第2の信号種別判定モジュール74bは、LRパワー比の特徴量パラメータの項を除いた他の特徴量パラメータセット(モノラル信号、ステレオ信号共通で効果が期待できる特徴量パラメータおよびモノラル信号に特有な特徴量パラメータから構成される)を用いて、(1)式から(4)式により重み付け係数値を求める。
Therefore, the second signal
第2の信号種別判定モジュール74bは、LRパワー比の特徴量パラメータがない分、他の特徴量パラメータのうち特定の特徴量パラメータに対して、(5)式に示す重み付け係数値よりも音楽性を強く示す係数値を与える。したがって、第2の信号種別判定モジュール74bは、音楽区間・音声区間の検出精度の低下を抑制できる。
The second signal
以上説明したように、信号種別判定モジュール74は、ステレオ信号またはモノラル信号に応じて最適な重み付け係数を用意し、入力オーディオ信号のチャネル情報により、線形判定式を切り替えて用いることができる。
As described above, the signal
次に、レベル算出モジュール76の動作について説明する。図5は、レベル算出処理を説明するフローチャートである。レベル算出モジュール76は、(5)式で求めた線形識別関数の値が正であれば音声区間、負であれば音楽区間と判断することができる。しかしながら、制御モジュール63がスピーカ15から出力する音声の音質を細かく制御するために、レベル算出モジュール76は、線形識別関数の値を段階的に表現される確度情報の形で算出するのが望ましい。また、モノラル信号では、楽曲特性が特徴量パラメータとしてステレオ信号ほど顕著に現れない。したがって、線形識別関数の値S1の音楽性スコアが比較的小さい値をとる傾向にある。そのため、レベル算出モジュール76は、楽曲によって判定が不安定化する可能性がある。そこで、レベル算出モジュール76は、例えば以下のようにスコア安定化を兼ねた音声・音楽レベルを算出する。
Next, the operation of the
レベル算出モジュール76は、線形判別式で求まった線形識別関数の値S1をベースに音楽区間・音声区間それぞれの確度情報を算出する。ここで、Sm1は音楽用スコア変数、Ss1は音声用スコア変数である。レベル算出モジュール76は、Sm1=−S1、Ss1=S1と設定する(ステップS301)。Sm1でS1の符号を反転するのは、音声・音楽のどちらも正値のレベルで表現するのが扱いやすいためである。
The
レベル算出モジュール76は、Sm1(>0)について、フレームごとに音声・音楽識別スコアS1を算出する一方で、継続して過去に音楽判定されたフレーム数cntMsをカウントする。レベル算出モジュール76は、cntMsが規定の回数thNms以上となったか否かを判断する(ステップS302)。
The
cntMsがthNmsに達した場合(ステップS301、YES)、レベル算出モジュール76は、Sm1に加算する補正スコアSm2(>0)をstep_m(>0)だけ加える。レベル算出モジュール76は、Ss1から減算する補正スコアSs2(>0)をstep_s(>0)だけ減ずる。レベル算出モジュール76は、Sm2とSs2の値を適切な値(min=0,max=1等)の範囲でクリッピングする(ステップS303)。
When cntMs reaches thNms (step S301, YES), the
これにより、Sm1が示す音楽用スコア変数が比較的小さい値の場合でも、時間の経過とともに補正後の音楽用スコア変数の値は安定する。 As a result, even if the music score variable indicated by Sm1 is a relatively small value, the corrected value of the music score variable is stabilized as time passes.
レベル算出モジュール76は、(6)式のように補正スコアSm2を音楽用スコア変数Sm1に加算する(ステップS304)。
レベル算出モジュール76は、(7)式のように補正スコアSs2を音声用スコア変数Ss1から減算する(ステップS305)。
cntMsがthNmsに達していない場合(ステップS302、NO)、レベル算出モジュール76は、Ss1(>0)について、継続して過去に音声判定されたフレーム数cntSpをカウントする。レベル算出モジュール76は、cntSpが規定回数thNsp以上となったか否かを判断する(ステップS306)。
When cntMs has not reached thNms (step S302, NO), the
cntSpがthNspに達した場合(ステップS306、YES)、レベル算出モジュール76は、Sm1に加算する補正スコアSm2(>0)をstep_m(>0)だけ減ずる。レベル算出モジュール76は、Ss1から減算する補正スコアSs2(>0)をstep_s(>0)だけ加える。レベル算出モジュール76は、Sm2とSs2の値を適切な値(min=0,max=1等)の範囲でクリッピングする(ステップS307)。
When cntSp reaches thNsp (step S306, YES), the
レベル算出モジュール76は、補正スコアSm2を段階的に減ずるため、音楽から音声区間に変わる際の急激な補正音質変動を緩和する効果をもつ。
Since the
レベル算出モジュール76は、(8)式のように補正スコアSm2を音楽用スコア変数Sm1から減算する(ステップS308)。
レベル算出モジュール76は、(9)式のように補正スコアSs2を音声用スコア変数Ss1に加算する(ステップS309)。レベル算出モジュール76は、判定の連続性に伴い補正スコアSs2を加算することで音声・音楽レベルの安定化を図ることができる
次に、レベル算出モジュール76は、Ss1´、Sm1´を後段で扱いやすい形に適宜変換するために、0から1の範囲でクリッピングする(ステップS310)。レベル算出モジュール76は、Ss1´、Sm1´を所望の解像度のレベルに変換する(ステップS311)。レベル算出モジュール76は、例えば、0から255などのN段階の整数値として音楽レベルLmsおよび音声レベルLspに変換する。
Next, the
レベル算出モジュール76は、レベル値変換の過程で平滑化を行う(ステップS312)。レベル算出モジュール76は、フレーム間における急激な音声・音楽レベルの変動を抑制するためである。すなわちレベル算出モジュール76は、過去num_fr数のフレームで平滑化を行う場合、num_fr数のフレームの音声・音楽レベルにそれぞれ重み係数を乗じ移動平均をとった値を最終的な出力レベル(音楽レベルLms,音声レベルLsp)とする。この際、レベル算出モジュール76は、例えば、直近の過去フレームほど音声・音楽レベルに乗じる重み係数の値を大きくする。
The
レベル算出モジュール76は、上記説明したスコア補正および平滑化により、低遅延・低負荷で、安定的な音声・音楽レベルを得ることができる。信号種別判定モジュール74は、(3)式で2値による判定結果によって音楽・音声の結果を排他的に算出する。しかしレベル算出モジュール76は、音声・音楽レベル情報に対して独立にスコア補正・平滑化を行うので、時間の経過とともに、音声・音楽レベルをお互いに排他的でない独立した値として算出することができる。レベル算出モジュール76は、例えばBGMのような区間では、音楽・音声レベルがそれぞれの音成分に応じた確度として出力する。
The
さらに、レベル算出モジュール76は、検出を適用する入力オーディオ信号の内容や、入力オーディオ信号が属するコンテンツ種類に応じて、音声・音楽レベルを制御してもよい。例えば、レベル算出モジュール76は、入力オーディオ信号がステレオ信号に比べて相対的に楽曲補正の効果が得られにくいモノラル信号であれば、音声・音楽レベルの最大値をステレオ信号の場合に比べて低く設定する。
Further, the
あるいは、トークシーンと楽曲シーンが比較的明確に現れる音楽番組以外のドラマやバラエティなどでは、演出上、各種の効果音が入りやすく、音楽区間と音声区間の著しい変動が短い時間内で頻繁に発生する。レベル算出モジュール76は、こうした変動による急激な音質変化の影響を避けるべく、EPGなどのジャンル情報を参照し、特定のコンテンツでは出力する音楽・音声レベルの音声・音楽レベルを低く設定する。
Or, in a drama or variety other than a music program where talk scenes and music scenes appear relatively clearly, various sound effects are likely to be included in the production, and significant fluctuations between the music section and the voice section occur frequently within a short period of time. To do. The
音質補正モジュール80は、入力オーディオ信号が音楽信号であるか音声信号であるか、およびステレオ信号であるかモノラル信号であるかに応じて柔軟に音質補正を制御できる。つまり、音質補正モジュール80は、上記算出された音楽・音声レベル情報を用いて、信号の内容に即した音質補正処理を施す。
The sound
例えば、音質補正モジュール80は、入力オーディオ信号がステレオ信号かつ音楽レベルが高ければサラウンド効果など広がり感を重視する補正を入力オーディオ信号に施す。音質補正モジュール80は、入力オーディオ信号がモノラル信号かつ音楽レベルが高ければイコライジング中心の補正を入力オーディオ信号に施す。音質補正モジュール80は、入力オーディオ信号がモノラル信号かつ音声レベルが高ければセンター定位を強めた輪郭強調を入力オーディオ信号に施す。音質補正モジュール63は、入力オーディオ信号がステレオ信号かつ音声レベルが高ければよりソフトな音声強調を入力オーディオ信号に施す。したがって、音質補正モジュール80は、入力オーディオ信号のチャネル数や音声・音楽レベルの高さ、安定度に応じて制御しやすくなる。
For example, if the input audio signal is a stereo signal and the music level is high, the sound
本実施形態によれば、信号特性解析モジュール70は、入力オーディオ信号の特性に応じて音質補正を柔軟に切り替えることが可能となる。信号特性解析モジュール70は、ステレオ信号だけでなく、モノラル信号も精度良く検出できる。また、信号特性解析モジュール70は、ステレオ信号のフォーマットであってもモノラル的性質を持つ入力オーディオ信号や、デュアルモノラル信号の入力オーディオ信号も最適に検出できる。信号特性解析モジュール70は、瞬間的、局所的な判定ブレを安定化した上で音楽・音声の確度をレベル情報で表現できる。さらに、信号特性解析モジュール70は、音声・音楽レベルの算出を判別式1個を基にして低遅延・低負荷で行え、継続時間長に応じて安定化かつ音声と音楽で独立した情報として得ることができる。結果として、信号特性解析モジュール70は、モノラル/ステレオ、音声/音楽の区分に応じて入力オーディオ信号の音質補正を柔軟に切り替えられる。
According to the present embodiment, the signal
なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、CPU64等を使ってソフトウェアで実現するものであってもよい。
The above-described module may be realized by hardware, or may be realized by software using the
なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the invention in the implementation stage. In addition, the embodiments may be appropriately combined as much as possible, and in that case, the combined effect can be obtained. Further, the above embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent requirements are deleted from all the constituent requirements shown in the embodiment, the problem described in the column of the problem to be solved by the invention can be solved, and the effect described in the column of the effect of the invention Can be obtained as an invention.
11…デジタルテレビジョン放送受信装置、15…スピーカ、72…特徴量抽出モジュール、74…信号種別判定モジュール、76…レベル算出モジュール、80…音質補正モジュール。
DESCRIPTION OF
Claims (9)
前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを含む特徴パラメータセットであって、前記判別手段によって判別された前記モノラル信号用または前記ステレオ信号用で異なる特徴パラメータセットを抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された前記モノラル信号用または前記ステレオ信号用の特徴パラメータセットに応じた異なる判別式を用いて、前記入力オーディオ信号が音声信号または音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する信号種別判定手段と、
前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出するレベル算出手段と、
前記レベル算出手段で算出された前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す音質補正手段と、
を具備するオーディオ信号補正装置。 Discrimination means for discriminating whether the input audio signal is a monaural signal or a stereo signal based on channel information;
A feature parameter set including a plurality of feature amount parameters for discriminating the input audio signal into either an audio signal or a music signal, and is different for the monaural signal or the stereo signal discriminated by the discriminating means Feature extraction means for extracting a feature parameter set;
Audio music indicating whether the input audio signal is close to an audio signal or a music signal using different discriminants according to the feature parameter set for the monaural signal or the stereo signal extracted by the feature extraction means A signal type determining means for calculating an identification score;
Level calculation means for calculating the audio level of the input audio signal and the output level of the music level using the audio music identification score;
Sound quality correction means for performing sound quality correction processing on the input audio signal based on the output level calculated by the level calculation means;
An audio signal correction apparatus comprising:
前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを含む特徴パラメータセットであって、判別された前記モノラル信号用または前記ステレオ信号用で異なる特徴パラメータセットを抽出し、
前記モノラル信号用または前記ステレオ信号用の特徴パラメータセットに応じた異なる判別式を用いて、前記入力オーディオ信号が音声信号または音楽信号のいずれに近いかを示す音声音楽識別スコアを算出し、
前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出し、
前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す、
オーディオ信号補正方法。 Based on the channel information, the input audio signal is identified as either a monaural signal or a stereo signal,
A feature parameter set including a plurality of feature amount parameters for discriminating the input audio signal into either an audio signal or a music signal, wherein different feature parameter sets are used for the determined monaural signal or the stereo signal. Extract and
Using a different discriminant according to the feature parameter set for the monaural signal or the stereo signal, calculate a speech music identification score indicating whether the input audio signal is close to a speech signal or a music signal;
Calculating the audio level of the input audio signal and the output level of the music level using the audio music identification score;
Based on the output level, a sound quality correction process is performed on the input audio signal.
Audio signal correction method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011132362A JP4886907B2 (en) | 2011-06-14 | 2011-06-14 | Audio signal correction apparatus and audio signal correction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011132362A JP4886907B2 (en) | 2011-06-14 | 2011-06-14 | Audio signal correction apparatus and audio signal correction method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009217941A Division JP2011065093A (en) | 2009-09-18 | 2009-09-18 | Device and method for correcting audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011203753A JP2011203753A (en) | 2011-10-13 |
JP4886907B2 true JP4886907B2 (en) | 2012-02-29 |
Family
ID=44880382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011132362A Expired - Fee Related JP4886907B2 (en) | 2011-06-14 | 2011-06-14 | Audio signal correction apparatus and audio signal correction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4886907B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112447182A (en) * | 2020-10-20 | 2021-03-05 | 开放智能机器(上海)有限公司 | Automatic sound modification system and sound modification method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04284725A (en) * | 1991-03-14 | 1992-10-09 | Pioneer Electron Corp | Rds receiver |
JPH06177686A (en) * | 1992-12-08 | 1994-06-24 | Matsushita Electric Ind Co Ltd | Sound reproduction device |
JPH10174018A (en) * | 1996-12-06 | 1998-06-26 | Fujitsu General Ltd | Surround mode changeover device |
JP4587916B2 (en) * | 2005-09-08 | 2010-11-24 | シャープ株式会社 | Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium |
-
2011
- 2011-06-14 JP JP2011132362A patent/JP4886907B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011203753A (en) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011065093A (en) | Device and method for correcting audio signal | |
US7864967B2 (en) | Sound quality correction apparatus, sound quality correction method and program for sound quality correction | |
US9865279B2 (en) | Method and electronic device | |
JP4621792B2 (en) | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM | |
JP5267115B2 (en) | Signal processing apparatus, processing method thereof, and program | |
JP4336364B2 (en) | Television receiver | |
US9002021B2 (en) | Audio controlling apparatus, audio correction apparatus, and audio correction method | |
JP4327886B1 (en) | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM | |
JP4837123B1 (en) | SOUND QUALITY CONTROL DEVICE AND SOUND QUALITY CONTROL METHOD | |
JP4364288B1 (en) | Speech music determination apparatus, speech music determination method, and speech music determination program | |
EP2194733B1 (en) | Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus. | |
US8099276B2 (en) | Sound quality control device and sound quality control method | |
JP5737808B2 (en) | Sound processing apparatus and program thereof | |
JP4937393B2 (en) | Sound quality correction apparatus and sound correction method | |
JP4869420B2 (en) | Sound information determination apparatus and sound information determination method | |
US9042562B2 (en) | Audio controlling apparatus, audio correction apparatus, and audio correction method | |
JP4886907B2 (en) | Audio signal correction apparatus and audio signal correction method | |
JP2013164518A (en) | Sound signal compensation device, sound signal compensation method and sound signal compensation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20110630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111209 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |