JP6998823B2 - Multi-channel objective evaluation device and program - Google Patents
Multi-channel objective evaluation device and program Download PDFInfo
- Publication number
- JP6998823B2 JP6998823B2 JP2018078019A JP2018078019A JP6998823B2 JP 6998823 B2 JP6998823 B2 JP 6998823B2 JP 2018078019 A JP2018078019 A JP 2018078019A JP 2018078019 A JP2018078019 A JP 2018078019A JP 6998823 B2 JP6998823 B2 JP 6998823B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- signal
- objective evaluation
- convolution
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Stereophonic System (AREA)
Description
本発明は、2チャンネルを超えるマルチチャンネル音響システムに用いるマルチチャンネル音響信号の品質を客観評価するマルチチャンネル客観評価装置及びプログラムに関する。 The present invention relates to a multi-channel objective evaluation device and a program for objectively evaluating the quality of a multi-channel acoustic signal used in a multi-channel acoustic system having more than two channels.
従来、マルチチャンネル音響システムにおいて、音響信号の品質を評価する方法が知られている。例えば、音響信号の品質を主観的に評価する方法として、マルチチャンネル音響システムを含む劣化の少ない音響システムの主観評価法がITU-R勧告BS.1116-3に定められている(例えば、非特許文献1を参照)。 Conventionally, in a multi-channel acoustic system, a method of evaluating the quality of an acoustic signal has been known. For example, as a method for subjectively evaluating the quality of an acoustic signal, a subjective evaluation method for an acoustic system with little deterioration including a multi-channel acoustic system is described in ITU-R Recommendation BS. It is defined in 1116-3 (see, for example, Non-Patent Document 1).
一方、ITU-R勧告BS.1116-3に則して行った主観評価に対応した音質を客観的に測定する客観評価法がITU-R勧告BS.1387-1に定められている(例えば、非特許文献2を参照)。このITU-R勧告BS.1387-1に定めた客観評価法は、PEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法と呼ばれている。 On the other hand, ITU-R Recommendation BS. The objective evaluation method for objectively measuring the sound quality corresponding to the subjective evaluation performed in accordance with 1116-3 is ITU-R Recommendation BS. 1387-1 (see, for example, Non-Patent Document 2). This ITU-R recommendation BS. The objective evaluation method defined in 1387-1 is called a PEAQ (Perceptual Evaluation of Audio Quality) objective sound quality measurement method.
PEAQ客観音質測定法は、音響信号の品質を客観的に測定するための標準化アルゴリズムにて実現され、人間の耳の知覚特性を反映した聴覚モデル、及びニューラルネットワーク構造を有する認識モデルを用いて、客観評価値を求めるものである。詳細については後述する。 The PEAQ objective sound quality measurement method is realized by a standardized algorithm for objectively measuring the quality of acoustic signals, and uses an auditory model that reflects the perceptual characteristics of the human ear and a recognition model that has a neural network structure. It seeks an objective evaluation value. Details will be described later.
一般に、信頼性の高い主観評価を行うには、多くの被験者、多大な時間及び労力を必要とするため、全ての音源に対して主観評価を行うのは現実的でない。このため、予め客観評価を行うことにより、主観評価に使用するパラメータを選定するようにしている。 In general, it is not realistic to perform a subjective evaluation on all sound sources because a large number of subjects, a large amount of time and effort are required to perform a highly reliable subjective evaluation. Therefore, the parameters used for the subjective evaluation are selected by performing the objective evaluation in advance.
しかしながら、前述のITU-R勧告BS.1387-1に定めた客観評価法は、1チャンネルまたは2チャンネルの音響システムに適用した方法である。このため、この客観評価法は、22.2ch(チャンネル)等の2チャンネルを超えるマルチチャンネル音響システム(例えば、非特許文献3を参照)に対して用いることができない。 However, the aforementioned ITU-R Recommendation BS. The objective evaluation method defined in 1387-1 is a method applied to a one-channel or two-channel acoustic system. Therefore, this objective evaluation method cannot be used for a multi-channel acoustic system (see, for example, Non-Patent Document 3) having more than two channels such as 22.2 ch (channel).
そこで、2チャンネルを超えるマルチチャンネル音響システムにおいて、マルチチャンネル音響信号の品質を客観的に評価する方法が提案されている(例えば、非特許文献4を参照)。この方法は、マルチチャンネル音響信号の原音及び劣化音に頭部インパルス応答HRIR(Head Related Impulse Response)をそれぞれ畳み込んで2チャンネル信号に変換し、客観評価を行うものである。 Therefore, a method for objectively evaluating the quality of a multi-channel acoustic signal in a multi-channel acoustic system having more than two channels has been proposed (see, for example, Non-Patent Document 4). In this method, the head related impulse response (HRIR) is convoluted with the original sound and the deteriorated sound of the multi-channel acoustic signal, respectively, and converted into a two-channel signal for objective evaluation.
しかしながら、前述の非特許文献4は、2チャンネルを超えるマルチチャンネル音響システムに用いるマルチチャンネル音響信号の品質を客観的に評価する場合に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法とは異なり、両耳間時間差、両耳間レベル差等も用いた認識モデルを用いている。また、非特許文献4により求められる客観評価結果は、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求められる主観評価結果を十分に反映した値ではない。このため、ITU-R(国際電気通信連合の無線通信部門)は、前述の非特許文献4の方法を用いて標準化を試みたが、承認されずに現在に至っている。
However, the above-mentioned Non-Patent
ところで、2チャンネルを超えるマルチチャンネル音響システムにおいて、符号化等により劣化した音響信号を主観評価する場合、人間は、全ての方向の音響信号を集中して聞き比べることが苦手である。このため、音響信号のチャンネル数が多い場合、主観評価値が上がる傾向がある。 By the way, in a multi-channel acoustic system having more than two channels, when subjectively evaluating an acoustic signal deteriorated by coding or the like, human beings are not good at concentrating and comparing acoustic signals in all directions. Therefore, when the number of channels of the acoustic signal is large, the subjective evaluation value tends to increase.
また、音像が動くコンテンツについても、人間は、全ての方向の音響信号を頭で記憶しながら集中して聞き比べることが苦手である。このため、チャンネル数が多い場合には、同様に主観評価値が上がる傾向がある。 Also, with regard to content in which the sound image moves, humans are not good at concentrating and comparing acoustic signals in all directions while memorizing them with their heads. Therefore, when the number of channels is large, the subjective evaluation value tends to increase as well.
マルチチャンネル音響信号は人間へ提示されるものであるから、客観評価値は、このような主観評価値の傾向が反映された値となることが望ましい。つまり、2チャンネルを超えるマルチチャンネル音響信号の品質を客観的に評価する方法は、主観評価値への影響を考慮した客観評価法であることが望ましい。 Since the multi-channel acoustic signal is presented to humans, it is desirable that the objective evaluation value is a value that reflects such a tendency of the subjective evaluation value. That is, it is desirable that the method for objectively evaluating the quality of a multi-channel acoustic signal having more than two channels is an objective evaluation method in consideration of the influence on the subjective evaluation value.
前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法は、主観評価値への影響を考慮した客観評価法であるが、2チャンネルの音響信号に適用する方法であり、2チャンネルを超えるマルチチャンネル音響信号に適用する方法ではない。
The above-mentioned ITU-R recommendation BS of Non-Patent
ここで、前述の非特許文献4の方法に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を組み込んだ新たな手法を想定することができる。この想定手法は、マルチチャンネル音響信号の原音及び劣化音に頭部インパルス応答HRIRをそれぞれ畳み込み、原音及び劣化音の畳み込み結果をそれぞれ加算して2チャンネル信号を生成し、この2チャンネル信号を用いて、PEAQ客観音質測定法により客観評価値を求めるものである。
Here, in addition to the method of the above-mentioned
この想定手法は、主観評価に対応した音質を客観的に測定するPEAQ客観音質測定法を用いるものであるが、後述する図10の実験結果に示すように、その客観評価結果は、主観評価結果に近い値にならない。 This assumption method uses the PEAQ objective sound quality measurement method for objectively measuring the sound quality corresponding to the subjective evaluation. As shown in the experimental result of FIG. 10 described later, the objective evaluation result is the subjective evaluation result. The value is not close to.
主観評価結果と客観評価結果が異なる要因として、加算された音響信号にはそれぞれのチャンネルの劣化も加算されているが、評価者がその全てに対してステレオ信号と同様の精度で評価することが難しいということが推察される。 As a factor that makes the subjective evaluation result different from the objective evaluation result, the deterioration of each channel is also added to the added acoustic signal, but the evaluator evaluates all of them with the same accuracy as the stereo signal. It is inferred that it is difficult.
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能なマルチチャンネル客観評価装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object thereof is a multi-channel capable of obtaining an objective evaluation result close to a subjective evaluation result with respect to the quality of a multi-channel acoustic signal having more than two channels. The purpose is to provide an objective evaluation device and a program.
前記課題を解決するために、請求項1のマルチチャンネル客観評価装置は、2チャンネルを超えるマルチチャンネル音響信号を客観評価するマルチチャンネル客観評価装置において、前記マルチチャンネル音響信号を構成するそれぞれの音響信号のチャンネルに対応して、チャンネル毎の伝搬特性を表す頭部インパルス応答(HRIR)またはバイノーラル室内インパルス応答(BRIR)を畳み込み信号として出力する畳み込み信号出力部と、前記マルチチャンネル音響信号の原音及び劣化音を入力すると共に、前記畳み込み信号出力部により出力されたチャンネル毎の前記畳み込み信号を入力し、チャンネル毎の前記原音に前記畳み込み信号を畳み込み、全てのチャンネルの畳み込み結果に基づいて、全てのチャンネルに共通の基本信号を生成すると共に、チャンネル毎に、当該チャンネルを含む1または複数のチャンネルの前記劣化音に前記畳み込み信号を畳み込み、第1の畳み込み結果を生成し、全てのチャンネルのうち前記1または複数のチャンネル以外のチャンネルの前記原音に前記畳み込み信号を畳み込み、第2の畳み込み結果を生成し、前記第1の畳み込み結果及び前記第2の畳み込み結果に基づいて被測定信号を生成し、チャンネル毎に、前記基本信号及び前記被測定信号からなるバイノーラル信号を生成する信号処理部と、前記信号処理部により生成されたチャンネル毎の前記バイノーラル信号を入力し、チャンネル毎に、当該チャンネルの前記バイノーラル信号に基づき、所定のPEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法を用いて、客観評価結果を生成する評価部と、前記評価部により生成されたチャンネル毎の前記客観評価結果に基づいて、前記マルチチャンネル音響信号の客観評価結果をマルチチャンネル客観評価結果として生成するマルチチャンネル評価部と、を備えたことを特徴とする。
In order to solve the above problems, the multi-channel objective evaluation device according to
また、請求項2のマルチチャンネル客観評価装置は、請求項1に記載のマルチチャンネル客観評価装置において、前記畳み込み信号出力部が、前記マルチチャンネル音響信号のチャンネルの数及び配置を定める音響方式の情報を入力し、予め設定されたデータベースから、前記音響方式に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、前記データベースには、前記音響方式のチャンネル、及び当該チャンネルに対応する前記畳み込み信号が格納されている、ことを特徴とする。
Further, in the multi-channel objective evaluation device according to
また、請求項3のマルチチャンネル客観評価装置は、請求項1に記載のマルチチャンネル客観評価装置において、前記畳み込み信号出力部が、前記マルチチャンネル音響信号を構成するそれぞれの音響信号についての再生位置を定めるチャンネル毎の角度の情報を入力し、予め設定されたデータベースから、チャンネル毎の前記角度に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、前記データベースには、前記角度、及び当該角度に対応する前記畳み込み信号が格納されている、ことを特徴とする。
Further, in the multi-channel objective evaluation device according to
また、請求項4のマルチチャンネル客観評価装置は、請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、前記マルチチャンネル評価部が、前記評価部により生成されたチャンネル毎の前記客観評価結果のうち最低値を検出し、当該最低値を前記マルチチャンネル客観評価結果として生成する、ことを特徴とする。
Further, the multi-channel objective evaluation device according to
また、請求項5のマルチチャンネル客観評価装置は、請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、前記マルチチャンネル評価部が、前記評価部により生成されたチャンネル毎の前記客観評価結果に対し、所定のチャンネル毎の重み付け係数をそれぞれ乗算し、チャンネル毎の乗算結果を加算し、加算結果を前記マルチチャンネル客観評価結果として生成する、ことを特徴とする。
Further, the multi-channel objective evaluation device according to claim 5 is the multi-channel objective evaluation device according to any one of
また、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載のマルチチャンネル客観評価装置として機能させることを特徴とする。
The program of claim 6 is characterized in that the computer functions as the multi-channel objective evaluation device according to any one of
以上のように、本発明によれば、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。 As described above, according to the present invention, it is possible to obtain an objective evaluation result close to a subjective evaluation result for the quality of a multi-channel acoustic signal having more than two channels.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔発明の概要〕
符号化等により劣化した音響信号(以下、「劣化音」という。)を主観評価する場合、人間は、個別の音源の音質劣化に着目して評価する傾向がある。また、マルチチャンネル音響システムにおいて、マルチチャンネル音響信号を再生する際の音源は、あるチャンネル(例えば正面方向のチャンネル、またはペアとなるチャンネル)について最も大きなレベルでミキシングされる。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
[Outline of the invention]
When subjectively evaluating an acoustic signal (hereinafter referred to as "deteriorated sound") deteriorated by coding or the like, human beings tend to pay attention to the deterioration of the sound quality of each sound source. Further, in a multi-channel acoustic system, a sound source for reproducing a multi-channel acoustic signal is mixed at the highest level for a certain channel (for example, a frontal channel or a paired channel).
このような状況を鑑み、本発明の実施形態のマルチチャンネル客観評価装置は、あるチャンネルの音質劣化の度合いを主観評価と近似させるために、所定のチャンネルのみを劣化音とし、その他のチャンネルを原音として扱う。そして、マルチチャンネル客観評価装置は、これらの劣化音及び原音を用いてバイノーラル信号を生成し、このバイノーラル信号を客観評価対象の入力信号とし、客観評価を行う。 In view of such a situation, in the multi-channel objective evaluation device of the embodiment of the present invention, in order to approximate the degree of sound quality deterioration of a certain channel to the subjective evaluation, only a predetermined channel is used as the deteriorated sound and the other channels are used as the original sound. Treat as. Then, the multi-channel objective evaluation device generates a binaural signal using these deteriorated sounds and original sounds, and uses this binaural signal as an input signal for objective evaluation to perform objective evaluation.
具体的には、マルチチャンネル客観評価装置は、2チャンネルを超えるマルチチャンネル音響信号を構成するそれぞれの音響信号の原音及び劣化音を入力する。そして、マルチチャンネル客観評価装置は、チャンネル毎に、例えば全ての原音及び当該チャンネルのみの劣化音を用いた畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号を生成する。 Specifically, the multi-channel objective evaluation device inputs the original sound and the deteriorated sound of each acoustic signal constituting the multi-channel acoustic signal having more than two channels. Then, the multi-channel objective evaluation device performs a convolution process for each channel using, for example, all the original sounds and the deteriorated sound of only the channel, and generates a binaural signal for each channel in consideration of the subjective evaluation.
マルチチャンネル客観評価装置は、バイノーラル信号を客観評価対象の入力信号として、チャンネル毎に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法により客観評価値を求める。そして、マルチチャンネル客観評価装置は、チャンネル毎の客観評価値に基づいて、マルチチャンネルの客観評価値を求める。
The multi-channel objective evaluation device uses a binoural signal as an input signal to be objectively evaluated, and uses the above-mentioned ITU-R recommendation BS of
これにより、客観評価対象のバイノーラル信号は、個別の音源の音質劣化に着目して生成される主観評価を考慮した信号であるから、バイノーラル信号の客観評価値から生成されるマルチチャンネルの客観評価値は、主観評価値に近い値となる。したがって、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。 As a result, since the binaural signal to be objectively evaluated is a signal considering the subjective evaluation generated by paying attention to the deterioration of the sound quality of each sound source, the multi-channel objective evaluation value generated from the objective evaluation value of the binaural signal. Is a value close to the subjective evaluation value. Therefore, it is possible to obtain an objective evaluation result close to the subjective evaluation result for the quality of the multi-channel acoustic signal having more than two channels.
〔マルチチャンネル客観評価装置〕
まず、本発明の実施形態によるマルチチャンネル客観評価装置の構成及び処理について説明する。図1は、本発明の実施形態によるマルチチャンネル客観評価装置の構成例を示すブロック図である。
[Multi-channel objective evaluation device]
First, the configuration and processing of the multi-channel objective evaluation device according to the embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration example of a multi-channel objective evaluation device according to an embodiment of the present invention.
このマルチチャンネル客観評価装置1は、2チャンネルを超えるマルチチャンネル音響信号を客観的に評価する装置であり、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を活用し、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求められる主観評価値に近いマルチチャンネルの客観評価値z(マルチチャンネル客観評価結果)を求める。マルチチャンネル客観評価装置1は、畳み込み信号出力部10、信号処理部11、PEAQ評価部12及びマルチチャンネル評価部13を備えている。
This multi-channel
マルチチャンネル客観評価装置1は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、再生位置情報Pを入力し、再生位置情報Pに基づいて、チャンネル毎の畳み込み信号を特定する。そして、マルチチャンネル客観評価装置1は、主観評価を考慮したチャンネル毎のバイノーラル信号を生成し、バイノーラル信号をPEAQ評価し、その結果に基づいて、主観評価を考慮したマルチチャンネルの客観評価値zを算出する。
The multi-channel
以下、マルチチャンネル音響信号の例として、音響方式が22.2chの場合の音響信号を挙げて具体的に説明する。22.2chのマルチチャンネル音響信号は、24チャンネルの音響信号により構成される。 Hereinafter, as an example of the multi-channel acoustic signal, an acoustic signal when the acoustic method is 22.2ch will be specifically described. The 22.2ch multi-channel acoustic signal is composed of 24 channels of acoustic signals.
再生位置情報Pは、マルチチャンネル音響システムにおけるそれぞれの音響信号の再生位置に関する情報であり、例えば、マルチチャンネル音響信号の音響方式の情報、または再生位置に関する角度の情報である。本例の場合、再生位置情報Pとして、22.2chの音響方式の情報が入力される。音響方式により、チャンネルの数及び配置が一義的に決定される。または、再生位置情報Pとして、22.2chのマルチチャンネル音響信号を構成するそれぞれの音響信号についての(それぞれのチャンネルについての)仰角及び方位角(水平面の角度及び垂直面の角度)からなる角度の情報が入力される。 The reproduction position information P is information regarding the reproduction position of each acoustic signal in the multi-channel acoustic system, and is, for example, information on the acoustic method of the multi-channel acoustic signal or information on an angle relating to the reproduction position. In the case of this example, 22.2ch acoustic method information is input as the reproduction position information P. The acoustic method uniquely determines the number and arrangement of channels. Alternatively, as the reproduction position information P, the angle consisting of the elevation angle (for each channel) and the azimuth angle (horizontal plane angle and vertical plane angle) for each acoustic signal constituting the 22.2ch multi-channel acoustic signal. Information is entered.
図2は、マルチチャンネル客観評価装置1の処理例を示すフローチャートである。マルチチャンネル客観評価装置1は、マルチチャンネル音響信号を構成するそれぞれの音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、再生位置情報Pを入力する(ステップS201)。マルチチャンネル客観評価装置1により、マルチチャンネル音響信号の原音x1~24を基準として劣化音x’1~24が客観的に評価される。
FIG. 2 is a flowchart showing a processing example of the multi-channel
マルチチャンネル客観評価装置1は、再生位置情報Pに基づき、チャンネル毎の畳み込み信号として、例えばチャンネル毎の伝搬特性を表す頭部インパルス応答HRIR1~24を特定する(ステップS202)。
The multi-channel
マルチチャンネル客観評価装置1は、チャンネル毎の原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて、主観評価を考慮した畳み込み処理を行い、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する(ステップS203)。
The multi-channel
マルチチャンネル客観評価装置1は、チャンネル毎に、当該チャンネルのバイノーラル信号y1_ori~24_ori,y1_sig~24_sigに基づいて、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法によるPEAQ評価を行う(ステップS204)。そして、マルチチャンネル客観評価装置1は、チャンネル毎の客観評価値z1~24を求める。
The multi-channel
マルチチャンネル客観評価装置1は、チャンネル毎の客観評価値z1~24に基づいて、マルチチャンネルの客観評価値zを算出して出力する(ステップS205)。
The multi-channel
(畳み込み信号出力部10)
図1を参照して、畳み込み信号出力部10は、予め設定されたデータベース(DB、図示せず)を備えている。畳み込み信号出力部10は、24チャンネルの音響信号の再生位置情報Pを入力し、DBから、再生位置情報Pに対応するチャンネル毎の畳み込み信号、例えばチャンネル毎の頭部インパルス応答HRIR1~24を読み出す。そして、畳み込み信号出力部10は、チャンネル毎の頭部インパルス応答HRIR1~24を信号処理部11に出力する。
(Convolution signal output unit 10)
With reference to FIG. 1, the convolution
図3は、畳み込み信号出力部10の処理例を示すフローチャートである。畳み込み信号出力部10は、再生位置情報Pを入力し(ステップS301)、再生位置情報Pに音響方式の情報が含まれるか、または角度の情報が含まれるかを判定する(ステップS302)。
FIG. 3 is a flowchart showing a processing example of the convolution
再生位置情報Pには、音響方式及び角度のうちいずれか一方の情報が含まれるものとする。22.2ch、11.1ch、7.1ch、5.1ch等のように、スピーカー配置が非特許文献3のように標準化された音響方式の場合、再生位置は固定であるため、プリセットを登録しておく。この場合、再生位置情報Pには、22.2ch等を識別するための音響方式の情報が含まれる。一方、固定の音響方式を用いない場合、再生位置情報Pには、チャンネル毎に再生位置を特定するための角度の情報が含まれる。
It is assumed that the reproduction position information P includes information on either one of the acoustic method and the angle. In the case of a standardized acoustic method such as 22.2ch, 11.1ch, 7.1ch, 5.1ch, etc., as in
畳み込み信号出力部10は、ステップS302において、再生位置情報Pに音響方式の情報が含まれると判定した場合(ステップS302:音響方式)、DBから、再生位置情報Pに含まれる音響方式に対応する頭部インパルス応答HRIR1~24を読み出す(ステップS303)。
When the convolution
一方、畳み込み信号出力部10は、ステップS302において、再生位置情報Pに角度の情報が含まれると判定した場合(ステップS302:角度)、DBから、再生位置情報Pに含まれる角度に対応する頭部インパルス応答HRIR1~24を読み出す(ステップS304)。
On the other hand, when the convolution
畳み込み信号出力部10は、ステップS303またはステップS304から移行して、チャンネル毎の頭部インパルス応答HRIR1~24を信号処理部11に出力する(ステップS305)。
The convolution
図4は、DBのデータ構成例を示す図である。このDBは、音響方式、チャンネル番号(ラベル)、仰角、方位角、及びこれらの情報に対応する畳み込み信号である頭部インパルス応答HRIR(スピーカー位置と人間の耳の位置との間の伝達関数に対応するインパルス応答)のデータから構成される。 FIG. 4 is a diagram showing an example of DB data configuration. This DB is a transfer function between the acoustic system, channel number (label), elevation angle, azimuth angle, and head impulse response HRIR (speaker position and human ear position), which is a convolution signal corresponding to these information. It consists of data from the corresponding impulse response).
音響方式は、22.2ch、11.1ch、7.1ch、5.1ch等であり、チャンネル番号は、音響方式の各音響信号に対応した番号である。仰角は、スピーカー位置と人間の耳の位置との間の線が水平面となす角度であり、方位角は、スピーカー位置と人間の耳の位置との間の線が垂直面となす角度である。一般的に正面方向を仰角0度、方位角0度とする。 The acoustic system is 22.2ch, 11.1ch, 7.1ch, 5.1ch, etc., and the channel number is a number corresponding to each acoustic signal of the acoustic system. The elevation angle is the angle formed by the line between the speaker position and the position of the human ear with the horizontal plane, and the azimuth angle is the angle formed by the line between the speaker position and the position of the human ear with the vertical plane. Generally, the front direction is an elevation angle of 0 degrees and an azimuth angle of 0 degrees.
図4に示すDBには、音響方式が22.2chの場合において、チャンネル番号3(ラベルがFC(フロントセンター))、仰角0°、方位角0°、及びこれらの情報に対応する頭部インパルス応答HRIR3等が格納されている。また、DBには、22.2ch以外の5.1ch等の音響方式のデータも格納されており、音響方式が5.1chの場合において、チャンネル番号3(ラベルがC(センター))、仰角0°、方位角0°、及びこれらの情報に対応する頭部インパルス応答HRIR3等が格納されている。
In the DB shown in FIG. 4, when the acoustic method is 22.2ch, the channel number 3 (label is FC (front center)), the
畳み込み信号出力部10は、22.2chの音響方式の情報を含む再生位置情報Pを入力した場合、ステップS303において、22.2chの音響方式をキーとして図4のDBを検索する。そして、畳み込み信号出力部10は、DBから、22.2chの音響方式のチャンネル番号1~24に対応する頭部インパルス応答HRIR1~24をそれぞれ読み出す。
When the reproduction position information P including the information of the acoustic method of 22.2ch is input, the convolution
これにより、畳み込み信号出力部10は、22.2chの音響方式に対応するチャンネル毎の頭部インパルス応答HRIR1~24を、各チャンネルの角度を意識することなく特定することができる。この場合のDBには、音響方式、チャンネル番号(ラベル)、及びこれらの情報に対応する頭部インパルス応答HRIRが格納されていればよい。
Thereby, the convolution
また、畳み込み信号出力部10は、チャンネル毎の仰角及び方位角の情報を含む再生位置情報Pを入力した場合、ステップS304において、チャンネル毎の仰角及び方位角をキーとして図4のDBを検索する。そして、畳み込み信号出力部10は、DBから、チャンネル毎の仰角及び方位角に対応する頭部インパルス応答HRIR1~24をそれぞれ読み出す。
Further, when the convolution
これにより、畳み込み信号出力部10は、スピーカー配置がプリセットされていない、2以上のスピーカーが任意に配置されたマルチチャンネルシステムについて、チャンネル毎の角度に対応するチャンネル毎の頭部インパルス応答HRIR1~24を特定することができる。この場合のDBには、仰角、方位角、及びこれらの情報に対応する頭部インパルス応答HRIRが格納されていればよい。
As a result, the convolution
(信号処理部11)
図1に戻って、信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する。
(Signal processing unit 11)
Returning to FIG. 1, the
信号処理部11は、原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。具体的には、信号処理部11は、チャンネル毎に、例えば全ての原音x1~24、当該チャンネルを含む所定のチャンネルのみの劣化音x’(当該チャンネルのみの1つの劣化音x’、または当該チャンネルを含む複数チャンネルの劣化音x’)、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行う。信号処理部11は、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigをPEAQ評価部12に出力する。
The
ここで、マルチチャンネル音響信号のチャンネル数をM(本例ではM=24)とすると、チャンネル毎の(M個の)バイノーラル信号y1_ori~M_oriまたはy1_sig~M_sigを生成する際に、チャンネル毎にチャンネル数N(<M)の劣化音x’または原音xが用いられる。Mは2より大きい正の整数であり、劣化音x’または原音xのチャンネル数Nは、1以上かつマルチチャンネル音響信号のチャンネル数Mよりも小さい整数である(1≦N<M)。 Here, assuming that the number of channels of the multi-channel acoustic signal is M (M = 24 in this example), each channel (M) binaural signals y 1_ori to M_ori or y 1_sig to M_sig for each channel is generated. The deteriorated sound x'or the original sound x having the number of channels N (<M) is used. M is a positive integer larger than 2, and the number of channels N of the deteriorated sound x'or the original sound x is 1 or more and smaller than the number of channels M of the multi-channel acoustic signal (1 ≦ N <M).
劣化音x’または原音xのチャンネル数Nは、チャンネル番号k(k=1~M)のチャンネルのバイノーラル信号yk_ori,yk_sigを生成する際の、そのチャンネル(チャンネル番号kのチャンネル)を含む1または2以上のチャンネルの数である。チャンネル番号kのチャンネルに加え、そのチャンネルに対して隣接するチャンネルを含むようにしてもよいし、チャンネル間相関を算出し、正規化相関係数が大きいチャンネルから選択するようにしてもよい。ここで、チャンネル番号kの信号をf(t)、隣接するチャンネルの信号をg(t)とすると、正規化相関関数σfgは、以下の数式(1)にて算出される。σf,σgは信号f(t),g(t)の標準偏差である。
バイノーラル信号y1_ori~24_ori,y1_sig~24_sigは、原音x1~24に対応する基本信号y1_ori~24_ori、及び劣化音x’1~24に対応する被測定信号y1_sig~24_sigにより構成される。基本信号y1_ori~24_ori及び被測定信号y1_sig~24_sigは、信号処理部11により、後述する図5または図6に示す処理例にて生成される。
The binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig are composed of the basic signals y 1_ori to 24_ori corresponding to the original sounds x 1 to 24 and the measured signals y 1_sig to 24_sig corresponding to the deteriorated sounds x ' 1 to 24 . .. The basic signals y 1_ori to 24_ori and the measured signals y 1_sig to 24_sig are generated by the
図5は、信号処理部11の第1処理例を示すフローチャートである。この第1処理例は、チャンネル毎に、全ての原音x1~24、当該チャンネルのみの劣化音x’、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y_ori,y1_sig~24_sigを生成する例である。マルチチャンネル音響信号のチャンネル数M=24、劣化音x’のチャンネル数N=1とする。
FIG. 5 is a flowchart showing a first processing example of the
信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する(ステップS501)。
The
信号処理部11は、全ての原音x1~24及び頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、共通の基本信号y_oriを生成する(ステップS502)。
The
具体的には、信号処理部11は、以下の数式(2)に示すように、チャンネル毎の原音x1~24にチャンネル毎の頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、加算結果を、共通の基本信号y_oriとして生成する。
ここで、チャンネル番号kの基本信号をyk_ori、チャンネル番号iの原音をxi、チャンネル番号iの頭部インパルス応答をHRIRiとすると、基本信号yk_oriは、y_oriと同じになる。k,iは、それぞれ1から24までの整数であり、*は畳み込み演算を示す。 Here, if the basic signal of the channel number k is y k_ori , the original sound of the channel number i is x i , and the head impulse response of the channel number i is HRIR i , the basic signal y k_ori is the same as y _ori . k and i are integers from 1 to 24, respectively, and * indicates a convolution operation.
信号処理部11は、チャンネル毎に、チャンネル数23(=M-N=24-1)の原音x及びチャンネル数1(=N)の劣化音x’、並びに全てのチャンネルの頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、チャンネル毎の被測定信号y1_sig~24_sigを生成する(ステップS503)。
The
具体的には、信号処理部11は、チャンネル毎に、当該チャンネル(チャンネル番号kとする。)以外のチャンネル数23の原音xに頭部インパルス応答HRIRをそれぞれ畳み込み、チャンネル数23の畳み込み結果を加算し、チャンネル数23の原音xの加算結果を得る。そして、信号処理部11は、当該チャンネルにおけるチャンネル数1の劣化音x’に頭部インパルス応答HRIRを畳み込み、チャンネル数1の劣化音x’の畳み込み結果を得る。
Specifically, the
信号処理部11は、チャンネル数23の原音xの加算結果に、チャンネル数1(チャンネル番号kとする。)の劣化音x’の畳み込み結果を加算し、当該加算結果を、当該チャンネルの被測定信号yk_sigとし、チャンネル毎の被測定信号y1_sig~24_sigを生成する。
The
尚、信号処理部11は、原音x1~24に頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、当該チャンネルの原音xに頭部インパルス応答HRIRを畳み込み、前者の加算結果から後者の畳み込み結果を減算することで、チャンネル数23の原音xの加算結果を得るようにしてもよい。そして、信号処理部11は、チャンネル数23の原音xの加算結果に、チャンネル数1の劣化音x’の畳み込み結果を加算し、チャンネル毎の被測定信号y1_sig~24_sigを生成する。これは、後述する数式(3)の演算に相当する。
The
ここで、チャンネル番号kの被測定信号をyk_sig、チャンネル番号i,kの原音をそれぞれxi,xk、チャンネル番号i,kの頭部インパルス応答をそれぞれHRIRi,HRIRk、チャンネル番号kの劣化音をx’kとすると、被測定信号yk_sigは、以下の数式にて表される。
尚、前記数式(3)は、劣化音x’のチャンネル数N=1の式であり、人間が1つのチャンネルに注目して主観評価することを想定したものである。しかし、実際は、音源の種類によっては人間が2以上のチャンネルに着目して主観評価することもあり得る。この場合、劣化音x’のチャンネル数N>1としたときの被測定信号yk_sigが算出される。劣化音x’のチャンネル数N>1の場合、前記数式(3)の右辺の第2項は、チャンネル数N分の原音xについて畳み込み演算が行われ、それぞれの演算結果が減算される。また、前記数式(3)の右辺の第3項は、チャンネル数N分の劣化音x’について畳み込み演算が行われ、それぞれの演算結果が加算される。 The formula (3) is a formula in which the number of channels N = 1 of the deteriorated sound x'is assumed to be subjectively evaluated by a human being paying attention to one channel. However, in reality, depending on the type of sound source, a human may focus on two or more channels for subjective evaluation. In this case, the measured signal y k_sig is calculated when the number of channels N> 1 of the deteriorated sound x'. When the number of channels N> 1 of the deteriorated sound x', the second term on the right side of the equation (3) is convolved with respect to the original sound x for the number of channels N, and the respective calculation results are subtracted. Further, in the third term on the right side of the mathematical formula (3), a convolution calculation is performed on the deteriorated sound x'for the number of channels N, and the respective calculation results are added.
信号処理部11は、ステップS502にて生成した基本信号y_ori、及びステップS503にて生成した被測定信号y1_sig~24_sigをPEAQ評価部12に出力する(ステップS504)。
The
このように、基本信号y_oriは、全てのチャンネルの原音x1~24を用いた畳み込み処理にて生成される。また、被測定信号y1_sig~24_sigは、チャンネル毎に、当該チャンネル以外のチャンネル数23の原音x、及び当該チャンネルのチャンネル数1の劣化音x’を用いた畳み込み処理にて生成される。
In this way, the basic signal y _ori is generated by the convolution process using the original sounds x 1 to 24 of all channels. Further, the measured signals y 1_sig to 24_sig are generated for each channel by a convolution process using the original sound x of 23 channels other than the channel and the deteriorated
つまり、所定チャンネル(チャンネル番号kのチャンネル)のバイノーラル信号yk_ori,yk_sigは、全てのチャンネルの原音x1~24に基づいた基本信号y_oriと、全てのチャンネルの劣化音x’1~24のうち当該チャンネルの劣化音x’kに基づいた被測定信号yk_sigとにより構成される。このため、被測定信号y1_sig~24_sigは、マルチチャンネル音響において、個別の音源の音質劣化に着目して評価する主観評価を考慮したバイノーラル信号となる。 That is, the binoral signals y k_ori and y k_sig of the predetermined channel (channel number k) are the basic signal y _ori based on the original sound x 1 to 24 of all channels and the deteriorated sound x ' 1 to 24 of all channels. Of these, it is composed of the measured signal y k_sig based on the deteriorated sound x'k of the channel. Therefore, the measured signals y 1_sig to 24_sig are binaural signals in consideration of subjective evaluation that focuses on the deterioration of sound quality of individual sound sources in multi-channel acoustics.
図6は、信号処理部11の第2処理例を示すフローチャートである。この第2処理例は、チャンネル毎に、全ての劣化音x’1~24、当該チャンネルのみの原音x、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y1_ori~24_ori,y_sigを生成する例である。マルチチャンネル音響信号のチャンネル数M=24、劣化音x’のチャンネル数N=1とする。
FIG. 6 is a flowchart showing a second processing example of the
信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する(ステップS601)。
The
信号処理部11は、全ての劣化音x’1~24及び頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、共通の被測定信号y_sigを生成する(ステップS602)。
The
具体的には、信号処理部11は、以下の数式(4)に示すように、チャンネル毎の劣化音x’1~24にチャンネル毎の頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、加算結果を、共通の被測定信号y_sigとして生成する。
ここで、チャンネル番号kの被測定信号をyk_sig、チャンネル番号iの劣化音をx’i、チャンネル番号iの頭部インパルス応答をHRIRiとすると、被測定信号をyk_sigは、y_sigと同じになる。 Here, assuming that the measured signal of channel number k is y k_sig , the degraded sound of channel number i is x'i, and the head impulse response of channel number i is HRIR i , the measured signal is y k_sig and y _sig . Will be the same.
信号処理部11は、チャンネル毎に、チャンネル数23の劣化音x’及びチャンネル数1の原音x、並びに全てのチャンネルの頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、チャンネル毎の基本信号y1_ori~24_oriを生成する(ステップS603)。
The
具体的には、信号処理部11は、チャンネル毎に、当該チャンネル以外のチャンネル数23の劣化音x’に頭部インパルス応答HRIRをそれぞれ畳み込み、チャンネル数23の畳み込み結果を加算し、チャンネル数23の劣化音x’の加算結果を得る。そして、信号処理部11は、当該チャンネルにおけるチャンネル数1の原音xに頭部インパルス応答HRIRを畳み込み、チャンネル数1の原音xの畳み込み結果を得る。
Specifically, the
信号処理部11は、チャンネル数23の劣化音x’の加算結果に、チャンネル数1(チャンネル番号kとする。)の原音xの畳み込み結果を加算し、当該加算結果を、当該チャンネルの基本信号yk_oriとし、チャンネル毎の基本信号y1_ori~24_oriを生成する。
The
尚、信号処理部11は、劣化音x’1~24に頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、当該チャンネルの劣化音x’に頭部インパルス応答HRIRを畳み込み、前者の加算結果から後者の畳み込み結果を減算することで、チャンネル数23の劣化音x’の加算結果を得るようにしてもよい。そして、信号処理部11は、チャンネル数23の劣化音x’の加算結果に、チャンネル数1の原音xの畳み込み結果を加算し、チャンネル毎の基本信号y1_ori~24_oriを生成する。これは、後述する数式(5)の演算に相当する。
The
ここで、チャンネル番号kの基本信号をyk_ori、チャンネル番号i,kの劣化音をそれぞれx’i,x’k、チャンネル番号i,kの頭部インパルス応答をそれぞれHRIRi,HRIRk、チャンネル番号kの原音をxkとすると、基本信号をyk_oriは、以下の数式にて表される。
尚、劣化音のチャンネル数N>1の場合、前記数式(5)の右辺の第2項は、チャンネル数N分の劣化音x’について畳み込み演算が行われ、それぞれの演算結果が減算される。また、前記数式(5)の右辺の第3項は、チャンネル数N分の原音xについて畳み込み演算が行われ、それぞれの演算結果が加算される。 When the number of channels of the deteriorated sound N> 1, the second term on the right side of the formula (5) is subjected to a convolution calculation for the deteriorated sound x'for the number of channels N, and the respective calculation results are subtracted. .. Further, in the third term on the right side of the mathematical formula (5), a convolution operation is performed on the original sound x for the number of channels N, and the respective calculation results are added.
信号処理部11は、ステップS602にて生成した被測定信号y_sig、及びステップS603にて生成した基本信号y1_ori~24_oriをPEAQ評価部12に出力する(ステップS604)。
The
このように、被測定信号y_sigは、全てのチャンネルの劣化音x’1~24を用いた畳み込み処理にて生成される。また、基本信号y1_ori~24_oriは、チャンネル毎に、当該チャンネル以外のチャンネル数23の劣化音x’、及び当該チャンネルのチャンネル数1の原音xを用いた畳み込み処理にて生成される。
In this way, the measured signal y _sig is generated by the convolution process using the deteriorated sounds x ' 1 to 24 of all channels. Further, the basic signals y 1_ori to 24_ori are generated for each channel by a convolution process using the deteriorated sound x'of the number of channels 23 other than the channel and the original sound x of the
つまり、所定チャンネル(チャンネル番号kのチャンネル)のバイノーラル信号yk_ori,yk_sigは、全てのチャンネルの劣化音x’1~24に基づいた被測定信号y_sigと、全てのチャンネルの原音x1~24のうち当該チャンネルの原音xkに基づいた基本信号yk_oriとにより構成される。この場合、基本信号yk_oriが基本の信号となり、被測定信号y_sigが、所定チャンネルの音源の音質劣化が反映された信号となる。このため、基本信号y1_ori~24_oriは、個別の音源の音質劣化に着目して評価する主観評価を考慮したバイノーラル信号となる。 That is, the binoral signals y k_ori and y k_sig of the predetermined channel (channel number k) are the measured signal y _sig based on the deteriorated sound x ' 1 to 24 of all channels and the original sound x 1 to all channels. Of the 24 , it is composed of the basic signal y k_ori based on the original sound x k of the channel. In this case, the basic signal y k_ori becomes the basic signal, and the measured signal y _sig becomes a signal reflecting the deterioration of the sound quality of the sound source of the predetermined channel. Therefore, the basic signals y 1_ori to 24_ori are binaural signals in consideration of subjective evaluation that focuses on the deterioration of sound quality of individual sound sources.
尚、図5及び図6は、劣化音x’のチャンネル数N=1の例であるが、N>1の場合も同様に適用できる。N>1の場合、信号処理部11は、チャンネル番号kのチャンネルの基本信号yk_oriを生成する際に、チャンネル数N>1の原音xを選択する必要がある。
Note that FIGS. 5 and 6 are examples of the number of channels N = 1 of the deteriorated sound x', but the same can be applied when N> 1. When N> 1, the
信号処理部11は、チャンネル番号kのチャンネルについて、例えば、当該チャンネルの原音xkに加え、当該チャンネルに隣接する所定数のチャンネルの原音xを選択する。所定数は1以上の整数である。
For the channel of channel number k, the
具体的には、チャンネル番号kのチャンネルに隣接するチャンネルが複数の場合、信号処理部11は、チャンネル番号kのチャンネルとこれに隣接するチャンネルとの間の正規化相関係数ρfg(前記数式(1))を、隣接する複数のチャンネルのそれぞれについて算出する。信号処理部11は、隣接する複数のチャンネルを、正規化相関係数ρfgが大きい順に並べる。信号処理部11は、チャンネル番号kのチャンネルの原音xkに加え、正規化相関係数ρfgの大きい所定数のチャンネルの原音xを選択する。チャンネル番号kのチャンネルに隣接する複数のチャンネルは、再生位置情報Pから予め設定されるものとする。
Specifically, when there are a plurality of channels adjacent to the channel of channel number k, the
この場合、信号処理部11は、チャンネル番号kのチャンネルに隣接しないチャンネルの原音xを選択するようにしてもよい。具体的には、信号処理部11は、隣接する複数のチャンネル以外のチャンネル(隣接しないチャンネル)について、チャンネル番号kのチャンネルと隣接しないチャンネルとの間の正規化相関係数ρfgを算出する。そして、信号処理部11は、その正規化相関係数ρfgが隣接するチャンネルよりも大きい場合、隣接するチャンネルに代えて、隣接しないチャンネルの原音xを選択する。
In this case, the
(PEAQ評価部12)
図1に戻って、PEAQ評価部12は、信号処理部11からチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを入力する。そして、PEAQ評価部12は、チャンネル毎に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法であるPEAQ客観音質測定法により客観評価値z1~24を求める。PEAQ評価部12は、チャンネル毎の客観評価値z1~24をマルチチャンネル評価部13に出力する。
(PEAQ evaluation unit 12)
Returning to FIG. 1, the
PEAQ評価部12は、PEAQ評価手段20-1、PEAQ評価手段20-2、・・・及びPEAQ評価手段20-24を備えている。PEAQ評価手段20-kは、信号処理部11からチャンネル番号kのバイノーラル信号yk_ori,yk_sigを入力し、PEAQ客観音質測定法のアルゴリズムを用いて客観評価値zkを求め、客観評価値zkをマルチチャンネル評価部13に出力する。kは、前述のとおり1から24までの整数である。
The
具体的には、PEAQ評価手段20-kは、基本信号yk_ori及び被測定信号yk_sigから構成されるバイノーラル信号yk_ori,yk_sigを入力する。そして、PEAQ評価手段20-kは、人間の耳の知覚特性を反映した聴覚モデルを用いて、基本信号yk_oriについての聴覚モデル出力信号、及び被測定信号yk_sigについての聴覚モデル出力信号を生成する。 Specifically, the PEAQ evaluation means 20-k inputs binaural signals y k_ori and y k_sig composed of the basic signal y k_ori and the measured signal y k_sig . Then, the PEAQ evaluation means 20-k generates an auditory model output signal for the basic signal y k_ori and an auditory model output signal for the measured signal y k_sig using an auditory model that reflects the perceptual characteristics of the human ear. do.
この聴覚モデルは、外耳、中耳及び内耳の各機能を模擬したアルゴルズムにより、入力信号にFFT(Fast Fourier Transform:高速フーリエ変換)を施して周波数成分の信号を生成し、周波数成分の信号を、内耳の機能を反映したグループに分類し、周波数成分の信号に血流等の生理的雑音を加算し、周波数軸上及び時間軸上の広がりを考慮して神経興奮パターンを計算することにより、聴覚モデル出力信号を生成する。 In this auditory model, the input signal is subjected to FFT (Fast Fourier Transform) by the algorithm that simulates the functions of the outer ear, middle ear, and inner ear to generate a frequency component signal, and the frequency component signal is generated. Hearing by classifying into groups that reflect the function of the inner ear, adding physiological noise such as blood flow to the signal of the frequency component, and calculating the nerve excitement pattern in consideration of the spread on the frequency axis and the time axis. Generate a model output signal.
PEAQ評価手段20-kは、基本信号yk_ori及び被測定信号yk_sigについてのそれぞれの聴覚モデル出力信号に基づいて、聴覚歪み特性を計算し、音響的な信号劣化の程度を表すモデル出力値を求める。そして、PEAQ評価手段20-kは、ニューラルネットワーク構造を有する認識モデルを用いて、モデル出力値に基づき客観評価値zkを求める。 The PEAQ evaluation means 20-k calculates the auditory distortion characteristics based on the respective auditory model output signals for the basic signal y k_ori and the measured signal y k_sig , and calculates the model output value indicating the degree of acoustic signal deterioration. Ask. Then, the PEAQ evaluation means 20- k obtains an objective evaluation value zk based on the model output value by using a recognition model having a neural network structure.
尚、PEAQ客観音質測定法のアルゴリズムを用いて客観評価値zkを求める方法は既知であり、詳細については、例えば前述の非特許文献2または以下の文献を参照されたい。
渡辺馨、“オーディオ信号の劣化の評価法”、日本音響学会誌、63巻11号(2007)、pp.686-692
A method of obtaining an objective evaluation value z k using an algorithm of the PEAQ objective sound quality measurement method is known, and for details, refer to, for example, the above-mentioned
Kaoru Watanabe, "Evaluation Method for Deterioration of Audio Signals", Journal of Acoustical Society of Japan, Vol. 63, No. 11 (2007), pp.686-692
(マルチチャンネル評価部13)
マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し、客観評価値z1~24に基づいてマルチチャンネルの客観評価値zを求め、マルチチャンネルの客観評価値zを出力する。
(Multi-channel evaluation unit 13)
The
図7は、マルチチャンネル評価部13の第1処理例を示すフローチャートである。第1処理例は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24のうち、最低値zLをマルチチャンネルの客観評価値zとする例である。
FIG. 7 is a flowchart showing a first processing example of the
マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し(ステップS701)、チャンネル毎の客観評価値z1~24のうち、最低値zLを検出する(ステップS702)。
The
マルチチャンネル評価部13は、ステップS702にて検出した最低値zLをマルチチャンネルの客観評価値zに設定し(z=zL)、マルチチャンネルの客観評価値zを出力する(ステップS703)。
The
このように、マルチチャンネル評価部13は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24のうち、最低値zLをマルチチャンネルの客観評価値zとして出力するようにした。これにより、人間がマルチチャンネル音響において特定のチャンネルに着目したときの最も評価の低いチャンネルについて、当該チャンネルの客観評価値が、マルチチャンネルの客観評価値zとして出力される。つまり、マルチチャンネルの客観評価値zは、個別の音源の音質劣化に着目して評価される主観評価値に近い値となる。
In this way, the
図8は、マルチチャンネル評価部13の第2処理例を示すフローチャートである。第2処理例は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に重み付け係数W1~24を乗算し、全てのチャンネルの乗算結果を加算することでマルチチャンネルの客観評価値zを求める例である。
FIG. 8 is a flowchart showing a second processing example of the
マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し(ステップS801)、チャンネル毎の客観評価値z1~24に、所定の重み付け係数W1~24をそれぞれ乗算し、チャンネル毎の乗算結果を求める(ステップS802)。重み付け係数W1~24の合計値は1である。
The
マルチチャンネル評価部13は、ステップS802にて求めた全てのチャンネルの乗算結果を加算し(ステップS803)、加算結果をマルチチャンネルの客観評価値zに設定し、マルチチャンネルの客観評価値zを出力する(ステップS804)。
The
ここで、図8に示した第2処理例は、以下の数式にて表される。
所定の重み付け係数W1~24としては、チャンネル毎に、客観評価値z1~24が大きいほど(劣化が小さいほど)小さい値が用いられ、客観評価値z1~24が小さいほど(劣化が大きいほど)大きい値が用いられる。所定の重み付け係数W1~24は、ユーザにより予め設定されるようにしてもよいし、所定の処理により自動的に設定されるようにしてもよい。
As the predetermined weighting coefficients W 1 to 24 , a smaller value is used as the objective evaluation value z 1 to 24 is larger (the smaller the deterioration is), and the smaller the objective
以下、所定の処理にて重み付け係数W1~24を設定する例について説明する。図9は、マルチチャンネル評価部13による重み付け係数W1~24の設定処理例を示すフローチャートである。マルチチャンネル評価部13は、チャンネル番号i(i=1~24)を順番に設定し(ステップS901)、客観評価値ziが所定値よりも大きいか否かを判定する(ステップS902)。
Hereinafter, an example of setting the weighting coefficients W1 to 24 in a predetermined process will be described. FIG. 9 is a flowchart showing an example of setting processing of the weighting coefficients W1 to 24 by the
PEAQ評価部12により求めた客観評価値ziにおいて、0が「劣化音を検知できない」、-1が「劣化音を検知できるが気にならない」、-2が「劣化音がやや気になる」、-3が「劣化音が気になる」、-4が「劣化音が非常に気になる」を示す場合、ステップS902にて用いる所定値は、例えば-1である。
In the objective evaluation value z i obtained by the
マルチチャンネル評価部13は、ステップS902において、客観評価値ziが所定値よりも大きいと判定した場合(ステップS902:Y)、チャンネル番号iのチャンネルの音響信号について、劣化が小さいと判断し、重み付け係数Wi=0に設定する(ステップS903)。
When the
一方、マルチチャンネル評価部13は、ステップS902において、客観評価値ziが所定値よりも大きくないと判定した場合(ステップS902:N)、当該音響信号のラウドネスレベルに基づいて、重み付け係数Wiを設定する(ステップS904)。
On the other hand, when the
具体的には、マルチチャンネル評価部13は、図1には図示しないラウドネス測定部から、チャンネル番号iのチャンネルの音響信号についてのラウドネスレベルを入力する。そして、マルチチャンネル評価部13は、ラウドネスレベルが所定値よりも大きくないと判断したチャンネルが複数ある場合、ラウドネスレベルが大きいほど重み付け係数Wiが大きくなり(1に近くなり)、ラウドネスレベルが小さいほど重み付け係数Wiが小さくなるように(0に近くなるように)、音響信号のラウドネスレベルに基づいた重み付け係数Wiを設定する。これにより、音響信号のラウドネスレベルに対応した重み付け係数Wiが得られる。尚、重み付け係数W1~24の合計値は、1であるとする。
Specifically, the
この場合、図示しないラウドネス測定部は、例えば以下の文献の手法を用いて、チャンネル毎にラウドネス(音の大きさ)を測定する。
Rec. ITU-R BS.1770-4,“Algorithms to measure audio programme loudness and true-peak audio level”
ラウドネス測定部は、複数あるチャンネル毎のラウドネスレベルをマルチチャンネル評価部13に出力する。マルチチャンネル評価部13では、チャンネル毎のラウドネスレベルに応じた重み付け係数Wiを設定する。
In this case, the loudness measuring unit (not shown) measures loudness (loudness) for each channel by using, for example, the method of the following literature.
Rec. ITU-R BS.1770-4, “Algorithms to measure audio programme loudness and true-peak audio level”
The loudness measuring unit outputs the loudness level for each of a plurality of channels to the
尚、マルチチャンネル評価部13は、チャンネルの正規化相関係数ρfgに対応した重み付け係数Wiを設定するようにしてもよい。具体的には、マルチチャンネル評価部13は、図1には図示しない相関係数算出部から、チャンネル番号iのチャンネルにおける正規化相関係数ρfgを入力する。マルチチャンネル評価部13は、正規化相関係数ρfgが大きいほど重み付け係数Wiが大きくなり(1に近くなり)、正規化相関係数ρfgが小さいほど重み付け係数Wiが小さくなるように(0に近くなるように)、重み付け係数Wiを設定する。これにより、チャンネルの正規化相関係数ρfgに対応した重み付け係数Wiが得られる。
The
この場合、図示しない相関係数算出部は、チャンネル番号iのチャンネルと当該チャンネル以外のチャンネルとの間の正規化相関係数ρfgを、前記数式(1)を用いてそれぞれ算出する。そして、相関係数算出部は、これを、チャンネル番号iのチャンネルにおける正規化相関係数ρfgとしてマルチチャンネル評価部13に出力する。
In this case, the correlation coefficient calculation unit (not shown) calculates the normalized correlation coefficient ρ fg between the channel of channel number i and the channel other than the channel, respectively, using the above formula (1). Then, the correlation coefficient calculation unit outputs this to the
また、マルチチャンネル評価部13は、チャンネル毎の客観評価値ziのうち最低値zLを検出し、その最低値zLを有するチャンネルに隣接する複数のチャンネルについて、客観評価値ziが所定値以下の場合、重み付け係数Wiの合計値が1を超えるように、重み付け係数Wiを設定するようにしてもよい。ただし、重み付け係数Wiの合計値は2を超えないものとする。また、PEAQ評価部12により求めた客観評価値ziが、前述のとおり0~-4で表される場合、客観評価値ziと比較される所定値は、例えば-1である。
Further, the
このように、マルチチャンネル評価部13は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に所定の重み付け係数W1~24を乗算し、全ての乗算結果を加算することで、マルチチャンネルの客観評価値zを生成して出力するようにした。これにより、人間が特定のチャンネルに着目したときのPEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に対し、その着目度合いに応じた重み付け係数W1~24が用いられることで、チャンネル毎に異なる着目度合いが反映されたマルチチャンネルの客観評価値zが生成され出力される。つまり、マルチチャンネルの客観評価値zは、個別の音源の音質劣化に着目して評価される主観評価値に近い値となる。
In this way, the
〔実験結果〕
次に、コンピュータシミュレーションによる実験結果について説明する。この実験結果は、マルチチャンネル客観評価装置1により出力されたマルチチャンネルの客観評価値zが、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価値に近いことを示すものである。
〔Experimental result〕
Next, the experimental results by computer simulation will be described. In this experimental result, the multi-channel objective evaluation value z output by the multi-channel
図10は、実験結果を示す図であり、実際に収音した22.2chのマルチチャンネル音響信号の環境音を評価した結果を示す。(a)は、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価結果を示し、(b)は、本発明の実施形態による客観評価結果(劣化音x’のチャンネル数N=1の場合)を示す。
FIG. 10 is a diagram showing the experimental results, and shows the results of evaluating the environmental sound of the 22.2ch multi-channel acoustic signal actually picked up. (A) is the above-mentioned ITU-R recommendation BS of
また、(c)は、前述の非特許文献4の方法に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を組み込んだ従来技術(前述の想定手法)による客観評価結果を示す。具体的には、(c)の客観評価結果は、前述のとおり、マルチチャンネル音響信号に頭部インパルス応答HRIRを畳み込んで2チャンネル信号を生成し、前述の非特許文献2の客観評価法により求めた結果である。
Further, (c) is based on the method of the above-mentioned
(a)(b)及び(c)の横軸は、音響信号のビットレート[kbit/s]を示す。ビットレートが高いほど圧縮率は低く、ビットレートが低いほど圧縮率は高い関係にある。(a)の縦軸は主観評価値(Diff Grade)を示し、(b)及び(c)の縦軸は客観評価値(Diff Grade)を示す。(b)の客観評価値は、図1に示したマルチチャンネル客観評価装置1のマルチチャンネル評価部13により出力されたマルチチャンネルの客観評価値zである。
(A) The horizontal axes of (b) and (c) indicate the bit rate [kbit / s] of the acoustic signal. The higher the bit rate, the lower the compression rate, and the lower the bit rate, the higher the compression rate. The vertical axis of (a) shows the subjective evaluation value (Diff Grade), and the vertical axis of (b) and (c) shows the objective evaluation value (Diff Grade). The objective evaluation value (b) is the multi-channel objective evaluation value z output by the
前述と同様に、主観評価値及び客観評価値の0は「劣化音を検知できない」、-1は「劣化音を検知できるが気にならない」、-2は「劣化音がやや気になる」、-3は「劣化音が気になる」、-4は「劣化音が非常に気になる」を示す。 Similar to the above, 0 of the subjective evaluation value and the objective evaluation value is "cannot detect the deteriorated sound", -1 is "the deterioration sound can be detected but does not bother me", and -2 is "the deteriorated sound is a little worrisome". , -3 indicates "I'm worried about the deteriorated sound", and -4 indicates "I'm very worried about the deteriorated sound".
(a)(b)及び(c)から、(b)に示す本発明の実施形態の客観評価結果は、(c)に示す従来技術の客観評価結果よりも、(a)に示す主観評価結果に近いことがわかる。 (A) From (b) and (c), the objective evaluation result of the embodiment of the present invention shown in (b) is the subjective evaluation result shown in (a) rather than the objective evaluation result of the prior art shown in (c). It turns out that it is close to.
このように、本発明の実施形態のマルチチャンネル客観評価装置1を用いることにより、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価値に近いマルチチャンネルの客観評価値zを求めることができる。
As described above, by using the multi-channel
以上のように、本発明の実施形態のマルチチャンネル客観評価装置1によれば、畳み込み信号出力部10は、予め設定されたDBを用いて、24チャンネルの音響信号の再生位置情報Pに基づき、チャンネル毎の頭部インパルス応答HRIR1~24を特定して出力する。
As described above, according to the multi-channel
信号処理部11は、マルチチャンネル音響信号の原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。具体的には、信号処理部11は、チャンネル毎に、例えば全ての原音x1~24、当該チャンネルのみの劣化音x’、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。
The
PEAQ評価部12は、チャンネル毎に、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigに基づいて、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法であるPEAQ客観音質測定法により客観評価値z1~24を求める。
The
マルチチャンネル評価部13は、チャンネル毎の客観評価値z1~24に基づいて、マルチチャンネルの客観評価値zを求める。
The
ここで、PEAQ評価部12が用いる客観評価対象のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigは、信号処理部11において個別の音源の音質劣化に着目して生成される主観評価を考慮した信号である。これにより、マルチチャンネル評価部13が求めるマルチチャンネルの客観評価値zは、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigの客観評価値z1~24から生成されるから、主観評価値に近い値となる。したがって、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。
Here, the binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig used by the
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、マルチチャンネル客観評価装置1は、22.2chのマルチチャンネル音響信号を評価対象として、マルチャンネルの客観評価値zを求めるようにした。本発明は、評価対象を22.2chのマルチチャンネル音響信号に限定するものではなく、11.1ch、7.1ch、5.1ch等の他の音響方式のマルチチャンネル音響信号にも適用がある。
Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiment and can be variously modified without departing from the technical idea. In the above-described embodiment, the multi-channel
また、本発明は、スピーカー配置がプリセットされた22.2ch等の音響方式のマルチチャンネル音響信号だけでなく、スピーカー配置がプリセットされていない、2以上のスピーカーが任意に配置されたマルチチャンネル音響信号にも適用がある。 Further, the present invention includes not only a multi-channel acoustic signal of an acoustic method such as 22.2ch in which the speaker arrangement is preset, but also a multi-channel acoustic signal in which two or more speakers in which the speaker arrangement is not preset are arbitrarily arranged. Also applies to.
また、前記実施形態では、マルチチャンネル客観評価装置1は、畳み込み信号として、頭部インパルス応答HRIR1~24を用いるようにした。本発明は、畳み込み信号を頭部インパルス応答HRIR1~24に限定するものではなく、他のインパルス応答、例えばバイノーラル室内インパルス応答BRIR(Binaural Room Impulse Response)1~24を用いるようにしてもよい。
Further, in the above embodiment, the multi-channel
この場合、図4を参照して、畳み込み信号出力部10に備えたDBには、頭部インパルス応答HRIR1~24の代わりに、バイノーラル室内インパルス応答BRIR1~24が格納されている。畳み込み信号出力部10は、DBから、再生位置情報Pに対応するチャンネル毎の伝搬特性を表すバイノーラル室内インパルス応答BRIR1~24を読み出す。そして、信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24、並びにバイノーラル室内インパルス応答BRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。
In this case, referring to FIG. 4, the DB provided in the convolution
また、前記実施形態では、マルチチャンネル客観評価装置1は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24にバイノーラル室内インパルス応答BRIR1~24を畳み込み、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにした。本発明は、この畳み込み処理を時間領域での演算に限定するものではなく、周波数領域に変換した原音x1~24及び劣化音x’1~24と、頭部伝達関数HRTF(Head Related Transfer Function)1~24の積を演算し、時間領域に変換してバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにしてもよい。また、本発明は、原音x1~24及び劣化音x’1~24の周波数成分とバイノーラル室内伝達関数BRTF(Binaural Room Transfer Function)1~24の積を演算し、時間領域に変換してバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにしてもよい。
Further, in the above-described embodiment, the multi-channel
尚、本発明の実施形態によるマルチチャンネル客観評価装置1のハードウェア構成としては、通常のコンピュータを使用することができる。マルチチャンネル客観評価装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
As the hardware configuration of the multi-channel
マルチチャンネル客観評価装置1に備えた畳み込み信号出力部10、信号処理部11、PEAQ評価部12及びマルチチャンネル評価部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
Each function of the convolution
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.
1 マルチチャンネル客観評価装置
10 畳み込み信号出力部
11 信号処理部
12 PEAQ評価部
13 マルチチャンネル評価部
20-1~24 PEAQ評価手段
x1~24 マルチチャンネル音響信号の原音
x’1~24 マルチチャンネル音響信号の劣化音
P 再生位置情報
HRIR1~24 頭部インパルス応答
M マルチチャンネル音響信号のチャンネル数
N 劣化音x’のチャンネル数N
BRIR1~24 バイノーラル室内インパルス応答
HRTF1~24 頭部伝達関数
BRTF1~24 バイノーラル室内伝達関数
y1_ori~24_ori 基本信号(バイノーラル信号)
y1_sig~24_sig 被測定信号(バイノーラル信号)
y_ori 共通の基本信号
y_sig 共通の被測定信号
z1~24 チャンネル毎の客観評価値
z マルチチャンネルの客観評価値
ρfg 正規化相関係数
W1~24 重み付け係数
1 Multi-channel
BRIR 1 to 24 binaural chamber impulse response HRTF 1 to 24 head related transfer function BRTF 1 to 24 binaural chamber transfer function y 1_ori to 24_ori basic signal (binaural signal)
y 1_sig ~ 24_sig Measured signal (binaural signal)
y _ori Common basic signal y _sig Common measured signal z Objective evaluation value for each channel 1 to 24 z Objective evaluation value for multi-channel ρ fg Normalization correlation coefficient W 1 to 24 Weighting coefficient
Claims (6)
前記マルチチャンネル音響信号を構成するそれぞれの音響信号のチャンネルに対応して、チャンネル毎の伝搬特性を表す頭部インパルス応答(HRIR)またはバイノーラル室内インパルス応答(BRIR)を畳み込み信号として出力する畳み込み信号出力部と、
前記マルチチャンネル音響信号の原音及び劣化音を入力すると共に、前記畳み込み信号出力部により出力されたチャンネル毎の前記畳み込み信号を入力し、
チャンネル毎の前記原音に前記畳み込み信号を畳み込み、全てのチャンネルの畳み込み結果に基づいて、全てのチャンネルに共通の基本信号を生成すると共に、
チャンネル毎に、当該チャンネルを含む1または複数のチャンネルの前記劣化音に前記畳み込み信号を畳み込み、第1の畳み込み結果を生成し、全てのチャンネルのうち前記1または複数のチャンネル以外のチャンネルの前記原音に前記畳み込み信号を畳み込み、第2の畳み込み結果を生成し、前記第1の畳み込み結果及び前記第2の畳み込み結果に基づいて被測定信号を生成し、
チャンネル毎に、前記基本信号及び前記被測定信号からなるバイノーラル信号を生成する信号処理部と、
前記信号処理部により生成されたチャンネル毎の前記バイノーラル信号を入力し、チャンネル毎に、当該チャンネルの前記バイノーラル信号に基づき、所定のPEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法を用いて、客観評価結果を生成する評価部と、
前記評価部により生成されたチャンネル毎の前記客観評価結果に基づいて、前記マルチチャンネル音響信号の客観評価結果をマルチチャンネル客観評価結果として生成するマルチチャンネル評価部と、
を備えたことを特徴とするマルチチャンネル客観評価装置。 In a multi-channel objective evaluation device that objectively evaluates multi-channel acoustic signals exceeding two channels
A convolution signal output that outputs a head-related impulse response (HRIR) or binaural chamber impulse response (BRIR) representing the propagation characteristics of each channel as a convolution signal corresponding to each channel of the acoustic signal constituting the multi-channel acoustic signal. Department and
The original sound and the deteriorated sound of the multi-channel acoustic signal are input, and the convolution signal for each channel output by the convolution signal output unit is input.
The convolution signal is convoluted into the original sound for each channel, and a basic signal common to all channels is generated based on the convolution results of all channels.
For each channel, the convolution signal is convoluted into the degraded sound of one or more channels including the channel to generate a first convolution result, and the original sound of a channel other than the one or the plurality of channels among all channels. The convolution signal is convoluted to generate a second convolution result, and a signal to be measured is generated based on the first convolution result and the second convolution result.
A signal processing unit that generates a binaural signal composed of the basic signal and the measured signal for each channel.
The binoral signal for each channel generated by the signal processing unit is input, and each channel is objectively measured using a predetermined PEAQ (Perceptual Evaluation of Audio Quality) objective sound quality measurement method based on the binoral signal of the channel. An evaluation unit that generates evaluation results and
A multi-channel evaluation unit that generates an objective evaluation result of the multi-channel acoustic signal as a multi-channel objective evaluation result based on the objective evaluation result for each channel generated by the evaluation unit.
A multi-channel objective evaluation device characterized by being equipped with.
前記畳み込み信号出力部は、
前記マルチチャンネル音響信号のチャンネルの数及び配置を定める音響方式の情報を入力し、予め設定されたデータベースから、前記音響方式に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、
前記データベースには、前記音響方式のチャンネル、及び当該チャンネルに対応する前記畳み込み信号が格納されている、ことを特徴とするマルチチャンネル客観評価装置。 In the multi-channel objective evaluation device according to claim 1,
The convolution signal output unit is
Information on the acoustic method that determines the number and arrangement of channels of the multi-channel acoustic signal is input, and the convolution signal for each channel corresponding to the acoustic method is read out from a preset database and output.
The database is a multi-channel objective evaluation device, characterized in that a channel of the acoustic system and the convolution signal corresponding to the channel are stored.
前記畳み込み信号出力部は、
前記マルチチャンネル音響信号を構成するそれぞれの音響信号についての再生位置を定めるチャンネル毎の角度の情報を入力し、予め設定されたデータベースから、チャンネル毎の前記角度に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、
前記データベースには、前記角度、及び当該角度に対応する前記畳み込み信号が格納されている、ことを特徴とするマルチチャンネル客観評価装置。 In the multi-channel objective evaluation device according to claim 1,
The convolution signal output unit is
The information of the angle for each channel that determines the reproduction position for each acoustic signal constituting the multi-channel acoustic signal is input, and the convolution signal for each channel corresponding to the angle for each channel is input from a preset database. Read and output,
A multi-channel objective evaluation device, characterized in that the database stores the angle and the convolution signal corresponding to the angle.
前記マルチチャンネル評価部は、
前記評価部により生成されたチャンネル毎の前記客観評価結果のうち最低値を検出し、当該最低値を前記マルチチャンネル客観評価結果として生成する、ことを特徴とするマルチチャンネル客観評価装置。 In the multi-channel objective evaluation device according to any one of claims 1 to 3.
The multi-channel evaluation unit
A multi-channel objective evaluation device, characterized in that the lowest value among the objective evaluation results for each channel generated by the evaluation unit is detected and the lowest value is generated as the multi-channel objective evaluation result.
前記マルチチャンネル評価部は、
前記評価部により生成されたチャンネル毎の前記客観評価結果に対し、所定のチャンネル毎の重み付け係数をそれぞれ乗算し、チャンネル毎の乗算結果を加算し、加算結果を前記マルチチャンネル客観評価結果として生成する、ことを特徴とするマルチチャンネル客観評価装置。 In the multi-channel objective evaluation device according to any one of claims 1 to 3.
The multi-channel evaluation unit
The objective evaluation result for each channel generated by the evaluation unit is multiplied by a weighting coefficient for each predetermined channel, the multiplication result for each channel is added, and the addition result is generated as the multi-channel objective evaluation result. , A multi-channel objective evaluation device characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078019A JP6998823B2 (en) | 2018-04-13 | 2018-04-13 | Multi-channel objective evaluation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018078019A JP6998823B2 (en) | 2018-04-13 | 2018-04-13 | Multi-channel objective evaluation device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019184933A JP2019184933A (en) | 2019-10-24 |
JP6998823B2 true JP6998823B2 (en) | 2022-02-04 |
Family
ID=68341042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018078019A Active JP6998823B2 (en) | 2018-04-13 | 2018-04-13 | Multi-channel objective evaluation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6998823B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115604642B (en) * | 2022-12-12 | 2023-03-31 | 杭州兆华电子股份有限公司 | Method for testing spatial sound effect |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171671A1 (en) | 2006-02-03 | 2009-07-02 | Jeong-Il Seo | Apparatus for estimating sound quality of audio codec in multi-channel and method therefor |
JP2016521532A (en) | 2013-05-16 | 2016-07-21 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Audio processing apparatus and method |
-
2018
- 2018-04-13 JP JP2018078019A patent/JP6998823B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171671A1 (en) | 2006-02-03 | 2009-07-02 | Jeong-Il Seo | Apparatus for estimating sound quality of audio codec in multi-channel and method therefor |
JP2016521532A (en) | 2013-05-16 | 2016-07-21 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Audio processing apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP2019184933A (en) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brinkmann et al. | A round robin on room acoustical simulation and auralization | |
KR101471798B1 (en) | Apparatus and method for decomposing an input signal using downmixer | |
Choisel et al. | Evaluation of multichannel reproduced sound: Scaling auditory attributes underlying listener preference | |
WO2007089130A1 (en) | Apparatus for estimating sound quality of audio codec in multi-channel and method therefor | |
van Dorp Schuitman et al. | Deriving content-specific measures of room acoustic perception using a binaural, nonlinear auditory model | |
Engel et al. | Perceptual implications of different Ambisonics-based methods for binaural reverberation | |
CN106796792A (en) | Apparatus and method, voice enhancement system for strengthening audio signal | |
Yao | Headphone-based immersive audio for virtual reality headsets | |
CN112740324A (en) | Apparatus and method for adapting virtual 3D audio to a real room | |
Rasumow et al. | Perceptual evaluation of individualized binaural reproduction using a virtual artificial head | |
JP6442037B2 (en) | Apparatus and method for estimating total mixing time based on at least a first pair of room impulse responses and corresponding computer program | |
Kirsch et al. | Spatial resolution of late reverberation in virtual acoustic environments | |
Manocha et al. | DPLM: A deep perceptual spatial-audio localization metric | |
Rämö et al. | Validating a real-time perceptual model predicting distraction caused by audio-on-audio interference | |
Lokki | Throw away that standard and listen: your two ears work better | |
JP6998823B2 (en) | Multi-channel objective evaluation device and program | |
JP4226142B2 (en) | Sound playback device | |
Takanen et al. | A binaural auditory model for the evaluation of reproduced stereophonic sound | |
Kurz et al. | Prediction of the listening area based on the energy vector | |
Bergner et al. | Identification of discriminative acoustic dimensions in stereo, surround and 3D music reproduction | |
Jackson et al. | QESTRAL (Part 3): System and metrics for spatial quality prediction | |
Puomio et al. | Sound rendering with early reflections extracted from a measured spatial room impulse response | |
Koya et al. | A Perceptual Model of Spatial Quality for Automotive Audio Systems | |
Alonso-Martınez | Improving Binaural Audio Techniques for Augmented Reality | |
Meyer et al. | Perceptual detection thresholds for numerical dispersion in binaural auralizations of two acoustically different rooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6998823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |