JP2010118978A - Controller of localization of sound, and method of controlling localization of sound - Google Patents
Controller of localization of sound, and method of controlling localization of sound Download PDFInfo
- Publication number
- JP2010118978A JP2010118978A JP2008291800A JP2008291800A JP2010118978A JP 2010118978 A JP2010118978 A JP 2010118978A JP 2008291800 A JP2008291800 A JP 2008291800A JP 2008291800 A JP2008291800 A JP 2008291800A JP 2010118978 A JP2010118978 A JP 2010118978A
- Authority
- JP
- Japan
- Prior art keywords
- correlation
- sound
- degree
- related transfer
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は、サラウンドに対応したテレビジョン放送に対して音像定位処理を施す音像定位制御装置および音像定位制御方法に関する。 The present invention relates to a sound image localization control device and a sound image localization control method that perform sound image localization processing on a television broadcast that supports surround.
従来から音の臨場感を向上する技術としてサラウンド方式があり、映画等において広がりのある空間が再現されていた。例えば、5.1サラウンド方式では、左/右スピーカ、左/右リアスピーカに加えて、センタースピーカの5つのスピーカから発せられる5チャンネルの音声信号と、1チャンネルの低域信号とで音声を再現している。 Conventionally, there is a surround system as a technique for improving the realistic sensation of sound, and a wide space has been reproduced in movies and the like. For example, in the 5.1 surround system, in addition to the left / right speaker and the left / right rear speaker, the sound is reproduced with the five-channel audio signal emitted from the five speakers of the center speaker and the low-frequency signal of one channel. is doing.
このようなサラウンド方式に対し、受聴者の後方にスピーカを配置することなく、受聴者の前方に設置した例えば2本のスピーカによって仮想的なサラウンド空間を再現するバーチャルサラウンド方式等の音像定位技術が開発されている。バーチャルサラウンド方式は、音像を定位するための頭部伝達関数等の計算が複雑であったが、近年の計算機の進歩によりその計算も容易となり、また、受聴者の後方にスピーカを設置する必要がないため、住宅事情や配線の手軽さの面から一般に広く知られるようになってきた。 In contrast to such a surround system, there is a sound image localization technique such as a virtual surround system that reproduces a virtual surround space by, for example, two speakers installed in front of a listener without arranging a speaker behind the listener. Has been developed. In the virtual surround system, the calculation of the head-related transfer function and the like for localization of the sound image was complicated, but the calculation has become easier due to recent advances in computers, and it is necessary to install a speaker behind the listener. Therefore, it has become widely known from the viewpoint of housing conditions and ease of wiring.
また、近年、テレビジョン放送もデジタル化が進み、従来のアナログ放送ではモノラルやステレオ方式が主流だったのに対し、デジタル放送ではサラウンドに対応したコンテンツが増加している。そのため、映画だけでなく通常のテレビジョン放送、例えば、ニュース番組やスポーツ中継などでも手軽にサラウンドを楽しむことができ、今後はさらにサラウンドに対応したテレビジョン放送が一般的になっていくものと考えられる。 In recent years, television broadcasting has also been digitized, and in conventional analog broadcasting, monaural and stereo systems have been mainstream, whereas in digital broadcasting, content corresponding to surround is increasing. Therefore, not only movies but also regular television broadcasts, such as news programs and sports broadcasts, can be easily enjoyed surround, and in the future, television broadcasts that support surround will become more common. It is done.
このようなテレビジョン放送には様々なコンテンツが含まれる。しかし、そのすべてのコンテンツに同一の音像定位処理を一様に施すと所望する音像定位効果を得られない場合がある。そこで、コンテンツ情報に基づき、コンテンツの内容に応じた音像定位効果を制御する技術が開示されている(例えば、特許文献1)。
様々なコンテンツのうち、例えば、映画では、上述したバーチャルサラウンド方式によって、複数の音像をイメージでき、臨場感のある音声を楽しむことができる。一方、ニュース番組やスポーツ中継等コメンテータが発する台詞やアナウンス等の音声(以下、「単音声」という。)は、臨場感より明瞭さが求められる。従って、このようなコンテンツがサラウンドに対応している場合、コメンテータによる単音声は複数チャンネルのうちのセンターチャンネルにのみ割り当てられていることが多い。 Among various contents, for example, in a movie, a plurality of sound images can be imaged by the above-described virtual surround system, and a realistic sound can be enjoyed. On the other hand, speech such as dialogues and announcements (hereinafter referred to as “single speech”) produced by commentators such as news programs and sports broadcasts are required to be clearer than a sense of reality. Therefore, when such content corresponds to surround, a single sound by a commentator is often assigned only to a center channel of a plurality of channels.
上述した特許文献1の技術においても、ニュース番組の場合には、その音声がセンターチャンネルにのみ割当てられていることを前提に、センターチャンネルのフィルタ処理のタップ数を減らして残響を抑え、音声の明瞭度を上げている。
Also in the technique of
しかし、デジタル放送のニュース番組やスポーツ中継等では、チャンネルの役割が制作者の意図に沿って規定されているDVD等と異なり、従来のステレオ収録方式のなごりでセンターチャンネル以外のL/Rチャンネルにもサラウンド処理された単音声が含まれることが多い。そのため、バーチャルサラウンドシステムにおいて、L/Rチャンネルに広がり感を持たせた音像定位処理を施した場合、特許文献1の技術を用いてセンターチャンネルの残響を抑えることができたとしても、L/Rチャンネルに含まれる単音声が残り、明瞭度の悪化を招いてしまう。
However, in digital broadcast news programs and sports broadcasts, the role of the channel is different from DVD, etc., which is defined in accordance with the creator's intentions. In many cases, surround sound is included. Therefore, in the virtual surround system, when the sound image localization processing with a sense of spread is applied to the L / R channel, even if the center channel reverberation can be suppressed using the technique of
本発明は、このような課題に鑑み、コンテンツの種類に拘わらず、また、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能な、音像定位制御装置を提供することを目的としている。 In view of such a problem, the present invention aims to improve the audibility of a clear voice regardless of the type of content, and even when a single voice such as a dialogue or an announcement is included in the L / R channel. It is an object of the present invention to provide a sound image localization control device that can perform the above-described operation.
上記課題を解決するために、本発明の音像定位制御装置の代表的な構成は、テレビジョン放送を受信可能な放送受信部と、放送受信部が受信したテレビジョン放送の音声データを抽出するオーディオ符号化信号抽出部と、オーディオ符号化信号がサラウンドに対応しているか否かを判定するサラウンド判定部と、サラウンドに対応していると判定された場合に、オーディオ符号化信号の補助情報から、L/Rチャンネル間の相関を用いた符号化である相関符号化がオーディオ符号化信号に施されているか否かのフラグを抽出し、抽出されたフラグに基づいて、L/Rチャンネル間の相関度を導出する相関度導出部と、相関度と頭部伝達関数の係数群とを関連付けた係数群テーブルを記憶する記憶部と、相関度導出部が導出した相関度に応じて係数群テーブルから頭部伝達関数の係数群を抽出するテーブル抽出部と、抽出された係数群を反映した頭部伝達関数によって音像定位処理を実行する音像定位処理部と、を備えることを特徴とする。 In order to solve the above problems, a typical configuration of the sound image localization control device of the present invention includes a broadcast receiving unit capable of receiving a television broadcast, and an audio for extracting the audio data of the television broadcast received by the broadcast receiving unit. When it is determined that the encoded signal extraction unit, the audio encoded signal is compatible with surround, and the surround determination unit that determines whether it is compatible with surround, from the auxiliary information of the audio encoded signal, A flag indicating whether or not correlation encoding, which is encoding using correlation between L / R channels, is applied to an audio encoded signal, is extracted, and correlation between L / R channels is based on the extracted flag. A correlation degree deriving unit for deriving a degree, a storage unit for storing a coefficient group table in which the degree of correlation and the coefficient group of the head related transfer function are associated, and a correlation degree derived by the correlation degree deriving unit A table extraction unit that extracts a coefficient group of a head related transfer function from a number group table, and a sound image localization processing unit that executes a sound image localization process using a head related transfer function that reflects the extracted coefficient group, To do.
映画等においては、あらゆる数、あらゆる位置に音像を想定することができ、また、そのような複数の音像が受聴者の臨場感を向上させる。一方、ニュース番組やスポーツ中継等における単音声は単一かつ中央一カ所の音像を想定すればよく、またそのようにすべきである。本発明では、L/Rチャンネル間の相関度を導出し、その相関度が高い音声は、単一かつ中央一カ所の音像から発せられた単音声と見なし、その音声が明瞭になる係数群に基づく頭部伝達関数を用いて音声を出力する。かかる構成により、コンテンツの種類に拘わらず、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。また、符号化処理に相関符号化が採用されている場合において、本発明では、その相関符号化が施されているか否かのフラグを用いているので、2つの信号の相関係数の導出等、複雑な別途の計算を伴うことなく、相関度を容易に導出することができ、処理負荷を軽減することが可能である。 In movies and the like, sound images can be assumed in any number and at any position, and such a plurality of sound images improve the sense of presence of the listener. On the other hand, a single sound in a news program or a sports broadcast should be assumed to be a single and central sound image, and should be so. In the present invention, the degree of correlation between the L / R channels is derived, and a voice with a high degree of correlation is regarded as a single voice emitted from a single sound image in the center, and the coefficient group makes the voice clear. The speech is output using the head-related transfer function based on it. With this configuration, it is possible to improve the audibility with clear sound even when a single sound such as a dialogue or announcement is included in the L / R channel regardless of the type of content. Further, in the case where correlation encoding is employed in the encoding process, the present invention uses a flag indicating whether or not the correlation encoding has been performed. The degree of correlation can be easily derived without complicated complicated calculations, and the processing load can be reduced.
相関度導出部は、相関符号化がオーディオ符号化信号の複数の周波数帯域毎に施されている場合、全周波数帯域に対する相関符号化が施された周波数帯域の割合に基づいてL/Rチャンネル間の相関度を導出してもよい。 When the correlation encoding is performed for each of the plurality of frequency bands of the audio encoded signal, the correlation degree deriving unit determines whether the L / R channel is based on the ratio of the frequency bands subjected to the correlation encoding with respect to the entire frequency band. The degree of correlation may be derived.
ここでは、相関度に応じて、その音声が単音声であるか否かを単純に判断するだけでなく、単音声である確からしさ、即ち、相関符号化が施されている周波数帯域の全周波数帯域に対する割合に応じて頭部伝達関数の係数群を変更することができる。かかる構成により、明瞭な音声によるさらなる聴感の向上を図ることが可能となる。 Here, depending on the degree of correlation, not only simply whether or not the voice is a single voice, but also the probability that it is a single voice, that is, all frequencies in the frequency band on which correlation coding is performed. The coefficient group of the head-related transfer function can be changed according to the ratio to the band. With this configuration, it is possible to further improve the audibility with clear sound.
オーディオ符号化信号は、AAC(Advanced Audio Coding)方式で符号化されていて、相関符号化の方式は、MS(Mid Side)ステレオ方式であってもよい。 The audio encoded signal may be encoded by an AAC (Advanced Audio Coding) method, and the correlation encoding method may be an MS (Mid Side) stereo method.
AACは、オーディオ符号化方式として広く普及している。また、AACにおいて、チャンネル間の相関性を用いた符号化方式には、MSステレオ方式が用いられており、フラグによって符号化が施されているか否かを容易に導出できる。かかる構成により、当該音像定位制御装置の処理負荷を軽減することができる。 AAC is widely used as an audio encoding method. In AAC, the MS stereo method is used as the encoding method using the correlation between channels, and it can be easily derived whether or not the encoding is performed by the flag. With this configuration, it is possible to reduce the processing load of the sound image localization control device.
相関度導出部は、所定周波数帯域の重み付けを他の周波数帯域より大きくして、相関度を導出してもよい。このとき、所定周波数帯域は、200〜4000Hzであってもよい。 The correlation degree deriving unit may derive the correlation degree by making the weighting of the predetermined frequency band larger than other frequency bands. At this time, the predetermined frequency band may be 200 to 4000 Hz.
本発明の目的は、対象となる音声が単音声である場合にその音声を明瞭化することである。そこで、人の音声の周波数帯域である200〜4000Hzに対する重み付けを他の周波数帯域より大きくすることで、相関度導出精度の向上を図ることができる。 An object of the present invention is to clarify a voice when the target voice is a single voice. Therefore, the accuracy of deriving the degree of correlation can be improved by making the weighting for 200 to 4000 Hz, which is the frequency band of human voice, larger than other frequency bands.
ここで、頭部伝達関数は、係数群によって、音声信号の直接音と反射音とをそれぞれ独立して調整できる。 Here, the head related transfer function can independently adjust the direct sound and the reflected sound of the sound signal by the coefficient group.
頭部伝達関数を通じたインパルス応答を時間領域で見ると、その応答波形を直接音と反射音とに区別することができる。本発明では、頭部伝達関数における直接音と反射音との係数を調整し、直接音に対する反射音の比を下げることで、反射による残響を抑制し、明瞭な音声を生成する。 When the impulse response through the head-related transfer function is viewed in the time domain, the response waveform can be distinguished into direct sound and reflected sound. In the present invention, the coefficient of the direct sound and the reflected sound in the head-related transfer function is adjusted, and the ratio of the reflected sound to the direct sound is lowered, thereby suppressing reverberation due to reflection and generating clear sound.
記憶部は、スピーカの配置に対応した複数の頭部伝達関数に対応した係数群テーブルを含み、テーブル抽出部は、複数の頭部伝達関数のうち、スピーカの配置に応じて選択決定された頭部伝達関数の係数群を抽出してもよい。 The storage unit includes a coefficient group table corresponding to a plurality of head related transfer functions corresponding to the arrangement of the speakers, and the table extracting unit is a head selected and determined according to the arrangement of the speakers among the plurality of head related transfer functions. A group of coefficients of the partial transfer function may be extracted.
頭部伝達関数は、受聴者の頭(両耳)とスピーカとの位置関係によって変化する。従って、スピーカの位置に応じた最適な頭部伝達関数を選択することで、ユーザは、より適切に明瞭な音声を得ることが可能となる。 The head-related transfer function changes depending on the positional relationship between the listener's head (both ears) and the speaker. Therefore, by selecting an optimal head-related transfer function corresponding to the position of the speaker, the user can obtain more appropriate clear sound.
上記課題を解決するために、本発明の音像定位制御方法の代表的な構成は、テレビジョン放送を受信し、受信したテレビジョン放送の音声データであるオーディオ符号化信号を抽出し、オーディオ符号化信号がサラウンドに対応しているか否かを判定し、サラウンドに対応していると判定された場合に、オーディオ符号化信号の補助情報から、L/Rチャンネル間の相関を用いた符号化である相関符号化がオーディオ符号化信号に施されているか否かのフラグを抽出し、抽出されたフラグに基づいて、L/Rチャンネル間の相関度を導出し、導出した相関度に応じて、相関度と頭部伝達関数の係数群とを関連付けた係数群テーブルから頭部伝達関数の係数群を抽出し、抽出された係数群を反映した頭部伝達関数によって音像定位処理を実行することを特徴とする。 In order to solve the above-described problems, a typical configuration of the sound image localization control method of the present invention receives a television broadcast, extracts an audio encoded signal that is audio data of the received television broadcast, and performs audio encoding. It is coding using the correlation between the L / R channels from the auxiliary information of the audio coded signal when it is determined whether the signal is compatible with surround and it is determined that the signal is compatible with surround. A flag indicating whether or not correlation encoding is applied to the audio encoded signal is extracted, and based on the extracted flag, a correlation degree between the L / R channels is derived, and a correlation is determined according to the derived correlation degree. The coefficient group of the head related transfer function is extracted from the coefficient group table that associates the degree and the coefficient group of the head related transfer function, and the sound image localization processing is executed by the head related transfer function reflecting the extracted coefficient group. It is characterized in.
上述した音像定位制御装置の技術的思想に基づく構成要素やその説明は、当該音像定位制御方法にも適用可能である。 The components based on the technical idea of the sound image localization control device described above and the description thereof can be applied to the sound image localization control method.
本発明では、コンテンツの種類に拘わらず、また、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。 In the present invention, it is possible to improve the audibility with clear sound regardless of the type of content, and even when a single sound such as dialogue or announcement is included in the L / R channel.
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値などは、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The dimensions, materials, and other specific numerical values shown in the embodiment are merely examples for facilitating understanding of the invention, and do not limit the present invention unless otherwise specified. In the present specification and drawings, elements having substantially the same function and configuration are denoted by the same reference numerals, and redundant description is omitted, and elements not directly related to the present invention are not illustrated. To do.
近年、デジタル放送の開始にも相俟って、サラウンド方式を採用したテレビジョン放送が放映されるようになった。従って、映画以外の例えばニュース番組やスポーツ中継等にも一様にサラウンド方式への拡張が為され、センターチャンネル以外のL/Rチャンネルにおいても、台詞やアナウンス等の単音声が割り当てられることがある。しかし、複数の音像をイメージでき、臨場感のある音声を楽しむことがその目的の1つである映画と異なり、これら番組におけるコメンテータが発する単音声は、臨場感より明瞭さが求められる。 In recent years, together with the start of digital broadcasting, television broadcasting employing the surround system has been broadcast. Therefore, other than movies, for example, news programs, sports broadcasts, etc., are uniformly expanded to the surround system, and single voices such as dialogues and announcements may be assigned to L / R channels other than the center channel. . However, unlike a movie whose one of its purposes is to enjoy a sound with a sense of presence and a plurality of sound images, the single sound emitted by the commentator in these programs is required to be clearer than the presence.
本実施形態では、音声信号に単音声が含まれるか否かを判断し、その単音声が含まれる度合に応じた頭部伝達関数を適用することで、コンテンツの種類に拘わらず、また、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。ここで、頭部伝達関数とは、任意に配置されたスピーカから発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答である。ここでは、理解を容易にするため、バーチャルサラウンドを採用したバーチャルサラウンドシステムを説明し、その後、そのバーチャルサラウンドシステムを構成する音像定位制御装置を詳細に説明する。 In the present embodiment, it is determined whether or not a single sound is included in the sound signal, and a head related transfer function corresponding to the degree to which the single sound is included is applied. Even when a single sound such as an announcement or an announcement is included in the L / R channel, it is possible to improve the audibility by a clear sound. Here, the head-related transfer function is an impulse response obtained by measuring an impulse signal emitted from an arbitrarily arranged speaker at the entrance to the ear canal of the listener. Here, in order to facilitate understanding, a virtual surround system adopting virtual surround will be described, and then a sound image localization control device constituting the virtual surround system will be described in detail.
(サラウンドシステム100、バーチャルサラウンドシステム110)
図1は、5.1サラウンド方式によるサラウンドシステム100の構成を示した模式図である。かかるサラウンドシステム100は、テレビジョン放送を受信して映像および音声を抽出するサラウンド制御装置148と、抽出された映像を表示するモニタ152と、抽出された音声を出力するスピーカ154とを含んで構成される。
(
FIG. 1 is a schematic diagram showing a configuration of a
5.1サラウンド方式では、受聴者160を囲むようにスピーカ154が複数配置され、例えば、受聴者160の前方センターにセンタースピーカ154aが、その左右にLスピーカ154b、Rスピーカ154cが、受聴者の後方左右にSLスピーカ154d、SRスピーカ154eが配される。また、任意の位置に低域の音声を出力するサブウーファー(LFE:Low Frequency Effect)154fも配されている。かかるサラウンドシステム100により、音の臨場感を向上し、広がりある空間を再現することが可能となる。
In the 5.1 surround system, a plurality of
図2は、バーチャルサラウンドシステム110の構成を示した模式図である。かかるバーチャルサラウンドシステム110は、音像定位制御装置150と、モニタ152と、音声を出力する2つのスピーカ154とを含んで構成される。
FIG. 2 is a schematic diagram showing the configuration of the
バーチャルサラウンドシステム110では、受聴者160の後方にスピーカを配置することなく、受聴者160の前方に設置した2本のスピーカ(Lスピーカ154b、Rスピーカ154c)によって仮想的なサラウンドを再現する。このバーチャルサラウンドシステム110は、音像を定位するための頭部伝達関数を用いた音像定位技術が採用されている。
In the
バーチャルサラウンドシステム110において、音像定位制御装置150は、モニタ152やスピーカ154と一体的にまたは別体に形成することができる。以下、音像定位制御装置150の具体的な構成と動作を説明する。
In the
(音像定位制御装置150)
図3は、音像定位制御装置150のハードウェア構成を示した機能ブロック図である。音像定位制御装置150は、放送受信部210と、アンテナ212と、映像処理部214と、オーディオ符号化信号抽出部216と、サラウンド判定部218と、復号部220と、相関度導出部222と、記憶部224と、テーブル抽出部226と、音像定位処理部228と、増幅部230とを含んで構成される。
(Sound image localization control device 150)
FIG. 3 is a functional block diagram showing a hardware configuration of the sound image
放送受信部210は、アンテナ212を通じてテレビジョン放送の電波を受信し、その受信した信号を圧縮映像信号と圧縮音声信号とに分離する。
The
映像処理部214は、放送受信部210が受信した圧縮映像信号を映像信号に変換し、モニタ152に出力する。
The
オーディオ符号化信号抽出部216は、放送受信部210が受信したテレビジョン信号から音声データであるオーディオ符号化信号を抽出する。ここでは、オーディオ符号化方式として国際標準規格であり日本国内のデジタル放送方式で採用されている、MPEG-2 AAC(規格書ISO/IEC 13818−7)を用いているものとする。
The audio encoded
サラウンド判定部218は、オーディオ符号化信号抽出部216からのオーディオ符号化信号がサラウンド(3チャンネル以上のマルチチャンネル信号)に対応しているか否かを判定する。
The
復号部220は、オーディオ符号化信号を復号し、リニアPCM信号を生成する。以下、理解を容易にするため、リニアPCM信号を単に音声信号という。
The
相関度導出部222は、サラウンド判定部218が当該音声がサラウンド放送に対応していると判定した場合に、オーディオ符号化信号の補助情報から、L/Rチャンネル間の相関を用いた符号化である相関符号化がオーディオ符号化信号に施されているか否かのフラグを抽出し、抽出されたフラグに基づいて、L/Rチャンネル間の相関度を導出する。本実施形態において相関度は、相関の高さを示す指標であり、例えば1から5までの整数で表し、低い値である程相関が低いことを、高い値である程相関が高いことを示す。
When the
通常、映画等においては、任意の数、任意の位置に音像を想定することができ、また、そのような複数の音像が受聴者の臨場感を向上させる。一方、ニュース番組やスポーツ中継等における単音声は単一かつ中央一カ所の音像を想定すればよく、またそのようにすべきである。 Usually, in a movie or the like, a sound image can be assumed at any number and at any position, and such a plurality of sound images improves the sense of presence of the listener. On the other hand, a single sound in a news program or a sports broadcast should be assumed to be a single and central sound image, and should be so.
ここでは、相関度導出部222によって、L/Rチャンネル間の相関度を導出し、その相関度が高い音声は、単一かつ中央一カ所の音像から発せられた単音声と見なし、その後、その音声が明瞭になる係数群に基づく頭部伝達関数を用いて音声を出力している。逆に、相関度が低い音声は、単音声ではないと見なし、臨場感のある通常の頭部伝達関数を用いて音声を出力する。かかる構成により、コンテンツの種類に拘わらず、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。
Here, the degree of correlation between the L / R channels is derived by the degree-of-
また、相関度導出部222は、相関符号化がオーディオ符号化信号の複数の周波数帯域毎に施されている場合、全周波数帯域に対する相関符号化が施された周波数帯域の割合に基づいてL/Rチャンネル間の相関度を導出してもよい。
Further, when the correlation encoding is performed for each of the plurality of frequency bands of the audio encoded signal, the correlation
かかる処理によって、相関度に応じて、その音声が単音声であるか否かを単純に判断するだけでなく、単音声である確からしさ、即ち、相関符号化が施されている周波数帯域の全周波数帯域に対する割合に応じて頭部伝達関数の係数群を変更することができる。かかる構成により、明瞭な音声によるさらなる聴感の向上を図ることが可能となる。 With such processing, depending on the degree of correlation, not only simply whether the speech is a single speech, but also the probability that it is a single speech, that is, all the frequency bands to which correlation coding is applied. The coefficient group of the head related transfer function can be changed according to the ratio to the frequency band. With this configuration, it is possible to further improve the audibility with clear sound.
ここで、相関度導出部222は、全周波数帯域に対する相関符号化が施された周波数帯域の割合に基づいてL/Rチャンネル間の相関度を導出しているが、かかる場合に限られず、時間軸方向の所定数のフレームに対する相関符号化が施されたフレームの割合に基づいてL/Rチャンネル間の相関度を導出してもよい。また、相関度が煩雑に切り換わるのを回避するため、相関度導出部222に低域通過フィルタやヒステリシス特性を持たせることもできる。
Here, the correlation
上述した相関符号化の方式は、MSステレオ方式とする。AACにおいて、チャンネル間の相関性を用いた符号化方式には、MSステレオ方式が用いられており、フラグによって符号化が施されているか否かを容易に導出できるので、2つの信号の相関係数の導出等、複雑な別途の計算を伴うことなく、相関度を容易に導出することができる。かかる構成により、当該音像定位制御装置150の処理負荷を軽減することができる。
The correlation encoding method described above is an MS stereo method. In AAC, the MS stereo method is used as the encoding method using the correlation between channels, and it can be easily derived whether or not the encoding is performed by the flag. The degree of correlation can be easily derived without complicated complicated calculations such as derivation of numbers. With this configuration, the processing load on the sound image
また、上述した補助情報を含む符号化信号を構成するビットストリームのフォーマットとしては、AAC−ADIF(Audio Data Interchange Format)とAAC−ADTS(Audio Data Transport Stream frame)の2種類が規定されており、何れのフォーマットにおいてもチャンネル間の相関を用いた符号化が施されているか否かを示すフラグが配置されている。以下、AAC−ADTSにおけるフラグを用いた例を挙げて説明する。 In addition, as the format of the bit stream constituting the encoded signal including the auxiliary information described above, two types of AAC-ADIF (Audio Data Interchange Format) and AAC-ADTS (Audio Data Transport Stream frame) are defined. In any format, a flag indicating whether or not encoding using correlation between channels is performed. Hereinafter, an example using a flag in AAC-ADTS will be described.
図4は、AAC−ADTSのフレーム構成を示す説明図である。(A)に示すAAC−ADTSの1フレーム240は、(B)のように、ADTSヘッダー(adts_header)242、エラー検出ワード(crc:cyclic redundancy check)244、ローデータブロック(raw_data_block)246の3つの部分から構成される。ADTSヘッダー242には、同期信号やサンプリング周波数等、フレームの各種情報が書き込まれている。エラー検出ワード244は、ADTSフレームのエラーチェックに用いられる。ローデータブロック246には、圧縮音声データおよび圧縮音声データの種類を示す識別子が書き込まれている。
FIG. 4 is an explanatory diagram showing a frame configuration of AAC-ADTS. As shown in (B), one AAC-
圧縮音声データは、データの種類に応じて圧縮方法が異なる。ここで(C)に示すように、ローデータブロックの圧縮音声データの種類を示す識別子が、CPE(Channel Pair Element)248である場合におけるローデータブロックの内部構造を(D)(E)に示す。CPE248は、L/Rチャンネルのように、相関が高い可能性のある2チャンネルをまとめて符号化する場合に用いられる。
The compressed audio data has a different compression method depending on the type of data. Here, as shown in (C), the internal structure of the raw data block when the identifier indicating the type of the compressed audio data of the raw data block is CPE (Channel Pair Element) 248 is shown in (D) and (E). . The
ローデータブロック246は、当該2チャンネル以外のチャンネルが同一の識別子(ここではCPE248)を用いていた場合、識別するための固有の番号を付したエレメントインスタンスタグ(element_instance_tag)250、周波数変換で用いるブロック長及び窓かけ用のウィンドウの種類が共通のものを使用しているか否かを示すフラグであるコモンウィンドウ(common_window)252、サブバンド数(帯域分割数)等を格納する領域であるICSインフォ(ics_info)254、MSステレオによる符号化が施されているか否かを示すフラグとしての、2ビットで表されるMSマスクプレゼント(ms_mask_present)256、同じくMSステレオによる符号化が施されているか否かを示すフラグとして、周波数分割帯域毎に示されるフラグであるMSユスド(ms used)258、量子化データを含むインディビジュアルチャネルストリーム(individual_channel_stream)260で構成される。 The raw data block 246 includes an element instance tag (element_instance_tag) 250 with a unique number for identification when a channel other than the two channels uses the same identifier (here, CPE 248), and a block used for frequency conversion. A common window (common_window) 252 that is a flag indicating whether or not a common window type for long and windowing is used, and an ICS info (area for storing the number of subbands (number of band divisions)). ics_info) 254, MS mask present (ms_mask_present) 256 represented by 2 bits as a flag indicating whether or not encoding by MS stereo is performed, and whether or not encoding by MS stereo is also performed As a flag to indicate, MS use which is a flag indicated for each frequency division band (Ms used) 258, composed of Individual channel stream (individual_channel_stream) 260 that includes quantized data.
ここで、コモンウィンドウ252が1であり、かつMSマスクプレゼント256が、「全帯域についてMSステレオによる符号化が有効である」ことを表す10(二進数)の場合を(D)に示す。この場合、MSステレオによる符号化が全帯域で用いられていることから、L/Rチャンネルの相関は高いと推定できるため、本実施形態では、相関度を最大値(例えば5)とする。
Here, (D) shows a case where the
また、コモンウィンドウ252が1であり、かつMSマスクプレゼント256が、「MSステレオによる符号化が部分的に有効である」ことを表す01(二進数)の場合を(E)に示す。この場合、周波数分割帯域毎に、MSユスド258が設定され、MSユスド258が1であると、その周波数分割帯域ではMSステレオによる符号化が有効となっていることを示す。本実施形態では、全周波数帯域中のMSユスド258が1となっている周波数分割帯域の割合に基づいて、相関度を導出する。MSユスド258は、MSユスド[g][sfb]のように表記される。ここで、gは、ウィンドウの番号、sfbは、周波数分割帯域を識別する番号を示す。
Further, (E) shows a case where the
図5は、記憶部224に記憶されたフラグ相関度テーブル262の一例を示した説明図である。MSマスクプレゼント256が10(二進数)の場合における、MSユスド260の割合264と相関度266の関係を示す。
FIG. 5 is an explanatory diagram showing an example of the flag correlation degree table 262 stored in the
MSユスド260が1となっている周波数分割帯域の割合264が100〜80%のとき、相関度266は最大値である5とする。同様に、周波数分割帯域の割合264が80〜60%のとき、相関度266は4、周波数分割帯域の割合264が60〜40%のとき、相関度266は3、周波数分割帯域の割合264が40〜20%のとき、相関度266は2、周波数分割帯域の割合264が20〜0%のとき、相関度266は1となる。
When the
また、MSマスクプレゼント256が01、10以外の場合、チャンネル間に相関が無いものと推定できるため、相関度266は無相関を示す1とする。
Further, when the MS mask present 256 is other than 01 and 10, it can be estimated that there is no correlation between the channels. Therefore, the
さらに、相関度導出部222は、上述した相関度266の導出に際して、対象となる所定周波数帯域に制限し、あるいは所定周波数帯域外より重み付けを大きくおいて、相関度266を導出する。このとき、所定周波数帯域は、200〜4000Hzとする。
Furthermore, when deriving
図6は、周波数帯域と相関度導出の重み付けの一例を模式的に表した説明図である。本実施形態の目的は、対象となる音声が単音声である場合にその音声を明瞭化することである。そこで、人の音声の周波数帯域である200〜4000Hzに対する重み付けを他の周波数帯域より大きくすることを考える。人の音声(音圧レベル)の周波数帯域は、200〜4000Hzがほとんどを占める。従って、相関度266の計算対象を、約200〜4000Hzに制限するように、図6に示すような周波数帯域に応じた重み付け特性値を掛け合わせて、相関度266を導出する。
FIG. 6 is an explanatory diagram schematically showing an example of the weighting for deriving the frequency band and the degree of correlation. The object of the present embodiment is to clarify the voice when the target voice is a single voice. Therefore, it is considered that the weighting with respect to 200 to 4000 Hz, which is the frequency band of human voice, is made larger than other frequency bands. The frequency band of human voice (sound pressure level) is mostly 200 to 4000 Hz. Therefore, the degree of
例えば、MSマスクプレゼント256が10の場合に、MSユスド260が1となっている周波数分割帯域にそれぞれ図6の重み付けをして足し合わせる。そして、この値を、全ての周波数分割帯域にそれぞれ図6の重み付けをして足し合わせた値で除算する。この除算した値を百分率で表し、図5を参照して対応する相関度266を導出する。
かかる処理によって、背景音等音声以外の成分を排除または低減でき、音声に限った相関度導出精度の向上を図ることもできる。
For example, when the MS mask present 256 is 10, the frequency division bands in which the MS used 260 is 1 are added with the weights shown in FIG. Then, this value is divided by a value obtained by adding the weights shown in FIG. This divided value is expressed as a percentage, and the corresponding degree of
By such processing, components other than sound such as background sound can be eliminated or reduced, and the accuracy of deriving the degree of correlation limited to sound can be improved.
記憶部224は、ROM、RAM、E2PROM、不揮発性RAM、フラッシュメモリ、HDD等で構成され、制御部で処理されるプログラムや音声データ等を記憶する。また、記憶部224は、MSユスド260が1となっている周波数帯域の全周波数帯域に占める割合264と相関度266とを関連付けたフラグ相関度テーブル262と、後述する相関度266と頭部伝達関数の係数群とを関連付けた係数群テーブルを記憶する。
The
本実施形態は、相関度266に応じて、その音声を単音声か否か判断するだけでなく、単音声である確からしさ、即ち相関度266の値に比例して明瞭度を上げ、臨場感を落とす。従って、相関度266の値に応じて頭部伝達関数の係数群を変更することとなる。この目的を達成するためには、本来、係数群の各係数を相関度266の関数にするのが望ましいが、その関数の導出に過大な労力を要し、また、複数段階の対応付けのみであっても十分に本願の目的を達成できることから、ここでは、係数群テーブルによる複数段階の対応付けによって、相関度266と頭部伝達関数の係数群とを関連付ける。
The present embodiment not only determines whether or not the voice is a single voice according to the degree of
図7は、記憶部224に記憶された係数群テーブル268の一例を示した説明図である。ここでは、左欄の相関度266に頭部伝達関数の係数群270が関連付けられる。また、かかる係数群テーブル268に示された頭部伝達関数(1)、(2)、(3)は、図10を用いて後述する直接音ゲイン、初期反射音ゲイン、残響音ゲインに対応している。かかる頭部伝達関数の係数群270は後ほど詳述する。
FIG. 7 is an explanatory diagram showing an example of the coefficient group table 268 stored in the
テーブル抽出部226は、相関度導出部222が導出した相関度266に応じて係数群テーブル268から頭部伝達関数の係数群270を抽出する。こうして、相関度266に基づいて、頭部伝達関数を一意に形成することができる。
The
また、スピーカ154が音像定位制御装置150やモニタ152と別体に形成され、かつ、その位置を変更可能な場合、受聴者160は、図2のように、任意のスピーカ配置でその音声を聞くことになる。上述した頭部伝達関数は、受聴者の頭(両耳)とスピーカとの位置関係によって変化する。そのため、複数のスピーカの任意の配置に対して複数の頭部伝達関数を準備する。そして、記憶部224は、スピーカの配置に対応したかかる複数の頭部伝達関数およびそれに対応した係数群テーブル268を記憶する。
When the
テーブル抽出部226は、かかる記憶部224に記憶された複数の頭部伝達関数のうち、受聴者160からの選択入力に応じて選択決定された頭部伝達関数の係数群270を抽出する。受聴者160は、スピーカ154の位置に応じた最適な頭部伝達関数を選択することで、より適切に明瞭な音声を得ることが可能となる。
The
音像定位処理部228は、テーブル抽出部226が抽出した係数群270を反映した頭部伝達関数によって音像定位処理を実行する。ここでは、5.1サラウンド方式の各チャンネルを、複数のスピーカ、例えば、2つのスピーカに出力するため、バーチャルサウンド方式の音声信号に変換する。
The sound image
図8は、音像定位処理部228の構成例を示した制御ブロック図である。図8の制御ブロック図においては、入力された5.1chのサラウンド音源を表す音声信号が頭部伝達関数ブロック272に伝達され、頭部伝達関数ブロック272における畳み込み処理を受け、加算器274で音声合成されて最終的に2chバーチャルサラウンドの音声信号として出力される。ここで、頭部伝達関数(1)、(2)、(3)は、図10を用いて後述する直接音ゲイン、初期反射音ゲイン、残響音ゲインに対応している。また、本実施形態では、直接音、初期反射音、残響音の3つの対象に対してそれぞれ頭部伝達関数ブロック272を設けているが、これらを混合した1つのブロックで処理を行うことも可能である。
FIG. 8 is a control block diagram illustrating a configuration example of the sound image
図9は、図8の頭部伝達関数ブロック272の内部構成を示した制御ブロック図である。図9の制御ブロック図においては、まず、入力された5chのサラウンド音源を表す音声信号がディレイ280を通じて遅延処理され、LチャンネルとRチャンネルそれぞれに関してFIRフィルタ282によるフィルタ処理が施される。そして、加算器274で音声合成されて2chのバーチャルサラウンドの音声信号として出力される。
FIG. 9 is a control block diagram showing an internal configuration of the head-related transfer function block 272 of FIG. In the control block diagram of FIG. 9, first, an input audio signal representing a 5-channel surround sound source is delayed through a
かかる頭部伝達関数ブロック272におけるディレイ280は、図10を用いて後述する初期反射音遅延量、残響音遅延量に対応している。直接音は遅延量が生じないので、直接音に関する頭部伝達関数ブロック272のディレイ280は省略することができる。また、本実施形態では頭部伝達関数としてFIR(Finite Impulse Response)フィルタを用いているが、IIR(Infinite Impulse Response)を用いることもできる。
The
5.1サラウンド方式の音声信号を2chのバーチャルサラウンドで再現するには、図2に示すように、受聴者160の前方に準備された2つのスピーカ154から発する音声を生成するため、頭部伝達関数(ターゲット用頭部伝達関す)5ch×2、およびスピーカの配置に対応した頭部伝達関数(再生用頭部伝達関数)4(両耳×2)が必要である。ここで、再生用頭部伝達関数は、受聴者160がスピーカの位置(音源)を認識させないようにするためのキャンセル信号である。
In order to reproduce a 5.1 surround sound signal with 2ch virtual surround, as shown in FIG. 2, in order to generate sound emitted from two
ここで、頭部伝達関数は、係数群270によって、音声信号の直接音と反射音とをそれぞれ独立して調整できる。従って、音像定位処理部228は、テーブル抽出部226が抽出した係数群270によって、直接音と反射音とをそれぞれ独立に制御できることとなる。
Here, the head related transfer function can adjust the direct sound and the reflected sound of the sound signal independently by the
図10は、頭部伝達関数のインパルス応答を示した音声信号時間波形図である。かかるインパルス応答は、コンサートホールにおいて測定されており、前半のピークは直接音部分であり、次に壁、天井、床などから跳ね返った初期反射音(反射音)が続き、その後は残響音と呼ばれる副次的反射音が分布している。臨場感は、主として初期反射音や残響音の効果によって感じ取られている。 FIG. 10 is an audio signal time waveform diagram showing an impulse response of the head-related transfer function. Such impulse responses are measured in concert halls, with the first half peak being the direct sound part, followed by the early reflections (reflections) that bounce off the walls, ceiling, floor, etc., and then called reverberation. Secondary reflected sound is distributed. The sense of reality is felt mainly by the effects of early reflections and reverberation.
このように、頭部伝達関数を通じたインパルス応答を時間領域で見ると、その応答波形を直接音と反射音とに区別することができる。本実施形態では、頭部伝達関数における直接音と反射音との係数を調整し、直接音に対する反射音の比を下げることで、反射による残響を抑制する。具体的には、直接音と初期反射音(反射音)とが区別され、直接音ゲイン、初期反射音のゲインや直接音に対する遅延量、初期反射音以降の残響音のゲインや初期反射音に対する遅延量がそれぞれ独立して調整される。 Thus, when the impulse response through the head-related transfer function is viewed in the time domain, the response waveform can be distinguished into direct sound and reflected sound. In this embodiment, reverberation due to reflection is suppressed by adjusting the coefficient of the direct sound and the reflected sound in the head-related transfer function and lowering the ratio of the reflected sound to the direct sound. Specifically, the direct sound and the early reflection sound (reflection sound) are distinguished, and the direct sound gain, the initial reflection sound gain and the delay amount with respect to the direct sound, the reverberation sound gain after the initial reflection sound and the initial reflection sound are distinguished. The delay amount is adjusted independently.
上述した初期反射音や残響音のゲインの調整では、頭部伝達関数の測定条件や再現したい空間の広さ等にも影響されるが、一般に、測定時の直接音と反射音の比率に対して、反射音の比率を低くすると音声がより明瞭になり、高くすると、音声の臨場感が高くなる。具体的な処理方法の例として、直接音成分はその値を維持し、前述の相関度266の導出で用いた、全周波数帯域に対するMSユスド260が1となっている周波数分割帯域の割合264を100%から減算した値を、反射成分である初期反射音および残響音にゲイン係数として掛け合わせる。こうして、その全周波数帯域に対するMSユスド260が1となっている周波数分割帯域の割合264が100%に近い単音声では反射成分が抑えられ、直接音主体の明瞭性を持った音声信号を得る事ができる。
Adjustment of the gain of the early reflection sound and reverberation sound described above is affected by the measurement conditions of the head related transfer function and the size of the space to be reproduced. Thus, when the ratio of the reflected sound is lowered, the sound becomes clearer, and when it is increased, the presence of the sound is enhanced. As an example of a specific processing method, the direct sound component maintains its value, and the
ここでは、初期反射音と残響音を区別して処理しているが、一連の波形として処理することもでき、また処理量軽減のため残響音部分を省略することもできる。また音像定位処理は時間軸信号をそのまま畳み込む方法と周波数軸上で畳み込む方法があり、一般的に周波数軸上の畳み込み演算の方が時間軸に比べて処理量を抑えられるが、いずれの方法であっても本実施形態の目標を達成することができ、どちらを利用するかは任意に決めることができる。さらに、畳み込みに使用する頭部伝達関数は、上述したように、係数群テーブル268から相関度266に応じた係数群270を選択しても、全周波数帯域に対するMSユスド260が1となっている周波数分割帯域の割合264を100%から減算した値を、反射成分である初期反射音および残響音にゲイン係数として掛け合わせて調整した係数群を利用してもよい。前者は係数群テーブル268を参照することで係数群270を導出する処理負荷を軽減でき、後者は係数群テーブル268を記憶しないため使用するメモリ領域を節減できる。
Here, the initial reflection sound and the reverberation sound are distinguished and processed, but they can be processed as a series of waveforms, and the reverberation sound portion can be omitted to reduce the processing amount. Sound image localization processing includes the method of convolving the time axis signal as it is and the method of convolution on the frequency axis. Generally, the convolution operation on the frequency axis can suppress the processing amount compared to the time axis, but either method can be used. Even if it exists, the objective of this embodiment can be achieved and it can be decided arbitrarily which is used. Further, as described above, even if the
増幅部230は、音像定位処理部228によって変換された、バーチャルサウンド方式の音声信号をスピーカ154に出力可能な信号レベルに増幅する。
The amplifying
以上説明した音像定位制御装置150によって、コンテンツの種類に拘わらず、また、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。
The sound image
(音像定位制御方法)
次に、上述した音像定位制御装置150を用いて、サラウンドに対応したテレビジョン放送に対して音像定位処理を施す音像定位制御方法を具体的に説明する。
(Sound image localization control method)
Next, a sound image localization control method for performing sound image localization processing on a television broadcast that supports surround using the above-described sound image
図11は、音像定位制御方法の処理の流れを説明したフローチャートである。音像定位制御装置150の放送受信部210がテレビジョン放送を受信すると(S300のYES)、サラウンド判定部218は、放送受信部210が受信したテレビジョン放送の音声信号がサラウンドに対応しているか否かを判定し(S302)、サラウンドに対応していると判定されると(S302のYES)、相関度導出部222は、当該音声信号のL/Rチャンネルを抽出し、さらに、その補助情報からMSステレオ方式による符号化が施されているか否かを示すフラグを抽出する(S304)。MSステレオ方式による符号化がどの周波数帯域でも施されていない場合(S306YES)、相関度266は1とする(S308)。また、MSステレオ方式による符号化が施されていた場合(S306NO)であり、符号化の対象が全周波数帯域であれば(S310YES)、相関度266は5とする(S312)。
FIG. 11 is a flowchart for explaining the processing flow of the sound image localization control method. When the
そして、周波数帯域毎に、MSステレオ方式による符号化が施されていたり、施されていなかったりする場合(S310NO)、全周波数帯域に対する相関符号化が施された周波数帯域の割合264と、記憶部224に記憶されたフラグ相関度テーブル262とに基づいて、相関度266を決定する(S314)
Then, when the encoding by the MS stereo method is performed or not performed for each frequency band (NO in S310), the
そして、テーブル抽出部226は、相関度導出部222が導出した相関度266に応じて、記憶部224に記憶された係数群テーブル268から頭部伝達関数の係数群270を抽出し(S316)、音像定位処理部228は、抽出された係数群270を反映した頭部伝達関数によって音像定位処理を実行する(S318)。そして、その音像定位処理が行われた音声信号は、スピーカ154を通じて受聴者160に提供される(S320)。
Then, the
かかる音像定位制御方法によっても、コンテンツの種類に拘わらず、また、台詞やアナウンス等の単音声がL/Rチャンネルに含まれている場合においても、明瞭な音声による聴感の向上を図ることが可能となる。 With this sound image localization control method, it is possible to improve the audibility with clear audio regardless of the type of content, and even when single speech such as dialogue or announcement is included in the L / R channel. It becomes.
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to this embodiment. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.
また、上述した実施形態において、明瞭さが求められる番組か否かの判定は、相似度導出部222のみが行っていたが、かかる場合に限られず、例えば、コンテンツの種類の情報をデータとして受信し、受信した種類がニュース番組等明瞭さを求められる番組の場合、相似度導出部222の導出した相似度に関らず、音像定位処理の処理内容を変更することとしてもよい。
In the above-described embodiment, the determination as to whether or not the program requires clarity is performed only by the
なお、本明細書の音像定位制御方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。 Note that each step in the sound image localization control method of the present specification does not necessarily have to be processed in time series in the order described in the flowchart, and may include parallel or subroutine processing.
本発明は、サラウンドに対応したテレビジョン放送に対して音像定位処理を施す音像定位制御装置および音像定位制御方法に利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be used for a sound image localization control device and a sound image localization control method that perform sound image localization processing on a television broadcast that supports surround.
150 …音像定位制御装置
152 …モニタ
154 …スピーカ
210 …放送受信部
216 …オーディオ符号化信号抽出部
218 …サラウンド判定部
222 …相関度導出部
224 …記憶部
226 …テーブル抽出部
228 …音像定位処理部
266 …相関度
268 …係数群テーブル
270 …係数群
DESCRIPTION OF
Claims (8)
前記放送受信部が受信したテレビジョン放送の音声データを抽出するオーディオ符号化信号抽出部と、
前記オーディオ符号化信号がサラウンドに対応しているか否かを判定するサラウンド判定部と、
サラウンドに対応していると判定された場合に、前記オーディオ符号化信号の補助情報から、L/Rチャンネル間の相関を用いた符号化である相関符号化が前記オーディオ符号化信号に施されているか否かのフラグを抽出し、前記抽出されたフラグに基づいて、前記L/Rチャンネル間の相関度を導出する相関度導出部と、
相関度と頭部伝達関数の係数群とを関連付けた係数群テーブルを記憶する記憶部と、
前記相関度導出部が導出した相関度に応じて前記係数群テーブルから頭部伝達関数の係数群を抽出するテーブル抽出部と、
前記抽出された係数群を反映した頭部伝達関数によって音像定位処理を実行する音像定位処理部と、
を備えることを特徴とする音像定位制御装置。 A broadcast receiver capable of receiving television broadcasts;
An audio encoded signal extracting unit for extracting audio data of the television broadcast received by the broadcast receiving unit;
A surround determination unit that determines whether or not the audio encoded signal is compatible with surround;
When it is determined that the audio signal corresponds to surround, correlation encoding, which is encoding using correlation between L / R channels, is applied to the audio encoded signal from auxiliary information of the audio encoded signal. A correlation degree deriving unit that extracts a flag indicating whether there is a correlation between the L / R channels based on the extracted flag;
A storage unit for storing a coefficient group table in which the degree of correlation and the coefficient group of the head related transfer function are associated;
A table extracting unit that extracts a coefficient group of a head related transfer function from the coefficient group table according to the degree of correlation derived by the correlation degree deriving unit;
A sound image localization processing unit that performs sound image localization processing by a head-related transfer function reflecting the extracted coefficient group;
A sound image localization control device comprising:
前記テーブル抽出部は、前記複数の頭部伝達関数のうち、スピーカの配置に応じて選択決定された頭部伝達関数の係数群を抽出することを特徴とする請求項1から6のいずれか1項に記載の音像定位制御装置。 The storage unit includes a coefficient group table corresponding to a plurality of head related transfer functions corresponding to the arrangement of speakers,
The table extraction unit extracts a coefficient group of a head-related transfer function selected and determined according to a speaker arrangement from the plurality of head-related transfer functions. The sound image localization control apparatus according to the item.
前記受信したテレビジョン放送の音声データであるオーディオ符号化信号を抽出し、
前記オーディオ符号化信号がサラウンドに対応しているか否かを判定し、
サラウンドに対応していると判定された場合に、前記オーディオ符号化信号の補助情報から、L/Rチャンネル間の相関を用いた符号化である相関符号化が前記オーディオ符号化信号に施されているか否かのフラグを抽出し、前記抽出されたフラグに基づいて、前記L/Rチャンネル間の相関度を導出し、
導出した相関度に応じて、相関度と頭部伝達関数の係数群とを関連付けた係数群テーブルから頭部伝達関数の係数群を抽出し、
前記抽出された係数群を反映した頭部伝達関数によって音像定位処理を実行することを特徴とする音像定位制御方法。 Receive television broadcasts,
Extracting an audio encoded signal that is audio data of the received television broadcast,
Determining whether the audio encoded signal is compatible with surround;
When it is determined that the audio signal corresponds to surround, correlation encoding, which is encoding using correlation between L / R channels, is performed on the audio encoded signal from the auxiliary information of the audio encoded signal. A flag indicating whether or not there is, and based on the extracted flag, a correlation degree between the L / R channels is derived,
According to the derived degree of correlation, the coefficient group of the head related transfer function is extracted from the coefficient group table that associates the degree of correlation with the coefficient group of the head related transfer function,
A sound image localization control method, wherein sound image localization processing is executed by a head-related transfer function reflecting the extracted coefficient group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291800A JP2010118978A (en) | 2008-11-14 | 2008-11-14 | Controller of localization of sound, and method of controlling localization of sound |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291800A JP2010118978A (en) | 2008-11-14 | 2008-11-14 | Controller of localization of sound, and method of controlling localization of sound |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010118978A true JP2010118978A (en) | 2010-05-27 |
Family
ID=42306326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008291800A Pending JP2010118978A (en) | 2008-11-14 | 2008-11-14 | Controller of localization of sound, and method of controlling localization of sound |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010118978A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016527815A (en) * | 2013-07-24 | 2016-09-08 | オランジュ | Acoustic spatialization using spatial effects |
JP2019194742A (en) * | 2013-03-26 | 2019-11-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Device and method for audio classification and processing |
WO2020138257A1 (en) * | 2018-12-28 | 2020-07-02 | ソニー株式会社 | Information processing device, information processing method, and information processing program |
WO2024161992A1 (en) * | 2023-02-01 | 2024-08-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
-
2008
- 2008-11-14 JP JP2008291800A patent/JP2010118978A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019194742A (en) * | 2013-03-26 | 2019-11-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Device and method for audio classification and processing |
JP2016527815A (en) * | 2013-07-24 | 2016-09-08 | オランジュ | Acoustic spatialization using spatial effects |
WO2020138257A1 (en) * | 2018-12-28 | 2020-07-02 | ソニー株式会社 | Information processing device, information processing method, and information processing program |
US11956621B2 (en) | 2018-12-28 | 2024-04-09 | Sony Group Corporation | Information processing apparatus, information processing method, and information processing program |
WO2024161992A1 (en) * | 2023-02-01 | 2024-08-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100924576B1 (en) | Individual channel temporal envelope shaping for binaural cue coding schemes and the like | |
KR101569032B1 (en) | A method and an apparatus of decoding an audio signal | |
JP5149968B2 (en) | Apparatus and method for generating a multi-channel signal including speech signal processing | |
US10136236B2 (en) | Method and apparatus for reproducing three-dimensional audio | |
KR101538623B1 (en) | A method for mixing two input audio signals, and a decoder and computer-readable storage medium for performing the method, and a device for mixing input audio signals | |
CN101009952B (en) | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener | |
KR102392773B1 (en) | Method and apparatus for rendering sound signal, and computer-readable recording medium | |
RU2668113C2 (en) | Method and device for audio output, method and encoding device, method and decoding device and program | |
US10271156B2 (en) | Audio signal processing method | |
CN116741189A (en) | Loudness adjustment for downmixed audio content | |
KR20120131210A (en) | Apparatus and method for generating audio output signals using object based metadata | |
KR20080107422A (en) | Audio encoding and decoding | |
WO2008100067A1 (en) | A method and an apparatus for processing an audio signal | |
KR20040005025A (en) | Implementing method of multi channel sound and apparatus thereof | |
CN112567765B (en) | Spatial audio capture, transmission and reproduction | |
CN112823534B (en) | Signal processing device and method, and program | |
JP2010118978A (en) | Controller of localization of sound, and method of controlling localization of sound | |
US9311925B2 (en) | Method, apparatus and computer program for processing multi-channel signals | |
CN103718573A (en) | Matrix encoder with improved channel separation | |
JP2001296894A (en) | Voice processor and voice processing method | |
US11540075B2 (en) | Method and device for processing audio signal, using metadata | |
JP2010118977A (en) | Sound image localization control apparatus and sound image localization control method | |
JP6694755B2 (en) | Channel number converter and its program | |
JP2015065551A (en) | Voice reproduction system | |
KR20060068380A (en) | Apparatus and method for reinforcing 2 channel output in a sound playing system |