【CEDEC 2012】バイノーラルによる3Dサウンド制作 ― ｢楽しい音｣を作るには

CEDEC2012最終日、バイノーラルによる3Dサウンドの制作とその意義について、ショートセッションが開催されました。果たして3Dサウンドがもたらすものとはなんなのでしょうか。

今回講師として登壇したのは株式会社アーニス・サウンド・テクノロジーズの取締役、CTOの小林亙氏です。3Dサウンドの定義から、その制作、そしてどのような音を作っていけば良いのかというところまで、30分という短い時間ながら密度の高いセッションになりました。

■サラウンドと立体音響の違い
そもそも3Dサウンドとは何なのか、という話題からセッションは始まりました。まず今日よく耳にする「サラウンド(立体サラウンド、3Dサラウンド、5.1サラウンド等)」という言葉ですが、これは「音が前方のみならず、上下左右や後方からも聞こえる」ことをさします。対して、「立体音響(3D音響、3Dサウンド、3Dオーディオ等)」と呼ばれるものは「音源が聞く人の周囲に分布しているように聞こえる再生音」をさします。具体的にいえば、サラウンドでは、音をさせる方向にスピーカーを配置し、発音させます。一方の立体音響では、実際にスピーカーがある位置からは異なる場所から音が聞こえるようになります。つまり、両者の間には根本的な違いがあるということです。

小林氏によれば「未だに用語定義は曖昧だ」ということですので、今回の講演では後者の「立体音響」に類する言葉を便宜的に「3Dサウンド」として使っています。

■2chでの3Dサウンド
小林氏はあくまで、「既存のオーディオインフラを利用して鳴らす」ということに主眼を置いており、より良い音で聞かせるような「Hi-fiとは異なったとらえ方」だとしています。既存のオーディオインフラを使用した際の問題点として、バイノーラル音源の特性があげられます。

そもそも、ヘッドフォンでの聴取が前提となっているため、右chには右耳だけに聞かせる音、左chには・・・となっています。ところがスピーカーで再生した際、左右のスピーカーからでた音が混じり合ってしまうので音の定位が損なわれてしまうという欠点があります。

■3Dサウンドの特徴
小林氏は3Dサウンドを「空間、空気感が特徴だ」としています。人間は空気感で怖くなったり、楽しくなったりすることができます。また、「位置関係がずれるので、複数音源がある際は便利。埋もれさせたり、逆に埋もれたとこから引き出したりすることが可能だ」と、その特性をあげました。

■3Dサウンドはどうなっていくのか？
3Dといえば、真っ先に思い浮かべるのがテレビやゲーム機、映画などの映像メディアだと思います。小林氏はそれを引き合いにだし「全てのコンテンツがステレオから3Dに置き換えられるわけではない」としました。しかし、コンテンツの特性にあわせ、3Dならではの表現が生かされる作品も登場するだろうと指摘、「漫画と3D音声を組み合わせた電子書籍」などが登場するのではないかと予想しました。映像ではなく、音が3Dになることで、「想像力をより大きく働かせる方向に向かい、アーティストの新しい表現方法になれば嬉しい」と述べました。

■3Dサウンドを取り巻く環境とバイノーラル録音
ここからは、実際どのようにして、3Dサウンドを構築していくのかという話題になりました。まず、小林氏が指摘したのは、「音場を拡げることと、音を定位させるということは同じではない」ということです。2chオーディオで音場を拡げることは既に標準となっていますが、実際には発音体のない場所に音像を定位移動させるため、すなわち、実際に聞こえるところ以外から聞こえるようにするために、バイノーラルが活用されています。

そもそもバイノーラルとは、人間の肩口から頭頂部までを再現したダミーヘッドの耳部分にマイクを装着し、実際に聞かせたい位置から音を出し、録音します。それを再生することにより、人間は臨場感を得ることができます。しかし、この方法では実在音源のみにしか、適用できず、音源と耳の位置関係の調整が困難になっています。そこで、実際には、頭部伝達関数を用いることで、バイノーラル録音を再現しています。

■バイノーラルの課題
バイノーラルでの録音について説明がありましたが、まだまだ課題も多いようです。やはり、人間の聞こえとの差はどうしても生じてしまうそうです。あくまで頭部伝達関数は外耳道入り口の空気振動シミュレーションをしているだけであり、人間の聴覚においては空気振動による知覚は半分未満だそうです。また、振動、記憶、視覚といった、複合的な感覚により聴覚は形成されています。そういった点で、どうしても完全に立体的な音を完成させるのは難しいといいます。

■3Dサウンドとしてきかせる音作り
ここまでは、3Dサウンドの概要や現状が話されましたが、この後は実際に音作りをする際に気をつけること、テクニックなどが解説されました。

まず、現在のサウンド制作と異なるに注意しなければならないと氏は指摘しています。現在の音作りの主流はあくまでも、スピーカーから出力され、聞こえ方については聴取者に依存する音作りになっています。どんな環境できいているのか、どのように聞こえるかというよりは、より「良い音」を目指して制作されています。小林氏によれば「HI-FI」の考え方だといいます。一方で、3Dサウンドは心理的な側面や聴取環境によって左右される要素が多く、ただ高音質な音を制作していくだけではだめだとしました。

また、「物理現象としての音」「心理現象としての音」の違いにも気をつけなければなりません。音というのは物理学的にみれば、単なる「空気の振動」です。しかし、人間はその振動で、空間を認知し、感情変化すら起こします。例えば、メジャーコードを聞けば明るい印象をうけ、マイナーコードを聞けば悲しい気持ちになります。「音程の差以外にも感覚として大きな違いがでる」ということです。

そして、人間の脳は「空気の振動」として鼓膜に届いた情報と、「過去の記憶」や「経験」といった情報をあわせて、空間を認知しています。あくまで、外界の様子は脳の処理によって認識されるのであって、リアルな姿を常に認識しているわけではありません。なぜなら「記憶」という複雑で不確かな情報が加わってくるからであり、このことからも「物理的な条件を整えるだけでは、人間の聞こえを再現することはできないということです。

実際に3Dサウンドで音を聞かせるには、全体の演出の中で担う役割を認識し、「聞こえていた音」「聞こえてきた音」「聞いてみようとした音」それぞれの印象の違いをイメージする必要があるとしました。

■準備すべき音源素材
続いては、どのような素材を用意して、3Dサウンドを構築していけば良いかという説明が行われました。

・音色
含まれる周波数成分が多いほど、音像の知覚の手がかりになる。複雑な倍音構成を持つもの、特に非整数次倍音が素材音源として望ましい

・エフェクト
空間系エフェクトは素材段階では付加しない。立体音響処理中または処理後に演出や音像などを考慮して付加する。ただし、音色としてのエフェクト(EQ、コンプ、ディストーションなど)は可。小林氏曰く「3Dサウンドにおいて、リヴァーブは単に「もやっと広がっている」という程度のもの。完成後のイメージをもつことが重要だ。」とのこと

・エンベロープ
聞こえ始めと終わりの定位位置をしっかり聞かせると移動が認識しやすくなる。「アタック」は強調し、「リリース」は高めを維持しておく。演出をふまえ、定位を認識できる長さ、移動に必要な長さを十分に確保することも必要になってくる

■オーサリングツールと3Dサウンドの今後
準備した素材を、実際に3Dサウンドとして立体音響処理を行う際に必要になってくるのがオーサリングツールです。今回は講師の小林氏がCTOを務めるアーニス・サウンド・テクノロジーズが製作した「SoundLocus」の特長と制作のコツが解説されました。これまであげられた諸問題や、ミックスしても定位感が損なわれないような仕様になっているとのことです。

最後に小林氏は、3Dサウンドが今後どのようになっていくのかという展望を語りました。

「5年後か、10年後かそれ以降かは分からないが、立体的な音が聞こえてくるのは当たり前になる」とし、氏が例示した「「漫画と3Dサウンドを組み合わせた電子書籍」のような想像しうる利用形態はいくらでも登場する」だろうと述べました。しかし、氏は「皆さんには、想像し得ない利用形態や、全く新たな利用形態を「創造」する人になってほしい。良いだけでない「楽しい音」を作っていってほしい」とセッションを締めくくりました。