[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4184397B2 - 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体 - Google Patents

映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4184397B2
JP4184397B2 JP2006228386A JP2006228386A JP4184397B2 JP 4184397 B2 JP4184397 B2 JP 4184397B2 JP 2006228386 A JP2006228386 A JP 2006228386A JP 2006228386 A JP2006228386 A JP 2006228386A JP 4184397 B2 JP4184397 B2 JP 4184397B2
Authority
JP
Japan
Prior art keywords
audio
stream
video
processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006228386A
Other languages
English (en)
Other versions
JP2007159092A (ja
Inventor
裕介 三木
昌弘 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006228386A priority Critical patent/JP4184397B2/ja
Priority to US11/594,117 priority patent/US7746904B2/en
Publication of JP2007159092A publication Critical patent/JP2007159092A/ja
Application granted granted Critical
Publication of JP4184397B2 publication Critical patent/JP4184397B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4112Peripherals receiving signals from specially adapted client devices having fewer capabilities than the client, e.g. thin client having less processing power or no tuning capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43076Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of the same content streams on multiple devices, e.g. when family members are watching the same movie on different devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像および音声に対する処理を行う映像音声処理本体装置およびその制御方法、音声に対する処理を行う音声処理端末装置およびその制御方法、音声に対する処理を行う音声処理本体装置、映像音声処理システム、映像音声処理本体装置制御プログラム、音声処理端末装置制御プログラム、ならびに該プログラムを記録した記録媒体に関するものである。
具体的には、本発明は、例えば、ホームシアター本体と1または複数のスピーカとを備えるホームシアターシステムに関するものである。
ホームシアターの最も一般的な形態は、ホームシアター本体からディスプレイと複数のスピーカとまでを、ネットワーク用ではない有線で接続するものである。ホームシアター本体と複数のスピーカとをそれぞれアナログ音声用の伝送線で接続するため、接続の配線が多数かつ複雑になる。特に、ホームシアター本体がユーザの前側に配置される場合、ユーザの後側に配置されるスピーカ(リアスピーカ)からホームシアター本体までの距離が遠く、家庭内等では長い配線が邪魔になる。
これを解決するため、全てあるいは一部のスピーカが、無線または有線のネットワーク技術を利用してネットワークを形成し、該ネットワーク上で音声信号を伝送する方法がある。ネットワーク用の伝送線でホームシアター本体および複数のスピーカ間を相互接続する有線ネットワークの場合、ホームシアター本体と各スピーカとをアナログ音声用の伝送線で接続する場合に比べて、配線を簡素化できる。
例えば、5.1チャンネルの音声信号を利用するホームシアターの場合、スピーカは少なくとも6台設置されることになる。このため、ネットワークを利用しない場合には、少なくとも6本のアナログ音声用の伝送線がホームシアター本体からスピーカまで設置されることになる。一方、LAN(Local Area Network)等の有線ネットワークを利用する場合、既存のネットワーク網を使うことが可能になり、ホームシアター本体およびスピーカからは、1本のネットワーク用の伝送線のみがネットワーク網のポートに接続されることになる。
音声信号をネットワーク上で伝送する場合、アナログの音声信号を例えばFM(Frequency Modulation)やAM(Amplitude Modulation)で変調して伝送することができる。しかしながら、アナログ信号をそのまま変調して伝送する場合、信号が劣化してしまう問題がある。
一方、音声信号をデジタル化して伝送する場合、赤外線、電波などの無線を用いて音声信号を伝送することができる(例えば特許文献1を参照)。しかしながら、赤外線の場合、例えば人間が送信機と受信機との間を横断したときのように、送信機と受信機との間に障害物があると伝送ができなくなり、AV(Audio Visual)機器の品質が低下する。
また、2.4GHzの帯域を用いたBluetoothなどの場合、電子レンジと同じ帯域であるため、電子レンジを使っている時にBluetoothで音声信号の伝送を行うと、音声信号が正しく伝送されない可能性があり、音声の品質、つまりAV機器の品質が低下する。したがって、実時間(リアルタイム)性が必要な映像や音声の無線伝送を行う場合、赤外線や2.4GHz帯を避けることが品質の上で重要である。
以上は、音声信号のみをネットワーク上で伝送することにより、ホームシアターの配線を簡素化する事例である。一方、近年のインターネットの普及に伴い、インターネット上のサイトにあるコンテンツを、該サイトと別の場所に存在するパソコン、PDA(Personal Digital Assistant)、携帯電話等の情報通信端末で楽しめるようになっている。
また、今後、家電製品でも上記サイトにあるコンテンツを楽しむ用途への期待が大きい。この場合、複数メーカの家電製品の相互接続性を保つことが重要であり、このための規格としては、DLNA(Digital Living Network Alliance)が挙げられる。
図8は、DLNAに基づいて、AVソース機器からテレビジョン受像機(以下「テレビ」と略称する。)にAV信号を伝送する例を示している。図示の場合、AVソース機器1001およびテレビ1002は、両方がDLNA対応であれば、それぞれが異なるメーカであっても問題なく接続が可能になる。ここで、AVソース機器1001の汎用性を高めるためには、AVソース機器1001が伝送するDLNA対応AV信号をテレビ1002だけではなく、ホームシアターでも受信できるようにすることが望ましい。
なお、AVソース機器1001は、DVD(Digital Versatile Disk)/Blu−ray DiscプレイヤーやDVD/Blu−ray Discレコーダ、HDD(hard disk drive)レコーダなどの動画再生装置や、BS(Broadcasting Satellite)/CS(Communications Satellite)チューナなどの放送受信装置などによって構成されるものである。
以上のように、ホームシアターからもネットワーク上にあるコンテンツを再生できるようにすることが重要であり、そのためには音声信号だけではなく映像信号もネットワーク上で伝送されることが必要になる。
ところで、再生する音声および映像に対する要求としてリップシンク(lip synchronization)がある。リップシンクとは、テレビに写る映像上の動きと、スピーカから出力される音声とを合わせるこという。リップシンクからのずれが大きすぎる場合、映像と音声とが対応しなくなる。非特許文献1ではリップシンクからのずれの最大値を約5msとしている。つまり、5ms以上のずれが生じると、人間はリップシンクからのずれを認識できるということである。よって、AV機器はリップシンクに対応した設計を行う必要がある。
これに対し、音声信号および映像信号をネットワーク上に伝送する場合、ネットワークの伝送に伴う遅延がさらに生じてしまう。よって、ネットワークに対応した高品質なAV機器を設計するためにはネットワークで生じる遅延をも補う必要がある。
また、非特許文献1では、ステレオ音声に対する要求として両方のスピーカの音声のずれを最大±11μsの範囲としている。よって、複数のスピーカがそれぞれ独立した通信装置を用いている場合、それぞれの通信装置のずれを±11μs以下に抑える必要がある。なお、非特許文献1ではステレオ音声のずれに対する要求を±11μsとしているが、2つ以上のスピーカの場合でも、スピーカ同士の音声のずれに対する要求は同じ±11μsである。
特許文献2では、音声信号および映像信号をネットワーク上に伝送し、さらにリップシンクの要求に対応した伝送装置が提案されている。この伝送装置は、無線送信機、音声受信機(スピーカ等)、および映像受信機(テレビ等)から構成されている。無線送信機は、一般のAV機器の出力に直接接続する機器である。ここで、AV機器が出力する音声信号と映像信号とは、それぞれ、無線送信機における音声信号符号化部と映像信号符号化部とに別々に入力されて別々に処理され、音声受信機と映像受信機とに別々に伝送される構成になっている。
特開2004−320653号公報(2004年11月11日公開) 特開2004−282667号公報(2004年10月7日公開) R. Steinmetz, "Human Perception of Jitter and Media Synchronization", IEEE Journal On Selected Areas In Communications, Vol.14, No.1, pp.61-72, January 1996
しかしながら、MPEG2等のストリームには、通常、映像と音声との両方が含まれている。このため、DLNA対応に開発されている送信機および受信機も、MPEG2ストリームには音声と映像との両方が含まれていることを想定している。よって、例え特許文献2が提案しているアーキテクチャが、その音声信号と映像信号とがDLNA対応であったとしても、音声と映像とがそれぞれ別々のストリームに伝送されるため、映像と音声とを同じストリームで伝送する一般のネットワークAV機器(以下、このような機器を「AVストリームソース機器」と称する。)との直接的な相互接続性を有さない。
なお、特許文献2のアーキテクチャは、AVストリームソース機器との間接的な相互接続性を有することができる。これは、同文献のアーキテクチャは、外部のAV機器に接続する構成になっているためである。このため、同文献のアーキテクチャに接続するAV機器の入力が、AVストリームソース機器との相互接続性を有していれば良い。この場合、上記AV機器は、映像と音声とを含んだ1つのストリームをAVストリームソース機器から受信し、次に音声と映像とを分離して、音声と映像とを別々に同文献のアーキテクチャに出力すればよい。
しかしながら、この場合、上記AV機器から特許文献2のアーキテクチャに音声と映像とを伝送し、同文献のアーキテクチャが音声受信機と映像受信機とに音声と映像とをそれぞれ伝送することになる。すなわち、音声と映像とを2回伝送することになり、帯域の無駄になる。
例えば、HDTV(High Definition Television)対応のMPEG2の場合、ストリームは20Mbps以上であり、特許文献2のアーキテクチャが入力されたストリームの伝送レートを変換しない場合、2回の伝送の合計は40Mbps以上になる。これらの伝送を無線で行う場合、現在のIEEE(The Institute of Electrical and Electronics Engineers)802.11aに準拠したWLAN(Wireless LAN)モジュールのMAC−SAP(Media Access Control Service Access Point)上の性能は35Mbps以下であり、40Mbps以上の伝送は不可能である。
現在規格化中の次世代高速無線LANのIEEE802.11nの場合では、MAC−SAP上で100Mbps以上が期待されているが、これは近距離の性能であり、例えば家庭内の場合は全体で50Mbps以下と思われる。この場合、ギリギリで上記の40Mbpsを伝送できる可能性はあるが、このときの伝送路に対する負荷が著しく大きいので、他のデータ伝送に影響を及ぼすことになる。
例えば、IEEE802.11nでは複数のHDTVの伝送が期待されている。1つのHDTVの伝送で2つ分の伝送を使ってしまうと、複数のHDTVに対応できなくなる虞がある。また、例えば今後、家庭内では映像だけではなく、通常のメールやインターネットブラウザのデータ、または家庭内のネットワークを用いてVoIP(Voice Over Internet Protocol)で電話をすることや、インターネットゲームを楽しむことなどが期待されている。そこで、これらの用途のために帯域を確保することが重要であり、帯域を無駄に使うことはこれらのサービスの品質を劣化させることになる。
なお、特許文献2のアーキテクチャが入力されたストリームの伝送レートをより高い伝送レートに変換した場合、以上の帯域問題はさらに悪化する。これとは反対に、同文献のアーキテクチャが、入力されたストリームの伝送レートをより低くする場合、伝送する音声と映像との品質が悪化する。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、帯域の無駄を抑えることができる映像音声処理本体装置、音声処理端末装置などを提供することにある。
本発明に係る映像音声処理本体装置は、映像および音声に対する処理を行う映像音声処理本体装置であって、上記課題を解決するために、前記映像および音声を含むAVストリームを、外部装置から通信ネットワークを介して受信する受信手段と、前記AVストリームを、前記映像を含む映像ストリームと、前記音声を含む音声ストリームとに分離するデマックス手段と、前記映像ストリームを処理して映像信号を生成する映像処理手段と、前記受信手段が受信したAVストリームから音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、該音声取出手段が取り出した音声ストリームを、通信ネットワークを介して1または複数の外部装置に送信する送信手段とを備えることを特徴としている。
なお、本願では、「音声」という用語は、声だけでなく、音楽、音響など、種々の音の総称として使用している。また、音声と映像とを含むAVストリームを送信する外部装置の一例としては、AVストリームのサーバなどが挙げられる。また、映像音声処理本体装置が送信した音声ストリームを受信する外部装置の一例としては、スピーカ用通信装置、ネットワーク対応スピーカなどが挙げられる。
上記の構成によれば、映像および音声を含むAVストリームを受信し、受信したAVストリームを映像ストリームと音声ストリームとに分離し、分離した映像ストリームを処理して映像信号を生成している。また、受信したAVストリームに含まれる音声の一部または全部を含む音声ストリームを取り出して1または複数の外部装置に送信している。
したがって、本発明の装置を、例えばホームシアターなどの映像音声処理システムに適用すると、AVストリームを送信する一般のネットワークAV機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑えることができる。
例えば、20MbpsのHDTV用AVストリームの場合、音声が5.1チャンネルであるDTS(Digital Theater System)形式の音声ストリームは、最大1536Kbpsであり、映像ストリームは約18.5Mbpsになる。よって、本発明での帯域は約21.5Mbpsに抑えることができ、IEEE802.11aに準拠した無線LAN(WLAN)モジュールで伝送可能である。なお、他の形式の5.1チャンネル音声ストリームは、最大伝送レートが、Dolby Digitalで448kbpsであり、AAC(Advanced Audio Coding)で912kbpsである。したがって、他の形式の音声ストリームでも無線LANモジュールで伝送可能である。
また、上記の構成によれば、音声取出手段が取り出した音声ストリームを、送信手段が通信ネットワークを介して1または複数の外部装置に送信できる。したがって、映像音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。
ここで、映像音声処理本体装置の一例であるホームシアター本体と、外部装置の一例であるスピーカ用通信装置とについて具体的に説明する。例えば、2台のリアスピーカのみに音声ストリームをネットワーク伝送したい場合、2つの方法がある。
1つは、上記2台のリアスピーカがお互いにあまり離れていない場合、音声取出手段が取り出した音声ストリームを1台のスピーカ用通信装置に送り、上記2台のリアスピーカを上記スピーカ用通信装置に接続する方法である。この場合、スピーカ用通信装置をホームシアター本体から遠くに配置することができ、リアスピーカはスピーカ用通信装置の近くに配置することができる。よって、ホームシアター本体とスピーカ用通信装置との間の配線を簡素化できる。
もう1つは、上記2台のリアスピーカがお互いに離れている場合であり、音声取出手段が取り出した音声ストリームを2台のスピーカ用通信装置に送る方法である。この場合、上記2台のスピーカ用通信装置を2台のスピーカにそれぞれ内臓することができる。よって、ホームシアター本体と2台のスピーカとの間の配線を簡素化できる。以上は2台のリアスピーカの事例であったが、より多くのスピーカを利用する場合も同様にできる。
本発明に係る映像音声処理本体装置では、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段とをさらに備えることもできる。
上記の構成によれば、上記取り出した音声ストリームに同期している音声時計手段を用いることにより、ホームシアター本体などの映像音声処理本体装置と、上記取り出した音声ストリームが伝送されるスピーカなどの外部装置とのリップシンクや、スピーカ同士の音声のずれに対する要求を満たすことができる。
本発明に係る映像音声処理本体装置では、前記音声時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して1または複数の前記外部装置に送信することもできる。
上記の構成によれば、音声時計手段の時刻をサンプリングし、サンプリングした時刻の情報を1または複数の外部装置に送信している。したがって、スピーカなどの外部装置が音声を出力するタイミングを決定するために備える音声時計手段は、上記のサンプリングした時刻を基に調整されることにより、ホームシアター本体などの映像音声処理本体装置の音声時計手段に、より正確に同期することができる。実施例では、100nsオーダで同期を達成することができた。この値は、リップシンクやスピーカ同士の音声のずれに対する要求(1〜10μsオーダ)よりも1桁低い。したがって、上記要求よりも精度の高い同期を実現できる。
本発明に係る映像音声処理本体装置では、前記AVストリームはストリーム出力時刻の情報を含んでおり、前記受信手段が受信したAVストリームを一時記憶するストリームバッファと、前記AVストリームを出力するタイミングを決定するための時刻を示すAV時計手段と、前記AVストリームに同期するように、前記AV時計手段を調整する調整手段と、前記AVストリームのAVストリーム出力時刻が、前記AV時計手段が示す時刻に比べて等しいまたは遅い場合、対応するAVストリームの全部または一部を前記デマックス手段に送信する比較手段とをさらに備えることもできる。
上記の構成によれば、ストリーム出力時刻を基準にしてAVストリームの全部または一部をデマックス手段に出力することにより、MPEG2−TSが要求する同期精度を達成することができる。なお、よい同期精度が達成できる理由は、通常のMPEG2デコーダ内ではデコーダの時計手段が用いられ、この時計手段をMPEG2ストリームに同期させる必要があるためである。MPEG2デコーダに入力されるMPEG2−TSの信号を上記の方法で同期させておくことにより、MPEG2デコーダ内部の時計手段の同期を高い精度にすることができる。つまり、MPEG2デコーダ内部の時計手段は2回同期されることになる。
本発明に係る映像音声処理本体装置では、前記受信手段は、受信するAVストリームに同期した時計調整用時刻の情報をさらに受信しており、前記調整手段は、前記時計調整用時刻を基に前記AV時計手段を調整することもできる。
上記の構成によれば、AVストリームに同期した時計調整用時刻を用いてAV時計手段を調整することにより、MPEG2−TSが要求する精度またはさらに良好な精度の同期を達成することができる。
本発明に係る映像音声処理本体装置では、前記音声取出手段は、前記AVストリームを前記受信手段が送信してから前記ストリームバッファが受信するまでの間に、前記AVストリームから、前記音声の一部または全部を含む音声ストリームを取り出すこともできる。さらに、前記音声取出手段が取り出した音声ストリームは、前記AVストリーム出力時刻の情報を含むこともできる。
上記の構成によれば、ストリーム出力時刻の情報を含む音声ストリームを、ホームシアター本体などの映像音声処理本体装置からスピーカなどの外部装置に送信できる。これにより、外部装置が備える上記音声時計手段は、上記ストリーム出力時刻を基に調整されることにより、映像音声処理本体装置の音声時計手段に同期することができる。したがって、映像音声処理本体装置および外部装置は、ストリーム出力時刻を基に映像と音声との処理を行うため、簡単にリップシンクを達成することができる。
本発明に係る映像音声処理本体装置では、前記AV時計手段の時刻をサンプリングするサンプリング手段をさらに備えており、前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して1または複数の前記外部装置に送信することもできる。
上記の構成によれば、映像音声処理本体装置のAV時計手段と音声時計手段とを1つにまとめることができるので、映像音声処理本体装置のアーキテクチャを縮小できる。
本発明に係る映像音声処理本体装置は、前記音声ストリームを処理して音声信号を生成する音声処理手段をさらに備えることを特徴としている。
上記の構成によれば、分離した音声ストリームを処理してさらに音声信号を生成している。したがって、本発明の映像音声処理本体装置は、映像信号を生成することに加え、音声信号も生成することができる。
なお、音声取出手段は、前記AVストリームを前記受信手段が送信してから、前記音声処理手段が前記音声信号を送信するまでの間に、前記AVストリームに含まれる音声の一部または全部を含む音声ストリームを取り出せばよい。
本発明に係る映像音声処理本体装置では、前記音声取出手段は、前記音声処理手段から、前記音声の一部または全部を含む音声ストリームを取り出すこともできる。
通常、映像処理手段と音声処理手段とは同じ半導体チップの一部であり、該半導体チップは音声信号を出力している。このため、上記の構成によれば、音声取出手段が、音声処理手段が出力した音声信号を取り出して音声ストリームとすることができ、音声の取出しが容易となる。
本発明に係る映像音声処理本体装置では、前記音声処理手段が出力する音声信号を遅延させる音声遅延手段をさらに備えることもできる。また、本発明に係る映像音声処理本体装置では、前記映像処理手段が出力する映像信号を遅延させる映像遅延手段をさらに備えることもできる。
ところで、音声取出手段が取り出した音声ストリームは、音声処理手段が処理した後の音声ストリームであり、この音声ストリームは、映像音声処理本体装置から外部装置に伝送されてから外部装置の音声処理手段でさらに処理されることになる。このため、映像音声処理本体装置から出力される映像および音声と、外部装置から出力される音声とは、ネットワーク伝送の時間分と外部装置の音声処理の時間分とによるずれが生じる。
そこで、上記の構成によれば、音声遅延手段および映像遅延手段を用いて映像音声処理本体装置からの音声および映像を遅延させることにより、映像音声処理本体装置からの映像および音声と外部装置からの音声との同期を取ることができる。したがって、映像音声処理本体装置と外部装置とのリップシンクに対する要求を満たすことができる。
本発明に係る映像音声処理本体装置では、前記AVストリームは、映像処理開始時刻、映像表示時刻、音声処理開始時刻、および音声表示時刻のうちの少なくとも1つの時刻の情報を含んでおり、前記AVストリームに含まれる前記時刻を調整する時刻調整手段をさらに備えることもできる。
ところで、映像処理手段が出力する映像は非圧縮の映像であり、映像の解像度と映像のフレームレートにより、映像遅延手段が必要とするメモリ容量が膨大になることもある。これに対し、上記の構成によれば、AVストリームの映像処理開始時刻または映像表示時刻を調整して遅延させることにより、AVストリームは圧縮されているストリームであるため、映像遅延手段が必要とするメモリ容量を抑えることができる。したがって、小さいアーキテクチャによりリップシンク要求を簡単に満たすことができる。なお、音声についても同様のことがいえる。
本発明に係る映像音声処理本体装置では、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記時計手段を調整する調整手段とをさらに備えることもできる。
ところで、デマックス手段、映像処理手段、および音声処理手段はMPEG2−TSの処理に含まれる。また、デマックス手段に入力されるAVストリームは500ns以内で同期している方が良いという要求がある。一方、映像処理および音声処理後の復号されたMPEG2−TSの映像は2ns以内で同期していて、音声も同等なレベルで同期されている。よって、MPEG2−TSに入力されたストリームは500ns以内の同期から2ns程度までに小さくなる。よって、特に取り出した音声ストリームがPCMやSPDIFの場合、このストリームは高い精度で同期している。
これに対し、AV時計手段と音声時計手段とは500nsで同期している。このため、AV時計手段と音声時計手段とを同じにすれば、音声時計手段と、音声取出手段が取り出した音声ストリームとの同期の精度も500nsレベルの低いものになってしまう。
そこで、本発明の上記の構成によれば、AV時計手段と音声時計手段を別にすることにより、音声時計手段をより高い精度で取り出した音声ストリームと同期させることができる。また、音声取出手段が取り出した音声ストリームに同期するように音声時計手段を調整することにより、音声時計手段をさらに高い精度で同期させることができる。
本発明に係る映像音声処理本体装置では、前記音声取出手段が前記音声ストリームを取り出した時に、前記音声時計手段の時刻をサンプリングする取出時サンプリング手段とをさらに備えており、該取出時サンプリング手段は、サンプリングした時刻に最大音声伝送時間分を加算してストリーム出力時刻とし、前記送信手段は、前記ストリーム出力時刻の情報を含む前記音声ストリームを、通信ネットワークを介して1または複数の前記外部装置に送信することもできる。
上記の構成によれば、映像音声処理本体装置からの映像および音声と、外部装置からの音声とを、より確実に同期させることができる。
本発明に係る映像音声処理本体装置では、前記音声取出手段が取り出した音声ストリームは、固定ビットレートの連続ビットストリームであり、かつ同期を取るための同期ヘッダを含んでおり、前記調整手段は、前記同期ヘッダを認識して前記音声時計手段の調整を行うこともできる。
上記の構成によれば、例えばS/PDIF(Sony/Philips Digital Interface Format)のようにS/PDIF信号を同期するための同期ヘッダ(Preamble)が含まれている場合、音声時計手段の同期を音声ストリーム(S/PDIF)に簡単に合わせることができる。
本発明に係る音声処理本体装置は、音声に対する処理を行うと共に音声ストリームを送信する音声処理本体装置であって、上記課題を解決するために、少なくとも音声を含む音声ストリームを取得する取得手段と、取得した音声ストリームに対し音声処理を行って音声信号を出力する音声処理手段と、前記音声ストリームから、前記音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声取出手段が取り出した音声ストリームに同期するように、前記音声時計手段を調整する調整手段と、前記音声時計手段の時刻をサンプリングするサンプリング手段と、該音声取出手段が取り出した音声ストリームと、前記サンプリング手段がサンプリングした時刻の情報とを、通信ネットワークを介して1または複数の外部装置に送信する送信手段とを備えることを特徴としている。
上記の構成によれば、少なくとも音声を含む音声ストリームを取得し、取得した音声ストリームを処理して音声信号を生成する一方、音声取出手段が取り出した音声ストリームを、送信手段が通信ネットワークを介して1または複数の外部装置に送信している。したがって、上述と同様に、音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。
また、上記取り出した音声ストリームに同期している音声時計手段を用いることにより、音声処理本体装置と外部装置とにおける音声のずれに対する要求を満たすことができる。
さらに、音声時計手段の時刻をサンプリングし、サンプリングした時刻の情報を1または複数の外部装置に送信している。したがって、外部装置が音声を出力するタイミングを決定するために備える音声時計手段は、上記のサンプリングした時刻を基に調整されることにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。
なお、上記送信手段は、上記音声取出手段が取り出した音声ストリームと、上記サンプリング手段がサンプリングした時刻の情報とを、一体として送信してもよいし、別々に送信してもよい。
本発明に係る音声処理端末装置は、上記課題を解決するために、前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信する受信手段と、前記音声ストリームを処理して音声信号を生成する音声処理手段と、音声を出力するタイミングを決定するための時刻を示す音声時計手段と、前記音声ストリームに同期するように、前記音声時計手段を調整する調整手段とを備えることを特徴としている。
上記の構成によれば、音声を含む音声ストリームを受信し、受信した音声ストリームを処理して音声信号を生成する一方、受信した音声ストリームに同期している音声時計手段を用いて、音声を出力するタイミングを決定している。これにより、外部装置(映像音声処理本体装置、音声処理本体装置)と音声処理端末装置とにおける音声のずれに対する要求を満たすことができる。また、上記の構成によれば、一般のネットワークAV機器が伝送したAVストリームに対応したネットワークホームシアターに対応できるネットワークスピーカの構築が可能となる。
本発明に係る音声処理端末装置では、前記受信手段は、受信した音声ストリームに対応する音声を前記外部装置が出力するタイミングを示す時刻の情報を受信し、前記調整手段は、前記時刻の情報を基に前記音声時計手段を調整することもできる。
上記の構成によれば、受信した音声ストリームに対応する音声を前記外部装置が出力するタイミングを示す時刻の情報を受信し、この時刻の情報を基に音声時計手段を調整している。これにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。
本発明に係る音声処理端末装置では、前記受信手段は、受信した音声ストリームに同期した時計調整用時刻の情報を受信し、前記調整手段は、前記時計調整用時刻を基に前記音声時計手段を調整することもできる。
上記の構成によれば、受信した音声ストリームに同期した時計調整用時刻の情報を受信し、この時計調整用時刻を基に音声時計手段を調整している。これにより、音声処理本体装置の音声時計手段に、より正確に同期することができる。その結果、上記要求よりも精度の高い同期を実現できる。
本発明に係る音声処理端末装置では、前記音声ストリームはストリーム出力時刻の情報を含んでおり、前記受信手段が受信した音声ストリームを一時記憶するストリームバッファと、前記音声ストリームのストリーム出力時刻が、前記音声時計手段が示す時刻に比べて等しいまたは遅い場合、対応する音声ストリームの全部または一部を前記音声処理手段に送信する比較手段とをさらに備えることもできる。
上記の構成によれば、ストリーム出力時刻を基準にして音声ストリームを音声処理手段に出力することにより、上述のように、MPEG2−TSが要求する同期精度を達成することができる。
なお、上記構成の映像音声処理本体装置と、該映像音声処理本体装置から通信ネットワークを介して音声ストリームを受信する上記構成の音声処理端末装置とを備える映像音声処理システムであれば、上記と同様の効果を奏することができる。
本発明に係る映像音声処理本体装置の制御方法は、映像および音声に対する処理を行う映像音声処理本体装置の制御方法であって、上記課題を解決するために、前記映像および音声を含むAVストリームを、外部装置から通信ネットワークを介して受信し、受信したAVストリームから音声の一部または全部を含む音声ストリームを取り出し、取り出した音声ストリームを、通信ネットワークを介して1または複数の外部装置に送信することを特徴としている。
上記の方法によれば、映像および音声を含むAVストリームを受信し、受信したAVストリームに含まれる音声の一部または全部を含む音声ストリームを取り出して1または複数の外部装置に送信している。
したがって、本発明の方法を、例えばホームシアターなどの映像音声処理システムに適用すると、AVストリームを送信する一般のネットワークAV機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑えることができる。また、取り出した音声ストリームを、通信ネットワークを介して1または複数の外部装置に送信するので、映像音声処理本体装置と外部装置との構成や配置を柔軟に変更できる。
本発明に係る音声処理端末装置の制御方法は、音声に対する処理を行う音声処理端末装置であって、音声を出力するタイミングを決定するための時刻を示す音声時計手段を備える音声処理端末装置の制御方法であって、上記課題を解決するために、前記音声を含む音声ストリームを、外部装置から通信ネットワークを介して受信すると、前記音声ストリームに同期するように、前記音声時計手段を調整し、調整された前記音声時計手段が示す時刻を基に、前記音声ストリームを処理して音声信号を生成することを特徴としている。
上記の方法によれば、音声を含む音声ストリームを受信し、受信した音声ストリームを処理して音声信号を生成する一方、受信した音声ストリームに同期している音声時計手段を用いて、音声を出力するタイミングを決定している。これにより、外部装置(映像音声処理本体装置、音声処理本体装置)と音声処理端末装置とにおける音声のずれに対する要求を満たすことができる。
なお、上記映像音声処理本体装置における各手段を映像音声処理本体装置制御プログラムによりコンピュータ上で実行させることができる。また、上記音声処理端末装置における各手段を音声処理端末装置制御プログラムによりコンピュータ上で実行させることができる。
さらに、上記映像音声処理本体装置制御プログラム、および/または、上記音声処理端末装置制御プログラムをコンピュータ読取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記映像音声処理本体装置制御プログラム、および/または、上記音声処理端末装置制御プログラムを実行させることができる。
以上のように、本発明に係る映像音声処理本体装置は、映像および音声を含むAVストリームを受信し、受信したAVストリームから音声の一部または全部を含む音声ストリームを取り出して1または複数の外部装置に送信するので、AVストリームを送信する一般のネットワークAV機器と直接的な相互接続性を有すると共に、従来よりも映像および音声の伝送回数を減らして帯域の無駄を抑える効果を奏する。
〔実施の形態1〕
本発明の一実施形態について図1〜図3に基づいて説明すると以下の通りである。図1は、本実施形態のAVストリーム伝送システムの概略構成を示している。図示のように、AVストリーム伝送システム1は、AVストリーム伝送装置610とホームシアター10とがネットワーク710を介して通信可能に接続した構成である。
AVストリーム伝送装置610は、AVストリームを伝送するものである。AVストリーム伝送装置610は、例えばAVサーバ、ネットワーク対応のDVD・HDD・CD等のプレイヤーやチューナなどである。
AVストリーム伝送装置610が伝送したAVストリームは、ネットワーク710を介してホームシアター10で受信する。なお、AVストリーム伝送装置610が伝送した上記のAVストリームは、ホームシアター10だけではなく、ネットワーク化された通常のテレビ受像機でも受信可能である。
AVストリームは、例えばMPEG2−TS(Transport Stream)、MPEG2−PS(Program Stream)、MPEG4、H.324、H.264、WMV(Windows(登録商標) Media Video)など、任意のAV形式であってもよい。
なお、ネットワーク710としては、特に限定されず、例えば、インターネット、LAN、移動体通信網、衛星通信網等が利用可能である。
図1に示されるように、ホームシアター10は、本体部110とスピーカ部310とから構成される。本体部110は、通信部120、ストリーム変換部130、ストリーム同期部140、デマックス部150、映像処理部160、音声処理部170、音声取出部180、サンプリング部190、音声時計部200、調整部210、映像アンプ240、および音声アンプ270を備える構成である。
まず、本体部110の通信部120は、AVストリーム伝送装置610が伝送したAVストリームを、ネットワーク710を介して受信してストリーム変換部130に渡す。ストリーム変換部130は、入力されたAVストリームの形式を、本体部110の映像処理部160と音声処理部170とが処理できる形式に変換し、変換したAVストリームをストリーム同期部140に渡す。例えば、映像処理部160と音声処理部170とがMPEG2−PS形式に対応しており、入力されたAVストリームがMPEG4形式であった場合、ストリーム変換部130はMPEG4形式からMPEG2−PS形式に変換する。
なお、AVストリーム伝送装置610からのAVストリームの形式が、映像処理部160と音声処理部170とにおいて処理可能な形式である場合、ストリーム変換部130は不要となる。この場合、通信部120が出力するAVストリームは、ストリーム同期部140に入力されることになる。
ストリーム同期部140は、例えばストリーム同期部140に入力されたAVストリームがMPEG2−TS形式であった場合のように、AVストリームをAV処理部(映像処理部160と音声処理部170)に渡す時刻を表すストリーム出力時刻(TS時報)がAVストリームに含まれている場合に用いる。
なお、ストリーム同期部140が行う処理は、MPEG2−TSがTS時報について行う処理と同じである。そこで、ストリーム同期部140の詳細について説明する前に、MPEG2−TSについて説明する。
MPEG2−TSは、トランスポートストリーム形式のMPEG2をインターネット上で伝送するためのAVストリーム形式である。図7は、送信側端末装置から受信側端末装置へのMPEG2−TSストリームのデータ転送の流れを示している。送信側端末装置1071は、MPEG2−TSエンコーダ(以下、単に「エンコーダ」と称する。)1061、送信側上位層1091、および送信側通信部1081を備える構成である。また、受信側端末装置1072は、MPEG2−TSデコーダ(以下、単に「デコーダ」と称する。)1062、受信側上位層1092、受信側通信部1082を備える構成である。
エンコーダ1061は、AVストリームを188バイトのパケットに分割して、送信側上位層に出力する。このパケットは、送信側上位層1091と送信側通信部1081とにおいて処理され、通信路rを介して、受信側端末装置1072にて受信される。
一方、受信側端末装置1072では、送信側端末装置1071からのパケットを、受信側通信部1082と受信側上位層1092とにおいてこの順序で処理される。受信側上位層1092が出力するパケットは、エンコーダ1061が出力した188バイトのパケットと同じである。デコーダ1062は、受信側上位層1092が出力するパケットを受信し、受信したパケットをAVストリームに変換して出力する。
ここで、映像が滑らかに出力されるために、エンコーダ1061が出力するパケットの間隔と、デコーダ1062に入力されるパケットの間隔とが同じであるという条件を満たす必要がある。図9は、この条件をタイムチャートで示している。図示のように、エンコーダ1061が出力するパケット1とパケット2との時間差がt1である場合、同じパケット1とパケット2とがデコーダ1062に入力される時間差t1’もt1’=t1でなければならない。もし、t1’≠t1であれば、デコーダ1062に入力されるパケットは、正しいタイミングで入力されなくなり、映像も滑らかに出力されなくなる。
そこで、上記の条件を満たすため、送信側上位層1091は、図7に示されるように、エンコーダ1061からのパケットに対する最初の処理として、MPEG2−TSのパケットp(188バイト)に、TS用の時報(TS時報)を含んだヘッダh(4バイト)を追加したパケット1050を生成する。
また、図7に示されるように、送信側上位層1091と受信側上位層1092とには、それぞれ同期している送信側時計1051と受信側時計1052とを有する。そして、ヘッダhに含まれるTS時報は、[エンコーダ1061から入力された時刻]+delay1(delay1は固定値)である。ここで、エンコーダ1061から入力された時刻は、送信側時計1051が示す時刻をサンプリングしたものである。送信側上位層1091が生成したパケット1050は、送信側上位層1091にてその他の処理が行われ、送信側通信部1081から受信側端末装置1072に伝送される。
一方、受信側端末装置1072では、送信側端末装置1071から伝送されるパケットが、受信側通信部82で受信され、受信側上位層1092でまずその他の処理が行われることにより、送信側上位層1091が生成したパケット1050と同じパケット1050’が復元される。このパケット1050’は、バッファ1096に一時記憶される。
ここで、受信側上位層1092は、パケット1050’に含まれるMPEG2−TSパケットpを適切な時刻にデコーダ1062に出力することが重要である。このため、パケット1050’に含まれるTS時報を、[受信側時計1052が示す時刻]+delay2(delay2は固定値)と比較器1095にて比較し、一致した場合に、スイッチ1097を入れて、パケット1050’におけるMPEG2−TSパケットpをデコーダ1062に出力する。以上のように、TS時報をMPEG2−TSパケットに追加することにより、エンコーダ1061が出力するパケットの間隔と、デコーダ1062に入力されるパケットの間隔とを同じにすることができる。
なお、TS時報をMPEG2−TSに用いる事例として、DLNAとIEEE1394がある。DLNAの場合、送信側時計1051はMPEG2エンコーダ内部の時計に同期される。IEEE1394の場合、送信側時計1051はIEEE1394の時計に同期される。よって、DLNAおよびIEEE1394のいずれにしても、送信側時計1051、受信側時計1052、およびMPEG2−TSストリームはお互いに同期している。
次に、ストリーム同期部140の詳細について説明する。図2は、ストリーム同期部140の概略構成を示している。図示のように、ストリーム同期部140は、ストリームバッファ142、調整部145、時計部146、および比較部148を備える構成である。時計部146が、図7に示される受信側時計1052に対応する。
まず、AVストリームはストリームバッファ142に格納される。ここで、時計部146は、調整部145によってAVストリームに同期される。なお、調整部145の調整方法の例としては、ストリームバッファ142の残量を参照して調整を行う、ストリームバッファ142のAVストリームのストリーム出力時刻を参照して調整を行う、外部のAVストリーム伝送装置610が同期用情報を送信し、通信部120がこの同期用情報を受信して調整を行うことなどが考えられる。また、調整部145に利用される回路例としては、PLL(Phase Locked Loop)が挙げられる。
比較部148は、AVストリームのストリーム出力時刻と時計部146の時刻とを比較し、ストリーム出力時刻が時計部146の時刻に等しいあるいは大きい場合、AVストリームをデマックス部150に出力する。なお、ここで出力されるAVストリームは、ストリーム出力時刻を含まないものであっても良い。
なお、AVストリーム伝送装置610から受信するAVストリームが、例えばMPEG2−PSのように、ストリーム出力時刻を含まない場合、ストリーム変換部130または通信部120が出力するAVストリームは、直接デマックス部150に渡しても良い。
デマックス部150は、AVストリームから映像と音声とを分離し、映像ストリームと音声ストリームとをそれぞれ映像処理部160と音声処理部170とに渡す。映像処理部160は、受け取った映像ストリームの復号を行い、復号した映像信号を映像アンプ240に渡す。映像アンプ240は、受け取った映像信号を増幅してテレビ810に出力する。
一方、音声処理部170は、受け取った音声ストリームの復号を行い、復号した音声信号を音声アンプ270に渡す。音声アンプ270は、受け取った音声信号を増幅してスピーカ820に出力する。なお、デマックス部150、映像処理部160、および音声処理部170は、例えばMPEG2ストリームの場合、通常1つの半導体チップに含まれる。
音声取出部180は、通信部120から音声処理部170の後までの処理中に特定の部分から音声ストリームを取り出す。取り出された音声ストリームは、通信部120とネットワーク710とを介して、スピーカ部310に伝送される。
音声時計部200は、音声取出部180が取り出した音声ストリームに対し、調整部210によって同期される。なお、スピーカ部310の音声時計部346は本体部110の音声時計部200に同期している。また、音声時計部200の調整方法は後述する。
なお、取り出した音声ストリームがMPEG2に対応している場合、この音声ストリームはMPEG2のアダプテーションフィールド(Adaptation Field)やPSI(Program Specific Information)テーブルなどを含んでも良い。
サンプリング部190は、通信部120と音声時計部200との間に設けられ、音声時計部200の時刻(以下、この時刻を「同期用時報」と称する。)をサンプリングする。サンプリングされた同期用時報は、通信部120とネットワーク710とを介して、スピーカ部310に伝送される。なお、サンプリング部190がサンプリングした同期用時報を、スピーカ部310が利用しない場合も考えられる。この場合、サンプリング部190を設ける必要はなく、上記同期用時報をスピーカ部310に伝送する必要もない。
なお、図1の例では、スピーカ部310は2つであるが、1つでも良いし、3つ以上でも良い。また、複数のスピーカ部310は、複数のスピーカ部310に別々のチャネルの音声を出力しても良い。
スピーカ部310は、通信部320、音声変換部330、音声同期部340、デマックス部350、音声処理部370、および音声アンプ470を備える構成である。
まず、スピーカ部310の通信部320は、本体部110が伝送した音声ストリームを、ネットワーク710を介して受信して音声変換部330に渡す。音声変換部330は、入力された音声ストリームの形式を、スピーカ部310の音声処理部370が処理できる形式に変換し、変換した音声ストリームを音声同期部340に渡す。例えば、音声処理部370がAAC形式に対応しており、入力された音声ストリームがDTS形式であった場合、音声変換部330はDTS形式からAAC形式に変換する。
なお、本体部110からの音声ストリームの形式が、音声処理部370とにおいて処理可能な形式である場合、音声変換部330は不要となる。この場合、通信部320が出力する音声ストリームは、音声同期部340に入力されることになる。
音声同期部340は、例えば音声同期部340に入力された音声ストリームがMPEG2−TS形式であった場合のように、音声ストリームを音声処理部370に渡す時刻を表すストリーム出力時刻(TS時報)が音声ストリームに含まれている場合に用いる。なお、音声同期部340が行う処理は、MPEG2−TSがTS時報について行う上述の処理と同じである。
図3は、音声同期部340の概略構成を示している。図示のように、音声同期部340は、ストリームバッファ342、調整部345、音声時計部346、および比較部348を備える構成である。
まず、音声ストリームはストリームバッファ342に格納される。ここで、音声時計部346は、調整部345によって音声ストリーム、つまり本体部110の時計部146に同期される。なお、調整部345の調整方法の例としては、ストリームバッファ342の残量を参照して調整を行う、ストリームバッファ342の音声ストリームのストリーム出力時刻を参照して調整を行う、本体部110が送信した同期用時報の時刻情報を用いて調整を行うことなどが考えられる。また、調整部345に利用される回路例としては、PLLが挙げられる。
比較部348は、音声ストリームのストリーム出力時刻と音声時計部346の時刻とを比較し、ストリーム出力時刻が音声時計部346の時刻に等しいあるいは大きい場合、音声ストリームをデマックス部350に出力する。なお、ここで出力される音声ストリームは、ストリーム出力時刻を含まないものでも良い。
なお、本体部110から受信する音声ストリームが、例えばMPEG2−PSのように、ストリーム出力時刻を含まない場合、音声変換部330または通信部320が出力する音声ストリームは、直接デマックス部350に渡しても良い。
デマックス部350は、音声ストリームを音声処理部370に渡す。デマックス部350は通常不要であるが、例えば音声処理部370に通常の映像処理も行えるMPEG2の半導体チップなど用いた場合、デマックス部350が含まれている場合がある。音声処理部370は、受け取った音声ストリームの復号を行い、復号した音声信号を音声アンプ470に渡す。音声アンプ470は、受け取った音声信号を増幅してスピーカ830に出力する。
なお、サンプリング部190がサンプリングした音声時計部200の時刻は、本体部110からスピーカ部310にマルチキャストまたはブロードキャストで伝送されても良い。上記時刻をマルチキャストあるいはブロードキャストすることにより、帯域を効率よく利用できる。
同様に、音声ストリームは、本体部110からスピーカ部310にマルチキャストまたはブロードキャストでストリーム伝送されても良い。音声ストリームをマルチキャストあるいはブロードキャストすることにより、帯域を効率よく利用できる。
また、サンプリング部190がサンプリングした音声時計部200の時刻は、本体部110からスピーカ部310にユニキャストで伝送されても良い。サンプリングされた時刻を再送可能なユニキャストで伝送することにより、伝送をより確実に行うことができる。
同様に、音声ストリームは、本体部110からスピーカ部310にユニキャストで伝送されても良い。音声ストリームを再送可能なユニキャストで伝送することにより、伝送をより確実に行うことができる。
また、本体部110およびスピーカ部310は、受信するストリームが例えば著作権保護されている場合、暗号化の解読を行う暗号化処理部を含んでも良い。この場合、暗号化処理部は映像処理部160および音声処理部170・370の上流側に設けられる。
また、本体部110は、スピーカ部310に伝送する音声ストリームに対し著作権保護のために暗号化処理を行う暗号化処理部を含んでも良い。この場合、暗号化処理部は音声取出部180の下流側に設けられる。
また、AVストリーム伝送装置610、本体部110、およびスピーカ部310における通信手段は、例えばIEEE802.11系の無線LAN(WLAN)に対応してもよい。通信ネットワークをWLANにすることにより、ホームシアター本体とネットワークスピーカとの間に配線を使う必要がなくなり、より簡単にホームシアターを設定することができ、配線状況が簡素化される。また、WLANで5GHz帯域を用いると、赤外線や2.4GHzで発生する問題を回避することができる。
また、AVストリーム伝送装置610、本体部110、およびスピーカ部310における通信手段は、例えばPLC(電力線搬送通信)に対応してもよい。通信ネットワークをPLCにすることにより、ホームシアター本体とネットワークスピーカとの間に既存の電力線を使うことができ、より簡単にホームシアターを設定することができ、配線状況が簡素化される。
〔実施の形態2〕
次に、本発明の別の実施形態について、図4を参照しつつ以下に説明する。本実施形態では、音声取出部180は、ストリーム同期部140に入力される前のAVストリームから音声ストリームを取り出している。また、本実施形態では、AVストリームは、例えばMPEG2−TSのように、AVストリームをAV処理部(映像処理部160および音声処理部170)に渡す時刻を示すストリーム出力時刻(TS時報)がAVストリームに含まれている。
図4は、本実施形態において、AVストリーム伝送装置610から本体部110とスピーカ部310とに伝送されるAVストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、AVストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図1に示される構成に比べて、ストリーム変換部130と音声変換部330とが省略されているが、必要に応じて設けても良い。
本実施形態では、まず、本体部110において、時計部146(図2参照)と音声時計部200とは同じとする。この場合、調整部145と調整部210も同じである。また、本体部110の時計部146とスピーカ部330の音声時計部346(図3参照)とは同期がとれているとする。
AVストリームは、AVストリーム伝送装置610から伝送され、本体部110の通信部120で受信される。通信部120が処理した後、AVストリームは、ストリーム同期部140内部のストリームバッファ142に渡され、かつ音声取出部180により音声ストリームが取り出される。図4の例では、音声ストリームa7が、ストリームバッファ142に入力されようとしていると共に、音声取出部180にて取り出されている。
音声取出部180が取り出した音声ストリームは、通信部120がスピーカ部310に伝送する。スピーカ部310の通信部320は、音声ストリームを受信してストリームバッファ342に渡す。なお、本体部110の通信部120からスピーカ部310の通信部320までの間には複数の音声ストリームが存在する。図4の例では、音声ストリームa4〜a7が存在する。
したがって、スピーカ部310の音声ストリームは、本体部110のAVストリームにおける音声ストリームに比べて遅延することになる。この遅延を吸収することがストリームバッファ342の一機能である。なお、この遅延は、例えば、本体部110からスピーカ部310に音声ストリームを転送することによる。よって、本体部110のストリームバッファ142は、上記転送が終わるまで、対応するAVストリームを保存しておく。
次に、本体部110では、ストリームバッファ142のAVストリームのストリーム出力時刻と、時計部146の時刻とが、比較部148で比較される。同時に、スピーカ部310では、ストリームバッファ342の音声ストリームのストリーム出力時刻と、時計部346の時刻とが、比較部348で比較される。両方の時計部146・346は同期しているため、本体部110とスピーカ部310との両方の音声ストリームは、それぞれ同時にストリームバッファ142・342からデマックス部150・350に渡される。図4の例では、ストリームバッファ142・342からデマックス部150・350に渡される音声ストリームは、音声ストリームa1である。
本体部110では、AVストリームは、デマックス部150を介して映像処理部160と音声処理部170とに渡される。一方、スピーカ部310では、音声ストリームは、デマックス部350を介して音声処理部370に渡される。
以上のように、本体部110とスピーカ部310とでは、対応するストリームは同時に音声処理が行われるため、ストリーム同期部140に入力される前のAVストリームから音声ストリームを取り出すだけで簡単にリップシンクを達成することができる。
なお、スピーカ部310では、例えばデマックス部350を用いないなどの理由から、スピーカ部310の比較部348と本体部110の比較部148との処理以降で多少固定の遅延が生じる可能性がある。この場合、本体部110の比較部148とスピーカ部310の比較部348との何れかの入力(時計部の時刻、またはストリーム出力時刻)に対応するオフセット値を加算すれば良い。
なお、本実施形態では、MPEG2−TSなどのストリームに対応した事例であるが、本実施形態の手法を用いてMPEG2−PSなどに対応するためには、図1のようにストリーム変換部130を用いれば良い。
〔実施の形態3〕
次に、本発明のさらに別の実施形態について、図5を参照しつつ以下に説明する。本実施形態のホームシアターは、図4に示されるホームシアター10に比べて、音声取出部180が音声処理部170から音声ストリームを取り出し、かつ映像処理部160が出力した映像を遅延させる点が異なり、その他の構成は同様である。なお、上記実施形態で説明した構成と同様の機能を有する構成には同一の符号を付して、その説明を省略する。
図5は、本実施形態において、AVストリーム伝送装置610から本体部110とスピーカ部310とに伝送されるAVストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、AVストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図1に示される構成に比べて、ストリーム変換部130と音声変換部330とが省略されているが、必要に応じて設けても良い。
本実施形態では、図1に示される構成に比べて、映像遅延部220と音声遅延部230とが追加されている。また、本実施形態では、映像処理部160と音声処理部170とは、任意のAVストリーム形式に対応できる。但し、例えばMPEG2−TS形式のAVストリームのように、ストリーム出力時刻(TS時報)がAVストリームに含まれている場合、ストリーム同期部140を映像処理部160と音声処理部170との上流側に設ける必要がある。この場合、ストリーム同期部140の時計部146と音声時計部200とは別々に設ける方が望ましい。その理由は、音声処理部170では入力されたAVストリームの同期精度をさらに向上させて音声ストリームを出力するためである。
よって、取り出した音声ストリームに基づいて音声時計部200の時刻を作成する方がより高い精度になる。このため、調整部210は、音声ストリームを基に音声時計部200の調整を行う。これは、例えば音声ストリームがS/PDIF形式である場合、S/PDIFのデータには特定の固定長の同期ヘッダ(Preamble)が付随するので、この同期ヘッダを認識することにより音声時計部200の微調整を行うことができる。また、本体部110の時計部200とスピーカ部330の音声時計部346とは同期がとれているとする。
AVストリームは、AVストリーム伝送装置610から伝送され、本体部110の通信部120で受信され、前述の処理を行った後、映像処理部160と音声処理部170とから映像と音声とがそれぞれ映像遅延部220と音声遅延部230とに出力される。
このとき、音声取出部180は、音声処理部160の処理結果、または途中結果の音声ストリームを取り出す。処理結果の例として、完全に復号されたPCM(Pulse Code Modulation)信号が挙げられ、途中結果の例としては、圧縮されたS/PDIF信号が挙げられる。
圧縮されたS/PDIF信号を出力するためには、それほど時間を必要としないため、対応するPCM信号より早く出力することができる。この場合、例えば図5の音声遅延部230に出力される音声信号がPCM信号であり、音声取出部180が取り出す信号が圧縮されたS/PDIF信号である場合、PCM信号が音声遅延部230に出力された時、対応する圧縮されたS/PDIF信号はすでに取り出されて通信部120で処理されている(図5の符号b2)。
一方、音声取出部180が取り出す信号がPCM信号である場合、音声取出部180がPCM信号を取り出す時刻と、音声処理部170がPCM信号を音声遅延部230に出力する時刻とが同じとなる。なお、音声取出部180が取り出す信号がPCM信号以外の音声信号である場合でも、音声取出部180が上記音声信号を取り出す時刻と、音声処理部170がPCM信号を音声遅延部230に出力する時刻とが同じとが同じであれば同様である。
音声取出部180が音声ストリームを取り出すと、サンプリング部190は音声時計部200の時刻をサンプリングし、所定時間delay1を加算して、ストリーム出力時刻として音声ストリームに追加する。ここで、所定時間delay1は、図5に示されるように、音声取出部180が音声ストリームを取り出した時刻から、該音声ストリームに対する音声処理をスピーカ部310の音声処理部370が開始する時刻までの期間である。すなわち、所定時間delay1は、音声ストリームが本体部110からスピーカ部310に送信されるまで、再送の時間などを考慮した十分な時間に相当する。
よって、取り出された音声ストリームには、ストリーム出力時刻が追加されて通信部120に渡される。通信部120は、この音声ストリームをスピーカ部310に伝送し、スピーカ部310は、通信部320で音声ストリームを受信してストリームバッファ342に渡す。
次に、比較部348は、音声時計部346の時刻と、ストリームバッファ342に一時記憶された音声ストリームのストリーム出力時刻とを比較し、ストリーム出力時刻が音声時計部346の時刻に等しいあるいは大きい場合、音声ストリームは音声処理部370に出力される。なお、音声処理部370に出力される音声ストリームはストリーム出力時刻を含む必要はない。
一方、映像遅延部220と音声遅延部230とは、所定時間delay2の遅延を行う。所定時間delay2は、図5に示されるように、音声が音声遅延部230に入力された時刻から、対応する音声がスピーカ部310の音声処理部370から出力されるまでの期間である。
以上のように、音声取出部180が音声ストリームを取り出した時刻から所定時間delay1経過後に、上記音声ストリームの処理をスピーカ部310の音声処理部370が開始する一方、本体部110では、対応する音声ストリームを所定時間delay2分遅延させることにより、リップシンクを達成することができる。
なお、本実施形態は、簡単に実装できるが、特に映像の解像度が小さい場合に適している。解像度が大きい場合、映像遅延部220に格納する映像は非圧縮の映像のため、大容量のメモリが必要となる。
また、音声処理部170が音声遅延部230に出力する信号が、圧縮されたS/PDIF信号である場合も考えられる。この場合、音声遅延部230の出力側に、圧縮されたS/PDIF信号をデコードする第2の音声処理部が必要になる。また、この場合、音声遅延部230で音声ストリームを遅延する遅延量を、所定時間delay3とすればよい。ここで、所定時間delay3は、本体部110の上記第2の音声処理部が音声を出力する時刻を、対応する音声をスピーカ部310の音声処理部370が出力する時刻と同じになるように設定すればよい。
〔実施の形態4〕
次に、本発明の他の実施形態について、図6を参照しつつ以下に説明する。本実施形態のホームシアターは、図5に示されるホームシアター10に比べて、音声取出部180が音声処理部170から音声ストリームを取り出し、かつ映像処理部160に入力する前の圧縮された映像を遅延させる点が異なり、その他の構成は同様である。なお、上記実施形態で説明した構成と同様の機能を有する構成には同一の符号を付して、その説明を省略する。
図6は、本実施形態において、AVストリーム伝送装置610から本体部110とスピーカ部310とに伝送されるAVストリームの流れを時系列的に示している。図示において、横軸が時間軸であり、ストリームの移動方向を表している。また、AVストリームの映像と音声とは、それぞれ図示の黒い箱と白い箱とで表されている。なお、図示の構成では、図1に示される構成に比べて、ストリーム変換部130と音声変換部330とが省略されているが、必要に応じて設けても良い。
本実施形態の本体部110は、図5に示される本体部110と比べて、映像遅延部220が省略されている点と、映像処理部160と音声処理部170との上流側に、時刻調整部135、映像バッファ136、および音声バッファ137が設けられている点が異なり、その他の構成は同様である。
まず、AVストリームは、映像処理開始時刻または映像表示時刻と、音声処理開始時刻または音声表示時刻とを含むとする。映像処理開始時刻と音声処理開始時刻とは、映像処理部160と音声処理部170とでそれぞれ映像ストリームと音声ストリームとの処理を開始する時刻である。これらは、MPEG2の映像と音声のDTS(Decoding Time Stamp)に対応する。
一方、映像表示時刻と音声表示時刻とは、対応する映像と音声との処理を映像処理部160と音声処理部170とが完了した後、それぞれが映像と音声とを出力する時刻である。これらはMPEG2の映像と音声とのPTS(Presentation Time Stamp)に対応する。
ここで、映像処理開始時刻と映像表示時刻とを時刻調整部135が所定時間delay2分調整することにより、映像ストリームの処理を所定時間delay2分遅延させることができる。遅延させるための映像バッファ136は、圧縮された映像を格納するため、比較的小さいメモリ容量で映像を遅延させてリップシンクを達成することができる。なお、時刻調整部135の下流側には、図6に示されるように、音声バッファ137を設けても良い。
なお、時刻調整部135は、映像処理部160と音声処理部170との上流側に設ければ良い。
また、映像バッファ136と音声バッファ137とは、例えば別途用意したバッファ、あるいはストリームバッファ142を利用しても良い。あるいは、通常のMPEG2などの半導体チップでは、デマックス部150と映像処理部160と音声処理部170との間にバッファが存在する場合があり、このバッファを映像バッファ136と音声バッファ137として利用しても良い。
なお、通常のMPEG2などの半導体チップでは、音声処理部170の下流側に音声表示時刻に合わせて音声を出力するためのバッファが存在する場合がある。この場合、上記バッファを音声遅延部230として利用しても良い。但し、この場合、音声表示時刻を所定時間delay2分、時刻調整部135で調整する必要がある。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
例えば、ホームシアター本体部110をテレビ810に内蔵して構成しても良い。この場合、ネットワーク化されていないスピーカ820は、テレビ810に内蔵しても良いし、テレビ810の外付け装置としてテレビ810とセットの製品として構成しても良い。
また、ホームシアター本体部110とテレビ810とをセットの製品として構成しても良い。この場合、ネットワーク化されていないスピーカ820は、テレビ810に内蔵しても良いし、テレビ810の外付け装置としてテレビ810とセットの製品として構成しても良い。
また、上記実施形態では、ホームシアター本体部110とスピーカ部310とを、ホームシアター10というセットの製品として構成しているが、それぞれ別々の製品として構成しても良い。
また、スピーカ部310とスピーカ830とを1つの筐体に内蔵して構成しても良い。また、複数のスピーカ830が存在する場合、複数のスピーカ830の何れか1つを上記筐体としても良いし、各スピーカ830を上記筐体としても良い。
また、スピーカ部310とスピーカ830とをセットの製品として構成しても良い。この場合、スピーカ830は1個であっても良いし、複数個であっても良い。
最後に、ホームシアター10の各ブロック、特にストリーム同期部140、音声取出部180、および音声同期部340は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、ホームシアター10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアであるホームシアター10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記ホームシアター10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、ホームシアター10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明に係る映像音声処理本体装置は、ホームシアターの本体部以外にも、携帯電話機、PDA、ノート型PC、デスクトップ型PC、ネットワーク対応型表示装置、ネットワーク対応型家電製品など、映像表示機能、および音声出力機能を有する任意の情報通信装置に適用可能である。また、本発明に係る音声処理端末装置は、ホームシアターのスピーカ部以外にも、音声出力機能を有する任意の情報通信装置に適用可能である。
本発明の一実施形態であるAVストリーム伝送システムの概略構成を示すブロック図である。 上記AVストリーム伝送システムの本体部におけるストリーム同期部の概略構成を示すブロック図である。 上記AVストリーム伝送システムのスピーカ部における音声同期部の概略構成を示すブロック図である。 本発明の別の実施形態であるAVストリーム伝送システムにおいて、AVストリーム伝送装置から本体部とスピーカ部とに伝送されるAVストリームの流れを時系列的に示すブロック図である。 本発明のさらに別の実施形態であるAVストリーム伝送システムにおいて、AVストリーム伝送装置から本体部とスピーカ部とに伝送されるAVストリームの流れを時系列的に示すブロック図である。 本発明の他の実施形態であるAVストリーム伝送システムにおいて、AVストリーム伝送装置から本体部とスピーカ部とに伝送されるAVストリームの流れを時系列的に示すブロック図である。 送信側端末装置から受信側端末装置へのMPEG2−TSストリームのデータ転送の流れを示すブロック図である。 DLNAに基づいて、AVソース機器からテレビにAV信号を伝送する構成例を示すブロック図である。 映像を滑らかに出力するための条件を示すタイムチャートである。
符号の説明
1 AVストリーム伝送システム
10 ホームシアター(映像音声処理システム)
110 本体部(映像音声処理本体装置、音声処理本体装置)
120 通信部(受信手段、送信手段、取得手段)
135 時刻調整部(時刻調整手段)
142 ストリームバッファ
145 調整部(調整手段)
146 時計部(AV時計手段)
148 比較部(比較手段)
150 デマックス部(デマックス手段)
160 映像処理部(映像処理手段)
170 音声処理部(音声処理手段)
180 音声取出部(音声取出手段)
190 サンプリング部(サンプリング手段、取出時サンプリング手段)
200 音声時計部(音声時計手段)
210 調整部(調整手段)
220 映像遅延部(映像遅延手段)
230 音声遅延部(音声遅延手段)
310 スピーカ部(音声処理端末装置)
320 通信部(受信手段)
342 ストリームバッファ
345 調整部(調整手段)
346 音声時計部(音声時計手段)
348 比較部(比較手段)
370 音声処理部(音声処理手段)
610 AVストリーム伝送装置(外部装置)
710 通信ネットワーク

Claims (19)

  1. 映像および音声に対する処理を行う映像音声処理本体装置と、音声に対する処理を行う音声処理端末装置であって、前記映像音声処理本体装置と通信ネットワークを介して通信可能に接続された音声処理端末装置とを備える映像音声処理システムであって、
    前記映像音声処理本体装置は、
    前記映像および音声を含むAVストリームを、AVストリーム伝送装置から通信ネットワークを介して受信する受信手段と、
    前記AVストリームを、前記映像を含む映像ストリームと、前記音声を含む音声ストリームとに分離するデマックス手段と、
    前記映像ストリームを処理して映像信号を生成し、生成した映像信号を出力する映像処理手段と、
    前記AVストリーム伝送装置が前記AVストリームを出力する送信側タイミングに、前記AVストリームを前記デマックス手段に出力する受信側タイミングを同期させるストリーム同期手段と、
    前記受信手段が受信したAVストリームから音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、
    該音声取出手段が取り出した音声ストリームを、通信ネットワークを介して1または複数の音声処理端末装置に送信する送信手段とを備えており
    前記音声処理端末装置は、
    前記音声ストリームを、前記映像音声処理本体装置から通信ネットワークを介して受信する受信手段と、
    前記音声ストリームを処理して音声信号を生成し、生成した音声信号を出力する音声処理手段とを備える映像音声処理システムにおいて、
    前記映像音声処理本体装置は、
    音声時計手段と、
    前記AVストリーム伝送装置にて前記送信側タイミングの時刻を示す時計手段に同期するように、前記音声時計手段を調整する音声時計調整手段と、
    前記音声時計手段の時刻をサンプリングするサンプリング手段とをさらに備えており、
    前記映像音声処理本体装置の前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して1または複数の前記音声処理端末装置に送信しており、
    前記音声処理端末装置は、
    前記音声ストリームを前記音声処理手段に出力するタイミングの時刻を示す音声時計手段と、
    前記音声時計手段を調整する調整手段とをさらに備えており、
    前記音声処理端末装置の受信手段は、前記映像音声処理本体装置のサンプリング手段がサンプリングした時刻の情報を受信しており、
    前記音声処理端末装置の調整手段は、前記映像音声処理本体装置の音声時計手段に同期するように、前記受信手段が受信した時刻の情報を基に前記音声時計手段を調整することを特徴とする映像音声処理システム
  2. 前記映像音声処理本体装置の前記音声取出手段は、前記受信手段が受信した復号前のAVストリームから、前記音声の一部または全部を含む音声ストリームを取り出すことを特徴とする請求項1に記載の映像音声処理システム
  3. 前記AVストリームはAVストリーム出力時刻の情報を含んでおり、
    前記映像音声処理本体装置は、前記受信手段が受信したAVストリームを一時記憶するストリームバッファをさらに備えており
    前記映像音声処理本体装置の前記ストリーム同期手段は、
    前記受信側タイミングの時刻を示すAV時計手段と、
    前記AVストリーム伝送装置の時計手段に同期するように、前記AV時計手段を調整するAV時計調整手段と、
    前記AVストリームのAVストリーム出力時刻が、前記AV時計手段が示す時刻に比べて等しいまたは遅い場合、対応するAVストリームの全部または一部を前記ストリームバッファから前記デマックス手段に送信する比較手段とを備えることを特徴とする請求項1に記載の映像音声処理システム
  4. 前記映像音声処理本体装置の前記受信手段は、受信するAVストリームに同期した時計調整用時刻の情報をさらに受信しており、
    前記映像音声処理本体装置の前記AV時計調整手段は、前記時計調整用時刻を基に前記AV時計手段を調整することを特徴とする請求項に記載の映像音声処理システム
  5. 前記映像音声処理本体装置の前記音声取出手段は、前記AVストリームを前記映像音声処理本体装置の前記受信手段が送信してから前記ストリームバッファが受信するまでの間に、前記AVストリームから、前記音声の一部または全部を含む音声ストリームを取り出すことを特徴とする請求項記載の映像音声処理システム
  6. 前記映像音声処理本体装置の前記音声取出手段が取り出した音声ストリームは、前記AVストリーム出力時刻の情報を含むことを特徴とする請求項記載の映像音声処理システム
  7. 前記映像音声処理本体装置は、前記AV時計手段が前記音声時計手段であり、前記AV時計調整手段が前記音声時計調整手段であることを特徴とする請求項に記載の映像音声処理システム
  8. 前記映像音声処理本体装置の前記デマックス手段からの前記音声ストリームを処理して音声信号を生成する音声処理手段をさらに備えることを特徴とする請求項1に記載の映像音声処理システム
  9. 前記映像音声処理本体装置の前記音声取出手段は、前記映像音声処理本体装置の前記音声処理手段から、前記音声の一部または全部を含む音声ストリームを取り出すことを特徴とする請求項記載の映像音声処理システム
  10. 前記映像音声処理本体装置は、前記音声処理手段が出力する音声信号を遅延させる音声遅延手段をさらに備えることを特徴とする請求項記載の映像音声処理システム
  11. 前記映像音声処理本体装置は、前記映像処理手段が出力する映像信号を遅延させる映像遅延手段をさらに備えることを特徴とする請求項記載の映像音声処理システム
  12. 前記AVストリームは、映像処理開始時刻、映像表示時刻、音声処理開始時刻、および音声表示時刻のうちの少なくとも1つの時刻の情報を含んでおり、
    前記映像音声処理本体装置は、前記AVストリームに含まれる前記時刻を調整する時刻調整手段をさらに備えることを特徴とする請求項に記載の映像音声処理システム
  13. 前記映像音声処理本体装置の前記サンプリング手段は、前記音声取出手段が前記音声ストリームを取り出した時に、前記音声時計手段の時刻をサンプリングし、サンプリングした時刻に最大音声伝送時間分を加算してストリーム出力時刻とし、
    前記映像音声処理本体装置の前記送信手段は、前記ストリーム出力時刻の情報を含む前記音声ストリームを、通信ネットワークを介して1または複数の前記音声処理端末装置に送信することを特徴とする請求項に記載の映像音声処理システム
  14. 前記映像音声処理本体装置の前記音声取出手段が取り出した音声ストリームは、固定ビットレートの連続ビットストリームであり、かつ同期を取るための同期ヘッダを含んでおり、
    前記映像音声処理本体装置の前記音声時計調整手段は、前記同期ヘッダを認識して前記映像音声処理本体装置の前記音声時計手段の調整を行うことを特徴とする請求項記載の映像音声処理システム
  15. 前記音声ストリームはストリーム出力時刻の情報を含んでおり、
    前記音声処理端末装置は、
    前記受信手段が受信した音声ストリームを一時記憶するストリームバッファと、
    前記音声ストリームのストリーム出力時刻が、前記音声時計手段が示す時刻に比べて等しいまたは遅い場合、対応する音声ストリームの全部または一部を前記ストリームバッファから前記音声処理手段に送信する比較手段とをさらに備えることを特徴とする請求項に記載の映像音声処理システム
  16. 音声に対する処理を行う音声処理本体装置と、音声に対する処理を行う音声処理端末装置であって、前記音声処理本体装置と通信ネットワークを介して通信可能に接続された音声処理端末装置とを備える音声処理システムであって、
    前記音声処理本体装置は、
    少なくとも音声を含む音声ストリームを、送信側装置から通信ネットワークを介して取得する取得手段と、
    取得した音声ストリームに対し音声処理を行って音声信号を出力する音声処理手段と、
    前記送信側装置が前記音声ストリームを出力する送信側タイミングに、前記音声ストリームを前記音声処理手段に出力する受信側タイミングを同期させるストリーム同期手段とを備えており、
    前記音声ストリームから、前記音声の一部または全部を含む音声ストリームを取り出す音声取出手段と、
    該音声取出手段が取り出した音声ストリームを、通信ネットワークを介して1または複数の音声処理端末装置に送信する送信手段とを備えており、
    前記音声処理端末装置は、
    前記音声ストリームを、前記音声処理本体装置から通信ネットワークを介して受信する受信手段と、
    前記音声ストリームを処理して音声信号を生成し、生成した音声信号を出力する音声処理手段とを備える音声処理システムにおいて、
    前記音声処理本体装置は、
    音声時計手段と、
    前記送信側装置にて前記送信側タイミングの時刻を示す時計手段に同期するように、前記音声時計手段を調整する音声時計調整手段と、
    前記音声時計手段の時刻をサンプリングするサンプリング手段とをさらに備えており、
    前記音声処理本体装置の前記送信手段は、前記サンプリング手段がサンプリングした時刻の情報を、通信ネットワークを介して1または複数の前記音声処理端末装置に送信しており、
    前記音声処理端末装置は、
    前記音声ストリームを前記音声処理手段に出力するタイミングの時刻を示す音声時計手段と、
    前記音声時計手段を調整する調整手段とをさらに備えており、
    前記音声処理端末装置の受信手段は、前記音声処理本体装置のサンプリング手段がサンプリングした時刻の情報を受信しており、
    前記音声処理端末装置の調整手段は、前記音声処理本体装置の音声時計手段に同期するように、前記受信手段が受信した時刻の情報を基に前記音声時計手段を調整することを特徴とする音声処理システム
  17. 映像および音声に対する処理を行う映像音声処理本体装置と、音声に対する処理を行う音声処理端末装置であって、前記映像音声処理本体装置と通信ネットワークを介して通信可能に接続された音声処理端末装置とを備える映像音声処理システムの制御方法であって、
    前記映像音声処理本体装置では、
    前記映像および音声を含むAVストリームを、AVストリーム伝送装置から通信ネットワークを介して受信する受信ステップと、
    前記AVストリームを、前記映像を含む映像ストリームと、前記音声を含む音声ストリームとに分離するデマックスステップと、
    前記映像ストリームを処理して映像信号を生成し、生成した映像信号を出力する映像処理ステップと、
    前記AVストリーム伝送装置が前記AVストリームを出力する送信側タイミングに、前記AVストリームが前記デマックスステップにて処理される受信側タイミングを同期させるストリーム同期ステップと、
    前記受信ステップにて受信されたAVストリームから音声の一部または全部を含む音声ストリームを取り出す音声取出ステップと、
    該音声取出ステップにて取り出された音声ストリームを、通信ネットワークを介して1または複数の音声処理端末装置に送信する送信ステップとを含んでおり
    前記音声処理端末装置では、
    前記音声ストリームを、前記映像音声処理本体装置から通信ネットワークを介して受信する受信ステップと、
    前記音声ストリームを処理して音声信号を生成し、生成した音声信号を出力する音声処理ステップとを含む映像音声処理システムの制御方法において、
    前記映像音声処理本体装置では、
    前記AVストリーム伝送装置にて前記送信側タイミングの時刻を示す時計手段に同期するように、音声時計手段を調整する音声時計調整ステップと、
    前記音声時計手段の時刻をサンプリングするサンプリングステップとをさらに含んでおり、
    前記映像音声処理本体装置の前記送信ステップは、前記サンプリングステップにてサンプリングされた時刻の情報を、通信ネットワークを介して1または複数の前記音声処理端末装置に送信しており、
    前記音声処理端末装置では、
    前記音声ストリームが前記音声処理ステップにて処理されるタイミングの時刻を示す音声時計手段を調整する調整ステップをさらに含んでおり、
    前記音声処理端末装置の受信ステップは、前記映像音声処理本体装置のサンプリングステップにてサンプリングされた時刻の情報を受信しており、
    前記音声処理端末装置の調整ステップは、前記映像音声処理本体装置の音声時計手段に同期するように、前記受信ステップにて受信された時刻の情報を基に前記音声時計手段を調整することを特徴とする映像音声処理システムの制御方法
  18. 請求項1ないし15の何れか1項に記載の映像音声処理システムにおける各手段をコンピュータに実行させることを特徴とする映像音声処理システム制御プログラム。
  19. 請求項18に記載の映像音声処理システム制御プログラムを記録したことを特徴とするコンピュータ読取り可能な記録媒体。
JP2006228386A 2005-11-11 2006-08-24 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体 Expired - Fee Related JP4184397B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006228386A JP4184397B2 (ja) 2005-11-11 2006-08-24 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体
US11/594,117 US7746904B2 (en) 2005-11-11 2006-11-08 Audio/video processing unit and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005327991 2005-11-11
JP2006228386A JP4184397B2 (ja) 2005-11-11 2006-08-24 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2007159092A JP2007159092A (ja) 2007-06-21
JP4184397B2 true JP4184397B2 (ja) 2008-11-19

Family

ID=38040764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006228386A Expired - Fee Related JP4184397B2 (ja) 2005-11-11 2006-08-24 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US7746904B2 (ja)
JP (1) JP4184397B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4912296B2 (ja) 2005-04-28 2012-04-11 パナソニック株式会社 リップシンク補正システム、リップシンク補正装置及びリップシンク補正方法
US20090003379A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. System and method for wireless communication of uncompressed media data having media data packet synchronization
US8160421B2 (en) * 2006-12-18 2012-04-17 Core Wireless Licensing S.A.R.L. Audio routing for audio-video recording
US20080178243A1 (en) * 2007-01-19 2008-07-24 Suiwu Dong Multimedia client/server system with audio synchronization and methods for use therewith
CN101237445B (zh) * 2007-01-30 2013-01-02 世意法(北京)半导体研发有限责任公司 缓冲器管理方法和用于缓冲器管理及封装wusb分组的设备
KR101416249B1 (ko) * 2007-08-01 2014-07-07 삼성전자 주식회사 신호처리장치 및 그 제어방법
BRPI0816903A2 (pt) * 2007-09-21 2015-03-17 Thomson Licensing Aparelho e método para a sincronização de sinais observáveis por usuário
KR101450100B1 (ko) * 2007-11-22 2014-10-15 삼성전자주식회사 멀티미디어기기 및 그의 동기설정방법
JP2009182912A (ja) * 2008-02-01 2009-08-13 Hitachi Ltd 映像音声再生装置
JP5316189B2 (ja) * 2008-05-23 2013-10-16 ヤマハ株式会社 Avシステム
JP2010154249A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 映像音声再生システム及び配信装置
JP5193076B2 (ja) 2009-01-19 2013-05-08 シャープ株式会社 シンク機器及び無線伝送システム
JP2010219783A (ja) * 2009-03-16 2010-09-30 Toshiba Corp 通信端末、通信方法およびコンピュータプログラム
US8477950B2 (en) * 2009-08-24 2013-07-02 Novara Technology, LLC Home theater component for a virtualized home theater system
US8327029B1 (en) * 2010-03-12 2012-12-04 The Mathworks, Inc. Unified software construct representing multiple synchronized hardware systems
BR112012024309A2 (pt) * 2010-03-29 2016-05-24 Sharp Kk dispositivo de sincronização, dispositivo fonte e sistema de transmissão sem fio
JP2015039092A (ja) * 2012-01-13 2015-02-26 株式会社東芝 電子機器、及び電子機器の制御方法
JP5867590B2 (ja) 2012-03-29 2016-02-24 富士通株式会社 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
JP2014127213A (ja) * 2012-12-25 2014-07-07 Pioneer Electronic Corp 同期再生制御装置及び同期再生制御方法
CN105592346B (zh) * 2015-12-17 2018-07-24 天脉聚源(北京)教育科技有限公司 一种音频信号的切换方法及装置
JP6720566B2 (ja) * 2016-02-17 2020-07-08 ヤマハ株式会社 オーディオ機器
US10158905B2 (en) * 2016-09-14 2018-12-18 Dts, Inc. Systems and methods for wirelessly transmitting audio synchronously with rendering of video
CN113079211A (zh) * 2021-03-31 2021-07-06 杭州今奥信息科技股份有限公司 一种音视频流采集传输方法和系统
US20230016118A1 (en) * 2021-07-09 2023-01-19 Arris Enterprises Llc System and method to synchronize rendering of multi-channel audio to video presentation

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330022B1 (en) * 1998-11-05 2001-12-11 Lucent Technologies Inc. Digital processing apparatus and method to support video conferencing in variable contexts
US7030930B2 (en) * 2001-03-06 2006-04-18 Ati Technologies, Inc. System for digitized audio stream synchronization and method thereof
US20040250273A1 (en) * 2001-04-02 2004-12-09 Bellsouth Intellectual Property Corporation Digital video broadcast device decoder
US7194009B2 (en) * 2001-04-14 2007-03-20 John Wai Tsang Eng Full-service broadband cable modem system
US20030079035A1 (en) 2001-10-18 2003-04-24 Yazaki North America, Inc. Multi-format media decoder and method of using same as an interface with a digital network
JP2004282667A (ja) 2003-03-19 2004-10-07 Matsushita Electric Ind Co Ltd 再生同期ずれ補正機能を備えた送信機及び受信機、並びにそれらを有する伝送装置
JP4228763B2 (ja) 2003-04-18 2009-02-25 ソニー株式会社 スピーカ装置及びスピーカ装置の再生方法
US20050076092A1 (en) * 2003-10-02 2005-04-07 Sony Corporation And Sony Electronics Inc. User shared virtual channel via media storage
US7574274B2 (en) * 2004-04-14 2009-08-11 Nvidia Corporation Method and system for synchronizing audio processing modules
US8015590B2 (en) * 2004-12-30 2011-09-06 Mondo Systems, Inc. Integrated multimedia signal processing system using centralized processing of signals
US7672465B2 (en) * 2005-01-14 2010-03-02 Sony Corporation System and method for synchronization using GPS in home network
JP2006246245A (ja) * 2005-03-04 2006-09-14 Toshiba Corp 信号処理装置及びストリーム処理方法

Also Published As

Publication number Publication date
JP2007159092A (ja) 2007-06-21
US20070110110A1 (en) 2007-05-17
US7746904B2 (en) 2010-06-29

Similar Documents

Publication Publication Date Title
JP4184397B2 (ja) 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体
JP7120997B2 (ja) オーディオとビデオのマルチモード同期レンダリング
JP4571794B2 (ja) オーディオ/ビジュアルコンポーネントを分解するための方法およびシステム
US20070220561A1 (en) Multiple path audio video synchronization
US8665370B2 (en) Method for synchronized playback of wireless audio and video and playback system using the same
US8687118B2 (en) Repeater being utilized between a source and sink device for lip-syncing in an HDMI system
US8028097B2 (en) System and method for synchronizing audio-visual devices on a power line communications (PLC) network
US20080178243A1 (en) Multimedia client/server system with audio synchronization and methods for use therewith
US20020174440A1 (en) Video display apparatus, audio mixing apparatus, video-audio output apparatus and video-audio synchronizing method
JP2006513608A (ja) オーディオ−ビジュアル・コンテンツ伝送システム及び方法
KR20090053141A (ko) 멀티미디어기기 및 그의 동기설정방법
JP2009272945A (ja) 同期再生装置
JP5070996B2 (ja) 音声制御装置及び音声制御システム
US11140480B2 (en) Indirect sourced cognitive loudspeaker system
US20060197880A1 (en) Signal processing device and stream processing method
WO2017082059A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009049919A (ja) 映像音声再生方法および映像音声再生システム
JP2006294120A (ja) 音声再生装置
KR20070008069A (ko) 음성/영상신호의 동기화 장치 및 방법
KR20050081098A (ko) 디스플레이 장치와 무선 연결이 가능한 무선 멀티미디어셋톱박스
JP2007189584A (ja) デジタル無線伝送システム
KR102709016B1 (ko) 비디오 데이터 및 오디오 데이터를 처리하는 멀티미디어 디바이스 및 그 제어 방법
KR101392070B1 (ko) 멀티미디어 데이터 제공 장치와 이를 이용한 디지털멀티미디어 시스템 및 그 동작 방법
JP2001125596A (ja) オーディオデータ伝送方法及びオーディオデータ伝送装置
TW202312143A (zh) 多媒體影音系統與其協定轉換器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080318

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080903

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees