JP2007174269A - 画像処理装置および方法、並びにプログラム - Google Patents
画像処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2007174269A JP2007174269A JP2005369196A JP2005369196A JP2007174269A JP 2007174269 A JP2007174269 A JP 2007174269A JP 2005369196 A JP2005369196 A JP 2005369196A JP 2005369196 A JP2005369196 A JP 2005369196A JP 2007174269 A JP2007174269 A JP 2007174269A
- Authority
- JP
- Japan
- Prior art keywords
- area
- image
- processing
- specifying
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 121
- 238000001514 detection method Methods 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
【課題】背景領域を簡単に検出して処理する。
【解決手段】テレビ電話装置で撮影された画像において、検出された顔領域Wのフレーム上の大きさに基づいて、被写体領域Pの大きさが算出される。被写体領域Pの形は、領域P1と、領域P1より広い領域の領域P2とからなり、画像上、領域P1は上方に領域P2は下方に並んで配置されている、凸の字の形である。領域P1の幅は、顔領域Wの幅xに所定の係数a1を乗じたものとされ、その高さは、顔領域Wの高さyに係数b1を乗じたものとされる。また領域P2の幅は、幅xに係数a2を乗じたものとされ、その高さは、高さyに(b2−b1)を乗じたものとされる。
【選択図】図4
【解決手段】テレビ電話装置で撮影された画像において、検出された顔領域Wのフレーム上の大きさに基づいて、被写体領域Pの大きさが算出される。被写体領域Pの形は、領域P1と、領域P1より広い領域の領域P2とからなり、画像上、領域P1は上方に領域P2は下方に並んで配置されている、凸の字の形である。領域P1の幅は、顔領域Wの幅xに所定の係数a1を乗じたものとされ、その高さは、顔領域Wの高さyに係数b1を乗じたものとされる。また領域P2の幅は、幅xに係数a2を乗じたものとされ、その高さは、高さyに(b2−b1)を乗じたものとされる。
【選択図】図4
Description
本発明は、画像処理装置および方法、並びにプログラムに関し、例えば人の姿を含む画像から、人の姿の部分を簡単に特定することができるようにする画像処理装置および方法、並びにプログラムに関する。
画像処理技術および通信処理技術の向上により、通話相手の画像を見ながら通話することができるテレビ電話システムが普及し始めている。
しかしながら、テレビ電話システムでは、通常、通話者同士のテレビ電話装置の接続が完了すると、テレビ電話装置のカメラで撮影された画像(通話者の姿を含む画像)が、通話者の意思に関わらず、通話相手側のテレビ電話装置に映し出される。
そこで、プライバシー保護の観点から、例えば、通話相手側のテレビ電話装置に自分の顔がはっきり表示されないようにする方法が考えられている。
顔領域の特定は、例えば、画像の輝度および色信号に対して閾値処理を行って2値化することにより行われ(特許文献1)、比較的簡単に行うことができる。
また例えば自分の部屋でテレビ電話を利用している場合、部屋の状態を通話相手に見せたくないなど、自分の姿全体はいいが、背景が表示されるのは困るという理由から、背景部分を隠蔽する方法も考えられている。
背景部分の特定は、例えば、赤外線を照射し、照射された赤外線が被写体に当たって反射されたものを受信することによって行われ、精度よく背景部分が特定される。
特開平7−327213号公報
しかしながら、背景部分を隠蔽したい理由は、例えば部屋の様子を通話者にわからないようにするものであり、精度よく背景部分を特定する必要はないにも関わらず、従来においては、赤外線を利用するなど大掛かりな装置が必要となり、背景部分を簡単に特定することはできなかった。
本発明は、このような状況に鑑みてなされたものであり、例えばテレビ電話システムに授受される画像から、ユーザの姿およびそれ以外の背景部分を簡単に特定することができるようにするものである。
本発明の一側面の画像処理装置は、画像を入力する画像入力手段と、前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段と、前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定手段と、前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定手段と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段と、前記処理手段により処理された前記画像を出力する出力手段とを備える。
前記第2の特定手段は、前記被写体領域以外の領域を、前記背景領域とすることができる。
前記被写体領域は、あらかじめ決められた形状の領域であり、前記第1の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定することができる。
前記被写体領域は、第1の領域と、前記第1の領域より広い領域の前記第2の領域とからなり、フレーム上、前記第1の領域は上方に前記第2の領域は下方に並んで配置されており、前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定することができる。
前記第1の特定手段は、前記顔領域のフレーム上の位置に基づいて、前記第1の領域に対する前記第2の領域の位置を変更することができる。
前記第1の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第2の領域の水平方向の位置を変更することができる。
本発明の一側面の画像処理方法は、画像を入力する画像入力ステップと、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定ステップと、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定ステップと、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、前記処理ステップの処理で処理された前記画像を出力する出力ステップとを含む。
本発明の一側面のプログラムは、画像を入力する画像入力ステップと、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定ステップと、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定ステップと、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、前記処理ステップの処理で処理された前記画像を出力する出力ステップとを含む処理をコンピュータに実行させる。
本発明の一側面の画像処理装置、画像処理方法、およびプログラムにおいては、画像が入力され、入力された前記画像の中から、人の顔領域が検出され、検出された前記顔領域に基づいて、入力された前記画像の中から、前記人の姿全体の被写体領域が特定され、特定された前記被写体領域に基づいて、入力された前記画像から、前記人の姿以外の背景領域が特定され、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理が行われ、処理された前記画像が出力される。
本発明によれば、例えばテレビ電話システムに授受される画像から、ユーザの姿またはそれ以外の背景部分を簡単に特定し、処理を施すことができるようにすることができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の画像処理装置は、画像を入力する画像入力手段(例えば、図3のステップS1の処理を行う図2の送信処理部53)と、前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段(例えば、図3のステップS3の処理を行う図2の送信処理部53)と、前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定手段(例えば、図3のステップS4の処理を行う図2の送信処理部53)と、前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定手段(例えば、図3のステップS5の処理を行う図2の送信処理部53)と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段(例えば、図3のステップS6の処理を行う図2の送信処理部53)と、前記処理手段により処理された前記画像を出力する出力手段(例えば、図3のステップS7乃至S10の処理を行う図2の送信処理部53)とを備える。
前記第2の特定手段は、前記被写体領域以外の領域を、前記背景領域とすることができる(例えば、図5の背景領域Q)。
前記被写体領域は、あらかじめ決められた形状の領域であり、前記第1の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定することができる(例えば、図3のステップS4)。
前記被写体領域は、第1の領域と、前記第1の領域より広い領域の前記第2の領域とからなり、フレーム上、前記第1の領域は上方に前記第2の領域は下方に並んで配置されており、前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定することができる(例えば、図4)。
前記第1の特定手段は、前記顔領域のフレーム上の位置に基づいて、前記第1の領域に対する前記第2の領域の位置を変更することができる。
前記第1の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第2の領域の水平方向の位置を変更することができる(例えば、図11)。
本発明の一側面の画像処理方法、またはプログラムは、画像を入力する画像入力ステップ(例えば、図3のステップS1)と、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップ(例えば、図3のステップS3)と、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定ステップ(例えば、図3のステップS4)と、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定ステップ(例えば、図3のステップS5)と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップ(例えば、図3のステップS6)と、前記処理ステップの処理で処理された前記画像を出力する出力ステップ(例えば、図3のステップS7乃至ステップS10)とを含む。
図1は、本発明を適用したテレビ電話装置1の構成例を示している。テレビ電話装置1は、テレビ電話装置3と、電話網を含むネットワーク2を介して、相手の映像を見ながら通話することができる通常のテレビ電話機能を有しているが、例えばテレビ電話装置3に映し出される画像の中の、ユーザの姿全体の領域(以下、被写体領域と称する)以外の領域(以下、背景領域と称する)を隠蔽することができる。
テレビ電話装置1の不揮発性メモリ21乃至DSP25は、バス32により相互に接続されている。バス32には、入出力インタフェース33が接続され、それにはカメラ26乃至通信部31が接続されている。
例えば、特定の相手とテレビ電話を行うための操作がリモコン11に対して行われ、その信号が受光部30により受信されると、CPU(Central Processing Unit)24は、あらかじめ不揮発性メモリ21に記憶されているテレビ電話発信プログラムを実行し、各部を制御する。これにより通信部31は、ネットワーク2を介してテレビ電話装置3と接続する。
テレビ電話装置3との接続が確立すると、カメラ26やマイクロフォン28により取り込まれた画像音声信号が、DSP(Digital Signal Processor)25によってエンコードされ、その結果得られたストリームが通信部31を介してテレビ電話装置3に送信され、映像は、テレビ電話装置3のディスプレイ51に映し出される。
この際テレビ電話装置1は、テレビ電話装置3のディスプレイ51に映し出される映像の、被写体領域以外の背景領域を隠蔽するための処理を実行する(後述)。
テレビ電話装置3から送信されてきたストリームは、DSP25によってデコードされ、その結果得られた画像信号やGUI(Graphical User Interface)などのグラフィックデータが、ビデオメモリ23に転送されることによって、ディスプレイ27に表示され、音声信号はスピーカ29に供給されて出力される。
図2は、テレビ電話装置1の機能的構成例を示している。
例えばリモコン11に対する発信の操作により、たとえばアドレス帳機能を呼び出し特定の通話相手が決定されると、ユーザインタフェース部51は、そのコマンドを受け付けて、発呼指令を、制御部52に出力する。
制御部52は、ユーザインタフェース部51から発呼指令を受け取ると、送信処理部53および受信処理部54を制御して、通話相手(テレビ電話装置3)との呼制御を行う。これにより送信処理部53および受信処理部54は、テレビ電話装置3との呼制御情報のやり取りを、ネットワーク2を介して行う。
呼制御によりテレビ電話装置3との呼が確立すると、送信処理部53には、デジタル化された、カメラ26およびマイクロフォン28により取り込まれた画像音声が入力される。
送信処理部53は、入力された画像音声信号に対して、画像音声エンコードや、誤り訂正などのチャネルエンコードを行うとともに、これをパケット化してネットワーク2を介してテレビ電話装置3に送信する。
送信処理部53は、送信する画像を生成する際、必要に応じて、ユーザの姿の被写体領域以外の背景領域が、通話相手が認識できないように表示されるように所定の画像処理を施す(背景領域を隠蔽する)。
送信処理部53は、デジタル化された画像音声データを、ユーザインタフェース部51にも供給する。
ユーザインタフェース部51は、送信処理部53から画像音声信号が供給されると、画像信号を、自画像のモニタとしてディスプレイ27に表示し、音声をスピーカ29から出力する。
一方、テレビ電話装置3からのパケット化された画像音声情報が受信されると、受信処理部54には、そのデータが入力される。
受信処理部54は、入力された画像音声データに対して、チャネルデコードや画像音声デコードを行い、その結果得られた画像音声データをユーザインタフェース部51に供給する。
ユーザインタフェース部51は、受信処理部54から供給された画像音声データを、通話相手の画像としてディスプレイ27に表示し、音声をスピーカ29から出力する。
次に、送信処理部53における、背景領域が通話相手に認識されないように表示されるようにする処理(以下、隠蔽処理と称する)を説明する。
テレビ電話システムを、家庭内またはテレビ会議で利用する際、ユーザは、座っているか立っている場合が多い(寝転んだり、逆立ちをしたり、または顔を見せず背を向けるといった場合は稀である)。したがって、多くの場合、相手方のテレビ電話装置に映し出される画像においては、ユーザの顔の部分と胴体の部分は、上下方向に並んで映し出される。また、顔と胴体との大きさの関係から、胴体の画像部分の大きさは、顔の画像部分の大きさよりも大きいものと考えられる。
すなわち本発明は、この通常のテレビ電話システムの使用状況でテレビ電話装置に映し出される顔の部分と胴体の部分との関係を利用して、ユーザの姿全体の部分(被写体領域)とそれ以外の部分(背景領域)を簡単に特定するものである。
本発明における隠蔽処理の詳細は、図3のフローチャートに示されている。
ステップS1において、送信処理部53は、カメラ26およびマイクロフォン28により取り込まれデジタル化された画像音声信号を入力する。
ステップS2において、送信処理部53は、背景隠蔽処理を行うか否かを判定し、背景隠蔽処理を行うと判定した場合、ステップS3に進む。なお背景隠蔽処理を行うか否かは、例えばユーザがリモコン11を操作することにより任意に設定することができるものとする。
ステップS3において、送信処理部53は、1フレーム分の画像データから、例えば、図4に示すように、長方形の領域Wを、ユーザの顔の部分の領域として検出する。
この検出アルゴリズムは、従来技術(特許文献1)など、どの技術を用いても良く、結果として顔の部分が検出されれば良い。
次に、ステップS4において、送信処理部53は、ステップS3で抽出した顔領域に基づいて被写体領域を特定する。
具体的にははじめに、送信処理部53は、図4に示すように、顔領域Wのフレーム上の大きさに基づいて、被写体領域Pの大きさを算出する。図4の例の場合、被写体領域Pの形は、上部の小さな長方形を領域P1とし、下部の大きな長方形を領域P2とする凸の文字の形である。すなわちこの被写体領域Pは、領域P1が上方に領域P2が下方に並んで配置されて構成されている。
例えば送信処理部53は、領域P1の幅を、顔領域Wの幅xに所定の係数a1(1よりも大きい実数)を乗じたものとし、そしてその高さを、顔領域Wの高さyに係数b1(1よりも大きい実数)を乗じたものとする。また送信処理部53は、領域P2の幅を、幅xに係数a2(a1より大きい実数)を乗じたものとし、その高さを、高さyに(b2−b1)(b2は、b1より大きい実数)を乗じたものとする。
次に、送信処理部53は、上述したように決定した大きさを有する被写体領域P(凸の文字の形の領域)のフレーム上の位置を、顔領域Wのフレーム上の位置に基づいて決定する。
例えば送信処理部53は、被写体領域Pの左右方向の位置(X軸上の位置)を、顔領域WのX軸上の中心Cwxと被写体領域PのX軸上の中心が一致するように、そして上下方向の位置(Y軸上の位置)を、被写体領域Pの上端が、顔領域WのY軸上の中心Cwyから、被写体領域P全体の高さb2×yの1/cだけ上方となるようにする。なお被写体領域Pにおける領域P1と領域P2の位置関係は、領域P1および領域P2のX軸上の中心がそれぞれ一致するようになされている。
ここで、係数a1、係数b1、係数b2、および係数cは、1よりも大きい実数であるので、被写体領域P全体の大きさおよび位置は、顔領域Wを含むように決定される。
このようにして決定された大きさおよび位置の被写体領域Pが特定される。
なお、このように特定された被写体領域Pがフレームからはみ出す場合、はみ出さないところまでの領域が被写体領域Pとされる。
このように、通常のテレビ電話システムの使用例におけるテレビ電話装置に映し出される顔の領域と胴体の領域との関係を利用して、被写体領域Pの位置を、顔領域Wの位置にあわせるとともに、顔領域Wの下方の被写体領域Pの領域P2の大きさを、顔領域Wの大きさより大きくするようにしたので、図5に示すように、ユーザの姿の画像の大部分を、被写体領域Pとすることができる。
次にステップS5において、送信処理部53は、背景領域を特定する。
具体的には、被写体領域P以外の領域が背景領域(図5に示す背景領域Q)とされる。
次にステップS6において、送信処理部53は、特定した背景領域が通話相手によって認識されないように表示されるように所定の画像処理を施す。
具体的には、図6に示すように、ぼかし効果のあるフィルタをかけ、背景領域Qがぼけて表示されるようにすことができる。
また図7に示すように、予め用意された所定の画像(図7の例では、黒く塗りつぶされた画像)が背景領域Qとして表示されるようにすることもできる。
ステップS6で、背景領域に対して画像処理が行われたとき、またはステップS2で、背景隠蔽処理を行わないと判定されたとき、ステップS7に進み、送信処理部53は、画像音声データ(画像処理が施された画像または画像処理が施されていない画像の画像データ、および音声データ)を、ユーザインタフェース部51に供給する。
次に、ステップS8において、送信処理部53は、画像処理が施されたまたは画像処理が施されてない画像データ、および入力された音声データをエンコードするとともに、ステップS9において、誤り訂正などのチャンネルエンコードおよびパケット化処理を行い、ステップS10において、その結果得られたストリームを、テレビ電話装置3に送信する。
その後、送信処理部53は、ステップS1に戻りそれ以降の処理を同様に実行する。
以上のように、被写体領域を、顔領域の大きさおよび位置と、所定の係数との演算により求めるようにしたので、被写体領域および背景領域の特定を簡単に行うことができ、また背景領域の隠蔽を簡単に行うことができる。
また背景領域をぼかしたり一色に塗りつぶしたり、または被写体を単純な画像に置き換えるなど行うことで、通話相手に送信されるデータ量を削減することもできる。
なお以上においては、ステップS3で顔領域が検出されるものとしたが、顔領域が検出されない場合、ステップS4で被写体領域も特定されない。このように被写体領域が特定されない場合、ステップS5において、例えば全ての領域が背景領域とされ、ステップS6以降の処理が行われる。
次に、ステップS4における被写体領域特定処理の他の例について説明する。
以上においては、被写体領域Pの形を凸の文字の形としたが(図4および図5)、顔領域Wを含み、その下方に伸びる大きな領域であれば、図8A乃至図8Cに示すような形を被写体領域Pとすることもできる。
図9は、被写体領域Pを、図8Aの形とした場合の例を示している。このように被写体領域Pの、頭部の左右部分および両肩部分に対応する部分に角度を持たせるようにすることで、より人の体に合った領域を被写体領域Pとすることができる。
図10は、被写体領域Pを、図8Cの形とした場合の例を示している。なおこの被写体領域Pを縦長の楕円形にすることもできる。
また、以上においては、顔領域Wの幅xから被写体領域Pの幅(a1×x, a2×x)を求め、また顔領域Wの高さyから被写体領域Pの高さ(b1×y, (b2−b1)×y)を求めたが、これに限らず、顔領域Wの面積xyを基準とし、被写体領域Pの幅を、それぞれa1×xy, a2×xyとし、高さを、b1×xy,(b2−b1)×xyとすることもできる。ただし、この場合の各定数は、適宜変更される。
さらに、得られた顔領域Wに対して上記のような単純な幾何学的な関係で決まる領域に決定するのではなく、従来から知られる背景差分などの方法を用いて、被写体である人が画像内に登場する以前の画像との差分情報をも利用し、上記のような簡易な方法と組み合わせることで、演算処理を簡単なものにし、CPU24やメモリ23に負荷をかけない方法で、被写体領域を決定することもできる。
また図4および図5の例では、凸の文字の形における上部の小さな長方形の領域P1と下部の大きな長方形の領域P2の位置関係は、領域P1および領域P2の左右方向(X軸上)の中心がそれぞれ一致するようになされていたが、顔領域Wのフレーム上の位置(例えば、X軸上の位置)に応じて、図11に示すように、領域P1と領域P2のX軸上の中心をずらすこともできる。図11の例では、領域P2のX軸上の中心Cp2xが領域P1(顔領域W)の中心Cwxに対して、図中左方向にずれている。
たとえば、図12に示すように、ユーザUの顔Uaが、カメラ26の撮像方向に向かって図中右側に位置し、左方向を向くようにしてカメラ26を見ている場合は、ユーザUの右肩URがカメラ26に対して前方に、そして左肩ULが後方に向けられるので、その撮像画像では、図13に示すように、ユーザの顔領域Wがフレーム画面上の中心Ccより図面上左側に位置し、身体の右側(図面上左側)の画像領域が、身体の左側(図面上右側)の領域に比べ大きくなる。
すなわちこの特性を利用して、例えば、顔領域WのX軸上の中心Cwxが、フレームのX軸上の中心Ccより、距離dだけずれている場合、そのずれている方向に、領域P2のX軸上の中心Cp2xが、係数k×dだけずれるようにすることにより、より正確にユーザの姿を被写体領域Pとすることができる。
また以上においては、被写体としての人が一人である場合を例として説明したが、図14に示すように、複数人であっても、本発明を適用することができる。
すなわち図14に示すように、被写体としての人が3人である場合、いずれの被写体領域Pa乃至Pcに属さない領域が背景領域Qとされ、その背景領域Qにぼかし効果のあるフィルタをかけたり(図15)、単純に背景領域をなんらかの色で塗りつぶしたり、画像を貼り付けたりして(図16)、背景を置き換えることもできる。
なお以上においては、背景領域に対して画像処理が施される場合を例として説明したが、被写体領域に対してぼかし処理等の画像処理を施すようにすることもできる。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図17は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU(Central Processing Unit)201は、ROM(Read Only Memory)202、または記憶部208に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)203には、CPU201が実行するプログラムやデータなどが適宜記憶される。これらのCPU201、ROM202、およびRAM203は、バス204により相互に接続されている。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図17に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM202や、記憶部208を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部209を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
1 テレビ電話装置, 51 ユーザインタフェース部, 52 制御部, 53 送信処理部, 54 受信処理部
Claims (8)
- 画像を入力する画像入力手段と、
前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段と、
前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定手段と、
前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定手段と、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段と、
前記処理手段により処理された前記画像を出力する出力手段と
を備える画像処理装置。 - 前記第2の特定手段は、前記被写体領域以外の領域を、前記背景領域とする
請求項1の記載の画像処理装置。 - 前記被写体領域は、あらかじめ決められた形状の領域であり、
前記第1の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定する
請求項1に記載の画像処理装置。 - 前記被写体領域は、第1の領域と、前記第1の領域より広い領域の前記第2の領域とからなり、フレーム上、前記第1の領域は上方に前記第2の領域は下方に並んで配置されており、
前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定する
請求項3に記載の画像処理装置。 - 前記第1の特定手段は、前記顔領域のフレーム上の位置に基づいて、前記第1の領域に対する前記第2の領域の位置を変更する
請求項4に記載の画像処理装置。 - 前記第1の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第2の領域の水平方向の位置を変更する
請求項5に記載の画像処理装置。 - 画像を入力する画像入力ステップと、
前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、
前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定ステップと、
前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定ステップと、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、
前記処理ステップの処理で処理された前記画像を出力する出力ステップと
を含む画像処理方法。 - 画像を入力する画像入力ステップと、
前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、
前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第1の特定ステップと、
前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第2の特定ステップと、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、
前記処理ステップの処理で処理された前記画像を出力する出力ステップと
を含む処理をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369196A JP2007174269A (ja) | 2005-12-22 | 2005-12-22 | 画像処理装置および方法、並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369196A JP2007174269A (ja) | 2005-12-22 | 2005-12-22 | 画像処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007174269A true JP2007174269A (ja) | 2007-07-05 |
Family
ID=38300247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005369196A Withdrawn JP2007174269A (ja) | 2005-12-22 | 2005-12-22 | 画像処理装置および方法、並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007174269A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009218807A (ja) * | 2008-03-10 | 2009-09-24 | Sanyo Electric Co Ltd | 撮像装置及び画像再生装置 |
JP2013110630A (ja) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 会話映像表示システム |
-
2005
- 2005-12-22 JP JP2005369196A patent/JP2007174269A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009218807A (ja) * | 2008-03-10 | 2009-09-24 | Sanyo Electric Co Ltd | 撮像装置及び画像再生装置 |
JP2013110630A (ja) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 会話映像表示システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10182208B2 (en) | Panoramic image placement to minimize full image interference | |
US20220070371A1 (en) | Merging webcam signals from multiple cameras | |
US8208002B2 (en) | Distance learning via instructor immersion into remote classroom | |
US9641585B2 (en) | Automated video editing based on activity in video conference | |
CN102638672B (zh) | 用于多流多站点远程呈现会议系统的自动视频布局 | |
CN103595953B (zh) | 一种控制视频拍摄的方法和装置 | |
US11076127B1 (en) | System and method for automatically framing conversations in a meeting or a video conference | |
US20100060783A1 (en) | Processing method and device with video temporal up-conversion | |
EP2311256B1 (en) | Communication device with peripheral viewing means | |
US20220400244A1 (en) | Multi-camera automatic framing | |
CN110087098A (zh) | 水印处理方法及装置 | |
CA2806257C (en) | Image processing apparatus, image processing method, and computer-readable recording medium | |
US12333854B2 (en) | Systems and methods for correlating individuals across outputs of a multi-camera system and framing interactions between meeting participants | |
JP2010157906A (ja) | 映像表示装置 | |
JP5483012B2 (ja) | テレビ電話機能付きテレビジョン | |
JP2004056488A (ja) | 画像処理方法、画像処理装置および画像通信装置 | |
JP2008258779A (ja) | テレビ会議装置、制御方法、およびプログラム | |
CN113905204B (zh) | 图像显示方法、装置、设备及存储介质 | |
US11877084B2 (en) | Video conference user interface layout based on face detection | |
CN115803772B (zh) | 用于检测和显示白板文本和/或活跃说话者的系统和方法 | |
EP3884461B1 (en) | Selective distortion or deformation correction in images from a camera with a wide angle lens | |
US20240422288A1 (en) | Automated video conference system with multi-camera support | |
JP2007174269A (ja) | 画像処理装置および方法、並びにプログラム | |
JP2006339869A (ja) | 映像信号と音響信号の統合装置 | |
CN114868380B (zh) | 一种虚拟名片的发送方法、装置、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090303 |