JP2007174269A

JP2007174269A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2007174269A
Application number: JP2005369196A
Authority: JP
Inventors: Shiro Omori; 士郎大森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-12-22
Filing date: 2005-12-22
Publication date: 2007-07-05

Abstract

【課題】背景領域を簡単に検出して処理する。
【解決手段】テレビ電話装置で撮影された画像において、検出された顔領域Ｗのフレーム上の大きさに基づいて、被写体領域Ｐの大きさが算出される。被写体領域Ｐの形は、領域Ｐ１と、領域Ｐ１より広い領域の領域Ｐ２とからなり、画像上、領域Ｐ１は上方に領域Ｐ２は下方に並んで配置されている、凸の字の形である。領域Ｐ１の幅は、顔領域Ｗの幅ｘに所定の係数ａ１を乗じたものとされ、その高さは、顔領域Ｗの高さｙに係数ｂ１を乗じたものとされる。また領域Ｐ２の幅は、幅ｘに係数ａ２を乗じたものとされ、その高さは、高さｙに（ｂ２−ｂ１）を乗じたものとされる。
【選択図】図４

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、例えば人の姿を含む画像から、人の姿の部分を簡単に特定することができるようにする画像処理装置および方法、並びにプログラムに関する。

画像処理技術および通信処理技術の向上により、通話相手の画像を見ながら通話することができるテレビ電話システムが普及し始めている。

しかしながら、テレビ電話システムでは、通常、通話者同士のテレビ電話装置の接続が完了すると、テレビ電話装置のカメラで撮影された画像（通話者の姿を含む画像）が、通話者の意思に関わらず、通話相手側のテレビ電話装置に映し出される。

そこで、プライバシー保護の観点から、例えば、通話相手側のテレビ電話装置に自分の顔がはっきり表示されないようにする方法が考えられている。

顔領域の特定は、例えば、画像の輝度および色信号に対して閾値処理を行って２値化することにより行われ（特許文献１）、比較的簡単に行うことができる。

また例えば自分の部屋でテレビ電話を利用している場合、部屋の状態を通話相手に見せたくないなど、自分の姿全体はいいが、背景が表示されるのは困るという理由から、背景部分を隠蔽する方法も考えられている。

背景部分の特定は、例えば、赤外線を照射し、照射された赤外線が被写体に当たって反射されたものを受信することによって行われ、精度よく背景部分が特定される。
特開平７−３２７２１３号公報

しかしながら、背景部分を隠蔽したい理由は、例えば部屋の様子を通話者にわからないようにするものであり、精度よく背景部分を特定する必要はないにも関わらず、従来においては、赤外線を利用するなど大掛かりな装置が必要となり、背景部分を簡単に特定することはできなかった。

本発明は、このような状況に鑑みてなされたものであり、例えばテレビ電話システムに授受される画像から、ユーザの姿およびそれ以外の背景部分を簡単に特定することができるようにするものである。

本発明の一側面の画像処理装置は、画像を入力する画像入力手段と、前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段と、前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定手段と、前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定手段と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段と、前記処理手段により処理された前記画像を出力する出力手段とを備える。

前記第２の特定手段は、前記被写体領域以外の領域を、前記背景領域とすることができる。

前記被写体領域は、あらかじめ決められた形状の領域であり、前記第１の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定することができる。

前記被写体領域は、第１の領域と、前記第１の領域より広い領域の前記第２の領域とからなり、フレーム上、前記第１の領域は上方に前記第２の領域は下方に並んで配置されており、前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定することができる。

前記第１の特定手段は、前記顔領域のフレーム上の位置に基づいて、前記第１の領域に対する前記第２の領域の位置を変更することができる。

前記第１の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第２の領域の水平方向の位置を変更することができる。

本発明の一側面の画像処理方法は、画像を入力する画像入力ステップと、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定ステップと、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定ステップと、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、前記処理ステップの処理で処理された前記画像を出力する出力ステップとを含む。

本発明の一側面のプログラムは、画像を入力する画像入力ステップと、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定ステップと、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定ステップと、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、前記処理ステップの処理で処理された前記画像を出力する出力ステップとを含む処理をコンピュータに実行させる。

本発明の一側面の画像処理装置、画像処理方法、およびプログラムにおいては、画像が入力され、入力された前記画像の中から、人の顔領域が検出され、検出された前記顔領域に基づいて、入力された前記画像の中から、前記人の姿全体の被写体領域が特定され、特定された前記被写体領域に基づいて、入力された前記画像から、前記人の姿以外の背景領域が特定され、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理が行われ、処理された前記画像が出力される。

本発明によれば、例えばテレビ電話システムに授受される画像から、ユーザの姿またはそれ以外の背景部分を簡単に特定し、処理を施すことができるようにすることができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の画像処理装置は、画像を入力する画像入力手段（例えば、図３のステップＳ１の処理を行う図２の送信処理部５３）と、前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段（例えば、図３のステップＳ３の処理を行う図２の送信処理部５３）と、前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定手段（例えば、図３のステップＳ４の処理を行う図２の送信処理部５３）と、前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定手段（例えば、図３のステップＳ５の処理を行う図２の送信処理部５３）と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段（例えば、図３のステップＳ６の処理を行う図２の送信処理部５３）と、前記処理手段により処理された前記画像を出力する出力手段（例えば、図３のステップＳ７乃至Ｓ１０の処理を行う図２の送信処理部５３）とを備える。

前記第２の特定手段は、前記被写体領域以外の領域を、前記背景領域とすることができる（例えば、図５の背景領域Ｑ）。

前記被写体領域は、あらかじめ決められた形状の領域であり、前記第１の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定することができる（例えば、図３のステップＳ４）。

前記被写体領域は、第１の領域と、前記第１の領域より広い領域の前記第２の領域とからなり、フレーム上、前記第１の領域は上方に前記第２の領域は下方に並んで配置されており、前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定することができる（例えば、図４）。

前記第１の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第２の領域の水平方向の位置を変更することができる（例えば、図１１）。

本発明の一側面の画像処理方法、またはプログラムは、画像を入力する画像入力ステップ（例えば、図３のステップＳ１）と、前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップ（例えば、図３のステップＳ３）と、前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定ステップ（例えば、図３のステップＳ４）と、前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定ステップ（例えば、図３のステップＳ５）と、前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップ（例えば、図３のステップＳ６）と、前記処理ステップの処理で処理された前記画像を出力する出力ステップ（例えば、図３のステップＳ７乃至ステップＳ１０）とを含む。

図１は、本発明を適用したテレビ電話装置１の構成例を示している。テレビ電話装置１は、テレビ電話装置３と、電話網を含むネットワーク２を介して、相手の映像を見ながら通話することができる通常のテレビ電話機能を有しているが、例えばテレビ電話装置３に映し出される画像の中の、ユーザの姿全体の領域（以下、被写体領域と称する）以外の領域（以下、背景領域と称する）を隠蔽することができる。

テレビ電話装置１の不揮発性メモリ２１乃至DSP２５は、バス３２により相互に接続されている。バス３２には、入出力インタフェース３３が接続され、それにはカメラ２６乃至通信部３１が接続されている。

例えば、特定の相手とテレビ電話を行うための操作がリモコン１１に対して行われ、その信号が受光部３０により受信されると、CPU（Central Processing Unit）２４は、あらかじめ不揮発性メモリ２１に記憶されているテレビ電話発信プログラムを実行し、各部を制御する。これにより通信部３１は、ネットワーク２を介してテレビ電話装置３と接続する。

テレビ電話装置３との接続が確立すると、カメラ２６やマイクロフォン２８により取り込まれた画像音声信号が、DSP（Digital Signal Processor）２５によってエンコードされ、その結果得られたストリームが通信部３１を介してテレビ電話装置３に送信され、映像は、テレビ電話装置３のディスプレイ５１に映し出される。

この際テレビ電話装置１は、テレビ電話装置３のディスプレイ５１に映し出される映像の、被写体領域以外の背景領域を隠蔽するための処理を実行する（後述）。

テレビ電話装置３から送信されてきたストリームは、DSP２５によってデコードされ、その結果得られた画像信号やGUI（Graphical User Interface）などのグラフィックデータが、ビデオメモリ２３に転送されることによって、ディスプレイ２７に表示され、音声信号はスピーカ２９に供給されて出力される。

図２は、テレビ電話装置１の機能的構成例を示している。

例えばリモコン１１に対する発信の操作により、たとえばアドレス帳機能を呼び出し特定の通話相手が決定されると、ユーザインタフェース部５１は、そのコマンドを受け付けて、発呼指令を、制御部５２に出力する。

制御部５２は、ユーザインタフェース部５１から発呼指令を受け取ると、送信処理部５３および受信処理部５４を制御して、通話相手（テレビ電話装置３）との呼制御を行う。これにより送信処理部５３および受信処理部５４は、テレビ電話装置３との呼制御情報のやり取りを、ネットワーク２を介して行う。

呼制御によりテレビ電話装置３との呼が確立すると、送信処理部５３には、デジタル化された、カメラ２６およびマイクロフォン２８により取り込まれた画像音声が入力される。

送信処理部５３は、入力された画像音声信号に対して、画像音声エンコードや、誤り訂正などのチャネルエンコードを行うとともに、これをパケット化してネットワーク２を介してテレビ電話装置３に送信する。

送信処理部５３は、送信する画像を生成する際、必要に応じて、ユーザの姿の被写体領域以外の背景領域が、通話相手が認識できないように表示されるように所定の画像処理を施す（背景領域を隠蔽する）。

送信処理部５３は、デジタル化された画像音声データを、ユーザインタフェース部５１にも供給する。

ユーザインタフェース部５１は、送信処理部５３から画像音声信号が供給されると、画像信号を、自画像のモニタとしてディスプレイ２７に表示し、音声をスピーカ２９から出力する。

一方、テレビ電話装置３からのパケット化された画像音声情報が受信されると、受信処理部５４には、そのデータが入力される。

受信処理部５４は、入力された画像音声データに対して、チャネルデコードや画像音声デコードを行い、その結果得られた画像音声データをユーザインタフェース部５１に供給する。

ユーザインタフェース部５１は、受信処理部５４から供給された画像音声データを、通話相手の画像としてディスプレイ２７に表示し、音声をスピーカ２９から出力する。

次に、送信処理部５３における、背景領域が通話相手に認識されないように表示されるようにする処理（以下、隠蔽処理と称する）を説明する。

テレビ電話システムを、家庭内またはテレビ会議で利用する際、ユーザは、座っているか立っている場合が多い（寝転んだり、逆立ちをしたり、または顔を見せず背を向けるといった場合は稀である）。したがって、多くの場合、相手方のテレビ電話装置に映し出される画像においては、ユーザの顔の部分と胴体の部分は、上下方向に並んで映し出される。また、顔と胴体との大きさの関係から、胴体の画像部分の大きさは、顔の画像部分の大きさよりも大きいものと考えられる。

すなわち本発明は、この通常のテレビ電話システムの使用状況でテレビ電話装置に映し出される顔の部分と胴体の部分との関係を利用して、ユーザの姿全体の部分（被写体領域）とそれ以外の部分（背景領域）を簡単に特定するものである。

本発明における隠蔽処理の詳細は、図３のフローチャートに示されている。

ステップＳ１において、送信処理部５３は、カメラ２６およびマイクロフォン２８により取り込まれデジタル化された画像音声信号を入力する。

ステップＳ２において、送信処理部５３は、背景隠蔽処理を行うか否かを判定し、背景隠蔽処理を行うと判定した場合、ステップＳ３に進む。なお背景隠蔽処理を行うか否かは、例えばユーザがリモコン１１を操作することにより任意に設定することができるものとする。

ステップＳ３において、送信処理部５３は、１フレーム分の画像データから、例えば、図４に示すように、長方形の領域Ｗを、ユーザの顔の部分の領域として検出する。

この検出アルゴリズムは、従来技術（特許文献１）など、どの技術を用いても良く、結果として顔の部分が検出されれば良い。

次に、ステップＳ４において、送信処理部５３は、ステップＳ３で抽出した顔領域に基づいて被写体領域を特定する。

具体的にははじめに、送信処理部５３は、図４に示すように、顔領域Ｗのフレーム上の大きさに基づいて、被写体領域Ｐの大きさを算出する。図４の例の場合、被写体領域Ｐの形は、上部の小さな長方形を領域Ｐ１とし、下部の大きな長方形を領域Ｐ２とする凸の文字の形である。すなわちこの被写体領域Ｐは、領域Ｐ１が上方に領域Ｐ２が下方に並んで配置されて構成されている。

例えば送信処理部５３は、領域Ｐ１の幅を、顔領域Ｗの幅ｘに所定の係数ａ１（１よりも大きい実数）を乗じたものとし、そしてその高さを、顔領域Ｗの高さｙに係数ｂ１（１よりも大きい実数）を乗じたものとする。また送信処理部５３は、領域Ｐ２の幅を、幅ｘに係数ａ２（ａ１より大きい実数）を乗じたものとし、その高さを、高さｙに（ｂ２−ｂ１）（ｂ２は、ｂ１より大きい実数）を乗じたものとする。

次に、送信処理部５３は、上述したように決定した大きさを有する被写体領域Ｐ（凸の文字の形の領域）のフレーム上の位置を、顔領域Ｗのフレーム上の位置に基づいて決定する。

例えば送信処理部５３は、被写体領域Ｐの左右方向の位置（Ｘ軸上の位置）を、顔領域ＷのＸ軸上の中心Ｃwxと被写体領域ＰのＸ軸上の中心が一致するように、そして上下方向の位置（Ｙ軸上の位置）を、被写体領域Ｐの上端が、顔領域ＷのＹ軸上の中心Ｃwｙから、被写体領域Ｐ全体の高さｂ２×ｙの１／ｃだけ上方となるようにする。なお被写体領域Ｐにおける領域Ｐ１と領域Ｐ２の位置関係は、領域Ｐ１および領域Ｐ２のＸ軸上の中心がそれぞれ一致するようになされている。

ここで、係数ａ１、係数ｂ１、係数ｂ２、および係数ｃは、１よりも大きい実数であるので、被写体領域Ｐ全体の大きさおよび位置は、顔領域Ｗを含むように決定される。

このようにして決定された大きさおよび位置の被写体領域Ｐが特定される。

なお、このように特定された被写体領域Ｐがフレームからはみ出す場合、はみ出さないところまでの領域が被写体領域Ｐとされる。

このように、通常のテレビ電話システムの使用例におけるテレビ電話装置に映し出される顔の領域と胴体の領域との関係を利用して、被写体領域Ｐの位置を、顔領域Ｗの位置にあわせるとともに、顔領域Ｗの下方の被写体領域Ｐの領域Ｐ２の大きさを、顔領域Ｗの大きさより大きくするようにしたので、図５に示すように、ユーザの姿の画像の大部分を、被写体領域Ｐとすることができる。

次にステップＳ５において、送信処理部５３は、背景領域を特定する。

具体的には、被写体領域Ｐ以外の領域が背景領域（図５に示す背景領域Ｑ）とされる。

次にステップＳ６において、送信処理部５３は、特定した背景領域が通話相手によって認識されないように表示されるように所定の画像処理を施す。

具体的には、図６に示すように、ぼかし効果のあるフィルタをかけ、背景領域Ｑがぼけて表示されるようにすことができる。

また図７に示すように、予め用意された所定の画像（図７の例では、黒く塗りつぶされた画像）が背景領域Ｑとして表示されるようにすることもできる。

ステップＳ６で、背景領域に対して画像処理が行われたとき、またはステップＳ２で、背景隠蔽処理を行わないと判定されたとき、ステップＳ７に進み、送信処理部５３は、画像音声データ（画像処理が施された画像または画像処理が施されていない画像の画像データ、および音声データ）を、ユーザインタフェース部５１に供給する。

次に、ステップＳ８において、送信処理部５３は、画像処理が施されたまたは画像処理が施されてない画像データ、および入力された音声データをエンコードするとともに、ステップＳ９において、誤り訂正などのチャンネルエンコードおよびパケット化処理を行い、ステップＳ１０において、その結果得られたストリームを、テレビ電話装置３に送信する。

その後、送信処理部５３は、ステップＳ１に戻りそれ以降の処理を同様に実行する。

以上のように、被写体領域を、顔領域の大きさおよび位置と、所定の係数との演算により求めるようにしたので、被写体領域および背景領域の特定を簡単に行うことができ、また背景領域の隠蔽を簡単に行うことができる。

また背景領域をぼかしたり一色に塗りつぶしたり、または被写体を単純な画像に置き換えるなど行うことで、通話相手に送信されるデータ量を削減することもできる。

なお以上においては、ステップＳ３で顔領域が検出されるものとしたが、顔領域が検出されない場合、ステップＳ４で被写体領域も特定されない。このように被写体領域が特定されない場合、ステップＳ５において、例えば全ての領域が背景領域とされ、ステップＳ６以降の処理が行われる。

次に、ステップＳ４における被写体領域特定処理の他の例について説明する。

以上においては、被写体領域Ｐの形を凸の文字の形としたが（図４および図５）、顔領域Ｗを含み、その下方に伸びる大きな領域であれば、図８Ａ乃至図８Ｃに示すような形を被写体領域Ｐとすることもできる。

図９は、被写体領域Ｐを、図８Ａの形とした場合の例を示している。このように被写体領域Ｐの、頭部の左右部分および両肩部分に対応する部分に角度を持たせるようにすることで、より人の体に合った領域を被写体領域Ｐとすることができる。

図１０は、被写体領域Ｐを、図８Ｃの形とした場合の例を示している。なおこの被写体領域Ｐを縦長の楕円形にすることもできる。

また、以上においては、顔領域Ｗの幅ｘから被写体領域Ｐの幅（ａ１×ｘ, ａ２×ｘ）を求め、また顔領域Ｗの高さｙから被写体領域Ｐの高さ（ｂ１×ｙ, （ｂ２−ｂ１）×ｙ）を求めたが、これに限らず、顔領域Ｗの面積ｘｙを基準とし、被写体領域Ｐの幅を、それぞれａ１×ｘｙ, ａ２×ｘｙとし、高さを、ｂ１×ｘｙ，（ｂ２−ｂ１）×ｘｙとすることもできる。ただし、この場合の各定数は、適宜変更される。

さらに、得られた顔領域Ｗに対して上記のような単純な幾何学的な関係で決まる領域に決定するのではなく、従来から知られる背景差分などの方法を用いて、被写体である人が画像内に登場する以前の画像との差分情報をも利用し、上記のような簡易な方法と組み合わせることで、演算処理を簡単なものにし、CPU２４やメモリ２３に負荷をかけない方法で、被写体領域を決定することもできる。

また図４および図５の例では、凸の文字の形における上部の小さな長方形の領域Ｐ１と下部の大きな長方形の領域Ｐ２の位置関係は、領域Ｐ１および領域Ｐ２の左右方向（Ｘ軸上）の中心がそれぞれ一致するようになされていたが、顔領域Ｗのフレーム上の位置（例えば、Ｘ軸上の位置）に応じて、図１１に示すように、領域Ｐ１と領域Ｐ２のＸ軸上の中心をずらすこともできる。図１１の例では、領域Ｐ２のＸ軸上の中心Ｃp2xが領域Ｐ１（顔領域Ｗ）の中心Ｃwxに対して、図中左方向にずれている。

たとえば、図１２に示すように、ユーザＵの顔Ｕａが、カメラ２６の撮像方向に向かって図中右側に位置し、左方向を向くようにしてカメラ２６を見ている場合は、ユーザＵの右肩ＵRがカメラ２６に対して前方に、そして左肩ＵLが後方に向けられるので、その撮像画像では、図１３に示すように、ユーザの顔領域Ｗがフレーム画面上の中心Ｃcより図面上左側に位置し、身体の右側（図面上左側）の画像領域が、身体の左側（図面上右側）の領域に比べ大きくなる。

すなわちこの特性を利用して、例えば、顔領域ＷのＸ軸上の中心Ｃwxが、フレームのＸ軸上の中心Ｃcより、距離ｄだけずれている場合、そのずれている方向に、領域Ｐ２のＸ軸上の中心Ｃp2xが、係数ｋ×ｄだけずれるようにすることにより、より正確にユーザの姿を被写体領域Ｐとすることができる。

また以上においては、被写体としての人が一人である場合を例として説明したが、図１４に示すように、複数人であっても、本発明を適用することができる。

すなわち図１４に示すように、被写体としての人が３人である場合、いずれの被写体領域Ｐa乃至Ｐcに属さない領域が背景領域Ｑとされ、その背景領域Ｑにぼかし効果のあるフィルタをかけたり(図１５)、単純に背景領域をなんらかの色で塗りつぶしたり、画像を貼り付けたりして（図１６）、背景を置き換えることもできる。

なお以上においては、背景領域に対して画像処理が施される場合を例として説明したが、被写体領域に対してぼかし処理等の画像処理を施すようにすることもできる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１７は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２、または記憶部２０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）２０３には、CPU２０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU２０１、ROM２０２、およびRAM２０３は、バス２０４により相互に接続されている。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図１７に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１、または、プログラムが一時的もしくは永続的に格納されるROM２０２や、記憶部２０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部２０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明を適用したテレビ電話装置１の構成例を示している。図１のテレビ電話装置１の機能的構成例を示している。図２の送信処理部５３の動作を説明するフローチャートである。顔領域に基づく被写体領域を説明する図である。被写体領域の表示例を示す図である。背景領域の表示例を示す図である。背景領域の他の表示例を示す図である。顔領域に基づく他の被写体領域を説明する図である。被写体領域の他の表示例を示す図である。被写体背景領域の他の表示例を示す図である。顔領域に基づく他の被写体領域を説明する図である。図１１の被写体領域を説明する図である。図１１の被写体領域の例を示す図である。顔領域に基づく他の被写体領域を説明する図である。背景領域の他の表示例を示す図である。背景領域の他の表示例を示す図である。コンピュータの構成例を示すブロック図である。

符号の説明

１テレビ電話装置，５１ユーザインタフェース部，５２制御部，５３送信処理部，５４受信処理部

Claims

画像を入力する画像入力手段と、
前記画像入力手段により入力された前記画像の中から、人の顔領域を検出する検出手段と、
前記検出手段により検出された前記顔領域に基づいて、前記画像入力手段により入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定手段と、
前記第1の特定手段により特定された前記被写体領域に基づいて、前記画像入力手段により入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定手段と、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理手段と、
前記処理手段により処理された前記画像を出力する出力手段と
を備える画像処理装置。
前記第２の特定手段は、前記被写体領域以外の領域を、前記背景領域とする
請求項１の記載の画像処理装置。
前記被写体領域は、あらかじめ決められた形状の領域であり、
前記第１の特定手段は、前記被写体領域のフレーム上の大きさまたは位置を、前記顔領域の大きさまたは位置に基づいて決定する
請求項１に記載の画像処理装置。
前記被写体領域は、第１の領域と、前記第１の領域より広い領域の前記第２の領域とからなり、フレーム上、前記第１の領域は上方に前記第２の領域は下方に並んで配置されており、
前記第1の特定手段は、前記顔領域が前記被写体領域に含まれるように、前記被写体領域を特定する
請求項３に記載の画像処理装置。
前記第１の特定手段は、前記顔領域のフレーム上の位置に基づいて、前記第１の領域に対する前記第２の領域の位置を変更する
請求項４に記載の画像処理装置。
前記第１の特定手段は、前記顔領域のフレーム上の水平方向の位置に基づいて、前記第２の領域の水平方向の位置を変更する
請求項５に記載の画像処理装置。
画像を入力する画像入力ステップと、
前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、
前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定ステップと、
前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定ステップと、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、
前記処理ステップの処理で処理された前記画像を出力する出力ステップと
を含む画像処理方法。
画像を入力する画像入力ステップと、
前記画像入力ステップの処理で入力された前記画像の中から、人の顔領域を検出する検出ステップと、
前記検出ステップの処理で検出された前記顔領域に基づいて、前記画像入力ステップの処理で入力された前記画像の中から、前記人の姿全体の被写体領域を特定する第１の特定ステップと、
前記第1の特定ステップの処理で特定された前記被写体領域に基づいて、前記画像入力ステップの処理で入力された前記画像から、前記人の姿以外の背景領域を特定する第２の特定ステップと、
前記被写体領域もしくは前記背景領域の少なくともいずれか一方に対して所定の画像処理を行う処理ステップと、
前記処理ステップの処理で処理された前記画像を出力する出力ステップと
を含む処理をコンピュータに実行させるプログラム。