JP2023167630A

JP2023167630A - 画像処理装置、画像処理方法

Info

Publication number: JP2023167630A
Application number: JP2022078951A
Authority: JP
Inventors: 州吾樋口; Shugo Higuchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-24
Also published as: US20230368396A1

Abstract

【課題】前景によって隠蔽された背景に更新があっても該背景の内容を出力可能な技術を提供すること。【解決手段】バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する。表示対象の背景画像を出力する。【選択図】図３

Description

本開示は、画像処理技術に関するものである。

近年、インターネット技術の発展により、教育現場において、講義のリアルタイム配信やオンデマンド配信によるｅラーニングシステムの導入が進んでいる。ｅラーニングシステムでは、ＰＣでスライドを表示したり、電子ホワイトボードで板書をデジタル化したりしたコンテンツもあるが、一般的な黒板での講義をカメラで撮影しただけのコンテンツも多く含まれている。また、一般的な黒板での講義でも、板書の内容を視覚しやすいように表示する技術が開示されている。

例えば、特許文献１に開示の技術では、映像から抽出した板書領域からベクトルデータを作成し、それを別々のウィンドウに合成表示することにより、板書情報を見やすくしている。

また、非特許文献１に開示の技術では、既に書かれた文字や図形を抽出し、それらをオーバーレイ表示することにより、講師に遮蔽されて見えなくなってしまった板書情報を見えるようにしている。

特開２００６－１６２６９２号公報

［令和4年4月26日検索］、インターネット＜URL：ｈｔｔｐｓ：／／ｗｗｗ．ｓｏｎｙ．ｃｏｍ／ｊａ／ＳｏｎｙＩｎｆｏ／Ｎｅｗｓ／Ｐｒｅｓｓ／２０１９０５／１９－０４１＞

しかしながら、これらの先行技術では、講師が板書する際に、講師の頭や体の一部によって書いている文字が遮蔽されてしまう状況では、板書の内容を視覚しやすいように表示することはできない。講師がその場に留まっていたり、話しながら板書したりしている場合、板書の内容を視覚できるようになるのは、少し時間が経過したあとになる。そのため、板書の内容が視覚できたときには講師の話が先に進んでいて、視聴者が講義の内容を理解する妨げの要因の一つとなっている。本開示では、前景によって隠蔽された背景に更新があっても該背景の内容を出力可能な技術を提供する。

本開示の一様態は、バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する特定手段と、前記表示対象の背景画像を出力する出力手段とを備えることを特徴とする。

本開示によれば、前景によって隠蔽された背景に更新があっても該背景の内容を出力可能な技術を提供することができる。

システムの構成例を示す図。システムのハードウェア構成例を示すブロック図。画像処理装置１０３の機能構成例を示すブロック図。画像処理装置１０３がカメラ１０１により撮像されたフレームを取得した場合に行う処理のフローチャート。メインメモリ２０２にバッファリングされているフレーム群における再生対象のフレームを再生するために画像処理装置１０３が行う処理のフローチャート。フレーム群の一例を示す図。比較部３０５における具体的な比較動作の一例を示す図。合成フレームの一例を示す図。メインメモリ２０２にバッファリングされているフレーム群における再生対象のフレームを再生するために画像処理装置１０３が行う処理のフローチャート。合成フレームの一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る本開示を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが本開示に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、ｅラーニングシステムに適用したシステムについて説明する。本実施形態に係るシステムでは、図１に示す如く、カメラ１０１は、黒板１０４の手前側（カメラ１０１から見て手前側）に位置する講師１０５が黒板１０４を用いて講義を行う様子を撮像する。カメラ１０１は、撮像した各フレーム（撮像画像）を有線もしくは無線のネットワーク１０２を介して画像処理装置１０３に対して送信する。画像処理装置１０３は、ネットワーク１０２を介してカメラ１０１から受信した各フレームを表示する。その際、画像処理装置１０３は、再生対象のフレームにおいて前景（講師１０５）で隠蔽された背景について、再生対象のフレーム以降の後段フレームにおいて該前景に対応する領域に差異が生じた場合には、該後段フレームを表示する。

なお、図１に示した構成は一例であり、本システムはこのような構成に限らない。例えば、カメラ１０１の台数は１に限らず、２以上であっても良い。また、システムは、カメラ１０１の操作や画像送信の制御を行うサーバ装置や、データ通信を中継する装置、等の装置を含んでもよい。

次に、本実施形態に係るシステムのハードウェア構成例について、図２のブロック図を用いて説明する。本実施形態では具体的な説明を行うために、図２に示す如く、カメラ１０１と画像処理装置１０３とはネットワーク１０２の一例であるＬＡＮ／ＷＡＮに接続されているものとする。しかし、カメラ１０１と画像処理装置１０３との間のネットワーク構成については特定のネットワーク構成に限らない。

先ず、カメラ１０１について説明する。カメラ１０１は図１に示す如く、講師１０５が黒板１０４を用いて講義を行っている様子を撮像する。カメラ１０１は該様子の動画像を撮像する装置であっても良いし、該様子を定期的若しくは不定期的に撮像する装置であっても良い。前者の場合、カメラ１０１は、撮像した動画像における各フレームをネットワーク１０２を介して画像処理装置１０３に対して送信する。後者の場合、カメラ１０１は、定期的若しくは不定期的に撮像した静止画像をフレームとしてネットワーク１０２を介して画像処理装置１０３に対して送信する。

次に、画像処理装置１０３について説明する。画像処理装置１０３には、例えば、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末装置などのコンピュータ装置が適用可能である。

ＣＰＵ２０１は、メインメモリ２０２に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ２０１は、画像処理装置１０３全体の動作制御を行うと共に、画像処理装置１０３が行うものとして説明する各種の処理を実行もしくは制御する。

メインメモリ２０２は、記憶部２０３からロードされたコンピュータプログラムやデータを格納するためのエリア、通信部２０６を介してカメラ１０１から受信したフレームを格納（バッファリング）するためのエリア、を有する。さらにメインメモリ２０２は、ＣＰＵ２０１が各種の処理を実行する際に用いるワークエリアを有する。このようにメインメモリ２０２は、各種のエリアを適宜提供することができる。

記憶部２０３は、ハードディスクドライブなどの大容量情報記憶装置である。記憶部２０３には、ＯＳ（オペレーティングシステム）、画像処理装置１０３が行うものとして説明する各種の処理をＣＰＵ２０１に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。記憶部２０３に保存されているコンピュータプログラムやデータは、ＣＰＵ２０１による制御に従って適宜メインメモリ２０２にロードされ、ＣＰＵ２０１による処理対象となる。記憶部２０３には、例えば、シリコンディスク等の不揮発性メモリを適用することができる。

操作部２０４は、キーボード、マウス、ボタン、モードダイヤル、スイッチ、レバー、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ２０１に対して入力することができる。

表示部２０５は、液晶画面やタッチパネル画面を有する装置であり、ＣＰＵ２０１による処理結果を画像や文字などでもって表示することができる。なお、表示部２０５がタッチパネル画面を有する場合には、ユーザが該タッチパネル画面を操作することで入力した各種の指示はＣＰＵ２０１に通知される。なお、表示部２０５は、画像や文字などを投影するプロジェクタなどの投影装置であっても良い。

通信部２０６は、イーサネットやＩＥＥＥ８０２．１１等の通信規格に準拠したデバイスであり、画像処理装置１０３をネットワーク１０２に接続するためのデバイスである。画像処理装置１０３は通信部２０６を介してネットワーク１０２上のカメラ１０１との間のデータ通信を行うことができる。

ＣＰＵ２０１、メインメモリ２０２、記憶部２０３、操作部２０４、表示部２０５、通信部２０６、はいずれもバス２０７に接続されている。

本実施形態に係る画像処理装置１０３の機能構成例を図３のブロック図に示す。図３に示した各機能部はいずれもソフトウェア（コンピュータプログラム）で実装されているものとする。以下では、図３の機能部を処理の主体として説明するが、実際には、該機能部に対応するコンピュータプログラムをＣＰＵ２０１が実行することで、該機能部の機能が実現される。なお、図３に示した機能部のうち１以上をハードウェアで実装しても良い。

先ず、画像処理装置１０３がカメラ１０１により撮像されたフレームを取得した場合に行う処理について、図４のフローチャートに従って説明する。

ステップＳ４０１では、取得部３０１は、カメラ１０１により撮像されたフレームを取得し、該取得したフレームをメインメモリ２０２に格納（バッファリング）する。取得部３０１は該フレームをカメラ１０１からネットワーク１０２および通信部２０６を介して取得しても良いし、カメラ１０１により撮像されたフレームを保持しているサーバ装置などの外部装置から取得しても良い。つまり、フレームの取得方法は特定の取得方法に限らない。また、取得部３０１は、符号化された動画像を復号して得られるそれぞれのフレームを取得するようにしても良いし、定期的若しくは不定期的に撮像された静止画像をフレームとして取得するようにしても良い。

以下では一例として、図６に示す如く、フレーム６０１～６０４をフレーム６０１，６０２，６０３，６０４の順に取得するケースについて説明する。フレーム６０１，６０２，６０３，６０４はそれぞれ、撮像時刻ｔ１，ｔ２，ｔ３，ｔ４で撮像されたフレームであり、撮像時刻ｔ１が最も過去の撮像時刻であり、撮像時刻ｔ４が最近の撮像時刻である。フレーム６０１，６０２，６０３，６０４は、何も書かれていない黒板１０４に対して講師１０５が文字「ＡＢ」を書いていくシーンを撮像したフレームである。

次に、ステップＳ４０２では、抽出部３０２は、ステップＳ４０１で取得したフレームにおける前景領域を抽出（特定）する。前景領域とは、フレームにおいて背景を遮蔽する前景（被写体）の領域であり、本実施形態では、抽出部３０２は、黒板１０４を遮蔽する講師１０５の領域を前景領域として抽出する。フレームから前景領域を抽出する方法は、基準となる背景画像とフレームとで差分がある領域（差分領域）を背景領域として抽出する背景差分法などが良く知られている。また、基準となる背景画像は、連続して撮像された画像から画素毎の時間平均を算出するなどの方法で生成したり、被写体が存在しない画像を予め撮像したりすることにより取得できる。また、背景画像は、前景を含まない撮像画像であってもよい。また、人物の顔や体など特定の領域を検出する検出器を用いて前景領域を抽出したり、位相差方式の焦点検出が可能な撮像素子を用いて、任意の画素における位相差情報（デフォーカス量）に基づいて前景領域を抽出したりしてもよい。

本実施形態では、前フレーム（前回取得したフレーム）の背景画像を基準として背景差分法により前景領域を抽出する。前フレームの背景画像が存在しない場合は、予め撮像された背景画像を用いるものとする。また、フレームにおける前景領域のヒストグラムや形状などの画像特徴量を算出し、クラスタリング処理することにより、ノイズの少ない前景領域を抽出することができる。しかし、ステップＳ４０２に適用可能な前景領域の抽出方法は特定の抽出方法に限らない。

次に、ステップＳ４０３では、生成部３０３は、ステップＳ４０１で取得したフレームにおける前景領域を加工して該フレームから前景を取り除いた加工フレームを背景画像として生成し、該生成した背景画像をメインメモリ２０２に格納する。例えば、生成部３０３は、ステップＳ４０１で取得したフレームにおける前景領域内の画素の画素値を他の画素値に置き換えた加工フレームを背景画像として生成する。「他の画素値」は、例えば、ステップＳ４０１で取得したフレームにおいて前景領域の周辺に位置する画素の画素値の平均値であっても良い。また、「他の画素値」は、例えば、別の画像（例えば、被写体が存在しない背景を予め撮像した背景画像）において該前景領域に対応する対応領域内の画素の画素値の平均値であっても良い。本実施形態では、ステップＳ４０１で取得したフレームにおける前景領域内の部分画像を、前回取得したフレームにおいて該前景領域に対応する対応領域内の部分画像に置き換える。しかし、ステップＳ４０１で取得したフレームから前景を取り除いた加工フレームを背景画像として生成する方法には様々な方法があり、特定の方法に限らない。

このように、画像処理装置１０３は、フレームを取得すると、該フレームに対応する背景画像を生成してメインメモリ２０２に格納する。よって、画像処理装置１０３は、メインメモリ２０２にバッファリングされたそれぞれのフレームについて、対応する背景画像を生成してメインメモリ２０２に格納することになる。

次に、メインメモリ２０２にバッファリングされているフレーム群における再生対象のフレームを再生するために画像処理装置１０３が行う処理について、図５のフローチャートに従って説明する。図５のフローチャートに従った処理は１フレーム分のフレームの再生に係る処理を示したものである。ＣＰＵ２０１は図５のフローチャートに従った処理を繰り返し実行することで、複数フレームの再生を可能にする。

本実施形態では、ＣＰＵ２０１は、ネットワーク１０２および通信部２０６を介してフレームを受信すると、該受信したフレームをメインメモリ２０２に格納（バッファリング）する。そしてＣＰＵ２０１は、バッファリングを開始してから予め定められた時間が経過すると、フレーム再生指示が入力可能である旨を表示部２０５に表示させる。なお、ＣＰＵ２０１は、バッファリングを開始してから予め定められたフレーム数のフレームがメインメモリ２０２に格納されると、フレーム再生指示が入力可能である旨を表示部２０５に表示させるようにしても良い。そしてＣＰＵ２０１は、ユーザが操作部２０４を操作してフレーム再生指示を入力したことを検知すると、図５のフローチャートに従った処理を開始する。なお、ＣＰＵ２０１は、バッファリングを開始してから予め定められた時間が経過すると、またはバッファリングを開始してから予め定められたフレーム数のフレームがメインメモリ２０２に格納されると、ユーザからのフレーム再生指示を受け付けること無しに、図５のフローチャートに従った処理を開始しても良い。

いずれにせよ、本実施形態では、メインメモリ２０２に格納されているフレームを再生する際には、メインメモリ２０２には、該再生するフレームよりも後のフレーム（該再生するフレームよりも撮像時刻が新しいフレーム）が１以上格納されているものとする。

ステップＳ５０１では、取得部３０１は、メインメモリ２０２にバッファリングされているフレーム群（バッファリング済みフレーム群）から再生対象のフレームを取得する。再生対象のフレームは、ユーザが操作部２０４を操作してバッファリング済みフレーム群から指定したフレームであっても良いし、ＣＰＵ２０１が適当な基準でバッファリング済みフレーム群から選択したフレームであっても良い。また、再生対象のフレームは、バッファリング済みフレーム群において最も過去のフレームであっても良い。

ステップＳ５０２では、抽出部３０２は、ステップＳ５０１で取得した再生対象のフレームにおける前景領域を遮蔽領域（背景を遮蔽する被写体の領域）として、上記のステップＳ４０２と同様の方法でもって抽出する。

ステップＳ５０３では、取得部３０４は、ステップＳ５０１で取得した再生対象のフレームに対応する背景画像（該再生対象のフレームついて図４のフローチャートに従った処理で生成した背景画像）をメインメモリ２０２から取得する。

ステップＳ５０４では、比較部３０５は、「バッファリング済みフレーム群において再生対象のフレームよりも後の後段フレーム（該再生対象のフレームよりも撮像時刻が新しいフレーム）のうち選択フレームとして選択していない後段フレームが残っている」か否かを判断する。なお、後段フレームは、バッファリング済みフレーム群において再生対象のフレームよりも後のＮ（Ｎは自然数）フレーム数分のフレーム（該再生対象のフレームよりも撮像時刻が新しいＮフレーム数分のフレーム）としても良い。

このような判断の結果、「バッファリング済みフレーム群において再生対象のフレームよりも後の後段フレームのうち選択フレームとして選択していない後段フレームが残っている」場合には、処理はステップＳ５０５に進む。一方、「バッファリング済みフレーム群において再生対象のフレームよりも後の後段フレームは全て選択フレームとして選択した」場合には、処理はステップＳ５０８に進む。

ステップＳ５０５では、比較部３０５は、バッファリング済みフレーム群において再生対象のフレームよりも後の未選択の後段フレームのうち撮像時刻が最も過去の後段フレームを選択フレームとして選択し、該選択フレームについて図４のフローチャートに従った処理で生成した背景画像を取得する。

ステップＳ５０６では、比較部３０５は、ステップＳ５０３で取得した背景画像において上記の遮蔽領域に対応する第１対応領域と、ステップＳ５０５で取得した背景画像において上記の遮蔽領域に対応する第２対応領域と、の差分を求める。比較部３０５は、第１対応領域と第２対応領域との差分として、例えば、第１対応領域と第２対応領域とで位置的に対応する画素間の画素値の差分値（絶対値）の総和を求める。第１対応領域と第２対応領域との差分は、第１対応領域と第２対応領域との差異の大小を定量化した値であれば、他の方法で求めた値であっても良い。

そして比較部３０５は、求めた差分が閾値以上であれば、第１対応領域と第２対応領域とには差異があるものと判断し、処理はステップＳ５０７に進む。一方、比較部３０５は、求めた差分が閾値未満であれば、第１対応領域と第２対応領域とには差異はないものと判断し、処理はステップＳ５０４に進む。第１対応領域と第２対応領域との差分をどのように用いて第１対応領域と第２対応領域とに差異があるか否かを判断するのか、については特定の判断方法に限らない。

ステップＳ５０７では、表示制御部３０６は、ステップＳ５０５で取得した背景画像（第１対応領域と第２対応領域とに差異があると判断された背景画像）を表示対象の背景画像として特定し、該特定した背景画像を表示部２０５に表示させる。ステップＳ５０５で取得した背景画像の表示方法には様々な表示方法が考えられる。

例えば、表示制御部３０６は、図８に示す如く、ステップＳ５０１で取得した再生対象のフレームに、ステップＳ５０５で取得した背景画像を半透明で重畳させた（例えば背景画像のα値を制御して半透明の画像に加工し、該加工した画像を再生対象のフレームに重畳させた）合成フレーム８０１を生成し、該生成した合成フレームを表示部２０５に表示させても良い。その際、表示制御部３０６は、合成フレームにおいて、遮蔽領域に対応する対応領域と該対応領域以外の領域と、を異なる表示方法で表示しても良い。例えば、表示制御部３０６は、遮蔽領域に対応する対応領域と該対応領域以外の領域とで明るさや色調を変えても良いし、エッジをシャープに表示させたりして、遮蔽領域に対応する対応領域を目立ち易くしてもよい。また、遮蔽領域の差分をＰｉｎＰ（ＰｉｃｔｕｒｅＩｎＰｕｃｔｕｒｅ）表示したり、別の画面に表示したりしても構わない。これにより、フレーム間で遮蔽領域が更新される場合には、バッファリングしている先の時刻のフレームから該更新された遮蔽領域を取得し、再生対象のフレームに付与して表示することができる。また表示制御部３０６は、再生対象のフレーム、ステップＳ５０５で取得した背景画像、のそれぞれを表示部２０５の表示画面における別個の表示領域に表示させても良い。

一方、ステップＳ５０８では、表示制御部３０６は、ステップＳ５０１で取得した再生対象のフレームを表示部２０５に表示させる。ステップＳ５０８では、背景画像は表示されない。

比較部３０５における具体的な比較動作について、図７を例に取り説明する。背景画像７０１は撮像時刻ｔ１で撮像されたフレーム６０１の背景画像であり、背景画像７０２は撮像時刻ｔ２で撮像されたフレーム６０２の背景画像である。また、背景画像７０３は撮像時刻ｔ３で撮像されたフレーム６０３の背景画像であり、背景画像７０４は撮像時刻ｔ４で撮像されたフレーム６０４の背景画像である。以下では、フレーム６０１～６０４がメインメモリ２０２にバッファリングされている状態においてフレーム６０１を再生対象のフレームとして再生するケースについて説明する。

背景画像７０１内の点線で示した領域７０５は、フレーム６０１における遮蔽領域に対応する対応領域である。背景画像７０２内の点線で示した領域７０６は、フレーム６０１における遮蔽領域に対応する対応領域である。背景画像７０３内の点線で示した領域７０７は、フレーム６０１における遮蔽領域に対応する対応領域である。背景画像７０４内の点線で示した領域７０８は、フレーム６０１における遮蔽領域に対応する対応領域である。

この場合、先ず比較部３０５は、領域７０５と領域７０６とに差異があるか否かを判断する。図７では、領域７０５と領域７０６とには差異はないため、次に、比較部３０５は、領域７０５と領域７０７とに差異があるか否かを判断する。図７では、領域７０５と領域７０７とに差異があるため、背景画像７０３を表示対象として選択する。図８では、再生対象のフレーム６０１に、背景画像７０３を半透明で重畳させた（例えば背景画像７０３のα値を制御して半透明の画像に加工し、該加工した画像を再生対象のフレーム６０１に重畳させた）合成フレーム８０１の一例を示している。

このように、本実施形態によれば、黒板に書いている文字が講師の頭や体の一部などの被写体によって遮蔽されてしまうような状況であっても、板書を視覚しやすいように表示することができる。これにより、講師の発話と同期して板書が表示されるため、視聴者が講義を理解しやすくなる。

なお、本実施形態では、ステップＳ５０５で取得した背景画像を表示部２０５に表示させる形態について説明したが、該背景画像の出力先は表示部２０５に限らない。例えば、該背景画像や、該背景画像を半透明で再生対象のフレームに合成した合成フレームを、通信部２０６およびネットワーク１０２を介して外部の装置に対して送信しても良い。

［第２の実施形態］
本実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。

図６に示したケースにおいて、講師が図面や数式や文章など、まとまりのある一つの情報を板書している場合には、そのまとまりを全部表示したほうが、視聴者にとって都合がよい場合もある。そこで、本実施形態では、差異のある領域の集合を後段フレームから取得し、再生対象のフレームに合成して表示する構成について説明する。

メインメモリ２０２にバッファリングされているフレーム群における再生対象のフレームを再生するために画像処理装置１０３が行う処理について、図９のフローチャートに従って説明する。図９において、図５に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ９０１では、比較部３０５は、「遮蔽領域の差分がまとまりとして完了したか否か」を判断する。ここで、「遮蔽領域の差分がまとまりとして完了したか否か」を判断するための判断方法について説明する。

例えば、比較部３０５は、フレーム中の講師の顔の向きに基づいて「遮蔽領域の差分がまとまりとして完了したか否か」の判断を行っても良い。例えば、講師が黒板に板書する際はカメラ１０１に背を向けているため、後頭部しか映っていない場合が多い。また、講師は板書が完了した際にはカメラ１０１の方向に視線を戻すため、正面を向く場合が多い。そのため、比較部３０５は、バッファリング済みフレーム群において再生対象のフレームよりも後の後段フレームで顔が正面を向いている（カメラ１０１の方を向いている）と判断した時点で「遮蔽領域の差分がまとまりとして完了した」と判断する。フレーム中の人の顔の向きを判断する技術については周知の技術であるため、これに係る説明は省略する。

また、比較部３０５は、講師の音声の認識結果に基づいて「遮蔽領域の差分がまとまりとして完了したか否か」の判断を行っても良い。例えば、講師が説明をしながら板書する際は、音声の内容と板書の内容が一致しているため、音声の内容のまとまりごとに遮蔽領域の差分を表示したほうが好ましい。そのため、比較部３０５は、画像処理装置１０３が有するマイクなどの音声収集装置を介して収集した講師の音声を認識して文章の終わりや単語の切れ目を検知すると、「遮蔽領域の差分がまとまりとして完了した」と判断する。

また、比較部３０５は、講師のジェスチャー等の動きの検知結果に基づいて「遮蔽領域の差分がまとまりとして完了したか否か」の判断を行っても良い。例えば、講師が板書する際にはチョークを手に持ち、板書が完了した際にはチョークを元の位置に戻す動作を行う。そのため、比較部３０５は、バッファリング済みフレーム群における再生対象のフレームよりも後のフレームにおいて腕を下す動作をしたと判断した時点で「遮蔽領域の差分がまとまりとして完了した」と判断する。フレーム中の人の動作を判断する技術については周知の技術であるため、これに係る説明は省略する。

また、「遮蔽領域の差分がまとまりとして完了した」旨の音声や動作を予め記憶部２０３に登録し、講師がその音声を発したり動作を行ったりしたことを検知した時点で比較部３０５は「遮蔽領域の差分がまとまりとして完了した」と判断するようにしても良い。これにより、まとまりとして表示したい区切りを講師がコントロールすることができるため、講師にとっても伝えたい板書のまとまりを視聴者に通知することができる。また、黒板を消すなどの動作があった場合には、次の板書が開始されるまでの期間、消される前の板書を表示し続けるなど、視聴者にとって都合のよい表示を提供することができる。

そしてこのような判断の結果、「遮蔽領域の差分がまとまりとして完了した」と判断した場合には、処理はステップＳ５０７に進み、「遮蔽領域の差分がまとまりとして完了した」と判断していない場合には、処理はステップＳ５０４に進む。

ステップＳ５０７では、表示制御部３０６は、最近のステップＳ５０５で取得した背景画像を表示部２０５に表示させる。なお、「最近のステップＳ５０５で取得した背景画像」は、「遮蔽領域の差分がまとまりとして完了した」と判断したタイミングに対応する撮像時刻のフレームの背景画像である。「遮蔽領域の差分がまとまりとして完了した」と判断したタイミングに対応する撮像時刻のフレームの背景画像は例えば「遮蔽領域の差分がまとまりとして完了した」と判断したタイミングより後かつ該タイミングに最も近い撮像時刻のフレームの背景画像である。

図７の例では、領域７０５と領域７０６とには差異はないため、次に、比較部３０５は、領域７０５と領域７０７とに差異があるか否かを判断する。図７では、領域７０５と領域７０７とに差異があるが、この時点では講師が正面を向いていないなど、「遮蔽領域の差分がまとまりとして完了した」と判断されていないので、次に、比較部３０５は、領域７０５と領域７０８とに差異があるか否かを判断する。図７では、領域７０５と領域７０８とに差異があり、この時点で講師が正面を向いたなど、「遮蔽領域の差分がまとまりとして完了した」と判断されたので、背景画像７０４を表示対象として選択する。

図１０は、再生対象のフレーム６０１に、背景画像７０４を半透明で重畳させた（例えば背景画像７０４のα値を制御して半透明の画像に加工し、該加工した画像を再生対象のフレーム６０１に重畳させた）合成フレーム１００１の一例を示している。

このように、本実施形態によれば、講師が図面や数式や文章など、まとまりのある一つの情報を板書している場合には、そのまとまりを全部表示することができるため、視聴者が講義をより理解しやすくなる。つまり画像処理装置１０３は、特定のイベントの発生を検知した場合には、ステップＳ５０５で取得した背景画像のうち、該検知のタイミングに対応する撮像時刻のフレームの背景画像を出力する。

なお、第１の実施形態および第２の実施形態では、講師が黒板を使って講義を行っている様子を撮像したフレームを表示するケースを例に取り説明したが、このようなケースに限らない。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の画像処理装置、画像処理方法、コンピュータプログラムを含む。

（項目１）
バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する特定手段と、
前記表示対象の背景画像を出力する出力手段と
を備えることを特徴とする画像処理装置。

（項目２）
前記特定手段は、前記バッファリング済みのフレーム群において前記着目フレームより後のフレームの背景画像について、より過去のフレームの背景画像から順に前記差分を求め、該求めた差分が閾値以上となった背景画像を表示対象の背景画像として特定することを特徴とする項目１に記載の画像処理装置。

（項目３）
さらに、
バッファリングしたフレームにおいて前景を含まない背景画像を生成する生成手段を備えることを特徴とする項目１または２に記載の画像処理装置。

（項目４）
前記生成手段は、バッファリングしたフレームにおける前景領域内の画素の画素値を他の画素値に置き換えた加工フレームを背景画像として生成することを特徴とする項目３に記載の画像処理装置。

（項目５）
前記他の画素値は、バッファリングしたフレームにおいて前景領域の周辺に位置する画素の画素値の平均値であることを特徴とする項目４に記載の画像処理装置。

（項目６）
前記他の画素値は、被写体が存在しない背景を予め撮像した背景画像において前記バッファリングしたフレームの前景領域に対応する対応領域内の画素の画素値の平均値であることを特徴とする項目４に記載の画像処理装置。

（項目７）
前記生成手段は、バッファリングしたフレームにおける前景領域内の部分画像を、前回取得したフレームにおいて該前景領域に対応する対応領域内の部分画像に置き換えた加工フレームを背景画像として生成することを特徴とする項目３に記載の画像処理装置。

（項目８）
前記出力手段は、前記表示対象の背景画像を半透明で前記着目フレームに合成した合成フレームを出力することを特徴とする項目１ないし７のいずれか１項目に記載の画像処理装置。

（項目９）
前記出力手段は、前記合成フレームにおいて前記前景領域に対応する対応領域と該対応領域以外の領域を、互いに異なる表示方法で表示することを特徴とする項目８に記載の画像処理装置。

（項目１０）
さらに、
特定のイベントの発生を検知する検知手段を備え、
前記出力手段は、前記特定手段が特定した表示対象の背景画像うち、前記検知手段が特定のイベントを検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする項目１ないし７のいずれか１項目に記載の画像処理装置。

（項目１１）
前記出力手段は、前記バッファリング済みのフレーム群における前記着目フレームよりも後のフレームにおいて人物の顔が正面を向いていることを前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする項目１０に記載の画像処理装置。

（項目１２）
前記出力手段は、音声の認識結果において文章の終わりまたは単語の切れ目を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする項目１０に記載の画像処理装置。

（項目１３）
前記出力手段は、特定の音声を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする項目１０に記載の画像処理装置。

（項目１４）
前記出力手段は、特定の動作を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする項目１０に記載の画像処理装置。

（項目１５）
画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する特定工程と、
前記画像処理装置の出力手段が、前記表示対象の背景画像を出力する出力工程と
を備えることを特徴とする画像処理方法。

（項目１６）
コンピュータを、項目１乃至１４のいずれか１項目に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。

本開示は上記実施形態に制限されるものではなく、本開示の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本開示の範囲を公にするために請求項を添付する。

３０１：取得部３０２：抽出部３０３：生成部３０４：取得部３０５：比較部３０６：表示制御部

Claims

バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する特定手段と、
前記表示対象の背景画像を出力する出力手段と
を備えることを特徴とする画像処理装置。
前記特定手段は、前記バッファリング済みのフレーム群において前記着目フレームより後のフレームの背景画像について、より過去のフレームの背景画像から順に前記差分を求め、該求めた差分が閾値以上となった背景画像を表示対象の背景画像として特定することを特徴とする請求項１に記載の画像処理装置。
さらに、
バッファリングしたフレームにおいて前景を含まない背景画像を生成する生成手段を備えることを特徴とする請求項１に記載の画像処理装置。
前記生成手段は、バッファリングしたフレームにおける前景領域内の画素の画素値を他の画素値に置き換えた加工フレームを背景画像として生成することを特徴とする請求項３に記載の画像処理装置。
前記他の画素値は、バッファリングしたフレームにおいて前景領域の周辺に位置する画素の画素値の平均値であることを特徴とする請求項４に記載の画像処理装置。
前記他の画素値は、被写体が存在しない背景を予め撮像した背景画像において前記バッファリングしたフレームの前景領域に対応する対応領域内の画素の画素値の平均値であることを特徴とする請求項４に記載の画像処理装置。
前記生成手段は、バッファリングしたフレームにおける前景領域内の部分画像を、前回取得したフレームにおいて該前景領域に対応する対応領域内の部分画像に置き換えた加工フレームを背景画像として生成することを特徴とする請求項３に記載の画像処理装置。
前記出力手段は、前記表示対象の背景画像を半透明で前記着目フレームに合成した合成フレームを出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は、前記合成フレームにおいて前記前景領域に対応する対応領域と該対応領域以外の領域を、互いに異なる表示方法で表示することを特徴とする請求項８に記載の画像処理装置。
さらに、
特定のイベントの発生を検知する検知手段を備え、
前記出力手段は、前記特定手段が特定した表示対象の背景画像うち、前記検知手段が特定のイベントを検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は、前記バッファリング済みのフレーム群における前記着目フレームよりも後のフレームにおいて人物の顔が正面を向いていることを前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする請求項１０に記載の画像処理装置。
前記出力手段は、音声の認識結果において文章の終わりまたは単語の切れ目を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする請求項１０に記載の画像処理装置。
前記出力手段は、特定の音声を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする請求項１０に記載の画像処理装置。
前記出力手段は、特定の動作を前記検知手段が検知したタイミングに対応する撮像時刻のフレームの背景画像を出力することを特徴とする請求項１０に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、バッファリング済みのフレーム群における着目フレームの背景画像において該着目フレームの前景領域に対応する対応領域と、該バッファリング済みのフレーム群において該着目フレームより後のフレームの背景画像において該前景領域に対応する対応領域と、の差分に基づいて、該フレームの背景画像のうち表示対象の背景画像を特定する特定工程と、
前記画像処理装置の出力手段が、前記表示対象の背景画像を出力する出力工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至１４のいずれか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。