WO2022162844A1

WO2022162844A1 - 作業推定装置、作業推定方法、及び、作業推定プログラム

Info

Publication number: WO2022162844A1
Application number: PCT/JP2021/003099
Authority: WO
Inventors: 敬士西川; 貴耶谷口; 健二瀧井
Original assignee: 三菱電機株式会社; 三菱電機ビルテクノサービス株式会社
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-08-04
Also published as: DE112021006095B4; US20230326251A1; CN116745808A; JP7254262B2; DE112021006095T5; JPWO2022162844A1

Abstract

作業推定装置（２００）は、注視領域推定部（２２０）と、物体検出部（２１０）と、接触度合算出部（２３０）と、作業推定部（２５０）とを備える。注視領域推定部（２２０）は、ユーザの視線を示す情報を用いてユーザが注視する領域である注視領域を推定する。物体検出部（２１０）は、ユーザが使用している作業用物体と、ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、作業用物体と、少なくとも１つの対象候補物体とを検出する。接触度合算出部（２３０）は、注視領域に基づいて、作業用物体と少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を求める。作業推定部（２５０）は、作業用物体と接触度合とに基づいてユーザの作業を推定する。

Description

作業推定装置、作業推定方法、及び、作業推定プログラム

　本開示は、作業推定装置、作業推定方法、及び、作業推定プログラムに関する。

　機器の保守作業に関するＯＪＴ（Ｏｎ　ｔｈｅ　Ｊｏｂ　Ｔｒａｉｎｉｎｇ）教育において、監督者又は教育者等の負担と、教育にかかる費用等を減らすべく、ＯＪＴ教育を代替する教育システムが求められている。保守作業に関するＯＪＴ教育を代替する教育システムにおいて、保守作業を学習するユーザに対し、ユーザが実施した作業についての有用な情報を提供することが望ましい。これを実現するために、教育システムがユーザの行う作業を推定する必要がある。
　特許文献１は、ユーザの一人称視点映像において、対象物の検出結果と注意マップとを利用してユーザの注目する注目物体を検出し、注目物体と非注目物体との情報の組み合わせに基づいて行動認識を行うことによって、ユーザの行動の認識精度を向上させる技術を開示している。

特開２０１５－０１１５２６号公報

　特許文献１が開示する行動認識方法では、ユーザ視点の映像の画角内に複数の物体が映る際に、ユーザが何の行動も行っていなかったとしても、ユーザがある行動を行っていると誤って認識するという課題がある。具体例として、当該行動認識方法によれば、ユーザの作業対象及びユーザが作業において使用する道具がユーザ視点の映像に映っている場合、ユーザが道具を用いていないとしても、ユーザが作業を行っていると判断してしまうことがある。

　本開示は、作業用物体と、作業対象の候補である対象候補物体との接触を検出することによって、ユーザの作業を推定する精度を向上させることを目的とする。

　本開示に係る作業推定装置は、
　ユーザの視線を示す情報を用いて前記ユーザが注視する領域である注視領域を推定する注視領域推定部と、
　前記ユーザが使用している作業用物体と、前記ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、前記作業用物体と、前記少なくとも１つの対象候補物体とを検出する物体検出部と、
　前記注視領域に基づいて、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を算出する接触度合算出部と、
　前記作業用物体と前記接触度合とに基づいて前記ユーザの作業を推定する作業推定部と
を備える。

　本開示によれば、接触度合算出部が作業用物体と少なくとも１つの対象候補物体が含む各対象候補物体との接触の度合を示す接触度合をユーザが注視する領域に基づいて求め、作業推定部が接触度合に基づいてユーザの作業を推定する。そのため、本開示によれば、作業用物体と、作業対象の候補である対象候補物体との接触を検出することによって、ユーザの作業を推定する精度を向上させることができる。

実施の形態１に係る作業推定装置２００のソフトウェア構成例。実施の形態１に係る作業推定装置２００のハードウェア構成例。実施の形態１に係る作業推定装置２００の動作を示すフローチャート。実施の形態１に係る接触度合算出部２３０の処理を説明する図。実施の形態１に係る接触度合算出部２３０の動作を示すフローチャート。実施の形態１に係る接触度合算出部２３０の処理を説明する図。実施の形態１に係る接触度合算出部２３０の処理を説明する図。実施の形態１に係る接触度合算出部２３０の処理を説明する図。実施の形態１に係る学習データＤ１の具体例。実施の形態１に係る学習装置４００の構成例。実施の形態１に係る学習装置４００の動作を示すフローチャート。実施の形態１の変形例に係る作業推定装置２００のソフトウェア構成例。実施の形態１の変形例に係る作業推定装置２００の動作を示すフローチャート。実施の形態１の変形例に係る作業推定装置２００のハードウェア構成例。

　実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。また、「部」を、「回路」、「工程」、「手順」、「処理」又は「サーキットリー」に適宜読み替えてもよい。

　実施の形態１．
　以下、本実施の形態について、図面を参照しながら詳細に説明する。

＊＊＊構成の説明＊＊＊
　図１は、作業推定システム９０の構成例と、作業推定装置２００のソフトウェア構成例とを示している。作業推定システム９０は、作業推定装置２００と、撮像装置３００と、視線計測装置３５０とを備える。本図中の黒い丸については、黒い丸に接している線が互いに接続していることを示す。複数の線が交差している箇所に黒い丸が示されていない場合、当該複数の線は互いに接していない。

　撮像装置３００は、ユーザの作業の様子を撮影する装置であり、具体例としてカメラである。ユーザは、実施している作業を作業推定システム９０によって推定される対象である。ユーザは、作業を実施せず、作業内容の確認又は休憩等をしていることもある。ユーザは、ロボット等、人でなくてもよい。撮像装置３００は、撮像装置３００が撮影した画像を撮像画像として作業推定装置２００に送信する。撮像画像は、動画であってもよく、１つ以上の静止画であってもよい。撮像画像は、ＲＧＢ（Ｒｅｄ－Ｇｒｅｅｎ－Ｂｌｕｅ）画像、深度画像、又はこれらの両方でもあってよい。撮像装置３００は複数の装置から成ってもよい。

　視線計測装置３５０は、ユーザの視線を計測する装置であり、具体例として、カメラを備える装置であって、ユーザが頭部に装着する装置である。視線計測装置３５０は、ユーザの視線を計測した結果を示す視線計測情報を作業推定装置２００に送信する。視線計測装置３５０は複数の装置から成ってもよい。

　作業推定装置２００は、撮像装置３００と視線計測装置３５０との少なくとも一方と直接接続していなくてもよい。作業推定装置２００は、撮像装置３００と視線計測装置３５０との少なくとも一方が作業推定装置２００に送信するデータを記録しているレコーダ等の外部の記録装置と接続していてもよく、当該記録装置があらかじめ記録しているデータを再生した情報を受け取ってもよい。

　作業推定装置２００は、物体検出部２１０と、注視領域推定部２２０と、接触度合算出部２３０と、作業推定部２５０と、推定結果記憶部２６０とを備える。作業推定装置２００は、撮像装置３００と、視線計測装置３５０とからの情報を元にユーザの行う作業を推定する。

　物体検出部２１０は、物体を検出し、作業用物体検出部２１１と、候補物体検出部２１５とを備える。物体は、対象候補物体と作業用物体との総称である。対象候補物体は、ユーザの作業対象である物体の候補である。作業用物体は、ユーザが作業において用いる物体であり、具体例として、ユーザの手、ユーザが使用している道具、又はこれらの両方である。作業用物体は、ユーザの両手又はユーザの片手と道具等、複数の物体から成ってもよい。物体検出部２１０は、ユーザが使用している作業用物体と、ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、作業用物体と、少なくとも１つの対象候補物体とを検出する。画像と映像とは同義であることもある。

　作業用物体検出部２１１は作業用物体を検出する。作業用物体検出部２１１は、道具検出部２１２と、手検出部２１３とを備える。

　道具検出部２１２は、撮像画像に基づいてユーザが利用している道具を検出する。

　手検出部２１３は、撮像画像に基づいてユーザの手を検出する。

　候補物体検出部２１５は対象候補物体を検出する。候補物体検出部２１５は対象物体検出部とも呼ばれる。

　注視領域推定部２２０は、視線計測装置３５０が計測した情報であって、ユーザの視線を示す情報を用いて注視領域を推定する。注視領域は、ユーザが注視する領域である。注視領域は、任意の形状の２次元分布であってもよく、視点位置に最大値を持つ分布であって、事前に設定された分布であってもよく、視点位置を記録した時系列データを利用して算出したヒートマップであってもよい。視点位置は、視線計測情報が示す位置であって、ユーザの視点の位置である。注視領域推定部２２０は、ユーザの視点の位置を示す時系列データを用いて注視領域を推定してもよい。また、注視領域は各対象候補物体の位置と視点位置との距離に応じて定まる領域であってもよい。具体例として、当該領域内において、各対象候補物体の位置と視点位置とは既定の範囲内に収まっている。

　接触度合算出部２３０は、注視領域に基づいて、作業用物体と、少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を算出する。接触度合算出部２３０は、注視領域内対象物体位置関係値計算部とも呼ばれる。接触度合算出部２３０は、注視領域に基づいて少なくとも１つの対象候補物体が含む各対象候補物体に対応する重みを算出し、算出した重みを用いて接触度合を求めてもよい。接触度合算出部２３０は、作業用物体と少なくとも１つの対象候補物体が含む各対象候補物体との距離に基づいて接触度合を求めてもよく、作業用物体の配置と少なくとも１つの対象候補物体が含む各対象候補物体の配置とに基づいて接触度合を求めてもよく、作業用物体と少なくとも１つの対象候補物体が含む各対象候補物体とが重複する領域に基づいて接触度合を求めてもよい。接触度合算出部２３０は、注視領域を示す情報による重みづけと、作業用物体及び対象候補物体とを適宜組み合わせることによって接触度合いを求めてもよい。

　作業推定部２５０は、物体検出部２１０の出力及び接触度合算出部２３０の出力に基づいてユーザの作業を推定する。作業推定部２５０は、作業用物体と接触度合とに基づいてユーザの作業を推定する。作業推定部２５０は、ルールベースの推定手法によりユーザの作業を推定してもよく、学習モデルを用いてユーザの作業を推定してもよい。

　推定結果記憶部２６０は、作業推定部２５０が作業を推定した結果を記憶する。推定結果記憶部２６０は作業推定結果記憶部とも呼ばれ、作業推定装置２００の外部にあってもよい。

　図２は、作業推定装置２００のハードウェア構成例を示している。作業推定装置２００は、本図に示すように、計算機１００から成る。計算機１００は、演算装置１０１と、主記憶装置１０２と、補助記憶装置１０３と、第１インタフェース１０４と、第２インタフェース１０５とから構成され、コンピュータとも呼ばれる。作業推定装置２００は、複数の計算機１００から成ってもよい。

　演算装置１０１は、演算処理を行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）であり、かつ、コンピュータが備えるハードウェアを制御する。演算装置１０１は、具体例として、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。作業推定装置２００は、演算装置１０１を代替する複数の演算装置を備えてもよい。複数の演算装置は、演算装置１０１の役割を分担する。

　主記憶装置１０２は、演算装置１０１の信号を一時的に記憶する装置である。主記憶装置１０２は、具体例として、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。主記憶装置１０２に記憶されたデータは、必要に応じて補助記憶装置１０３保存される。

　補助記憶装置１０３は、演算装置１０１の信号を長期的に記憶する装置である。補助記憶装置１０３は、具体例として、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はフラッシュメモリである。補助記憶装置１０３に記憶されたデータは、必要に応じて主記憶装置１０２にロードされる。主記憶装置１０２と補助記憶装置１０３とは一体的に構成されてもよい。

　第１インタフェース１０４は、計算機１００に接続された撮像装置３００から信号を受信する装置である。第１インタフェース１０４は、具体例として、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）端子、又は、通信チップ若しくはＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信装置である。

　第２インタフェース１０５は、第１インタフェース１０４と同様のインタフェースであり、視線計測装置３５０から信号を受信する装置である。第１インタフェース１０４と第２インタフェース１０５とは一体的に構成されていてもよい。

　補助記憶装置１０３は、作業推定プログラムを記憶している。作業推定プログラムは、作業推定装置２００が備える各部の機能をコンピュータに実現させるプログラムである。作業推定プログラムは、主記憶装置１０２にロードされて、演算装置１０１によって実行される。作業推定装置２００が備える各部の機能は、ソフトウェアにより実現される。

　作業推定プログラムを実行する際に用いられるデータと、作業推定プログラムを実行することによって得られるデータと等は、記憶装置に適宜記憶される。作業推定装置２００の各部は、適宜記憶装置を利用する。記憶装置は、具体例として、主記憶装置１０２と、補助記憶装置１０３と、演算装置１０１内のレジスタと、演算装置１０１内のキャッシュメモリとの少なくとも１つから成る。なお、データと情報とは、同等の意味を有することもある。記憶装置は、計算機１００と独立したものであってもよい。推定結果記憶部２６０は記憶装置から成る。
　主記憶装置１０２及び補助記憶装置１０３の機能は、他の記憶装置によって実現されてもよい。

　作業推定プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていてもよい。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。作業推定プログラムは、プログラムプロダクトとして提供されてもよい。

＊＊＊動作の説明＊＊＊
　作業推定装置２００の動作手順は、作業推定方法に相当する。また、作業推定装置２００の動作を実現するプログラムは、作業推定プログラムに相当する。

　図３は、作業推定装置２００の動作の一例を示すフローチャートである。本図を参照して作業推定装置２００の動作を説明する。本フローチャートの説明において、撮像画像には１つの作業用物体と１つ以上の対象候補物体とが映っているものとする。

（ステップＳ１０１：物体検出処理）
　物体検出部２１０は、撮像装置３００から撮像画像を受信し、受信した撮像画像に映っている作業用物体と対象候補物体とを検出し、検出した各対象候補物体に対応する情報を求める。当該情報は、具体例として、各対象候補物体の属性を示す属性情報と、各対象候補物体に対応する占有領域とを示す情報を含む。占有領域は、撮像画像において各物体が占有している領域に対応する領域であり、各物体を包含する矩形の領域であってもよく、各物体を表示する画素の集合であってもよい。物体検出部２１０が対象候補物体を検出する手法は、対象候補物体に付与されたマーカーを利用する手法であってもよく、事前に学習を済ませたモデルを用いた機械学習ベースの手法であってもよい。また、物体検出部２１０は作業用物体に対応する占有領域を求める。

（ステップＳ１０２：注視領域推定処理）
　注視領域推定部２２０は、視線計測装置３５０から視線計測情報を受信し、受信した視線計測情報が示す視点位置を用いて注視領域を推定する。

（ステップＳ１０３：接触度合算出処理）
　接触度合算出部２３０は、物体検出部２１０が検出した作業用物体及び各対象候補物体と、注視領域推定部２２０が推定した注視領域とに基づいて接触指標を算出する。接触指標は、作業用物体と各対象候補物体との接触の度合を定量化したものである。

　接触度合算出部２３０は、接触指標を、具体例として、（１）距離と、（２）重複領域と、（３）距離及び方向その１と、（４）重複領域及び方向と、（５）距離及び方向その２とのいずれかに基づいて算出する。距離は、作業用物体と各対象候補物体との距離の短さ又は長さに基づいて、接触度合算出部２３０が各対象候補物体に対応する接触指標を求めることを示す。重複領域は、各対象候補物体に対応する占有領域と、作業用物体に対応する占有領域とが重複する領域の大きさに基づいて、接触度合算出部２３０が各対象候補物体に対応する接触指標を求めることを示す。方向は、対象候補物体に対する作業用物体の方向と、作業用物体の方向とに基づいて、接触度合算出部２３０が各対象候補物体に対応する接触指標を求めることを示す。接触度合算出部２３０は、距離と重複領域と方向との全てに基づいて接触指標を算出してもよい。以下、接触指標を算出する具体例を説明する。作業用物体の方向は、作業用物体の配置に当たる。対象候補物体に対する作業用物体の方向は、対象候補物体の配置と作業用物体の配置とに基づく。

（１）距離
　以下、接触度合算出部２３０が距離に基づいて接触指標を求める具体例を説明する。接触度合算出部２３０は、対象候補物体に対応する占有領域と、注視領域とが重複している領域が大きくかつ重複している注視領域への注視の度合が大きいほど、また、作業用物体と対象候補物体とが近いほど、対象候補物体に対応するスコアの値が大きくなるようスコアを算出する。スコアは接触度合を示す。

　図４は、接触度合算出部２３０の処理の様子の具体例を、視界映像を用いて模式的に示したものである。視界映像はユーザの視界の少なくとも一部を示す映像であり、撮像画像が視界映像であってもよい。注視領域推定部２２０又は接触度合算出部２３０等が撮像画像に基づいて視界映像を生成してもよい。以下、接触度合算出部２３０が視界映像に基づいて処理を実行するものとする。
　本図において、占有領域Ａ（ｉ）（ｉ＝１，２，３）は、対象候補物体Ｃ（ｉ）に対応する占有領域であり、対象候補物体Ｃ（ｉ）を囲む矩形領域である。重心ｇｏ（ｉ）は対象候補物体Ｃ（ｉ）の重心である。作業用物体は手であり、重心ｕは手の重心位置である。ｄ（ｉ）は、重心ｕから重心ｇｏ（ｉ）までの距離値の逆数である。

　図５は、接触度合算出部２３０の処理フローの一例を示している。本図を参照して接触度合算出部２３０の処理を説明する。

（ステップＳ３０１）
　接触度合算出部２３０は、注視領域Ｇを示す情報を用いて、各対象候補物体Ｃ（ｉ）（ｉ＝１，２，…）に対する重みを算出する。
　具体例として、まず、接触度合算出部２３０は、各対象候補物体Ｃ（ｉ）についての重複領域Ｏｖ（ｉ）（＝Ａ（ｉ）∩Ｇ）を算出する。重複領域Ｏｖ（ｉ）は、占有領域Ａ（ｉ）と、注視領域Ｇとが重複している領域を示し、占有領域Ａ（ｉ）と、注視領域Ｇとが重複している領域を囲む矩形領域であってもよい。いずれの領域も、２次元の領域に限られず、３次元の領域であってもよい。各領域が３次元の領域である場合、接触度合算出部２３０は、重複領域を求める際に各領域に対応する立体同士が重複しているか否かを判定する。以下、各領域は２次元であるものとし、関数Ｇｆを注視領域Ｇにおいて視界映像が含む各画素におけるユーザの注視の度合を示す関数とする。即ち、関数Ｇｆは注視分布を示す関数であり、関数Ｇｆ（ｘ，ｙ）は座標（ｘ，ｙ）に対応する画素におけるユーザの注視の度合を示すものとする。関数Ｇｆ（ｘ，ｙ）は、具体例として、注視領域Ｇの中心地点における関数値が最も高く、注視領域Ｇの端に向かって関数値が次第に小さくなる関数である。なお、重複領域Ｏｖ（ｉ）の面積が０である場合、重複領域Ｏｖ（ｉ）に対応する対象候補物体Ｃ（ｉ）については以下のステップの処理を実行しなくてもよい。即ち、接触度合算出部２３０は、本ステップにおいて注視領域Ｇに基づいて対象候補物体Ｃ（ｉ）を絞りこんでもよい。
　次に、接触度合算出部２３０は、対象候補物体Ｃ（ｉ）に対応する重みＷ（ｉ）を［数１］に示すように算出する。重みＷ（ｉ）は、重複領域Ｏｖ（ｉ）内における関数Ｇｆの積分値を重複領域Ｏｖ（ｉ）内の画素の数で除すことにより算出される。

（ステップＳ３０２）
　接触度合算出部２３０は、作業用物体と各対象候補物体との距離に対応する値を算出する。
　具体例として、接触度合算出部２３０は、［数２］に示すように、距離に対応する値として、距離を示す距離値の逆数ｄ（ｉ）を算出する。本例において、接触度合算出部２３０は、作業用物体と対象候補物体Ｃ（ｉ）との距離として作業用物体の重心ｕと重心ｇｏ（ｉ）との距離を算出し、算出した距離値の逆数ｄ（ｉ）を算出する。

（ステップＳ３０３）
　接触度合算出部２３０は接触の度合を定量化したスコアを算出する。
　接触度合算出部２３０は、具体例として、重みＷ（ｉ）と、距離値の逆数ｄ（ｉ）とを用いて、対象候補物体Ｃ（ｉ）に対応するスコアＳ（ｉ）（＝Ｗ（ｉ）・ｄ（ｉ））を算出する。スコアＳ（ｉ）は、対象候補物体Ｃ（ｉ）がユーザの作業対象である確からしさを示す指標である。スコアＳ（ｉ）の値が大きいほど、対象候補物体Ｃ（ｉ）がユーザの作業対象である可能性が高い。

（ステップＳ３０４）
　接触度合算出部２３０は、求めたスコアを含む出力情報を出力する。接触度合算出部２３０は、対応するスコアＳに応じて、降順に対象候補物体を並べ替え、各対象候補物体と各対象候補物体に対応するスコアとを紐づけて出力してもよい。接触度合算出部２３０は、所定の基準値以上のスコアのみを出力してもよい。
　以下、接触度合算出部２３０が出力する出力情報は、対象候補物体の属性情報と、対象候補物体に対応するスコアとを含むものとする。出力情報は、対象物体の占有領域の情報を含んでもよい。占有領域の情報は、具体例として、占有領域を構成する位置座標の集合を示す情報である。

　（１）距離以外に基づいて接触度合算出部２３０が接触指標を求める場合の処理フローの具体例も、図５に示す通りである。以下、（１）距離における処理フローとの差異を主に説明する。

（２）重複領域
　以下、接触度合算出部２３０が重複領域に基づいて接触指標を求める具体例を説明する。接触度合算出部２３０は、対象候補物体に対応する占有領域と、作業用物体に対応する占有領域とが重複する領域が大きいほど、対象候補物体に対応するスコアの値が大きくなるようスコアを算出する。

　図６は、接触度合算出部２３０の処理の様子の具体例を示している。本図は図４と同様である。占有領域Ｕは、作業用物体である手に対応する占有領域である。

（ステップＳ３０１）
　接触度合算出部２３０は、各対象候補物体Ｃ（ｉ）に対応する占有領域Ａ（ｉ）を算出する。

（ステップＳ３０２）
　接触度合算出部２３０は、占有領域Ａ（ｉ）と占有領域Ｕとが重複する領域の大きさを算出する。
　具体例として、接触度合算出部２３０は、占有領域Ａ（ｉ）の面積に対する、占有領域Ａ（ｉ）と占有領域Ｕとが重複する領域の面積の割合Ａ１（ｉ）（＝｜Ａ（ｉ）∩Ｕ｜／｜Ａ（ｉ）｜）を算出する。

（ステップＳ３０３）
　接触度合算出部２３０はスコアを算出する。
　接触度合算出部２３０は、具体例として、割合Ａ１（ｉ）に基づいて、スコアＳ（ｉ）（＝Ｗ（ｉ）・Ａ１（ｉ））を算出する。
　なお、接触度合算出部２３０は、占有領域Ａ（ｉ）と占有領域Ｕとが重複する領域（Ａ（ｉ）∩Ｕ）の代わりに、占有領域Ａ（ｉ）と注視領域Ｇと占有領域Ｕとが重複する領域（（Ａ（ｉ）∩Ｇ）∩Ｕ）に基づいて割合Ａ１（ｉ）を算出してもよい。

（３）距離及び方向その１
　以下、接触度合算出部２３０が距離及び方向に基づいて接触指標を求める具体例を説明する。接触度合算出部２３０は、（１）距離における特徴を有するスコアであって、対象候補物体に対する作業用物体の方向と、作業用物体の方向とが近いほど、対象候補物体に対応するスコアの値が大きくなるようスコアを算出する。

　図７は、接触度合算出部２３０の処理の様子の具体例を示している。本図は図４と同様である。ベクトルｐ_ｉは、作業用物体の位置に対する対象候補物体Ｃ（ｉ）の相対的な位置を表す。ベクトルｐ_ｉの方向は、具体例として、重心ｕを起点とし、重心ｇｏ（ｉ）を終点とする方向である。ベクトルｈは作業用物体の方向を表す単位ベクトルである。接触度合算出部２３０は、具体例として、ベクトルｈの方向を、手検出部２１３が検出したユーザの手を示す領域に対して主成分分析を実行することによって得られた第一固有ベクトルの方向としてもよく、撮像画像又は視界映像から検出されたユーザの手指の関節位置を示す情報を利用して求めた方向としてもよい。作業用物体が道具である場合において、接触度合算出部２３０は、予め定義されている方向であって、ユーザが道具を使用する際の道具の方向を利用してベクトルｈの方向を算出してもよい。

（ステップＳ３０１）
　接触度合算出部２３０は、（１）距離におけるステップＳ３０１と同様の処理を実行する。

（ステップＳ３０２）
　接触度合算出部２３０は、距離及び方向それぞれに対応する値を算出する。
　具体例として、まず、接触度合算出部２３０は、（１）距離におけるステップＳ３０２と同様に距離に対応する値を算出する。
　次に、接触度合算出部２３０は、作業用物体の方向を利用することにより、対象候補物体と作業用物体との接触の度合を定量化する。具体例として、接触度合算出部２３０は、当該接触の度合として、ベクトルｐと、ベクトルｈとの差を示す内積Δを［数３］に示すように算出する。本例において、作業用物体の方向が対象候補物体Ｃ（ｉ）の重心を指す方向に近いほど、接触の度合である内積Δ（ｉ）の値が大きい。また、内積Δ（ｉ）は、作業用物体が対象候補物体Ｃ（ｉ）の方向を向いている程度を表す。

（ステップＳ３０３）
　接触度合算出部２３０はスコアを算出する。
　接触度合算出部２３０は、具体例として、重みＷ（ｉ）と、距離値の逆数ｄ（ｉ）と、内積Δ（ｉ）とに基づいてスコアＳ（ｉ）（＝Ｗ（ｉ）・ｆ（ｄ（ｉ），Δ（ｉ）））を算出する。ここで、関数ｆは、入力変数である距離値の逆数ｄ（ｉ）と内積Δ（ｉ）とを関連付ける関数である。関数ｆは、入力変数を線形結合する関数であってもよく、入力変数を非線形に関連付ける関数であってもよい。

（４）重複領域及び方向
　以下、接触度合算出部２３０が重複領域及び方向に基づいて接触指標を求める具体例を説明する。接触度合算出部２３０は、（２）重複領域におけるスコアが有する特徴と、（３）距離及び方向において示したように方向に基づいて算出したスコアが有する特徴とを有するスコアを算出する。

　図８は、接触度合算出部２３０の処理の様子の具体例を示している。本図は図４と図６と図７と同様である。

（ステップＳ３０２）
　接触度合算出部２３０は、（２）重複領域におけるステップＳ３０２と同様に重複する領域の大きさを算出する。また、接触度合算出部２３０は、（３）距離及び方向におけるステップＳ３０２と同様に、作業用物体の方向を利用することにより、対象候補物体と作業用物体との接触の度合を定量化する。
　以下、本ステップにおいて、接触度合算出部２３０は、割合Ａ１（ｉ）と内積Δ（ｉ）を算出したものとする。

（ステップＳ３０３）
　接触度合算出部２３０はスコアを算出する。
　接触度合算出部２３０は、具体例として、割合Ａ１（ｉ）と内積Δ（ｉ）とに基づいて、スコアＳ（ｉ）（＝Ｗ（ｉ）・ｆ（Ａ１（ｉ），Δ（ｉ）））を算出する。ここで、関数ｆは前述の関数ｆと同様である。

（５）距離及び方向その２
　接触度合算出部２３０は、多次元のベクトルをスコアとして求めてもよい。具体例として、物体Ｃ（ｉ）に対するスコアＳ（ｉ）は、以下に示す２次元ベクトルである。
　Ｓ（ｉ）＝［Ｗ（Ｃ（ｉ）），ｆ（ｄ（ｉ），Δ（ｉ））］
　ここで、Ｗ（Ｃ（ｉ））は注視領域による重みを示し、ｆ（ｄ（ｉ），Δ（ｉ））は物体Ｃ（ｉ）に対する作業用物体の位置関係を代表する計算値を示す。このとき、接触度合算出部２３０は、Ｗ（Ｃ（ｉ））を、上記（１）から（４）に示す計算方法によって求めてもよく、以下に示す計算方法によって求めてもよい。
　Ｗ（Ｃ（ｉ））＝｜Ｃ（ｉ）［ｘ，ｙ］－ｇ（ｘ，ｙ）｜
　ここで、Ｃ（ｉ）［ｘ，ｙ］は物体Ｃ（ｉ）の位置を表し、ｇ（ｘ，ｙ）は視点位置を表す。即ち、この式によって求まる重みは、各物体の位置と視点位置との距離に従う重みである。

（ステップＳ１０４：作業推定処理）
　作業推定部２５０は、道具検出部２１２が出力した道具を示す情報又は手検出部２１３が出力したユーザの手を示す情報と、接触度合算出部２３０が出力したスコアとを用いて、ユーザが行っている作業を推定する。作業推定部２５０は、具体例として、（ｉ）ルールベースの推定手法と（ｉｉ）機械学習ベースの推定手法とのいずれかを用いてユーザが行っている作業を推定する。以下、それぞれの推定手法について具体的に説明する。なお、作業用物体がユーザの手であり、対象候補物体である物体Ａと物体Ｂと物体Ｃとが入力され、物体Ａのスコアが最大であるものとする。

（ｉ）ルールベースの推定手法
　各作業用物体と各対象候補物体と組み合わせに対応する作業を示す作業ラベルがあらかじめ定義されている場合を考える。この場合において、作業推定部２５０は、ユーザの「手」と「物体Ａ」との組み合わせに対応する作業ラベルを検索することにより、ユーザの作業を推定してもよい。
　また、当該作業ラベルが定義されておらず、入力された対象候補物体とスコアとの全ての組み合わせそれぞれに対して、作業ラベルが１つ予め割り当てられている場合を考える。この場合において、作業推定部２５０は、入力された全ての対象候補物体と各対象候補物体に対応するスコアとを利用して作業を推定してもよい。
　また、作業推定部２５０は、手と道具との両方が撮像画像内に出現している場合に、当該道具は作業用物体であり、かつ、当該手は作業用物体ではない可能性が高いと判断し、当該道具と当該道具が接触している対象候補物体との組み合わせに対応する作業ラベルを検索することによりユーザの作業を推定してもよい。

（ｉｉ）機械学習ベースの推定手法
　作業推定部２５０は、撮像画像に出現した対象候補物体の情報と、対象候補物体に対応するスコアとの組み合わせを、統計的機械学習によって学習した学習済みの識別機に入力することによってユーザの作業を推定する。作業推定部２５０は、特許文献１に記載の行動認識手法を利用してもよい。
　作業推定部２５０は、対象候補物体の情報と作業用物体の情報とを関連付けたデータを特徴量として求め、学習済モデルを用いて、求めた特徴量に対応する作業又は行動に対応するラベルを推論する。作業推定部２５０は、具体例として、グラフ構造等によって関連付けた学習データＤ１を作成し、作成した学習データＤ１を、Ｇｒａｐｈ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ又はグラフ埋め込み等のグラフ構造を処理することができる識別機であって、統計的機械学習における学習済みの識別機に入力することによりユーザの作業を推定する。

　図９は、グラフを用いて作成した学習データＤ１の具体例を示している。本例において、グラフのノードは物体を表すラベルであり、作業用物体を表すノードと対象候補物体を表すノードとの間のエッジの値は接触度合算出部２３０が算出したスコアの値であり、対象候補物体間のノードの値は任意の固定値ｃである。なお、ノードは、物体を示すラベルのほか、視界映像における物体の位置を示す情報と、物体に対応する占有領域の大きさ等の情報を含んでもよい。また、ユーザの手をノードにより表現する場合、ノードは手の位置及び方向の情報を含んでもよい。手指の関節を示す情報が取得できる場合、ノードは関節を示す情報を含んでもよい。ユーザが使用する道具をノードにより表現する場合、ノードは、道具の種類に加え、道具の位置と方向と占有領域とを示す情報を含んでもよい。
　さらに、作業推定装置２００が撮像装置３００及び視線計測装置３５０から時系列データを取得しているとき、作業推定部２５０は、各時系列データにおける各時刻のデータに対応する物体の検出結果又は物体の位置関係を用いてデータを作成し、作成したデータの時系列における順序を考慮した機械学習手法を採用してもよい。作業推定部２５０は、具体例として、Ｔｅｍｐｏｒａｌ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｔｗｏｒｋを用いてもよい。

　一般的に、機械学習ベースの推定手法を利用する場合、学習データを収集する処理と学習モデルを生成する処理とが必要である。学習データは、学習モデルを生成することに用いられる学習用のデータである。図１０は、これらの処理を実行するための学習装置４００の構成例を示している。学習装置４００は、学習データ取得部４１０と、学習モデル生成部４２０と、学習モデル記憶部４３０とを備える。学習モデル記憶部４３０は、学習装置４００の外部にあってもよい。学習装置４００は、作業推定装置２００と一体的に構成されてもよい。学習装置４００のハードウェア構成は計算機１００のハードウェア構成と同様であってもよい。

　学習データ取得部４１０は、学習データＤ１を学習データとして取得する。学習データＤ１は作業推定部２５０に入力され得るデータとする。当該データは、作業推定部２５０がユーザの作業を推定する際に用いることもできるデータを含む。

　学習モデル生成部４２０は、学習データ取得部４１０が取得したデータを処理することができる学習モデルを構築し、構築した学習モデルに基づいて学習を実行することにより学習済みモデルを生成する。学習モデルは機械学習モデルとも呼ばれる。

　学習モデル記憶部４３０は、学習モデル生成部４２０が生成した学習済みモデルを記憶する。

　図１１は、学習処理のフローの一例を示している。本図を参照して学習装置４００の処理を説明する。

（ステップＳ５０１）
　学習データ取得部４１０は、作業推定部２５０に入力され得るデータを学習データとして取得し、取得した学習データを、作業対象となり得る物体を示す情報と、作業用物体を示す情報と、作業対象となり得る物体を示す情報と作業用物体とを示す情報とを関連付けた形式の情報とを示すデータとして表現する。学習データは、注視領域を示す情報と、物体に対応するスコアを示す情報との少なくともいずれかを含む。学習データ取得部４１０は、複数の情報を関連付ける際に、具体例として、各物体に対応する位置関係を示す値を要素としたデータを用いてもよく、図９に示すようなグラフ構造を用いてもよい。学習データ取得部４１０は、生成したデータに対して作業行動を表すラベルを付与する。

（ステップＳ５０２）
　学習モデル生成部４２０は、学習データ取得部４１０が取得した学習データを処理することによって学習モデルを生成する。
　具体例として、学習データがグラフ構造を示す場合を考える。この場合において、学習データ取得部４１０は、グラフ構造を処理することができるＧｒａｐｈ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ等の機械学習モデルを学習モデルとして利用してもよく、グラフ埋め込み手法を利用して学習データをベクトル化し、その後、ベクトル化した学習データを処理することができるモデルを利用してもよい。学習モデル生成部４２０は、時系列データの各時点におけるデータの関連性も考慮して学習する場合、具体例として、Ｔｅｍｐｏｒａｌ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｔｗｏｒｋ等のモデルを活用してもよい。

（ステップＳ５０３）
　学習モデル記憶部４３０は、学習モデル生成部４２０が生成した学習済みである学習モデルを記憶する。

（ステップＳ１０５：推定結果記憶処理）
　推定結果記憶部２６０は、作業推定部２５０の出力を記憶する。

＊＊＊実施の形態１の効果の説明＊＊＊
　以上のように、本実施の形態によれば、ユーザ視点の映像内に存在する作業用物体と各対象候補物体との組み合わせに加えて、ユーザの注視領域を利用して作業対象の候補を絞り込み、絞り込んだ候補の中でユーザが手又は道具により接触している物体に対応するスコアを求め、求めたスコアに基づいてユーザの作業を推定する。具体的には、接触度合算出部２３０は、ステップＳ３０１からステップＳ３０４までの処理によって、注視領域Ｇに基づいて対象候補物体を絞りこみ、その後、絞り込んだ候補の物体に対する接触を検出するという２段階の処理を実行する。そのため、本実施の形態によれば、ユーザが行う作業を比較的高い精度で推定できるだけでなく、作業用物体によるオクルージョンを防止することができる。従って、本実施の形態によれば、ユーザの作業の推定に対する頑健性が高まる。
　また、保守点検の対象である機器が作業対象の物体である場合、作業対象の候補である複数の点検箇所が互いに近接していることが多い。そのため、物体の組み合わせのみによって、特定した箇所に対応する点検作業を推定することは困難である。本実施の形態によれば、注視領域によって対象候補を絞り込み、その後、手又は道具と対象候補物体との接触を検出する。そのため、対象候補物体が互いに近接していたとしても、ユーザの作業の対象である物体に対するユーザの作業を比較的高い精度で推定することができる。

＊＊＊他の構成＊＊＊
＜変形例１＞
　作業推定部２５０は、スコアだけでなく他の情報を活用して作業を推定してもよい。他の情報は、具体例として、対象候補物体各々の属性情報と、作業用物体の属性情報との少なくともいずれかである。ここで、属性情報は、具体例として、物体の位置情報と、スケール情報と、物体の形状と、後述の検出確信度との少なくともいずれかである。
　また、他の情報が属性情報である場合について説明する。学習データ取得部４１０は、対象候補物体各々の属性情報と、作業用物体の属性情報とを含む情報を学習データとして取得する。学習モデル生成部４２０は、対象候補物体各々の属性情報及び作業用物体の属性情報を含む学習データを処理することにより学習モデルを生成する。

＜変形例２＞
　接触度合算出部２３０は、ユーザの手以外の部位と対象物体との接触の度合に基づいてスコアを算出してもよい。

＜変形例３＞
　接触度合算出部２３０は、道具とユーザの手との接触の度合を考慮してスコアを算出してもよい。
　本変形例によれば、視界映像に映っているものの放置されている道具を、ユーザが使用している道具であると作業推定装置２００が誤って認識することを防ぐことができる。

＜変形例４＞
　作業推定部２５０は、ユーザが複数の作業用物体を用いて作業している場合におけるユーザの作業を推定してもよい。
　本変形例によれば、作業推定部２５０は、ユーザが両手を用いて作業している場合においても、ユーザの作業を適切に推定することができる。

＜変形例５＞
　図１２は、本変形例に係る作業推定システム９０の構成例と作業推定装置２００のソフトウェア構成例とを示している。以下、実施の形態１と本変形例との差異を主に説明する。

　図１２に示すように、作業推定装置２００は、実施の形態１に係る作業推定装置２００が備える構成要素に加えて作業行動情報計算部２４０を備える。
　物体検出部２１０は、少なくとも１つの対象候補物体が含む各対象候補物体について、検出確信度を求める。検出確信度は、検出された対象候補物体の推定の正確さの度合を示す値であり、検出確信度が高いほど、検出確信度に対応する対象候補物体の推定が正確である。検出確信度は、具体例として、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）又はＦａｓｔｅｒ　Ｒ－ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等の一般的な物体検知手法により算出された物体の分類確率である。
　作業行動情報計算部２４０は、接触度合を用いて検出確信度を更新することによって更新確信度を求める。作業行動情報計算部２４０は、対象物体スコア更新部とも呼ばれる。更新確信度は接触度合に基づく指標である。
　作業推定部２５０は、物体検出部２１０の出力と、作業行動情報計算部２４０の出力とに基づいてユーザの作業を推定する。

　図１３は、作業推定装置２００の動作の一例を示すフローチャートである。本図を参照して作業推定装置２００の動作を説明する。

（ステップＳ１０１：物体検出処理）
　本ステップにおける処理は実施の形態１に係るステップＳ１０１における処理と同様である。ただし、物体検出部２１０は、検出した各対象候補物体に対応する情報として、検出確信度を含む情報を求める。

（ステップＳ１１１：作業行動情報計算処理）
　作業行動情報計算部２４０は、候補物体検出部２１５が出力した各対象候補物体に対応する検出確信度を、接触度合算出部２３０が出力したスコアであって、各対象候補物体に紐づくスコアを用いて更新することにより更新確信度を算出し、算出した更新確信度をスコアとして出力する。
　本ステップの処理により、作業推定装置２００は、作業対象である物体にユーザが接触している度合だけでなく、候補物体検出部２１５が算出した検出確信度も考慮してユーザの作業を推定することができる。作業行動情報計算部２４０は、検出確信度と、接触度合算出部２３０が算出した対象候補物体に紐づくスコアとの両方を保持してもよい。また、作業行動情報計算部２４０は、更新確信度を算出する際に、各物体の位置情報と各物体のスケール情報との少なくともいずれかを用いてもよく、各物体に関するその他の情報を用いてもよい。

（ステップＳ１０４：作業推定処理）
　本ステップにおける処理は実施の形態１に係るステップＳ１０４における処理と同様である。ただし、作業推定部２５０は、接触度合算出部２３０が出力したスコアの代わりに作業行動情報計算部２４０が出力したスコアを用いる。

＜変形例６＞
　図１４は、本変形例に係る作業推定装置２００のハードウェア構成例を示している。
　作業推定装置２００は、本図に示すように、演算装置１０１と主記憶装置１０２と補助記憶装置１０３との少なくとも１つに代えて、処理回路１０８を備える。
　処理回路１０８は、作業推定装置２００が備える各部の少なくとも一部を実現するハードウェアである。
　処理回路１０８は、専用のハードウェアであってもよく、また、主記憶装置１０２に格納されるプログラムを実行するプロセッサであってもよい。

　処理回路１０８が専用のハードウェアである場合、処理回路１０８は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡＳＩＣはＡｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又はこれらの組み合わせである。
　作業推定装置２００は、処理回路１０８を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路１０８の役割を分担する。

　作業推定装置２００において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されてもよい。

　処理回路１０８は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
　演算装置１０１と主記憶装置１０２と補助記憶装置１０３と処理回路１０８とを、総称して「プロセッシングサーキットリー」という。つまり、作業推定装置２００の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。本明細書に記載されている他の装置についても、本変形例と同様であってもよい。

＊＊＊他の実施の形態＊＊＊
　実施の形態１について説明したが、本実施の形態のうち、複数の部分を組み合わせて実施しても構わない。あるいは、本実施の形態を部分的に実施しても構わない。その他、本実施の形態は、必要に応じて種々の変更がなされても構わず、全体としてあるいは部分的に、どのように組み合わせて実施されても構わない。
　なお、前述した実施の形態は、本質的に好ましい例示であって、本開示と、その適用物と、用途の範囲とを制限することを意図するものではない。フローチャート等を用いて説明した手順は、適宜変更されてもよい。

　９０　作業推定システム、１００　計算機、１０１　演算装置、１０２　主記憶装置、１０３　補助記憶装置、１０４　第１インタフェース、１０５　第２インタフェース、１０８　処理回路、２００　作業推定装置、２１０　物体検出部、２１１　作業用物体検出部、２１２　道具検出部、２１３　手検出部、２１５　候補物体検出部、２２０　注視領域推定部、２３０　接触度合算出部、２４０　作業行動情報計算部、２５０　作業推定部、２６０　推定結果記憶部、３００　撮像装置、３５０　視線計測装置、４００　学習装置、４１０　学習データ取得部、４２０　学習モデル生成部、４３０　学習モデル記憶部、Ｄ１　学習データ。

Claims

　ユーザの視線を示す情報を用いて前記ユーザが注視する領域である注視領域を推定する注視領域推定部と、
　前記ユーザが使用している作業用物体と、前記ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、前記作業用物体と、前記少なくとも１つの対象候補物体とを検出する物体検出部と、
　前記注視領域に基づいて、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を算出する接触度合算出部と、
　前記作業用物体と前記接触度合とに基づいて前記ユーザの作業を推定する作業推定部と
を備える作業推定装置。
　前記物体検出部は、前記少なくとも１つの対象候補物体が含む各対象候補物体について、前記ユーザの作業対象であると推定される度合を示す検出確信度を求め、
　前記作業推定装置は、さらに、
　前記接触度合を用いて前記検出確信度を更新することによって更新確信度を求める作業行動情報計算部を備え、
　前記作業推定部は、前記更新確信度を用いて前記ユーザの作業を推定する請求項１に記載の作業推定装置。
　前記接触度合算出部は、前記注視領域に基づいて前記少なくとも１つの対象候補物体が含む各対象候補物体に対応する重みを算出し、算出した重みを用いて前記接触度合を求める請求項２に記載の作業推定装置。
　前記注視領域推定部は、前記ユーザの視点の位置を示す時系列データを用いて前記注視領域を推定する請求項１から３のいずれか１項に記載の作業推定装置。
　前記接触度合算出部は、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体との距離に基づいて前記接触度合を求める請求項１から４のいずれか１項に記載の作業推定装置。
　前記接触度合算出部は、前記作業用物体の配置と前記少なくとも１つの対象候補物体が含む各対象候補物体の配置とに基づいて前記接触度合を求める請求項１から５のいずれか１項に記載の作業推定装置。
　前記接触度合算出部は、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体とが重複する領域に基づいて前記接触度合を求める請求項１から６のいずれか１項に記載の作業推定装置。
　前記作業用物体は、前記ユーザの手又は前記ユーザが使用している道具である請求項１から７のいずれか１項に記載の作業推定装置。
　前記作業推定部は、ルールベースの推定手法により前記ユーザの作業を推定する請求項１から８のいずれか１項に記載の作業推定装置。
　前記作業推定部は、学習モデルを用いて前記ユーザの作業を推定する請求項１から８のいずれか１項に記載の作業推定装置。
　注視領域推定部が、ユーザの視線を示す情報を用いて前記ユーザが注視する領域である注視領域を推定し、
　物体検出部が、前記ユーザが使用している作業用物体と、前記ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、前記作業用物体と、前記少なくとも１つの対象候補物体とを検出し、
　接触度合算出部が、前記注視領域に基づいて、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を算出し、
　作業推定部が、前記作業用物体と前記接触度合とに基づいて前記ユーザの作業を推定する作業推定方法。
　ユーザの視線を示す情報を用いて前記ユーザが注視する領域である注視領域を推定する注視領域推定処理と、
　前記ユーザが使用している作業用物体と、前記ユーザの作業対象の候補である少なくとも１つの対象候補物体とが映っている映像から、前記作業用物体と、前記少なくとも１つの対象候補物体とを検出する物体検出処理と、
　前記注視領域に基づいて、前記作業用物体と前記少なくとも１つの対象候補物体が含む各対象候補物体とが接触している度合を示す接触度合を算出する接触度合算出処理と、
　前記作業用物体と前記接触度合とに基づいて前記ユーザの作業を推定する作業推定処理とをコンピュータである作業推定装置に実行させる作業推定プログラム。