[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7500895B1 - 作業管理装置、作業管理システム、および、作業管理方法 - Google Patents

作業管理装置、作業管理システム、および、作業管理方法 Download PDF

Info

Publication number
JP7500895B1
JP7500895B1 JP2024509021A JP2024509021A JP7500895B1 JP 7500895 B1 JP7500895 B1 JP 7500895B1 JP 2024509021 A JP2024509021 A JP 2024509021A JP 2024509021 A JP2024509021 A JP 2024509021A JP 7500895 B1 JP7500895 B1 JP 7500895B1
Authority
JP
Japan
Prior art keywords
person
area
recognized
posture
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024509021A
Other languages
English (en)
Inventor
眞一郎 木戸
昌之 川俣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Industry and Control Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industry and Control Solutions Co Ltd filed Critical Hitachi Industry and Control Solutions Co Ltd
Application granted granted Critical
Publication of JP7500895B1 publication Critical patent/JP7500895B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

作業管理装置(2)は、人物が撮影された動画の各フレームを、人物領域と物体領域を含む画像データに加工する画像加工部(202)と、画像データからこの人物の骨格データを抽出する骨格抽出部(21)と、骨格データから前記人物の姿勢を検出する姿勢検出部と、人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部(23)と、を有する。

Description

本発明は、作業管理装置、作業管理システム、および、作業管理方法に関する。
産業分野において、作業者が製品を組み立てる時間であるサイクルタイムの計測と、作業の抜け、または、定常的な作業ではない非定常作業の検知のための作業内容の分析といった処理に対するニーズがある。現在これらの処理は人手で行うことが主流となっている。
作業内容の分析では、PC(Personal Computer)操作、バーコード読込、ボタン押下などのように、人が作業の開始と終了を示す何らかの操作を作業時間の計測の契機としていた。または、ドリルのオン・オフ、スイッチのオン・オフ、装置の稼動を示す電流値などの作業に間接的に係っている装置からデータを取り出すことで、作業時間が計測される場合もある。
しかし、これらの計測手段は、新たな設備の追加や作業者への負担増となる。また、本来の業務ではない作業手順を追加して作業時間を計測する際には、実際にはそのような作業が行われず、正確にデータ化できないことが多い。
作業者の作業状況をビデオカメラで記録し、人手によってその作業状況を解析することも行われている。しかし、長時間に亘って記録されたビデオカメラの映像から特定の作業者の状況を解析して、記録する作業は長時間に及ぶ。そのため多くの人的コストがかかると共に、限定的な範囲についてしかコンピュータの処理対象とすることができなかった。
近年では、作業者の作業状況をビデオカメラで記録し、情報処理装置がその作業状況を解析することが行われるようになっている。特許文献1には、動作情報登録部が、骨格抽出部によって抽出された対象情報と類似する骨格情報である動作情報が示す動作内容を、対象者が行っている動作内容として特定する発明が記載されている。
特許第6777819号公報
上記のような情報処理装置では、入力画像サイズが大きく、高解像度であると演算処理の負担が大きくなり、リアルタイムで処理ができない場合がある。しかし、入力画像サイズを小さくすると、画素数が少なくなることで情報量が不足し、画像認識できない場合もある。
そこで、本発明は、入力画像から人物が行う作業を推定する装置にて、高い解像度の画像をリアルタイムに処理可能とすることを課題とする。
前記した課題を解決するため、本発明の作業管理装置は、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、前記画像データから当該人物の骨格データを抽出する骨格抽出部と、前記骨格データから前記人物の姿勢を検出する姿勢検出部と、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、を有し、前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、ことを特徴とする。
本発明の作業管理システムは、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、前記画像データから当該人物の骨格データを抽出する骨格抽出部と、前記骨格データから前記人物の姿勢を検出する姿勢検出部と、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部、を有し、前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、ことを特徴とする。
本発明の作業管理方法は、画像加工部が、人物が撮影された動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データに加工するステップと、骨格抽出部が、前記画像データから当該人物の骨格データを抽出するステップと、姿勢検出部が、前記骨格データから前記人物の姿勢を検出するステップと、分析部が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、を有することを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
本発明によれば、入力画像から人物が行う作業を推定する装置にて、高い解像度の画像をリアルタイムに処理可能となる。
第1の実施形態に関する作業管理システムの構成図である。 作業管理システムの運用を示すシーケンス図である。 画像データおよび骨格データの一例を示す図である。 合成後の画像データの一例を示す図である。 図3の骨格データを構成する特徴点データを示すテーブルである。 領域に関する処理部を示す構成図である。 姿勢に関する処理部を示す構成図である。 背景に関する処理部を示す構成図である。 手順に関する処理部と、その処理結果を出力する出力部とを示す構成図である。 背景定義部によるモデル定義を示すフローチャートである。 モデル定義の対象となる画像データを示す図である。 図11の画像データから生成される領域モデルの例を示す図である。 図11の画像データから生成される背景モデルの例を示す図である。 姿勢学習部によるモデル定義を示すフローチャートである。 図14の姿勢検出部の学習工程におけるGUI画面図である。 図14の姿勢検出部の学習工程の結果として生成される姿勢モデルを示す図である。 手順学習部による学習結果である手順モデルを示す図である。 分析部のメイン処理を示すフローチャートである。 領域検出部のサブルーチン処理を示すフローチャートである。 図19の処理結果として「部品取り領域」で両手を認識したときの図である。 図19の処理結果として「完成品格納領域」で両手を認識したときの図である。 姿勢検出部のサブルーチン処理を示すフローチャートである。 図22の処理に用いられる画像データを示す図である。 図22の画像データに対する推論ラベル(姿勢ラベル)を示す姿勢データの図である。 背景検出部のサブルーチン処理を示すフローチャートである。 図25の処理結果として、ドライバが未使用の状態を認識したときの図である。 図25の処理結果として、ドライバが使用中の状態を認識したときの図である。 手順検出部が出力する手順データの例を示す図である。 図28の手順データをガントチャート形式で表示した画面図である。 第2の実施形態に関する作業管理装置の構成図である。 作業管理装置に入力する動画の一例を示す図である。 作業管理装置に入力する動画のフレームから抽出された骨格データの一例を示す図である。 作業管理装置に入力する画像データから認識したい部分を切り出した画像データの一例を示す図である。 骨格データの一例を示す図である。 領域モデルの一例を示す図である。 作業者の作業内容を示すタイムチャートである。 作業者の作業内容を示すタイムチャートである。 作業者の作業内容を示すタイムチャートである。 作業者の作業内容を示すタイムチャートである。 作業管理装置が判定する作業姿勢と、作業者の作業内容を示すタイムチャートである。 作業管理処理を示すフローチャートである。 作業管理処理を示すフローチャートである。 作業姿勢とドライバの関連付け処理を示すフローチャートである。 作業管理装置が表示するリアルタイム画面を示す図である。 作業管理装置が表示する履歴データ画面を示す図である。 作業管理装置が表示する認識レポート画面を示す図である。
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図1は、作業管理システムの構成図である。以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
作業管理システムは、作業管理装置2を中心として、ビデオカメラ1と、ビデオレコーダ13と、入出力装置14と、モニタ31と、記憶装置32と、アプリケーション装置33とを含めて構成される。
これらの作業管理システムの各装置は、それぞれ、イーサネット(登録商標)などのネットワーク、USB(Universal Serial Bus)やその他、ハードウェア・インタフェースとして使用可能な適切なもので接続される。また、作業管理システムの各装置は、単独の装置として構成されていてもよいし、作業管理装置2などの計算機システム上のソフトウェアを実行することで実現してもよい。
ビデオカメラ1は、作業者を被写体として撮影する。ビデオレコーダ13には、ビデオカメラ1で撮影した動画が記録されている。入出力装置14は、グラフィックディスプレイ、マウスを備え、作業者などの利用者に情報表示したり、利用者の指示を受け付けたりする。
モニタ31と、記憶装置32と、アプリケーション装置33とは、それぞれ作業管理装置2の分析結果の出力先である(詳細は図9)。
作業管理装置2は、例えば、オンプレサーバ、もしくはクラウドサーバのような計算機システムである。作業管理装置2は、CPU(Central Processing Unit)と、メモリと、ハードディスクなどの記憶手段(記憶部)と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、CPUが、メモリ上に読み込んだプログラムを実行することにより、各処理部により構成される制御部(制御手段)を動作させる。
作業管理装置2は、計算機システム上のプログラムを実行することで、画像加工部202と、骨格抽出部21と、モデル生成部211と、分析部23と、出力部28とを構成する。これらの構成された各処理部は、ハードディスクなどの不揮発メモリ上に蓄えられるデータ(モデルデータ212、推定結果データ27)にアクセスする。
画像加工部202は、ビデオカメラ1またはビデオレコーダ13から入力された動画の各フレームである画像データ210をもとに、人物を認識したい領域と物体を認識したい領域を合成し、新たな画像データ213に加工する。この画像データ213の画素数は、画像データ210の画素数よりも少ない為、画像データ210が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。
画像加工部202は、動画の各フレームである画像データ210から、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データ213に加工する。認識したい対象物に応じて各領域を配置しているので、画像データ213の一方から人物を認識し、画像データ213の他方から物体を認識することができる。このとき演算処理の負担は少なく、リアルタイム処理性に優れる。
画像加工部202は、動画の各フレームである画像データ210から、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで画像データ213に加工する。これにより、各領域の継ぎ目の部分の物体認識の誤検知や骨格抽出の誤検知を抑制できる。
更に画像加工部202は、動画の各フレームである画像データ210から、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで画像データ213に加工する。認識したい対象物に応じて各領域をリサイズするので、画像データ210が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。
更に画像加工部202は、動画の各フレームである画像データ210から、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで画像データ213に加工してもよい。これにより、物体認識の誤検知や骨格抽出の誤検知を抑制できる。
画像加工部202は、動画の各フレームである画像データ210から人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整するとよい。これにより、ビデオカメラ1の設置位置のズレや、作業者の作業位置のズレを調整可能である。
画像加工部202は、動画の各フレームである画像データ210から人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整するとよい。これにより、ビデオカメラ1の設置位置のズレや、作業者の作業位置のズレを調整可能である。
画像加工部202が動画の各フレームである画像データ210から人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部を備えるとよい。これにより、人物を認識したい領域と物体を認識したい領域を、利用者の所望の位置に調整可能である。
骨格抽出部21は、画像加工部202から入力された画像データ213をもとに、骨格データ22を抽出する。骨格抽出部21は、画像データ213のうち人物を認識したい領域から、骨格データ22を抽出するとよい。画像データ210が高解像度であっても演算処理の負担は少なくなり、骨格抽出部21は、リアルタイム処理性に優れる処理を提供可能である。
モデル生成部211は、学習用の画像データ213と、学習用の骨格データ22とを入力として、モデルデータ212を生成して不揮発メモリに保存する。モデルデータ212には、ユーザから明示的に定義された定義データと、ユーザから入力されたラベルデータを用いた学習結果である学習済データとが存在する。なお、モデル生成部211は、分析対象の作業に対してモデルデータ212を基本的には1度作成すればよいが、精度を向上させるために、すでに作成したモデルデータ212を更新(改良)してもよい。
分析部23は、分析用の画像データ213と、分析用の骨格データ22とを入力として、モデルデータ212を用いた推論処理により、推定結果データ27を求める。
出力部28は、画像データ213の座標で示された推定結果データ27を、画像データ213に加工する前のフレームである画像データ210の座標に変換する。出力部28は、変換した推定結果データ27を、画像データ213に加工する前のフレームである画像データ210に重畳して、外部装置(モニタ31と、記憶装置32と、アプリケーション装置33)に出力する。
図2は、作業管理システムの運用を示すシーケンス図である。
深層学習などの機械学習段階において、ビデオカメラ1から画像取得(ステップS101)された画像データ210、または、ビデオカメラ1から画像取得(ステップS102)されてビデオレコーダ13が記録画像32Dに画像記録(ステップS103)した画像データ210は、作業管理装置2に入力される。
作業管理装置2は、画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213としたのち、利用者から入出力装置14を介して受けた学習指示(ステップS111)により、学習処理(ステップS112)を実行し、その結果をモデルデータ212として出力する。
分析段階において、ビデオカメラ1から画像取得(ステップS121)された画像データ210、または、ビデオカメラ1から画像取得(ステップS122)されてビデオレコーダ13が記録画像32Eに画像記録(ステップS123)した画像データ210は、作業管理装置2に入力される。
作業管理装置2は、画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213としたのち、利用者から入出力装置14を介して受けた分析指示(ステップS131)により、モデルデータ212に基づく分析処理(ステップS132)を実行し、その結果を推定結果データ27として出力する。なお、作業管理装置2は、画像取得(ステップS121)された画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213として、分析処理(ステップS132)をリアルタイムに実行してもよい。また、作業管理装置2は、利用者からの分析指示(ステップS131)の操作を介さずに、分析処理(ステップS132)を自動実行してもよい。
そして、作業管理装置2の出力部28は、出力処理(ステップS141)によって推定結果データ27をアプリケーション装置33などに出力する。
図3は、画像データ210および骨格データ22の一例を示す図である。
画像データ210は、人物が写っている動画像において、フレームごとに1つ生成される。この画像データ210上には、部品取り領域901と完成品格納領域902と、工具領域903と、人物領域910とが予め定義されている。人物領域910は、人物が撮影されていることが前提となる人物領域である。部品取り領域901と完成品格納領域902と、工具領域903は、物体が撮影されていることが前提となる物体領域である。
骨格データ22は、骨格抽出部21が画像データ210から人物の骨格情報を抽出した結果である。骨格データ22は、人物の特徴点(関節点など)ごとに、1つずつ番号が割り当てられる(図では番号=0~9)。骨格抽出部21は、OpenPose(URL=https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの公知の骨格情報取得技術を使用することができる。
部品取り領域901は、作業者に対して右側に配置されており、作業者が部品を取りだす領域である。分析部23は、この部品取り領域901に所定の骨格データ22を検出したときに、作業員の作業状態が「部品取り」であると推定する。
工具領域903は、作業者に対して正面のやや右側に配置されており、作業者が工具を取り出し、使い終わった工具を載置する領域である。分析部23は、この工具領域903に工具が存在しているときに、作業員は未だこの工具を持っていないと推定する。
完成品格納領域902は、作業者に対して左側に配置されており、作業者が完成品を格納する領域である。分析部23は、この完成品格納領域902と所定の骨格データ22とが重なったときに、作業員の一連の作業状態が「終了」であると推定する。
人物領域910は、作業者のイスを中心に配置されており、作業者を撮影するための領域である。
図4は、合成後の画像データ213の一例を示す図である。
画像加工部202は、図3の画像データ210のうち不要な部分を取り除く。画像加工部202は、画像データ210のうち、部品取り領域901と、完成品格納領域902と、工具領域903と、人物領域910を合成して、新たな画像データ213に加工する。
大きなサイズの画像データ210から認識したい複数の領域を切り出し、1枚の画像とすることで、画像データ213は、元の画像データ210のサイズよりも小さくなる。
図5は、図3の骨格データ22を構成する特徴点データを示すテーブルである。
このテーブルは、特徴点の番号ごとに、特徴点の名称(鼻など)と、特徴点の(x,y)座標とで構成される。特徴点の名称として、例えば、人物の首、左肩、左肘などの特徴点に対して別々の番号が割り当てられる。特徴点の名称や座標は、骨格抽出部21が画像データ213からそれぞれの関節点を画像認識で認識した結果である。
以下、図6~図9を参照して、モデル生成部211および分析部23の詳細を説明する。作業管理装置2は、以下の(1)~(3)に示す中間的な分析結果をもとに、(4)の最終的な分析結果を求める。
(1)「領域」の分析とは、画像データ213内にあらかじめ定義した領域内に、骨格データ22が示す作業者の身体が入っているか否かを分析することである(詳細は図6)。
(2)「姿勢」の分析とは、骨格データ22が示す作業者の身体がどのような姿勢になっているかを分析することである(詳細は図7)。
(3)「背景」の分析とは、画像データ213内にあらかじめ定義した背景領域内の状態を分析することである(詳細は図8)。
(4)「手順」の分析とは、「領域、姿勢、背景」それぞれの分析結果の組み合わせを元に、画像データ213内の作業者が組み立て作業の中のどのような手順を行っているかを分析することである(詳細は図9)。
なお、出力部28は、(4)の最終的な分析結果を出力してもよいし、(1)~(3)に示す中間的な分析結果のうちの少なくとも1つを出力してもよい。
図6は、領域に関する処理部を示す構成図である。
モデル生成部211の領域定義部231aは、画像データ210上の領域を、入出力装置14を介してユーザに多角形(四角形)座標データとして定義させ、その定義データをモデルデータ212の領域モデル24として保存する。
分析部23の領域検出部231は、保存された領域モデル24と骨格データ22とを使用して、定義された領域内に、骨格データ22の特徴点が入っているか否かを分析し、その分析結果(人物作業状態)を推定結果データ27の領域データ24aとして出力する。
なお、領域定義部231aは、深層学習などの機械学習を用いてもよいし、用いなくてもよい。機械学習は精度が高く、汎用性も高い。しかし、学習に膨大な画像データ210を必要とし、学習に手間がかかる。また、深層学習を使う技術が必要とされるため、製造現場において、生産管理を担当する担当者が使えるものではない。そこで、機械学習を用いる代わりに、領域モデル24を直接ユーザに定義させることで、製造現場の担当者の負担を軽減できる。
図7は、姿勢に関する処理部を示す構成図である。
モデル生成部211の姿勢学習部232aは、骨格抽出部21が抽出した骨格データ22を表示し、その表示を見たユーザからの正解ラベル(姿勢ラベル)を受け付ける。姿勢学習部232aは、骨格データ22と姿勢ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ212の姿勢モデル25として保存する。
分析部23の姿勢検出部232は、保存された姿勢モデル25と骨格データ22とを使用して、骨格データ22の人物の姿勢を分析し、その分析結果(人物作業状態)を推定結果データ27の姿勢データ25aとして出力する。
図8は、背景に関する処理部を示す構成図である。
モデル生成部211の背景定義部233aは、画像データ210上の背景領域を、入出力装置14を介してユーザに多角形(四角形)座標データとして定義させ、その背景領域内に写っている画像内容を見たユーザからの正解ラベル(背景ラベル)を受け付ける。背景定義部233aは、背景領域と背景ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ212の背景モデル291として保存する。
分析部23の背景検出部233は、保存された背景モデル291と画像データ210とを使用して、画像データ213の背景領域内の画像内容を分析し、その分析結果(機材作業状態)を推定結果データ27の背景データ291aとして出力する。
画像データ210をもとに、領域モデル24の領域と、背景モデル291の領域と、人物が主に撮影される領域を切り出して合成することで、画像データ213が生成される。
図9は、手順に関する処理部と、その処理結果を出力する出力部28とを示す構成図である。
領域モデル24と、姿勢モデル25と、背景モデル291と、手順モデル297とを含むモデルデータ212、および、領域データ24aと、姿勢データ25aと、背景データ291aと、手順データ297aとを含む推定結果データ27は、それぞれ作業管理装置2の記憶部200に格納される。
手順検出部237は、「領域データ24a、姿勢データ25a、背景データ291a」それぞれの中間的な分析結果の推定結果データ27を組み合わせて、最終的な作業者の手順データ297a(作業状態)を決定する。中間的な分析結果の3種類のうちの1種類が誤った推定をしても、残りの2種類が正しく推定されることで、最終的な精度が向上する。
手順検出部237による手順データ297aの決定処理には、「領域モデル24と、姿勢モデル25と、背景モデル291」それぞれの中間的なモデルデータ212の組み合わせから、手順データ297aを求めるためのモデルデータ212である手順モデル297が必要となる。
そこで、手順学習部237aは、「領域、姿勢、背景」それぞれの中間的な分析結果の組み合わせを表示し、その表示を見たユーザからの正解ラベル(手順ラベル)を受け付ける。手順学習部237aは、中間的な分析結果の組み合わせと、手順ラベルとを学習し、その学習結果をモデルデータ212の手順モデル297として保存する。このように、機械学習の手法を使った学習・推論を組み合わせることで、より短い時間で、効率的に分析できる。
出力部28の出力演算部281は、推定結果データ27の通知を受け、出力先で要求されるデータとなるように、以下に例示する演算処理を実行させる。
HTML出力部282は、推定結果データ27をHTML形式(ブラウザ表示)に変換し、モニタ31に出力する。
CSV出力部283は、推定結果データ27をCSV形式のファイルに変換し、記憶装置32に出力する。
ソケット通信部284は、推定結果データ27をソケット通信でアプリケーション装置33に出力する。
以下、図10~図17を参照して、モデル生成部211の事例を説明する。
図10は、背景定義部233aによるモデル定義を示すフローチャートである。
ステップS301にて、背景定義部233aは、GUI(Graphical User Interface)を用いて選択されたフレームの画像データ210を取得する。
ステップS302にて、背景定義部233aは、選択されたフレームに対して背景ラベルのラベル付けの入力を受け付ける。
ステップS303にて、背景定義部233aは、選択されたフレームの画像データ210の一部である多角形(四角形)座標データで定義された背景領域の画像データを切り取る。
ステップS304にて、背景定義部233aは、ステップS303の画像データと、ステップS302の背景ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
ステップS305にて、背景定義部233aは、未処理のフレームが存在するときには、処理をステップS301に戻す。
ステップS306にて、背景定義部233aは、ステップS306の学習データを入力として機械学習を実行する。機械学習は、深層学習を含む、ニューラルネットワークやアンサンブル学習など、公知の技術を用いることができる。
ステップS307にて、背景定義部233aは、ステップS306の学習結果を、背景モデル291として保存すると、図10の処理は終了する。
以上、ステップS301~S307の処理により、背景定義部233aは、画像データ213から背景モデル291を定義した。
図11は、モデル定義の対象となる画像データ210と213を示す図である。
領域定義部231aは、入出力装置14のGUIを使用して、画像データ210上の部品取り領域901と完成品格納領域902を領域モデル24用に定義させる。例えば、部品取り領域901を作業者のイスに対して右側に配置し、完成品格納領域902を左側に配置する。
背景定義部233aは、入出力装置14のGUIを使用して、画像データ210上の工具領域903を背景モデル291用に定義させる。例えば、ドライバ置き場であるドライバ領域を作業者のイスに対して右側に配置する(工具領域903)。
画像データ213は、部品取り領域901と、完成品格納領域902と、工具領域903と、人物領域910とを組み合わせたものである。このように画像加工部202は、モデルデータ212から分析対象の領域情報を取得して、設定可能であってもよい。
図12は、図11の画像データ210から生成される領域モデル24の例を示す図である。
領域モデル24は、図10で入力された領域ごとに、領域ラベルと、特徴点番号と、判定論理と、多角形(四角形)座標データとを対応づけて構成される。例えば、領域モデル24の第1行は、「部品取り領域」として、作業者の骨格データ22の特徴点番号(4は右手首、7は左手首を示す)の両方(AND)が多角形(四角形)座標データ(4つの頂点座標、図11の部品取り領域901を示す)内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。
なお、判定論理の「AND」は特徴点番号のAND判定(例えば両手)を示し、「OR」は特徴点番号のOR判定(例えば片手)を示す。つまり、作業者の両手首が部品取り領域に入ったら「右側に両手が入る」という領域判定が行われる。
図13は、図11の画像データ210から生成される背景モデル291の例を示す図である。
背景モデル291は、定義名と、ステップS303で入力される多角形(四角形)座標データと、ステップS302で入力される背景ラベルとを対応づけて構成される。
例えば、利用者は、ドライバ置き場にドライバが置かれている状態の工具領域903の多角形(四角形)座標データに対して、背景ラベル「未使用(ドライバあり)」を対応づける。一方、図示は省略したが、利用者は、ドライバ置き場にドライバが置かれていない状態の工具領域903の多角形(四角形)座標データに対して、背景ラベル「使用中(ドライバなし)」を対応づける。つまり、多角形(四角形)座標データで示される画像データ213内の領域の位置が同じであっても、ドライバが置かれている画像データ210と、ドライバが置かれていない画像データ210とで、別々の背景ラベルが対応づけられる。
図14は、姿勢学習部232aによるモデル定義を示すフローチャートである。
ステップS311にて、姿勢学習部232aは、GUIを用いて選択されたフレームの画像データ210を取得する(図15で後記)。
ステップS312にて、姿勢学習部232aは、ステップS311で選択されたフレームの骨格データ22を取得する。そして、姿勢学習部232aは、画像データ210と骨格データ22とを表示して、その表示内容に対して姿勢モデルの入力を促す。
ステップS313にて、姿勢学習部232aは、姿勢ラベル(正解ラベル)がラベル付けされなかった場合、処理をステップS311に戻して別のフレームを選択させる。
ステップS314にて、姿勢学習部232aは、ステップS312の骨格データ22と、ステップS313の姿勢ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
ステップS315にて、姿勢学習部232aは、未処理のフレームが存在するときには、処理をステップS301に戻す。
ステップS316にて、姿勢学習部232aは、ステップS306と同様に、ステップS314の学習データを入力として機械学習を実行する。
ステップS317にて、姿勢学習部232aは、ステップS316の学習結果を、姿勢モデル25として保存する(図16で後記)。
図15は、図14の姿勢検出部232の学習工程におけるGUI画面を示す図である。
利用者は、入出力装置14のGUI画面810を用いて、正解ラベル付けを行う。まず、利用者は、画像表示欄811から学習用の画像を見ながら、画像選択欄812からコマ送りボタンやスライダで画像を選択する。
利用者は、選択した画像が、「右から取り出す」「組み立てる」「左に置く」「その他」のいずれであるかを、正解ラベル入力欄813のボタンの押下によって、指示する。
図16は、図14の姿勢検出部232の学習工程の結果として生成される姿勢モデル25を示す図である。
姿勢検出部232は、図15のGUIから入力されたフレーム番号と、正解ラベルと、フレームで検出した人物の骨格データ22とを、機械学習の結果である姿勢モデル25として関連付ける。この姿勢モデル25は、例えば、ねじ回しの作業姿勢を学習し、ねじ回しを行っているのか否かを推定するために使用される。
なお、図16では、図15の画像表示欄811に表示された画像上の人物の姿勢から、「右から取り出す」「組み立てる」「左に置く」「その他」を判定するための姿勢モデル25が示される。
図17は、手順学習部237aによる学習結果である手順モデル297を示す図である。
手順モデル297は、領域モデル24、姿勢モデル25、背景モデル291の組み合わせを入力モデルとして、その入力モデルから推定される作業者の手順を出力するためのモデルである。例えば、組み立て作業は、以下の各手順などから構成される。
・部品取り手順は、作業者の右側にある組み立て対象の部品を取得する手順である。
・組み立て手順は、ドライバを用いて、ねじ締を行う手順である。
・部品格納手順は、組み立て完了した部品を作業者の左側に置く手順である。
例えば、領域モデル24を単独に用いただけでは、人物の手が「どう」動いたのかは理解できても、人物の手が「何を」つかんだのかは不明である。
しかし、領域モデル24と背景モデル291とを併用し、背景領域内のドライバ置き場にドライバが存在しないことで、人物が「ドライバを」つかんだことが明確になる。さらに、姿勢モデル25も併用して、ドライバに手が伸びたことが分かった上で、肘の角度などにより、ドライバをとったのか、置いたのかを判定することができる。
以下、図18~図29を参照して、分析部23の事例を説明する。
図18は、分析部23のメイン処理を示すフローチャートである。
ステップS411にて、分析部23は、モデルデータ212を取得する。
ステップS412にて、分析部23は、分析用の画像データ213を取得する。
ステップS413にて、分析部23は、ステップS412の画像データ213から、骨格抽出部21に骨格データ22を抽出させる。
領域モデル24が存在しているときには(ステップS421,Yes)、分析部23は、領域検出部231に領域データ24aの推定処理を実行させる(ステップS422,詳細は図19)。
姿勢モデル25が存在しているときには(ステップS423,Yes)、分析部23は、姿勢検出部232に姿勢データ25aの推定処理を実行させる(ステップS424,詳細は図22)。
ステップS425にて、分析部23は、未処理の人物がステップS412の画像データ210に存在するときには、処理をステップS21に戻す。
背景モデル291が存在しているときには(ステップS426,Yes)、分析部23は、背景検出部233に背景データ291aの推定処理を実行させる(ステップS427,詳細は図25)。
ステップS431にて、分析部23は、未処理のフレームが存在するときには、処理をステップS412に戻す。
ステップS432にて、分析部23は、ステップS422,S424,S427の各分析結果から手順検出部237に作業手順を推定させる。
図19は、領域検出部231のサブルーチン処理を示すフローチャートである。
ステップS221にて、領域検出部231は、フレームごとに、そのフレームにて検出された人物の骨格データ22を取得する。
ステップS222にて、領域検出部231は、領域モデル24から1レコード分(1つの領域)を取得する。
領域検出部231は、ステップS221の骨格データ22を構成する特徴点番号の座標が、ステップS222で取得した領域内であるときには(ステップS223,Yes)、ステップS222で取得したレコードの領域ラベルを保持する(ステップS224)。
ステップS225にて、領域検出部231は、領域モデル24内の未処理のレコードが存在するときには、処理をステップS222に戻す。
ステップS226にて、領域検出部231は、ステップS224で保持されたすべての結果を領域データ24aとして出力する。
ステップS227にて、領域検出部231は、未処理のフレームが存在するときには、処理をステップS221に戻す。
図20は、図19の処理結果として「部品取り領域」で両手を認識したときの図である。
領域検出部231は、図11の画像データ213上の部品取り領域901に対して、図12の領域モデル24の第1レコード(部品取り領域)の要件を満たす(つまり、右側に両手が入る)ことで、「右から部品をとる」という領域ラベルを含めた領域データ24aを推定する。
図21は、図19の処理結果として「完成品格納領域」で両手を認識したときの図である。
領域検出部231は、図11の画像データ213上の完成品格納領域902に対して、図12の領域モデル24の第2レコード(完成品格納領域)の要件を満たす(つまり、左側に両手が入る)ことで、「左側に部品を格納する」という領域ラベルを含めた領域データ24aを推定する。
図22は、姿勢検出部232のサブルーチン処理を示すフローチャートである。
ステップS241にて、姿勢検出部232は、動画の各フレームにて検出された人物の骨格データ22を取得する。
ステップS242にて、姿勢検出部232は、取得した骨格データ22を入力として、姿勢モデル25を用いて機械学習による推論を行う。これにより、骨格データ22に対応する姿勢ラベルが出力される。
なお、ユーザは、ステップS242の姿勢ラベルが実際と異なった場合(推論ミス)には(ステップS243,Yes)、姿勢学習部232aは、ユーザから正しい姿勢ラベルを受け付けてもよい。そして、姿勢学習部232aは、受け付けた姿勢ラベルと、取得した骨格データ22との組み合わせを新たな学習データとして、姿勢モデル25を修正(再学習)してもよい(ステップS244)。
ステップS245にて、姿勢検出部232は、出力された姿勢ラベルを推論結果として保持する。
ステップS246にて、姿勢検出部232は、未処理の人物がステップS241のフレームに存在するときには、処理をステップS243に戻す。
ステップS247にて、姿勢検出部232は、フレームに存在するすべての人物についてのステップS245で保持した推論結果を姿勢データ25aとして出力する。
ステップS248にて、姿勢検出部232は、未処理のフレームが存在するときには、処理をステップS241に戻す。
図23は、図22の処理に用いられる画像データ210を示す図である。出力部28は、時系列的に表示する画像データ210に対して、左側から右側にむかってフレーム番号(f10=10番、f30=30番、…)を併記する。各フレームの画像データ210には、骨格抽出部21が認識した骨格データ22を示す線も人物の画像へ重畳表示されている。なお実際には、画像データ210の人物領域と物体領域を組み合わせた画像データ213にて検出処理が行われる。
図24は、図23の画像データ210に対する推論ラベル(姿勢ラベル)を示す姿勢データ25aの図である。
姿勢検出部232は、ビデオカメラ1などから取得した画像データ213から、写っている人物の行動を構成する姿勢を分析し、その分析結果を姿勢データ25aとして出力する。姿勢データ25aには、検出時刻を示すフレーム番号が付されている。
この出力される姿勢データ25aは、例えば、製造業の組み立て現場での組み立て作業の手順に係る作業姿勢や、製造業の製造現場での作業安全にかかわる身体的負担の大きい作業姿勢を検出するために活用できる。
図25は、背景検出部233のサブルーチン処理を示すフローチャートである。
ステップS271にて、背景検出部233は、動画の各フレームである画像データ210を取得する。
ステップS272にて、背景検出部233は、背景モデル291から1レコード分(1つの背景領域)を取得する。
ステップS273にて、背景検出部233は、ステップS271の画像データ213から、ステップS272の背景領域の位置の画像を切り取る。
ステップS274にて、背景検出部233は、ステップS273で切り取った画像データ210を入力として、背景モデル291を用いて機械学習の推論を実行する。
ステップS275にて、背景検出部233は、ステップS274の推論結果として、背景ラベルを保持する。
ステップS276にて、背景検出部233は、背景モデル291内の未処理のレコードが存在するときには、処理をS272に戻す。
ステップS277にて、背景検出部233は、未処理のフレームが存在するときには、処理をステップS271に戻す。
ステップS278にて、背景検出部233は、すべての背景ラベルの推論結果を出力する。
図26は、図25の処理結果として、ドライバが未使用の状態を認識したときの図である。
出力部28は、人物行動と関連のある背景画像の情報として、背景ラベル903eで示した「未使用」を、人物行動画像へ重畳表示する。また、出力部28は、動画の各フレームである画像データ210について、骨格抽出部21が認識した骨格データ22を人物の画像へ重畳表示する。さらに、出力部28は、骨格データ22を構成する特徴点データ(関節点)をマーキングして表示する(図では丸印)。
図27は、図25の処理結果として、ドライバが使用中の状態を認識したときの図である。出力部28は、人物行動と関連のある背景画像の情報として、背景ラベル903fで示した「使用中」を、人物行動画像へ重畳表示する。
図28は、手順検出部237が出力する手順データ297aの例を示す図である。
図9でも説明したように、手順検出部237は、領域データ24a、姿勢データ25a、背景データ291aそれぞれの分析結果を組み合わせて、作業者の手順データ297a(作業状態)をフレーム番号ごとに決定する。例えば、背景データ291aとして、ドライバが未使用の状態(図26)と使用中の状態(図27)とを区別することで、出力手順が組み立て中か否かを決定することができる。
図29は、図28の手順データ297aをガントチャート形式で表示した画面図である。
手順検出部237は、手順データ297aのフレーム番号は特定の時刻を示しているので、手順データ297aから時系列の作業手順(出力手順)を求めることができる。そこで、出力部28は、時系列の作業手順をガントチャート形式で表示することで、作業手順ごとの所要時間をユーザにわかりやすく示すことができる。
以上説明した第1の実施形態では、作業管理装置2が深層学習などによる画像認識で画像データ213に写っている人物を検出し、その人物の骨格データ22を取得する。そして、作業管理装置2は、取得した骨格データ22と、事前に入力された正解ラベルとを姿勢モデル25として機械学習しておくことで、製造現場における作業者の姿勢を推定し、その姿勢から作業者の作業手順を特定する。
また、作業管理装置2は、骨格データ22との位置関係を判定するための領域モデル24と、人物が置かれている状況を示す背景モデル291とを併せて用いることで、作業手順の特定精度を向上させる。これにより、深層学習や画像認識の知識を問わず、簡便な方法で、作業者を撮影した画像データ213から、作業者の姿勢データ25aを分析し、作業者の手順データ297aを特定できる。
図30は、第2の実施形態に関する作業管理装置2の構成図である。
以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
作業管理システムは、作業管理装置2を中心として、ビデオカメラ1と、ビデオレコーダ13と、マイク12と、作業管理装置2と、モニタ31と、記憶装置32とを含めて構成される。これらの作業管理システムの各装置は、それぞれ、イーサネット(登録商標)などのネットワーク、USB(Universal Serial Bus)やその他、ハードウェア・インタフェースとして使用可能な適切なもので接続される。
ビデオカメラ1は、作業者自体や、作業者の周辺にある物体や背景などを被写体として撮影する。ビデオレコーダ13には、ビデオカメラ1で撮影した映像が記録されている。マイク12は、作業者の作業現場で発生した音を収録する。モニタ31と、記憶装置32とは、それぞれ作業管理装置2の分析結果の出力先である。つまり、作業管理装置2は、現在の作業中の作業者を撮影した画像データが入力されてもよく、また過去に作業を行った作業者を撮影した画像データが入力されてもよい。
作業管理装置2は、例えば、オンプレミスのサーバ、もしくはクラウドサーバのような計算機システムである。作業管理装置2は、CPU(Central Processing Unit)と、メモリと、ハードディスクなどの記憶手段(記憶部)と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、CPUが、メモリ上に読み込んだプログラム(アプリケーションや、その略のアプリとも呼ばれる)を実行することにより、各処理部により構成される制御部(制御手段)を動作させる。なお、これに限られず、作業管理装置2がGPU(Graphics Processing Unit)を備え、このモデルの分析や表示にGPUを用いてもよい。
作業管理装置2は、計算機システム上のプログラムを実行することで、画像加工部202と、前処理部201と、骨格抽出部21と、分析部23と、出力部28とを構成する。分析部23は更に、領域検出部231と、姿勢検出部232と、背景検出部233と、物体検出部234と、音検出部235と、移動検出部236を備える。
画像加工部202は、後記する図31に示すように、ビデオカメラ1またはビデオレコーダ13から入力された動画像の各フレームを構成する画像データ210をもとに、認識したい複数の領域を新たな画像データ213に加工する。この画像データ213の画素数は、画像データ210の画素数よりも少ない為、画像データ210が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。
図30に戻り説明を続ける。マイク12で収録された音情報には、作業現場で計測される音には背景音(例えば近傍の道路の車両通過音)などが含まれる。前処理部201は、音または音声の生データに対してFFT(Fast Fourier Transformation)等を用いた前処理を行い、バックグラウンドノイズを除去し、作業現場で発生した音を音要素情報として抽出する。前処理部201が抽出した音要素情報は、音データ296である。
骨格抽出部21は、画像加工部202から入力された画像データ213をもとに、骨格データ22を抽出する。
なお、骨格抽出部21は、画像データ213から骨格データ22を抽出するだけでなく、例えば人物領域910から作業者の骨格データ22を抽出するなどのように、予め定められた領域から人物を検出してもよい。
分析部23は、領域モデル24と、姿勢モデル25と、物体モデル26と、背景モデル291と、組み合わせモデル292と、音モデル293と、移動分析モデル294を参照して、作業者が実行している作業内容を推定する。分析部23では、上記した学習段階において画像要素の情報のほかに、音要素の情報を加えて学習処理を実行する。この学習は例えば、各要素の学習や、同一時間帯に取得された画像と音からの6組の要素情報(領域、姿勢、背景、物体、音、移動)による6次元データのクラスタリング処理を行うものである。なお、分析部23は、領域、背景、物体、音、移動、人物の姿勢の検出結果から人物の作業を推定してもよく、推定に用いる検出結果は単独でも組み合わせてもよく、限定されない。
このクラスタリング処理により生成された複数のクラスタによれば、作業現場における類似作業(作業工程)毎にクラスタが生成されることになる。例えばある時間帯に画像中央部の台で作業者が座った姿勢で工具(ペンチ)を使用している状況についてクラスタXが生成されたのであれば、これは作業工程Aである可能性が高いと推定でき、画像右側で立ち作業をしている状況についてクラスタYが生成されたのであれば、これは作業工程Bであると推定できるということが判明する。
分析部23におけるクラスタリングの結果は、推定結果データ27として出力部28を介して出力され、推定結果や推定根拠などをモニタ31に表示し、あるいは記憶装置32に記憶される。
領域検出部231は、領域モデル24を参照して、予め定められた領域と、作業者の骨格との重なりを検出する。例えば、予め定められた部品領域と、作業者の骨格との重なりを検出することで、作業者が部品を取りだして作業を開始したことを推定可能である。
姿勢検出部232は、姿勢モデル25に格納された各姿勢と、映像から抽出された骨格データ22を参照して、画像データ中の作業者の姿勢を検出する。姿勢モデル25は、人の各姿勢と、その姿勢の場合における骨格データとの対応関係を記憶している。人の姿勢と作業との対応関係を参照することにより、作業者がどのような作業を行っているかを推定可能である。
背景検出部233は、背景モデル291を参照して画像データから背景を検出する。背景モデル291は、背景の各構造物と、その構造物の外観データとの対応関係を記憶している。この背景モデル291により、背景の構造物の外観データを推定し、よって作業者がどのような作業を行っているかを推定可能である。
物体検出部234は、物体モデル26を用いて、画像データから物体を検出する。物体モデル26は、工具などの物体と、その物体の外観データとの対応関係を記憶している。この物体モデル26により、工具などがどのように使われているかを知ることができ、よって作業者がどのような作業を行っているかを検知可能である。同様に、
これらの検出部にて検出した結果に加え、分析部23は、組み合わせモデル292を参照して、検出結果を組み合わせて、作業員が実施している作業内容を推定する。組み合わせモデル292は、作業員が実施する各作業内容と、その作業内容を示す各検出部の検出結果との組み合わせの対応関係を記憶している。
なお、物体検出部234は、画像データ213から物体を検出するだけでなく、例えば部品取り領域901から部品を検出し、完成品格納領域902から完成品を検出し、工具領域903から工具を検出するなどのように、予め定められた領域から定められた物体を検出してもよい。
音検出部235は、音モデル293を参照して音データ296から作業内容を検出する。音モデル293は、音要素と作業内容との対応関係を記憶している。音データ296によって、作業者がどのような作業を行っているかを推定可能である。
移動検出部236は、骨格データ22を参照して移動分析データ295を生成し、この移動分析データ295から作業内容を検出する。移動分析モデル294は、移動分析データ295と作業内容との対応関係を記憶している。移動分析データ295によって、作業者がどのような作業を行っているかを推定可能である。
これらの構成された各処理部は、ハードディスクなどの不揮発メモリ上に蓄えられる骨格データ22または推定結果データ27にアクセスする。
骨格抽出部21は、ビデオカメラ1またはビデオレコーダ13から入力された画像データをもとに、この画像データに撮影されている人物の骨格データ22を抽出する。分析部23は、分析用の画像データと、分析用の骨格データ22とを入力として、作業員が実行する作業を推定した推定結果データ27を求める。出力部28は、推定結果データ27を外部装置であるモニタ31と、記憶装置32に出力する。
物体検出部234は、機械学習モデルを利用して、動画を構成する各フレームから物体を検出する。ここで検出する物体は、説明上、ドライバなど作業に用いる工具としているが、画像上に映っている物体/模様などであればよく、限定されない。物体検出部234は、後記する図31の画像データ210などから物体の位置と種類を検出する。物体検出部234が物体を検出する範囲は、フレーム全面だけでなく、指定した骨格を基準にした領域内とするとよい。例えば、作業者の手が届く範囲とし、作業者の把持できる範囲に制限して物体の検出を行うなどである。具体的に言うと、本実施形態の物体検出部234は、骨格データ22から決定した両手首近傍の検出範囲内で、所定の物体であるドライバを検出する。この範囲の制限により、物体検出部234は、物体の検出を高速化できると共に、物体の誤検出を抑制できる。
物体検出部234は、物体モデル26の機械学習の結果を用いて、物体を検出した座標と確からしさを示すスコアを取得する。物体検出部234は、事前に定めた閾値により、明らかにスコアが低い検出結果を、物体モデル26の機械学習の結果から除外する。また、物体検出部234は、複数の連続するフレームで物体を検出した連続検出回数が閾値以上である条件を満たしたものを検出と判定したり、多数決などによる検出結果のフィルタリングを実施したりすることで、誤検知を抑制し、更に検出がフレーム毎にちらつくことを防ぐ。
物体検出部234は、作業者の把持する物体を検出するなど、指定した骨格を基準にした領域内で物体を検出する。しかし、作業者の身体や作業スペースにより物体の一部が隠れることが多い。一部が隠れる場合は、検出精度が低下し、作業時間の計測が困難になる。そこで、物体検出部234が、例えばプラスドライバまたはマイナスドライバを検出した際、同じ作業姿勢を取っている時間を、ネジ締結の作業と推定する。抽出したドライバの位置は、画像に重畳表示される。そして、作業時間は、グラフ化して出力される。
本実施形態では、事前の学習段階において、作業現場の作業状況をビデオカメラ1とマイク12から情報収集して、例えばクラスタリング処理により、作業状況を反映した複数のクラスタを生成しておく。なお生成したクラスタの中には、作業工程に特有の事象を色濃く反映したクラスタばかりではなく、作業工程を特定するには信頼度の低いものを含むことも考えられる。このことから、クラスタ生成の際に得られるスコアなどを参照して、発生したすべてのクラスタの中から、作業者自身によるクラスタの見直しを適宜行うのがよい。
そのうえで、実利用段階では、実利用段階で入手した画像、音からの6組の要素情報(領域、姿勢、背景、物体、音、移動)による6次元データのクラスタリング処理を行い、既存のクラスタのどれに分類されるのか、あるいは新クラスタを生成するのかを判断する。この結果、クラスタXに分類されるとしたら、この状況は作業工程Aである可能性が高いと推定できる。
なおここでは、学習がクラスタリングである事例について説明したが、要するに作業工程における画像と音の関係が、特定の作業工程を示すものであることが判明している場合に、この関係を利用して、特定の作業工程であることを判断することができるものであればよい。
音の要素を加味した本発明によれば、推定精度の向上を期待できる。例えば画像のみの場合には、組立や検査を行う上で使われる工具や装置の状態が人物の陰等になり画像から認識できない場合がある。これは上記例では、画像による4次元の要素情報(領域、姿勢、背景、物体)のうち、物体の要素情報が失われた3次元の要素情報からの判断となるために精度が出ないということである。この点、本実施形態では、これに音の要素が加わるためにペンチを使用するときのパチン、パチンという音が確認できるのであれば、クラスタXに分類される確率が高くなるように評価されることになる。
まず音に関して、作業の上で使用中の音を発する工具音も学習しておくことで、人陰で画像では認識できない手持ち工具等も認識できるようになり、人物が製品の組立や検査を行っている状況を、より精度よく自動抽出できる。音または音声の生データまたはFFT等を用いた前処理を行った後のデータを機械学習にて推定するのがよく、音声による言葉認識からも判断できる。
また、作業者が把持/使用している物体の画像認識および、物体から発生する音を検出することで、作業者が行う作業内容の推定精度の向上を期待できる。画像認識と音認識は個別または組合せで作業内容を推定するのがよい。
また音または音声が発生する位置がおおよそ決まっている場合、指向性マイクを向けることで、周囲雑音を拾うことなく音または音声がより精度よく認識が可能である。工具を取り出す際の音や、工具を置くときの音、さらに取り出すときは、重さが変化することでブザーを鳴らしての認識も可能であり、例えば音から電動ドライバを回した回数も認識可能である。
学習機能に関して、画像、骨格、音(または音声)の誤検出について、機械学習の結果として確からしさを示すスコアを取得できる。スコアは事前に定めた閾値により、明らかにスコアが低い検出結果は結果から除外することに利用できる。また、連続検出回数や、多数決などによる検出結果のフィルタリングを実施することで、誤検知抑制や検出がちらつくことを防ぐのがよい。
図31は、作業管理装置2に入力する映像の一例を示す図である。
画像データ210は、人物が写っている動画像の各フレームに1つ生成される。この画像データ210に写っている人物は、電子装置を手元に持っており、未だドライバを手にしていない。部品取り領域901は、作業者が部品を取るための領域である。工具領域903は、作業者が作業で使う工具を載置する領域である。完成品格納領域902は、作業者が完成品を格納する領域である。
マーカ911,912は、画像データ210に撮影されているマーカであり、画像加工部202が人物を認識するための人物領域910を決定するためのものである。画像加工部202は、作業管理処理を実行する前にマーカ911,912を認識して、人物領域910を設定する。
このように、画像加工部202は、動画中に撮影されている人物を認識するための人物領域や物体を認識するための領域を、マーカに基づいて決定してもよい。これにより、作業者は、自身の作業領域を認識して、ビデオカメラ1に適切に撮影されることが可能である。また、作業管理装置2は、ビデオカメラ1で撮影された動画のフレームから、人物を認識するための人物領域を適切に設定可能である。
なお、画像加工部202は、人物を認識するための人物領域や物体を認識するための領域を、作業管理処理を実行する前に、パターンマッチングに基づいて決定してもよい。また、画像加工部202が人物を認識するための人物領域や物体を認識するための領域を調整可能な画面を表示して、手作業で調整可能としてもよい。
図32は、作業管理装置2に入力する映像から抽出された骨格データ42と、予め設定された部品取り領域901、工具領域903、完成品格納領域902の一例を示す図である。
骨格データ42は、骨格抽出部21が画像データ210から人物の骨格情報を抽出した結果を、この画像データ210に重畳表示したものであり、各特徴点を線で結んで示している。骨格抽出部21は、OpenPose(URL=https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの公知の骨格情報取得技術を使用することができる。
部品取り領域901は、部品が置かれている領域をこの画像データ210に重畳表示したものである。分析部23は、この部品取り領域901と所定の骨格データ22とが重なったときに、作業員の作業状態が「部品取り」であると推定する。
工具領域903は、工具が置かれる領域をこの画像データ210に重畳表示したものである。分析部23は、この工具領域903に工具が存在しているときに、作業員は未だこの工具を持っていないと推定する。
完成品格納領域902は、完成品が格納される領域をこの画像データ210に重畳表示したものである。分析部23は、この完成品格納領域902と所定の骨格データ22とが重なったときに、作業員の一連の作業状態が「終了」であると推定する。
図33は、合成後の画像データ213の一例を示す図である。
画像加工部202は、図32の画像データ210のうち不要な部分を取り除く。画像加工部202は、画像データ210のうち、部品取り領域901と完成品格納領域902と、工具領域903と、人物領域910を合成して、新たな画像データ213に加工する。なお、これに限られず、画像加工部202は、合成時に各領域に対して必要に応じて変形、色の調整、フィルタ処理などを行ってもよい。
大きなサイズの画像データ210から認識したい複数の領域を切り出し、1枚の画像とすることで、画像データ213は、元の画像データ210のサイズよりも小さくなる。
図34は、骨格データ22の一例を示す図である。
骨格データ22は、番号欄と、特徴点欄と、X軸座標欄と、Y軸座標欄と、スコア欄とを含んで構成される。各行には、人物の関節点などである特徴点が格納される。番号欄は、例えば、鼻は0、右肩は1、右肘は2などのように、各特徴点に1つずつ固有の番号が割り当てられている。特徴点欄は、この特徴点の名前を格納している。X軸座標欄は、この特徴点の画像データ210におけるX軸の座標値を格納している。Y軸座標欄は、この特徴点の画像データ210におけるY軸の座標値を格納している。スコア欄は、この特徴点の確からしさを表す数値を格納している。
図35は、領域モデル24の一例を示す図である。
領域モデル24は、領域ラベル欄と、特徴点番号欄と、判定論理欄と、多角形座標欄とを含んで構成される。領域ラベル欄は、この領域の名前を格納する欄である。特徴点番号欄は、骨格データ22の特徴点の番号を1つ、または複数格納する欄である。特徴点番号欄で指定された特徴点が、多角形座標欄で指定された領域に入った場合、分析部23は、その特徴点が領域に入ったことを検知する。
判定論理欄は、特徴点番号欄が複数であるとき、これら番号を有する特徴点がこの領域に進入したことを判定する論理を示している。多角形座標欄は、この領域を示す多角形の座標値を格納する欄である。
例えば、領域モデル24の第1行は、図32の部品取り領域901として、作業者の骨格データ22の特徴点番号(#3は右手首、#6は左手首を示す)のうち何れか(論理和)が多角形(四角形)座標データ(4つの頂点座標)内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。
なお、判定論理の「論理積」は特徴点番号の論理積による判定(例えば両手)を示し、「論理和」は特徴点番号の論理和による判定(例えば片手)を示す。つまり、作業者の片手首が部品取り領域901に入ったら、「部品取り領域に手が入る」という領域判定が行われる。
領域モデル24の第2行は、図32の完成品格納領域902として、作業者の骨格データ22の特徴点番号(#3は右手首、#6は左手首を示す)のうち何れか(論理和)が多角形(四角形)座標データ(4つの頂点座標)内に存在したときに、組み立てた完成品を作業者が格納したと認識される。
領域モデル24の第3行は、図32の工具領域903として、作業者の骨格データ22の特徴点番号(#3は右手首、#6は左手首を示す)の両方(論理積))が多角形(四角形)座標データ(4つの頂点座標)内に存在したときに、ドライバを作業者が取ったか、または作業者がドライバを戻したと認識される。
図36、図37は、本発明の時の発生事象と推論結果の関係の例を示す図である。これらの図では、横軸に時間推移を示し、縦軸側に上から順に実態としての作業工程、画像情報の例として姿勢の情報、音情報、推論結果を示している。
図36は、作業者の作業内容を示すタイムチャートである。
図36は、画像から姿勢Aが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻t0からt4まで作業工程Aを実施し、その後に作業工程Bに移行した。画像情報の中の姿勢は、時刻t0からt2間と、時刻t3からt4間で作業工程Aでの姿勢Aが計測されたが、時刻t2とt3の間はこの姿勢Aが計測されなかった。音情報DMは、ほぼこの期間全域で作業工程Aでの音Aが計測された。
この時の推論結果は、図39の左に示すように、この作業工程Aの実施期間T内に姿勢の不検出期間T0はあるものの、この期間T内で少なくとも一定時間以上の姿勢と音の双方が検知される時間帯T1が存在することから工程Aの可能性が高いと判断したものである。
図37は、作業者の作業内容を示すタイムチャートである。
図37は、画像から姿勢Aか姿勢Cかが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻t0からt4まで作業工程Aを実施し、その後に工程Bに移行した。画像情報中の姿勢は、時刻t1からt4間で作業工程Aでの姿勢Aまたは姿勢Cが計測された。音情報は、ほぼこの期間全域で作業工程Aでの音Aが計測された。
この時の推論結果は、図39の左に示すように、この作業工程Aの実施期間T内に姿勢Aと姿勢Cの混在する区間があるものの、この期間T内で少なくとも一定時間以上の姿勢Aと音の双方が検知される時間帯T1が存在することから工程Aの可能性が高いと判断したものである。
図38は、作業者の作業内容を示すタイムチャートである。
図38は、作業時間を計測するために、作業の開始と終了を画像と音から判断する例を示している。画像からは作業の開始を意味する姿勢Aと音Aを検知したことで、作業開始と判断する。また作業の終了を意味する姿勢Bと音Cを検知したことで、作業終了と判断していることを示している。
図39は、作業者の作業内容を示すタイムチャートである。
この作業工程Aの実施期間T内に姿勢Aと姿勢Cの混在する区間があるものの、この期間T内で少なくとも一定時間以上の姿勢Aと音の双方が検知される時間帯T1が存在することから工程Aの可能性が高いと判断したものである。
図40は、作業管理装置2が判定する作業姿勢と、作業者の作業内容を示すタイムチャートである。
「姿勢」の右側の棒グラフは、時刻t1からt4と、時刻t5からt6に姿勢検出部232が検出した作業者の姿勢が、作業姿勢であることを示している。
「ドライバ検出」の右側の棒グラフは、時刻t2からt3に、物体検出部234が、作業者の右手首または左手首の近傍にドライバを検出したことを示している。
「作業」の右側の棒グラフは、分析部23が推定した作業員の作業内容を示している。時刻t1からt4は、作業としてネジ締結が推定されている。これは時刻t1からt4の一部にて、作業員の手首の近傍にドライバを検出したためである。これに対し、時刻t5からt6までは、ドライバを検出していないためネジ締結とは推定されていない。
図41Aと図41Bは、作業管理処理を示すフローチャートである。
画像加工部202は、動画を構成する各フレームを画像データとして取得する(ステップS11)。そして、画像加工部202は、認識したい複数の領域を新たな画像データ213に加工する(ステップS12)。そして、骨格抽出部21は、加工した画像データ213中の作業者の骨格データ22を抽出する(ステップS13)。
その後、分析部23は、並行に検出処理を実施する。具体的にいうと、領域検出部231は、領域モデル24に基づき、フレーム中の領域を検出する(ステップS14)。
姿勢検出部232は、姿勢モデル25に基づき、骨格データ22から姿勢を検出する(ステップS15)。ここで姿勢検出部232は、検出した姿勢のスコア(確からしさ)を算出する。スコアが閾値以上であれば、その姿勢を検出したと見做し、検出を示す文字列(ラベル)を出力する。
背景検出部233は、背景モデル291に基づき、フレームから背景を検出する(ステップS16)。ここで背景検出部233は、検出した背景のスコア(確からしさ)を算出する。スコアが閾値以上であれば、その背景を検出したと見做し、検出を示す文字列(ラベル)を出力する。
物体検出部234は、物体モデル26と骨格データ22に基づき、フレームから物体を検出する(ステップS17)。ここで物体検出部234は、検出した物体のスコア(確からしさ)を算出する。スコアが閾値以上であれば、その物体を検出したと見做し、検出を示す文字列(ラベル)を出力する。物体検知については、物体モデル26に特徴点を定義しているため、予め抽出した骨格データ22の座標に応じて物体検出の範囲を設定して検出する。
音検出部235は、音モデル293と音データ296に基づき、対応する作業内容を検出する(ステップS18)。移動検出部236は、移動分析モデル294と移動分析データ295に基づき、移動を検出する(ステップS19)。
これらの検出処理が終了すると、ステップS20に進む。
ステップS20にて、分析部23は、過去の検出回数によるフィルタ処理を実施して、検出した領域と姿勢と背景と物体のちらつきを抑制する。そして分析部23は、領域と姿勢と背景と物体の検出時間を算出する(ステップS21)。
そして、分析部23は、これらの算出した検出時間を基に、作業を推定する。具体的にいうと、分析部23は、これら検出結果の組み合わせ処理を実施する(ステップS22)。
分析部23は、検出結果の組み合わせ処理において、組み合わせモデル292として定義したデータに基づき、算出した検出結果を組み合わせて演算し、作業員が実施している作業内容を推定する。
組み合わせモデル292には、例えば部品取り領域に手が入ったことの検出と、部品を取る姿勢をしていることの検出との論理積と、開始作業との組み合わせが格納されている。更に組み合わせモデル292には、作業姿勢の検出と、ドライバを手首近傍における検出との論理積と、ねじ締結作業との組み合わせが格納されている。
分析部23は、例えば、領域検出で部品が置かれている場所である部品取り領域に手が入ったことの検出と、姿勢検出で部品を取る姿勢をしていることの検出との論理積を行った結果、真であれば開始作業を行っていると見做す。
図42は、作業姿勢とドライバとの関連付け処理を示すフローチャートである。
分析部23は、物体検出部234がドライバを検出したか否かを判定する(ステップS40)。分析部23は、物体検出部234がドライバを検出しなかったならば(No)、図42の処理を終了し、物体検出部234がドライバを検出していたならば(Yes)、ステップS41に進む。
次に分析部23は、姿勢検出部232が作業姿勢を検出したか否かを判定する(ステップS41)。分析部23は、作業姿勢を検出しなかったならば(No)、図42の処理を終了し、作業姿勢を検出したならば(Yes)、ステップS42に進む。
ステップS42にて、分析部23は、作業姿勢の検出時間と同じ作業時間を、ねじ締め作業時間とすると、図42の処理を終了する。分析部23は、検出した結果について、論理演算での検出有無を算出することに加えて、作業時間についても、論理和または論理積での演算を行うことができる。
なお、物体検出部234が検出するのはドライバに限られず、筆またはエアーガン、半田ごて、スパナなどであってもよい。分析部23が推定する作業内容は、ねじ締結に限られず、筆またはエアーガンを検出したときの塗装作業、半田ごてを検出したときの半田づけ作業、スパナを検出したときのボルト締結作業などであってもよい。
図41Bに戻り説明を続ける。分析部23は、最新のフレームから推定した作業状態が開始作業で有るか否かを判定する(ステップS23)。分析部23は、開始作業ならば(Yes)、作業時間の計測を開始して(ステップS24)、ステップS27に進む。分析部23は、開始作業では無いならば(No)、ステップS25に進む。
ステップS25にて、分析部23は、最新のフレームから推定した作業状態が終了作業で有るか否かを判定する。分析部23は、終了作業ならば(Yes)、作業時間の計測を終了して(ステップS26)、ステップS27に進む。分析部23は、終了作業では無いならば(No)、ステップS27に進む。
ステップS27にて、分析部23は、作業順序を確認する。例えば分析部23は、予め定められた作業順序から逸脱した作業について、その旨を作業属性として記録するとよい。これにより、分析部23は、予め定められた作業順序に沿った作業と、予め定められた作業順序から逸脱した作業を区別して表示することができる。
そして分析部23は、途中結果を出力する(ステップS28)。そして、分析部23は、未処理のフレームが有るか否かを判定する(ステップS29)。分析部23は、未処理のフレームが有るならば(Yes)、ステップS11の処理に戻り、全てのフレームを処理したならば(No)、ステップS30に進む。
ステップS30にて、分析部23は、推定結果データ27を出力すると、図41Aと図41Bの処理を終了する。
図41Aと図41Bのフローチャートで説明したように、分析部23は、ドライバの検出結果と作業者の姿勢の検出結果とに基づき、この作業者が行っている作業を推定する。これにより、作業員が行う複数の異なる作業が同様な姿勢であっても、各作業内容を好適に抽出できる。
図43は、作業管理装置2が表示するリアルタイム画面5を示す図である。
図43に示したリアルタイム画面5は、分析の実行、中断、停止と、分析した結果を示す画面である。出力部28が、このリアルタイム画面5をモニタ31に表示する。リアルタイム画面5は、実行ボタン51と、ポーズボタン52と、停止ボタン53と、映像表示領域56と、状態表示欄54と、状態累計時間グラフ55と、状態タイムチャート57とを含んで表示される。
映像表示領域56は、入力した画像データに分析結果を重畳して表示する領域である。実行ボタン51は、分析の実行を行うためのものである。ポーズボタン52は、分析の実行にポーズを掛けるものである。停止ボタン53は、分析の実行を停止させるものである。
状態表示欄54は、現在の分析状況を示す欄であり、作業の開始、終了や主な作業の実施状況を表示する。状態累計時間グラフ55は、分析中の映像における作業の累計時間を示す棒グラフである。状態タイムチャート57は、直近で分析した結果をタイムチャートで示す。
図44は、作業管理装置2が表示する履歴データ画面6を示す図である。
履歴データ画面6は、分析結果を示す各タイムチャートを含んでいる。
状態タイムチャート60は、各時間における分析結果のスコア(確からしさ)に基づいて、総合的に判定した状態を示すタイムチャートである。
「開始」タイムチャート61は、各時間における映像の被写体の「開始」状態のスコアに基づいて判定した状態を示すタイムチャートである。ここで分析部23は、被写体の骨格が部品取り領域901と重なっており、かつ未だ作業が開始されていないときに、「開始」状態のスコアが高いと判定する。
「部品を取る」タイムチャート62は、各時間における映像の被写体の「部品を取る」状態のスコアに基づいて判定した状態を示すタイムチャートである。ここで分析部23は、被写体の骨格が部品取り領域901と重なっており、かつ作業が開始されているときに、「開始」状態のスコアが高いと判定する。
「ドライバ使用中」タイムチャート63は、各時間における映像の被写体の「ドライバ使用中」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「ドライバ未使用」タイムチャート64は、各時間における映像の被写体の「ドライバ未使用」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「ネジ締め」タイムチャート65は、各時間における映像の被写体の「ネジ締め」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「右向き」タイムチャート66は、各時間における映像の被写体の「右向き」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「左向き」タイムチャート67は、各時間における映像の被写体の「左向き」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「終了」タイムチャート68は、各時間における映像の被写体の「終了」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「部品を置く」タイムチャート69は、各時間における映像の被写体の「部品を置く」状態のスコアに基づいて判定した状態を示すタイムチャートである。
図45は、作業管理装置2が表示する認識レポート画面7を示す図である。
認識レポート画面7には、凡例70と、ラベル71と、積み上げ棒グラフ72と、場所欄73と、日時欄74とを含んで表示している。
積み上げ棒グラフ72は、分析部23が認識した姿勢に基づく作業の累計時間を示すものである。ここで4本の積み上げ棒グラフ72は、9時から10時30分、10時50分から12時20分、13時20分から14時50分、15時20分から16時50分の各時間帯における各作業の累計時間を示している。
ラベル71は、積み上げ棒グラフ72に表示する作業を選択するものである。凡例70は、積み上げ棒グラフ72に表示された表示態様と、その表示態様が示す作業との関係を示すものである。場所欄73は、認識レポート画面7の対象となる場所を示すものである。日時欄74は、認識レポート画面7の対象となる日時を示すものである。ここでは4本の積み上げ棒グラフにより、それぞれの日における作業の累計時間を示している。棒グラフは場所や年月日ごとなど、指定する単位で表示できる。
この認識レポート画面7によれば、作業の管理者は、各作業者の作業の累計時間を容易に把握できる。
以下に本発明の構成と作用効果について説明する。
[1]人物が撮影された動画の各フレームを、人物領域と物体領域を含む画像データ(213)に加工する画像加工部(202)と、
前記画像データ(213)から当該人物の骨格データ(22)を抽出する骨格抽出部(21)と、
前記骨格データ(22)から前記人物の姿勢を検出する姿勢検出部(232)と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部(23)と、
を有することを特徴とする作業管理装置(2)。
これにより、処理対象の画像データの情報量が少なくなるので、骨格抽出部(21)は、高い解像度の画像をリアルタイムに処理可能となる。
[2]前記骨格抽出部(21)は、前記画像データ(213)のうち人物を認識したい領域から当該人物の骨格データ(22)を抽出する、
ことを特徴とする[1]に記載の作業管理装置。
動画の各フレームである画像データ(210)が高解像度であっても演算処理の負担は少なくなり、骨格抽出部(21)は、リアルタイム処理性に優れる処理を提供可能である。
[3]前記画像加工部(202)は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データ(213)に加工する、
ことを特徴とする[1]に記載の作業管理装置。
画像データ(213)の一方から人物を認識し、画像データ(213)の他方から物体を認識することができる。このとき演算処理の負担は少なく、リアルタイム処理性に優れる。
[4]前記画像データ(213)のうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部(234)、
を更に備えることを特徴とする[3]に記載の作業管理装置。
物体検出部(234)は、予め定められた物体を認識したい領域から定められた物体を検出しているので、演算処理の負担は少なく、リアルタイム処理性に優れる。
[5]前記画像加工部(202)は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データ(213)に加工する、
ことを特徴とする[1]に記載の作業管理装置。
これにより、物体検出部(234)は、各領域の継ぎ目の部分の物体認識の誤検知を抑制できる。更に骨格抽出部(21)は、骨格抽出の誤検知を抑制できる。
[6]前記画像加工部(202)は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データ(213)に加工する、
ことを特徴とする[1]に記載の作業管理装置。
認識したい対象物に応じて各領域をリサイズするので、画像データ(210)が高解像度であっても、物体検出部(234)や骨格抽出部(21)の演算処理の負担は少なく、リアルタイム処理性に優れる。
[7]前記画像加工部(202)は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データ(213)に加工する、
ことを特徴とする[1]に記載の作業管理装置。
これにより、物体認識の誤検知や骨格抽出の誤検知を抑制できる。
[8]前記画像加工部(202)は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする[1]に記載の作業管理装置。
これにより、ビデオカメラ(1)の設置位置のズレや、作業者の作業位置のズレを調整可能である。
[9]前記画像加工部(202)は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整する、
ことを特徴とする[1]に記載の作業管理装置。
これにより、ビデオカメラ(1)の設置位置のズレや、作業者の作業位置のズレを調整可能である。
[10]前記画像加工部(202)が前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部、
を備えることを特徴とする[1]に記載の作業管理装置。
これにより、ビデオカメラ(1)の設置位置のズレや、作業者の作業位置のズレを調整可能である。
[11]前記姿勢検出部(232)による検出の結果に基づき、前記骨格抽出部(21)が抽出した前記骨格データ(22)の特徴点データを、前記画像データ(213)に加工する前のフレームにマーキングして表示部に表示させる出力部(28)、
を備えることを特徴とする[1]に記載の作業管理装置。
これにより、ビデオカメラ(1)で撮影されている作業場所の画像に、骨格データ(22)の特徴点データを表示させることができる。
[12]各骨格データに姿勢ラベルが対応づけられている姿勢モデルの記憶部を更にそなえ、
前記姿勢検出部(232)は、前記姿勢モデルに基づき、前記人物の骨格データから前記人物の姿勢を検出する、
ことを特徴とする[1]に記載の作業管理装置。
これにより、姿勢検出部(232)は、作業者の作業に対応した固有の姿勢を適切に検出可能である。
[13]前記分析部(23)は更に、領域、背景、物体、音、移動、前記人物の姿勢の検出結果を単独、もしくは組み合わせて人物の作業を推定する、
ことを特徴とする請求項1に記載の作業管理装置。
これにより、姿勢の検出結果と他の要素との組み合わせに基づき、人物の作業をより正確に推定可能である。
[14]人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データ(213)に加工する画像加工部(202)と、
前記画像データ(213)から当該人物の骨格データ(22)を抽出する骨格抽出部(21)と、
前記骨格データ(22)から前記人物の姿勢を検出する姿勢検出部(232)と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部(23)と、
を有することを特徴とする作業管理システム。
これにより、処理対象の画像データの情報量が少なくなるので、骨格抽出部が高い解像度の画像をリアルタイムに処理可能となる。
[15]画像加工部(202)が、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データ(213)に加工するステップと、
骨格抽出部(21)が、前記画像データ(213)から当該人物の骨格データ(22)を抽出するステップと、
姿勢検出部(232)が、前記骨格データ(22)から前記人物の姿勢を検出するステップと、
分析部(23)が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
を有することを特徴とする作業管理方法。
これにより、処理対象の画像データの情報量が少なくなるので、骨格抽出部が高い解像度の画像をリアルタイムに処理可能となる。
《変形例》
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。
上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路などのハードウェアで実現してもよい。上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈して実行することにより、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリ、ハードディスク、SSD(Solid State Drive)などの記録装置、または、フラッシュメモリカード、DVD(Digital Versatile Disk)などの記録媒体に置くことができる。
各実施形態に於いて、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には、殆ど全ての構成が相互に接続されていると考えてもよい。
1 ビデオカメラ
13 ビデオレコーダ
14 入出力装置
2 作業管理装置
21 骨格抽出部
22 骨格データ
211 モデル生成部
202 画像加工部
213 画像データ
231a 領域定義部
232a 姿勢学習部
233a 背景定義部
237a 手順学習部
23 分析部
231 領域検出部
232 姿勢検出部
233 背景検出部
234 物体検出部
235 音検出部
236 移動検出部
237 手順検出部
24 領域モデル
25 姿勢モデル
26 物体モデル
22 骨格データ
27 推定結果データ
28 出力部
31 モニタ
32 記憶装置
33 アプリケーション装置
901 部品取り領域
903 工具領域
902 完成品格納領域
910 人物領域

Claims (15)

  1. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
    ことを特徴とする作業管理装置。
  2. 前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
    を更に備えることを特徴とする請求項に記載の作業管理装置。
  3. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
    ことを特徴とする作業管理装置。
  4. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
    ことを特徴とする作業管理装置。
  5. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
    ことを特徴とする作業管理装置。
  6. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
    ことを特徴とする請求項1に記載の作業管理装置。
  7. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整する、
    ことを特徴とする作業管理装置。
  8. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    前記画像加工部が前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部、
    を備えることを特徴とする作業管理装置。
  9. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
    とを特徴とする作業管理システム。
  10. 前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
    を更に備えることを特徴とする請求項9に記載の作業管理システム。
  11. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
    とを特徴とする作業管理システム。
  12. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
    とを特徴とする作業管理システム。
  13. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
    とを特徴とする作業管理システム。
  14. 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
    前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
    前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
    前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
    を有し、
    前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
    とを特徴とする作業管理システム。
  15. 画像加工部が、人物が撮影された動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データに加工するステップと、
    骨格抽出部が、前記画像データから当該人物の骨格データを抽出するステップと、
    姿勢検出部が、前記骨格データから前記人物の姿勢を検出するステップと、
    分析部が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
    を有することを特徴とする作業管理方法。
JP2024509021A 2023-09-21 2023-09-21 作業管理装置、作業管理システム、および、作業管理方法 Active JP7500895B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023034205 2023-09-21

Publications (1)

Publication Number Publication Date
JP7500895B1 true JP7500895B1 (ja) 2024-06-17

Family

ID=91483373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024509021A Active JP7500895B1 (ja) 2023-09-21 2023-09-21 作業管理装置、作業管理システム、および、作業管理方法

Country Status (1)

Country Link
JP (1) JP7500895B1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201772A (ja) 2019-06-11 2020-12-17 株式会社 日立産業制御ソリューションズ 姿勢分析プログラム、および、姿勢分析装置
JP2021072475A (ja) 2019-10-29 2021-05-06 パナソニックIpマネジメント株式会社 監視システムおよび監視システム設定プログラム
JP2021163188A (ja) 2020-03-31 2021-10-11 コベルコ建機株式会社 作業機械の周囲検知装置
JP2022153857A (ja) 2021-03-30 2022-10-13 キヤノン株式会社 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201772A (ja) 2019-06-11 2020-12-17 株式会社 日立産業制御ソリューションズ 姿勢分析プログラム、および、姿勢分析装置
JP2021072475A (ja) 2019-10-29 2021-05-06 パナソニックIpマネジメント株式会社 監視システムおよび監視システム設定プログラム
JP2021163188A (ja) 2020-03-31 2021-10-11 コベルコ建機株式会社 作業機械の周囲検知装置
JP2022153857A (ja) 2021-03-30 2022-10-13 キヤノン株式会社 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP6825041B2 (ja) 姿勢分析プログラム、および、姿勢分析装置
CN106340217B (zh) 基于增强现实技术的制造装备智能系统及其实现方法
CN111259751A (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
JP2008108008A (ja) 移動パターン特定装置、移動パターン特定方法、移動パターン特定プログラム、およびこれを記録した記録媒体
JPWO2018154709A1 (ja) 動作学習装置、技能判別装置および技能判別システム
Collett et al. Augmented reality visualisation for player
CN112949457A (zh) 基于增强现实技术的维修方法、装置及系统
JP2019159885A (ja) 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム
JP6773825B2 (ja) 学習装置、学習方法、学習プログラム、及び対象物認識装置
JP6593949B1 (ja) 情報処理装置、及び、マーケティング活動支援装置
JP7500895B1 (ja) 作業管理装置、作業管理システム、および、作業管理方法
CN107256375A (zh) 一种电脑前人体坐姿监测方法
JPWO2018173947A1 (ja) 画像検索装置
CN117292601A (zh) 一种虚拟现实手语教育系统
JP2021163293A (ja) 作業分析装置及び作業分析プログラム
Gris et al. Full-body gesture recognition for embodied conversational agents: The UTEP AGENT gesture tool
Fiorentino et al. Magic mirror interface for augmented reality maintenance: an automotive case study
JP6117765B2 (ja) 資産管理システム
JP7376446B2 (ja) 作業分析プログラム、および、作業分析装置
WO2022063572A1 (en) Control system for an augmented reality device
JP2007048232A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2024069997A1 (ja) 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ
CN112102502A (zh) 用于飞机驾驶舱功能试验的增强现实辅助方法
Sagawa et al. [POSTER] Hands-Free AR Work Support System Monitoring Work Progress with Point-cloud Data Processing
JP7470069B2 (ja) 指示物体検出装置、指示物体検出方法及び指示物体検出システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240215

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240605

R150 Certificate of patent or registration of utility model

Ref document number: 7500895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150