JP7500895B1 - 作業管理装置、作業管理システム、および、作業管理方法 - Google Patents
作業管理装置、作業管理システム、および、作業管理方法 Download PDFInfo
- Publication number
- JP7500895B1 JP7500895B1 JP2024509021A JP2024509021A JP7500895B1 JP 7500895 B1 JP7500895 B1 JP 7500895B1 JP 2024509021 A JP2024509021 A JP 2024509021A JP 2024509021 A JP2024509021 A JP 2024509021A JP 7500895 B1 JP7500895 B1 JP 7500895B1
- Authority
- JP
- Japan
- Prior art keywords
- person
- area
- recognized
- posture
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims description 100
- 238000001514 detection method Methods 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 187
- 238000004458 analytical method Methods 0.000 claims abstract description 144
- 230000008569 process Effects 0.000 claims abstract description 130
- 238000012545 processing Methods 0.000 claims abstract description 123
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 239000000284 extract Substances 0.000 claims abstract description 31
- 238000005520 cutting process Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 2
- 230000036544 posture Effects 0.000 description 169
- 238000010586 diagram Methods 0.000 description 63
- 238000003860 storage Methods 0.000 description 37
- 238000010801 machine learning Methods 0.000 description 17
- 210000000707 wrist Anatomy 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 210000004247 hand Anatomy 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000005476 soldering Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 241000755266 Kathetostoma giganteum Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
そこで、本発明は、入力画像から人物が行う作業を推定する装置にて、高い解像度の画像をリアルタイムに処理可能とすることを課題とする。
その他の手段については、発明を実施するための形態のなかで説明する。
図1は、作業管理システムの構成図である。以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
作業管理システムは、作業管理装置2を中心として、ビデオカメラ1と、ビデオレコーダ13と、入出力装置14と、モニタ31と、記憶装置32と、アプリケーション装置33とを含めて構成される。
モニタ31と、記憶装置32と、アプリケーション装置33とは、それぞれ作業管理装置2の分析結果の出力先である(詳細は図9)。
画像加工部202が動画の各フレームである画像データ210から人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部を備えるとよい。これにより、人物を認識したい領域と物体を認識したい領域を、利用者の所望の位置に調整可能である。
分析部23は、分析用の画像データ213と、分析用の骨格データ22とを入力として、モデルデータ212を用いた推論処理により、推定結果データ27を求める。
出力部28は、画像データ213の座標で示された推定結果データ27を、画像データ213に加工する前のフレームである画像データ210の座標に変換する。出力部28は、変換した推定結果データ27を、画像データ213に加工する前のフレームである画像データ210に重畳して、外部装置(モニタ31と、記憶装置32と、アプリケーション装置33)に出力する。
深層学習などの機械学習段階において、ビデオカメラ1から画像取得(ステップS101)された画像データ210、または、ビデオカメラ1から画像取得(ステップS102)されてビデオレコーダ13が記録画像32Dに画像記録(ステップS103)した画像データ210は、作業管理装置2に入力される。
作業管理装置2は、画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213としたのち、利用者から入出力装置14を介して受けた学習指示(ステップS111)により、学習処理(ステップS112)を実行し、その結果をモデルデータ212として出力する。
作業管理装置2は、画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213としたのち、利用者から入出力装置14を介して受けた分析指示(ステップS131)により、モデルデータ212に基づく分析処理(ステップS132)を実行し、その結果を推定結果データ27として出力する。なお、作業管理装置2は、画像取得(ステップS121)された画像データ210から認識したい複数の画像部分を切り出し、1枚の画像データ213として、分析処理(ステップS132)をリアルタイムに実行してもよい。また、作業管理装置2は、利用者からの分析指示(ステップS131)の操作を介さずに、分析処理(ステップS132)を自動実行してもよい。
そして、作業管理装置2の出力部28は、出力処理(ステップS141)によって推定結果データ27をアプリケーション装置33などに出力する。
画像データ210は、人物が写っている動画像において、フレームごとに1つ生成される。この画像データ210上には、部品取り領域901と完成品格納領域902と、工具領域903と、人物領域910とが予め定義されている。人物領域910は、人物が撮影されていることが前提となる人物領域である。部品取り領域901と完成品格納領域902と、工具領域903は、物体が撮影されていることが前提となる物体領域である。
骨格データ22は、骨格抽出部21が画像データ210から人物の骨格情報を抽出した結果である。骨格データ22は、人物の特徴点(関節点など)ごとに、1つずつ番号が割り当てられる(図では番号=0~9)。骨格抽出部21は、OpenPose(URL=https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの公知の骨格情報取得技術を使用することができる。
人物領域910は、作業者のイスを中心に配置されており、作業者を撮影するための領域である。
画像加工部202は、図3の画像データ210のうち不要な部分を取り除く。画像加工部202は、画像データ210のうち、部品取り領域901と、完成品格納領域902と、工具領域903と、人物領域910を合成して、新たな画像データ213に加工する。
大きなサイズの画像データ210から認識したい複数の領域を切り出し、1枚の画像とすることで、画像データ213は、元の画像データ210のサイズよりも小さくなる。
このテーブルは、特徴点の番号ごとに、特徴点の名称(鼻など)と、特徴点の(x,y)座標とで構成される。特徴点の名称として、例えば、人物の首、左肩、左肘などの特徴点に対して別々の番号が割り当てられる。特徴点の名称や座標は、骨格抽出部21が画像データ213からそれぞれの関節点を画像認識で認識した結果である。
(1)「領域」の分析とは、画像データ213内にあらかじめ定義した領域内に、骨格データ22が示す作業者の身体が入っているか否かを分析することである(詳細は図6)。
(3)「背景」の分析とは、画像データ213内にあらかじめ定義した背景領域内の状態を分析することである(詳細は図8)。
なお、出力部28は、(4)の最終的な分析結果を出力してもよいし、(1)~(3)に示す中間的な分析結果のうちの少なくとも1つを出力してもよい。
モデル生成部211の領域定義部231aは、画像データ210上の領域を、入出力装置14を介してユーザに多角形(四角形)座標データとして定義させ、その定義データをモデルデータ212の領域モデル24として保存する。
モデル生成部211の姿勢学習部232aは、骨格抽出部21が抽出した骨格データ22を表示し、その表示を見たユーザからの正解ラベル(姿勢ラベル)を受け付ける。姿勢学習部232aは、骨格データ22と姿勢ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ212の姿勢モデル25として保存する。
分析部23の姿勢検出部232は、保存された姿勢モデル25と骨格データ22とを使用して、骨格データ22の人物の姿勢を分析し、その分析結果(人物作業状態)を推定結果データ27の姿勢データ25aとして出力する。
モデル生成部211の背景定義部233aは、画像データ210上の背景領域を、入出力装置14を介してユーザに多角形(四角形)座標データとして定義させ、その背景領域内に写っている画像内容を見たユーザからの正解ラベル(背景ラベル)を受け付ける。背景定義部233aは、背景領域と背景ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ212の背景モデル291として保存する。
分析部23の背景検出部233は、保存された背景モデル291と画像データ210とを使用して、画像データ213の背景領域内の画像内容を分析し、その分析結果(機材作業状態)を推定結果データ27の背景データ291aとして出力する。
画像データ210をもとに、領域モデル24の領域と、背景モデル291の領域と、人物が主に撮影される領域を切り出して合成することで、画像データ213が生成される。
領域モデル24と、姿勢モデル25と、背景モデル291と、手順モデル297とを含むモデルデータ212、および、領域データ24aと、姿勢データ25aと、背景データ291aと、手順データ297aとを含む推定結果データ27は、それぞれ作業管理装置2の記憶部200に格納される。
手順検出部237は、「領域データ24a、姿勢データ25a、背景データ291a」それぞれの中間的な分析結果の推定結果データ27を組み合わせて、最終的な作業者の手順データ297a(作業状態)を決定する。中間的な分析結果の3種類のうちの1種類が誤った推定をしても、残りの2種類が正しく推定されることで、最終的な精度が向上する。
そこで、手順学習部237aは、「領域、姿勢、背景」それぞれの中間的な分析結果の組み合わせを表示し、その表示を見たユーザからの正解ラベル(手順ラベル)を受け付ける。手順学習部237aは、中間的な分析結果の組み合わせと、手順ラベルとを学習し、その学習結果をモデルデータ212の手順モデル297として保存する。このように、機械学習の手法を使った学習・推論を組み合わせることで、より短い時間で、効率的に分析できる。
HTML出力部282は、推定結果データ27をHTML形式(ブラウザ表示)に変換し、モニタ31に出力する。
CSV出力部283は、推定結果データ27をCSV形式のファイルに変換し、記憶装置32に出力する。
ソケット通信部284は、推定結果データ27をソケット通信でアプリケーション装置33に出力する。
図10は、背景定義部233aによるモデル定義を示すフローチャートである。
ステップS301にて、背景定義部233aは、GUI(Graphical User Interface)を用いて選択されたフレームの画像データ210を取得する。
ステップS302にて、背景定義部233aは、選択されたフレームに対して背景ラベルのラベル付けの入力を受け付ける。
ステップS303にて、背景定義部233aは、選択されたフレームの画像データ210の一部である多角形(四角形)座標データで定義された背景領域の画像データを切り取る。
ステップS304にて、背景定義部233aは、ステップS303の画像データと、ステップS302の背景ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
ステップS306にて、背景定義部233aは、ステップS306の学習データを入力として機械学習を実行する。機械学習は、深層学習を含む、ニューラルネットワークやアンサンブル学習など、公知の技術を用いることができる。
ステップS307にて、背景定義部233aは、ステップS306の学習結果を、背景モデル291として保存すると、図10の処理は終了する。
以上、ステップS301~S307の処理により、背景定義部233aは、画像データ213から背景モデル291を定義した。
領域定義部231aは、入出力装置14のGUIを使用して、画像データ210上の部品取り領域901と完成品格納領域902を領域モデル24用に定義させる。例えば、部品取り領域901を作業者のイスに対して右側に配置し、完成品格納領域902を左側に配置する。
背景定義部233aは、入出力装置14のGUIを使用して、画像データ210上の工具領域903を背景モデル291用に定義させる。例えば、ドライバ置き場であるドライバ領域を作業者のイスに対して右側に配置する(工具領域903)。
画像データ213は、部品取り領域901と、完成品格納領域902と、工具領域903と、人物領域910とを組み合わせたものである。このように画像加工部202は、モデルデータ212から分析対象の領域情報を取得して、設定可能であってもよい。
領域モデル24は、図10で入力された領域ごとに、領域ラベルと、特徴点番号と、判定論理と、多角形(四角形)座標データとを対応づけて構成される。例えば、領域モデル24の第1行は、「部品取り領域」として、作業者の骨格データ22の特徴点番号(4は右手首、7は左手首を示す)の両方(AND)が多角形(四角形)座標データ(4つの頂点座標、図11の部品取り領域901を示す)内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。
なお、判定論理の「AND」は特徴点番号のAND判定(例えば両手)を示し、「OR」は特徴点番号のOR判定(例えば片手)を示す。つまり、作業者の両手首が部品取り領域に入ったら「右側に両手が入る」という領域判定が行われる。
背景モデル291は、定義名と、ステップS303で入力される多角形(四角形)座標データと、ステップS302で入力される背景ラベルとを対応づけて構成される。
例えば、利用者は、ドライバ置き場にドライバが置かれている状態の工具領域903の多角形(四角形)座標データに対して、背景ラベル「未使用(ドライバあり)」を対応づける。一方、図示は省略したが、利用者は、ドライバ置き場にドライバが置かれていない状態の工具領域903の多角形(四角形)座標データに対して、背景ラベル「使用中(ドライバなし)」を対応づける。つまり、多角形(四角形)座標データで示される画像データ213内の領域の位置が同じであっても、ドライバが置かれている画像データ210と、ドライバが置かれていない画像データ210とで、別々の背景ラベルが対応づけられる。
ステップS311にて、姿勢学習部232aは、GUIを用いて選択されたフレームの画像データ210を取得する(図15で後記)。
ステップS312にて、姿勢学習部232aは、ステップS311で選択されたフレームの骨格データ22を取得する。そして、姿勢学習部232aは、画像データ210と骨格データ22とを表示して、その表示内容に対して姿勢モデルの入力を促す。
ステップS313にて、姿勢学習部232aは、姿勢ラベル(正解ラベル)がラベル付けされなかった場合、処理をステップS311に戻して別のフレームを選択させる。
ステップS315にて、姿勢学習部232aは、未処理のフレームが存在するときには、処理をステップS301に戻す。
ステップS316にて、姿勢学習部232aは、ステップS306と同様に、ステップS314の学習データを入力として機械学習を実行する。
ステップS317にて、姿勢学習部232aは、ステップS316の学習結果を、姿勢モデル25として保存する(図16で後記)。
利用者は、入出力装置14のGUI画面810を用いて、正解ラベル付けを行う。まず、利用者は、画像表示欄811から学習用の画像を見ながら、画像選択欄812からコマ送りボタンやスライダで画像を選択する。
利用者は、選択した画像が、「右から取り出す」「組み立てる」「左に置く」「その他」のいずれであるかを、正解ラベル入力欄813のボタンの押下によって、指示する。
姿勢検出部232は、図15のGUIから入力されたフレーム番号と、正解ラベルと、フレームで検出した人物の骨格データ22とを、機械学習の結果である姿勢モデル25として関連付ける。この姿勢モデル25は、例えば、ねじ回しの作業姿勢を学習し、ねじ回しを行っているのか否かを推定するために使用される。
なお、図16では、図15の画像表示欄811に表示された画像上の人物の姿勢から、「右から取り出す」「組み立てる」「左に置く」「その他」を判定するための姿勢モデル25が示される。
手順モデル297は、領域モデル24、姿勢モデル25、背景モデル291の組み合わせを入力モデルとして、その入力モデルから推定される作業者の手順を出力するためのモデルである。例えば、組み立て作業は、以下の各手順などから構成される。
・部品取り手順は、作業者の右側にある組み立て対象の部品を取得する手順である。
・組み立て手順は、ドライバを用いて、ねじ締を行う手順である。
・部品格納手順は、組み立て完了した部品を作業者の左側に置く手順である。
例えば、領域モデル24を単独に用いただけでは、人物の手が「どう」動いたのかは理解できても、人物の手が「何を」つかんだのかは不明である。
しかし、領域モデル24と背景モデル291とを併用し、背景領域内のドライバ置き場にドライバが存在しないことで、人物が「ドライバを」つかんだことが明確になる。さらに、姿勢モデル25も併用して、ドライバに手が伸びたことが分かった上で、肘の角度などにより、ドライバをとったのか、置いたのかを判定することができる。
図18は、分析部23のメイン処理を示すフローチャートである。
ステップS411にて、分析部23は、モデルデータ212を取得する。
ステップS412にて、分析部23は、分析用の画像データ213を取得する。
ステップS413にて、分析部23は、ステップS412の画像データ213から、骨格抽出部21に骨格データ22を抽出させる。
領域モデル24が存在しているときには(ステップS421,Yes)、分析部23は、領域検出部231に領域データ24aの推定処理を実行させる(ステップS422,詳細は図19)。
姿勢モデル25が存在しているときには(ステップS423,Yes)、分析部23は、姿勢検出部232に姿勢データ25aの推定処理を実行させる(ステップS424,詳細は図22)。
背景モデル291が存在しているときには(ステップS426,Yes)、分析部23は、背景検出部233に背景データ291aの推定処理を実行させる(ステップS427,詳細は図25)。
ステップS431にて、分析部23は、未処理のフレームが存在するときには、処理をステップS412に戻す。
ステップS432にて、分析部23は、ステップS422,S424,S427の各分析結果から手順検出部237に作業手順を推定させる。
ステップS221にて、領域検出部231は、フレームごとに、そのフレームにて検出された人物の骨格データ22を取得する。
ステップS222にて、領域検出部231は、領域モデル24から1レコード分(1つの領域)を取得する。
領域検出部231は、ステップS221の骨格データ22を構成する特徴点番号の座標が、ステップS222で取得した領域内であるときには(ステップS223,Yes)、ステップS222で取得したレコードの領域ラベルを保持する(ステップS224)。
ステップS226にて、領域検出部231は、ステップS224で保持されたすべての結果を領域データ24aとして出力する。
ステップS227にて、領域検出部231は、未処理のフレームが存在するときには、処理をステップS221に戻す。
領域検出部231は、図11の画像データ213上の部品取り領域901に対して、図12の領域モデル24の第1レコード(部品取り領域)の要件を満たす(つまり、右側に両手が入る)ことで、「右から部品をとる」という領域ラベルを含めた領域データ24aを推定する。
領域検出部231は、図11の画像データ213上の完成品格納領域902に対して、図12の領域モデル24の第2レコード(完成品格納領域)の要件を満たす(つまり、左側に両手が入る)ことで、「左側に部品を格納する」という領域ラベルを含めた領域データ24aを推定する。
ステップS241にて、姿勢検出部232は、動画の各フレームにて検出された人物の骨格データ22を取得する。
ステップS242にて、姿勢検出部232は、取得した骨格データ22を入力として、姿勢モデル25を用いて機械学習による推論を行う。これにより、骨格データ22に対応する姿勢ラベルが出力される。
なお、ユーザは、ステップS242の姿勢ラベルが実際と異なった場合(推論ミス)には(ステップS243,Yes)、姿勢学習部232aは、ユーザから正しい姿勢ラベルを受け付けてもよい。そして、姿勢学習部232aは、受け付けた姿勢ラベルと、取得した骨格データ22との組み合わせを新たな学習データとして、姿勢モデル25を修正(再学習)してもよい(ステップS244)。
ステップS246にて、姿勢検出部232は、未処理の人物がステップS241のフレームに存在するときには、処理をステップS243に戻す。
ステップS247にて、姿勢検出部232は、フレームに存在するすべての人物についてのステップS245で保持した推論結果を姿勢データ25aとして出力する。
ステップS248にて、姿勢検出部232は、未処理のフレームが存在するときには、処理をステップS241に戻す。
姿勢検出部232は、ビデオカメラ1などから取得した画像データ213から、写っている人物の行動を構成する姿勢を分析し、その分析結果を姿勢データ25aとして出力する。姿勢データ25aには、検出時刻を示すフレーム番号が付されている。
この出力される姿勢データ25aは、例えば、製造業の組み立て現場での組み立て作業の手順に係る作業姿勢や、製造業の製造現場での作業安全にかかわる身体的負担の大きい作業姿勢を検出するために活用できる。
ステップS271にて、背景検出部233は、動画の各フレームである画像データ210を取得する。
ステップS272にて、背景検出部233は、背景モデル291から1レコード分(1つの背景領域)を取得する。
ステップS273にて、背景検出部233は、ステップS271の画像データ213から、ステップS272の背景領域の位置の画像を切り取る。
ステップS274にて、背景検出部233は、ステップS273で切り取った画像データ210を入力として、背景モデル291を用いて機械学習の推論を実行する。
ステップS275にて、背景検出部233は、ステップS274の推論結果として、背景ラベルを保持する。
ステップS276にて、背景検出部233は、背景モデル291内の未処理のレコードが存在するときには、処理をS272に戻す。
ステップS277にて、背景検出部233は、未処理のフレームが存在するときには、処理をステップS271に戻す。
ステップS278にて、背景検出部233は、すべての背景ラベルの推論結果を出力する。
出力部28は、人物行動と関連のある背景画像の情報として、背景ラベル903eで示した「未使用」を、人物行動画像へ重畳表示する。また、出力部28は、動画の各フレームである画像データ210について、骨格抽出部21が認識した骨格データ22を人物の画像へ重畳表示する。さらに、出力部28は、骨格データ22を構成する特徴点データ(関節点)をマーキングして表示する(図では丸印)。
図9でも説明したように、手順検出部237は、領域データ24a、姿勢データ25a、背景データ291aそれぞれの分析結果を組み合わせて、作業者の手順データ297a(作業状態)をフレーム番号ごとに決定する。例えば、背景データ291aとして、ドライバが未使用の状態(図26)と使用中の状態(図27)とを区別することで、出力手順が組み立て中か否かを決定することができる。
手順検出部237は、手順データ297aのフレーム番号は特定の時刻を示しているので、手順データ297aから時系列の作業手順(出力手順)を求めることができる。そこで、出力部28は、時系列の作業手順をガントチャート形式で表示することで、作業手順ごとの所要時間をユーザにわかりやすく示すことができる。
また、作業管理装置2は、骨格データ22との位置関係を判定するための領域モデル24と、人物が置かれている状況を示す背景モデル291とを併せて用いることで、作業手順の特定精度を向上させる。これにより、深層学習や画像認識の知識を問わず、簡便な方法で、作業者を撮影した画像データ213から、作業者の姿勢データ25aを分析し、作業者の手順データ297aを特定できる。
以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
なお、骨格抽出部21は、画像データ213から骨格データ22を抽出するだけでなく、例えば人物領域910から作業者の骨格データ22を抽出するなどのように、予め定められた領域から人物を検出してもよい。
分析部23におけるクラスタリングの結果は、推定結果データ27として出力部28を介して出力され、推定結果や推定根拠などをモニタ31に表示し、あるいは記憶装置32に記憶される。
姿勢検出部232は、姿勢モデル25に格納された各姿勢と、映像から抽出された骨格データ22を参照して、画像データ中の作業者の姿勢を検出する。姿勢モデル25は、人の各姿勢と、その姿勢の場合における骨格データとの対応関係を記憶している。人の姿勢と作業との対応関係を参照することにより、作業者がどのような作業を行っているかを推定可能である。
これらの検出部にて検出した結果に加え、分析部23は、組み合わせモデル292を参照して、検出結果を組み合わせて、作業員が実施している作業内容を推定する。組み合わせモデル292は、作業員が実施する各作業内容と、その作業内容を示す各検出部の検出結果との組み合わせの対応関係を記憶している。
なお、物体検出部234は、画像データ213から物体を検出するだけでなく、例えば部品取り領域901から部品を検出し、完成品格納領域902から完成品を検出し、工具領域903から工具を検出するなどのように、予め定められた領域から定められた物体を検出してもよい。
画像データ210は、人物が写っている動画像の各フレームに1つ生成される。この画像データ210に写っている人物は、電子装置を手元に持っており、未だドライバを手にしていない。部品取り領域901は、作業者が部品を取るための領域である。工具領域903は、作業者が作業で使う工具を載置する領域である。完成品格納領域902は、作業者が完成品を格納する領域である。
骨格データ42は、骨格抽出部21が画像データ210から人物の骨格情報を抽出した結果を、この画像データ210に重畳表示したものであり、各特徴点を線で結んで示している。骨格抽出部21は、OpenPose(URL=https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの公知の骨格情報取得技術を使用することができる。
工具領域903は、工具が置かれる領域をこの画像データ210に重畳表示したものである。分析部23は、この工具領域903に工具が存在しているときに、作業員は未だこの工具を持っていないと推定する。
画像加工部202は、図32の画像データ210のうち不要な部分を取り除く。画像加工部202は、画像データ210のうち、部品取り領域901と完成品格納領域902と、工具領域903と、人物領域910を合成して、新たな画像データ213に加工する。なお、これに限られず、画像加工部202は、合成時に各領域に対して必要に応じて変形、色の調整、フィルタ処理などを行ってもよい。
大きなサイズの画像データ210から認識したい複数の領域を切り出し、1枚の画像とすることで、画像データ213は、元の画像データ210のサイズよりも小さくなる。
骨格データ22は、番号欄と、特徴点欄と、X軸座標欄と、Y軸座標欄と、スコア欄とを含んで構成される。各行には、人物の関節点などである特徴点が格納される。番号欄は、例えば、鼻は0、右肩は1、右肘は2などのように、各特徴点に1つずつ固有の番号が割り当てられている。特徴点欄は、この特徴点の名前を格納している。X軸座標欄は、この特徴点の画像データ210におけるX軸の座標値を格納している。Y軸座標欄は、この特徴点の画像データ210におけるY軸の座標値を格納している。スコア欄は、この特徴点の確からしさを表す数値を格納している。
領域モデル24は、領域ラベル欄と、特徴点番号欄と、判定論理欄と、多角形座標欄とを含んで構成される。領域ラベル欄は、この領域の名前を格納する欄である。特徴点番号欄は、骨格データ22の特徴点の番号を1つ、または複数格納する欄である。特徴点番号欄で指定された特徴点が、多角形座標欄で指定された領域に入った場合、分析部23は、その特徴点が領域に入ったことを検知する。
図36は、作業者の作業内容を示すタイムチャートである。
図36は、画像から姿勢Aが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻t0からt4まで作業工程Aを実施し、その後に作業工程Bに移行した。画像情報の中の姿勢は、時刻t0からt2間と、時刻t3からt4間で作業工程Aでの姿勢Aが計測されたが、時刻t2とt3の間はこの姿勢Aが計測されなかった。音情報DMは、ほぼこの期間全域で作業工程Aでの音Aが計測された。
図37は、画像から姿勢Aか姿勢Cかが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻t0からt4まで作業工程Aを実施し、その後に工程Bに移行した。画像情報中の姿勢は、時刻t1からt4間で作業工程Aでの姿勢Aまたは姿勢Cが計測された。音情報は、ほぼこの期間全域で作業工程Aでの音Aが計測された。
図38は、作業時間を計測するために、作業の開始と終了を画像と音から判断する例を示している。画像からは作業の開始を意味する姿勢Aと音Aを検知したことで、作業開始と判断する。また作業の終了を意味する姿勢Bと音Cを検知したことで、作業終了と判断していることを示している。
この作業工程Aの実施期間T内に姿勢Aと姿勢Cの混在する区間があるものの、この期間T内で少なくとも一定時間以上の姿勢Aと音の双方が検知される時間帯T1が存在することから工程Aの可能性が高いと判断したものである。
「姿勢」の右側の棒グラフは、時刻t1からt4と、時刻t5からt6に姿勢検出部232が検出した作業者の姿勢が、作業姿勢であることを示している。
「作業」の右側の棒グラフは、分析部23が推定した作業員の作業内容を示している。時刻t1からt4は、作業としてネジ締結が推定されている。これは時刻t1からt4の一部にて、作業員の手首の近傍にドライバを検出したためである。これに対し、時刻t5からt6までは、ドライバを検出していないためネジ締結とは推定されていない。
画像加工部202は、動画を構成する各フレームを画像データとして取得する(ステップS11)。そして、画像加工部202は、認識したい複数の領域を新たな画像データ213に加工する(ステップS12)。そして、骨格抽出部21は、加工した画像データ213中の作業者の骨格データ22を抽出する(ステップS13)。
姿勢検出部232は、姿勢モデル25に基づき、骨格データ22から姿勢を検出する(ステップS15)。ここで姿勢検出部232は、検出した姿勢のスコア(確からしさ)を算出する。スコアが閾値以上であれば、その姿勢を検出したと見做し、検出を示す文字列(ラベル)を出力する。
音検出部235は、音モデル293と音データ296に基づき、対応する作業内容を検出する(ステップS18)。移動検出部236は、移動分析モデル294と移動分析データ295に基づき、移動を検出する(ステップS19)。
そして、分析部23は、これらの算出した検出時間を基に、作業を推定する。具体的にいうと、分析部23は、これら検出結果の組み合わせ処理を実施する(ステップS22)。
分析部23は、物体検出部234がドライバを検出したか否かを判定する(ステップS40)。分析部23は、物体検出部234がドライバを検出しなかったならば(No)、図42の処理を終了し、物体検出部234がドライバを検出していたならば(Yes)、ステップS41に進む。
ステップS30にて、分析部23は、推定結果データ27を出力すると、図41Aと図41Bの処理を終了する。
図41Aと図41Bのフローチャートで説明したように、分析部23は、ドライバの検出結果と作業者の姿勢の検出結果とに基づき、この作業者が行っている作業を推定する。これにより、作業員が行う複数の異なる作業が同様な姿勢であっても、各作業内容を好適に抽出できる。
図43に示したリアルタイム画面5は、分析の実行、中断、停止と、分析した結果を示す画面である。出力部28が、このリアルタイム画面5をモニタ31に表示する。リアルタイム画面5は、実行ボタン51と、ポーズボタン52と、停止ボタン53と、映像表示領域56と、状態表示欄54と、状態累計時間グラフ55と、状態タイムチャート57とを含んで表示される。
履歴データ画面6は、分析結果を示す各タイムチャートを含んでいる。
状態タイムチャート60は、各時間における分析結果のスコア(確からしさ)に基づいて、総合的に判定した状態を示すタイムチャートである。
「ネジ締め」タイムチャート65は、各時間における映像の被写体の「ネジ締め」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「左向き」タイムチャート67は、各時間における映像の被写体の「左向き」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「部品を置く」タイムチャート69は、各時間における映像の被写体の「部品を置く」状態のスコアに基づいて判定した状態を示すタイムチャートである。
認識レポート画面7には、凡例70と、ラベル71と、積み上げ棒グラフ72と、場所欄73と、日時欄74とを含んで表示している。
前記画像データ(213)から当該人物の骨格データ(22)を抽出する骨格抽出部(21)と、
前記骨格データ(22)から前記人物の姿勢を検出する姿勢検出部(232)と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部(23)と、
を有することを特徴とする作業管理装置(2)。
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
を更に備えることを特徴とする[3]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする[1]に記載の作業管理装置。
を備えることを特徴とする[1]に記載の作業管理装置。
を備えることを特徴とする[1]に記載の作業管理装置。
前記姿勢検出部(232)は、前記姿勢モデルに基づき、前記人物の骨格データから前記人物の姿勢を検出する、
ことを特徴とする[1]に記載の作業管理装置。
ことを特徴とする請求項1に記載の作業管理装置。
前記画像データ(213)から当該人物の骨格データ(22)を抽出する骨格抽出部(21)と、
前記骨格データ(22)から前記人物の姿勢を検出する姿勢検出部(232)と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部(23)と、
を有することを特徴とする作業管理システム。
骨格抽出部(21)が、前記画像データ(213)から当該人物の骨格データ(22)を抽出するステップと、
姿勢検出部(232)が、前記骨格データ(22)から前記人物の姿勢を検出するステップと、
分析部(23)が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
を有することを特徴とする作業管理方法。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。
13 ビデオレコーダ
14 入出力装置
2 作業管理装置
21 骨格抽出部
22 骨格データ
211 モデル生成部
202 画像加工部
213 画像データ
231a 領域定義部
232a 姿勢学習部
233a 背景定義部
237a 手順学習部
23 分析部
231 領域検出部
232 姿勢検出部
233 背景検出部
234 物体検出部
235 音検出部
236 移動検出部
237 手順検出部
24 領域モデル
25 姿勢モデル
26 物体モデル
22 骨格データ
27 推定結果データ
28 出力部
31 モニタ
32 記憶装置
33 アプリケーション装置
901 部品取り領域
903 工具領域
902 完成品格納領域
910 人物領域
Claims (15)
- 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
ことを特徴とする作業管理装置。 - 前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
を更に備えることを特徴とする請求項1に記載の作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする請求項1に記載の作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整する、
ことを特徴とする作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
前記画像加工部が前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部、
を備えることを特徴とする作業管理装置。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
ことを特徴とする作業管理システム。 - 前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
を更に備えることを特徴とする請求項9に記載の作業管理システム。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。 - 人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする作業管理システム。 - 画像加工部が、人物が撮影された動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データに加工するステップと、
骨格抽出部が、前記画像データから当該人物の骨格データを抽出するステップと、
姿勢検出部が、前記骨格データから前記人物の姿勢を検出するステップと、
分析部が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
を有することを特徴とする作業管理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023034205 | 2023-09-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7500895B1 true JP7500895B1 (ja) | 2024-06-17 |
Family
ID=91483373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024509021A Active JP7500895B1 (ja) | 2023-09-21 | 2023-09-21 | 作業管理装置、作業管理システム、および、作業管理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7500895B1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201772A (ja) | 2019-06-11 | 2020-12-17 | 株式会社 日立産業制御ソリューションズ | 姿勢分析プログラム、および、姿勢分析装置 |
JP2021072475A (ja) | 2019-10-29 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 監視システムおよび監視システム設定プログラム |
JP2021163188A (ja) | 2020-03-31 | 2021-10-11 | コベルコ建機株式会社 | 作業機械の周囲検知装置 |
JP2022153857A (ja) | 2021-03-30 | 2022-10-13 | キヤノン株式会社 | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム |
-
2023
- 2023-09-21 JP JP2024509021A patent/JP7500895B1/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201772A (ja) | 2019-06-11 | 2020-12-17 | 株式会社 日立産業制御ソリューションズ | 姿勢分析プログラム、および、姿勢分析装置 |
JP2021072475A (ja) | 2019-10-29 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 監視システムおよび監視システム設定プログラム |
JP2021163188A (ja) | 2020-03-31 | 2021-10-11 | コベルコ建機株式会社 | 作業機械の周囲検知装置 |
JP2022153857A (ja) | 2021-03-30 | 2022-10-13 | キヤノン株式会社 | 画像処理装置、画像処理方法、移動装置、及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6825041B2 (ja) | 姿勢分析プログラム、および、姿勢分析装置 | |
CN106340217B (zh) | 基于增强现实技术的制造装备智能系统及其实现方法 | |
CN111259751A (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
JP2008108008A (ja) | 移動パターン特定装置、移動パターン特定方法、移動パターン特定プログラム、およびこれを記録した記録媒体 | |
JPWO2018154709A1 (ja) | 動作学習装置、技能判別装置および技能判別システム | |
Collett et al. | Augmented reality visualisation for player | |
CN112949457A (zh) | 基于增强现实技术的维修方法、装置及系统 | |
JP2019159885A (ja) | 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム | |
JP6773825B2 (ja) | 学習装置、学習方法、学習プログラム、及び対象物認識装置 | |
JP6593949B1 (ja) | 情報処理装置、及び、マーケティング活動支援装置 | |
JP7500895B1 (ja) | 作業管理装置、作業管理システム、および、作業管理方法 | |
CN107256375A (zh) | 一种电脑前人体坐姿监测方法 | |
JPWO2018173947A1 (ja) | 画像検索装置 | |
CN117292601A (zh) | 一种虚拟现实手语教育系统 | |
JP2021163293A (ja) | 作業分析装置及び作業分析プログラム | |
Gris et al. | Full-body gesture recognition for embodied conversational agents: The UTEP AGENT gesture tool | |
Fiorentino et al. | Magic mirror interface for augmented reality maintenance: an automotive case study | |
JP6117765B2 (ja) | 資産管理システム | |
JP7376446B2 (ja) | 作業分析プログラム、および、作業分析装置 | |
WO2022063572A1 (en) | Control system for an augmented reality device | |
JP2007048232A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
WO2024069997A1 (ja) | 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ | |
CN112102502A (zh) | 用于飞机驾驶舱功能试验的增强现实辅助方法 | |
Sagawa et al. | [POSTER] Hands-Free AR Work Support System Monitoring Work Progress with Point-cloud Data Processing | |
JP7470069B2 (ja) | 指示物体検出装置、指示物体検出方法及び指示物体検出システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240215 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7500895 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |