JP7533765B2

JP7533765B2 - 骨格認識方法、骨格認識プログラムおよび体操採点支援システム

Info

Publication number: JP7533765B2
Application number: JP2023504918A
Authority: JP
Inventors: 達也鈴木; 優石川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2024-08-14
Anticipated expiration: 2041-03-09
Also published as: US20230368415A1; WO2022190206A1; EP4307213A1; CN116830166A; JPWO2022190206A1; EP4307213A4

Description

本発明は、骨格認識方法等に関する。

３次元の人の動きの検出に関しては、複数台の３Ｄレーザセンサから人の３Ｄ骨格座標を±１ｃｍの精度で検出する３Ｄセンシング技術が確立されている。この３Ｄセンシング技術は、体操採点支援システムへの応用や、他のスポーツ、他分野への展開が期待されている。３Ｄレーザセンサを用いた方式を、レーザ方式と表記する。

レーザ方式では、レーザを１秒間に約２００万回照射し、レーザの走行時間（Time of Flight：ＴｏＦ）を基に、対象となる人を含めて、各照射点の深さや情報を求める。レーザ方式は、高精度な深度データを取得できるが、レーザスキャンやＴｏＦ測定の構成および処理が複雑であるため、ハードウェアが複雑および高価になるという欠点がある。

レーザ方式の代わりに、画像方式によって、３Ｄ骨格認識を行う場合もある。画像方式では、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージャによって、各ピクセルのＲＧＢ（Red Green Blue）データを取得する方式であり、安価なＲＧＢカメラを用いることができる。

ここで、複数カメラによる２Ｄ特徴を用いた３Ｄ骨格認識の従来技術について説明する。従来技術では、事前に定義された人体モデルに従って、各カメラで２Ｄ特徴を取得した後、各２Ｄ特徴を統合した結果を用いて、３Ｄ骨格を認識する。たとえば、２Ｄ特徴は、２Ｄ骨格情報、heatmap情報が上げられる。

図２２は、人体モデルの一例を示す図である。図２２に示すように、人体モデルＭ１は、２１個の関節で構成される。人体モデルＭ１では、各関節をノードで示し、０～２０の番号を割り当てる。ノードの番号と、関節名との関係は、テーブルＴｅ１に示す関係となる。たとえば、ノード０に対応する関節名は「SPINE_BASE」となる。ノード１～２０に対する関節名の説明を省略する。

従来技術には、三角測量を用いた手法、機械学習を用いた手法がある。三角測量を用いた手法には、カメラ２台による三角測量と、カメラ３台以上による三角測量がある。便宜的に、カメラ２台による三角測量を、従来技術１、カメラ３台以上による三角測量を、従来技術２、機械学習を用いた手法を、従来技術３とする。

図２３は、カメラ２台による三角測量を説明するための図である。従来技術１において、三角測量とは、２台のカメラＣａ１Ａ，Ｃａ１Ｂの特徴を使って、三角形の関係から被写体Ｐの３次元位置を測定する方法と定義する。カメラＣａ１Ａのカメラ画像をＩｍ２Ａとし、カメラＣａ１Ｂのカメラ画像をＩｍ２Ｂとする。

被写体Ｐのカメラ画像Ｉｍ２Ａの２Ｄ関節位置をｐ_ｌ（ｘ_ｌ，ｙ_ｌ）とする。被写体Ｐのカメラ画像Ｉｍ２Ａの２Ｄ関節位置をｐ_ｒ（ｘ_ｒ，ｙ_ｒ）とする。また、カメラ間の距離をｂとし、焦点距離をｆとする。従来技術１では、２Ｄ関節位置をｐ_ｌ（ｘ_ｌ，ｙ_ｌ）、ｐ_ｒ（ｘ_ｒ，ｙ_ｒ）を特徴とし、３次元関節位置Ｐ（Ｘ，Ｙ，Ｚ）を、式（１）、式（２）、式（２）により算出する。（Ｘ，Ｙ，Ｚ）の原点は、２つのカメラＣａ１Ａ，Ｃａ１Ｂの光学中心の中央にあるものとする。

図２３で説明した従来技術１では、３Ｄ骨格を求める際に誤った２Ｄ特徴が使用されると３Ｄ骨格の精度が低下してしまう。

図２４は、カメラ３台による三角測量を説明するための図である。カメラ３台による三角測量では、図２３で説明した三角測量を、３台以上のカメラに拡張し、ＲＡＮＳＡＣ（Random Sample Consensus）と呼ばれるアルゴリズムにより、最も良いカメラの組み合わせを推定する。

図２４に示すように、従来技術２の装置は、全てのカメラ１－１，１－２，１－３，１－４で、被写体の２Ｄ関節位置を取得する（ステップＳ１）。従来技術２の装置は、全てのカメラ１－１～１－４から、２つのカメラの組み合わせを選択し、図２３で説明した三角測量によって、３Ｄ関節位置を算出する（ステップＳ２）。

従来技術２の装置は、３Ｄ骨格を全てのカメラ１－１～１－４に再投影して、２Ｄ関節位置とのずれが閾値以下となるカメラの数をカウントする（ステップＳ３）。従来技術２の装置は、ステップＳ２、Ｓ３の処理を繰り返し実行し、２Ｄ関節位置とのずれが閾値以下となるカメラの数が最も多い２つのカメラの組み合わせを、最も良いカメラの組み合わせとして採用する（ステップＳ４）。

図２４で説明した従来技術２では、３Ｄ骨格を求める際に最適な２つのカメラを探索するために処理時間を要してしまう。

機械学習を用いた手法では、三角測量を用いた手法と比較して、高精度かつ高速に、３Ｄ骨格を認識することが可能となる。

図２５は、機械学習を用いた手法を説明するための図である。機械学習を用いた従来技術３では、各カメラが撮影した各入力画像２１に対して、2D backbone処理２１ａをかけることで、各関節特徴を表す２Ｄ特徴（2D features）２２を取得する。従来技術３では、各２Ｄ特徴２２をカメラパラメータに従って3Dcubeに逆投影することで、aggregated volumes２３を取得する。

従来技術３では、aggregated volumes２３を、V2V（ニューラルネットワーク、Ｐ３）２４に入力することで、各関節の尤度を表すprocessed volumes２５を取得する。processed volumes２５は、各関節の３Ｄでの尤度を表すheatmapに対応する。従来技術３では、processed volumes２５に対して、soft-argmax２６を実行することで、３Ｄ骨格情報２７を取得する。

特開平１０－３０２０７０号公報特開２０００－２５１０７８号公報

しかしながら、従来技術３では、誤った２Ｄ特徴を用いて３Ｄ骨格認識を実行する場合があり、正しい３Ｄ骨格認識結果を得ることができないという問題がある。

図２６は、従来技術３の問題を説明するための図である。ここでは、一例として、４台のカメラ２－１，２－２，２－３，２－４を用いて、３Ｄ骨格を認識する場合について説明する。カメラ２－１，２－２，２－３，２－４が撮影した入力画像をそれぞれ、入力画像Ｉｍ２－１ａ，Ｉｍ２－２ａ，Ｉｍ２－３ａ，Ｉｍ２－４ａとする。このうち、入力画像Ｉｍ２－３ａでは、被写体の顔が見えづらく、左右の区別が難しい画像となっている。入力画像Ｉｍ２－４ａでは、領域Ａｒ１において、左膝オクルージョンが発生している。

従来技術３では、入力画像Ｉｍ２－１ａに、2D backbone処理２１ａをかけることで、２Ｄ特徴が算出され、この２Ｄ特徴により、２Ｄ骨格情報Ｉｍ２－１ｂが生成される。入力画像Ｉｍ２－２ａ，Ｉｍ２－３ａ、Ｉｍ２－４ａについても、2D backbone処理２１ａをかけることで、２Ｄ特徴が算出され、この２Ｄ特徴により、２Ｄ骨格情報Ｉｍ２－２ｂ，Ｉｍ２－３ｂ，Ｉｍ２－４ｂが生成される。２Ｄ骨格情報Ｉｍ２－１ｂ～Ｉｍ２－４ｂは、２Ｄの骨格の位置を示すものである。

ここで、入力画像Ｉｍ２－３ａでは、被写体の顔が見えづらいため、２Ｄ姿勢情報Ｉｍ２－３ｂの領域Ａｒ２において、骨格の関係が左右反転している。入力画像Ｉｍ２－４ａで発生した左膝オクルージョンの影響により、２Ｄ姿勢情報Ｉｍ２－４ｂの領域Ａｒ３において、左膝に関連した２Ｄ骨格が誤った特徴をとらえている。

従来技術３では、２Ｄ姿勢情報Ｉｍ２－１ｂ～Ｉｍ２－４ｂの基となる２Ｄ特徴をそのまま用いて、３Ｄ骨格認識結果Ｉｍ２－１ｃ，Ｉｍ２－２ｃ，Ｉｍ２－３ｃ，Ｉｍ２－４ｃを算出する。すなわち、２Ｄ姿勢情報Ｉｍ２－３ｂ，Ｉｍ２－４ｂに対応する２Ｄ特徴が誤っていても、かかる２Ｄ特徴を用いて、３Ｄ骨格を認識するため、精度が低下する。たとえば、図２６に示す例では、誤りの特徴の多かった左膝に大きな精度の低下が発生する。

１つの側面では、本発明は、正しく３Ｄ骨格認識を実行することができる、骨格認識方法、骨格認識プログラムおよび体操採点支援システムを提供することを目的とする。

第１の案では、コンピュータは、次の処理を実行する。コンピュータは、被写体を撮影する複数のカメラから入力される２次元の入力画像を基にして、被写体の２次元の関節位置の特徴を示す複数の第１特徴を抽出する。コンピュータは、複数の第１特徴を基にして、被写体の所定数の関節にそれぞれ対応させた複数の第２特徴を含む第２特徴群情報を生成する。コンピュータは、第２特徴群情報から、異常のある第２特徴を検知する。コンピュータは、第２特徴群情報から、異常のある第２特徴を除去した残りの複数の第２特徴を統合した結果を基にして、３Ｄ骨格を認識する。

３Ｄ骨格認識結果に異常を与えてしまう２Ｄ特徴を判定することで、異常のある２Ｄ特徴を事前に除去することができ、正しく３Ｄ骨格認識を実行することができる。

図１は、本実施例に係る体操採点支援システムの一例を示す図である。図２は、２Ｄ特徴を説明するための図である。図３は、一つの２Ｄ特徴を示す図である。図４は、本実施例に係る骨格認識装置の構成を示す機能ブロック図である。図５は、測定テーブルのデータ構造の一例を示す図である。図６は、特徴テーブルのデータ構造の一例を示す図である。図７は、生成部の処理を説明するための図である。図８は、左右反転検知を説明するための図（１）である。図９は、左右反転検知を説明するための図（２）である。図１０は、セルフオクルージョン検知を説明するための図である。図１１は、異常heatmapのパターンを説明するための図である。図１２は、第１の異常heatmap検知処理について説明するための図である。図１３は、ネットワークの自動重み調整の一例を説明するための図である。図１４は、第２の異常heatmap検知処理について説明する図（１）である。図１５は、第２の異常heatmap検知処理について説明する図（２）である。図１６は、画面情報の一例を示す図である。図１７は、本実施例に係る骨格認識装置の処理手順を示すフローチャートである。図１８は、第２特徴生成処理のフローチャートである。図１９は、異常検知処理のフローチャートである。図２０は、本実施例に係る骨格認識装置の効果を説明するための図である。図２１は、骨格認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２２は、人体モデルの一例を示す図である。図２３は、カメラ２台による三角測量を説明するための図である。図２４は、カメラ３台による三角測量を説明するための図である。図２５は、機械学習を用いた手法を説明するための図である。図２６は、従来技術３の問題を説明するための図である。

以下に、本願の開示する骨格認識方法、骨格認識プログラムおよび体操採点支援システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例に係る体操採点支援システムの一例を示す図である。図１に示すように、この体操採点支援システム３５は、カメラ３０ａ，３０ｂ，３０ｃ，３０ｄと、骨格認識装置１００とを有する。カメラ３０ａ～３０ｄと、骨格認識装置１００とは、有線または無線によってそれぞれ接続されている。図１では、カメラ３０ａ～３０ｄを示すが、この体操採点支援システム３５は、他のカメラを更に有していてもよい。

本実施例では一例として、被写体Ｈ１が、器具上で一連の演技を行うものとするがこれに限定されるものではない。たとえば、被写体Ｈ１は、器具の存在しない場所で演技を行ってもよいし、演技以外の動作を行ってもよい。

カメラ３０ａは、被写体Ｈ１の画像を撮影するカメラである。カメラ３０ａは、ＣＭＯＳイメージャ、ＲＧＢカメラ等に対応する。カメラ３０ａは、所定のフレームレート（frames per second：FPS）によって、画像を連続して撮影し、時系列に画像のデータを骨格認識装置１００に送信する。以下の説明では、連続する複数の画像のデータのうち、ある一つの画像のデータを「画像フレーム」と表記する。画像フレームには、時系列にフレーム番号が付与される。

カメラ３０ｂ，３０ｃ，３０ｄに関する説明は、カメラ３０ａに関する説明と同様である。以下の説明では、適宜、カメラ３０ａ～３０ｄをまとめて「カメラ３０」と表記する。

骨格認識装置１００は、カメラ３０から画像フレームを取得し、画像フレームを基にして、被写体Ｈ１の関節にそれぞれ対応する複数の第２特徴を生成する。第２特徴は、各関節位置の尤度を示すheatmapである。１つのカメラから取得した１つの画像フレームから、各関節に対応する第２特徴が生成される。たとえば、関節数を２１個、カメラの数を４個とすると、画像フレーム毎に、８４個の第２特徴が生成される。

図２は、第２特徴を説明するための図である。図２に示す画像フレームＩｍ３０ａ１は、カメラ３０ａに撮影された画像フレームである。画像フレームＩｍ３０ｂ１は、カメラ３０ｂに撮影された画像フレームである。画像フレームＩｍ３０ｃ１は、カメラ３０ｃに撮影された画像フレームである。画像フレームＩｍ３０ｄ１は、カメラ３０ｄに撮影された画像フレームである。

骨格認識装置１００は、画像フレームＩｍ３０ａ１を基にして、第２特徴群情報Ｇ１ａを生成する。第２特徴群情報Ｇ１ａには、各関節に対応する２１個の第２特徴が含まれる。骨格認識装置１００は、画像フレームＩｍ３０ｂ１を基にして、第２特徴群情報Ｇ１ｂを生成する。第２特徴群情報Ｇ１ｂには、各関節に対応する２１個の第２特徴が含まれる。

骨格認識装置１００は、画像フレームＩｍ３０ｃ１を基にして、第２特徴群情報Ｇ１ｃを生成する。第２特徴群情報Ｇ１ｃには、各関節に対応する２１個の第２特徴が含まれる。骨格認識装置１００は、画像フレームＩｍ３０ｄ１を基にして、第２特徴群情報Ｇ１ｄを生成する。第２特徴群情報Ｇ１ｄには、各関節に対応する２１個の第２特徴が含まれる。

図３は、一つの第２特徴を示す図である。図３に示す第２特徴Ｇｃ１－３は、第２特徴群情報Ｇ１ｄに含まれる第２特徴のうち、関節「HEAD」に対応する第２特徴である。第２特徴Ｇｃ１－３の各ピクセルには、尤度が設定される。図３では、尤度の値に応じた色が設定される。尤度が最大となる箇所が、該当する関節の座標となる。たとえば、特徴Ｇｃ１－３において、尤度の値が最大となる領域Ａｃ１－３が、関節「HEAD」の座標であることが特定できる。

骨格認識装置１００は、第２特徴群情報Ｇ１ａに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ａから除去する。骨格認識装置１００は、第２特徴群情報Ｇ１ｂに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｂから除去する。

骨格認識装置１００は、第２特徴群情報Ｇ１ｃに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｃから除去する。骨格認識装置１００は、第２特徴群情報Ｇ１ｄに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｄから除去する。

骨格認識装置１００は、異常のある第２特徴を除いた第２特徴群情報Ｇ１ａ，Ｇ１ｂ，Ｇ１ｃ，Ｇ１ｄを統合し、統合した結果を基にして、３Ｄ骨格を認識する。

上記のように、骨格認識装置１００によれば、画像フレームを基にして、被写体Ｈ１の関節とそれぞれ対応付けた複数の第２特徴を生成し、異常が検知された第２特徴を除いた残りの第２特徴を合成した結果を用いて３Ｄ骨格を認識する。このため、正しい３Ｄ骨格の認識結果を得ることができる。

次に、本実施例に係る骨格認識装置１００の構成の一例について説明する。図４は、本実施例に係る骨格認識装置の構成を示す機能ブロック図である。図４に示すように、この骨格認識装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

通信部１１０は、カメラ３０から画像フレームを受信する。通信部１１０は、受信した画像フレームを制御部１５０に出力する。通信部１１０は、通信装置の一例である。通信部１１０は、図示しない他の外部装置からデータを受信してもよい。

入力部１２０は、骨格認識装置１００の制御部１５０に各種の情報を入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。利用者は、入力部１２０を操作して、画面情報の表示要求、画面操作などを行う。

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。たとえば、表示部１３０は、各種競技の技認定、採点結果等の画面情報を表示する。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ、タッチパネル等に対応する。

記憶部１４０は、測定テーブル１４１、特徴テーブル１４２、技認識テーブル１４３を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

測定テーブル１４１は、カメラ３０により撮影される画像フレームを時系列に格納するテーブルである。図５は、測定テーブルのデータ構造の一例を示す図である。図５に示すように、測定テーブル１４１は、カメラ識別情報と、画像フレームとを対応付ける。

カメラ識別情報は、カメラを一意に識別する情報である。たとえば、カメラ識別情報「Ｃ３０ａ」は、カメラ３０ａに対応し、カメラ識別情報「Ｃ３０ｂ」は、カメラ３０ｂに対応し、カメラ識別情報「Ｃ３０ｃ」は、カメラ３０ｃに対応し、カメラ識別情報「Ｃ３０ｄ」は、カメラ３０ｄに対応する。画像フレームは、該当するカメラ３０に撮影された時系列の画像フレームである。各画像フレームには、時系列にフレーム番号が設定されるものとする。

特徴テーブル１４２は、第２特徴に関する情報を保持するテーブルである。図６は、特徴テーブルのデータ構造の一例を示す図である。図６に示すように、特徴テーブル１４２は、カメラ識別情報と、第１特徴と、第２特徴群情報とを有する。カメラ識別情報に関する説明は、図５で説明したカメラ識別情報に関する説明と同様である。

第１特徴は、１つの画像フレームに対して、2D backbone処理を実行することで算出される被写体Ｈ１の関節に関する特徴情報である。一つの画像フレームから、一つのカメラにつき、Ｋ個の第１特徴が生成される。すなわち、画像フレーム毎、カメラ毎に、Ｋ個の第１特徴が生成され、特徴テーブル１４２に格納される。なお、「Ｋ」は、関節数とは異なる数となり、関節数よりも多い数となる。

第２特徴群情報は、各関節に１対１に対応するＪ個の第２特徴を有する。一つの画像フレームから生成されたＫ個の第１特徴から、Ｊ個の第２特徴が生成される。また、Ｊ個の第２特徴は、カメラ毎に生成される。すなわち、画像フレーム毎、カメラ毎に、Ｊ個の第２特徴が生成され、特徴テーブル１４２に格納される。なお、「Ｊ」は、関節数「２１」と同じ数となり、各第２特徴は、各関節に対応付けられる。第２特徴群情報の説明は、図２で説明した内容に対応する。

図示を省略するが、Ｋ個の第１特徴の情報、Ｊ個の第２特徴の情報には、対応する画像フレームのフレーム番号が設定されているものとする。

図４の説明に戻る。技認識テーブル１４３は、各骨格認識結果に含まれる各関節位置の時系列変化と、技の種別とを対応付けるテーブルである。また、技認識テーブル１４３は、技の種別の組み合わせと、スコアとを対応付ける。スコアは、Ｄ（Difficulty）スコアとＥ（Execution）スコアとの合計で算出される。たとえば、Ｄスコアは、技の難易度に基づいて算出されるスコアである。Ｅスコアは、技の完成度に応じて、減点法により算出されるスコアである。

制御部１５０は、取得部１５１、生成部１５２、検知部１５３、骨格認識部１５４、技認識部１５５を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジック等によって実現される。

取得部１５１は、通信部１１０を介して、カメラ３０から時系列に画像フレームを取得する。取得部１５１は、カメラ３０から取得した画像フレームを、カメラ識別情報と対応付けて、測定テーブル１４１に格納する。

生成部１５２は、画像フレームを基にして、第２特徴群情報を生成する。図７は、生成部の処理を説明するための図である。図７に示すように、生成部１５２は、２Ｄ特徴抽出ＮＮ１４２Ａ、チャネル数変換ＮＮ１４２Ｂを利用する。

２Ｄ特徴抽出ＮＮ１４２Ａは、ResNet等のＮＮ（Neural Network）に対応する。２Ｄ特徴抽出ＮＮ１４２Ａは、画像フレームが入力された場合に、訓練済みのパラメータを基にして、Ｋ個の第１特徴を算出して、出力する。たとえば、１つの第１特徴は、９６×９６のピクセル画像であり、各ピクセルには、いずれかの関節に関する尤度が設定される。Ｋ個の第１特徴は、各関節と、１対１に対応しているものではない。２Ｄ特徴抽出ＮＮ１４２Ａは、予め訓練データによって、パラメータが訓練（機械学習）されているものとする。

チャネル数変換ＮＮ１４２Ｂは、ＮＮのConv2D層等に対応する。チャネル数変換ＮＮ１４２Ｂは、Ｋ個の第１特徴が入力された場合に、訓練済みのパラメータを基にして、Ｊ個の第２特徴を算出して、出力する。Ｊ個の第２特徴は、各関節と１対１に対応している。チャネル数変換ＮＮ１４２Ｂは、予め訓練データによって、パラメータが訓練（機械学習）されているものとする。

生成部１５２は、測定テーブル１４１から、カメラ３０ａの画像フレームを取得し、取得した画像フレームを、２Ｄ特徴抽出ＮＮ１４２Ａに入力することで、Ｋ個の第１特徴を抽出する。生成部１５２は、Ｋ個の第１特徴を、カメラ識別情報Ｃ３０ａに対応付けて、特徴テーブル１４２に登録する。

また、生成部１５２は、Ｋ個の第１特徴を、チャネル数変換ＮＮ１４２Ｂに入力することで、Ｊ個の第２特徴を生成する。生成部１５２は、Ｊ個の第２特徴を、カメラ識別情報Ｃ３０ａに対応付けて、特徴テーブル１４２に登録する。生成部１５２は、カメラ３０ａの時系列の各画像フレームに対して、上記処理を繰り返し実行することで、カメラ３０ａに対応するＪ個の第２特徴の情報を生成する。

生成部１５２は、カメラ３０ｂ，３０ｃ，３０ｄの画像フレームについても、カメラ３０ａの画像フレームと同様にして、Ｋ個の第１特徴を抽出し、Ｊ個の第２特徴の情報を生成する。なお、Ｋ個の第１特徴、Ｊ個の第２特徴には、フレーム番号が付与される。

たとえば、フレーム番号「ｎ」の画像フレームを基に抽出されたＫ個の第１特徴には、フレーム番号「ｎ」が付与される。また、フレーム番号「ｎ」が付与されたＫ個の第１特徴を基に生成されるＪ個の第２特徴（第２特徴群情報）には、フレーム番号「ｎ」が付与される。

検知部１５３は、特徴テーブル１４２に格納されたＪ個の第２特徴の情報を基にして、異常な関節を検知する。たとえば、検知部１５３は、左右反転検知、セルフオクルージョン検知、異常heatmap検知を実行することで、異常な関節を検知する。

検知部１５３が実行する左右反転検知について説明する。ここでは、カメラ３０ａが撮影した画像フレームに基づいて生成されたフレーム番号ｎ－１の第２特徴群情報と、フレーム番号ｎの第２特徴群情報とを用いて説明を行う。

検知部１５３は、フレーム番号ｎ－１の第２特徴群情報に含まれるＪ個の第２特徴を基にして、各関節の座標を算出する。たとえば、図３の関節「HEAD」に対応する第２特徴Ｇｃ１－３を用いて説明する。検知部１５３は、第２特徴Ｇｃ１－３の各ピクセルに設定された尤度のうち、最大の尤度が設定されたピクセルの座標を「HEAD」の座標として算出する。検知部１５３は、他の関節に対応する第２特徴についても、同様の処理を実行することで、フレーム番号ｎ－１の各関節の座標（２次元の座標）を算出する。

検知部１５３は、フレーム番号ｎの第２特徴群情報に含まれるＪ個の第２特徴を基にして、各関節の座標を算出する。検知部１５３が、フレーム番号ｎの第２特徴群情報を基にして、各関節の座標を算出する処理は、フレーム番号ｎの第２特徴群情報を基にして、各関節の座標を算出する処理と同様である。

図８は、左右反転検知を説明するための図（１）である。図８において、モデルＭ１－１は、フレーム番号ｎ－１の各関節の座標を基に生成される２次元骨格情報である。モデルＭ１－２は、フレーム番号ｎの各関節の座標を基に生成される２次元骨格情報である。図８では、説明の便宜上、一部の関節の図示を省略する。

検知部１５３は、所定の左側の関節を始点とし、所定の右側の関節を終点とするベクトルを計算する。たとえば、モデルＭ１－１では、ベクトルｖａ１，ｖａ２，ｖａ３，ｖａ４，ｖａ５，ｖａ６を示す。図２２で説明した関節を用いて説明すると、ベクトルｖａ１は、ノード１３を始点とし、ノード１７を終点とするベクトルである。ベクトルｖａ２は、ノード１１を始点とし、ノード１５を終点とするベクトルである。ベクトルｖａ３は、ノード１９を始点とし、ノード２０を終点とするベクトルである。ベクトルｖａ４は、ノード１０を始点とし、ノード１４を終点とするベクトルである。ベクトルｖａ５は、ノード５を始点とし、ノード８を終点とするベクトルである。ベクトルｖａ６は、ノード４を始点とし、ノード７を終点とするベクトルである。

検知部１５３は、モデルＭ１－２についても同様にして、所定の左側の関節を始点とし、所定の右側の関節を終点とするベクトルを計算する。ここでは、一例として、ベクトルｖｂ３を示す。

検知部１５３は、モデルＭ１－１と、モデルＭ１－２において、始点の関節と終点の関節とが同一となるベクトルをペアとする。図８に示す例では、モデルＭ１－１のベクトルｖａ３と、モデルＭ１－２のベクトルｖｂ３とがペアとなる。検知部１５３は、ペアのベクトルのノルムを比較し、前フレーム（フレーム番号ｎ－１）から所定値以上、ノルムが小さくなっている場合に、該当するベクトルのペアを検知する。

たとえば、検知部１５３は、ベクトルｖａ３のノルムから、ベクトルｖｂ３のノルムを減算した値が、所定値以上である場合に、ベクトルｖａ３，ｖｂ３を検知する。検知部１５３は、他のベクトルのペアについても同様の処理を実行する。この処理によって、検知部１５３が検知したベクトルのペアを、第１検知ベクトルペアと表記する。

検知部１５３は、第１検知ベクトルペアの関節の座標の移動量を比較し、移動量の大きい方の関節を、異常関節として検知する。たとえば、検知部１５３は、ベクトルｖａ３と、ベクトルｖｂ３とを比較すると、始点の関節の移動量よりも、終点の関節の移動量の方が大きいため、モデルＭ１－２の終点の関節（ノード２０：HAND_TIP_RIGHT）を異常関節として検知する。なお、モデルＭ１－２の基となる第２特徴群情報が、カメラ３０ａの撮影した画像フレームに基づく第２特徴群情報であるとする。この場合、検知部１５３は、「カメラ識別情報：Ｃ３０ａ、フレーム番号：ｎ、異常関節：HAND_TIP_RIGHT」を含む異常関節情報を生成する。

図９は、左右反転検知を説明するための図（２）である。図９において、モデルＭ１－１は、フレーム番号ｎ－１の各関節の座標を基に生成される２次元骨格情報である。モデルＭ１－２は、フレーム番号ｎの各関節の座標を基に生成される２次元骨格情報である。図９では、説明の便宜上、一部の関節の図示を省略する。

検知部１５３は、図８と同様にして、所定の左側の関節を始点とし、所定の右側の関節を終点とするベクトルを計算する。図９では一例として、モデルＭ１－１のベクトルｖａ３と、モデルＭ１－２のベクトルｖｂ３を示す。

検知部１５３は、モデルＭ１－１と、モデルＭ１－２において、始点の関節と終点の関節とが同一となるベクトルをペアとする。検知部１５３は、ペアのベクトルのなす角を算出する。検知部１５３は、なす角が所定のなす角以上となるベクトルのペアを検知する。

たとえば、検知部１５３は、ベクトルｖａ３とベクトルｖｂ３とのなす角が所定のなす角以上である場合に、ベクトルｖａ３，ｖｂ３を検知する。検知部１５３は、他のベクトルのペアについても同様の処理を実行する。この処理によって、検知部１５３が検知したベクトルのペアを、第２検知ベクトルペアと表記する。

検知部１５３は、第２検知ベクトルペアの始点となる関節と、終点となる関節との双方を、異常関節として検知する。図９に示す例では、検知部１５３は、モデルＭ１－２の始点の関節（ノード１９：HAND_TIP_LEFT）、終点の関節（ノード２０：HAND_TIP_RIGHT）を異常関節として検知する。なお、モデルＭ１－２の基となる第２特徴群情報が、カメラ３０ａの撮影した画像フレームに基づく第２特徴群情報であるとする。この場合、検知部１５３は、「カメラ識別情報：Ｃ３０ａ、フレーム番号：ｎ、異常関節：HAND_TIP_RIGHT、HAND_TIP_LEFT」を含む異常関節情報を生成する。

図８，図９では、カメラ３０ａが撮影した画像フレームに基づいて生成されたフレーム番号ｎ－１の第２特徴群情報と、フレーム番号ｎの第２特徴群情報とを用いて異常関節情報を生成する場合について説明したが、他のカメラ３０ｂ，３０ｃ，３０ｄについても同様である。

続いて、検知部１５３が実行するセルフオクルージョン検知について説明する。ここでは、カメラ３０ａが撮影した画像フレームに基づいて生成された各フレーム番号ｎ－２，ｎ－１の第２特徴群情報を用いて説明を行う。

検知部１５３は、フレーム番号ｎ－２の第２特徴群情報に含まれるＪ個の第２特徴を基にして、各関節の座標を算出する。検知部１５３は、フレーム番号ｎ－１の第２特徴群情報に含まれるＪ個の第２特徴を基にして、各関節の座標を算出する。各関節の座標を算出する処理は、左右反転検知で説明した各関節の座標を算出する処理と同様である。

検知部１５３は、フレーム番号ｎ－２の各関節の座標と、フレーム番号ｎ－１の各関節の座標とを基にして、フレーム番号ｎの各関節の座標を示す予測骨格情報を算出する。たとえば、検知部１５３は、式（４）を基にして、フレーム番号ｎの各関節の座標を示す予測骨格情報を算出する。式（４）において、ｐ_ｎは、予測されるフレーム番号ｎの各関節の座標を示す。ｐ_ｎ－１は、フレーム番号ｎ－１の各関節の座標を示す。ｐ_ｎ－２は、フレーム番号ｎ－２の各関節の座標を示す。

図１０は、セルフオクルージョン検知を説明するための図である。図１１において、モデルＭ２－１は、式（４）によって予測された、フレーム番号ｎの各関節の座標を示す予測骨格情報に対応する。図１０では、説明の便宜上、一部の関節の図示を省略する。

検知部１５３は、モデルＭ２－１（予測骨格情報）に含まれる所定の関節を基にして、ボックスを作成する。たとえば、図２２で説明した関節を用いて説明すると、所定の関節を、ノード４，７，１４，１０とすると、ボックスは、ボックスＢ１０となる。検知部１５３は、ボックスＢ１０の大きさにマージンを持たせもよい。

検知部１５３は、ボックスＢ１０を構成する関節とは異なる他の関節の座標と、ボックスＢ１０との比較を行い、他の関節の座標が、ボックスＢ１０の領域に含まれる場合には、ボックスＢ１０の領域に含まれる他の関節を異常関節として検知する。たとえば、他の関節を、ノード５（ELBOW_LEFT），８（ELBOW_RIGHT），６（WRIST_LEFT），９（WRIST_RIGHT），１１（KNEE_LEFT），１５（KNEE_RIGHT），１２（ANKLE_LEFT），１６（ANKLE_RIGHT）とする。

図１０に示す例では、ボックスＢ１０に、ノード１５に相当する関節「KNEE_RIGHT」が含まれている。このため、検知部１５３は、関節（ノード１５：KNEE_RIGHT）を異常関節として検知する。なお、モデルＭ２－１の予測に用いた、フレーム番号ｎ－２の各関節の座標と、フレーム番号ｎ－１の各関節の座標とが、カメラ３０ａの撮影した画像フレームに基づく第２特徴群情報であるとする。この場合、検知部１５３は、「カメラ識別情報：Ｃ３０ａ、フレーム番号：ｎ、異常関節：KNEE_RIGHT」を含む異常関節情報を生成する。

図１０では、カメラ３０ａが撮影した画像フレームに基づいて生成されたフレーム番号ｎ－２の第２特徴群情報と、フレーム番号ｎ－１の第２特徴群情報とを用いて異常関節情報を生成する場合について説明したが、他のカメラ３０ｂ，３０ｃ，３０ｄについても同様である。

続いて、検知部１５３が実行する異常heatmap検知について説明する。図１１は、異常heatmapのパターンを説明するための図である。図１１では一例として、パターン「消失」、「ぼけ」、「分裂」、「位置ずれ」について説明する。heatmap４－１，４－２，４－３，４－４は、第２特徴に対応する。

パターン「消失」は、heatmap４－１に示すように、尤度の高い分布が形成されないパターンである。パターン「ぼけ」は、heatmap４－２に示すように、尤度の高い分布が広範囲に広がっているパターンである。パターン「分裂」は、heatmap４－３に示すように、尤度のピークが複数存在するパターンである。パターン「位置ずれ」は、heatmap４－４に示すように、尤度のピークが間違った位置にあるパターンである。

検知部１５３は、第２特徴（heatmap）が、図１１で説明したいずれかのパターンに該当する場合には、かかる第２特徴に対応する関節を、異常関節として検知する。

検知部１５３は、第１の異常heatmap検知処理によって、パターン「消失」、「ぼけ」、「分裂」に対応する第２特徴を検知する。検知部１５３は、第２の異常heatmap検知処理によって、パターン「位置ずれ」を検知する。

検知部１５３が実行する第１の異常heatmap検知処理について説明する。検知部１５３は、フレーム番号ｎの第２特徴群情報に含まれる各第２特徴から、尤度が最大値となる座標を算出する。尤度が最大となる座標を「最大値座標」と表記する。たとえば、図６で説明したように、各カメラ識別情報には、J個の第２特徴が含まれているため、カメラが４つで、関節数が「２１」であれば、８４個の第２特徴から、８４個の最大値座標が算出される。以下の説明では、カメラ３０ａ～３０ｄに対応する第２特徴群情報（複数の第２特徴＜heatmap＞）をまとめて「HM_input」と表記する。

検知部１５３は、HM_inputの各最大値座標を基準にして、２Ｄ特徴抽出ＮＮ１４２Ａ、チャネル数変換ＮＮ１４２Ｂの訓練時と同形状の第２特徴を、「HM_input」に含まれる第２特徴分だけ作成する。作成した複数の第２特徴を「HM_eval」と表記する。

図１２は、第１の異常heatmap検知処理について説明するための図（１）である。図１２では、HM_inputから、HM_evalを生成する場合を示している。2DGaussianに従う場合、検知部１５３は、訓練データの尤度の値を基にして、標準偏差を算出し、平均値を、最大値座標する。たとえば、検知部１５３は、HM_inputの第２特徴ＨＭ１－１から、HM_evalの第２特徴ＨＭ２－１を生成する場合には、次の計算を行う。検知部１５３は、２Ｄ特徴抽出ＮＮ１４２Ａ、チャネル数変換ＮＮ１４２Ｂの訓練時に用いたheatmapの尤度の値に基づく標準偏差と、第２特徴ＨＭ１－１の最大値座標を平均値とするガウス分布に従って、HM_evalの第２特徴ＨＭ２－１を生成する。

検知部１５３は、HM_inputと、HM_evalとの対応する第２特徴毎に差分を算出し、差分が閾値以上となる第２特徴に対応する関節を、異常関節として検知する。検知部１５３は、差分として、式（５）に示す平均二乗誤差（ＭＳＥ）、または、式（６）に示す平均絶対誤差（ＭＡＥ）等を算出する。式（５）に示す「x_i ^input」は、HM_inputの第２特徴の画素値（尤度）である。式（５）に示す「x_i ^eval」は、HM_evalの第２特徴の画素値（尤度）である。

たとえば、検知部１５３は、図１２に示した第２特徴ＨＭ１－１の各画素値と、第２特徴ＨＭ２－１の各画素値とを基にして、差分を算出し、差分が閾値以上である場合に、第２特徴ＨＭ１－１に対応する関節の異常を検知する。ここで、第２特徴ＨＭ１－１が、カメラ３０ａに対応する第２特徴群情報に含まれるフレーム番号ｎの第２特徴であって、関節「HAND_TIP_RIGHT」に対応する第２特徴である場合には、「カメラ識別情報：Ｃ３０ａ、フレーム番号：ｎ、異常関節：HAND_TIP_RIGHT」を含む異常関節情報を生成する。

なお、検知部１５３は、ネットワークによる自動重み調整を行って、異常な第２特徴の影響度を下げるようにしてもよい。図１３は、ネットワークの自動重み調整の一例を説明するための図である。図１３に示すＤＮＮ（Deep Neural Network）１４２Ｃは、２Ｄ畳み込み層、ＲｅＬＵ層、ＭａｘＰｏｏｌｉｎｇ層、全結合層から構成されるネットワークである。ＤＮＮ１４２Ｃは、全体モデルと別途訓練するのではなく、組み込みself-learning方式で全体モデルと同時に学習するものとする。

たとえば、ＤＮＮ１４２Ｃに、ｊ個の第２特徴を含むHM_inputとＤＮＮ１４２Ｃに入力することで、各第２特徴に対応する重みｗ_１，ｗ_２，・・・ｗ_ｊを出力する。たとえば、検知部１５３は、各重みｗ_１，ｗ_２，・・・ｗ_ｊを、異常関節情報として生成する。重みｗ_１の重みが小さい場合（閾値未満の場合）には、重みｗ_１に対応する第２特徴の関節が異常であるといえる。

続いて、検知部１５３が実行する第２の異常heatmap検知処理について説明する。検知部１５３は、多視点幾何の整合性を基にして、異常となる関節を検知する。たとえば、検知部１５３は、以下の処理を実行する。

検知部１５３は、フレーム番号ｎの第２特徴群情報に含まれるＪ個の第２特徴から、最大値座標を算出する。最大値座標は、尤度が最大となる座標である。検知部１５３は、視点ｖの第２特徴群情報に含まれる第２特徴について、次の処理を実行する。視点ｖは、１つのカメラ３０の中心座標に対応する。

図１４は、第２の異常heatmap検知処理について説明する図（１）である。第２特徴ＨＭ３－１を、注目する視点ｖの第２特徴とする。第２特徴ＨＭ３－２を、他の視点ｖ´の第２特徴とする。第２特徴ＨＭ３－３を、他の視点ｖ´´の第２特徴とする。検知部１５３は、第２特徴ＨＭ３－１の最大値座標と、第２特徴ＨＭ３－２の最大値座標とを基にして、エピポーラ線ｌ_ｖ，ｖ´を算出する。検知部１５３は、第２特徴ＨＭ３－１の最大値座標と、第２特徴ＨＭ３－３の最大値座標とを基にして、エピポーラ線ｌ_{ｖ，ｖ´´}を算出する。

検知部１５３は、エピポーラ線ｌ_ｖ，ｖ´とエピポーラ線ｌ_{ｖ，ｖ´´}との交点を算出する。検知部１５３は、注目する視点ｖの第２特徴ＨＭ３－１の最大値座標と、交点とのユークリッド距離ｄを算出する。検知部１５３は、視点毎に上記処理を繰り返し実行し、ユークリッド距離ｄが閾値ｄ_ｔｈ以下となる視点の組み合わせを抽出する。

図１５は、第２の異常heatmap検知処理について説明する図（２）である。図１５では、注目する視点（カメラ）と、視点組み合わせとを対応付ける。注目する視点は、図１４の注目する視点に対応する。視点組み合わせは、注目視点の最大値座標と交点とのユーグリッド距離ｄが閾値ｄ_ｔｈ以下となった交点を生成した視点の組み合わせを示す。

図１５では、説明の便宜上、カメラ３０ａの中心座標に対応する視点をｖ３０ａとする。カメラ３０ｂの中心座標に対応する視点をｖ３０ｂとする。カメラ３０ｃの中心座標に対応する視点をｖ３０ｃとする。カメラ３０ｂの中心座標に対応する視点をｖ３０ｄとする。

図１５の１行目では、注目視点ｖ３０ａの最大値座標と、第１、第２のエピポーラ線の交点とのユークリッド距離ｄが閾値ｄ_ｔｈ以下であることが示される。第１のエピポーラ線は、注目視点ｖ３０ａと視点ｖ３０ｃとのエピポーラ線である。第２のエピポーラ線は、注目視点ｖ３０ａと視点ｖ３０ｄとのエピポーラ線である。

図１５の２行目では、注目視点ｖ３０ｂの最大値座標とのユークリッド距離ｄが閾値以下となる、エピポーラ線の交点が存在しないことが示される。

図１５の３行目では、注目視点ｖ３０ｃの最大値座標と、第３、第４のエピポーラ線の交点とのユークリッド距離ｄが閾値ｄ_ｔｈ以下であることが示される。第３のエピポーラ線は、注目視点ｖ３０ｃと視点ｖ３０ａとのエピポーラ線である。第４のエピポーラ線は、注目視点ｖ３０ｃと視点ｖ３０ａとのエピポーラ線である。

図１５の４行目では、注目視点ｖ３０ｄの最大値座標と、第５、第６のエピポーラ線の交点とのユークリッド距離ｄが閾値ｄ_ｔｈ以下であることが示される。第５のエピポーラ線は、注目視点ｖ３０ｄと視点ｖ３０ａとのエピポーラ線である。第６のエピポーラ線は、注目視点ｖ３０ｄと視点ｖ３０ｃとのエピポーラ線である。

検知部１５３は、最も多く組み合わせに含まれる視点と、組み合わせを持たない注目視点に対応する第２特徴に対応する関節を、異常関節として検知する。

図１５に示した例では、最も多く組み合わせに含まれる視点は、視点ｖ３０ａである。また、この視点ｖ３０ａと組み合わせを持たない視点は、視点ｖ３０ｂである。このため、検知部１５３は、視点ｖ３０ｂに対応する第２特徴の関節を異常関節として、検知する。たとえば、視点ｖ３０ｂに対応する第２特徴に対応する関節が「HAND_TIP_RIGHT」であり、フレーム番号ｎに対応するものとする。この場合、検知部１５３は、「カメラ識別情報：Ｃ３０ｂ、フレーム番号：ｎ、異常関節：HAND_TIP_RIGHT」を含む異常関節情報を生成する。

ここで、エピポーラ線の算出の一例について説明する。検知部１５３は、視点ｖ，ｖ´のカメラ中心座標Ｃ_ｖ，Ｃ_ｖ、透視投影行列Ｐ_ｖ，Ｐ_ｖ´，視点ｖ´の最大値座標をｐ_ｖ´とする場合、視点ｖにおけるｐ_ｊ，ｖ´のエピポーラ線ｌ_ｖ，ｖ´を式（７）で算出する。式（７）において、［・］_×は、歪非対称行列を示す。Ｐ_ｖ´ ^＋は、Ｐ_ｖの疑似逆行列（Ｐ_ｖ´ ^Ｔ（Ｐ_ｖ´Ｐ_ｖ´ ^Ｔ）^－１）を表す。

エピポーラ線の交点について説明する。視点ｖにおける視点ｖ´、ｖ´´の最大値座標から引いたエピポーラ線ｌ_ｖ，ｖ´，ｌ_{ｖ，ｖ´´}の交点ｑ_{ｖ，ｖ´，ｖ´´}を導出するものする。検知部１５３は、２直線の交点の導出と同様にして、ｌ_ｖ，ｖ´＝（ａ_ｖ´，ｂ_ｖ´，－ｃ_ｖ´）、ｌ_{ｖ，ｖ´´}＝（ａ_ｖ´´，ｂ_ｖ´´，－ｃ_ｖ´´）とする場合、式（８）に基づいて算出する。式（８）のＡ^－１は、式（９）によって示される。式（８）のＣは、式（１０）によって示される。

検知部１５３は、最大座標ｐ_ｊ，ｖとエピポーラ線の交点ｑ_{ｖ，ｖ´，ｖ´´}との距離ｄを、式（１１）を基にして算出する。

上記のように、検知部１５３は、左右反転検知、セルフオクルージョン検知、異常heatmap検知を実行し、異常関節情報を生成する。検知部１５３は、上記のように、異常関節情報には、カメラ識別情報、フレーム番号、異常関節が含まれる。検知部１５３は、異常関節情報を、骨格認識部１５４に出力する。

図４の説明に戻る。骨格認識部１５４は、特徴テーブル１４２から、各カメラ識別情報の第２特徴群情報を取得し、取得した第２特徴群情報に含まれる第２特徴から、異常関節情報に対応する第２特徴を除去する。骨格認識部１５４は、異常関節情報に対応する第２特徴を除去した残りの複数の第２特徴を統合した結果を基にして、３Ｄ骨格を認識する。骨格認識部１５４は、フレーム番号毎に、上記処理を繰り返し実行し、３Ｄ骨格の認識結果を、技認識部１５５に出力する。

ここで、骨格認識部１５４の処理の具体例を示す。骨格認識部１５４は、各カメラに対応する第２特徴群情報（Ｊ個の第２特徴）を、カメラパラメータに従って、3Dcubeに逆投影することで、aggregated volumesを算出する。ここでは、第２特徴群情報のフレーム番号をｎとするが、他のフレーム番号に対応する第２特徴群情報に関する処理も同様である。

たとえば、骨格認識部１５４は、カメラ３０ａのカメラパラメータに基づいて、カメラ識別情報「Ｃ３０ａ」に対応する第２特徴群情報を、3Dcubeに逆投影することで、第１のaggregated volumeを算出する。骨格認識部１５４は、カメラ３０ｂのカメラパラメータに基づいて、カメラ識別情報「Ｃ３０ｂ」に対応する第２特徴群情報を、3Dcubeに逆投影することで、第２のaggregated volumeを算出する。

骨格認識部１５４は、カメラ３０ｃのカメラパラメータに基づいて、カメラ識別情報「Ｃ３０ｃ」に対応する第２特徴群情報を、3Dcubeに逆投影することで、第３のaggregated volumeを算出する。骨格認識部１５４は、カメラ３０ｄのカメラパラメータに基づいて、カメラ識別情報「Ｃ３０ｄ」に対応する第２特徴群情報を、3Dcubeに逆投影することで、第４のaggregated volumeを算出する。

骨格認識部１５４は、異常関節情報に対応する第２特徴を、3Dcubeに逆投影した異常点を特定し、第１、第２、第３、第４のaggregated volume（volumes）から、異常点を除去するためのフィルタリングを実行する。

たとえば、骨格認識部１５４は、異常関節情報に含まれるカメラ識別情報（異常とみなすカメラｃ）と、異常関節ｋと、式（１２）とを用いて、フィルタリングを実行する。式（１２）に含まれるｃは、softmax時の影響を無効化する無効値である。

骨格認識部１５４は、異常点を除去した（フィルタリングした）第１、第２、第３、第４のaggregated volume（volumes）を統合することで、Ｖ２Ｖ（ニューラルネットワーク）の入力情報を算出する。

骨格認識部１５４は、統合処理を式（１３）もしくは式（１４）と式（１５）に基づいて実行し、入力情報V^inputを計算する。式（１３）、（１４）、（１５）に基づいて、統合処理を行う場合には、３Ｄ骨格の精度を担保するために、対向するカメラのみが残らない制約を設けてもよい。

骨格認識部１５４は、入力情報を、Ｖ２Ｖに入力することで、各関節の３Ｄの位置座標を示すprocessed volumesを算出する。骨格認識部１５４は、processed volumesに対して、soft-argmaxを実行することで、３Ｄ骨格の認識結果を生成する。３Ｄ骨格の認識結果には、Ｊ個の関節の３Ｄ座標が含まれる。骨格認識部１５４は、３Ｄ骨格の認識結果となる骨格認識結果データを、技認識部１５５に出力する。また、骨格認識部１５４は、骨格認識結果データを、記憶部１４０に保存する。

技認識部１５５は、フレーム番号の順に骨格認識結果データを、骨格認識部１５４から取得し、連続する骨格認識結果データを基にして、各関節座標の時系列変化を特定する。技認識部１５５は、各関節位置の時系列変化と、技認識テーブル１４５とを比較して、技の種別を特定する。また、技認識部１５５は、技の種別の組み合わせと、技認識テーブル１４３とを比較して、被写体Ｈ１の演技のスコアを算出する。

技認識部１５５は、演技のスコアと、演技の開始から終了までの骨格認識結果データとを基にして、画面情報を生成する。技認識部１５５は、生成した画面情報を、表示部１３０に出力して表示させる。

図１６は、画面情報の一例を示す図である。図１６に示すように、この画面情報６０には、領域６０ａ，６０ｂ，６０ｃが含まれる。領域６０ａは、被写体Ｈ１が行った演技において、認識された技の種別を表示する領域である。技の種別に加えて、技の難度も表示してもよい。領域６０ｂは、演技のスコアを表示する領域である。領域６０ａは、演技の開始から終了までの骨格認識結果データに基づく３次元モデルをアニメーション表示する領域である。利用者は、入力部１２０を操作して、アニメーションの再生、停止等を指示する。

次に、本実施例に係る骨格認識装置１００の処理手順の一例について説明する。図１７は、本実施例に係る骨格認識装置の処理手順を示すフローチャートである。骨格認識装置１００の取得部１５１は、複数のカメラ３０から画像フレーム（多視点画像）を取得する（ステップＳ１０１）。

骨格認識装置１００の生成部１５２は、第２特徴生成処理を実行する（ステップＳ１０２）。骨格認識装置１００の検知部１５３は、異常検知処理を実行する（ステップＳ１０３）。

骨格認識装置１００の骨格認識部１５４は、異常関節のフィルタリングを実行する（ステップＳ１０４）。骨格認識部１５４は、統合処理を実行して、入力情報を生成する（ステップＳ１０５）。骨格認識部１５４は、入力情報をＶ２Ｖに入力して、processed volumesを算出する（ステップＳ１０６）。

骨格認識部１５４は、processed volumesに対して、soft-argmaxを実行することで、３Ｄ骨格の認識結果を生成する（ステップＳ１０７）。骨格認識部１５４は、骨格認識結果データを、技認識部１５５に出力する（ステップＳ１０８）。

骨格認識部１５４は、最終フレームである場合には（ステップＳ１０９，Ｙｅｓ）、処理を終了する。一方、骨格認識部１５４は、最終フレームでない場合には（ステップＳ１０９，Ｎｏ）、骨格認識結果データを記憶部１４０に保存し（ステップＳ１１０）、ステップＳ１０１に移行する。

次に、図１７のステップＳ１０２で説明した第２特徴生成処理の一例について説明する。図１８は、第２特徴生成処理のフローチャートである。図１８に示すように、骨格認識装置１００の生成部１５２は、画像フレームを、２Ｄ特徴抽出ＮＮ１４２Ａに入力することで、Ｋ個の第１特徴を算出する（ステップＳ２０１）。

生成部１５２は、Ｋ個の第１特徴を、チャネル数変換ＮＮ１４２Ｂに入力することで、Ｊ個の第２特徴を生成する（ステップＳ２０２）。生成部１５２は、第２特徴の情報を出力する（ステップＳ２０３）。

次に、図１７のステップＳ１０３で説明した異常検知処理の一例について説明する。図１９は、異常検知処理のフローチャートである。図１９に示すように、骨格認識装置１００の検知部１５３は、第２特徴を取得する（ステップＳ３０１）。検知部１５３は、左右反転検知を実行する（ステップＳ３０２）。

検知部１５３は、オクルージョン検知を実行する（ステップＳ３０３）。検知部１５３は、異常heatmap検知を実行する（ステップＳ３０４）。検知部１５３は、異常関節の検知結果を基にして、異常関節情報を生成する（ステップＳ３０５）。検知部１５３は、異常関節情報を出力する（ステップＳ３０６）。

次に、本実施例に係る骨格認識装置１００の効果について説明する。骨格認識装置１００は、カメラ３０から入力される画像フレームを基にして抽出した、被写体Ｈ１の２次元の関節位置の特徴を表すＫ個の第１特徴を、被写体のＪ個の関節にそれぞれ対応したＪ個の第２特徴（第２特徴群情報）を生成する。骨格認識装置１００は、第２特徴群情報から、異常のある関節に対応した第２特徴を検知し、第２特徴群情報から、異常のある第２特徴を除去した残りの複数の第２特徴を統合した結果を基にして、３Ｄ骨格を認識する。これによって、異常のある２Ｄ特徴を事前に除去することができ、正しく３Ｄ骨格認識を実行することができる。

骨格認識装置１００は、前回（フレーム番号ｎ－１）の第２特徴群情報を基に生成されるベクトルと、今回（フレーム番号ｎ）の第２特徴群情報を基に生成されるベクトルとを基にして、異常のある第２特徴を検知する。これによって、左右反転した異常な関節を検知することができる。

骨格認識装置１００は、第２特徴群情報を基にして、所定の関節から特定されるＢｏｘと、所定の関節以外の関節の位置との関係を基にして、異常のある第２特徴を検知する。これによって、オクルージョンに影響を受けた異常な関節を検知することができる。

骨格認識装置１００は、heatmap（第２特徴）と、予め特定される理想的な尤度の分布情報との差分を基にして、異常のある第２特徴を検知する。また、骨格認識装置１００は、heatmapを基にして、カメラ位置を視点とする複数のエピポーラ線を算出し、エピポーラ線の交点と、関節の位置との距離を基にして、異常のある第２特徴を検知する。これによって、パターン「消失」、「ぼけ」、「分裂」、「位置ずれ」の発生した第２特徴を検知して除去することが出来る。

図２０は、本実施例に係る骨格認識装置の効果を説明するための図である。図２０では、従来技術の３Ｄ骨格認識結果Ｉｍ２－１ｃ，Ｉｍ２－２ｃ，Ｉｍ２－３ｃ，Ｉｍ２－４ｃと、骨格認識装置１００による３Ｄ骨格認識結果Ｉｍ２－１ｄ，Ｉｍ２－２ｄ，Ｉｍ２－３ｄ，Ｉｍ２－４ｄを示す。骨格認識装置１００によれば、左右反転検知、セルフオクルージョン検知、異常heatmap検知により、誤った関節に対応する第２特徴を取り除くことで、３Ｄ骨格の精度を改善している。たとえば、従来技術の３Ｄ骨格認識結果Ｉｍ２－１ｃ～Ｉｍ２－４ｃは、被写体と３Ｄ骨格とが乖離しているが、本実施例の３Ｄ骨格認識結果Ｉｍ２－１ｄ～Ｉｍ２－４ｄは、被写体の３Ｄ骨格を適切に特定している。

次に、上記実施例に示した骨格認識装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２１は、骨格認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２１に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、カメラ３０から距離画像のデータを受信する通信装置２０４と、各種の装置と接続するインタフェース装置２０５とを有する。コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

ハードディスク装置２０７は、取得プログラム２０７ａ、生成プログラム２０７ｂ、検知プログラム２０７ｃ、骨格認識プログラム２０７ｄ、技認識プログラム２０７ｅを有する。ＣＰＵ２０１は、取得プログラム２０７ａ、生成プログラム２０７ｂ、検知プログラム２０７ｃ、骨格認識プログラム２０７ｄ、技認識プログラム２０７ｅを読み出してＲＡＭ２０６に展開する。

取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。生成プログラム２０７ｂは、生成プロセス２０６ｂとして機能する。検知プログラム２０７ｃは、検知プロセス２０６ｃとして機能する。骨格認識プログラム２０７ｄは、骨格認識プロセス２０６ｄとして機能する。技認識プログラム２０７ｅは、技認識プロセス２０６ｅとして機能する。

取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。生成プロセス２０６ｂの処理は、生成部１５２の処理に対応する。検知プロセス２０６ｃの処理は、検知部１５３の処理に対応する。骨格認識プロセス２０６ｄの処理は、骨格認識部１５４の処理に対応する。技認識プロセス２０６ｅの処理は、技認識部１５５の処理に対応する。

なお、各プログラム２０７ａ～２０７ｆについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくてもよい。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム２０７ａ～２０７ｅを読み出して実行するようにしてもよい。

３５体操採点支援システム
３０ａ，３０ｂ，３０ｃ，３０ｄカメラ
１００骨格認識装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１測定テーブル
１４２特徴テーブル
１４３技認識テーブル
１５０制御部
１５１取得部
１５２生成部
１５３検知部
１５４骨格認識部
１５５技認識部

Claims

コンピュータが実行する骨格認識方法であって、
被写体を撮影する複数のカメラから入力される２次元の入力画像を基にして、前記被写体の２次元の関節位置の特徴を示す複数の第１特徴を抽出し、
前記複数の第１特徴を基にして、前記被写体の所定数の関節にそれぞれ対応させた複数の第２特徴であって、座標と前記座標に所定の関節が存在する尤度とを対応付けたheatmap情報を示す前記第２特徴を含む第２特徴群情報を生成し、
前記heatmap情報と、予め特定される理想的な尤度の分布情報との差分を基にして、前記第２特徴群情報から、異常のある第２特徴を検知し、
前記第２特徴群情報から、前記異常のある第２特徴を除去した残りの複数の第２特徴を統合した結果を基にして、３Ｄ骨格を認識する
処理を実行することを特徴とする骨格認識方法。
前記生成する処理は、時系列に複数の第２特徴群情報を生成し、
前記検知する処理は、前回の第２特徴群情報を基に特定される所定の関節の組を始点および終点とする第１ベクトルと、今回の第２特徴群情報を基に特定される所定の関節の組を始点および終点とする第２ベクトルとを基にして、異常のある第２特徴を検知することを特徴とする請求項１に記載の骨格認識方法。
前記検知する処理は、前記第２特徴群情報を基にして、所定の関節から特定される領域と、前記所定の関節以外の関節の位置との関係を基にして、異常のある第２特徴を検知することを特徴とする請求項２に記載の骨格認識方法。
前記検知する処理は、前記heatmap情報を基にして、カメラ位置を視点とする複数のエピポーラ線を算出し、前記エピポーラ線の交点と、関節の位置との距離を基にして、異常のある第２特徴を検知することを特徴とする請求項３に記載の骨格認識方法。
コンピュータに、
被写体を撮影する複数のカメラから入力される２次元の入力画像を基にして、前記被写体の２次元の関節位置の特徴を示す複数の第１特徴を抽出し、
前記複数の第１特徴を基にして、前記被写体の所定数の関節にそれぞれ対応させた複数の第２特徴であって、座標と前記座標に所定の関節が存在する尤度とを対応付けたheatmap情報を示す前記第２特徴を含む第２特徴群情報を生成し、
前記heatmap情報と、予め特定される理想的な尤度の分布情報との差分を基にして、前記第２特徴群情報から、異常のある第２特徴を検知し、
前記第２特徴群情報から、前記異常のある第２特徴を除去した残りの複数の第２特徴を統合した結果を基にして、３Ｄ骨格を認識する
処理を実行させることを特徴とする骨格認識プログラム。
被写体を撮影する複数のカメラと、骨格認識装置とを有する体操採点支援システムであって、
前記骨格認識装置は、
前記複数のカメラから入力される２次元の入力画像を取得する取得部と、
前記入力画像を基にして、前記被写体の２次元の関節位置の特徴を示す複数の第１特徴を抽出し、前記複数の第１特徴を基にして、前記被写体の所定数の関節にそれぞれ対応させた複数の第２特徴であって、座標と前記座標に所定の関節が存在する尤度とを対応付けたheatmap情報を示す前記第２特徴を含む第２特徴群情報を生成する生成部と、
前記heatmap情報と、予め特定される理想的な尤度の分布情報との差分を基にして、前記第２特徴群情報から、異常のある第２特徴を検知する検知部と、
前記第２特徴群情報から、前記異常のある第２特徴を除去した残りの複数の第２特徴を合成した結果を基にして、３Ｄ骨格を認識する骨格認識部と
を有することを特徴とする体操採点支援システム。