WO2024190673A1

WO2024190673A1 - 情報処理方法、情報処理装置、及び情報処理プログラム

Info

Publication number: WO2024190673A1
Application number: PCT/JP2024/009065
Authority: WO
Inventors: 成悟榎本; 正真遠間; 善彦松川; 成孝阿部
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2023-03-16
Filing date: 2024-03-08
Publication date: 2024-09-19

Abstract

サーバは、作業現場において撮影された動画像及び作業現場において収集された第１音声を、作業現場にいる作業者が用いる作業端末から受信し、作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、動画像及び第１音声のメモリへの記録を開始する。

Description

情報処理方法、情報処理装置、及び情報処理プログラム

　本開示は、作業現場において撮影された動画像及び作業現場において収集された音声をサーバに記録する技術に関する。

　例えば、特許文献１では、仲介端末装置が、仲介端末装置を通る画像信号及び音声信号からなる支援要求情報及び音声信号からなる支援情報を自動的に記録することが開示されている。

　また、例えば、特許文献２には、入出力手段、又は／及び、通信手段からのデータを取得するデータ取得手段と、クライアント端末が機能するために必要なアプリケーションを要求するアプリケーション要求手段と、サーバから受信したアプリケーションを記憶するアプリ記憶手段と、クライアント端末の操作が終了した時点でデータ取得手段により取得したデータ、又は／及び、アプリ記憶手段に記憶したアプリケーションを消去するセキュリティ手段と、を備えたクライアント端末が開示されている。

　しかしながら、上記従来の技術では、作業現場において撮影された全ての動画像及び作業現場において収集された全ての音声がサーバのメモリに記録された場合、メモリに記録するデータ量が増えるおそれがあり、更なる改善が必要とされていた。

特開２００１－３４４３５５号公報特開２０１５－１１８７１４号公報

　本開示は、上記の問題を解決するためになされたもので、メモリに記録するデータ量を削減することができるとともに、作業者の負担を軽減することができる技術を提供することを目的とするものである。

　本開示に係る情報処理方法は、コンピュータにより実行される情報処理方法であって、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信することと、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始することと、を含む。

　本開示によれば、メモリに記録するデータ量を削減することができるとともに、作業者の負担を軽減することができる。

本実施の形態１に係る作業支援システムの構成を示す図である。本開示の実施の形態１における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態１におけるサーバによる作業支援処理について説明するためのフローチャートである。本開示の実施の形態１における支援端末による作業支援処理について説明するためのフローチャートである。本実施の形態１において、支援端末の表示部に表示される画面の一例を示す図である。本実施の形態２に係る作業支援システムの構成を示す図である。本開示の実施の形態２における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態２におけるサーバによる作業支援処理について説明するためのフローチャートである。本開示の実施の形態２における支援端末による作業支援処理について説明するためのフローチャートである。本実施の形態３に係る作業支援システムの構成を示す図である。本開示の実施の形態３における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態３におけるサーバによる作業支援処理について説明するためのフローチャートである。本開示の実施の形態３における支援端末による作業支援処理について説明するためのフローチャートである。本実施の形態４に係る作業支援システムの構成を示す図である。本開示の実施の形態４におけるサーバによる作業支援処理について説明するためのフローチャートである。本実施の形態５に係る作業支援システムの構成を示す図である。本開示の実施の形態５におけるサーバによる作業支援処理について説明するためのフローチャートである。本実施の形態６に係る作業支援システムの構成を示す図である。本開示の実施の形態６における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態６におけるサーバによる作業支援処理について説明するためのフローチャートである。本実施の形態７に係る作業支援システムの構成を示す図である。本開示の実施の形態７におけるサーバによる作業支援処理について説明するためのフローチャートである。本実施の形態８に係る作業支援システムの構成を示す図である。本開示の実施の形態８における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態８におけるサーバによる作業支援処理について説明するためのフローチャートである。本開示の実施の形態８における支援端末による作業支援処理について説明するためのフローチャートである。本実施の形態８において、支援端末の表示部に表示される画面の一例を示す図である。本実施の形態８において、作業端末の表示部に表示される画面の一例を示す図である。本実施の形態９に係る作業支援システムの構成を示す図である。本開示の実施の形態９における作業端末による作業支援処理について説明するためのフローチャートである。本開示の実施の形態９におけるサーバによる作業支援処理について説明するためのフローチャートである。本実施の形態１０に係る作業支援システムの構成を示す図である。本開示の実施の形態１０におけるサーバによる作業支援処理について説明するためのフローチャートである。実施の形態１～１０において、支援端末の表示部に表示される画面の一例を示す図である。

　（本開示の基礎となった知見）
　製造業又は建築業などでは、作業現場で作業する作業者と、作業者を支援する支援者とがいる。作業者は、作業に支援が必要な場合、支援者に作業の支援を依頼するが、支援者は、作業現場にいる場合と、作業現場とは異なる遠隔地にいる場合とがある。そして、作業者が支援者により支援を受けている際の動画像及び音声がサーバのメモリに記録されることにより、作業者は記録された動画像及び音声を後から見ることができる。

　上記の特許文献１では、仲介端末装置が、仲介端末装置を通る画像信号及び音声信号からなる支援要求情報及び音声信号からなる支援情報を自動的に記録している。

　しかしながら、作業現場において撮影された全ての動画像及び作業現場において収集された全ての音声がサーバのメモリに記録された場合、メモリに記録するデータ量が増えるおそれがある。この場合、メモリの記録容量を増やす必要があり、コストがかかる。また、必要なデータのみを記録することを目的として、作業者が、作業中に記録開始の操作を行う場合、作業者の負担が大きくなり、作業に支障をきたすおそれがある。

　また、上記の特許文献２では、クライアント端末の操作が終了した時点で取得したデータ、又は／及び、アプリケーションが消去される。そのため、作業者が支援者により支援を受けている際の動画像及び音声がメモリに記録されないので、作業者は記録された動画像及び音声を後から見ることができなかった。

　以上の課題を解決するために、下記の技術が開示される。

　（１）本開示の一態様に係る情報処理方法は、コンピュータにより実行される情報処理方法であって、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信することと、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始することと、を含む。

　この構成によれば、支援者による記録開始の操作をトリガーとして、作業現場にいる作業者が用いる作業端末から受信された動画像及び第１音声のメモリへの記録が開始される。したがって、支援者が必要であると判断した動画像及び第１音声のみがメモリに記録されるので、メモリに記録するデータ量を削減することができる。また、支援者による記録開始の操作が行われると動画像及び第１音声のメモリへの記録が開始されるので、作業者は作業中に記録開始の操作を行う必要がなく、作業者の負担を軽減することができる。

　（２）上記（１）記載の情報処理方法において、さらに、遠隔地にいる前記支援者による入力操作に基づき前記記録の開始を指示する記録開始信号を、前記支援者が用いる支援端末から受信することを含み、前記記録の開始は、前記記録開始信号を受信したことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者による入力操作が行われると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者による入力操作に基づき動画像及び第１音声をメモリに記録することができる。

　（３）上記（１）記載の情報処理方法において、さらに、前記作業端末の現在の位置を示す位置情報を前記作業端末から受信することを含み、前記記録の開始は、前記位置情報で示される前記作業端末の前記位置が、前記作業現場における所定の領域内に入ったことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、作業現場における所定の領域内に作業端末が入ると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場における所定の領域が指定されることによって、動画像及び第１音声をメモリに記録することができる。

　（４）上記（３）記載の情報処理方法において、さらに、遠隔地にいる前記支援者によって指定された前記作業現場における所定の領域を示す領域指定情報を、前記支援者が用いる支援端末から受信することを含み、前記記録の開始は、前記位置情報で示される前記作業端末の前記位置が、前記領域指定情報で示される前記所定の領域内に入ったことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者によって指定された作業現場における所定の領域内に作業端末が入ると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が作業現場における所定の領域を指定することによって、動画像及び第１音声をメモリに記録することができる。

　（５）上記（１）記載の情報処理方法において、さらに、遠隔地にいる前記支援者によって指定された前記作業現場における作業対象から発信される無線信号に含まれる識別情報を、前記支援者が用いる支援端末から受信することと、さらに、前記作業端末によって受信された前記無線信号に含まれる前記識別情報及び前記作業端末によって測定された前記無線信号の電波強度を含む信号情報を前記作業端末から受信することと、を含み、前記記録の開始は、前記支援端末から受信した前記識別情報を含む、前記作業端末から受信した前記無線信号の前記電波強度が閾値以上であることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者によって指定された作業現場における作業対象に作業端末が近づくと、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が作業現場における作業対象の識別情報を指定することによって、動画像及び第１音声をメモリに記録することができる。

　（６）上記（１）記載の情報処理方法において、さらに、遠隔地にいる前記支援者が用いる支援端末の周囲の第２音声を前記支援端末から受信することを含み、前記記録の開始は、予め記憶されている所定のキーワードが前記第２音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリに記録することができる。

　（７）上記（６）記載の情報処理方法において、前記記録の開始は、前記第２音声における前記支援者が発話した発話区間を検出し、検出した前記発話区間内において予め記憶されている前記所定のキーワードが前記第２音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、第２音声における支援者が発話した発話区間が検出され、検出された発話区間内において予め記憶されている所定のキーワードが第２音声に含まれていると、動画像及び第１音声のメモリへの記録が開始される。したがって、第２音声に雑音が含まれている場合であっても、所定のキーワードが第２音声に含まれることを高い精度で判定することができる。

　（８）上記（１）記載の情報処理方法において、前記記録の開始は、受信された前記動画像から、前記作業現場にいる前記支援者の動作を認識し、認識した前記動作が、予め決められている所定の動作であることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、作業現場にいる支援者が、予め決められている所定の動作を行うと、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場にいる支援者が所定の動作を行うことによって、動画像及び第１音声をメモリに記録することができる。

　（９）上記（１）記載の情報処理方法において、前記記録の開始は、予め記憶されている所定のキーワードが、前記作業現場にいる前記支援者の声を含む前記第１音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、作業現場にいる支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場にいる支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリに記録することができる。

　（１０）上記（１）記載の情報処理方法において、さらに、受信した前記動画像及び前記第１音声を、遠隔地にいる前記支援者が用いる支援端末に送信することと、さらに、前記支援端末の表示部によって表示された前記動画像から、前記支援者によって抽出された静止画像を、前記支援端末から受信することと、を含み、前記記録の開始は、前記静止画像を受信したことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者が、支援端末の表示部によって表示された動画像から、作業を支援するために用いる静止画像を抽出すると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が動画像から静止画像を抽出することによって、動画像及び第１音声をメモリに記録することができる。

　（１１）上記（１０）記載の情報処理方法において、さらに、前記支援端末の周囲の第２音声を、前記支援端末から受信することを含み、前記記録の開始は、前記静止画像を受信したことをトリガーとして、前記動画像、前記第１音声、前記第２音声、及び前記静止画像の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、動画像及び第１音声だけでなく、遠隔地にいる支援者の声を含む第２音声及び支援者が動画像から抽出した静止画像もメモリに記録される。したがって、支援者による実際の作業の支援が終わった後であっても、作業者は、メモリに記録された動画像、第１音声、第２音声、及び静止画像を作業の支援に役立てることができる。

　（１２）上記（１）記載の情報処理方法において、さらに、受信した前記動画像及び前記第１音声を、遠隔地にいる前記支援者が用いる支援端末に送信することと、さらに、前記支援端末の表示部によって表示された前記動画像から、前記支援者によって抽出された静止画像を、前記支援端末から受信することと、を含み、前記静止画像の受信は、前記支援端末を用いて前記支援者により入力された指示情報が重畳された前記静止画像を、前記支援端末から受信することを含み、前記記録の開始は、前記静止画像に前記指示情報が重畳されたことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、遠隔地にいる支援者が、支援端末の表示部によって表示された動画像から、作業を支援するために用いる静止画像を抽出し、静止画像に指示情報を重畳すると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が動画像から静止画像を抽出し、静止画像に指示情報を重畳することによって、動画像及び第１音声をメモリに記録することができる。

　（１３）上記（１）記載の情報処理方法において、さらに、前記作業者が前記作業端末を用いる第１モードと、前記支援者が前記作業端末を用いる第２モードとのいずれが選択されたかを示すモード情報を前記作業端末から受信することを含み、前記記録の開始は、受信した前記モード情報が前記第２モードを示すとともに、予め記憶されている所定のキーワードが前記第１音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　この構成によれば、作業現場において作業端末を用いて作業を支援する支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場において作業端末を用いて作業を支援する支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリに記録することができる。

　（１４）上記（１）記載の情報処理方法において、さらに、前記作業者が前記作業端末を用いる第１モードと、前記支援者が前記作業端末を用いる第２モードとのいずれが選択されたかを示すモード情報を前記作業端末から受信することを含み、前記記録の開始は、受信した前記モード情報が前記第２モードを示すとともに、前記動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含んでもよい。

　作業現場において作業端末を用いて作業を支援する支援者が、作業対象を凝視した場合、動画像内の所定の領域に同一の物体が所定の時間以上連続して写ることになる。そのため、支援者が作業現場において作業端末を用いるとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていると、動画像及び第１音声のメモリへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場において作業端末を用いて作業を支援する支援者が作業対象を凝視することによって、動画像及び第１音声をメモリに記録することができる。

　また、本開示は、以上のような特徴的な処理を実行する情報処理方法として実現することができるだけでなく、情報処理方法が実行する特徴的な処理に対応する特徴的な構成を備える情報処理装置などとして実現することもできる。また、このような情報処理方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の情報処理方法と同様の効果を奏することができる。

　（１５）本開示の他の態様に係る情報処理装置は、通信部と、制御部と、メモリと、を備え、前記通信部は、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信し、前記制御部は、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始する。

　（１６）本開示の他の態様に係る情報処理プログラムは、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信し、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始するようにコンピュータを機能させる。

　（１７）本開示の他の態様に係る非一時的なコンピュータ読み取り可能な記録媒体は、情報処理プログラムを記録し、前記情報処理プログラムは、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信し、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始するようにコンピュータを機能させる。

　以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態１）
　図１は、本実施の形態１に係る作業支援システム１０の構成を示す図である。

　図１に示す作業支援システム１０は、作業端末１、サーバ２、及び支援端末３を備える。

　実施の形態１において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　作業端末１は、例えば、作業者の頭部に装着されるウェアラブル装置である。作業者は、作業現場において作業端末１を装着した状態で作業を行う。なお、作業端末１は、例えば、スマートフォン又はタブレット型コンピュータであってもよい。

　作業端末１は、例えば、制御プログラムと、当該制御プログラムを実行するプロセッサ又は論理回路等の処理回路と、当該制御プログラムを記憶する内部メモリ又はアクセス可能な外部メモリ等の記録装置と、を備えるコンピュータシステムを少なくとも備える。なお、作業端末１は、例えば、処理回路によるハード実装によって、又は、処理回路によるメモリに保持される、若しくは、外部サーバから配信されるソフトウェアプログラムの実行によって、又は、これらハード実装とソフト実装との組み合わせによって実現されてもよい。

　作業端末１は、ネットワーク４を介してサーバ２と互いに通信可能に接続されている。ネットワーク４は、例えばインターネットである。

　作業端末１は、通信部１１、制御部１２、メモリ１３、入力部１４、カメラ１５、マイクロホン１６、及びスピーカ１７を備える。

　制御部１２は、作業端末１全体を制御する。制御部１２は、通信部１１、メモリ１３、入力部１４、カメラ１５、マイクロホン１６、及びスピーカ１７の動作を制御する。

　メモリ１３は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、又はフラッシュメモリ等の各種情報を記憶可能な記憶装置である。

　カメラ１５は、作業現場を撮影することにより動画像を取得する。作業端末１が作業者の頭部に装着されるウェアラブル装置である場合、動画像は、作業者の視点から見た動画像である。

　マイクロホン１６は、作業現場における第１音声を収集する。

　通信部１１は、カメラ１５によって撮影された動画像及びマイクロホン１６によって収集された第１音声をサーバ２へ送信する。また、通信部１１は、遠隔地にいる支援者が用いる支援端末３の周囲の第２音声をサーバ２から受信する。

　入力部１４は、作業者による種々の入力操作を受け付ける。入力部１４は、カメラ１５による撮影を開始するとともに、マイクロホン１６による第１音声の収集を開始するための第１開始ボタンを含む。また、入力部１４は、カメラ１５による撮影を終了するとともに、マイクロホン１６による第１音声の収集を終了するための第１終了ボタンを含む。作業者により第１開始ボタンが押下されると、カメラ１５は、撮影を開始するとともに、マイクロホン１６は、第１音声の収集を開始する。また、作業者により第１終了ボタンが押下されると、カメラ１５は、撮影を終了するとともに、マイクロホン１６は、第１音声の収集を終了する。

　また、入力部１４は、動画像及び音声のサーバ２への送信を開始するための第２開始ボタンを含む。また、入力部１４は、動画像及び音声のサーバ２への送信を終了するための第２終了ボタンを含む。作業者により第２開始ボタンが押下されると、通信部１１は、動画像及び第１音声のサーバ２への送信を開始する。また、作業者により第２終了ボタンが押下されると、通信部１１は、動画像及び第１音声のサーバ２への送信を終了する。

　スピーカ１７は、通信部１１によって受信された第２音声を外部に出力する。第２音声には支援者の声が含まれており、作業者は、スピーカ１７から出力される支援者の声を聞きながら、作業を行うことができる。

　サーバ２は、例えば、制御プログラムと、当該制御プログラムを実行するプロセッサ又は論理回路等の処理回路と、当該制御プログラムを記憶する内部メモリ又はアクセス可能な外部メモリ等の記録装置と、を備えるコンピュータシステムを少なくとも備える。なお、サーバ２は、例えば、処理回路によるハード実装によって、又は、処理回路によるメモリに保持される、若しくは、外部サーバから配信されるソフトウェアプログラムの実行によって、又は、これらハード実装とソフト実装との組み合わせによって実現されてもよい。

　サーバ２は、作業端末１及び支援端末３のそれぞれとネットワーク４を介して互いに通信可能に接続されている。

　サーバ２は、通信部２１、制御部２２、及びメモリ２３を備える。サーバ２は、情報処理装置の一例である。

　通信部２１は、作業現場において撮影された動画像及び作業現場において収集された第１音声を、作業現場にいる作業者が用いる作業端末１から受信する。また、通信部２１は、遠隔地にいる支援者が用いる支援端末３の周囲の第２音声を支援端末３から受信する。また、通信部２１は、作業端末１から受信した動画像及び第１音声を支援端末３へ送信する。また、通信部２１は、支援端末３から受信した第２音声を作業端末１へ送信する。

　制御部２２は、サーバ２全体を制御する。制御部２２は、通信部２１及びメモリ２３の動作を制御する。制御部２２は、作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、通信部２１によって受信された動画像及び第１音声のメモリ２３への記録を開始する。また、制御部２２は、支援者による記録終了の操作をトリガーとして、通信部２１によって受信された動画像及び第１音声のメモリ２３への記録を終了する。

　なお、制御部２２は、作業端末１からの動画像及び第１音声だけをメモリ２３に記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３からの第２音声とをメモリ２３に記録してもよい。すなわち、制御部２２は、支援者による記録開始の操作をトリガーとして、通信部２１によって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を開始してもよい。また、制御部２２は、支援者による記録終了の操作をトリガーとして、通信部２１によって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を終了してもよい。

　メモリ２３は、例えば、ＲＡＭ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ、又はフラッシュメモリ等の各種情報を記憶可能な記憶装置である。メモリ２３は、作業端末１からの動画像及び第１音声を非一時的に記録する。

　また、メモリ２３は、作業端末１からの動画像及び第１音声だけを非一時的に記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３からの第２音声とを非一時的に記録してもよい。すなわち、メモリ２３は、通信部２１によって受信された動画像、第１音声、及び第２音声を非一時的に記録してもよい。この場合、メモリ２３は、動画像、第１音声、及び第２音声を１つのファイルに記録する。

　また、通信部２１は、遠隔地にいる支援者による入力操作に基づき記録の開始を指示する記録開始信号を、支援者が用いる支援端末３から受信する。制御部２２は、通信部２１が記録開始信号を受信したことをトリガーとして、動画像及び第１音声のメモリ２３への記録を開始する。

　また、通信部２１は、遠隔地にいる支援者による入力操作に基づき記録の終了を指示する記録終了信号を、支援者が用いる支援端末３から受信する。制御部２２は、通信部２１が記録終了信号を受信したことをトリガーとして、動画像及び第１音声のメモリ２３への記録を終了する。

　支援端末３は、例えば、パーソナルコンピュータ、スマートフォン、又はタブレット型コンピュータである。

　支援端末３は、例えば、制御プログラムと、当該制御プログラムを実行するプロセッサ又は論理回路等の処理回路と、当該制御プログラムを記憶する内部メモリ又はアクセス可能な外部メモリ等の記録装置と、を備えるコンピュータシステムを少なくとも備える。なお、支援端末３は、例えば、処理回路によるハード実装によって、又は、処理回路によるメモリに保持される、若しくは、外部サーバから配信されるソフトウェアプログラムの実行によって、又は、これらハード実装とソフト実装との組み合わせによって実現されてもよい。

　支援端末３は、ネットワーク４を介してサーバ２と互いに通信可能に接続されている。

　支援端末３は、通信部３１、制御部３２、メモリ３３、表示部３４、スピーカ３５、マイクロホン３６、及び入力部３７を備える。

　マイクロホン３６は、支援端末３の周囲の第２音声を収集する。

　通信部３１は、作業現場において撮影された動画像及び作業現場において収集された第１音声をサーバ２から受信する。また、通信部３１は、マイクロホン３６によって収集された支援端末３の周囲の第２音声をサーバ２へ送信する。

　また、通信部３１は、支援者による入力操作に基づき記録の開始を指示する記録開始信号をサーバ２へ送信する。また、通信部２１は、支援者による入力操作に基づき記録の終了を指示する記録終了信号をサーバ２へ送信する。

　制御部３２は、支援端末３全体を制御する。制御部３２は、通信部３１、メモリ３３、表示部３４、スピーカ３５、マイクロホン３６、及び入力部３７の動作を制御する。

　メモリ３３は、例えば、ＲＡＭ、ＨＤＤ、ＳＳＤ、又はフラッシュメモリ等の各種情報を記憶可能な記憶装置である。

　表示部３４は、例えば、液晶ディスプレイであり、種々の情報を表示する。表示部３４は、通信部３１によって受信された作業現場を撮影した動画像を表示する。表示部３４に表示される動画像は、リアルタイムに撮影された動画像である。支援者は、表示部３４に表示される動画像を見ることにより、作業現場における作業者の作業を確認することができる。

　スピーカ３５は、通信部３１によって受信された作業現場において収集された第１音声を外部に出力する。スピーカ３５から出力される第１音声は、リアルタイムに収集された音声である。支援者は、スピーカ３５から出力される作業者の声を聞きながら、作業者の作業を支援することができる。

　入力部３７は、例えば、キーボード、マウス、又はタッチパネルである。入力部３７は、支援者による種々の入力操作を受け付ける。入力部３７は、動画像及び第１音声のサーバ２への記録を開始するための記録開始ボタンを含む。なお、記録開始ボタンは、支援者により物理的に押下されるボタンであってもよいし、表示部３４に表示されてマウスによりクリックされるボタンであってもよい。支援者により記録開始ボタンが押下されると、通信部３１は、記録の開始を指示する記録開始信号をサーバ２へ送信する。

　また、入力部３７は、動画像及び第１音声のサーバ２への記録を終了するための記録終了ボタンを含む。なお、記録終了ボタンは、支援者により物理的に押下されるボタンであってもよいし、表示部３４に表示されてマウスによりクリックされるボタンであってもよい。支援者により記録終了ボタンが押下されると、通信部３１は、記録の終了を指示する記録終了信号をサーバ２へ送信する。

　なお、作業端末１、サーバ２、及び支援端末３のいずれかは、互いに通信を開始する前に、通信ＩＤを生成し、生成した通信ＩＤをそれぞれに送信する。作業端末１、サーバ２、及び支援端末３は、通信ＩＤを用いて動画像、第１音声、及び第２音声を送信及び受信する。通信ＩＤは、動画像、第１音声、及び第２音声を特定するために用いられる。

　続いて、本開示の実施の形態１における作業端末１、サーバ２、及び支援端末３それぞれによる作業支援処理について説明する。

　図２は、本開示の実施の形態１における作業端末１による作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ１において、カメラ１５は、作業現場を撮影することにより動画像を取得する。このとき、入力部１４は、動画像及び第１音声の取得を開始するための作業者による入力操作を受け付ける。

　次に、ステップＳ２において、マイクロホン１６は、作業現場における第１音声を取得する。

　次に、ステップＳ３において、通信部１１は、カメラ１５によって取得された動画像及びマイクロホン１６によって取得された第１音声をサーバ２へ送信する。このとき、入力部１４は、動画像及び第１音声の送信を開始するための作業者による入力操作を受け付ける。また、通信部１１は、支援端末３を宛先として、動画像及び第１音声をサーバ２へ送信する。これにより、動画像及び第１音声は、サーバ２を介して支援端末３へ送信される。

　次に、ステップＳ４において、通信部１１は、サーバ２によって送信された支援端末３の周囲の第２音声を受信する。

　次に、ステップＳ５において、スピーカ１７は、通信部１１によって受信された第２音声を外部に出力する。

　次に、ステップＳ６において、制御部１２は、動画像及び第１音声の送信を終了するか否かを判定する。このとき、入力部１４は、動画像及び第１音声の送信を終了するための作業者による入力操作を受け付ける。動画像及び第１音声の送信を終了するための入力操作が受け付けられた場合、制御部１２は、動画像及び第１音声の送信を終了すると判定する。また、動画像及び第１音声の送信を終了するための入力操作が受け付けられない場合、制御部１２は、動画像及び第１音声の送信を終了しないと判定する。

　ここで、動画像及び第１音声の送信を終了すると判定された場合（ステップＳ６でＹＥＳ）、作業支援処理が終了する。このとき、通信部１１は、動画像及び第１音声の送信を終了する。なお、動画像及び第１音声の送信が終了された後、入力部１４は、動画像及び第１音声の取得を終了するための作業者による入力操作を受け付ける。

　一方、動画像及び第１音声の送信を終了しないと判定された場合（ステップＳ６でＮＯ）、ステップＳ１に処理が戻る。

　図３は、本開示の実施の形態１におけるサーバ２による作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ１１において、通信部２１は、作業端末１によって送信された動画像及び第１音声を受信する。

　次に、ステップＳ１２において、通信部２１は、受信した動画像及び第１音声を支援端末３へ送信する。

　次に、ステップＳ１３において、通信部２１は、支援端末３によって送信された第２音声を受信する。

　次に、ステップＳ１４において、通信部２１は、受信した第２音声を作業端末１へ送信する。

　次に、ステップＳ１５において、制御部２２は、遠隔地にいる支援者による入力操作に基づき記録の開始を指示する記録開始信号が通信部２１によって受信されたか否かを判定する。

　ここで、記録開始信号が受信されたと判定された場合（ステップＳ１５でＹＥＳ）、ステップＳ１６において、制御部２２は、通信部２１によって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を開始する。その後、ステップＳ１１に処理が戻る。以降、通信部２１によって受信された動画像、第１音声、及び第２音声がメモリ２３に記録される。

　一方、記録開始信号が受信されていないと判定された場合（ステップＳ１５でＮＯ）、ステップＳ１７において、制御部２２は、遠隔地にいる支援者による入力操作に基づき記録の終了を指示する記録終了信号が通信部２１によって受信されたか否かを判定する。

　ここで、記録終了信号が受信されたと判定された場合（ステップＳ１７でＹＥＳ）、ステップＳ１８において、制御部２２は、通信部２１によって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を終了する。その後、ステップＳ１１に処理が戻る。これにより、記録開始信号が受信された時点から、記録終了信号が受信された時点までに通信部２１によって受信された動画像、第１音声、及び第２音声がメモリ２３に記録される。

　一方、記録終了信号が受信されていないと判定された場合（ステップＳ１７でＮＯ）、ステップＳ１１に処理が戻る。

　図４は、本開示の実施の形態１における支援端末３による作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ２１において、通信部３１は、サーバ２によって送信された動画像及び第１音声を受信する。

　次に、ステップＳ２２において、表示部３４は、通信部３１によって受信された動画像を表示する。

　次に、ステップＳ２３において、スピーカ３５は、通信部３１によって受信された第１音声を外部に出力する。

　次に、ステップＳ２４において、マイクロホン３６は、支援端末３の周囲の第２音声を取得する。

　次に、ステップＳ２５において、通信部３１は、マイクロホン３６によって取得された第２音声をサーバ２へ送信する。このとき、通信部３１は、作業端末１を宛先として、第２音声をサーバ２へ送信する。これにより、第２音声は、サーバ２を介して作業端末１へ送信される。

　次に、ステップＳ２６において、制御部３２は、入力部３７の記録開始ボタンが押下されたか否かを判定する。

　ここで、記録開始ボタンが押下されたと判定された場合（ステップＳ２６でＹＥＳ）、ステップＳ２７において、通信部３１は、記録の開始を指示する記録開始信号をサーバ２へ送信する。その後、ステップＳ２１に処理が戻る。

　一方、記録開始ボタンが押下されていないと判定された場合（ステップＳ２６でＮＯ）、ステップＳ２８において、制御部３２は、入力部３７の記録終了ボタンが押下されたか否かを判定する。

　ここで、記録終了ボタンが押下されたと判定された場合（ステップＳ２８でＹＥＳ）、ステップＳ２９において、通信部３１は、記録の終了を指示する記録終了信号をサーバ２へ送信する。その後、ステップＳ２１に処理が戻る。

　一方、記録終了ボタンが押下されていないと判定された場合（ステップＳ２８でＮＯ）、ステップＳ２１に処理が戻る。

　このように、支援者による記録開始の操作をトリガーとして、作業現場にいる作業者が用いる作業端末１から受信された動画像及び第１音声のメモリ２３への記録が開始される。したがって、支援者が必要であると判断した動画像及び第１音声のみがメモリ２３に記録されるので、メモリ２３に記録するデータ量を削減することができる。また、支援者による記録開始の操作が行われると動画像及び第１音声のメモリ２３への記録が開始されるので、作業者は作業中に記録開始の操作を行う必要がなく、作業者の負担を軽減することができる。

　また、遠隔地にいる支援者による入力操作が行われると、動画像及び第１音声のメモリ２３への記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者による入力操作に基づき動画像及び第１音声をメモリ２３に記録することができる。

　図５は、本実施の形態１において、支援端末３の表示部３４に表示される画面の一例を示す図である。

　表示部３４は、作業現場を撮影した動画像３４１と、記録開始ボタン３４２と、記録終了ボタン３４３とを表示する。支援者によるマウスの操作により、表示部３４に表示されるポインタが記録開始ボタン３４２の上に移動され、支援者によりマウスのボタンがクリックされると、記録開始信号がサーバ２へ送信される。これにより、サーバ２は、動画像、第１音声、及び第２音声の記録を開始する。

　また、動画像、第１音声、及び第２音声の記録中に、支援者によるマウスの操作により、表示部３４に表示されるポインタが記録終了ボタン３４３の上に移動され、支援者によりマウスのボタンがクリックされると、記録終了信号がサーバ２へ送信される。これにより、サーバ２は、動画像、第１音声、及び第２音声の記録を終了する。

　なお、本実施の形態１において、制御部２２は、支援者による記録開始の操作があった時点から、動画像及び第１音声のメモリ２３への記録を開始しているが、本開示は特にこれに限定されず、支援者による記録開始の操作があった時点の所定時間前から、動画像及び第１音声をメモリ２３へ記録してもよい。この場合、メモリ２３は、受信された動画像及び第１音声を一時的に記録するバッファ領域を含む。制御部２２は、受信された動画像及び第１音声を一時的にバッファ領域に記録する。制御部２２は、記録開始信号を受信した時点から所定時間前までの動画像及び第１音声をバッファ領域から読み出してメモリ２３に記録するとともに、記録開始信号を受信した時点以降の動画像及び第１音声をメモリ２３に記録してもよい。

　また、制御部２２は、支援者による記録終了の操作があった時点で、動画像及び第１音声のメモリ２３への記録を終了しているが、本開示は特にこれに限定されず、支援者による記録終了の操作があった時点から所定時間後までの動画像及び第１音声をメモリ２３へ記録してもよい。制御部２２は、記録終了信号を受信した時点から所定時間後までの動画像及び第１音声をメモリ２３に記録してもよい。

　（実施の形態２）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態２では、作業端末の位置が、遠隔地にいる支援者によって指定された作業現場における所定の領域内に入ったことをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図６は、本実施の形態２に係る作業支援システム１０Ａの構成を示す図である。

　図６に示す作業支援システム１０Ａは、作業端末１Ａ、サーバ２Ａ、及び支援端末３Ａを備える。なお、本実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態２において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　作業端末１Ａは、通信部１１Ａ、制御部１２、メモリ１３、入力部１４、カメラ１５、マイクロホン１６、スピーカ１７、及びＧＰＳ（Ｇｌｏｂａｌ　ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信部１８を備える。以下の作業端末１Ａの説明では、実施の形態１の作業端末１と異なる点について説明する。

　ＧＰＳ受信部１８は、ＧＰＳ衛星から送信されるＧＰＳ信号を受信することにより、作業端末１Ａの現在の位置を取得する。

　通信部１１Ａは、ＧＰＳ受信部１８によって取得された作業端末１Ａの現在の位置を示す位置情報をサーバ２へ送信する。

　なお、本実施の形態２では、ＧＰＳ信号から作業端末１Ａの現在の位置が取得されているが、本開示は特にこれに限定されず、携帯電話又は無線ＬＡＮ端末の基地局情報から作業端末１Ａの現在の位置が取得されてもよい。

　サーバ２Ａは、通信部２１Ａ、制御部２２Ａ、及びメモリ２３Ａを備える。サーバ２Ａは、情報処理装置の一例である。以下のサーバ２Ａの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ａは、作業端末１Ａの現在の位置を示す位置情報を作業端末１Ａから受信する。通信部２１Ａは、遠隔地にいる支援者によって指定された作業現場における所定の領域を示す領域指定情報を、支援者が用いる支援端末３Ａから受信する。通信部２１Ａは、受信した領域指定情報をメモリ２３Ａに記憶する。

　制御部２２Ａは、位置情報で示される作業端末１Ａの位置が、作業現場における所定の領域内に入ったことをトリガーとして、動画像及び第１音声のメモリ２３Ａへの記録を開始する。すなわち、制御部２２Ａは、位置情報で示される作業端末１Ａの位置が、領域指定情報で示される所定の領域内に入ったことをトリガーとして、動画像及び第１音声のメモリ２３Ａへの記録を開始する。また、制御部２２Ａは、位置情報で示される作業端末１Ａの位置が、領域指定情報で示される所定の領域から出たことをトリガーとして、動画像及び第１音声のメモリ２３Ａへの記録を終了する。

　なお、制御部２２Ａは、作業端末１Ａからの動画像及び第１音声だけをメモリ２３Ａに記録するのではなく、作業端末１Ａからの動画像及び第１音声と支援端末３Ａからの第２音声とをメモリ２３Ａに記録してもよい。すなわち、制御部２２Ａは、支援者による記録開始の操作をトリガーとして、通信部２１Ａによって受信された動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を開始してもよい。また、制御部２２Ａは、支援者による記録終了の操作をトリガーとして、通信部２１Ａによって受信された動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を終了してもよい。

　メモリ２３Ａは、通信部２１Ａによって受信された領域指定情報を記憶する。

　支援端末３Ａは、通信部３１Ａ、制御部３２、メモリ３３、表示部３４Ａ、スピーカ３５、マイクロホン３６、及び入力部３７Ａを備える。以下の支援端末３Ａの説明では、実施の形態１の支援端末３と異なる点について説明する。

　通信部３１Ａは、作業現場における図面情報を受信する。図面情報は、作業現場に配置されている設備などの位置を示す。なお、通信部３１Ａは、図面情報を他の端末から受信してもよいし、サーバ２Ａから受信してもよい。

　表示部３４Ａは、通信部３１Ａによって受信された図面情報を表示する。

　入力部３７Ａは、表示部３４Ａに表示された図面情報に対する所定の領域の支援者による指定を受け付ける。所定の領域内に作業端末１Ａが入った場合、作業端末１Ａからの動画像及び第１音声のサーバ２Ａへの記録が開始される。そして、所定の領域から作業端末１Ａが出た場合、作業端末１Ａからの動画像及び第１音声のサーバ２Ａへの記録が終了される。支援者は、作業現場の図面上における所定の領域を指定する。例えば、入力部３７Ａは、作業現場の図面上の所定の領域を線で囲むことにより、所定の領域の支援者による指定を受け付ける。

　通信部３１Ａは、入力部３７Ａによって支援者により指定された作業現場における所定の領域を示す領域指定情報をサーバ２Ａへ送信する。

　続いて、本開示の実施の形態２における作業端末１Ａ、サーバ２Ａ、及び支援端末３Ａそれぞれによる作業支援処理について説明する。

　図７は、本開示の実施の形態２における作業端末１Ａによる作業支援処理について説明するためのフローチャートである。

　ステップＳ３１～ステップＳ３３の処理は、図２に示すステップＳ１～ステップＳ３の処理と同じであるので、説明を省略する。

　次に、ステップＳ３４において、ＧＰＳ受信部１８は、ＧＰＳ衛星から送信されるＧＰＳ信号を受信することにより、作業端末１Ａの現在の位置を取得する。

　次に、ステップＳ３５において、通信部１１Ａは、ＧＰＳ受信部１８によって取得された作業端末１Ａの現在の位置を示す位置情報をサーバ２へ送信する。

　ステップＳ３６～ステップＳ３８の処理は、図２に示すステップＳ４～ステップＳ６の処理と同じであるので、説明を省略する。

　図８は、本開示の実施の形態２におけるサーバ２Ａによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ４１において、通信部２１Ａは、支援端末３Ａによって送信された作業現場における所定の領域を示す領域指定情報を受信する。

　次に、ステップＳ４２において、通信部２１Ａは、受信した領域指定情報をメモリ２３Ａに記憶する。

　ステップＳ４３～ステップＳ４６の処理は、図３に示すステップＳ１１～ステップＳ１４の処理と同じであるので、説明を省略する。

　次に、ステップＳ４７において、通信部２１Ａは、作業端末１Ａによって送信された作業端末１Ａの現在の位置を示す位置情報を受信する。

　次に、ステップＳ４８において、制御部２２Ａは、通信部２１Ａによって受信された位置情報で示される作業端末１Ａの位置が、メモリ２３Ａに記憶されている領域指定情報で示される所定の領域内に入っているか否かを判定する。

　ここで、作業端末１Ａの位置が所定の領域内に入っていると判定された場合（ステップＳ４８でＹＥＳ）、ステップＳ４９において、制御部２２Ａは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ４９でＮＯ）、ステップＳ５０において、制御部２２Ａは、通信部２１Ａによって受信された動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を開始する。その後、ステップＳ４３に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ４９でＹＥＳ）、ステップＳ４３に処理が戻る。

　また、作業端末１Ａの位置が所定の領域内に入っていないと判定された場合、すなわち作業端末１Ａの位置が所定の領域から出ていると判定された場合（ステップＳ４８でＮＯ）、ステップＳ５１において、制御部２２Ａは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ５１でＹＥＳ）、ステップＳ５２において、制御部２２Ａは、通信部２１Ａによって受信された動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を終了する。その後、ステップＳ４３に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ５１でＮＯ）、ステップＳ４３に処理が戻る。

　図９は、本開示の実施の形態２における支援端末３Ａによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ６１において、入力部３７Ａは、作業現場における所定の領域の支援者による指定を受け付ける。支援者は、表示部３４Ａに表示された作業現場の図面に対し、作業端末１Ａが入ることによりサーバ２Ａへの記録が開始される所定の領域の範囲を指定する。

　次に、ステップＳ６２において、通信部３１Ａは、入力部３７Ａによって指定された作業現場における所定の領域を示す領域指定情報をサーバ２Ａへ送信する。

　ステップＳ６３～ステップＳ６７の処理は、図４に示すステップＳ２１～ステップＳ２５の処理と同じであるので、説明を省略する。

　このように、遠隔地にいる支援者によって指定された作業現場における所定の領域内に作業端末１Ａが入ると、動画像及び第１音声のメモリ２３Ａへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が作業現場における所定の領域を指定することによって、動画像及び第１音声をメモリ２３Ａに記録することができる。

　なお、本実施の形態２において、サーバ２Ａが、領域指定情報を受信し、作業端末１Ａの位置が所定の領域内に入っているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ａが、領域指定情報を受信し、作業端末１Ａの位置が所定の領域内に入っているか否かを判定してもよい。そして、作業端末１Ａの位置が所定の領域内に入っていると判定された場合、作業端末１Ａは、記録の開始を指示する記録開始信号をサーバ２Ａへ送信してもよい。サーバ２Ａは、作業端末１Ａによって送信された記録開始信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を開始してもよい。また、作業端末１Ａの位置が所定の領域から出たと判定された場合、作業端末１Ａは、記録の終了を指示する記録終了信号をサーバ２Ａへ送信してもよい。サーバ２Ａは、作業端末１Ａによって送信された記録終了信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ａへの記録を終了してもよい。

　（実施の形態３）
　実施の形態２では、作業端末１Ａの位置が、遠隔地にいる支援者によって指定された作業現場における所定の領域内に入ったことをトリガーとして、動画像及び第１音声のメモリ２３Ａへの記録が開始されるが、実施の形態３では、作業端末が、遠隔地にいる支援者によって指定された作業現場における作業対象に近づいたことをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図１０は、本実施の形態３に係る作業支援システム１０Ｂの構成を示す図である。

　図１０に示す作業支援システム１０Ｂは、作業端末１Ｂ、サーバ２Ｂ、及び支援端末３Ｂを備える。なお、本実施の形態３において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態３において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　作業現場に配置された設備などの作業対象には、ビーコン信号を発信するビーコン発信機が設けられている。ビーコン発信機は、例えば、ＢＬＥ（Ｂｌｕｅｔｏｏｔｈ（登録商標）　Ｌｏｗ　Ｅｎｅｒｇｙ）の通信プロトコルに準拠するビーコン信号を送信する発信機で構成されている。ビーコン発信機は、作業対象に設けられ、作業対象を識別するためのビーコンＩＤ（識別情報）を含むビーコン信号を無線により送信する。ビーコンＩＤは、例えば、ＵＵＩＤ（Ｕｎｉｖｅｒｓａｌｌｙ　Ｕｎｉｑｕｅ　ＩＤｅｎｔｉｆｉｅｒ）、ＭａｊｏｒＩＤ、又はＭｉｎｏｒＩＤであり、ビーコン発信機を一意に識別するとともに、ビーコン発信機を備える作業対象を一意に識別する。ビーコン発信機は、一定の周期でビーコン信号を送信する。ビーコン発信機は、作業対象を識別するためのビーコンＩＤを事前に記憶するメモリを備え、ビーコン信号にビーコンＩＤを含ませて送信する。ビーコン信号は、無線信号の一例である。

　作業端末１Ｂは、通信部１１Ｂ、制御部１２、メモリ１３、入力部１４、カメラ１５、マイクロホン１６、スピーカ１７、及びビーコン受信部１９を備える。以下の作業端末１Ｂの説明では、実施の形態１の作業端末１と異なる点について説明する。

　ビーコン受信部１９は、作業現場においてビーコン発信機から発信されるビーコン信号を受信する。ビーコン受信部１９は、ＢＬＥの規格に対応するアンテナを含む。ビーコン受信部１９は、ビーコン発信機によって送信されたビーコン信号を受信する。また、ビーコン受信部１９は、受信したビーコン信号の電波強度（ＲＳＳＩ（Ｒｅｃｅｉｖｅｄ　Ｓｉｇｎａｌ　Ｓｔｒｅｎｇｔｈ　Ｉｎｄｉｃａｔｏｒ））を測定する。

　通信部１１Ｂは、ビーコン受信部１９によって受信されたビーコン信号に含まれるビーコンＩＤ及びビーコン受信部１９によって測定されたビーコン信号の電波強度を含む信号情報をサーバ２Ｂへ送信する。

　なお、ビーコン受信部１９は、複数のビーコン信号を受信した場合、複数のビーコン信号の電波強度を測定する。通信部１１Ｂは、ビーコン受信部１９によって受信された複数のビーコン信号それぞれに含まれる複数のビーコンＩＤ及びビーコン受信部１９によって測定された複数のビーコン信号それぞれの複数の電波強度を含む信号情報をサーバ２Ｂへ送信する。

　サーバ２Ｂは、通信部２１Ｂ、制御部２２Ｂ、及びメモリ２３Ｂを備える。サーバ２Ｂは、情報処理装置の一例である。以下のサーバ２Ｂの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｂは、遠隔地にいる支援者によって指定された作業現場における作業対象から発信されるビーコン信号（無線信号）に含まれるビーコンＩＤ（識別情報）を、支援者が用いる支援端末３Ｂから受信する。通信部２１Ｂは、支援端末３Ｂから受信したビーコンＩＤをメモリ２３Ｂに記憶する。

　また、通信部２１Ｂは、作業端末１Ｂによって受信されたビーコン信号（無線信号）に含まれるビーコンＩＤ（識別情報）及び作業端末１Ｂによって測定されたビーコン信号（無線信号）の電波強度を含む信号情報を作業端末１Ｂから受信する。

　制御部２２Ｂは、支援端末３Ｂから受信した作業対象のビーコンＩＤ（識別情報）を含む、作業端末１Ｂから受信したビーコン信号（無線信号）の電波強度が閾値以上であることをトリガーとして、動画像及び第１音声のメモリ２３Ｂへの記録を開始する。また、制御部２２Ｂは、支援端末３Ｂから受信した作業対象のビーコンＩＤ（識別情報）を含む、作業端末１Ｂから受信したビーコン信号（無線信号）の電波強度が閾値より小さくなったことをトリガーとして、動画像及び第１音声のメモリ２３Ｂへの記録を終了する。

　なお、制御部２２Ｂは、作業端末１Ｂからの動画像及び第１音声だけをメモリ２３Ｂに記録するのではなく、作業端末１Ｂからの動画像及び第１音声と支援端末３Ｂからの第２音声とをメモリ２３Ｂに記録してもよい。すなわち、制御部２２Ｂは、支援者による記録開始の操作をトリガーとして、通信部２１Ｂによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を開始してもよい。また、制御部２２Ｂは、支援者による記録終了の操作をトリガーとして、通信部２１Ｂによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を終了してもよい。

　メモリ２３Ｂは、通信部２１Ｂによって受信された作業対象のビーコンＩＤ（識別情報）を記憶する。

　支援端末３Ｂは、通信部３１Ｂ、制御部３２、メモリ３３、表示部３４Ｂ、スピーカ３５、マイクロホン３６、及び入力部３７Ｂを備える。以下の支援端末３Ｂの説明では、実施の形態１の支援端末３と異なる点について説明する。

　表示部３４Ｂは、作業現場における少なくとも１つの作業対象を表示する。なお、少なくとも１つの作業対象には、ビーコンＩＤ（識別情報）が予め対応付けられている。

　入力部３７Ｂは、表示部３４Ｂに表示された少なくとも１つの作業対象の中から、作業を支援する作業対象の支援者による指定を受け付ける。作業現場には、少なくとも１つの作業対象がある。支援者は、少なくとも１つの作業対象の中から、作業を支援する作業対象を指定する。支援者が指定した作業対象に作業端末１Ｂが近づいた場合、作業端末１Ｂからの動画像及び第１音声のサーバ２Ｂへの記録が開始される。そして、支援者が指定した作業対象から作業端末１Ｂが離れた場合、作業端末１Ｂからの動画像及び第１音声のサーバ２Ｂへの記録が終了される。

　通信部３１Ｂは、入力部３７Ｂによって支援者により指定された作業対象に対応付けられているビーコンＩＤ（識別情報）をサーバ２Ａへ送信する。

　続いて、本開示の実施の形態３における作業端末１Ｂ、サーバ２Ｂ、及び支援端末３Ｂそれぞれによる作業支援処理について説明する。

　図１１は、本開示の実施の形態３における作業端末１Ｂによる作業支援処理について説明するためのフローチャートである。

　ステップＳ７１～ステップＳ７３の処理は、図２に示すステップＳ１～ステップＳ３の処理と同じであるので、説明を省略する。

　次に、ステップＳ７４において、ビーコン受信部１９は、作業現場においてビーコン発信機から発信されるビーコン信号を受信する。

　次に、ステップＳ７５において、ビーコン受信部１９は、受信したビーコン信号の電波強度を測定する。

　次に、ステップＳ７６において、通信部１１Ｂは、ビーコン受信部１９によって受信されたビーコン信号に含まれるビーコンＩＤ及びビーコン受信部１９によって測定されたビーコン信号の電波強度を含む信号情報をサーバ２Ｂへ送信する。

　ステップＳ７７～ステップＳ７９の処理は、図２に示すステップＳ４～ステップＳ６の処理と同じであるので、説明を省略する。

　図１２は、本開示の実施の形態３におけるサーバ２Ｂによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ８１において、通信部２１Ｂは、支援端末３Ｂによって送信された作業現場における作業対象のビーコンＩＤを受信する。

　次に、ステップＳ８２において、通信部２１Ｂは、受信した作業対象のビーコンＩＤをメモリ２３Ｂに記憶する。

　ステップＳ８３～ステップＳ８６の処理は、図３に示すステップＳ１１～ステップＳ１４の処理と同じであるので、説明を省略する。

　次に、ステップＳ８７において、通信部２１Ｂは、作業端末１Ｂによって受信されたビーコン信号に含まれるビーコンＩＤ及び作業端末１Ｂによって測定されたビーコン信号の電波強度を含む信号情報を作業端末１Ｂから受信する。

　次に、ステップＳ８８において、制御部２２Ｂは、支援端末３Ｂから受信した作業対象のビーコンＩＤを含む、作業端末１Ｂから受信したビーコン信号の電波強度が閾値以上であるか否かを判定する。

　ここで、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値以上であると判定された場合（ステップＳ８８でＹＥＳ）、ステップＳ８９において、制御部２２Ｂは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ８９でＮＯ）、ステップＳ９０において、制御部２２Ｂは、通信部２１Ｂによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を開始する。その後、ステップＳ８３に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ８９でＹＥＳ）、ステップＳ８３に処理が戻る。

　また、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値以上ではないと判定された場合、すなわち作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値より小さいと判定された場合（ステップＳ８８でＮＯ）、ステップＳ９１において、制御部２２Ｂは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ９１でＹＥＳ）、ステップＳ９２において、制御部２２Ｂは、通信部２１Ｂによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を終了する。その後、ステップＳ８３に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ９１でＮＯ）、ステップＳ８３に処理が戻る。

　図１３は、本開示の実施の形態３における支援端末３Ｂによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ１０１において、入力部３７Ｂは、作業を支援する作業対象の支援者による指定を受け付ける。支援者は、表示部３４Ｂに表示された少なくとも１つの作業対象の中から、作業端末１Ｂが近づくことによりサーバ２Ｂへの記録が開始される作業対象を指定する。

　次に、ステップＳ１０２において、通信部３１Ｂは、入力部３７Ｂによって指定された作業対象のビーコンＩＤをサーバ２Ｂへ送信する。

　ステップＳ１０３～ステップＳ１０７の処理は、図４に示すステップＳ２１～ステップＳ２５の処理と同じであるので、説明を省略する。

　このように、遠隔地にいる支援者によって指定された作業現場における作業対象に作業端末１Ｂが近づくと、動画像及び第１音声のメモリ２３Ｂへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が作業現場における作業対象の識別情報を指定することによって、動画像及び第１音声をメモリ２３Ｂに記録することができる。

　なお、本実施の形態３において、サーバ２Ｂが、作業対象のビーコンＩＤを受信し、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値以上であるか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｂが、作業対象のビーコンＩＤを受信し、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値以上であるか否かを判定してもよい。そして、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値以上であると判定された場合、作業端末１Ｂは、記録の開始を指示する記録開始信号をサーバ２Ｂへ送信してもよい。サーバ２Ｂは、作業端末１Ｂによって送信された記録開始信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を開始してもよい。また、作業対象のビーコンＩＤを含むビーコン信号の電波強度が閾値より小さいと判定された場合、作業端末１Ｂは、記録の終了を指示する記録終了信号をサーバ２Ｂへ送信してもよい。サーバ２Ｂは、作業端末１Ｂによって送信された記録終了信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ｂへの記録を終了してもよい。

　（実施の形態４）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態４では、予め記憶されている所定のキーワードが第２音声に含まれることをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図１４は、本実施の形態４に係る作業支援システム１０Ｃの構成を示す図である。

　図１４に示す作業支援システム１０Ｃは、作業端末１、サーバ２Ｃ、及び支援端末３Ｃを備える。なお、本実施の形態４において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態４において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　サーバ２Ｃは、通信部２１Ｃ、制御部２２Ｃ、及びメモリ２３Ｃを備える。サーバ２Ｃは、情報処理装置の一例である。以下のサーバ２Ｃの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｃは、遠隔地にいる支援者が用いる支援端末３Ｃの周囲の第２音声を支援端末３Ｃから受信する。

　メモリ２３Ｃは、所定の開始キーワードを予め記憶するとともに、所定の終了キーワードを予め記憶する。所定の開始キーワードは、例えば、「そこ」又は「あそこ」などの指示代名詞、作業対象の名称、又は作業対象の部品の名称である。また、所定の終了キーワードは、例えば、「記録終了」などの記録を終了するための文言である。なお、所定の開始キーワード及び所定の終了キーワードは、支援者によって入力されてもよい。また、メモリ２３Ｃは、１つの開始キーワードを記憶してもよいし、複数の開始キーワードを記憶してもよい。また、メモリ２３Ｃは、１つの終了キーワードを記憶してもよいし、複数の終了キーワードを記憶してもよい。

　制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の開始キーワードが第２音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｃへの記録を開始する。また、制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の終了キーワードが第２音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｃへの記録を終了する。

　制御部２２Ｃは、通信部２１によって受信された第２音声に対して音声認識を行い、第２音声をテキスト化する。そして、制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の開始キーワードが、テキスト化した第２音声に含まれているか否かを判定する。所定の開始キーワードが第２音声に含まれていると判定された場合、制御部２２Ｃは、動画像及び第１音声のメモリ２３Ｃへの記録を開始する。

　また、所定の開始キーワードが第２音声に含まれていないと判定された場合、制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の終了キーワードが、テキスト化した第２音声に含まれているか否かを判定する。所定の終了キーワードが第２音声に含まれていると判定された場合、制御部２２Ｃは、動画像及び第１音声のメモリ２３Ｃへの記録を終了する。

　なお、制御部２２Ｃは、作業端末１からの動画像及び第１音声だけをメモリ２３Ｃに記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３Ｃからの第２音声とをメモリ２３Ｃに記録してもよい。すなわち、制御部２２Ｃは、支援者による記録開始の操作をトリガーとして、通信部２１Ｃによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を開始してもよい。また、制御部２２Ｃは、支援者による記録終了の操作をトリガーとして、通信部２１Ｃによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を終了してもよい。

　支援端末３Ｃは、通信部３１Ｃ、制御部３２Ｃ、メモリ３３、表示部３４、スピーカ３５、マイクロホン３６、及び入力部３７Ｃを備える。以下の支援端末３Ａの説明では、実施の形態１の支援端末３と異なる点について説明する。

　通信部３１Ｃは、作業現場において撮影された動画像及び作業現場において収集された第１音声をサーバ２Ｃから受信する。また、通信部３１Ｃは、マイクロホン３６によって収集された支援端末３Ｃの周囲の第２音声をサーバ２Ｃへ送信する。

　通信部３１Ｃは、実施の形態１とは異なり、記録開始信号及び記録終了信号をサーバ２Ｃへ送信しない。制御部３２Ｃは、実施の形態１とは異なり、記録開始ボタンが押下されたか否かを判定しない。また、制御部３２Ｃは、実施の形態１とは異なり、記録終了ボタンが押下されたか否かを判定しない。入力部３７Ｃは、実施の形態１とは異なり、記録開始ボタン及び記録終了ボタンを含まない。

　続いて、本開示の実施の形態４におけるサーバ２Ｃ及び支援端末３Ｃそれぞれによる作業支援処理について説明する。

　図１５は、本開示の実施の形態４におけるサーバ２Ｃによる作業支援処理について説明するためのフローチャートである。

　ステップＳ１２１～ステップＳ１２４の処理は、図３に示すステップＳ１１～ステップＳ１４の処理と同じであるので、説明を省略する。

　次に、ステップＳ１２５において、制御部２２Ｃは、通信部２１によって受信された第２音声に対して音声認識を行い、第２音声をテキスト化する。

　次に、ステップＳ１２６において、制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の開始キーワードが、テキスト化した第２音声に含まれているか否かを判定する。

　ここで、所定の開始キーワードが第２音声に含まれていると判定された場合（ステップＳ１２６でＹＥＳ）、ステップＳ１２７において、制御部２２Ｃは、動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を開始する。その後、ステップＳ１２１に処理が戻る。

　一方、所定の開始キーワードが第２音声に含まれていないと判定された場合（ステップＳ１２６でＮＯ）、ステップＳ１２８において、制御部２２Ｃは、メモリ２３Ｃに予め記憶されている所定の終了キーワードが、テキスト化した第２音声に含まれているか否かを判定する。

　ここで、所定の終了キーワードが第２音声に含まれていないと判定された場合（ステップＳ１２８でＮＯ）、ステップＳ１２１に処理が戻る。

　一方、所定の終了キーワードが第２音声に含まれていると判定された場合（ステップＳ１２８でＹＥＳ）、ステップＳ１２９において、制御部２２Ｃは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ１２９でＮＯ）、ステップＳ１２１に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ１２９でＹＥＳ）、ステップＳ１３０において、制御部２２Ｃは、動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を終了する。その後、ステップＳ１２１に処理が戻る。

　なお、本実施の形態４における支援端末３Ｃによる作業支援処理は、図４に示すステップＳ２１～ステップＳ２５の処理と同じであるので、説明を省略する。

　このように、遠隔地にいる支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリ２３Ｃへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリ２３Ｃに記録することができる。

　なお、本実施の形態４では、制御部２２Ｃは、所定の終了キーワードが第２音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。支援端末３Ｃは、支援者による記録終了ボタンの押下を受け付けてもよい。支援者により記録終了ボタンが押下された場合、支援端末３Ｃは、記録終了信号をサーバ２Ｃへ送信してもよい。サーバ２Ｃの通信部２１Ｃは、支援端末３Ｃによって送信された記録終了信号を受信してもよい。制御部２２Ｃは、支援端末３Ｃによって送信された記録終了信号が受信されたか否かを判定してもよい。記録終了信号が受信されたと判定された場合、制御部２２Ｃは、動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を終了してもよい。

　また、本実施の形態４において、サーバ２Ｃが、所定の開始キーワードが第２音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。支援端末３Ｃが、所定の開始キーワードが第２音声に含まれているか否かを判定してもよい。そして、所定の開始キーワードが第２音声に含まれていると判定された場合、支援端末３Ｃは、記録の開始を指示する記録開始信号をサーバ２Ｃへ送信してもよい。サーバ２Ｃは、支援端末３Ｃによって送信された記録開始信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を開始してもよい。また、支援端末３Ｃが、所定の終了キーワードが第２音声に含まれているか否かを判定してもよい。所定の終了キーワードが第２音声に含まれていると判定された場合、支援端末３Ｃは、記録の終了を指示する記録終了信号をサーバ２Ｃへ送信してもよい。サーバ２Ｃは、支援端末３Ｃによって送信された記録終了信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３Ｃへの記録を終了してもよい。

　（実施の形態５）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態５では、第２音声における支援者が発話した発話区間が検出され、発話区間が検出されたことをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図１６は、本実施の形態５に係る作業支援システム１０Ｄの構成を示す図である。

　図１６に示す作業支援システム１０Ｄは、作業端末１、サーバ２Ｄ、及び支援端末３Ｃを備える。なお、本実施の形態５において、実施の形態１，４と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態５において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　サーバ２Ｄは、通信部２１Ｄ、制御部２２Ｄ、及びメモリ２３を備える。サーバ２Ｄは、情報処理装置の一例である。以下のサーバ２Ｄの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｄは、遠隔地にいる支援者が用いる支援端末３Ｃの周囲の第２音声を支援端末３Ｃから受信する。

　制御部２２Ｄは、第２音声における支援者が発話した発話区間を検出する。制御部２２Ｄは、一般的な発話区間検出（ＶＡＤ：Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ）技術を用いて発話区間を検出する。例えば、制御部２２Ｄは、入力された第２音声の時系列で構成されたフレームにおいて、振幅と零交差数とに基づいて、そのフレームが音声区間か否かを検出する。また、例えば、制御部２２Ｄは、入力される音声情報の特徴量に基づき、支援者が発話中である確率を音声モデルにより算出するとともに、支援者の発話がない状態である確率を雑音モデルにより算出し、雑音モデルから得られた確率よりも音声モデルから得られた確率の方が高い区間を発話区間であると判定してもよい。

　制御部２２Ｄは、発話区間が検出されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録を開始する。また、制御部２２Ｄは、発話区間が検出されなくなったことをトリガーとして、動画像及び第１音声のメモリ２３への記録を終了する。

　制御部２２Ｄは、第２音声が発話区間であるか否かを判定する。第２音声が発話区間であると判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を開始する。また、第２音声が発話区間であると判定された後、第２音声が発話区間ではないと判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を終了する。

　なお、制御部２２Ｄは、作業端末１からの動画像及び第１音声だけをメモリ２３に記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３Ｃからの第２音声とをメモリ２３に記録してもよい。すなわち、制御部２２Ｃは、支援者による記録開始の操作をトリガーとして、通信部２１Ｄによって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を開始してもよい。また、制御部２２Ｄは、支援者による記録終了の操作をトリガーとして、通信部２１Ｄによって受信された動画像、第１音声、及び第２音声のメモリ２３への記録を終了してもよい。

　続いて、本開示の実施の形態５におけるサーバ２Ｃによる作業支援処理について説明する。

　図１７は、本開示の実施の形態５におけるサーバ２Ｃによる作業支援処理について説明するためのフローチャートである。

　ステップＳ１４１～ステップＳ１４４の処理は、図３に示すステップＳ１１～ステップＳ１４の処理と同じであるので、説明を省略する。

　次に、ステップＳ１４５において、制御部２２Ｄは、第２音声における発話区間を検出する。

　次に、ステップＳ１４６において、制御部２２Ｄは、第２音声が発話区間であるか否かを判定する。

　ここで、第２音声が発話区間であると判定された場合（ステップＳ１４６でＹＥＳ）、ステップＳ１４７において、制御部２２Ｄは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ１４７でＹＥＳ）、ステップＳ１４１に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ１４７でＮＯ）、ステップＳ１４８において、制御部２２Ｄは、動画像、第１音声、及び第２音声のメモリ２３への記録を開始する。その後、ステップＳ１４１に処理が戻る。

　一方、第２音声が発話区間ではないと判定された場合（ステップＳ１４６でＮＯ）、ステップＳ１４９において、制御部２２Ｄは、動画像、第１音声、及び第２音声が記録中であるか否かを判定する。

　ここで、動画像、第１音声、及び第２音声が記録中ではないと判定された場合（ステップＳ１４９でＮＯ）、ステップＳ１４１に処理が戻る。

　一方、動画像、第１音声、及び第２音声が記録中であると判定された場合（ステップＳ１４９でＹＥＳ）、ステップＳ１５０において、制御部２２Ｄは、動画像、第１音声、及び第２音声のメモリ２３への記録を終了する。その後、ステップＳ１４１に処理が戻る。

　このように、遠隔地にいる支援者が発話すると、動画像及び第１音声のメモリ２３への記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が発話することによって、動画像及び第１音声をメモリ２３に記録することができる。

　なお、本実施の形態５では、制御部２２Ｄは、第２音声における支援者が発話した発話区間を検出しているが、本開示は特にこれに限定されない。制御部２２Ｄは、第１音声及び第２音声における作業者及び支援者が発話した発話区間を検出してもよい。制御部２２Ｄは、第１音声及び第２音声が発話区間であるか否かを判定してもよい。第１音声及び第２音声が発話区間であると判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を開始してもよい。また、第１音声及び第２音声が発話区間であると判定された後、第１音声及び第２音声が発話区間ではないと判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を終了してもよい。

　また、本実施の形態５において、サーバ２Ｄが、第２音声における支援者が発話した発話区間を検出し、第２音声が発話区間であるか否かを判定しているが、本開示は特にこれに限定されない。支援端末３Ｃが、第２音声における支援者が発話した発話区間を検出し、第２音声が発話区間であるか否かを判定してもよい。そして、第２音声が発話区間であると判定された場合、支援端末３Ｃは、記録の開始を指示する記録開始信号をサーバ２Ｄへ送信してもよい。サーバ２Ｄは、支援端末３Ｃによって送信された記録開始信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３への記録を開始してもよい。また、第２音声が発話区間であると判定された後、第２音声が発話区間ではないと判定された場合、支援端末３Ｃは、記録の終了を指示する記録終了信号をサーバ２Ｄへ送信してもよい。サーバ２Ｄは、支援端末３Ｃによって送信された記録終了信号を受信すると、動画像、第１音声、及び第２音声のメモリ２３への記録を終了してもよい。

　また、本実施の形態５において、制御部２２Ｄは、第２音声における支援者が発話した発話区間を検出し、検出した発話区間内において予め記憶されている所定のキーワードが第２音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３への記録を開始してもよい。この場合、図１７のステップＳ１４６で第２音声が発話区間であると判定された場合、図１５のステップＳ１２５～ステップＳ１３０の処理が行われてもよい。

　すなわち、制御部２２Ｄは、第２音声が発話区間であるか否かを判定する。第２音声が発話区間であると判定された場合、制御部２２Ｄは、通信部２１Ｄによって受信された第２音声に対して音声認識を行い、第２音声をテキスト化してもよい。そして、制御部２２Ｄは、メモリ２３に予め記憶されている所定の開始キーワードが、テキスト化した第２音声に含まれているか否かを判定してもよい。所定の開始キーワードが第２音声に含まれていると判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を開始してもよい。また、動画像及び第１音声の記録中に、第２音声が発話区間ではないと判定された場合、制御部２２Ｄは、動画像及び第１音声のメモリ２３への記録を終了してもよい。

　（実施の形態６）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態６では、受信された動画像から、作業現場にいる支援者の動作が認識され、認識された動作が、予め決められている所定の動作であることをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図１８は、本実施の形態６に係る作業支援システム１０Ｅの構成を示す図である。

　図１８に示す作業支援システム１０Ｅは、作業端末１Ｅ及びサーバ２Ｅを備える。なお、本実施の形態６において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態６において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者も作業現場にいる。作業者は、作業現場において、作業対象に対して支援者が作業を支援している様子を撮影する。

　作業端末１Ｅは、通信部１１Ｅ、制御部１２Ｅ、メモリ１３、入力部１４Ｅ、カメラ１５、及びマイクロホン１６を備える。以下の作業端末１Ｅの説明では、実施の形態１の作業端末１と異なる点について説明する。

　通信部１１Ｅは、カメラ１５によって撮影された動画像及びマイクロホン１６によって収集された第１音声をサーバ２Ｅへ送信する。

　入力部１４Ｅは、動画像及び第１音声のサーバ２Ｅへの記録を終了するための記録終了ボタンを含む。制御部１２Ｅは、入力部１４Ｅの記録終了ボタンが押下されたか否かを判定する。作業者により記録終了ボタンが押下されると、通信部１１Ｅは、記録の終了を指示する記録終了信号をサーバ２Ｅへ送信する。

　サーバ２Ｅは、通信部２１Ｅ、制御部２２Ｅ、及びメモリ２３Ｅを備える。サーバ２Ｅは、情報処理装置の一例である。以下のサーバ２Ｅの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｅは、作業現場において撮影された動画像及び作業現場において収集された第１音声を、作業現場にいる作業者が用いる作業端末１Ｅから受信する。

　制御部２２Ｅは、通信部２１Ｅによって受信された動画像から、作業現場にいる支援者の動作を認識する。制御部２２Ｅは、認識した支援者の動作が、予め決められている所定の動作であることをトリガーとして、動画像及び第１音声のメモリ２３Ｅへの記録を開始する。所定の動作は、支援者が作業対象に向かって指を指している動作である。

　制御部２２Ｅは、学習済みのニューラルネットワークを用いて、動画像に写る人物の骨格を推定する。また、制御部２２Ｅは、学習済みのニューラルネットワークを用いて、推定した骨格から人物の動作を認識する。

　制御部２２Ｅは、認識した支援者の動作が、予め決められている所定の動作であるか否かを判定する。認識した支援者の動作が所定の動作であると判定された場合、制御部２２Ｅは、動画像及び第１音声のメモリ２３Ｅへの記録を開始する。例えば、支援者は、作業現場において作業を支援する際に、作業対象に向かって指を指す動作を行う。制御部２２Ｅは、支援者が指を指す動作を認識することにより、支援者が作業の支援を開始したと判定し、動画像及び第１音声のメモリ２３Ｅへの記録を開始する。第１音声には、作業者の声と、支援者の声とが含まれる。

　また、通信部２１Ｅは、作業現場にいる作業者による入力操作に基づき記録の終了を指示する記録終了信号を、作業端末１Ｅから受信する。制御部２２Ｅは、通信部２１Ｅが記録終了信号を受信したことをトリガーとして、動画像及び第１音声のメモリ２３Ｅへの記録を終了する。

　続いて、本開示の実施の形態６における作業端末１Ｅ及びサーバ２Ｅそれぞれによる作業支援処理について説明する。

　図１９は、本開示の実施の形態６における作業端末１Ｅによる作業支援処理について説明するためのフローチャートである。

　ステップＳ１５１～ステップＳ１５３の処理は、図２に示すステップＳ１～ステップＳ３の処理と同じであるので、説明を省略する。

　次に、ステップＳ１５４において、制御部１２Ｅは、入力部１４Ｅの記録終了ボタンが押下されたか否かを判定する。

　ここで、記録終了ボタンが押下されていないと判定された場合（ステップＳ１５４でＮＯ）、ステップＳ１５１に処理が戻る。

　一方、記録終了ボタンが押下されたと判定された場合（ステップＳ１５４でＹＥＳ）、ステップＳ１５５において、通信部１１Ｅは、記録の終了を指示する記録終了信号をサーバ２Ｅへ送信する。

　ステップＳ１５６の処理は、図２に示すステップＳ６の処理と同じであるので、説明を省略する。

　図２０は、本開示の実施の形態６におけるサーバ２Ｅによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ１６１において、通信部２１Ｅは、作業端末１Ｅによって送信された動画像及び第１音声を受信する。

　次に、ステップＳ１６２において、制御部２２Ｅは、通信部２１Ｅによって受信された動画像から、作業現場にいる支援者の動作を認識する。

　次に、ステップＳ１６３において、制御部２２Ｅは、認識した動作が、予め決められている所定の動作であるか否かを判定する。

　ここで、認識した動作が所定の動作であると判定された場合（ステップＳ１６３でＹＥＳ）、ステップＳ１６４において、制御部２２Ｅは、動画像及び第１音声が記録中であるか否かを判定する。

　ここで、動画像及び第１音声が記録中であると判定された場合（ステップＳ１６４でＹＥＳ）、ステップＳ１６１に処理が戻る。

　一方、動画像及び第１音声が記録中ではないと判定された場合（ステップＳ１６４でＮＯ）、ステップＳ１６５において、制御部２２Ｅは、通信部２１Ｅによって受信された動画像及び第１音声のメモリ２３Ｅへの記録を開始する。その後、ステップＳ１６１に処理が戻る。

　一方、認識した動作が所定の動作ではないと判定された場合（ステップＳ１６３でＮＯ）、ステップＳ１６６において、制御部２２Ｅは、作業現場にいる作業者による入力操作に基づき記録の終了を指示する記録終了信号が通信部２１Ｅによって受信されたか否かを判定する。

　ここで、記録終了信号が受信されたと判定された場合（ステップＳ１６６でＹＥＳ）、ステップＳ１６７において、制御部２２Ｅは、通信部２１Ｅによって受信された動画像及び第１音声のメモリ２３Ｅへの記録を終了する。その後、ステップＳ１６１に処理が戻る。

　一方、記録終了信号が受信されていないと判定された場合（ステップＳ１６６でＮＯ）、ステップＳ１６１に処理が戻る。

　このように、作業現場にいる支援者が、予め決められている所定の動作を行うと、動画像及び第１音声のメモリ２３Ｅへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場にいる支援者が所定の動作を行うことによって、動画像及び第１音声をメモリ２３Ｅに記録することができる。

　（実施の形態７）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態７では、予め記憶されている所定のキーワードが、作業現場にいる支援者の声を含む第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図２１は、本実施の形態７に係る作業支援システム１０Ｆの構成を示す図である。

　図２１に示す作業支援システム１０Ｆは、作業端末１Ｆ及びサーバ２Ｆを備える。なお、本実施の形態７において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態７において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者も作業現場にいる。作業現場において、作業者は、作業端末１Ｆを用いて、作業対象に対して支援者が作業を支援している様子を撮影する。

　作業端末１Ｆは、通信部１１Ｆ、制御部１２、メモリ１３、入力部１４、カメラ１５、及びマイクロホン１６を備える。以下の作業端末１Ｆの説明では、実施の形態１の作業端末１と異なる点について説明する。

　通信部１１Ｆは、カメラ１５によって撮影された動画像及びマイクロホン１６によって収集された第１音声をサーバ２Ｆへ送信する。

　サーバ２Ｆは、通信部２１Ｆ、制御部２２Ｆ、及びメモリ２３Ｆを備える。サーバ２Ｆは、情報処理装置の一例である。以下のサーバ２Ｆの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｆは、作業現場において撮影された動画像及び作業現場において収集された第１音声を、作業現場にいる作業者が用いる作業端末１Ｆから受信する。

　メモリ２３Ｆは、所定の開始キーワードを予め記憶するとともに、所定の終了キーワードを予め記憶する。所定の開始キーワードは、例えば、「そこ」又は「あそこ」などの指示代名詞、作業対象の名称、又は作業対象の部品の名称である。また、所定の終了キーワードは、例えば、「記録終了」などの記録を終了するための文言である。なお、所定の開始キーワード及び所定の終了キーワードは、支援者によって入力されてもよい。また、メモリ２３Ｆは、１つの開始キーワードを記憶してもよいし、複数の開始キーワードを記憶してもよい。また、メモリ２３Ｆは、１つの終了キーワードを記憶してもよいし、複数の終了キーワードを記憶してもよい。

　制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定のキーワードが、作業現場にいる支援者の声を含む第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｆへの記録を開始する。また、制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定の終了キーワードが第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｆへの記録を終了する。

　制御部２２Ｆは、通信部２１Ｆによって受信された第１音声に対して音声認識を行い、第１音声をテキスト化する。そして、制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定の開始キーワードが、テキスト化した第１音声に含まれているか否かを判定する。所定の開始キーワードが第１音声に含まれていると判定された場合、制御部２２Ｆは、動画像及び第１音声のメモリ２３Ｆへの記録を開始する。

　例えば、支援者は、作業現場において作業を支援する際に、作業端末１Ｆを装着した作業者と会話する。このとき、支援者は、動画像及び第１音声のサーバ２Ｆへの記録を開始するタイミングで、所定の開始キーワードを発話する。制御部２２Ｆは、所定の開始キーワードが、作業現場で収集された第１音声に含まれている場合、支援者が作業の支援を開始したと判定し、動画像及び第１音声のメモリ２３Ｆへの記録を開始する。

　また、所定の開始キーワードが第１音声に含まれていないと判定された場合、制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定の終了キーワードが、テキスト化した第１音声に含まれているか否かを判定する。所定の終了キーワードが第１音声に含まれていると判定された場合、制御部２２Ｆは、動画像及び第１音声のメモリ２３Ｆへの記録を終了する。例えば、支援者は、動画像及び第１音声のサーバ２Ｆへの記録を終了するタイミングで、所定の終了キーワードを発話する。

　続いて、本開示の実施の形態７における作業端末１Ｆ及びサーバ２Ｆそれぞれによる作業支援処理について説明する。

　なお、本実施の形態７における作業端末１Ｆによる作業支援処理は、図２に示すステップＳ１、ステップＳ２、ステップＳ３、及びステップＳ６の処理と同じであるので、説明を省略する。

　図２２は、本開示の実施の形態７におけるサーバ２Ｆによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ１７１において、通信部２１Ｆは、作業端末１Ｆによって送信された動画像及び第１音声を受信する。

　次に、ステップＳ１７２において、制御部２２Ｆは、通信部２１Ｆによって受信された第１音声に対して音声認識を行い、第１音声をテキスト化する。

　次に、ステップＳ１７３において、制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定の開始キーワードが、テキスト化した第１音声に含まれているか否かを判定する。

　ここで、所定の開始キーワードが第１音声に含まれていると判定された場合（ステップＳ１７３でＹＥＳ）、ステップＳ１７４において、制御部２２Ｆは、動画像及び第１音声のメモリ２３Ｆへの記録を開始する。その後、ステップＳ１７１に処理が戻る。

　一方、所定の開始キーワードが第１音声に含まれていないと判定された場合（ステップＳ１７３でＮＯ）、ステップＳ１７５において、制御部２２Ｆは、メモリ２３Ｆに予め記憶されている所定の終了キーワードが、テキスト化した第１音声に含まれているか否かを判定する。

　ここで、所定の終了キーワードが第１音声に含まれていないと判定された場合（ステップＳ１７５でＮＯ）、ステップＳ１７１に処理が戻る。

　一方、所定の終了キーワードが第１音声に含まれていると判定された場合（ステップＳ１７５でＹＥＳ）、ステップＳ１７６において、制御部２２Ｆは、動画像及び第１音声が記録中であるか否かを判定する。

　ここで、動画像及び第１音声が記録中ではないと判定された場合（ステップＳ１７６でＮＯ）、ステップＳ１７１に処理が戻る。

　一方、動画像及び第１音声が記録中であると判定された場合（ステップＳ１７６でＹＥＳ）、ステップＳ１７７において、制御部２２Ｆは、動画像及び第１音声のメモリ２３Ｆへの記録を終了する。その後、ステップＳ１７１に処理が戻る。

　このように、作業現場にいる支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリ２３Ｆへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場にいる支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリ２３Ｆに記録することができる。

　なお、本実施の形態７では、制御部２２Ｆは、所定の終了キーワードが第１音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｆは、作業者による記録終了ボタンの押下を受け付けてもよい。作業者により記録終了ボタンが押下された場合、作業端末１Ｆは、記録終了信号をサーバ２Ｆへ送信してもよい。サーバ２Ｆの通信部２１Ｆは、作業端末１Ｆによって送信された記録終了信号を受信してもよい。制御部２２Ｆは、作業端末１Ｆによって送信された記録終了信号が受信されたか否かを判定してもよい。記録終了信号が受信されたと判定された場合、制御部２２Ｆは、動画像及び第１音声のメモリ２３Ｆへの記録を終了してもよい。

　また、本実施の形態７において、サーバ２Ｆが、所定の開始キーワードが第１音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｆが、所定の開始キーワードが第１音声に含まれているか否かを判定してもよい。そして、所定の開始キーワードが第１音声に含まれていると判定された場合、作業端末１Ｆは、記録の開始を指示する記録開始信号をサーバ２Ｆへ送信してもよい。サーバ２Ｆは、作業端末１Ｆによって送信された記録開始信号を受信すると、動画像及び第１音声のメモリ２３Ｆへの記録を開始してもよい。また、作業端末１Ｆが、所定の終了キーワードが第１音声に含まれているか否かを判定してもよい。所定の終了キーワードが第１音声に含まれていると判定された場合、作業端末１Ｆは、記録の終了を指示する記録終了信号をサーバ２Ｆへ送信してもよい。サーバ２Ｆは、作業端末１Ｆによって送信された記録終了信号を受信すると、動画像及び第１音声のメモリ２３Ｆへの記録を終了してもよい。

　（実施の形態８）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態８では、遠隔地にいる支援者によって動画像から抽出された静止画像を支援端末から受信したことをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図２３は、本実施の形態８に係る作業支援システム１０Ｇの構成を示す図である。

　図２３に示す作業支援システム１０Ｇは、作業端末１Ｇ、サーバ２Ｇ、及び支援端末３Ｇを備える。なお、本実施の形態８において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態８において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者は遠隔地にいる。

　支援端末３Ｇは、通信部３１Ｇ、制御部３２Ｇ、メモリ３３、表示部３４Ｇ、スピーカ３５、マイクロホン３６、及び入力部３７Ｇを備える。以下の支援端末３Ｇの説明では、実施の形態１の支援端末３と異なる点について説明する。

　入力部３７Ｇは、表示部３４Ｇによって表示された動画像から静止画像を抽出するためのキャプチャ開始ボタンを含む。なお、キャプチャ開始ボタンは、支援者により物理的に押下されるボタンであってもよいし、表示部３４Ｇに表示されてマウスによりクリックされるボタンであってもよい。

　制御部３２Ｇは、キャプチャ開始ボタンが押下されたか否かを判定する。支援者によりキャプチャ開始ボタンが押下されると、制御部３２Ｇは、動画像から静止画像を抽出する。表示部３４Ｇは、動画像から抽出された静止画像を表示するとともに、通信部３１Ｇは、動画像から抽出された静止画像を、サーバ２Ｇを介して周期的に作業端末１Ｇへ送信する。例えば、支援者は、動画像を見ながら、支援が必要な箇所があると、キャプチャ開始ボタンを押下する。これにより、キャプチャ開始ボタンが押下された時点の静止画像が、表示部３４Ｇに表示されるとともに、通信部３１Ｇによってサーバ２Ｇを介して周期的に作業端末１Ｇへ送信される。

　また、入力部３７Ｇは、表示部３４Ｇに表示された静止画像に対する支援者による文字及び記号などの指示情報の入力を受け付ける。例えば、支援者は、具体的な作業を指示するため、表示された静止画像に対し、矢印を書き込んだり、文字を書き込んだりする。通信部３１Ｇは、支援者により入力された指示情報が重畳された静止画像を、サーバ２Ｇを介して周期的に作業端末１Ｇへ送信する。

　また、入力部３７Ｇは、抽出された静止画像の表示及び送信を終了するためのキャプチャ終了ボタンを含む。なお、キャプチャ終了ボタンは、支援者により物理的に押下されるボタンであってもよいし、表示部３４Ｇに表示されてマウスによりクリックされるボタンであってもよい。

　制御部３２Ｇは、キャプチャ終了ボタンが押下されたか否かを判定する。支援者によりキャプチャ終了ボタンが押下されると、表示部３４Ｇは、静止画像の表示を終了するとともに、通信部３１Ｇは、静止画像のサーバ２Ｇへの送信を終了する。

　サーバ２Ｇは、通信部２１Ｇ、制御部２２Ｇ、及びメモリ２３Ｇを備える。サーバ２Ｇは、情報処理装置の一例である。以下のサーバ２Ｇの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｇは、支援端末３Ｇの表示部３４Ｇによって表示された動画像から、支援者によって抽出された静止画像を、支援端末３Ｇから受信する。また、通信部２１Ｇは、支援端末３Ｇから受信した静止画像を作業端末１Ｇへ送信する。

　制御部２２Ｇは、静止画像を受信したことをトリガーとして、動画像及び第１音声のメモリ２３Ｇへの記録を開始する。制御部２２Ｇは、通信部２１Ｇによって静止画像が受信されたか否かを判定する。通信部２１Ｇによって静止画像が受信されたと判定された場合、制御部２２Ｇは、動画像及び第１音声のメモリ２３Ｇへの記録を開始する。

　また、制御部２２Ｇは、動画像及び第１音声の記録が開始された後、静止画像を受信しなくなったことをトリガーとして、動画像及び第１音声のメモリ２３Ｇへの記録を終了する。動画像及び第１音声の記録中に、通信部２１Ｇによって静止画像が受信されていないと判定された場合、制御部２２Ｇは、動画像及び第１音声のメモリ２３Ｇへの記録を終了する。

　なお、制御部２２Ｇは、作業端末１からの動画像及び第１音声だけをメモリ２３Ｇに記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３Ｇからの第２音声とをメモリ２３Ｇに記録してもよい。すなわち、制御部２２Ｇは、支援者による記録開始の操作をトリガーとして、通信部２１Ｇによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｇへの記録を開始してもよい。また、制御部２２Ｇは、支援者による記録終了の操作をトリガーとして、通信部２１Ｇによって受信された動画像、第１音声、及び第２音声のメモリ２３Ｇへの記録を終了してもよい。

　また、制御部２２Ｇは、作業端末１からの動画像及び第１音声と支援端末３Ｇからの第２音声及び静止画像とをメモリ２３Ｇに記録してもよい。すなわち、制御部２２Ｇは、静止画像を受信したことをトリガーとして、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像のメモリ２３Ｇへの記録を開始してもよい。また、制御部２２Ｇは、動画像、第１音声、第２音声、及び静止画像の記録中に静止画像を受信しなくなったことをトリガーとして、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像のメモリ２３Ｇへの記録を終了してもよい。

　さらに、制御部２２Ｇは、作業端末１からの動画像及び第１音声をメモリ２３Ｇに記録せずに、支援端末３Ｇからの第２音声及び静止画像のみをメモリ２３に記録してもよい。すなわち、制御部２２Ｇは、静止画像を受信したことをトリガーとして、通信部２１Ｇによって受信された第２音声及び静止画像のメモリ２３Ｇへの記録を開始してもよい。また、制御部２２Ｇは、第２音声及び静止画像の記録中に静止画像を受信しなくなったことをトリガーとして、通信部２１Ｇによって受信された第２音声及び静止画像のメモリ２３Ｇへの記録を終了してもよい。

　メモリ２３Ｇは、作業端末１からの動画像及び第１音声だけを非一時的に記録するのではなく、作業端末１からの動画像及び第１音声と支援端末３からの第２音声とを非一時的に記録してもよい。すなわち、メモリ２３は、通信部２１によって受信された動画像、第１音声、及び第２音声を非一時的に記録してもよい。

　また、メモリ２３Ｇは、作業端末１Ｇからの動画像及び第１音声と支援端末３Ｇからの第２音声及び静止画像とを非一時的に記録してもよい。すなわち、メモリ２３は、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像を非一時的に記録してもよい。

　作業端末１Ｇは、通信部１１Ｇ、制御部１２Ｇ、メモリ１３、入力部１４、カメラ１５、マイクロホン１６、スピーカ１７、及び表示部２０を備える。以下の作業端末１Ｇの説明では、実施の形態１の作業端末１と異なる点について説明する。

　通信部１１Ｇは、動画像から支援者によって抽出された静止画像を周期的にサーバ２Ｇから受信する。

　表示部２０は、通信部１１Ｇによって受信された静止画像を表示する。これにより、作業者は、動画像から支援者によって抽出された静止画像を見ながら、支援者から作業の支援を受けることができる。また、表示部２０は、支援者により文字及び記号が重畳された静止画像を表示する。これにより、作業者は、文字及び記号が重畳された静止画像を見ながら、支援者からより詳細な作業の支援を受けることができる。なお、作業端末１Ｇは、入力部１４と表示部２０とが一体となったタッチパネルを備えてもよい。

　なお、表示部２０は、カメラ１５によって撮影された動画像を表示してもよい。

　続いて、本開示の実施の形態８における作業端末１Ｇ、サーバ２Ｇ、及び支援端末３Ｇそれぞれによる作業支援処理について説明する。

　図２４は、本開示の実施の形態８における作業端末１Ｇによる作業支援処理について説明するためのフローチャートである。

　ステップＳ１８１～ステップＳ１８５の処理は、図２に示すステップＳ１～ステップＳ５の処理と同じであるので、説明を省略する。

　次に、ステップＳ１８６において、制御部１２Ｇは、通信部１１Ｇによって静止画像が受信されたか否かを判定する。通信部１１Ｇは、サーバ２Ｇによって送信された静止画像を受信する。

　ここで、静止画像が受信されたと判定された場合（ステップＳ１８６でＹＥＳ）、ステップＳ１８７において、表示部２０は、通信部１１Ｇによって受信された静止画像を表示する。

　一方、静止画像が受信されていないと判定された場合（ステップＳ１８６でＮＯ）、ステップＳ１８８に処理が移行する。なお、静止画像の表示中に、静止画像が受信されていないと判定された場合、表示部２０は、静止画像の表示を終了する。

　ステップＳ１８８の処理は、図２に示すステップＳ６の処理と同じであるので、説明を省略する。

　図２５は、本開示の実施の形態８におけるサーバ２Ｇによる作業支援処理について説明するためのフローチャートである。

　ステップＳ１９１～ステップＳ１９４の処理は、図３に示すステップＳ１１～ステップＳ１４の処理と同じであるので、説明を省略する。

　次に、ステップＳ１９５において、制御部２２Ｇは、通信部２１Ｇによって静止画像が受信されたか否かを判定する。通信部２１Ｇは、支援端末３Ｇによって送信された静止画像を受信する。

　ここで、静止画像が受信されたと判定された場合（ステップＳ１９５でＹＥＳ）、ステップＳ１９６において、通信部２１Ｇは、受信した静止画像を作業端末１Ｇへ送信する。

　次に、ステップＳ１９７において、制御部２２Ｇは、動画像、第１音声、第２音声、及び静止画像が記録中であるか否かを判定する。

　ここで、動画像、第１音声、第２音声、及び静止画像が記録中ではないと判定された場合（ステップＳ１９７でＮＯ）、ステップＳ１９８において、制御部２２Ｇは、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像のメモリ２３Ｇへの記録を開始する。その後、ステップＳ１９１に処理が戻る。

　一方、動画像、第１音声、第２音声、及び静止画像が記録中であると判定された場合（ステップＳ１９７でＹＥＳ）、ステップＳ１９１に処理が戻る。

　また、静止画像が受信されていないと判定された場合（ステップＳ１９５でＮＯ）、ステップＳ１９９において、制御部２２Ｇは、動画像、第１音声、第２音声、及び静止画像が記録中であるか否かを判定する。

　ここで、動画像、第１音声、第２音声、及び静止画像が記録中であると判定された場合（ステップＳ１９９でＹＥＳ）、ステップＳ２００において、制御部２２Ｇは、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像のメモリ２３Ｇへの記録を終了する。その後、ステップＳ１９１に処理が戻る。

　一方、動画像、第１音声、第２音声、及び静止画像が記録中ではないと判定された場合（ステップＳ１９９でＮＯ）、ステップＳ１９１に処理が戻る。

　図２６は、本開示の実施の形態８における支援端末３Ｇによる作業支援処理について説明するためのフローチャートである。

　ステップＳ２１１～ステップＳ２１５の処理は、図４に示すステップＳ２１～ステップＳ２５の処理と同じであるので、説明を省略する。

　次に、ステップＳ２１６において、制御部３２Ｇは、入力部３７Ｇのキャプチャ開始ボタンが押下されたか否かを判定する。

　ここで、キャプチャ開始ボタンが押下されたと判定された場合（ステップＳ２１６でＹＥＳ）、ステップＳ２１７において、制御部３２Ｇは、通信部３１Ｇによって受信された動画像から静止画像を抽出する。

　次に、ステップＳ２１８において、表示部３４Ｇは、制御部３２Ｇによって抽出された静止画像を表示する。

　次に、ステップＳ２１９において、入力部３７Ｇは、表示部３４Ｇに表示された静止画像に対する支援者による文字及び記号などの指示情報の入力を受け付ける。

　次に、ステップＳ２２０において、通信部３１Ｇは、動画像から抽出された静止画像をサーバ２Ｇへ送信する。その後、ステップＳ２１１に処理が戻る。なお、支援者により文字及び記号などの指示情報が入力された場合、通信部３１Ｇは、指示情報が重畳された静止画像をサーバ２Ｇへ送信する。また、通信部３１Ｇは、作業端末１Ｇを宛先として、静止画像をサーバ２Ｇへ送信する。これにより、静止画像は、サーバ２Ｇを介して作業端末１Ｇへ送信される。

　一方、キャプチャ開始ボタンが押下されていないと判定された場合（ステップＳ２１６でＮＯ）、ステップＳ２２１において、制御部３２Ｇは、表示部３４Ｇに静止画像が表示中であるか否かを判定する。

　ここで、静止画像が表示中ではないと判定された場合（ステップＳ２２１でＮＯ）、ステップＳ２１１に処理が戻る。

　一方、静止画像が表示中であると判定された場合（ステップＳ２２１でＹＥＳ）、ステップＳ２２２において、制御部３２Ｇは、入力部３７Ｇのキャプチャ終了ボタンが押下されたか否かを判定する。

　ここで、キャプチャ終了ボタンが押下されていないと判定された場合（ステップＳ２２２でＮＯ）、ステップＳ２１８に処理が移行する。

　一方、キャプチャ終了ボタンが押下されたと判定された場合（ステップＳ２２２でＹＥＳ）、ステップＳ２２３において、表示部３４Ｇは、静止画像の表示を終了する。

　次に、ステップＳ２２４において、通信部３１Ｇは、静止画像のサーバ２Ｇへの送信を終了する。

　このように、遠隔地にいる支援者が、支援端末３Ｇの表示部３４Ｇによって表示された動画像から、作業を支援するために用いる静止画像を抽出すると、動画像及び第１音声のメモリ２３Ｇへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が動画像から静止画像を抽出することによって、動画像及び第１音声をメモリ２３Ｇに記録することができる。

　図２７は、本実施の形態８において、支援端末３Ｇの表示部３４Ｇに表示される画面の一例を示す図である。

　表示部３４Ｇは、作業現場を撮影した動画像３５１と、キャプチャ開始ボタン３５２と、キャプチャ終了ボタン３５３とを表示する。支援者によるマウスの操作により、表示部３４Ｇに表示されるポインタがキャプチャ開始ボタン３５２の上に移動され、支援者によりマウスのボタンがクリックされると、動画像３５１から静止画像３５４が抽出され、抽出された静止画像３５４が表示部３４Ｇに表示される。そして、抽出された静止画像３５４がサーバ２Ｇへ送信される。これにより、サーバ２Ｇは、動画像、第１音声、第２音声、及び静止画像の記録を開始する。

　また、静止画像３５４の表示中に、支援者によるマウスの操作により、表示部３４Ｇに表示されるポインタがキャプチャ終了ボタン３５３の上に移動され、支援者によりマウスのボタンがクリックされると、静止画像３５４の表示が終了するとともに、静止画像３５４の送信が終了する。これにより、サーバ２Ｇは、動画像、第１音声、第２音声、及び静止画像の記録を終了する。なお、静止画像３５４の表示が終了すると、動画像３５１が表示される。

　また、入力部３７Ｇは、表示部３４Ｇに表示された静止画像３５４に対する支援者による文字３５５及び記号３５６などの指示情報の入力を受け付ける。支援者は、マウス又はキーボードを用いて、表示部３４Ｇに表示されている静止画像３５４に文字３５５及び記号３５６を書き込む。図２７では、「回す」という文字３５５と、矢印を表す記号３５６とが書き込まれている。指示情報が入力されると、通信部３１Ｇは、指示情報が重畳された静止画像３５４をサーバ２Ｇへ送信する。

　なお、図２７の例では、キャプチャ開始ボタン３５２が押下された場合、表示部３４Ｇは、静止画像３５４のみを表示しているが、本開示は特にこれに限定されない。表示部３４Ｇは、静止画像３５４に動画像３５１を重畳して表示してもよい。例えば、表示部３４Ｇは、静止画像３５４を全画面に表示し、動画像３５１を画面の右下部分に小さく表示してもよい。

　図２８は、本実施の形態８において、作業端末１Ｇの表示部２０に表示される画面の一例を示す図である。

　表示部２０は、作業現場を撮影している動画像２０１と、支援端末３Ｇによって送信された静止画像２０２とを表示する。動画像２０１は、カメラ１５によってリアルタイムに撮影されている動画像である。表示部２０は、動画像２０１を全画面に表示し、静止画像２０２を画面の右下部分に小さく表示する。静止画像２０２に対して指示情報が入力された場合、指示情報が重畳された静止画像２０２が表示される。作業者は、表示部２０に表示された静止画像２０２を見ながら、作業を行うことにより、支援者による支援を受けることができる。

　なお、作業端末１Ｇの制御部１２Ｇは、カメラ１５で撮影された動画像２０１内に静止画像２０２が含まれるか否かを判定してもよい。そして、動画像２０１内に静止画像２０２が含まれると判定された場合、表示部２０は、動画像２０１内における静止画像２０２と一致する領域２０３を強調表示してもよい。図２８では、静止画像２０２と一致する領域２０３が、所定の色の線で囲まれている。所定の色は、例えば赤色である。

　なお、図２８では、表示部２０は、動画像２０１と静止画像２０２とを表示しているが、本開示は特にこれに限定されず、表示部２０は、静止画像２０２のみを表示してもよい。

　また、本実施の形態８では、制御部２２Ｇは、動画像から抽出された静止画像を支援端末３Ｇから受信したことをトリガーとして、動画像及び第１音声のメモリ２３Ｇへの記録を開始するが、本開示は特にこれに限定されない。制御部２２Ｇは、静止画像に指示情報が重畳されたことをトリガーとして、動画像及び第１音声のメモリへの記録を開始してもよい。この場合、制御部２２Ｇは、静止画像が受信されただけでは記録を開始せず、静止画像に指示情報が重畳された場合に記録を開始する。すなわち、制御部２２Ｇは、静止画像が受信された後、静止画像に指示情報が重畳されたか否かを判定してもよい。静止画像に指示情報が重畳されたと判定された場合、制御部２２Ｇは、動画像及び第１音声のメモリへの記録を開始してもよい。

　具体的には、図２５のステップＳ１９７において、動画像、第１音声、第２音声、及び静止画像が記録中ではないと判定された場合（ステップＳ１９７でＮＯ）、制御部２２Ｇは、静止画像に指示情報が重畳されたか否かを判定する。ここで、静止画像に指示情報が重畳されていないと判定された場合、ステップＳ１９１に処理が戻る。一方、静止画像に指示情報が重畳されたと判定された場合、ステップＳ１９８において、制御部２２Ｇは、通信部２１Ｇによって受信された動画像、第１音声、第２音声、及び静止画像のメモリ２３Ｇへの記録を開始する。

　このように、遠隔地にいる支援者が、支援端末３Ｇの表示部３４Ｇによって表示された動画像から、作業を支援するために用いる静止画像を抽出し、静止画像に指示情報を重畳すると、動画像及び第１音声のメモリ２３Ｇへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、遠隔地にいる支援者が動画像から静止画像を抽出し、静止画像に指示情報を重畳することによって、動画像及び第１音声をメモリ２３Ｇに記録することができる。

　また、本実施の形態８において、支援端末３Ｇは、動画像から抽出された静止画像を送信するのではなく、ＣＡＤ（Ｃｏｍｐｕｔｅｒ　Ａｉｄｅｄ　Ｄｅｓｉｇｎ）で作成された作業対象の図面データ、作業対象の操作方法を示す操作マニュアルデータ、又は表示部３４Ｇに表示されている画面全体の画像をサーバ２Ｇを介して作業端末１Ｇへ送信してもよい。制御部２２Ｇは、作業対象の図面データ、作業対象の操作マニュアルデータ、又は支援端末３Ｇの表示部３４Ｇに表示されている画面全体の画像を支援端末３Ｇから受信したことをトリガーとして、動画像及び第１音声のメモリ２３Ｇへの記録を開始してもよい。作業端末１Ｇは、作業対象の図面データ、作業対象の操作マニュアルデータ、又は支援端末３Ｇの表示部３４Ｇに表示されている画面全体の画像を表示してもよい。

　（実施の形態９）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態９では、作業端末から受信したモード情報が支援者が作業端末を用いる第２モードを示すとともに、予め記憶されている所定のキーワードが、作業現場にいる支援者の声を含む第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図２９は、本実施の形態９に係る作業支援システム１０Ｊの構成を示す図である。

　図２９に示す作業支援システム１０Ｊは、作業端末１Ｊ及びサーバ２Ｊを備える。なお、本実施の形態９において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態９において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者も作業現場にいる。作業現場において、支援者は、作業端末１Ｊを用いて、作業を支援しながら、作業対象を撮影する。実施の形態９では、作業者が作業端末１Ｊを用いる場合と、支援者が作業端末１Ｊを用いる場合とがある。

　作業端末１Ｊは、通信部１１Ｊ、制御部１２、メモリ１３、入力部１４Ｊ、カメラ１５、及びマイクロホン１６を備える。以下の作業端末１Ｊの説明では、実施の形態１の作業端末１と異なる点について説明する。

　入力部１４Ｊは、作業者が作業端末１Ｊを用いる第１モードと、支援者が作業端末１Ｊを用いる第２モードとを切り替えるスイッチを含む。作業端末１Ｊを用いる作業者は、第１モードにスイッチを切り替え、作業端末１Ｊを用いる支援者は、第２モードにスイッチを切り替える。

　通信部１１Ｊは、カメラ１５によって取得された動画像、マイクロホン１６によって取得された第１音声、及び入力部１４Ｊによって受け付けた第１モード及び第２モードのいずれかが選択されたかを示すモード情報をサーバ２Ｊへ送信する。

　サーバ２Ｊは、通信部２１Ｊ、制御部２２Ｊ、及びメモリ２３Ｊを備える。サーバ２Ｊは、情報処理装置の一例である。以下のサーバ２Ｊの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｊは、動画像、第１音声、及びモード情報を作業端末１Ｊから受信する。

　メモリ２３Ｊは、所定の開始キーワードを予め記憶するとともに、所定の終了キーワードを予め記憶する。所定の開始キーワードは、例えば、「そこ」又は「あそこ」などの指示代名詞、作業対象の名称、又は作業対象の部品の名称である。また、所定の終了キーワードは、例えば、「記録終了」などの記録を終了するための文言である。なお、所定の開始キーワード及び所定の終了キーワードは、支援者によって入力されてもよい。また、メモリ２３Ｊは、１つの開始キーワードを記憶してもよいし、複数の開始キーワードを記憶してもよい。また、メモリ２３Ｊは、１つの終了キーワードを記憶してもよいし、複数の終了キーワードを記憶してもよい。

　制御部２２Ｊは、通信部２１Ｊによって受信されたモード情報が第２モードを示すとともに、メモリ２３Ｊに予め記憶されている所定の開始キーワードが第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｊへの記録を開始する。また、制御部２２Ｊは、通信部２１Ｊによって受信されたモード情報が第２モードを示すとともに、メモリ２３Ｊに予め記憶されている所定の終了キーワードが第１音声に含まれることをトリガーとして、動画像及び第１音声のメモリ２３Ｊへの記録を終了する。

　より具体的には、制御部２２Ｊは、通信部２１Ｊによって受信されたモード情報が第１モード及び第２モードのいずれを示すかを判定する。モード情報が第２モードを示すと判定した場合、制御部２２Ｊは、通信部２１Ｊによって受信された第１音声に対して音声認識を行い、第１音声をテキスト化する。そして、制御部２２Ｊは、メモリ２３Ｊに予め記憶されている所定の開始キーワードが、テキスト化した第１音声に含まれているか否かを判定する。所定の開始キーワードが第１音声に含まれていると判定された場合、制御部２２Ｊは、動画像及び第１音声のメモリ２３Ｊへの記録を開始する。

　例えば、作業端末１Ｊを装着した支援者は、作業現場において作業を支援する際に、作業者と会話する。制御部２２Ｊは、所定の開始キーワードが、作業現場で収集された第１音声に含まれている場合、支援者が作業の支援を開始したと判定し、動画像及び第１音声のメモリ２３Ｊへの記録を開始する。

　また、所定の開始キーワードが第１音声に含まれていないと判定された場合、制御部２２Ｊは、メモリ２３Ｊに予め記憶されている所定の終了キーワードが、テキスト化した第１音声に含まれているか否かを判定する。所定の終了キーワードが第１音声に含まれていると判定された場合、制御部２２Ｊは、動画像及び第１音声のメモリ２３Ｊへの記録を終了する。

　続いて、本開示の実施の形態９における作業端末１Ｊ及びサーバ２Ｊそれぞれによる作業支援処理について説明する。

　図３０は、本開示の実施の形態９における作業端末１Ｊによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ２５１において、入力部１４Ｊは、作業者が作業端末１Ｊを用いる第１モードと、支援者が作業端末１Ｊを用いる第２モードとのいずれかの支援者又は作業者による選択を受け付ける。作業端末１Ｊを用いる作業者は、第１モードに入力部１４Ｊのスイッチを切り替え、作業端末１Ｊを用いる支援者は、第２モードに入力部１４Ｊのスイッチを切り替える。

　ステップＳ２５２～ステップＳ２５３の処理は、図２に示すステップＳ１～ステップＳ２の処理と同じであるので、説明を省略する。

　次に、ステップＳ２５４において、通信部１１Ｊは、カメラ１５によって取得された動画像、マイクロホン１６によって取得された第１音声、及び入力部１４Ｊによって受け付けた第１モード及び第２モードのいずれかを示すモード情報をサーバ２Ｊへ送信する。このとき、入力部１４Ｊは、動画像、第１音声、及びモード情報の送信を開始するための支援者又は作業者による入力操作を受け付ける。

　次に、ステップＳ２５５において、制御部１２は、動画像、第１音声、及びモード情報の送信を終了するか否かを判定する。このとき、入力部１４Ｊは、動画像、第１音声、及びモード情報の送信を終了するための支援者又は作業者による入力操作を受け付ける。動画像、第１音声、及びモード情報の送信を終了するための入力操作が受け付けられた場合、制御部１２は、動画像、第１音声、及びモード情報の送信を終了すると判定する。また、動画像、第１音声、及びモード情報の送信を終了するための入力操作が受け付けられない場合、制御部１２は、動画像、第１音声、及びモード情報の送信を終了しないと判定する。

　ここで、動画像、第１音声、及びモード情報の送信を終了すると判定された場合（ステップＳ２５５でＹＥＳ）、作業支援処理が終了する。このとき、通信部１１Ｊは、動画像、第１音声、及びモード情報の送信を終了する。

　一方、動画像、第１音声、及びモード情報の送信を終了しないと判定された場合（ステップＳ２５５でＮＯ）、ステップＳ２５２に処理が戻る。

　図３１は、本開示の実施の形態９におけるサーバ２Ｊによる作業支援処理について説明するためのフローチャートである。

　まず、ステップＳ２６１において、通信部２１Ｊは、作業端末１Ｊによって送信された動画像、第１音声、及びモード情報を受信する。

　次に、ステップＳ２６２において、制御部２２Ｊは、通信部２１Ｊによって受信されたモード情報が第２モードを示すか否かを判定する。

　ここで、モード情報が第２モードを示さないと判定された場合、すなわち、モード情報が第１モードを示すと判定された場合（ステップＳ２６２でＮＯ）、ステップＳ２６１に処理が戻る。

　一方、モード情報が第２モードを示すと判定された場合（ステップＳ２６２でＹＥＳ）、ステップＳ２６３において、制御部２２Ｊは、通信部２１Ｊによって受信された第１音声に対して音声認識を行い、第１音声をテキスト化する。

　なお、ステップＳ２６４～ステップＳ２６８の処理は、図２２に示すステップＳ１７３～ステップＳ１７７の処理と同じであるので、説明を省略する。

　このように、作業現場において作業端末１Ｊを用いて作業を支援する支援者が、予め記憶されている所定のキーワードを発話すると、動画像及び第１音声のメモリ２３Ｊへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場において作業端末１Ｊを用いて作業を支援する支援者が所定のキーワードを発話することによって、動画像及び第１音声をメモリ２３Ｊに記録することができる。

　なお、本実施の形態９では、制御部２２Ｊは、所定の終了キーワードが第１音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｊは、支援者による記録終了ボタンの押下を受け付けてもよい。支援者により記録終了ボタンが押下された場合、作業端末１Ｊは、記録終了信号をサーバ２Ｊへ送信してもよい。サーバ２Ｊの通信部２１Ｊは、作業端末１Ｊによって送信された記録終了信号を受信してもよい。制御部２２Ｊは、作業端末１Ｊによって送信された記録終了信号が受信されたか否かを判定してもよい。記録終了信号が受信されたと判定された場合、制御部２２Ｊは、動画像及び第１音声のメモリ２３Ｊへの記録を終了してもよい。

　また、本実施の形態９において、サーバ２Ｊが、モード情報が第２モードを示すか否かを判定するとともに、所定の開始キーワードが第１音声に含まれているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｊが、モード情報が第２モードを示すか否かを判定するとともに、所定の開始キーワードが第１音声に含まれているか否かを判定してもよい。そして、モード情報が第２モードを示すと判定されるとともに、所定の開始キーワードが第１音声に含まれていると判定された場合、作業端末１Ｊは、記録の開始を指示する記録開始信号をサーバ２Ｊへ送信してもよい。サーバ２Ｊは、作業端末１Ｊによって送信された記録開始信号を受信すると、動画像及び第１音声のメモリ２３Ｊへの記録を開始してもよい。また、作業端末１Ｊが、モード情報が第２モードを示すか否かを判定するとともに、所定の終了キーワードが第１音声に含まれているか否かを判定してもよい。モード情報が第２モードを示すと判定されるとともに、所定の終了キーワードが第１音声に含まれていると判定された場合、作業端末１Ｊは、記録の終了を指示する記録終了信号をサーバ２Ｊへ送信してもよい。サーバ２Ｊは、作業端末１Ｊによって送信された記録終了信号を受信すると、動画像及び第１音声のメモリ２３Ｊへの記録を終了してもよい。

　（実施の形態１０）
　実施の形態１では、記録開始信号が受信されたことをトリガーとして、動画像及び第１音声のメモリ２３への記録が開始されるが、実施の形態１０では、作業端末から受信したモード情報が支援者が作業端末を用いる第２モードを示すとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていることをトリガーとして、動画像及び第１音声のメモリへの記録が開始される。

　図３２は、本実施の形態１０に係る作業支援システム１０Ｋの構成を示す図である。

　図３２に示す作業支援システム１０Ｋは、作業端末１Ｊ及びサーバ２Ｋを備える。なお、本実施の形態１０において、実施の形態１，９と同じ構成については同じ符号を付し、説明を省略する。

　実施の形態１０において、作業を行う作業者は作業現場におり、作業者の作業を支援する支援者も作業現場にいる。作業現場において、支援者は、作業端末１Ｊを用いて、作業を支援しながら、作業対象を撮影する。実施の形態１０では、作業者が作業端末１Ｊを用いる場合と、支援者が作業端末１Ｊを用いる場合とがある。

　サーバ２Ｋは、通信部２１Ｋ、制御部２２Ｋ、及びメモリ２３Ｋを備える。サーバ２Ｋは、情報処理装置の一例である。以下のサーバ２Ｋの説明では、実施の形態１のサーバ２と異なる点について説明する。

　通信部２１Ｋは、動画像、第１音声、及びモード情報を作業端末１Ｊから受信する。

　制御部２２Ｋは、通信部２１Ｋによって受信されたモード情報が第２モードを示すとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていることをトリガーとして、動画像及び第１音声のメモリ２３Ｋへの記録を開始する。また、制御部２２Ｋは、動画像及び第１音声のメモリ２３Ｋへの記録が開始された後、通信部２１Ｋによって受信されたモード情報が第２モードを示すとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていないことをトリガーとして、動画像及び第１音声のメモリ２３Ｋへの記録を終了する。

　より具体的には、制御部２２Ｋは、通信部２１Ｋによって受信されたモード情報が第１モード及び第２モードのいずれを示すかを判定する。モード情報が第２モードを示すと判定した場合、制御部２２Ｋは、通信部２１Ｋによって受信された動画像を解析し、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っているか否かを判定する。所定の領域は、動画像を構成する複数の静止画像それぞれの中心を含む領域である。動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていると判定された場合、制御部２２Ｋは、動画像及び第１音声のメモリ２３Ｋへの記録を開始する。

　例えば、作業端末１Ｊを装着した支援者は、作業現場において作業を支援する際に、作業対象を凝視する。このとき、動画像内の所定の領域に同一の物体（作業対象）が所定の時間以上連続して写っている。制御部２２Ｋは、支援者が作業現場で作業対象を凝視している場合、支援者が作業の支援を開始したと判定し、動画像及び第１音声のメモリ２３Ｋへの記録を開始する。

　また、動画像及び第１音声のメモリ２３Ｋへの記録が開始された後、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていないと判定された場合、制御部２２Ｋは、動画像及び第１音声のメモリ２３Ｋへの記録を終了する。

　続いて、本開示の実施の形態１０におけるサーバ２Ｋによる作業支援処理について説明する。

　図３３は、本開示の実施の形態１０におけるサーバ２Ｋによる作業支援処理について説明するためのフローチャートである。

　ステップＳ２７１～ステップＳ２７２の処理は、図３１に示すステップＳ２６１～ステップＳ２６２の処理と同じであるので、説明を省略する。

　次に、ステップＳ２７３において、制御部２２Ｋは、通信部２１Ｋによって受信された動画像を解析する。制御部２２Ｋは、動画像を構成する複数の静止画像それぞれの中心を含む所定の領域に写っている物体を認識する。

　次に、ステップＳ２７４において、制御部２２Ｋは、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っているか否かを判定する。

　ここで、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていると判定された場合（ステップＳ２７４でＹＥＳ）、ステップＳ２７５において、制御部２２Ｋは、動画像及び第１音声のメモリ２３Ｋへの記録を開始する。その後、ステップＳ２７１に処理が戻る。

　一方、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていないと判定された場合（ステップＳ２７４でＮＯ）、ステップＳ２７６において、制御部２２Ｋは、動画像及び第１音声が記録中であるか否かを判定する。

　ここで、動画像及び第１音声が記録中ではないと判定された場合（ステップＳ２７６でＮＯ）、ステップＳ２７１に処理が戻る。

　一方、動画像及び第１音声が記録中であると判定された場合（ステップＳ２７６でＹＥＳ）、ステップＳ２７７において、制御部２２Ｋは、動画像及び第１音声のメモリ２３Ｋへの記録を終了する。その後、ステップＳ２７１に処理が戻る。

　このように、作業現場において作業端末１Ｊを用いて作業を支援する支援者が、作業対象を凝視した場合、動画像内の所定の領域に同一の物体が所定の時間以上連続して写ることになる。そのため、支援者が作業現場において作業端末１Ｊを用いるとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていると、動画像及び第１音声のメモリ２３Ｋへの記録が開始される。したがって、作業者は記録開始の操作を行う必要がなく、作業現場において作業端末１Ｊを用いて作業を支援する支援者が作業対象を凝視することによって、動画像及び第１音声をメモリ２３Ｋに記録することができる。

　なお、本実施の形態１０において、サーバ２Ｋが、モード情報が第２モードを示すか否かを判定するとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っているか否かを判定しているが、本開示は特にこれに限定されない。作業端末１Ｊが、モード情報が第２モードを示すか否かを判定するとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っているか否かを判定してもよい。そして、モード情報が第２モードを示すと判定されるとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていると判定された場合、作業端末１Ｊは、記録の開始を指示する記録開始信号をサーバ２Ｋへ送信してもよい。サーバ２Ｋは、作業端末１Ｊによって送信された記録開始信号を受信すると、動画像及び第１音声のメモリ２３Ｋへの記録を開始してもよい。その後、モード情報が第２モードを示すと判定されるとともに、動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていないと判定された場合、作業端末１Ｊは、記録の終了を指示する記録終了信号をサーバ２Ｋへ送信してもよい。サーバ２Ｋは、作業端末１Ｊによって送信された記録終了信号を受信すると、動画像及び第１音声のメモリ２３Ｋへの記録を終了してもよい。

　実施の形態１～１０において、支援端末又は作業端末は、サーバに記録された動画像及び第１音声の内容に関する情報の支援者又は作業者による入力を受け付けてもよい。

　図３４は、実施の形態１～１０において、支援端末の表示部３４に表示される画面の一例を示す図である。

　表示部３４は、サーバに記録された動画像及び第１音声を再生するとともに、動画像及び第１音声の内容に関する情報の支援者による入力を受け付けるための表示画面３６０を表示する。

　表示画面３６０は、ファイルを検索するための検索条件入力欄３６１、ファイルの選択を受け付けるためのファイル選択欄３６２、選択されたファイルを再生するための再生欄３６３、及びファイルの内容に関する情報の入力を受け付けるための情報入力欄３６４を含む。

　動画像及び第１音声は、１つのファイルとして記録される。サーバのメモリは、作業日時、ユーザ名、設備ＩＤ、通話メモ、イベントメモ、及びファイル名を、ファイルに対応付けて記録する。

　作業日時は、動画像及び第１音声が記録された日時を示す。ユーザ名は、支援者又は作業者の名前を示す。設備ＩＤは、作業が行われた設備を識別するための識別情報を示す。通話メモ及びイベントメモは、ファイルの内容に関する情報を示す。ファイル名は、ファイルの名称を示す。

　支援者は、作業日時、ユーザ名、設備ＩＤ、通話メモ、イベントメモ、及びファイル名の少なくとも１つを検索条件入力欄３６１に入力する。これにより、検索条件入力欄３６１に入力された条件に一致するファイルに関する情報がファイル選択欄３６２に表示される。また、検索条件入力欄３６１に条件が入力されない場合、記録されている複数のファイルに関する情報がファイル選択欄３６２に表示される。ファイル選択欄３６２には、作業日時、ユーザ名、設備ＩＤ、通話メモ、イベントメモ、ファイル名、再生ボタン、ダウンロードボタン、及び削除ボタンが表示される。

　再生ボタンが押下されると、対応するファイルが再生欄３６３に再生される。ダウンロードボタンが押下されると、対応するファイルがサーバから支援端末へダウンロードされる。また、削除ボタンが押下されると、対応するファイルがサーバのメモリから削除される。情報入力欄３６４は、再生欄３６３に再生されるファイルの通話メモ及びイベントメモの入力を受け付ける。

　図３４では、支援端末が表示画面３６０を表示し、支援者による情報の入力を受け付けているが、本開示は特にこれに限定されない。作業端末が表示画面３６０を表示し、作業者による情報の入力を受け付けてもよく、支援端末及び作業端末以外の端末が表示画面３６０を表示し、支援者又は作業者による情報の入力を受け付けてもよい。

　なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。

　本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

　また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

　また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　本開示に係る技術は、メモリに記録するデータ量を削減することができるとともに、作業者の負担を軽減することができるので、作業現場において撮影された動画像及び作業現場において収集された音声をサーバに記録する技術として有用である。

Claims

　コンピュータにより実行される情報処理方法であって、
　作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信することと、
　前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始することと、
　を含む情報処理方法。
　さらに、遠隔地にいる前記支援者による入力操作に基づき前記記録の開始を指示する記録開始信号を、前記支援者が用いる支援端末から受信することを含み、
　前記記録の開始は、前記記録開始信号を受信したことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、前記作業端末の現在の位置を示す位置情報を前記作業端末から受信することを含み、
　前記記録の開始は、前記位置情報で示される前記作業端末の前記位置が、前記作業現場における所定の領域内に入ったことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、遠隔地にいる前記支援者によって指定された前記作業現場における所定の領域を示す領域指定情報を、前記支援者が用いる支援端末から受信することを含み、
　前記記録の開始は、前記位置情報で示される前記作業端末の前記位置が、前記領域指定情報で示される前記所定の領域内に入ったことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項３記載の情報処理方法。
　さらに、遠隔地にいる前記支援者によって指定された前記作業現場における作業対象から発信される無線信号に含まれる識別情報を、前記支援者が用いる支援端末から受信することと、
　さらに、前記作業端末によって受信された前記無線信号に含まれる前記識別情報及び前記作業端末によって測定された前記無線信号の電波強度を含む信号情報を前記作業端末から受信することと、
　を含み、
　前記記録の開始は、前記支援端末から受信した前記識別情報を含む、前記作業端末から受信した前記無線信号の前記電波強度が閾値以上であることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、遠隔地にいる前記支援者が用いる支援端末の周囲の第２音声を前記支援端末から受信することを含み、
　前記記録の開始は、予め記憶されている所定のキーワードが前記第２音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　前記記録の開始は、前記第２音声における前記支援者が発話した発話区間を検出し、検出した前記発話区間内において予め記憶されている前記所定のキーワードが前記第２音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項６記載の情報処理方法。
　前記記録の開始は、受信された前記動画像から、前記作業現場にいる前記支援者の動作を認識し、認識した前記動作が、予め決められている所定の動作であることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　前記記録の開始は、予め記憶されている所定のキーワードが、前記作業現場にいる前記支援者の声を含む前記第１音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、受信した前記動画像及び前記第１音声を、遠隔地にいる前記支援者が用いる支援端末に送信することと、
　さらに、前記支援端末の表示部によって表示された前記動画像から、前記支援者によって抽出された静止画像を、前記支援端末から受信することと、
　を含み、
　前記記録の開始は、前記静止画像を受信したことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、前記支援端末の周囲の第２音声を、前記支援端末から受信することを含み、
　前記記録の開始は、前記静止画像を受信したことをトリガーとして、前記動画像、前記第１音声、前記第２音声、及び前記静止画像の前記メモリへの記録を開始することを含む、
　請求項１０記載の情報処理方法。
　さらに、受信した前記動画像及び前記第１音声を、遠隔地にいる前記支援者が用いる支援端末に送信することと、
　さらに、前記支援端末の表示部によって表示された前記動画像から、前記支援者によって抽出された静止画像を、前記支援端末から受信することと、
　を含み、
　前記静止画像の受信は、前記支援端末を用いて前記支援者により入力された指示情報が重畳された前記静止画像を、前記支援端末から受信することを含み、
　前記記録の開始は、前記静止画像に前記指示情報が重畳されたことをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、前記作業者が前記作業端末を用いる第１モードと、前記支援者が前記作業端末を用いる第２モードとのいずれが選択されたかを示すモード情報を前記作業端末から受信することを含み、
　前記記録の開始は、受信した前記モード情報が前記第２モードを示すとともに、予め記憶されている所定のキーワードが前記第１音声に含まれることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　さらに、前記作業者が前記作業端末を用いる第１モードと、前記支援者が前記作業端末を用いる第２モードとのいずれが選択されたかを示すモード情報を前記作業端末から受信することを含み、
　前記記録の開始は、受信した前記モード情報が前記第２モードを示すとともに、前記動画像内の所定の領域に同一の物体が所定の時間以上連続して写っていることをトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始することを含む、
　請求項１記載の情報処理方法。
　通信部と、
　制御部と、
　メモリと、
　を備え、
　前記通信部は、作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信し、
　前記制御部は、前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声の前記メモリへの記録を開始する、
　情報処理装置。
　作業現場において撮影された動画像及び前記作業現場において収集された第１音声を、前記作業現場にいる作業者が用いる作業端末から受信し、
　前記作業者が行う作業を支援する支援者による記録開始の操作をトリガーとして、前記動画像及び前記第１音声のメモリへの記録を開始するようにコンピュータを機能させる、
　情報処理プログラム。