JP2024542959A - エクステンデッドリアリティシステムのための動的コンテンツ提示 - Google Patents
エクステンデッドリアリティシステムのための動的コンテンツ提示 Download PDFInfo
- Publication number
- JP2024542959A JP2024542959A JP2024523715A JP2024523715A JP2024542959A JP 2024542959 A JP2024542959 A JP 2024542959A JP 2024523715 A JP2024523715 A JP 2024523715A JP 2024523715 A JP2024523715 A JP 2024523715A JP 2024542959 A JP2024542959 A JP 2024542959A
- Authority
- JP
- Japan
- Prior art keywords
- user
- virtual content
- perception
- level
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008447 perception Effects 0.000 claims abstract description 399
- 210000001508 eye Anatomy 0.000 claims abstract description 294
- 238000000034 method Methods 0.000 claims abstract description 131
- 230000004048 modification Effects 0.000 claims abstract description 100
- 238000012986 modification Methods 0.000 claims abstract description 100
- 230000004424 eye movement Effects 0.000 claims abstract description 46
- 230000004434 saccadic eye movement Effects 0.000 claims abstract description 32
- 230000010344 pupil dilation Effects 0.000 claims abstract description 23
- 238000010801 machine learning Methods 0.000 claims description 115
- 230000015654 memory Effects 0.000 claims description 40
- 210000000744 eyelid Anatomy 0.000 claims description 32
- 230000001953 sensory effect Effects 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 abstract description 98
- 230000004397 blinking Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 57
- 210000003128 head Anatomy 0.000 description 49
- 230000004044 response Effects 0.000 description 39
- 238000013528 artificial neural network Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 32
- 238000001514 detection method Methods 0.000 description 28
- 230000007613 environmental effect Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 22
- 230000003287 optical effect Effects 0.000 description 22
- 230000008054 signal transmission Effects 0.000 description 20
- 230000009471 action Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 13
- 208000004350 Strabismus Diseases 0.000 description 12
- 230000003190 augmentative effect Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000004447 accommodation reflex Effects 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 9
- 230000004462 vestibulo-ocular reflex Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 230000004466 optokinetic reflex Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 7
- 206010011469 Crying Diseases 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 6
- 239000011521 glass Substances 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 230000006998 cognitive state Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000002207 retinal effect Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 206010061991 Grimacing Diseases 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000001886 ciliary effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 208000028698 Cognitive impairment Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 210000000695 crystalline len Anatomy 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 239000002887 superconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Abstract
エクステンデッドリアリティ(XR)動作のためのシステム及び技法が説明される。XRシステムは、表示設定に従って、ディスプレイを使用して仮想コンテンツを表示する。表示設定は、例えば、表示される仮想コンテンツの位置、向き、及び/又はサイズを識別することができる。仮想コンテンツが、ディスプレイによって、例えばシースルーディスプレイ又はパススルーディスプレイを使用して表示されるときに、環境がディスプレイを使用して視認可能であり得る。撮像システムは、撮像システムのユーザの片眼又は両眼の1つ又は複数の属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚の程度を判定することができる。属性は、例えば、眼球位置、眼球運動、瞳孔拡張、サッカード、固視、瞬き、及び/又は眼を細めることを識別することができる。XRシステムは、ユーザによる仮想コンテンツに対する知覚の程度に基づいて、表示設定に対する修正を決定することができる。
Description
[0001] 本出願は、画像処理に関する。より具体的には、本出願は、仮想コンテンツに対するユーザの知覚レベルを判定し、仮想コンテンツに対するユーザの判定された知覚レベルに基づいて、仮想コンテンツをユーザに表示するための表示設定を修正するシステム及び方法に関する。
[0002] エクステンデッドリアリティ(extended reality、XR)デバイスは、例えば、ヘッドマウントディスプレイ(head-mounted display、HMD)又は他のデバイスを通して、環境をユーザに表示するデバイスである。環境は、ユーザがいる実世界環境とは少なくとも部分的に異なる。ユーザは、概して、例えば、HMD又は他のデバイスを傾けるか又は移動させることによって、自身の環境のビューを対話式に変更することができる。仮想現実(virtual reality、VR)及び拡張現実(augmented reality、AR)は、XRの例である。
[0003] 場合によっては、XRシステムは、ユーザが、ディスプレイを通過する実世界環境からの光に基づいて、ユーザの実世界環境を見ることを可能にする、光学「シースルー」ディスプレイを含むことができる。場合によっては、XRシステムは、デジタル「パススルー」ディスプレイを含むことができ、デジタル「パススルー」ディスプレイにより、ユーザは、1つ又は複数のカメラによって捕捉されディスプレイに表示された環境のビューに基づいて、ユーザの実世界環境のビュー、又はユーザの実世界環境に基づく仮想環境のビューを見ることを可能にする。光学「シースルー」XRシステム又はデジタル「パススルー」XRシステムは、ユーザが自身の実世界環境において活動に関わっている間、ユーザによって装着することができる。
[0004] XRシステムは、環境のユーザのビューの上に仮想コンテンツをオーバーレイすることができる。仮想コンテンツは、XRシステムのユーザに有用な情報を提供することができる。しかしながら、仮想コンテンツが、ユーザの実世界環境におけるユーザの活動に干渉するか又はそれからユーザの気を散らす可能性がある状況がある。一方で、ユーザが、ユーザにとって有用であった可能性のある、警告などの仮想コンテンツに気付かない可能性がある状況がある。
[0005] いくつかの例では、エクステンデッドリアリティ(XR)コンテンツ管理のためのシステム及び技法が説明される。いくつかの例では、XRシステムは、仮想コンテンツを、この仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させる。表示設定は、例えば、ディスプレイに表示される仮想コンテンツの位置、向き、及び/若しくはサイズ、並びに/又はディスプレイを介して視認可能な環境の部分に対する仮想コンテンツの位置、向き、及び/若しくはサイズを識別することができる。仮想コンテンツが、ディスプレイによって、例えばシースルーディスプレイ又はパススルーディスプレイを介して表示されるときに、環境がディスプレイを介して視認可能であり得る。撮像システムは、撮像システムのユーザの片眼又は両眼の1つ又は複数の位置属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定することができる。撮像システムは、ユーザの片眼又は両眼に面した1つ又は複数のカメラなど、ユーザに焦点を合わせられた1つ又は複数のセンサに基づいて位置属性を判定することができる。位置属性は、例えば、眼球位置、眼球運動、瞳孔拡張、サッカード(saccades)、固視、瞬き、眼を細めること、視運動性反射若しくは反応、前庭動眼反射若しくは反応、調節反射若しくは反応、又はそれらの組み合わせを識別することができる。いくつかの例では、撮像システムによる仮想コンテンツに対する知覚レベルの判定は、ユーザによる仮想コンテンツに対する把握レベルの判定を含むことができる。ユーザによる仮想コンテンツに対する把握レベルは、ユーザによる仮想コンテンツに対する知覚レベル、仮想コンテンツの複雑さ、仮想コンテンツの一意性、ユーザに関連付けられた履歴データ、及び/又はコンテキストデータに基づくことができる。撮像システムは、ユーザによる仮想コンテンツに対する知覚レベル及び/又はユーザによる仮想コンテンツに対する把握レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定することができる。表示設定に対する修正により、例えば、仮想コンテンツの表示を非表示にする、消去する、縮小する、顕著性を下げる、優先順位を下げる、又は終了することができる。表示設定に対する修正により、例えば、仮想コンテンツを強調する、拡大する、移動する、再度向き設定する、顕著性を上げる、かつ/又は優先度を上げることができる。
[0006] 一例では、画像処理のための装置が提供される。装置は、メモリと、メモリに結合された1つ又は複数のプロセッサ(例えば、回路で実装される)とを含む。1つ又は複数のプロセッサは、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させ、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能であり、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定し、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定する、ように構成されており、かつこれらを行うことができる。
[0007] 別の例では、画像処理の方法が提供される。方法は、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させることであって、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である、表示させることと、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定することと、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定することと、を含む。
[0008] 別の例では、命令を記憶した非一時的コンピュータ可読媒体が提供され、命令は、1つ又は複数のプロセッサによって実行されたときに、1つ又は複数のプロセッサに、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるようにさせ、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能であり、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定させ、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定させる。
[0009] 別の例では、画像処理のための装置が提供される。装置は、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるための手段であって、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である、表示させるための手段と、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定するための手段と、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定するための手段と、を含む。
[0010] いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼に関連付けられている。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼の1つ又は複数の属性、ユーザの1つ又は複数の表情の1つ又は複数の属性、及びユーザの1つ又は複数のジェスチャ、のうちの少なくとも1つを含む。
[0011] いくつかの態様では、ディスプレイの少なくとも一部分を通過する環境からの光に少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である。いくつかの態様では、環境のビューをディスプレイによって表示させることに少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である。
[0012] いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、1つ又は複数のトレーニングされた機械学習システムへの入力として、ユーザの1つ又は複数の知覚関連属性を使用することを含む。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ユーザインターフェースを通して、ユーザによる仮想コンテンツに対する知覚レベルに対応するフィードバックを受信することと、フィードバックに基づいて、1つ又は複数のトレーニングされた機械学習システムを更新することと、を更に含む。
[0013] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、1つ又は複数のセンサによって捕捉された、ユーザの1つ又は複数の眼を示す、センサデータを受信することと、センサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定することと、を更に含む。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、1つ又は複数のセンサを更に備える。
[0014] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、1つ又は複数の画像センサによって捕捉されたセンサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定することを更に含み、センサデータが、ユーザの1つ又は複数の眼の1つ又は複数の画像を含む。
[0015] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定することを更に含み、知覚レベルに基づいて表示設定に対する修正を決定することは、把握レベルに基づいて表示設定に対する修正を決定することを含む。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ユーザに関連付けられた履歴情報を受信することを更に含み、ユーザによる仮想コンテンツに対する把握レベルを判定することは、ユーザに関する履歴情報に基づく。
[0016] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、仮想コンテンツの特性を判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、仮想コンテンツの特性に基づく。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、仮想コンテンツの複雑さレベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、仮想コンテンツの複雑さレベルに基づく。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、仮想コンテンツの一意性レベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、仮想コンテンツの一意性レベルに基づく。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、環境に対する仮想コンテンツの独自性レベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、環境に対する仮想コンテンツの独自性レベルに基づく。
[0017] いくつかの態様では、仮想コンテンツに対応する表示設定に対する修正は、ディスプレイに、仮想コンテンツの少なくとも一部分を表示することを停止させることを含む。いくつかの態様では、仮想コンテンツに対応する表示設定に対する修正は、ディスプレイに、仮想コンテンツの少なくとも一部分を、修正の前よりも顕著に表示させることを含む。いくつかの態様では、仮想コンテンツに対応する表示設定に対する修正は、仮想コンテンツの1つ又は複数の特性に対する修正を含み、1つ又は複数の特性は、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、フォント、言語、及びレイアウトのうちの少なくとも1つを含む。
[0018] いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが仮想コンテンツを知覚したと判定することを含む。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが仮想コンテンツを知覚していないと判定することを含む。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが複数の知覚レベルのうちの第1の知覚レベルまで仮想コンテンツを知覚したと判定することを含む。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが複数の知覚レベルのうちの第2の知覚レベルまで仮想コンテンツを知覚したと判定することを含む。
[0019] いくつかの態様では、表示設定に対する修正は、仮想コンテンツが閾値時間内にユーザによって再視認される尤度に基づく。
[0020] いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザによる仮想コンテンツに対する知覚レベルに対応する信頼レベルを判定することを含み、表示設定に対する修正は、信頼レベルに基づく。
[0021] いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、仮想コンテンツに対するユーザの1つ又は複数の眼の1つ又は複数の眼球位置を含む。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1回又は複数回のサッカードの1つ又は複数の特性を含み、1つ又は複数の特性は、頻度、持続時間、タイミング、サッカード速度、サッカード振幅、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1回又は複数回の固視の1つ又は複数の特性を含み、1つ又は複数の特性は、頻度、持続時間、タイミング、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1回又は複数回の瞳孔拡張の1つ又は複数の特性を含み、1つ又は複数の特性は、頻度、持続時間、タイミング、瞳孔拡張レベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の瞼による1回又は複数回の瞬きの1つ又は複数の特性を含み、1つ又は複数の特性は、頻度、持続時間、タイミング、瞬き速度、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの態様では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の瞼による1回又は複数回の眼を細めることの1つ又は複数の特性を含み、1つ又は複数の特性は、頻度、持続時間、タイミング、眼を細めるレベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む。
[0022] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ユーザによる文字列の読解の程度を、仮想コンテンツに対する知覚レベルと文字列の長さとに基づいて判定することを更に含み、仮想コンテンツは、文字列を含む。
[0023] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ディスプレイを更に備える。
[0024] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体は、ユーザの1つ又は複数の眼の表現を含むセンサデータに少なくとも部分的に基づいて、ユーザの1つ又は複数の知覚関連属性のうちの少なくとも1つを判定することを更に含み、1つ又は複数のセンサは、センサデータを捕捉するように構成されている。
[0025] いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定することを含む。いくつかの態様では、ユーザによる仮想コンテンツに対する把握レベルを判定することは、ユーザの1つ又は複数の知覚関連属性と、仮想コンテンツの1つ又は複数の特性、コンテキストデータ、及びユーザのユーザプロファイルのうちの少なくとも1つと、に基づく。いくつかの態様では、ユーザプロファイルは、ユーザに関連付けられた履歴データを含む。いくつかの態様では、コンテキストデータは、仮想コンテンツに対するユーザによる1つ又は複数の反応を含む。いくつかの態様では、コンテキストデータは、XRシステムのロケーションを含む。
[0026] いくつかの態様では、装置は、ウェアラブルデバイス、エクステンデッドリアリティデバイス(例えば、仮想現実(VR)デバイス、拡張現実(AR)デバイス、又は複合現実(mixed reality、MR)デバイス)、ヘッドマウントディスプレイ(HMD)デバイス、ワイヤレス通信デバイス、モバイルデバイス(例えば、携帯電話及び/若しくは携帯ハンドセット並びに/又はいわゆる「スマートフォン」又は他のモバイルデバイス)、カメラ、パーソナルコンピュータ、ラップトップコンピュータ、サーバコンピュータ、車両若しくは車両のコンピューティングデバイス若しくは構成要素、別のデバイス、あるいはそれらの組み合わせであり、それらの一部であり、かつ/又はそれらを含む。いくつかの態様では、装置は、1つ又は複数の画像を捕捉するための1つのカメラ又は複数のカメラを含む。いくつかの態様では、装置は、1つ又は複数の画像、通知、及び/又は他の表示可能なデータを表示するためのディスプレイを更に含む。いくつかの態様では、上記で説明された装置は、1つ又は複数のセンサ(例えば、1つ又は複数のジャイロスコープ、1つ又は複数のジャイロメータ、1つ又は複数の加速度計、それらの任意の組み合わせ、及び/又は他のセンサなどの、1つ又は複数の慣性測定ユニット(inertial measurement units、IMUs)を含み得る。
[0027] 本概要では、特許請求される主題の主要な又は必須の特徴を特定することは意図されず、特許請求される主題の範囲を決定するために独立して使用されることも意図されない。本主題は、この特許の明細書全体、いずれか又は全ての図面、及び各請求項の適切な部分を参照することによって理解されるはずである。
[0028] 上記のことは、他の特徴及び実施形態とともに、以下の明細書、特許請求の範囲、及び添付図面を参照すると、より明らかになろう。
[0029] 本出願の例示的な実施形態について、以下の図面を参照して以下で詳細に説明する。
[0030] いくつかの例による、画像捕捉及び処理システムの例示的なアーキテクチャを示すブロック図である。
[0031] いくつかの例による、ディスプレイを視認しているユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定するためのプロセスを実施するエクステンデッドリアリティ(XR)システムの、例示的なアーキテクチャを示すブロック図である。
[0032] いくつかの例による、エクステンデッドリアリティ(XR)システムとして使用されるヘッドマウントディスプレイ(HMD)を示す斜視図である。
[0033] いくつかの例による、ユーザによって装着されている図3Aのヘッドマウントディスプレイ(HMD)を示す斜視図である。
[0034] いくつかの例による、前向きカメラを含み、エクステンデッドリアリティ(XR)システムとして使用することができるモバイルハンドセットの前面を示す斜視図である。
[0035] いくつかの例による、後ろ向きカメラを含み、エクステンデッドリアリティ(XR)システムとして使用することができるモバイルハンドセットの背面を示す斜視図である。
[0036] いくつかの例による、表示設定に従って表示される仮想コンテンツのオーバーレイ前及びオーバーレイ後の、ボストンの環境の画像を示す概念図である。
[0037] いくつかの例による、表示設定に対する修正前及び修正後に仮想コンテンツがオーバーレイされた状態の、ボストンの環境の画像を示す概念図である。
[0038] いくつかの例による、表示設定に従って表示される仮想コンテンツのオーバーレイ前及びオーバーレイ後の、本を含む画像を示す概念図である。
[0039] いくつかの例による、表示設定に従って表示される仮想コンテンツのオーバーレイ前及びオーバーレイ後の、街路の環境の画像を示す概念図である。
[0040] いくつかの例による、1つ又は複数のトレーニングされた機械学習(machine learning、ML)モデルに基づいて仮想コンテンツに対する知覚レベル及び把握レベルを判定するためのプロセスを示すブロック図である。
[0041] いくつかの例による、エクステンデッドリアリティコンテンツを視認しているユーザの分析のために、トレーニングされた機械学習システムによって使用され得るニューラルネットワークの一例を示すブロック図である。
[0042] いくつかの例による、エクステンデッドリアリティ(XR)表示動作のためのプロセスを示すフロー図である。
[0043] 本明細書で説明される特定の態様を実装するためのコンピューティングシステムの一例を示す図である。
[0044] 本開示の特定の態様及び実施形態が、以下で提供される。当業者に明らかになるように、これらの態様及び実施形態のうちのいくつかが独立して適用されてもよく、それらのうちのいくつかは組み合わせて適用されてもよい。以下の説明では、説明目的で、本出願の実施形態の完全な理解をもたらすために具体的な詳細が記載される。しかしながら、様々な実施形態がこれらの具体的な詳細なしに実践され得ることは明らかであろう。図及び説明は限定的であることが意図されていない。
[0045] 以下の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用可能性、又は構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供する。添付の特許請求の範囲に記載されるような本出願の趣旨及び範囲から逸脱することなく、要素の機能及び構成において様々な変更が加えられてよいことを理解されたい。
[0046] カメラは、画像センサを使用して、光を受け入れるとともに静止画像又はビデオフレームなどの画像フレームを捕捉するデバイスである。「画像」、「画像フレーム」、及び「フレーム」という用語は、本明細書では互換的に使用される。カメラは、様々な画像捕捉及び画像処理設定を用いて構成され得る。異なる設定は、外観の異なる画像をもたらす。ISO、露光時間、開口サイズ、f/ストップ、シャッタ速度、焦点、及び利得などのいくつかのカメラ設定は、1つ又は複数の画像フレームの捕捉の前又はその間に決定されて適用される。例えば、設定又はパラメータは、1つ又は複数の画像フレームを捕捉するための画像センサに適用され得る。コントラスト、明るさ、飽和度、鮮明さ、レベル、曲線、又は色の変更などの他のカメラ設定は、1つ又は複数の画像フレームの後処理を構成し得る。例えば、設定又はパラメータは、画像センサによって捕捉された1つ又は複数の画像フレームを処理するためのプロセッサ(例えば、画像信号プロセッサ又はISP)に適用され得る。
[0047] エクステンデッドリアリティ(XR)システム又はデバイスは、仮想コンテンツをユーザに提供することができ、かつ/又は物理環境(場面)の実世界ビューと(仮想コンテンツを含む)仮想環境とを組み合わせることができる。XRシステムは、そのような組み合わされたXR環境とのユーザ対話を容易にする。実世界ビューは、実世界オブジェクト(物理的オブジェクトとも呼ばれる)、例えば人、車両、建物、テーブル、椅子、及び/又は他の実世界オブジェクト若しくは物理的オブジェクトなどを含むことができる。XRシステム又はデバイスは、異なるタイプのXR環境との対話を容易にすることができる(例えば、ユーザは、XR環境と対話するためにXRシステム又はデバイスを使用することができる)。XRシステムは、仮想現実(VR)環境との対話を容易にするVRシステム、拡張現実(AR)環境との対話を容易にするARシステム、複合現実(MR)環境との対話を容易にするMRシステム、及び/又は他のXRシステムを含むことができる。XRシステム又はデバイスの例は、特に、ヘッドマウントディスプレイ(HMD)、スマートグラスを含む。場合によっては、XRデバイスは、ユーザが仮想コンテンツのアイテムと対話することを可能にするために、ユーザの部分(例えば、ユーザの手及び/又は指先)を追跡することができる。
[0048] 拡張現実(AR)システム、仮想現実(VR)システム、及び/又は複合現実(MR)システムなどのエクステンデッドリアリティ(XR)システムのためのコンテンツ理解及び実世界エンゲージメントを最適化するためのシステム及び技法について本明細書で説明される。XRシステムは、例えば、HMD、AR眼鏡、車両内のヘッドアップディスプレイ、モバイルハンドセット、並びに他のタイプのデバイス及びシステムを含むことができる。
[0049] 場合によっては、XRシステムは、光学「シースルー」又はデジタル「パススルー」ディスプレイ(例えば、シースルー又はパススルーAR HMD又はAR眼鏡)を含むことができ、XRシステムが、ビデオコンテンツを表示することなく、XRコンテンツ(例えば、ARコンテンツ)を実世界ビュー上に直接表示することを可能にする。例えば、ユーザは、ディスプレイ(例えば、眼鏡又はレンズ)を通して物理的オブジェクトを視認し得、ARシステムは、ARコンテンツをディスプレイ上に表示し、1つ又は複数の実世界オブジェクトの強化された視知覚をユーザに提供することができる。一例では、光学シースルーARシステムのディスプレイは、各眼の前にレンズ若しくはガラス(又は両眼にわたる単一のレンズ若しくはガラス)を含むことができる。シースルーディスプレイは、ユーザが実世界オブジェクト又は物理的オブジェクトを直接見ることを可能にすることができ、かつそのオブジェクト又は追加のARコンテンツの(例えば、投影された若しくは別様に表示された)強化された画像を表示することができる。これにより、実世界のユーザの視知覚を拡張することが可能となる。
[0050] 光学シースルーXRシステム又はデジタルパススルーXRシステムは、(ユーザが仮想コンテンツに没入し、実世界が完全に遮蔽されるVRとは対照的に)ユーザが実世界に関わっている間に装着することができる。スマートフォン、PC、及び他のコンピューティングデバイスとは異なり、ヘッドマウントXRデバイス(例えば、スマートグラス、HMDなど)は、顔に装着され、したがってユーザの視覚及び聴覚の感覚チャネルを仲介する。このため、ヘッドマウントXRデバイス上でコンテンツを提示することが、ユーザがユーザの周囲と効果的に対話してユーザの周囲を認識する能力に干渉するか又はそれからユーザの気を散らす可能性がある場合がある。
[0051] XRシステムを動作させるためのXRシステム及び技法が本明細書で説明される。いくつかの例では、XRシステムなどの撮像システムは、仮想コンテンツを、この仮想コンテンツに関連付けられた表示設定に従ってディスプレイを使用して表示させる。表示設定は、例えば、ディスプレイに表示される仮想コンテンツの位置、向き、サイズ、色、及び/若しくはレイアウト、並びに/又はディスプレイを介して視認可能な環境の部分に対する仮想コンテンツの位置、向き、サイズ、色、及び/若しくはレイアウトを識別することができる。環境は、仮想コンテンツが、ディスプレイによって、例えばシースルーディスプレイ又はパススルーディスプレイを介して表示されるときに、ディスプレイを介して視認することができる。撮像システムは、撮像システムのユーザの片眼又は両眼の1つ又は複数の属性に基づいて、ユーザの片眼又は両眼を通して、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定することができる。撮像システムは、ユーザの片眼又は両眼に面した1つ又は複数のカメラなど、ユーザに焦点を合わせられた1つ又は複数のセンサに基づいて属性を判定することができる。眼の位置属性は、例えば、眼球位置、眼球運動、瞳孔拡張、サッカード、固視、瞬き、眼を細めること、視運動反射若しくは反応、前庭動眼反射若しくは反応、調節反射若しくは反応、本明細書で説明される眼及び/若しくは瞼に関連する他の属性、又はそれらの組み合わせを識別することができる。仮想コンテンツに対する知覚レベルは、例えば、ユーザがコンテンツを知覚したか否かを識別することができ、いくつかの事例では、ユーザがコンテンツをどれだけよく知覚したかを更に識別することができる。いくつかの例では、撮像システムによる仮想コンテンツに対する知覚レベルの判定は、ユーザによる仮想コンテンツに対する把握レベルの判定を含むことができる。ユーザによる仮想コンテンツに対する把握レベルは、ユーザによる仮想コンテンツに対する知覚レベル、仮想コンテンツの1つ又は複数の特性、ユーザのユーザプロファイル、コンテキストデータ、又はそれらの組み合わせに基づくことができる。仮想コンテンツの1つ又は複数の特性は、仮想コンテンツの複雑さ、仮想コンテンツの一意性、ディスプレイを介して視認可能な環境に対する仮想コンテンツの独自性、及び/又は同様のものを含み得る。ユーザのユーザプロファイルは、ユーザ及び/又はユーザの現在の能力に関連付けられた履歴データを含み得る。撮像システムは、ユーザによる仮想コンテンツに対する知覚レベル及び/又は仮想コンテンツに対する把握レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定することができる。表示設定に対する修正により、例えば、仮想コンテンツの表示を非表示にする、消去する、縮小する、顕著性を下げる、優先順位を下げる、又は終了することができる。表示設定に対する修正により、例えば、仮想コンテンツを強調する、拡大する、移動する、再度向き設定する、顕著性を上げる、かつ/又は優先度を上げることができる。
[0052] 本明細書で説明されるXRシステム及び技法は、概して、従来のXR技術及びディスプレイ技術に勝る多数の技術的利点及び利益を提供する。例えば、本明細書で説明されるXRシステム及び技法は、ユーザのアクション、知覚、及び/又は把握の検出に基づいて、ユーザへの仮想コンテンツ表示を含む、ユーザへのXRコンテンツ提示のカスタマイズを提供する。例えば、ユーザへの仮想コンテンツ表示は、仮想コンテンツの分析(例えば、仮想コンテンツの複雑さ、仮想コンテンツの一意性、及び環境に対する仮想コンテンツの独自性)、(例えば、教育及び職業及び以前のアクションなどの履歴データに基づく)ユーザ自身の分析、並びに/又はコンテキストの分析に基づく、仮想コンテンツに対するユーザの知覚レベル及び/若しくは把握レベルの分析に基づいてカスタマイズされる。本明細書で説明されるXRシステム及び技法は、特定の仮想コンテンツを他の仮想コンテンツ及び/又は環境のビューよりも優先することによって、限られたディスプレイ面積の使用を最適化する。例えば、本明細書で説明されるXRシステム及び技法は、重要な仮想コンテンツ、例えば差し迫った危険をユーザに警告するコンテンツなどを最適化して強調し、あまり重要でない仮想コンテンツ、例えばユーザがすでに見た、かつ/又は閉じたコンテンツなどを最小化若しくは非表示にする。本明細書で説明されるXRシステム及び技法は、ユーザが運転、料理、又は手術などの極めて重要で潜在的に危険なタスクに集中する必要があるときに仮想コンテンツによる注意散漫を低減し、代わりに、ユーザが極めて重要なタスクを実施するのを助ける仮想コンテンツを強調することによって、XR技術の安全性を改善する。本明細書で説明されるXRシステム及び技法は、ユーザが仮想コンテンツをすでに知覚及び/又は把握していることに基づいて仮想コンテンツをインテリジェントに非表示にしない又は閉じないシステムと比較して、表示される仮想コンテンツの量、及び/又は仮想コンテンツが表示される持続時間を低減することによって、XRシステム効率を改善する。これらの効率利得は、ディスプレイへの、かつディスプレイからの帯域幅使用量若しくはデータの低減、ディスプレイによる電力使用量の低減、ディスプレイ及び/若しくはプロセッサ及び/若しくは関連構成要素によって生成される熱の低減、ディスプレイ及び/若しくはプロセッサ及び/若しくは関連構成要素に必要とされる熱放散の低減、又はそれらの組み合わせを含む。
[0053] 適用例の様々な態様が、図に関して説明される。図1は、画像捕捉及び処理システム100のアーキテクチャを示すブロック図である。画像捕捉及び処理システム100は、1つ又は複数の場面の画像(例えば、場面110の画像)を捕捉して処理するために使用される様々な構成要素を含む。画像捕捉及び処理システム100は、スタンドアロン画像(又は写真)を捕捉することができ、かつ/又は、特定の順序で複数の画像(又はビデオフレーム)を含むビデオを捕捉することができる。システム100のレンズ115は、場面110に面し、場面110から光を受け入れる。レンズ115は、画像センサ130に向かって光を曲げる。レンズ115によって受けられた光は、1つ又は複数の制御機構120によって制御される開口を通過し、画像センサ130によって受けられる。いくつかの例では、場面110は、図2の環境対面センサ210が面している環境などの環境内の場面である。いくつかの例では、場面110は、図2のユーザ対面センサ205が面しているユーザなどのユーザの少なくとも一部分の場面である。例えば、場面110は、ユーザの眼の一方若しくは両方、及び/又はユーザの顔の少なくとも一部分の場面であり得る。
[0054] 1つ又は複数の制御機構120は、画像センサ130からの情報に基づいて、かつ/又は画像プロセッサ150からの情報に基づいて、露光、焦点、及び/又はズームを制御し得る。1つ又は複数の制御機構120は、複数の機構及び構成要素を含み得る。例えば、制御機構120は、1つ又は複数の露光制御機構125A、1つ又は複数の焦点制御機構125B、及び/又は1つ又は複数のズーム制御機構125Cを含み得る。1つ又は複数の制御機構120は、アナログ利得、フラッシュ、HDR、被写界深度、及び/又は他の画像捕捉性質を制御する制御機構などの、示されるもの以外の追加の制御機構を含んでもよい。
[0055] 制御機構120の焦点制御機構125Bは、焦点設定を取得することができる。いくつかの例では、焦点制御機構125Bは、メモリレジスタ内に焦点設定を記憶する。焦点設定に基づいて、焦点制御機構125Bは、画像センサ130の位置に対してレンズ115の位置を調整することができる。例えば、焦点設定に基づいて、焦点制御機構125Bは、モータ又はサーボを作動させることによって画像センサ130のより近く又は画像センサ130からより遠くにレンズ115を動かし、それによって、焦点を調整することができる。場合によっては、画像センサ130の各フォトダイオードの上方の1つ又は複数のマイクロレンズなどの追加のレンズがシステム100の中に含まれてよく、それらは各々、光がフォトダイオードに到達する前に、レンズ115から受けられる光を対応するフォトダイオードに向かって曲げる。焦点設定は、コントラスト検出自動焦点(contrast detection autofocus、CDAF)、位相検出自動焦点(PDAF)、又はそれらの何らかの組み合わせを介して決定されてよい。焦点設定は、制御機構120、画像センサ130、及び/又は画像プロセッサ150を使用して決定されてよい。焦点設定は、画像捕捉設定及び/又は画像処理設定と呼ばれることがある。
[0056] 制御機構120の露光制御機構125Aは、露光設定を取得することができる。場合によっては、露光制御機構125Aは、メモリレジスタ内に露光設定を記憶する。この露光設定に基づいて、露光制御機構125Aは、開口のサイズ(例えば、開口サイズ又はf/ストップ)、開口が開放されている持続時間(例えば、露光時間又はシャッタ速度)、画像センサ130の感度(例えば、ISO速度又はフィルム速度)、画像センサ130によって適用されるアナログ利得、又はそれらの任意の組み合わせを制御することができる。露光設定は、画像捕捉設定及び/又は画像処理設定と呼ばれることがある。
[0057] 制御機構120のズーム制御機構125Cは、ズーム設定を取得することができる。いくつかの例では、ズーム制御機構125Cは、メモリレジスタ内にズーム設定を記憶する。ズーム設定に基づいて、ズーム制御機構125Cは、レンズ115及び1つ又は複数の追加のレンズを含むレンズ要素の組立体(レンズ組立体)の焦点距離を制御することができる。例えば、ズーム制御機構125Cは、1つ又は複数のモータ又はサーボを作動させてレンズのうちの1つ又は複数を互いに対して移動させることによって、レンズ組立体の焦点距離を制御することができる。ズーム設定は、画像捕捉設定及び/又は画像処理設定と呼ばれることがある。いくつかの例では、レンズ組立体は、同焦点ズームレンズ又は可変焦点ズームレンズを含んでよい。いくつかの例では、レンズ組立体は、場面110から光を最初に受け入れる(場合によっては、レンズ115であり得る)集束レンズを含んでよく、次いで、光が画像センサ130に到達する前に、集束レンズ(例えば、レンズ115)と画像センサ130との間の無限焦点ズームシステムを光が通過する。場合によっては、無限焦点ズームシステムは、等しいか又は類似の焦点距離(例えば、閾値差内)の2つの正の(例えば、収束、凸)レンズを、それらの間の負の(例えば、発散、凹)レンズとともに含んでよい。場合によっては、ズーム制御機構125Cは、負のレンズ、及び正のレンズのうちの一方又は両方などの、無限焦点ズームシステムの中のレンズのうちの1つ以上を動かす。
[0058] 画像センサ130は、フォトダイオード又は他の感光素子の1つ又は複数のアレイを含む。各フォトダイオードは、画像センサ130によって生み出される画像の中の特定の画素に最終的には対応する光の量を測定する。場合によっては、異なるフォトダイオードは、異なるカラーフィルタによって覆われてよく、したがって、フォトダイオードを覆うフィルタの色に整合する光を測定してよい。例えば、ベイヤーカラーフィルタは、赤のカラーフィルタ、青のカラーフィルタ、及び緑のカラーフィルタを含み、画像の各画素は、赤のカラーフィルタで覆われる少なくとも1つのフォトダイオードからの赤い光のデータ、青のカラーフィルタで覆われる少なくとも1つのフォトダイオードからの青い光のデータ、及び緑のカラーフィルタで覆われる少なくとも1つのフォトダイオードからの緑色の光のデータに基づいて生成される。他のタイプの色フィルタは、赤色、青色、及び/又は緑色フィルタの代わりに、又はそれらに加えて、黄色、マゼンダ、及び/又はシアン(「エメラルド」とも呼ばれる)色フィルタを使用してよい。いくつかの画像センサは、カラーフィルタが完全になくてよく、代わりに、ピクセルアレイ全体にわたって(場合によっては、垂直方向に積層された)異なるフォトダイオードを使用してもよい。ピクセルアレイ全体にわたる異なるフォトダイオードは、異なるスペクトル感度曲線を有することができ、したがって、光の異なる波長に応答する。モノクロ画像センサも色フィルタがなくてよく、したがって、色深度もなくてよい。
[0059] 場合によっては、画像センサ130は、代替又は追加として、ある時間において、かつ/又はいくつかの角度から、いくつかのフォトダイオード又はいくつかのフォトダイオードの部分に光が到達するのを阻止する不透明なかつ/又は反射性のマスクを含んでよく、それは位相検出自動焦点(PDAF)のために使用されてよい。画像センサ130はまた、フォトダイオードによって出力されたアナログ信号を増幅するためのアナログゲイン増幅器、並びに/又は、フォトダイオードから出力された(及び/若しくはアナログゲイン増幅器によって増幅された)アナログ信号をデジタル信号に変換するためのアナログデジタル変換器(ADC)を含んでよい。場合によっては、その代わりに又は追加として、制御機構120のうちの1つ以上に関して論じるいくつかの構成要素又は機能が画像センサ130内に含まれてよい。画像センサ130は、電荷結合デバイス(charge-coupled device、CCD)センサ、電子増倍CCD(electron-multiplying CCD、EMCCD)センサ、アクティブ画素センサ(active-pixel sensor、APS)、相補型金属酸化物半導体(complimentary metal-oxide semiconductor、CMOS)、N型金属酸化物半導体(N-type metal-oxide-semiconductor、NMOS)、ハイブリッドCCD/CMOSセンサ(例えば、sCMOS)、又はそれらの何らかの他の組み合わせであってよい。
[0060] 画像プロセッサ150は、1つ又は複数の画像信号プロセッサ(image signal processors、ISP)(ISP154を含む)、1つ又は複数のホストプロセッサ(ホストプロセッサ152を含む)、及び/又はコンピューティングシステム1100に関して論じる任意の他のタイプのプロセッサ1110のうちの1つ又は複数などの、1つ又は複数のプロセッサを含んでよい。ホストプロセッサ152は、デジタル信号プロセッサ(digital signal processor、DSP)及び/又は他のタイプのプロセッサであり得る。いくつかの実装形態では、画像プロセッサ150は、ホストプロセッサ152及びISP154を含む単一の集積回路又はチップ(例えば、システムオンチップ又はSoCと呼ばれる)である。場合によっては、チップは、1つ又は複数の入力/出力ポート(例えば、入力/出力(input/output、I/O)ポート156)、中央処理ユニット(central processing units、CPU)、グラフィックス処理ユニット(graphics processing units、GPU)、ブロードバンドモデム(例えば、3G、4G又はLTE(登録商標)、5Gなど)、メモリ、接続性構成要素(例えば、Bluetooth(登録商標)、全地球測位システム(Global Positioning System、GPS)など)、それらの任意の組み合わせ、及び/又は他の構成要素を含んでもよい。I/Oポート156は、インターインテグレーテッドサーキット2(Inter-Integrated Circuit 2、I2C)インターフェース、インターインテグレーテッドサーキット3(Inter-Integrated Circuit 3、I3C)インターフェース、シリアル周辺インターフェース(Serial Peripheral Interface、SPI)インターフェース、シリアル汎用入力/出力(General Purpose Input/Output、GPIO)インターフェース、モバイルインダストリプロセッサインターフェース(Mobile Industry Processor Interface、MIPI)(例えば、MIPI CSI-2物理(physical、PHY)層ポート若しくはインターフェースなど)、高度高性能バス(Advanced High-performance Bus、AHB)バス、それらの任意の組み合わせ、及び/又は他の入力/出力ポートなどの、1つ又は複数のプロトコル又は仕様による、任意の好適な入力/出力ポート又はインターフェースを含み得る。1つの例示的な例では、ホストプロセッサ152は、I2Cポートを使用して画像センサ130と通信することができ、ISP154は、MIPIポートを使用して画像センサ130と通信することができる。
[0061] 画像プロセッサ150は、デモザイク処理、色空間変換、画像フレームダウンサンプリング、画素補間、自動露光(automatic exposure、AE)制御、自動利得制御(automatic gain control、AGC)、CDAF、PDAF、自動ホワイトバランス、HDR画像を形成するための画像フレームの統合、画像認識、対象物認識、特徴認識、入力の受け入れ、出力の管理、メモリの管理、又はそれらの何らかの組み合わせなどの、いくつかのタスクを実施してもよい。画像プロセッサ150は、画像フレーム及び/又は処理された画像を、ランダムアクセスメモリ(random access memory、RAM)140及び/若しくは1120、読取り専用メモリ(read-only memory、ROM)145及び/若しくは1125、キャッシュ、メモリユニット、別の記憶デバイス、又はそれらの何らかの組み合わせに記憶してもよい。
[0062] 様々な入力/出力(I/O)デバイス160が、画像プロセッサ150に接続されてよい。I/Oデバイス160は、ディスプレイスクリーン、キーボード、キーパッド、タッチスクリーン、トラックパッド、タッチ感知面、プリンタ、任意の他の出力デバイス1135、任意の他の入力デバイス1145、又はそれらの何らかの組み合わせを含んでもよい。場合によっては、I/Oデバイス160の物理キーボード若しくはキーパッドを通じて、又はI/Oデバイス160のタッチスクリーンの仮想キーボード若しくはキーパッドを通じて、キャプションが画像処理デバイス105Bに入力されてもよい。I/O160は、システム100と1つ又は複数の周辺デバイスとの間の有線接続を可能にする、1つ又は複数のポート、ジャック、又は他のコネクタを含んでよく、システム100は、それを介して、1つ又は複数の周辺デバイスからデータを受信してよく、かつ/又は1つ又は複数の周辺デバイスへデータを送信してよい。I/O160は、システム100と1つ又は複数の周辺デバイスとの間のワイヤレス接続を可能にする、1つ又は複数のワイヤレストランシーバを含んでよく、システム100は、それを介して、1つ又は複数の周辺デバイスからデータを受信してよく、かつ/又は1つ又は複数の周辺デバイスへデータを送信してよい。周辺デバイスは、前に説明したタイプのI/Oデバイス160のうちのいずれかを含んでよく、ポート、ジャック、ワイヤレストランシーバ、又は他の有線及び/若しくはワイヤレスのコネクタに結合されると、それら自体がI/Oデバイス160とみなされてよい。
[0063] 場合によっては、画像捕捉及び処理システム100は、単一のデバイスであってもよい。場合によっては、画像捕捉及び処理システム100は、画像捕捉デバイス105A(例えば、カメラ)及び画像処理デバイス105B(例えば、カメラに結合されたコンピューティングデバイス)を含む、2つ以上の別々のデバイスであってもよい。いくつかの実装形態では、画像捕捉デバイス105A及び画像処理デバイス105Bは、例えば、1つ又は複数のワイヤ、ケーブル、若しくは他の電気的なコネクタを介して、かつ/又は1つ又は複数のワイヤレストランシーバを介してワイヤレスに、結合されてよい。いくつかの実装形態では、画像捕捉デバイス105A及び画像処理デバイス105Bは、互いから切り離されていてよい。
[0064] 図1に示すように、垂直の破線は、図1の画像捕捉及び処理システム100を、画像捕捉デバイス105A及び画像処理デバイス105Bをそれぞれ表す2つの部分へと分割する。画像捕捉デバイス105Aは、レンズ115と、制御機構120と、画像センサ130とを含む。画像処理デバイス105Bは、画像プロセッサ150(ISP154及びホストプロセッサ152を含む)と、RAM140と、ROM145と、I/O160とを含む。場合によっては、ISP154及び/又はホストプロセッサ152などの、画像捕捉デバイス105Aに示すいくつかの構成要素は、画像捕捉デバイス105Aの中に含まれてよい。
[0065] 画像捕捉及び処理システム100は、モバイル若しくは固定の電話ハンドセット(例えば、スマートフォン、携帯電話など)、デスクトップコンピュータ、ラップトップ若しくはノートブックコンピュータ、タブレットコンピュータ、セットトップボックス、テレビ、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーミングコンソール、ビデオストリーミングデバイス、インターネットプロトコル(Internet Protocol、IP)カメラ、又は任意の他の好適な電子デバイスなどの、電子デバイスを含み得る。いくつかの例では、画像捕捉及び処理システム100は、セルラーネットワーク通信、802.11 wi-fi通信、ワイヤレスローカルエリアネットワーク(wireless local area network、WLAN)通信、又はそれらの何らかの組み合わせなどの、ワイヤレス通信のための1つ又は複数のワイヤレストランシーバを含み得る。いくつかの実装形態では、画像捕捉デバイス105A及び画像処理デバイス105Bは、異なるデバイスであり得る。例えば、画像捕捉デバイス105Aはカメラデバイスを含んでよく、画像処理デバイス105Bは、モバイルハンドセット、デスクトップコンピュータ、又は他のコンピューティングデバイスなどの、コンピューティングデバイスを含み得る。
[0066] 画像捕捉及び処理システム100はいくつかの構成要素を含むものとして示されるが、画像捕捉及び処理システム100は図1に示すものより多数の構成要素を含み得ることを、当業者は諒解されよう。画像捕捉及び処理システム100の構成要素は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの1つ又は複数の組み合わせを含み得る。例えば、いくつかの実装形態では、画像捕捉及び処理システム100の構成要素は、1つ又は複数のプログラマブル電子回路(例えば、マイクロプロセッサ、GPU、DSP、CPU、及び/又は他の適切な電子回路)を含み得る、電子回路若しくは他の電子ハードウェアを含んでよく、かつ/若しくはそれらを使用して実装されてよく、かつ/又は、本明細書において説明する様々な動作を実施するために、コンピュータソフトウェア、ファームウェア、又はそれらの任意の組み合わせを含んでよく、かつ/若しくはそれらを使用して実装されてよい。ソフトウェア及び/又はファームウェアは、コンピュータ可読記憶媒体上に記憶され、画像捕捉及び処理システム100を実装する電子デバイスの1つ又は複数のプロセッサによって実行可能である、1つ又は複数の命令を含み得る。
[0067] 図2は、ディスプレイ225を視認しているユーザによってディスプレイ225を使用して表示された仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定するためのプロセスを実施するエクステンデッドリアリティ(XR)システム200の、例示的なアーキテクチャを示すブロック図である。いくつかの例では、XRシステム200は、少なくとも1つの画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、又はそれらの組み合わせを含む。いくつかの例では、XRシステム200は、少なくとも1つのコンピューティングシステム1100を含む。
[0068] XRシステム200は、1つ又は複数のユーザ対面センサ205を含む。ユーザ対面センサ205は、ユーザの身体の態様及び/又はユーザによる挙動に関する情報を測定及び/又は追跡するセンサデータを捕捉する。いくつかの例では、ユーザ対面センサ205は、ユーザの少なくとも一部分に面した1つ又は複数のカメラを含む。1つ又は複数のカメラは、ユーザの少なくとも一部分の画像を捕捉する1つ又は複数の画像センサを含むことができる。例えば、ユーザ対面センサ205は、ユーザの片眼又は両眼(及び/又は片瞼若しくは両瞼)に焦点を合わせられた1つ又は複数のカメラを含むことができ、カメラの画像センサは、ユーザの片眼又は両眼の画像を捕捉する。1つ又は複数のカメラは、眼捕捉(eye capturing)センサとも呼ばれ得る。いくつかの実装形態では、1つ又は複数のカメラは、経時的に一連の画像を捕捉することができ、それらの画像は、いくつかの例では、時間的順序で一緒に、例えばビデオにシーケンス化され得る。これらの一連の画像は、例えば、ユーザの眼の運動、瞳孔拡張、(瞼を使用した)瞬き、(瞼を使用して)眼を細めること、サッカード、固視、眼の水分レベル、視運動反射若しくは応答、前庭動眼反射若しくは応答、調節反射若しくは応答、本明細書で説明される眼及び/若しくは瞼に関連する他の属性、又はそれらの組み合わせを描写又は別様に示すことができる。図2において、1つ又は複数の、ユーザ対面センサ205は、ユーザの眼に面しており、ユーザの眼の画像を捕捉するカメラとして示されている。ユーザ対面センサ205は、ユーザの身体及び/又は挙動に関する情報を追跡する1つ又は複数のセンサ、例えば、カメラ、メイジセンサ、マイクロフォン、心拍数モニタ、オキシメータ、バイオメトリックセンサ、測位受信機、全地球航法衛星システム(Global Navigation Satellite System、GNSS)受信機、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、光検出及び測距(light detection and ranging、LIDAR)センサ、電波検出及び測距(radio detection and ranging、RADAR)センサ、音検出及び測距(sound detection and ranging、SODAR)センサ、音航法及び測距(sound navigation and ranging、SONAR)センサ、飛行時間(time of flight、ToF)センサ、構造化光センサ、本明細書で論じる他のセンサ、又はそれらの組み合わせなどを含み得る。いくつかの例では、1つ又は複数のユーザ対面センサ205は、少なくとも1つの画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、又はそれらの組み合わせを含む。いくつかの例では、1つ又は複数のユーザ対面センサ205は、コンピューティングシステム1100の少なくとも1つの入力デバイス1145を含むか、又はそれ自体がコンピューティングシステム1100の入力デバイス1145である。
[0069] XRシステム200は、仮想コンテンツを生成する仮想コンテンツ生成器215を含む。仮想コンテンツには、二次元(two-dimensional、2D)形状、三次元(three-dimensional、3D)形状、2Dオブジェクト、3Dオブジェクト、2Dモデル、3Dモデル、2Dアニメーション、3Dアニメーション、2D画像、3D画像、テクスチャ、他の画像の部分、英数字、英数字の文字列、又はそれらの組み合わせを含むことができる。図2において、仮想コンテンツ生成器215によって生成された仮想コンテンツは、四面体として示されている。英数字の文字列を含む仮想コンテンツの例としては、仮想コンテンツ525、仮想コンテンツ530、仮想コンテンツ535、仮想コンテンツ630、及び仮想コンテンツ730が挙げられる。いくつかの例では、仮想コンテンツ生成器215は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、仮想コンテンツ生成器215は、1つ又は複数のハードウェア要素を含む。例えば、仮想コンテンツ生成器215は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、仮想コンテンツ生成器215は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
[0070] XRシステム200は、環境のビューの上に少なくとも部分的にオーバーレイされた仮想コンテンツを表示する、ディスプレイ225を含む。環境のビューは、XRシステム200の周りの実世界環境のビューを含んでもよい。環境のビューは、実世界環境に少なくとも部分的に基づき、少なくとも部分的に仮想である、仮想環境及び/又は混合環境のビューを含んでもよい。いくつかの例では、ディスプレイ225は、出力デバイス1135を含むことができる。いくつかの例では、出力デバイス1135は、ディスプレイ225を含むことができる。
[0071] いくつかの例では、XRシステム200のディスプレイ225は、XRシステム200の周りの実世界環境(場面)からの光がディスプレイ225を横切って(例えば、通過して)ユーザの片眼又は両眼に到達することを可能にする光学「シースルー」ディスプレイである。例えば、ディスプレイ225は、少なくとも部分的に透明、半透明、光透過性、又はそれらの組み合わせであり得る。1つの例示的な例では、ディスプレイ225は、透明、半透明、及び/又は光透過性のレンズと投影器とを含む。投影器は、仮想コンテンツをレンズ上に投影する。レンズは、例えば、眼鏡のレンズ、ゴーグルのレンズ、コンタクトレンズ、ヘッドマウントディスプレイ(HMD)デバイスのレンズ、又はそれらの組み合わせであってもよい。実世界環境からの光は、レンズを通過し、ユーザの片眼又は両眼に到達する。投影器が仮想コンテンツをレンズ上に投影するので、仮想コンテンツは、ユーザの眼の一方又は両方の視点から、ユーザの環境のビューの上にオーバーレイされるように見える。投影器によってレンズ上に投影される仮想コンテンツの位置決めは、表示設定(例えば、第1の表示設定250、第2の表示設定255)によって識別及び/又は示すことができる。合成器220は、表示設定を決定及び/又は修正することができる。
[0072] いくつかの例では、XRシステム200のディスプレイ225は、光学シースルーディスプレイに関して上で論じたレンズを有さない投影器を含む。代わりに、ディスプレイ225は、その投影器を使用して、仮想コンテンツをユーザの片眼又は両眼に投影することができる。いくつかの例では、ディスプレイ225の投影器は、ユーザの片眼又は両眼の、一方又は両方の網膜上に仮想コンテンツを投影することができる。そのようなディスプレイ225は、光学シースルーディスプレイ、仮想網膜ディスプレイ(virtual retinal display、VRD)、網膜走査ディスプレイ(retinal scan display、RSD)、又は網膜投影器(retinal projector、RP)と称され得る。実世界環境(場面)からの光は、依然としてユーザの片眼又は両眼に到達する。投影器が仮想コンテンツをユーザの片眼又は両眼に投影するので、仮想コンテンツは、ユーザの眼の一方又は両方の視点からの環境のユーザのビューの上にオーバーレイされるように見える。投影器によってユーザの片眼又は両眼に投影される仮想コンテンツの位置決めは、表示設定(例えば、第1の表示設定250、第2の表示設定255)によって識別及び/又は示すことができる。合成器220は、表示設定を決定及び/又は修正することができる。
[0073] いくつかの例では、XRシステム200のディスプレイ225は、環境のビューをディスプレイ225上に表示することによってユーザが環境のビューを見ることを可能にする、デジタル「パススルー」ディスプレイである。デジタルパススルーディスプレイに表示される環境のビューは、例えば、XRシステム200の1つ又は複数の環境対面センサ210によって捕捉された(画像)センサデータに基づく、XRシステム200の周りの実世界環境のビューとすることができる。パススルーディスプレイに表示される環境のビューは、実世界環境とは別個であるが実世界環境に基づく、仮想環境又は混合環境のビューであり得る。例えば、仮想環境又は混合環境は、仮想オブジェクト及び/又は背景を含むことができるが、これらは、ユーザ及びXRシステム200が存在する実世界環境内の空間の、領域及び/又は体積の寸法に基づく寸法を有する、空間の領域及び/又は体積にマッピングされ得る。XRシステム200は、ユーザ及びXRシステム200が存在する実世界環境内の、空間の面積及び/又は体積の寸法を決定することができる。いくつかの実装形態では、XRシステムは、環境(例えば、XRシステムの周囲)の画像及び/又は環境の深度データを捕捉するXRシステム200の1つ又は複数の環境対面センサ210を含み得る。これにより、ユーザがディスプレイ225に表示された仮想環境又は混合環境を探索している間に、ユーザが誤って階段を降りたり、壁又は障害物にぶつかったり、さもなければ実世界環境との否定的な相互作用及び/若しくは潜在的に危険な相互作用を有したりしないことを確実にすることができる。
[0074] XRシステム200は、ディスプレイ225がデジタルパススルーディスプレイである例では、合成器220を使用して、仮想コンテンツ生成器215によって生成された仮想コンテンツを、ディスプレイ225に表示された環境の少なくとも一部分の上にオーバーレイすることができる。いくつかの例では、合成器220は、仮想コンテンツが、ディスプレイ225を視認しているユーザの片眼又は両眼の視点から、ディスプレイ225に表示された環境の残りの部分の完全に前にあるように見えるように、ディスプレイ225に表示された環境の上に完全に仮想コンテンツをオーバーレイすることができる。いくつかの例では、合成器220は、仮想コンテンツが、ディスプレイ225を視認しているユーザの片眼又は両眼の視点から、ディスプレイ225に表示された環境のいくつかの部分の前にあるが、ディスプレイ225に表示された環境の他の部分の背後にあるように見えるように、ディスプレイ225に表示された環境の部分の上に仮想コンテンツの少なくとも一部分をオーバーレイすることができる。したがって、合成器220は、仮想コンテンツにシミュレートされた深度を提供し、仮想コンテンツの部分の上に、ディスプレイ225に表示された環境の部分をオーバーレイすることができる。このシミュレートされた深度の例が図5Bに示されており、この場合、表示設定555に従って、レッド・アワーバックの像の頭部が部分的に仮想コンテンツ530の一部分の上にオーバーレイされている。
[0075] XRシステム200は、ディスプレイ225が光学シースルーディスプレイである例では、合成器220を使用して、実世界環境の一部分が仮想コンテンツ生成器215によって生成された仮想コンテンツによってオーバーレイされないようにすることができる。いくつかの例では、合成器220は、仮想コンテンツが、ディスプレイ225を視認しているユーザの片眼又は両眼の視点から、実世界環境の少なくとも一部分の背後にあるように見えるように、仮想コンテンツをディスプレイ上の実世界環境の上に部分的にのみオーバーレイすることができる。いくつかの例では、合成器220は、仮想コンテンツが、ディスプレイ225を視認しているユーザの片眼又は両眼の視点から、実世界環境の少なくとも一部分の背後にあり、かつ実世界環境の他の部分の前にあるように見えるように、仮想コンテンツをディスプレイ上の実世界環境の上に部分的にのみオーバーレイすることができる。したがって、合成器220は、仮想コンテンツにシミュレートされた深度を提供し、実世界環境の部分が仮想コンテンツによってオーバーレイされないようにすることができる。環境に対する仮想コンテンツの位置決めは、表示設定(例えば、第1の表示設定250、第2の表示設定255)によって識別及び/又は示すことができる。合成器220は、表示設定を決定及び/又は修正することができる。
[0076] XRシステム200の1つ又は複数の環境対面センサ210は、ユーザから離れて、かつ/又は実世界環境の一部分に、指し示され、方向付けられ、かつ/又は焦点を合わせられた1つ又は複数のセンサである。例えば、1つ又は複数の環境対面センサ210は、ユーザが、かつ/又はXRシステム200の前面が面している方向に、指し示され、方向付けられ、かつ/又は面することができる。環境対面センサ210は、実世界環境に関する情報を測定及び/又は追跡するセンサデータを捕捉する。いくつかの例では、環境対面センサ210は、実世界環境の少なくとも一部分に面した1つ又は複数のカメラを含む。1つ又は複数のカメラは、実世界環境の少なくとも一部の画像を捕捉する1つ又は複数の画像センサを含むことができる。例えば、環境対面センサ210は、実世界環境(例えば、XRシステム200の周囲)に焦点を合わせられた1つ又は複数のカメラを含むことができ、カメラの画像センサは、実世界環境(例えば、周囲)の画像を捕捉する。そのようなカメラは、経時的に一連の画像を捕捉することができ、いくつかの例では、それらの画像は、時間的順序で一緒に、例えばビデオにシーケンス化され得る。これらの一連の画像は、例えば、床、地面、壁、天井、空、水、植物、ユーザ以外の他の人、ユーザの身体の部分(例えば、腕又は脚)、構造物、車両、動物、デバイス、他のオブジェクト、又はそれらの組み合わせを描写又は別様に示すことができる。図2において、1つ又は複数の環境対面センサ210は、家(構造物の一例)に面したカメラとして示されている。いくつかの例では、1つ又は複数の環境対面センサ210は、少なくとも1つの画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、又はそれらの組み合わせを含む。いくつかの例では、1つ又は複数の環境対面センサ210は、コンピューティングシステム1100の少なくとも1つの入力デバイス1145を含むか、又はそれ自体がコンピューティングシステム1100の入力デバイス1145である。
[0077] 環境対面センサ210は、カメラ、画像センサ、測位受信機、全地球航法衛星システム(GNSS)受信機、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、光検出及び測距(LIDAR)センサ、電波検出及び測距(RADAR)センサ、音検出及び測距(SODAR)センサ、音航法及び測距(SONAR)センサ、飛行時間(ToF)センサ、構造化光センサ、本明細書で論じる他のセンサ、又はそれらの組み合わせを含み得る。
[0078] いくつかの例では、XRシステム200はまた、1つ又は複数の追加のセンサ208として、カメラ、画像センサ、測位受信機、全地球航法衛星システム(GNSS)受信機、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、光検出及び測距(LIDAR)センサ、電波検出及び測距(RADAR)センサ、音検出及び測距(SODAR)センサ、音航法及び測距(SONAR)センサ、飛行時間(ToF)センサ、構造化光センサ、本明細書で論じる他のセンサ、又はそれらの組み合わせなどを含むことができる。いくつかの実装形態では、追加のセンサ208は、ユーザ対面センサ205及び/又は環境対面センサ210からのセンサ読み取り値を補完又は精緻化し得る。例えば、仮想コンテンツのユーザ知覚の判定を(例えば、ユーザによる首振り又は頷きを検出することによって)精緻化するために、属性エンジン230によって、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、又は他のセンサが使用される。別の例では、仮想コンテンツのシミュレートされた深度を作成するときにディスプレイによってオーバーレイされないようにすべき実世界環境の部分(例えば、識別可能なオブジェクト)を識別するために、合成器220によって、深度センサ、光検出及び測距(LIDAR)センサ、電波検出及び測距(RADAR)センサ、音検出及び測距(SODAR)センサ、音航法及び測距(SONAR)センサ、飛行時間(ToF)センサが使用されてもよい。
[0079] XRシステム200は、合成器220を含む。合成器220は、ユーザがディスプレイ225を通して視認する環境における(環境内の)仮想コンテンツのビューを構成する、合成する、かつ/又は組み合わせる。XRシステム200の合成器220は、ディスプレイ225のための表示設定の第1のセット(例えば、第1の表示設定250)を決定することができる。XRシステム200の合成器220は、ディスプレイ225のための表示設定の第1のセットを修正して、ディスプレイ225のための表示設定の第2のセット(例えば、第2の表示設定255)を生成することができる。ディスプレイ225がデジタル「パススルー」ディスプレイであるXRシステム200では、合成器220は、環境のビューを仮想コンテンツ生成器215によって生成された仮想コンテンツと(例えば環境対面センサ210からのセンサデータに基づいて)合成する、合成する、かつ/又は組み合わせる画像を生成することができる。合成器220によって生成される表示設定は、仮想コンテンツの、並びに/又は仮想コンテンツの特定の要素若しくは部分の、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、レイアウト、及び/若しくは仮想コンテンツの他の性質を示すことができる。ディスプレイ225が光学「シースルー」ディスプレイであるXRシステム200では、合成器220は、ディスプレイ225によって表示される(例えば、ディスプレイ225の投影器によってレンズ上に投影される)仮想コンテンツ並びに/又は仮想コンテンツの特定の要素若しくは部分の、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、及び/若しくは他の性質を示す表示設定を生成することができる。ディスプレイ225が仮想網膜ディスプレイ(VRD)であるXRシステム200では、合成器220は、ディスプレイ225によって表示される(例えば、ディスプレイ225の投影器によってユーザの片眼若しくは両眼に投影される)仮想コンテンツ並びに/又は仮想コンテンツの特定の要素若しくは部分の、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、及び/若しくは他の性質を示す表示設定を生成することができる。図2において、(XRシステム200の左側にある)合成器220は、(四面体によって表される)仮想コンテンツを、(家によって表される)環境のビューに追加するものとして示されている。図2において、(XRシステム200の左側の)ディスプレイ225は、(四面体によって表される)仮想コンテンツのビュー及び(家によって表される)環境のビューの両方を、表示及び/又は提供するディスプレイとして示されている。いくつかの例では、合成器220は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、合成器220は、1つ又は複数のハードウェア要素を含む。例えば、合成器220は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、合成器220は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
[0080] XRシステム200は、ユーザ対面センサ205からのセンサデータに基づいて1つ又は複数の知覚関連属性を決定する、属性エンジン230を含む。ユーザの知覚関連属性は、ユーザの1つ若しくは複数の眼の1つ若しくは複数の属性、ユーザの表情の1つ若しくは複数の属性、ユーザの1つ若しくは複数のジェスチャ、又は上記の組み合わせを含むことができる。例えば、ユーザの属性は、特定の時間におけるユーザの片眼又は両眼の位置、ユーザの片眼又は両眼の運動、ユーザの片眼又は両眼のサッカードの眼球位置、ユーザの片眼又は両眼のサッカードの眼球運動、ユーザの片眼又は両眼のサッカード回数、ユーザの片眼又は両眼のサッカード頻度、ユーザの片眼又は両眼のサッカード持続時間、ユーザの片眼又は両眼の固視の眼球位置、ユーザの片眼又は両眼の固視の眼球運動、ユーザの片眼又は両眼の固視回数、ユーザの片眼又は両眼の固視頻度、ユーザの片眼又は両眼の固視持続時間、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼の瞬き位置、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼の瞬き運動、ユーザの一方若しくは両方の眼及び/又は瞼の瞬き回数、ユーザの一方若しくは両方の眼及び/又は瞼の瞬き頻度、ユーザの一方若しくは両方の眼及び/又は瞼の瞬き持続時間、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼を細める位置、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼を細める運動、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼を細める回数、ユーザの一方若しくは両方の眼及び/又は瞼の、眼及び/又は瞼を細める頻度、ユーザの一方若しくは両方の眼及び/又は瞼を細める持続時間、ユーザの一方若しくは両方の眼及び/又は瞼を細める程度又はレベル、ユーザの片眼又は両眼の注視眼球位置、ユーザの片眼又は両眼の注視回数、ユーザの片眼又は両眼の注視頻度、ユーザの片眼又は両眼の注視持続時間、ユーザの片眼又は両眼の注視程度又はレベル、ユーザの片眼又は両眼の瞳孔拡張の眼球位置、ユーザの片眼又は両眼の瞳孔拡張の眼球運動、ユーザの片眼又は両眼の瞳孔拡張回数、ユーザの片眼又は両眼の瞳孔拡張頻度、ユーザの片眼又は両眼の瞳孔拡張持続時間、ユーザの片眼又は両眼の瞳孔拡張の程度又はレベル、ユーザの片眼又は両眼の水晶体形状(例えば、毛様体筋を使用した調節に関連付けられる)、ユーザの片眼又は両眼の水晶体形状の変化(例えば、毛様体筋を使用した調節に関連付けられる)、ユーザの片眼又は両眼の水晶体形状の変化の回数、ユーザの片眼又は両眼の水晶体形状の変化の頻度、ユーザの片眼又は両眼の水晶体形状の変化の程度、ユーザの頭部の頭部傾斜回数、ユーザの頭部の頭部傾斜頻度、ユーザの頭部の頭部傾斜持続時間、ユーザの頭部の頭部傾斜程度又はレベル、ユーザの頭部の頭部傾斜回数、ユーザの頭部の頭部傾斜頻度、ユーザの頭部の頭部傾斜持続時間、ユーザの頭部の頭部傾斜程度又はレベル、ユーザによる頭部傾斜中のユーザの片眼又は両眼の眼球位置、ユーザによる頭部傾斜中のユーザの片眼又は両眼の眼球運動、ユーザの頭部の首振り回数、ユーザの頭部の首振り頻度、ユーザの頭部の首振り持続時間、ユーザの頭部の首振り程度又はレベル、ユーザの頭部の首振り回数、ユーザの頭部の首振り頻度、ユーザの頭部の首振り持続時間、ユーザの頭部の首振り程度又はレベル、ユーザによる首振り中のユーザの片眼又は両眼の眼球位置、ユーザによる首振り中のユーザの片眼又は両眼の眼球運動、ユーザの頭部の頷き回数、ユーザの頭部の頷き頻度、ユーザの頭部の頷き持続時間、ユーザの頭部の頷き程度又はレベル、ユーザの頭部の頷き回数、ユーザの頭部の頷き頻度、ユーザの頭部の頷き持続時間、ユーザの頭部の頷き程度又はレベル、ユーザによる頭部の頷き中のユーザの片眼又は両眼の眼球位置、ユーザによる頭部の頷き中のユーザの片眼又は両眼の眼球運動、ユーザによる微笑み回数、ユーザによる微笑み頻度、ユーザによる微笑み持続時間、ユーザによる微笑み程度又はレベル、ユーザによる微笑み回数、ユーザによる微笑み頻度、ユーザによる微笑み持続時間、ユーザによる微笑み程度又はレベル、ユーザによる微笑み中のユーザの片眼又は両眼の眼球位置、ユーザによる微笑み中のユーザの片眼又は両眼の眼球運動、ユーザによる笑いの回数、ユーザによる笑いの頻度、ユーザによる笑いの持続時間、ユーザによる笑いの程度又はレベル、ユーザによる笑いの回数、ユーザによる笑いの頻度、ユーザによる笑いの持続時間、ユーザによる笑いの程度又はレベル、ユーザによる笑いの間のユーザの片眼又は両眼の眼球位置、ユーザによる笑いの間のユーザの片眼又は両眼の眼球運動、ユーザによる眼を細める回数、ユーザによる眼を細める頻度、ユーザによる眼を細める持続時間、ユーザによる眼を細める程度又はレベル、ユーザによる眼を細める回数、ユーザによる眼を細める頻度、ユーザによる眼を細める持続時間、ユーザによる眼を細める程度又はレベル、ユーザによる眼を細めている間のユーザの片眼又は両眼の眼球位置、ユーザによる眼を細めている間のユーザの片眼又は両眼の眼球運動、ユーザによる泣いた回数、ユーザによる泣いた頻度、ユーザによる泣いた持続時間、ユーザによる泣いた程度又はレベル、ユーザによる泣いた回数、ユーザによる泣いた頻度、ユーザによる泣いた持続時間、ユーザによる泣いた程度又はレベル、ユーザによる泣いている間のユーザの片眼又は両眼の眼球位置、ユーザによる泣いている間のユーザの片眼又は両眼の眼球運動、ユーザの片眼又は両眼の水分レベル、ユーザの片眼又は両眼の乾燥レベル、ユーザの片眼又は両眼の視運動性反射又は反応の眼球位置、ユーザの片眼又は両眼の視運動性反射又は反応の眼球運動、ユーザの片眼又は両眼の視運動性反射又は反応の回数、ユーザの片眼又は両眼の視運動性反射又は反応の頻度、ユーザの片眼又は両眼の視運動性反射又は反応の持続時間、ユーザの片眼又は両眼の前庭眼反射又は反応の眼球位置、ユーザの片眼又は両眼の前庭眼反射又は反応の眼球運動、ユーザの片眼又は両眼の前庭眼反射又は反応の回数、ユーザの片眼又は両眼の前庭眼反射又は反応の頻度、ユーザの片眼又は両眼の前庭眼反射又は反応持続時間、本明細書で説明される眼及び/又は瞼に関連する他の属性、ユーザの片眼又は両眼の調節反射又は反応の眼球位置、ユーザの片眼又は両眼の調節反射又は反応の眼球運動、ユーザの片眼又は両眼の調節反射又は反応の回数、ユーザの片眼又は両眼の調節反射又は反応の頻度、ユーザの片眼又は両眼の調節反射又は反応の持続時間、又はそれらの組み合わせを含み得る。
[0081] 図2において、属性エンジン230は、ユーザの眼の視線方向(黒い実線矢印によって表される)の運動(点線矢印によって表される)を識別するものとして示されている。いくつかの例では、属性エンジン230は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、属性エンジン230は、1つ又は複数のハードウェア要素を含む。例えば、属性エンジン230は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、属性エンジン230は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。いくつかの例では、属性エンジン230は、1つ若しくは複数の人工知能(artificial intelligence、AI)アルゴリズム及び/又は1つ若しくは複数の機械学習(ML)システムを含む、かつ/又は実行する。1つ若しくは複数のAIアルゴリズム及び/又はMLシステムは、ユーザ対面センサ205からのセンサデータを入力として受信することができ、属性を出力することができる。属性エンジン230の1つ又は複数のMLシステムの例は、第1のトレーニングされたMLモデル825及び/又はニューラルネットワーク900を含む。
[0082] XRシステム200は、(例えば、ユーザの片眼又は両眼を使用して)ユーザによる仮想コンテンツに対する知覚レベルを判定及び/又は推定する、知覚エンジン235を含む。知覚エンジン235は、属性エンジン230が識別する知覚関連属性に基づいて、かつ/又はユーザ焦点センサ205からのセンサデータに直接基づいて、仮想コンテンツに対するユーザ知覚レベルを判定及び/又は推定する。知覚エンジン235は、合成器220によって生成されるような仮想コンテンツのための表示設定(例えば、表示設定250)に基づいて、仮想コンテンツに対するユーザ知覚レベルを判定及び/又は推定する。知覚エンジン235は、表示設定(例えば、表示設定250)を使用して、仮想コンテンツがディスプレイ225に沿って表示される場所を識別することができる。知覚エンジン235は、属性エンジン230が識別する知覚関連属性を使用して、ユーザの片眼又は両眼がどこを見ているか、ユーザの片眼又は両眼がどのように動いているか、ユーザの片眼又は両眼が見ている間に眼を細めている程度、ユーザの片眼又は両眼が瞬きしている程度、ユーザの片眼又は両眼が固視している程度、ユーザの片眼又は両眼がサッカードを行っている程度、ユーザが微笑んでいる程度、ユーザが笑っている程度、ユーザが顔をしかめている程度、ユーザが泣いている程度、又はそれらの組み合わせを判定することができる。知覚エンジン235は、ユーザが仮想コンテンツ及び/又は仮想コンテンツの近くを見たか、ユーザが仮想コンテンツ及び/又は仮想コンテンツの近くをどれだけ長く見たか、ユーザの視線と仮想コンテンツの位置とがどれだけ密接に位置合わせされているかなどを判定することができる。知覚エンジン235は、例えば、ユーザがディスプレイ225に表示された仮想コンテンツ及び/又は別のコンテンツに焦点を合わせていることを示すものとして、眼を細めること及び/又は固視を解釈してもよい。知覚エンジン235は、例えば、ユーザが仮想コンテンツ及び/又はディスプレイ225に表示された別のコンテンツを潜在的に見逃す(例えば、知覚しない)ことを示すものとして、瞬き及び/又はサッカードを解釈してもよい。知覚エンジン235によって出力される、ユーザによる仮想コンテンツに対する知覚レベルは、例えば、仮想コンテンツがディスプレイ225に表示されている間に、ユーザが自分の眼を閉じた場合、かつ/又は仮想コンテンツの位置から非常に遠くを見た場合、ユーザによる仮想コンテンツに対する知覚が全くないことを示す値であり得る。知覚エンジン235によって出力される、ユーザによる仮想コンテンツに対する知覚レベルは、例えば、ユーザが、仮想コンテンツが長時間表示される位置を凝視していた場合、ユーザによる仮想コンテンツの非常に高い知覚を示す値であり得る。知覚エンジン235によって出力される、ユーザによる仮想コンテンツに対する知覚レベルは、上記の知覚なしの例よりも高い知覚レベルを示す値と、上記の高い知覚の例よりも低い知覚レベルを示す値との間の値であり得る。知覚エンジン235によって判定され出力される、仮想コンテンツに対する知覚レベルは、仮想コンテンツに対する知覚の程度及び/又は仮想コンテンツに対する知覚のメトリックと呼ぶことができる。
[0083] 図2において、知覚エンジン235は、ユーザの眼の視線方向(黒い実線矢印によって表される)が仮想コンテンツ(四面体によって表される)の位置に一致するかどうかを識別するものとして示されている。いくつかの例では、知覚エンジン235は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、知覚エンジン235は、1つ又は複数のハードウェア要素を含む。例えば、知覚エンジン235は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、知覚エンジン235は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。いくつかの例では、知覚エンジン235は、1つ若しくは複数のAIアルゴリズム及び/又は1つ若しくは複数のMLシステムを含む、かつ/又は実行する。1つ若しくは複数のAIアルゴリズム及び/又は1つ若しくは複数のMLシステムは、属性エンジン230によって生成された1つ又は複数の知覚関連属性(及び/又はユーザ対面センサ205によって捕捉されたセンサデータ)を入力として受信することができ、ユーザによる仮想コンテンツに対する知覚レベルを出力することができる。知覚エンジン235の1つ又は複数のMLシステムの例は、第2のトレーニングされたMLモデル835及び/又はニューラルネットワーク900を含む。
[0084] XRシステム200は、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを判定及び/又は推定する、把握エンジン240を含む。把握エンジン240は、知覚エンジン235によって判定された、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを、判定及び/又は推定する。いくつかの例では、把握エンジン240は、仮想コンテンツ評価エンジン245による仮想コンテンツの分析に基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを、判定及び/又は推定する。いくつかの例では、把握エンジン240は、ユーザに関連付けられた履歴データに基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを、判定及び/又は推定する。
[0085] いくつかの例では、XRシステム200は、仮想コンテンツ評価エンジン245を含む。仮想コンテンツ評価エンジン245は、仮想コンテンツの分析を生成する。いくつかの例では、仮想コンテンツ評価エンジン245は、仮想コンテンツの複雑さ、仮想コンテンツの一意性、又はそれらの組み合わせに基づいて、仮想コンテンツの分析を生成する。いくつかの例では、仮想コンテンツ評価エンジンは、一意性に基づいてメトリックを決定する。一意性は、仮想コンテンツがディスプレイ225上に(例えば、以前に)表示された場合、どのくらいしばしば(例えば、どのくらいの回数及び/又はどのくらいの頻度)であるかの尺度であってよい。仮想コンテンツが、ディスプレイ225上に非常に頻繁に表示されるメッセージ又はオブジェクトを含む場合、仮想コンテンツは、仮想コンテンツが低い一意性を有すると決定し得る。仮想コンテンツが、以前にディスプレイ225に表示されたことがないメッセージ又はオブジェクトを含む場合、仮想コンテンツ評価エンジン245は、仮想コンテンツが高い一意性を有すると決定し得る。仮想コンテンツが、ディスプレイ225上にまれに(例えば、以前に1回又は2回)表示されたメッセージ又はオブジェクトを含む場合、仮想コンテンツ評価エンジン245は、仮想コンテンツが中程度の一意性を有すると決定し得る。一意性は、可能な値の範囲内(例えば、低、中、高、及びこれらのうちの任意の2つの間の1つ又は複数の値)にあり得る。いくつかの例では、一意性は、一意性スコア、一意性レベル、一意性メトリック、又は一意性程度と呼ばれることがある。
[0086] いくつかの例では、仮想コンテンツは、英数字の文字列(例えば、テキストの文字列)を含む。仮想コンテンツ評価エンジン245は、文字列の長さに少なくとも部分的に基づいて、仮想コンテンツの複雑さを評価することができ、より長い文字列は、より短い文字列よりも高い複雑さを有する。仮想コンテンツ評価エンジン245は、仮想コンテンツにおける命令のセットに含まれるステップの数に少なくとも部分的に基づいて、仮想コンテンツの複雑さメトリックを生成することができる。例えば、仮想コンテンツ評価エンジン245は、より多くのステップを有する命令を含む仮想コンテンツに対してより高い複雑さメトリックを提供し、より少ないステップを有する命令を含む仮想コンテンツに対してより低い複雑さメトリックを提供することができる。仮想コンテンツ評価エンジン245は、仮想コンテンツ評価エンジン245によって決定された、文字列に含まれる単語の複雑さに少なくとも部分的に基づいて、仮想コンテンツの複雑さを分析することができる。例えば、仮想コンテンツ評価エンジン245は、より一般的な日常の単語(例えば、「今日」、「止まる」、「続く」)よりも高度な専門用語(例えば、「半導体」、「排気ガスケット」、「アンチサイホンバルブ」)に、より高い複雑さを割り当てることができる。仮想コンテンツ評価エンジン245は、より少ない複雑な単語、並びに/又はより多くの複雑でない単語及び/若しくはあまり複雑でない単語(例えば、一般的及び/又は単純な単語)を含む文字列よりも、より多くの複雑な単語を含む文字列に、より高い複雑さを割り当てるか又は提供することができる。仮想コンテンツ評価エンジン245は、仮想コンテンツ評価エンジン245によって決定された、文字列に含まれる任意の方程式又は式の複雑さに少なくとも部分的に基づいて、仮想コンテンツの複雑さを分析することができる。例えば、仮想コンテンツ評価エンジン245は、より少ない変数を含む、かつ/又は数学のより低い難易度レベルに対応する方程式若しくは式よりも、より多くの変数を含む、かつ/又は数学のより高い難易度レベルに対応する方程式若しくは式に、より高い複雑さを割り当てることができる。仮想コンテンツ評価エンジン245は、より少ない複雑な方程式若しくは式、及び/又はあまり複雑でないより多くの方程式若しくは式を含む文字列よりも、より複雑な方程式若しくは式を含む文字列に、より高い複雑さを割り当てることができる。複雑さは、可能な値の範囲内(例えば、低、中、高、及びこれらのうちの任意の2つの間の1つ又は複数の値)にあり得る。いくつかの例では、複雑さは、複雑さスコア、複雑さレベル、複雑さメトリック、又は複雑さ程度と呼ばれることがある。
[0087] 仮想コンテンツ評価エンジン245は、仮想コンテンツに記述された主題を理解又は把握するために必要とされる事前知識の推定量に少なくとも部分的に基づいて、仮想コンテンツについての複雑さメトリックを生成することができる。例えば、仮想コンテンツ評価エンジン245は、高レベルの事前知識に関連付けられた主題を含む仮想コンテンツにより高い複雑さを割り当て、より低いレベルの事前知識を必要とする主題を含む仮想コンテンツにより低い複雑さを割り当てることができる。高レベル及び低レベルの事前知識は、例えば、主題が典型的に教えられかつ/又は学習され得る課程に関連付けることができる。例えば、より低いレベルの事前知識を必要とする主題は、典型的には(小学校)3年生で教えられかつ/又は学習される主題であってもよく、一方、より高いレベルの事前知識を必要とする主題は、典型的には大学院(例えば、別の大学院課程及び多数の学部課程が前提条件である特定の大学院課程)で教えられかつ/又は学習される主題であってもよい。例えば、微分方程式又はバナッハ空間を記述する仮想コンテンツは、ピタゴラスの定理を記述する仮想コンテンツよりも高いレベルの事前知識を必要とする。仮想コンテンツ評価エンジン245は、仮想コンテンツに含まれる単語に基づいて、仮想コンテンツの主題を決定することができる。仮想コンテンツ評価エンジン245は、主題を、主題に関連付けられた事前知識の対応するレベルを識別するルックアップテーブルと比較することができる。
[0088] 仮想コンテンツ評価エンジン245は、仮想コンテンツの1つ若しくは複数の形状、オブジェクト、画像、及び/又はテクスチャの複雑さに少なくとも部分的に基づいて、仮想コンテンツの複雑さメトリックを生成することができる。例えば、仮想コンテンツ評価エンジン245は、あまり複雑でない多角形及び/又は多面体を含む仮想コンテンツよりも、より複雑な多角形及び/又は多面体を含む仮想コンテンツに、より高い複雑さを割り当てることができる。図2において、仮想コンテンツ評価エンジン245は、低複雑さ(三角形によって表される)から、中複雑さ(四面体によって表される)、高複雑さ(星形十二面体によって表される)までの複雑さを識別するものとして示されている。
[0089] 場合によっては、仮想コンテンツを評価するために、仮想コンテンツ評価エンジン245は、仮想コンテンツについての複雑さメトリック及び一意性メトリックを決定することができる。仮想コンテンツ評価エンジン245は、複雑さメトリック及び一意性メトリックを、仮想コンテンツのための単一のメトリックに変換することができる。単一のメトリックは、複雑さメトリックと一意性メトリックとに基づく融合メトリックであり、複雑さメトリックと一意性メトリックとの積、和、又は平均であることができる。1つの例示的な例では、仮想コンテンツは、「警告:熱いストーブ!」という通知を含むことができ、この場合、仮想コンテンツ評価エンジン245は、1の値を有する複雑さメトリック及び2の値を有する一意性メトリックを割り当てることができる。仮想コンテンツ評価エンジン245は、1×2=2の値を有する単一のメトリックを決定することができる。別の例示的な例では、仮想コンテンツは、「塩を加え、混合物が泡立ってフォーム状になるまでルーを撹拌してください」という通知を含むことができ、この場合、仮想コンテンツ評価エンジン245は、複雑さメトリックが3の値を有すること及び一意性メトリックが5の値を有することを決定することができる。仮想コンテンツ評価エンジン245は、3×5=15の値を有する単一のメトリックを決定することができる。
[0090] ユーザに関連付けられた履歴データは、ある高校、高校の卒業生、ある大学、大学の卒業生、ある大学院(graduate school)、大学院の卒業生、ある大学院(post-graduate school)、大学院の卒業生など、ユーザの教育レベルを含み得る。ユーザに関連付けられた履歴データは、専攻、副専攻、研究分野、授業科目、学校又はプログラム(例えば、工学部、生命科学部)など、ユーザの教育における専門分野を含み得る。ユーザに関連付けられた履歴データは、ユーザの仕事、キャリア、職業、及び/又は専門職を含み得る。ユーザに関連付けられた履歴データは、ユーザの取引履歴、ユーザの閲覧履歴、ユーザのゲームプレイ履歴、ユーザの仮想コンテンツ視認履歴、ユーザのロケーション履歴、ユーザの居住履歴などを含み得る。ユーザに関連付けられた履歴データは、ユーザの年齢、時刻(例えば、ユーザが疲れているかどうかを示してもよい)、以前に提示された仮想コンテンツに対するユーザの把握又は理解の履歴、以前に提示された仮想コンテンツに対する(例えば、フィードバックエンジン260を介した)ユーザのフィードバックの履歴、以前に提示された仮想コンテンツによって要求又は提案されたアクションをユーザが成功裏に完了した履歴などを含み得る。
[0091] 把握エンジン240は、知覚エンジン235によって判定された、ユーザによる仮想コンテンツに対する知覚レベル、仮想コンテンツ評価エンジン245による仮想コンテンツの分析、ユーザに関連付けられた履歴データ、又はそれらの組み合わせに基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを、判定及び/又は推定する。例えば、知覚エンジン235が、ユーザが仮想コンテンツを10秒間見たことを示し、仮想コンテンツが仮想コンテンツ評価エンジン245から低い一意性及び低い複雑さの評価を受信し、かつ仮想コンテンツが、ユーザの履歴データに基づいてユーザが非常に精通している主題に関する場合、把握エンジン240は、ユーザが仮想コンテンツを、高い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。一方、知覚エンジン235が、ユーザが仮想コンテンツを5秒間見たことを示し、仮想コンテンツが仮想コンテンツ評価エンジン245から高い一意性及び高い複雑さの評価を受信し、かつ仮想コンテンツが、ユーザの履歴データに基づいてユーザが精通している主題に関していない場合、把握エンジン240は、ユーザが仮想コンテンツを、低い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。把握エンジン240によって判定され出力される、仮想コンテンツの把握及び/又は理解レベルは、仮想コンテンツの把握及び/若しくは理解の程度、並びに/又は仮想コンテンツの把握及び/若しくは理解のメトリックと呼ぶことができる。
[0092] 知覚レベルと、仮想コンテンツ評価エンジン245からの評価と、ユーザに関連付けられた履歴データとの異なる組み合わせにより、把握エンジン240が、ユーザによる仮想コンテンツに対する把握及び/又は理解の異なるレベルを判定及び/又は推定することをもたらし得る。例えば、仮想コンテンツが、ユーザの履歴データに基づいてユーザが非常に精通している主題に関する場合、把握エンジン240は、仮想コンテンツが、仮想コンテンツ評価エンジン245から高い一意性及び高い複雑さの評価を受信した場合であっても、かつ/又は知覚エンジン235が、ユーザが仮想コンテンツを比較的短時間見たことを示す場合であっても、ユーザが仮想コンテンツを合理的に高い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。知覚エンジン235が、ユーザが仮想コンテンツを長時間見たことを示す場合、把握エンジン240は、仮想コンテンツが仮想コンテンツ評価エンジン245から高い一意性及び高い複雑さの評価を受信した場合であっても、かつ/又は仮想コンテンツがユーザの履歴データに基づいてユーザが精通している主題に関していない場合であっても、ユーザが仮想コンテンツを合理的に高い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。知覚エンジン235が、仮想コンテンツ評価エンジン245が仮想コンテンツを低い一意性及び/又は低い複雑さを有するものとして評価したことを示す場合、把握エンジン240は、知覚エンジン235が、ユーザが仮想コンテンツを比較的短時間見たことを示す場合であっても、かつ/又は仮想コンテンツがユーザの履歴データに基づいてユーザが精通している主題に関していない場合であっても、ユーザが仮想コンテンツを合理的に高い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。
[0093] いくつかの例では、把握エンジン240は、属性エンジン230によって判定された知覚関連属性に基づいて、ユーザによる仮想コンテンツの把握及び/又は理解レベルを、判定及び/又は推定することができる。例えば、把握エンジン240は、属性エンジン230によって判定された知覚関連属性が、ユーザが例えば、微笑むこと、笑うこと、顔をしかめること、泣くこと、頷くこと、首を振ること、頭部を傾けること、又は仮想コンテンツに関連する何かを言うことよって仮想コンテンツに反応しているように見えることを示す場合、仮想コンテンツの把握及び/又は理解レベルのその判定及び/又は推定を増加させることができる。いくつかの例では、把握エンジン240は、属性エンジン230によって判定された知覚関連属性が、ユーザが例えば、顔をしかめること、泣くこと、(例えば、「いいえ」の動きで)首を振ること、又は言葉で否定的な感情を表現することによって仮想コンテンツに否定的に反応しているように見えることを示す場合、これらは、仮想コンテンツを高レベルで理解することができないユーザの能力に起因してユーザが動揺又はいら立っていることを示し得るので、仮想コンテンツの把握及び/又は理解レベルのその判定及び/又は推定を減少させることができる。
[0094] いくつかの例では、把握エンジン240は、コンテキストデータに基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを、判定及び/又は推定することができる。コンテキストデータには、例えば、仮想コンテンツに対するユーザによる反応を含むことができる。いくつかの例では、把握エンジン240は、仮想コンテンツが、ユーザが実施することを要求する、又はユーザが実施することを提案するアクションを、ユーザが実施したという識別に基づいて、ユーザによる仮想コンテンツの把握及び/又は理解レベルのその判定及び/又は推定を増加させることができる。例えば、仮想コンテンツが、ユーザがオブジェクトを拾い上げることを要求し、XRシステム200が、(例えば、ユーザ対面センサ205及び/又は環境対面センサ210からのセンサデータに基づいて)ユーザがオブジェクトを拾い上げたと判定した場合、把握エンジン240は、ユーザが仮想コンテンツを高い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。いくつかの例では、把握エンジン240は、仮想コンテンツが、ユーザが行うことを要求又は提案するものとは反対のアクションをユーザが実施したという識別に基づいて、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのその判定及び/又は推定を減少させることができる。例えば、仮想コンテンツが、ユーザが特定の街路に曲がることを要求する運転指示を提供し、XRシステム200が、(例えば、ユーザ対面センサ205及び/又は環境対面センサ210からのセンサデータに基づいて)ユーザがその街路を曲がっていないと判定した場合、把握エンジン240は、ユーザが仮想コンテンツを低い把握及び/又は理解レベルまで把握及び/又は理解したと、判定及び/又は推定することができる。
[0095] コンテキストデータには、例えば、ユーザ及び/又は環境内で検出された他のオブジェクトのロケーション、XRシステム200のロケーション、XRシステム200の状態(例えば、低バッテリ又は高バッテリ)、時刻、XRシステム200のユーザインターフェースを介して受信されたユーザ入力、XRシステムによって表示された以前の仮想コンテンツ、ディスプレイ225の解像度、ユーザ及び/又はXRシステム200の移動速度、XRシステム200の周りの環境が静的であるか動的であるか、環境障害物検出、環境雑音レベル、第2の人物がユーザに話しかけていること、又はそれらの何らかの組み合わせを含むことができる。いくつかの例では、把握エンジン240は、ユーザが運転中ではなく歩行中である場合、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのより高い判定及び/又は推定を提供することができる。なぜなら、ユーザは、歩行中よりも運転中の方が仮想コンテンツによってより注意散漫になり得るからである。XRシステム200は、場合によっては、安全性を向上させるために、ユーザが運転を停止するまで仮想コンテンツの表示を遅延させてもよい。いくつかの例では、把握エンジン240は、ユーザ及び/又はXRシステム200の周りの環境雑音レベルが、環境雑音レベルがより高い場合よりも低い場合に、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのより高い判定及び/又は推定を提供することができる。なぜなら、より低い環境雑音レベルは、より高い環境雑音レベルよりも、ユーザにとって仮想コンテンツによる注意散漫がより少ないことを示唆するからである。いくつかの例では、把握エンジン240は、ユーザに話しかけている第2の人物がいない場合よりも、第2の人物がユーザに話しかけている場合に、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのより低い判定及び/又は推定を提供することができる。なぜなら、ユーザに話しかけている第2の人物が仮想コンテンツからユーザの気を散らすからである。いくつかの例では、把握エンジン240は、ユーザ及び/又はXRシステム200がより速い速度ではなくより遅い速度で移動している場合に、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのより高い判定及び/又は推定を提供することができる。なぜなら、ユーザは、より遅い速度で移動している間よりも、より速い速度で移動しているときに、仮想コンテンツによってより注意散漫になる可能性があるからである。XRシステム200は、ユーザが車両を運転又は別様に操作している場合の安全性を向上させるために、ユーザがより遅い速度に減速するまで仮想コンテンツの表示を遅延させてもよい。いくつかの例では、把握エンジン240は、早朝又は深夜よりも午後の間に、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルのより高い判定及び/又は推定を提供することができる。なぜなら、ユーザは早朝又は深夜よりも午後の間の疲労がより少ない可能性が高いからである。
[0096] 把握エンジン240によって出力される、ユーザによる仮想コンテンツに対する把握又は理解レベルは、例えば、仮想コンテンツがディスプレイ225に表示されている間に、ユーザが自分の眼を閉じた場合、かつ/又は仮想コンテンツの位置から非常に遠くを見た場合、ユーザによる仮想コンテンツに対する把握又は理解が全くないことを示す値であり得る。把握エンジン240によって出力される、ユーザによる仮想コンテンツに対する把握又は理解レベルは、ユーザによる仮想コンテンツの非常に高い知覚を示す値とすることができ、例えば、仮想コンテンツが長期間表示される位置をユーザが凝視していた場合、仮想コンテンツは低い複雑さを有し、仮想コンテンツは低い一意性を有し、かつユーザに関連付けられた履歴データは、ユーザが、仮想データが関している主題に非常に精通していることを示す。把握エンジン240によって出力される、ユーザによる仮想コンテンツに対する知覚レベルは、上記の把握又は理解なしの例よりも高い知覚レベルを示す値と、上記の高い把握又は理解の例よりも低い知覚レベルを示す値との間の値であり得る。
[0097] 図2において、把握エンジン240は、仮想コンテンツ(四面体によって表される)からユーザの心への点線矢印によって表される、ユーザが仮想コンテンツを把握又は理解しているかどうかを識別するものとして示されている。いくつかの例では、把握エンジン240は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、把握エンジン240は、1つ又は複数のハードウェア要素を含む。例えば、把握エンジン240は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、把握エンジン240は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。いくつかの例では、把握エンジン240は、1つ若しくは複数のAIアルゴリズム及び/又は1つ若しくは複数のMLシステムを含む、かつ/又は実行する。1つ若しくは複数のAIアルゴリズム及び/又は1つ若しくは複数のMLシステムは、属性エンジン230によって生成された1つ又は複数の知覚関連属性(及び/又はユーザ焦点センサ205によって捕捉されたセンサデータ)を入力として受信することができ、仮想コンテンツに対する知覚レベルを出力することができる。把握エンジン240の1つ又は複数のMLシステムの例は、第3のトレーニングされたMLモデル865及び/又はニューラルネットワーク900を含む。
[0098] 合成器220及びディスプレイ225は両方とも、図2のXRシステム200内に2回、すなわちXRシステム200の左側に1回、XRシステム200の右側に1回示されている。合成器220及びディスプレイ225のこれらの2つのインスタンスは、同じ合成器220及び/又は同じディスプレイ225を、異なる時点で表すことができることを理解されたい。例えば、XRシステム200の左側に示された合成器220及びディスプレイ225は、第1の表示設定250を生成する合成器220と、第1の表示設定250に基づいて環境のビューの上にオーバーレイされた仮想コンテンツを表示するディスプレイ225とを表す。XRシステム200の右側に示された合成器220及びディスプレイ225は、第1の表示設定250を少なくとも部分的に修正することによって第2の表示設定255を生成する合成器220と、第2の表示設定255に基づいて環境のビューの上にオーバーレイされた仮想コンテンツを表示するディスプレイ225とを表す。
[0099] 合成器220は、1つ又は複数のファクタに基づいて第2の表示設定255を生成するために、第1の表示設定250の修正を実施することができる。これらのファクタには、例えば、知覚エンジン235によって判定されるような、ユーザによる仮想コンテンツに対する知覚レベル、把握エンジン240によって判定されるような、ユーザによる仮想コンテンツに対する把握及び/又は理解レベル、属性エンジン230によって判定されるユーザの知覚関連属性、ユーザに関する履歴データ、コンテキストデータ、ユーザ対面センサ205からのセンサデータ、環境対面センサ210からのセンサデータ、又はそれらの組み合わせを含むことができる。第2の表示設定255を生成するための合成器220による第1の表示設定250の修正は、仮想コンテンツの態様を変更することができる。例えば、修正により、仮想コンテンツの、並びに/又は仮想コンテンツの特定の要素若しくは部分の、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、及び/若しくは他の性質を変更することができる。いくつかの例では、修正により、ディスプレイ225上の仮想コンテンツの表示を削除する、消去する、非表示にする、かつ/又は終了することができる。場合によっては、修正により、ディスプレイ225上に表示するための追加の仮想コンテンツを追加することができる。1つの例示的な例では、知覚エンジン235が、ユーザが仮想コンテンツを高レベルまで知覚したことを示し、かつ/又は把握エンジン240が、ユーザが仮想コンテンツを高レベルまで把握したことを示した場合、合成器220は、ディスプレイ225に表示された仮想コンテンツを縮小するか、又はディスプレイ225上の仮想コンテンツの表示を終了することさえできる。一方、知覚エンジン235が、ユーザが仮想コンテンツを低レベルまで知覚したことを示し、かつ/又は把握エンジン240が、ユーザが仮想コンテンツを低レベルまで把握したことを示すが、属性エンジン230からの知覚関連属性が、ユーザが仮想コンテンツを知覚及び/又は把握しようとしていることを示した場合、合成器220は、ディスプレイ225に表示されたサイズ、仮想コンテンツを大きくし、かつ/又は仮想コンテンツの英数字列のフォントサイズを大きくすることができ、ユーザの注意散漫を低減するために、ディスプレイ225上の他の仮想コンテンツの表示を縮小及び/又は終了させることができる。
[0100] 図2において、XRシステム200の左側の合成器220は、(四面体によって表される)仮想コンテンツが小さい、第1の表示設定250に従って、(家によって表される)環境のビューに、(四面体によって表される)仮想コンテンツを追加するものとして示されている。図2において、XRシステム200の左側のディスプレイ225は、(四面体によって表される)仮想コンテンツ及び(家によって表される)環境のビューの両方のビューを、(四面体によって表される)仮想コンテンツが小さい、第1の表示設定250に従って、表示及び/又は提供するディスプレイとして示されている。図2において、XRシステム200の右側の合成器220は、(四面体によって表される)仮想コンテンツが大きい、第2の表示設定255に従って、(家によって表される)環境のビューに、(四面体によって表される)仮想コンテンツを追加するものとして示されている。図2において、XRシステム200の右側のディスプレイ225は、(四面体によって表される)仮想コンテンツ及び(家によって表される)環境のビューの両方のビューを、(四面体によって表される)仮想コンテンツが大きい、第2の表示設定255に従って、表示及び/又は提供するディスプレイとして示されている。
[0101] いくつかの例では、XRシステム200は、フィードバックエンジン260を含む。フィードバックエンジン260は、ユーザインターフェースから受信されたフィードバックを検出することができる。フィードバックは、仮想コンテンツ、第1の表示設定250から第2の表示設定255への合成器220による修正、及び/又は第1の表示設定250から第2の表示設定255への合成器220による修正が基づくXRシステム200による判定に関するフィードバックであり得る。XRシステム200による判定は、例えば、知覚エンジン235によって判定されるような、ユーザによる仮想コンテンツに対する知覚レベル、把握エンジン240によって判定されるような、ユーザによる仮想コンテンツに対する把握及び/又は理解レベル、属性エンジン230によって判定される知覚関連属性、ユーザに関する履歴データ、コンテキストデータ、ユーザ対面センサ205からのセンサデータ、環境対面センサ210からのセンサデータ、又はそれらの組み合わせを含むことができる。フィードバックエンジン260によって受信されるフィードバックは、肯定的フィードバック又は否定的フィードバックであり得る。例えば、仮想コンテンツが、ユーザが特定のアクション(例えば、右折)を実施することを要求又は提案し、ユーザがそのアクションを実施した場合、フィードバックエンジン260は、ユーザによるアクションのこの実施を、肯定的フィードバックとして解釈することができる。肯定的なフィードバックはまた、ユーザが微笑んでいる、笑っている、頷いている、肯定的な発言(例えば、「はい」、「確認しました」、「分かりました」、「次」)をする、又は別様に仮想コンテンツに対して肯定的に反応するなどの知覚関連属性に基づくこともできる。一方、仮想コンテンツが、ユーザが特定のアクションを実施する(例えば、XYZ街路で右折する)ことを要求又は提案し、ユーザがそのアクションを実施しないか又は異なるアクションを実施した(例えば、ユーザがXYZ街路で左折する)場合、フィードバックエンジン260は、ユーザによるこのアクションの非実施、又はユーザによるこの異なるアクションの実施を、否定的フィードバックとして解釈することができる。否定的フィードバックはまた、ユーザが顔をしかめる、泣く、(例えば、「いいえ」の動きで)首を振る、否定的な発言(例えば、「いいえ」、「違います」、「良くない」、「これではない」)をする、又は別様に仮想コンテンツに対して否定的に反応するなどの知覚関連属性に基づくこともできる。
[0102] いくつかの例では、フィードバックエンジン260は、XRシステム200の1つ又は複数のMLシステムにフィードバックを提供して、XRシステム200の1つ又は複数のMLシステムを更新する。フィードバックエンジン260は、XRシステム200の1つ又は複数のMLシステムへのトレーニングデータとして、フィードバック、フィードバックをトリガした仮想コンテンツ、フィードバックをトリガした表示設定、フィードバックをトリガした表示設定に対する修正、知覚エンジン235によって判定された、ユーザによる仮想コンテンツに対する知覚レベル、把握エンジン240によって判定された、ユーザによる仮想コンテンツに対する把握及び/若しくは理解レベル、フィードバックに対応する属性エンジン230によって判定された知覚関連属性、フィードバックに対応する、ユーザに関する履歴データ、フィードバックに対応するコンテキストデータ、フィードバックに対応する、ユーザ対面センサ205からのセンサデータ、フィードバックに対応する、環境対面センサ210からのセンサデータ、又はそれらの組み合わせを提供することができる。例えば、フィードバックエンジン260は、そのようなトレーニングデータを、属性エンジン230の1つ若しくは複数のMLシステム(例えば、第1のトレーニングされたMLモデル825)に、知覚エンジン235の1つ若しくは複数のMLシステム(例えば、第2のトレーニングされたMLモデル835)に、把握エンジン240の1つ若しくは複数のMLシステム(例えば、第3のトレーニングされたMLモデル865)に、又はそれらの組み合わせに提供することができる。
[0103] いくつかの例では、フィードバックエンジン260は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、フィードバックエンジン260は、1つ又は複数のハードウェア要素を含む。例えば、フィードバックエンジン260は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、フィードバックエンジン260は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
[0104] 経時的に、システムは、メッセージがユーザのために適所に留まるべき時間を学習し、最適化することができる。システムは、例えば、メッセージに対する信頼レベルを展開することによって、メッセージが特定の時間で読まれる/視認される尤度を決定する。高い尤度が決定された場合、眼追跡カメラを使用する必要がない場合がある。
[0105] 図3Aは、エクステンデッドリアリティ(XR)システム200として使用されるヘッドマウントディスプレイ(HMD)310を示す斜視図300である。HMD310は、例えば、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、複合現実(MR)ヘッドセット、エクステンデッドリアリティ(XR)ヘッドセット、又はそれらの何らかの組み合わせであってもよい。HMD310は、XRシステム200の一例であってもよい。HMD310は、HMD310の前部に沿って第1のカメラ330A及び第2のカメラ330Bを含む。第1のカメラ330A及び第2のカメラ330Bは、XRシステム200の環境対面センサ210の例であってもよい。HMD310は、ユーザの眼がディスプレイ340に面したときにユーザの眼に面する、第3のカメラ330Cと第4のカメラ330Dとを含む。第3のカメラ330C及び第4のカメラ330Dは、XRシステム200のユーザ対面センサ205の例であってもよい。いくつかの例では、HMD310は、単一の画像センサを有する単一のカメラのみを有してもよい。いくつかの例では、MHD310は、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び第4のカメラ330Dに加えて、1つ又は複数の追加のカメラを含んでもよい。いくつかの例では、MHD310は、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び第4のカメラ330Dに加えて、1つ又は複数の追加のセンサを含んでもよく、1つ又は複数の追加のセンサは、XRシステム200のユーザ対面センサ205及び/又は環境対面センサ210の他のタイプも含んでよい。いくつかの例では、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び/又は第4のカメラ330Dは、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、又はそれらの組み合わせの例であってもよい。
[0106] HMD310は、ユーザ320の頭部にHMD310を装着しているユーザ320に見える1つ又は複数のディスプレイ340を含んでもよい。HMD310の1つ又は複数のディスプレイ340は、XRシステム200の1つ又は複数のディスプレイ225の例であり得る。いくつかの例では、HMD310は、1つのディスプレイ340と2つのビューファインダとを含むことができる。2つのビューファインダは、ユーザ320の左眼用の左ビューファインダと、ユーザ320の右眼用の右ビューファインダとを含むことができる。左ビューファインダは、ユーザ320の左眼がディスプレイの左側を見るように向けることができる。右ビューファインダは、ユーザ320の左眼がディスプレイの右側を見るように向けることができる。いくつかの例では、HMD310は、ユーザ320の左眼にコンテンツを表示する左ディスプレイと、ユーザ320の右眼にコンテンツを表示する右ディスプレイとを含む、2つのディスプレイ340を含んでもよい。HMD310の1つ又は複数のディスプレイ340は、デジタル「パススルー」ディスプレイ又は光学「シースルー」ディスプレイであり得る。
[0107] HMD310は、HMD310のユーザの1つ又は複数の耳にオーディオを出力するスピーカ及び/又はヘッドホンとして機能することができる、1つ又は複数のイヤピース335を含んでもよい。図3A及び図3Bには1つのイヤピース335が示されているが、HMD310は、ユーザの各耳(左耳及び右耳)に1つのイヤピースを有する2つのイヤピースを含むことができることを理解されたい。いくつかの例では、HMD310はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、XRシステム200のユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、HMD310によって1つ又は複数のイヤピース335を通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
[0108] 図3Bは、ユーザ320によって装着されている図3Aのヘッドマウントディスプレイ(HMD)を示す斜視図350である。ユーザ320は、ユーザ320の眼の上でユーザ320の頭部にHMD310を装着する。HMD310は、第1のカメラ330A及び第2のカメラ330Bを用いて画像を捕捉することができる。いくつかの例では、HMD310は、ディスプレイ340を使用して、1つ又は複数の出力画像をユーザ320の眼に向けて表示する。いくつかの例では、出力画像は、仮想コンテンツ生成器215によって生成され、合成器220を使用して合成され、かつ/又は表示設定(例えば、第1の表示設定250、第2の表示設定255)に従ってディスプレイ225によって表示された仮想コンテンツを含むことができる。出力画像は、例えば仮想コンテンツがオーバーレイされた状態で、第1のカメラ330A及び第2のカメラ330Bによって捕捉された画像に基づくことができる。出力画像は、場合によっては仮想コンテンツがオーバーレイされ、かつ/又は他の修正が加えられた状態で、環境の立体視ビューを提供してもよい。例えば、HMD310は、第1のカメラ330Aによって捕捉された画像に基づく第1の表示画像を、ユーザ320の右眼に表示することができる。HMD310は、第2のカメラ330Bによって捕捉された画像に基づく第2の表示画像を、ユーザ320の左眼に表示することができる。例えば、HMD310は、第1のカメラ330A及び第2のカメラ330Bによって捕捉された画像の上にオーバーレイされた表示画像内に、オーバーレイされた仮想コンテンツを提供することができる。第3のカメラ330C及び第4のカメラ330Dは、ユーザがディスプレイ340によって表示された表示画像を視認する前、視認中、及び/又は視認した後に、眼の画像を捕捉することができる。このようにして、第3のカメラ330C及び/又は第4のカメラ330Dからのセンサデータは、ユーザの眼(及び/又はユーザの他の部分)による仮想コンテンツに対する反応を捕捉することができる。HMD310のイヤピース335は、ユーザ320の耳内に示されている。HMD310は、イヤピース335を通して、及び/又はユーザ320の他方の耳(図示せず)内にあるHMD310の別のイヤピース(図示せず)を通して、オーディオをユーザ320に出力していてもよい。
[0109] 図4Aは、前向きカメラを含み、エクステンデッドリアリティ(XR)システム200として使用することができるモバイルハンドセット410の前面を示す斜視図400である。モバイルハンドセット410は、XRシステム200の一例であってもよい。モバイルハンドセット410は、例えば、携帯電話、衛星電話、ポータブルゲームコンソール、音楽プレーヤ、健康追跡デバイス、ウェアラブルデバイス、無線通信デバイス、ラップトップ、モバイルデバイス、本明細書に記載する任意の他のタイプのコンピューティングデバイス若しくはコンピューティングシステム、又はそれらの組み合わせであってもよい。
[0110] モバイルハンドセット410の前面420は、ディスプレイ440を含む。モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bを含む。第1のカメラ430A及び第2のカメラ430Bは、XRシステム200のユーザ対面センサ205の例であってもよい。第1のカメラ430A及び第2のカメラ430Bは、コンテンツ(例えば、環境の上にオーバーレイされた仮想コンテンツ)がディスプレイ440に表示されている間、ユーザの眼を含むユーザに面することができる。ディスプレイ440は、XRシステム200のディスプレイ225の一例であってもよい。
[0111] 第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420上のディスプレイ440の周りのベゼル内に示されている。いくつかの例では、第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420上のディスプレイ440から切り抜かれたノッチ又は切り欠きに配置することができる。いくつかの例では、第1のカメラ430A及び第2のカメラ430Bは、ディスプレイ440とモバイルハンドセット410の残りの部分との間に配置されたアンダーディスプレイカメラであってもよく、その結果、光は、第1のカメラ430A及び第2のカメラ430Bに到達する前にディスプレイ440の一部分を通過する。斜視図400の第1のカメラ430A及び第2のカメラ430Bは、前向きカメラである。第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420の平面に垂直な方向を向いている。第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の1つ又は複数のカメラのうちの2つであってもよい。第1のカメラ430A及び第2のカメラ430Bは、センサ405A及びセンサ405Bそれぞれであってもよい。いくつかの例では、モバイルハンドセット410の前面420は、単一のカメラのみを有することができる。
[0112] いくつかの例では、モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bに加えて、1つ又は複数の追加のカメラを含んでもよい。1つ又は複数の追加のカメラもまた、XRシステム200のユーザ対面センサ205の例であってもよい。いくつかの例では、モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bに加えて、1つ又は複数の追加のセンサを含んでもよい。1つ又は複数の追加のセンサもまた、XRシステム200のユーザ対面センサ205の例であってもよい。場合によっては、モバイルハンドセット410の前面420は、2つ以上のディスプレイ440を含む。モバイルハンドセット410の前面420の1つ又は複数のディスプレイ440は、XRシステム200のディスプレイ225の例であり得る。例えば、1つ又は複数のディスプレイ440は、1つ又は複数のタッチスクリーンディスプレイを含むことができる。
[0113] モバイルハンドセット410は、モバイルハンドセット410のユーザの1つ又は複数の耳にオーディオを出力することができる、1つ又は複数のスピーカ435A及び/又は他のオーディオ出力デバイス(例えば、イヤホン又はヘッドホン又はそれらへのコネクタ)を含んでもよい。1つのスピーカ435Aが図4Aに示されているが、モバイルハンドセット410は、2つ以上のスピーカ及び/又は他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット410はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、XRシステム200の、ユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、モバイルハンドセット410は、モバイルハンドセット410の前面420に沿って、かつ/又はそれに隣接して1つ又は複数のマイクロフォンを含むことができ、これらのマイクロフォンは、XRシステム200のユーザ対面センサ205の例である。いくつかの例では、モバイルハンドセット410によって1つ又は複数のスピーカ435A及び/又は他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
[0114] 図4Bは、後ろ向きカメラを含み、エクステンデッドリアリティ(XR)システム200として使用することができるモバイルハンドセットの背面460を示す斜視図450である。モバイルハンドセット410は、モバイルハンドセット410の背面460上に第3のカメラ430C及び第4のカメラ430Dを含む。斜視図450の第3のカメラ430C及び第4のカメラ430Dは、後ろ向きである。第3のカメラ430C及び第4のカメラ430Dは、図2のXRデバイス200の環境対面センサ210の例であってもよい。第3のカメラ430C及び第4のカメラ430Dは、モバイルハンドセット410の背面460の平面に垂直な方向を向いている。
[0115] 第3のカメラ430C及び第4のカメラ430Dは、モバイルハンドセット410の1つ又は複数のカメラのうちの2つであってもよい。いくつかの例では、モバイルハンドセット410の背面460は、単一のカメラのみを有することができる。いくつかの例では、モバイルハンドセット410の背面460は、第3のカメラ430C及び第4のカメラ430Dに加えて、1つ又は複数の追加のカメラを含んでもよい。1つ又は複数の追加のカメラもまた、XRシステム200の環境対面センサ210の例であってもよい。いくつかの例では、モバイルハンドセット410の背面460は、第3のカメラ430C及び第4のカメラ430Dに加えて、1つ又は複数の追加のセンサを含んでもよい。1つ又は複数の追加のセンサもまた、XRシステム200の環境対面センサ210の例であってもよい。いくつかの例では、第1のカメラ430A、第2のカメラ430B、第3のカメラ430C、及び/又は第4のカメラ430Dは、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、又はそれらの組み合わせの例であってもよい。
[0116] モバイルハンドセット410は、モバイルハンドセット410のユーザの1つ又は複数の耳にオーディオを出力することができる、1つ又は複数のスピーカ435B及び/又は他のオーディオ出力デバイス(例えば、イヤホン又はヘッドホン又はそれらへのコネクタ)を含んでもよい。1つのスピーカ435Bが図4Bに示されているが、モバイルハンドセット410は、2つ以上のスピーカ及び/又は他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット410はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、XRシステム200の、ユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、モバイルハンドセット410は、モバイルハンドセット410の背面460に沿って、かつ/又はそれに隣接して、XRシステム200の環境対面センサ210の例である1つ又は複数のマイクロフォンを含むことができる。いくつかの例では、モバイルハンドセット410によって1つ又は複数のスピーカ435B及び/又は他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
[0117] モバイルハンドセット410は、前面420のディスプレイ440をパススルーディスプレイとして使用してもよい。例えば、ディスプレイ440は、出力画像を表示してもよい。出力画像は、例えば仮想コンテンツがオーバーレイされた状態で、第3のカメラ430C及び/又は第4のカメラ430Dによって捕捉された画像に基づくことができる。第1のカメラ430A及び/又は第2のカメラ430Bは、仮想コンテンツを含む出力画像のディスプレイ440上への表示前、表示中、及び/又は表示後に、ユーザの眼(及び/又はユーザの他の部分)の画像を捕捉することができる。このようにして、第1のカメラ430A及び/又は第2のカメラ430Bからのセンサデータは、ユーザの眼(及び/又はユーザの他の部分)による仮想コンテンツに対する反応を捕捉することができる。
[0118] 図5Aは、表示設定520に従って表示される仮想コンテンツのオーバーレイ前及びオーバーレイ後の、ボストンの環境510の画像505を示す概念図500である。図5Aの左側には、ボストンの環境510の画像505が、仮想コンテンツのオーバーレイなし(オーバーレイ前)の状態で示されている。図5Aの右側には、ボストンの環境510の画像505が、仮想コンテンツ525、仮想コンテンツ530、及び仮想コンテンツ535を含む仮想コンテンツのオーバーレイあり(オーバーレイ後)の状態で示されている。仮想コンテンツは、表示設定520に従って環境510の画像505の上にオーバーレイされる。
[0119] 環境510の画像505は、XRシステム200の環境対面センサ210によって捕捉された画像の一例であり得る。例えば、環境510の画像505は、HMD310の第1のカメラ330A及び/又は第2のカメラ330Bによって捕捉された画像の一例であり得る。同様に、環境510の画像505は、モバイルハンドセット410の第3のカメラ430C及び/又は第4のカメラ430Dによって捕捉された画像の一例であり得る。ボストンの環境510の画像505は、ボストン・セルティックスのコーチ、レッド・アワーバック像のビューを含む。ボストンの環境510の画像505は、ボストン・セルティックスの選手、ラリー・バードの靴の記念碑のビューを含む。ボストンの環境510の画像505は、スポーツアパレル店への入口のビューを含む。
[0120] 仮想コンテンツ525、仮想コンテンツ530、仮想コンテンツ535は、XRシステム200の仮想コンテンツ生成器215によって生成された仮想コンテンツの一例である。表示設定520は、XRシステム200の合成器220によって生成された第1の表示設定250の例である。仮想コンテンツ525は、「ランドマーク:ボストン・セルティックス選手、ラリー・バードの靴の記念碑」と書かれたテキストを含む。表示設定によって、仮想コンテンツ525は、画像505においてラリー・バードの靴の記念碑が描写されている画像505の下部付近で、環境510の画像505の上にオーバーレイされている。仮想コンテンツ530は、「ランドマーク:ボストン・セルティックスのコーチ、レッド・アワーバックの像」と書かれたテキストを含む。表示設定によって、仮想コンテンツ530は、画像505においてレッド・アワーバックの像が描写されている画像505の中央付近で、環境510の画像505の上にオーバーレイされている。仮想コンテンツ535は、「商店:スポーツアパレル店」と書かれたテキストを含む。表示設定によって、仮想コンテンツ530は、画像505においてスポーツアパレル店の入口が描写されている画像505の右側付近で、環境510の画像505の上にオーバーレイされている。
[0121] 図5Bは、表示設定520に対する修正前及び修正後に仮想コンテンツがオーバーレイされた状態の、ボストンの環境510の画像505を示す概念図550である。図5Bの左側には、ボストンの環境510の画像505が、図5Aの右側と同様に、表示設定520に従って仮想コンテンツのオーバーレイとともに示されている。図5Bの右側には、ボストンの環境510の画像505が、表示設定555に従って仮想コンテンツのオーバーレイとともに示されている。表示設定555は、表示設定520とは異なる。表示設定555は、XRシステム200の合成器220によって生成される第2の表示設定255の一例であり得る。表示設定520に対する修正、すなわち、表示設定520から表示設定555への修正は、XRシステム200の合成器220による、第1の表示設定250から第2の表示設定255への修正の一例であり得る。
[0122] 第2の表示設定555に従って、(スポーツアパレル店を記述する)仮想コンテンツ535は、ここでは表示から非表示にされる、消去される、かつ/又は終了される。いくつかの例では、第2の表示設定555における仮想コンテンツ535を消去するこの修正は、ユーザがすでに仮想コンテンツ535を高レベルまで知覚及び/又は理解したという、XRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240からの)指示に応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ535を消去するこの修正は、商店に関連する仮想コンテンツをフィルタ除去するための要求、仮想コンテンツ535の意図的な回避、ユーザが仮想コンテンツ535を見ている間のユーザからの否定的な言語表現(例えば、「いいえ」)の検出、又はそれらの組み合わせなど、フィードバックエンジン260を介して受信された仮想コンテンツ535への否定的フィードバックに応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ535を消去するこの修正は、ユーザから(例えば、フィードバックエンジン260のユーザインターフェースを介して)受信された、ランドマークに関連する仮想コンテンツに焦点を絞るための要求、又は仮想コンテンツ525及び/若しくは仮想コンテンツ530に高度に焦点を絞るための要求など、フィードバックエンジン260を介して受信された仮想コンテンツ525及び/又は仮想コンテンツ530への肯定的フィードバックに応答したものであってよい。
[0123] 第2の表示設定555によれば、(ラリー・バードの靴の記念碑を記述する)仮想コンテンツ525は、ここでは第1の表示設定520に従ったものよりも大きく、テキストはより大きなフォントである。第2の表示設定555によれば、仮想コンテンツ525は、第1の表示設定520に従ったものよりも顕著に、かつ/又はより高い優先度で強調及び/又は表示されている。ここでは仮想コンテンツ525のテキストも長くなり、その結果、「ランドマーク:1979~1992年にボストン・セルティックスの選手だったラリー・バードの靴の記念碑」と書かれている。いくつかの例では、第2の表示設定555において仮想コンテンツ525を強調するこの修正は、ユーザが仮想コンテンツ525をユーザ知覚の十分なレベル(例えば、閾値を超える)まで知覚したが、仮想コンテンツ525をまだ十分な把握レベル(例えば、閾値を超える)までは理解していないという、XRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240からの)指示に応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ525を強調するこの修正は、ユーザが仮想コンテンツ525を固視している、かつ/又は仮想コンテンツ525に対するサッカードを経験した、かつ/又は仮想コンテンツ525を視認している間に瞳孔拡張を経験したという、XRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240及び/又は知覚関連属性エンジン230からの)指示に応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ525を強調するこの修正は、仮想コンテンツ及び/若しくはラリー・バードの靴の記念碑の関連描写に対するユーザの視線の強い焦点、ユーザが仮想コンテンツ525を見ている間のユーザからの肯定的な言語表現(例えば、「これについてもっと教えて」)の検出、又はそれらの組み合わせなど、フィードバックエンジン260を介して受信された仮想コンテンツ525への肯定的フィードバックに応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ525を強調するこの修正は、仮想コンテンツ535及び/又は仮想コンテンツ530への否定的フィードバックに応答したものであってよい。
[0124] 第2の表示設定555によれば、(レッド・アワーバックの像を記述する)仮想コンテンツ530は、わずかに右に移動され、(深度に関して)後方に移動されて、レッド・アワーバックの像の頭部の一部の背後に現れている。いくつかの例では、第2の表示設定555における仮想コンテンツ530を移動させるこの修正は、ユーザが仮想コンテンツ530を十分なレベル(例えば、閾値を超える)までまだ知覚及び/又は把握していないという、XRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240からの)指示に応答したものであってよい。いくつかの例では、第2の表示設定555における仮想コンテンツ530を移動させるこの修正は、ユーザから(例えば、フィードバックエンジン260のユーザインターフェースを介して)受信された、ランドマークに関連する仮想コンテンツに焦点を絞るための要求など、フィードバックエンジン260を介して受信された仮想コンテンツ530及び/又は仮想コンテンツ525への肯定的フィードバックに応答したものであってよい。
[0125] 図6は、表示設定620に従って表示される仮想コンテンツ630のオーバーレイ前及びオーバーレイ後の、本を含む環境610の画像605を示す概念図600である。図6の左側には、本を含む環境610の画像605が、仮想コンテンツ630のオーバーレイなし(オーバーレイ前)の状態で示されている。明確にするために、画像605内の本のテキストに示される唯一の単語は、「超伝導」である。図6の左側には、本を含む環境610の画像605が、仮想コンテンツ630のオーバーレイあり(オーバーレイ後)の状態で示されている。仮想コンテンツ630は、表示設定620に従って環境610の画像605の上にオーバーレイされる。
[0126] 環境610の画像605は、XRシステム200の環境対面センサ210によって捕捉された画像の一例であり得る。例えば、環境610の画像605は、HMD310の第1のカメラ330A及び/又は第2のカメラ330Bによって捕捉された画像の一例であり得る。同様に、環境610の画像605は、モバイルハンドセット410の第3のカメラ430C及び/又は第4のカメラ430Dによって捕捉された画像の一例であり得る。
[0127] 仮想コンテンツ630は、XRシステム200の仮想コンテンツ生成器215によって生成された仮想コンテンツの一例である。表示設定620は、XRシステム200の合成器220によって生成された表示設定(例えば、第1の表示設定250、第2の表示設定255)の一例である。仮想コンテンツ630は、本の中の単語「超伝導」の強調表示を含み、本の上方に、「定義:超伝導は、電気抵抗が消失し、磁束場が物質から放出される特定の物質において観察される一連の物理的な性質である。これらの性質を示す物質はいずれも超伝導体である。」と書かれた追加のテキストがオーバーレイされている。
[0128] いくつかの例では、表示設定620に従って本を含む環境610の画像605の上にオーバーレイされた仮想コンテンツ630の表示は、ユーザが本の中の単語「超伝導」を固視している間に眼を細めている、かつ/又は頭部を傾けているというXRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240及び/又は属性エンジン230からの)指示に応答したものであってよい。いくつかの例では、XRシステム200は、他の単語についても同様に定義を提供する。いくつかの例では、XRシステム200は、1つの言語から別の言語への単語の翻訳を同様に提供する。
[0129] 図7は、表示設定720に従って表示される仮想コンテンツ730のオーバーレイ前及びオーバーレイ後の、街路の環境710の画像705を示す概念図700である。図7の左側には、街路上の環境710の画像705が、仮想コンテンツ730のオーバーレイなし(オーバーレイ前)の状態で示されている。図7の左側には、街路上の環境710の画像705が、仮想コンテンツ730のオーバーレイあり(オーバーレイ後)の状態で示されている。仮想コンテンツ730は、表示設定720に従って環境710の画像705の上にオーバーレイされる。
[0130] 環境710の画像705は、XRシステム200の環境対面センサ210によって捕捉された画像の一例であり得る。例えば、環境710の画像705は、HMD310の第1のカメラ330A及び/又は第2のカメラ330Bによって捕捉された画像の一例であり得る。同様に、環境710の画像705は、モバイルハンドセット410の第3のカメラ430C及び/又は第4のカメラ430Dによって捕捉された画像の一例であり得る。
[0131] 仮想コンテンツ730は、XRシステム200の仮想コンテンツ生成器215によって生成された仮想コンテンツの一例である。表示設定720は、XRシステム200の合成器220によって生成された表示設定(例えば、第1の表示設定250、第2の表示設定255)の一例である。街路上の環境710の画像705は、カメラに向かって、ひいてはXRシステム200のユーザに向かって走る車を描写している。仮想コンテンツ730は、警告アイコンと「警告:車が進入してきます、移動してください!」と書かれたテキストとを伴う警告を含む。警告、及びテキストのフォントサイズは大きい。
[0132] いくつかの例では、表示設定720に従って街路上の環境710の画像705の上にオーバーレイされた仮想コンテンツ730の表示は、XRシステム200による環境対面センサ210のセンサデータからの車の検出に応答したものであってよい。XRシステム200は、オブジェクト検出エンジンを含んでもよい。オブジェクト検出エンジンは、特徴検出アルゴリズム、特徴抽出アルゴリズム、特徴認識アルゴリズム、特徴追跡アルゴリズム、オブジェクト検出アルゴリズム、オブジェクト認識アルゴリズム、オブジェクト追跡アルゴリズム、顔検出アルゴリズム、顔認識アルゴリズム、顔追跡アルゴリズム、人物検出アルゴリズム、人物認識アルゴリズム、人物追跡アルゴリズム、車両検出アルゴリズム、車両認識アルゴリズム、車両追跡アルゴリズム、分類器、又はそれらの組み合わせを含んでもよい。オブジェクト検出エンジンは、1つ若しくは複数のAIアルゴリズム及び/又はMLシステムを含むことができる。オブジェクト検出エンジンは、例えば、ニューラルネットワーク900を含むことができる。いくつかの例では、表示設定720に従って街路上の環境710の画像705の上にオーバーレイされた仮想コンテンツ730の表示は、ユーザがXRシステム200によって検出された車を十分なレベルまで(例えば、閾値を超えるレベルまで)知覚しなかったというXRシステム200からの(例えば、知覚エンジン235及び/又は把握エンジン240及び/又は属性エンジン230からの)指示に応答したものであってよい。
[0133] 図8は、1つ又は複数のトレーニングされた機械学習(ML)モデルに基づいて仮想コンテンツに対する知覚レベル及び把握レベルを判定するためのプロセスを示すブロック図800である。図8のプロセスは、図2のXRシステム200などの撮像システムによって実施される。
[0134] プロセスは、ユーザ820の片眼又は両眼815に面した1つ又は複数のセンサ810によるセンサデータ805の捕捉から始まる。センサ810は、XRシステム200のユーザ対面センサ205の例であり得る。撮像システムは、入力として、センサデータ805を第1のトレーニングされたMLモデル825に提供する。第1のトレーニングされたMLモデル825は、撮像システムの一部であってもよい。第1のトレーニングされたMLモデル825は、いくつかの例では、XRシステム200の属性エンジン230の一部であってもよい。入力としてセンサデータ805を受信したことに応答して、第1のトレーニングされたMLモデル825は、ユーザ820の眼815に対応する知覚関連属性データ830を出力する。知覚関連属性データ830は、例えば、ユーザの眼の運動、瞳孔拡張、瞬き、眼を細めること、サッカード、固視、眼の水分レベルなどを識別することができる。
[0135] 撮像システムは、入力として、知覚関連属性データ830を第2のトレーニングされたMLモデル835に提供する。撮像システムはまた、入力として、ディスプレイ845を介して仮想コンテンツ840を表示するための表示設定837を、第2のトレーニングされたMLモデル835に提供する。ディスプレイ845は、XRシステム200のディスプレイ225の一例である。表示設定837は、XRシステム200の第1の表示設定250及び/又は第2の表示設定255の例である。撮像システムはまた、入力として、コンテキスト情報890を第2のトレーニングされたMLモデル835に提供することができる。コンテキスト情報は、例えば、撮像システムのロケーション、周囲音、周囲照明、ユーザによって実施されているものとして検出された活動などを含むことができる。
[0136] 第2のトレーニングされたMLモデル835は、撮像システムの一部であってもよい。第2のトレーニングされたMLモデル835は、いくつかの例では、XRシステム200の知覚エンジン235の一部であってもよい。知覚関連属性データ830及び/又は表示設定837及び/又はコンテキスト情報890を入力として受信したことに応答して、第2のトレーニングされたMLモデル835は、眼815を使用したユーザ820による仮想コンテンツ840に対する知覚レベル850を出力する。仮想コンテンツ840は、XRシステム200の仮想コンテンツ生成器215によって生成され、XRシステム200の合成器220によって決定された表示設定(例えば、第1の表示設定250、第2の表示設定255)に従ってXRシステム200のディスプレイ225によって表示される仮想コンテンツの一例であり得る。ユーザ820による仮想コンテンツ840に対する知覚レベル850は、例えば、仮想コンテンツ840が表示設定837に従って表示されるディスプレイ845上の位置に、又はその近くに、ユーザ820の眼815の視線が入る程度(例えば、時間及び/又は距離に基づく)に基づくことができる。
[0137] 撮像システムは、入力として、ユーザ820による仮想コンテンツ840に対する知覚レベル850を第3のトレーニングされたMLモデル865に提供する。いくつかの例では、撮像システムはまた、入力として、ユーザ820に関連付けられた履歴データ855を第3のトレーニングされたMLモデル865に提供してもよい。いくつかの例では、撮像システムはまた、入力として、コンテキスト情報890を第3のトレーニングされたMLモデル865に提供してもよい。ユーザ820に関連付けられた履歴データ855は、例えば、ユーザ820の教育レベル、ユーザ820の職業、ユーザ820の履歴行動に関する情報、及び/又はユーザに関連付けられた任意の他の履歴情報を識別することができる。いくつかの例では、撮像システムはまた、入力として、仮想コンテンツの1つ又は複数の特性を第3のトレーニングされたMLモデル865に提供してもよい。例えば、仮想コンテンツの1つ又は複数の特性は、仮想コンテンツ評価エンジン(例えば、XRシステム200の仮想コンテンツ評価エンジン245など)によって生成された仮想コンテンツ840の評価を含んでもよい。評価は、例えば、仮想コンテンツ840の複雑さ及び/又は一意性に関する1つ又は複数のメトリックを含むことができる。いくつかの例では、仮想コンテンツ評価エンジンは、複雑さメトリック及び一意性メトリックを生成することができ、これらの2つのメトリックを、複雑さ及び一意性の両方を反映する単一の組み合わされたメトリックに変換することができる。いくつかの例では、仮想コンテンツ評価エンジンは、組み合わせメトリックを生成するために、一意性メトリックの値と複雑さメトリックの値とを平均化する。いくつかの例では、仮想コンテンツ評価エンジンは、組み合わせメトリックを生成するために、一意性メトリックの値と複雑さメトリックの値とを乗算する。いくつかの例では、仮想コンテンツ評価エンジンは、組み合わせメトリックを生成するために、一意性メトリックの値と複雑さメトリックの値とを加算する。
[0138] 第3のトレーニングされたMLモデル865は、撮像システムの一部であってもよい。第3のトレーニングされたMLモデル865は、いくつかの例では、XRシステム200の把握エンジン240の一部であってもよい。知覚レベル850、履歴データ855、評価860、及び/又はコンテキスト情報890を入力として受信したことに応答して、第3のトレーニングされたMLモデル865は、ユーザ820による仮想コンテンツ840に対する把握レベル870を出力する。把握レベル870は、把握レベルの程度870及び/又は把握レベルのメトリック870と呼ぶことができる。把握レベル870は、例えば、知覚レベル850が、仮想コンテンツ840の複雑さ及び/若しくは一意性を考慮する適切なレベルと一致するか又はそれを超える程度に基づく(例えば、評価860に基づく)、ユーザ820自身の背景に基づく(例えば、履歴データ855に基づく)、コンテキスト情報890に基づく、あるいはそれらの組み合わせに基づくことができる。
[0139] 撮像システムは、仮想コンテンツ840に対する把握レベル870、仮想コンテンツ840に対する知覚レベル850、知覚関連属性データ830、及び/又はコンテキスト情報890のうちの1つ又は複数を、表示設定837に対する修正875を生成するための基礎として使用する。表示設定837に対する修正875は、XRシステム200の合成器220による第1の表示設定250から第2の表示設定255への修正の一例であり得る。撮像システムは、例えば、フィードバックエンジン(例えば、フィードバックエンジン260)のユーザインターフェースを介して、フィードバック880を受信することができる。撮像システムは、フィードバック880に基づいて、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、及び/又は第3のトレーニングされたMLモデル865の、追加のトレーニング885を実施することができる。撮像システムは、トレーニング885において、肯定的であるフィードバック880を使用して、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、及び/又は第3のトレーニングされたMLモデル865における重みを強化することができる。撮像システムは、トレーニング885において、否定的であるフィードバック880を使用して、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、及び/又は第3のトレーニングされたMLモデル865における重みを修正、消去、又は追加することができる。第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、及び第3のトレーニングされたMLモデル865は、図8では別個のMLモデルとして示されているが、これらのMLモデルのうちの任意の2つ(又は3つ全て)を単一のMLモデルで実現することができることを理解されたい。更に、いくつかの例では、図8に示されるトレーニングされたMLモデルのいずれか(例えば、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、又は第3のトレーニングされたMLモデル865)は、2つ以上の補助的なトレーニングされたMLモデルに分割することができる。例えば、1つの補助的なトレーニングされたMLモデルは、問題のトレーニングされたMLモデルに関連付けられた図8に示される入力を受信することができ、中間データを生成することができる。別の補助的なトレーニングされたMLモデルは、その入力のうちの最後の1つとして中間データを受信することができ、問題のトレーニングされたMLモデルに関連付けられた図8に示される出力を生成することができ、
[0140] ユーザ820の知覚レベル850及び/又は把握レベル870は、ユーザの認知能力及び状態に関連するファクタを含むことができる。認知ベースのファクタの例としては、とりわけ、特定のXRタスク(例えば、通知を読むこと)、特定の実世界タスク(例えば、キッチンで料理すること)、拡張された特定の実世界タスク(例えば、都市で歩くこと及びナビゲーション命令を受信すること)、ユーザの教育レベルに関する情報、特定の分野におけるユーザの知識レベルに関する情報、ユーザの職業に関する情報、ユーザの認知障害についての情報、又はそれらの組み合わせなど、特定のタスクに関する以前の経験及び/又はスキルレベルが挙げられ得る。認知ベースのファクタの例として、代替的又は追加的に、とりわけ、サッカード(中心窩を1つの点から別の点に移動させるために使用される眼球運動のタイプ)及び固視時間、注視時間、繰り返し視認、コンテンツとの相互作用(例えば、スクロール、応答、閉じることなど)など、拡張されたコンテンツに適用される注意が挙げられ得る。認知ベースのファクタの例として、代替的又は追加的に、とりわけ、覚醒、疲労、2つ以上の活動に分割された注意などのユーザの精神状態が挙げられ得る。
[0141] XRシステムの使用のコンテキストは、XRシステムの使用中の実世界環境の態様を含むことができる。そのような態様の例としては、とりわけ、環境内の雑音レベル(例えば、周囲音、環境内で話している追加の人など)、環境内の照明(例えば、周囲照明)、ユーザの活動、XRシステムが使用されているロケーション、コンテンツと対話する過去の履歴、時刻、環境が静的であるか又は動的(例えば、ユーザが車両、列車、エレベータ、エスカレータなどの動くオブジェクト上にいる場合)であるか、環境内の障害物が挙げられ得る。
[0142] XRシステムによって出力されているコンテンツに関連付けられた情報は、仮想コンテンツの特性及び/又は物理的コンテンツ(例えば、拡張のオブジェクト)の特性を含むことができる。そのような特性の例としては、メッセージ又は他の仮想コンテンツの意味的複雑さ、メッセージ又は他の仮想コンテンツの重大度及び重要度、メッセージ又は他の仮想コンテンツの長さ、実施されているタスク(例えば、本を読むこと)に対するメッセージ又は他の仮想コンテンツの関連性、環境に対する仮想コンテンツの独自性、メッセージ又は他の仮想コンテンツがコンテキスト上予想されるかどうか(例えば、メッセージコンテンツを受信することが、状況、時間、場所、活動などに適切又は関連し得るかどうか)が挙げられ得る。
[0143] いくつかの態様では、XRシステムは、ユーザ入力、以前に提示された仮想コンテンツの表示持続時間、デバイス状態(例えば、低電力などの電力状態)、ARデバイススクリーン解像度、XRシステム(したがってユーザ)の移動速度、及び/又は他の外部ファクタなど、他の外部ファクタを監視することができる。
[0144] 本システム及び技法は、XRシステムにおけるコンテンツの初期提示を決定するために、かつ/又は仮想コンテンツのユーザ知覚を査定し、潜在的な結果を判定するために使用されることができる。例えば、コンテンツの初期提示を決定するために、XRシステムは、ユーザの認知状態、使用のコンテキスト(例えば、実世界環境の態様)、実施されているタスクを監視することができる。場合によっては、XRシステムは、上に拡張コンテンツが表示され得る物理的オブジェクトを含むコンテンツを監視することができる。XRシステムは、認知状態、使用のコンテキスト、及びタスク(及び場合によってはコンテンツ)に基づいて、増強が有益であろうと決定することができる。次いで、XRシステムは、認知状態、コンテキスト、及びタスク(及び場合によってはコンテンツ)に合わせて調整することができる拡張を提供(例えば、出力)することができる。1つの例示的な例では、タスクは、ユーザが図書館の本を読むことを含むことができ、認知は、(例えば、サッカード及び他の眼の特性を監視するXRシステムに基づいて)ユーザが眠く、題材をよく吸収していない可能性があることを含むことができ、コンテキストは、ユーザが位置する部屋が、(例えば、周辺光センサ及び全地球航法衛星システム(GNSS)受信機からの入力に基づいて)図書館にあり日中の窓の近くにあることに基づいて、明るいことを含むことができ、コンテンツは、ユーザが読んでいる物理学に関する難易度の高い本、及びユーザが以前に物理学課程を取ったことがないことを含むことができる。本を読んでいる間、ARデバイスは、ユーザが単語を凝視し、両眼を細めていると判定し得る。次いで、ARデバイスは、世界の定義又は翻訳が、単語に対するポップアップとして表示するのに有用であろうと決定することができる。
[0145] 上述のように、本システム及び技法は、仮想コンテンツのユーザ知覚を査定し、潜在的な結果を判定するために使用することができる。例えば、XRシステムは、仮想コンテンツ(例えば、「低バッテリ」などの警告通知、「このボタンを押さないこと」というラベルを伴うスイッチの隣の矢印などのARコンテンツ、関心のある地点又は場所に関連付けられた情報を伴うARコンテンツなど)を提示することができる。ユーザが仮想コンテンツに関連付けられたタスクを完了した場合、又は仮想コンテンツを手動で閉じた場合、XRシステムは仮想コンテンツを消去することができる。そうでない場合、XRシステムは、ユーザが仮想コンテンツを知覚したかどうかを判定するために、分析を実施することができる。
[0146] ユーザによる仮想コンテンツに対するユーザ知覚を査定するために、本システム及び技法は、仮想コンテンツに対する知覚レベル、又は仮想コンテンツに対するユーザ知覚の度合いを判定することができる。いくつかの例では、ユーザが仮想コンテンツを知覚したかどうか、かつ/又は仮想コンテンツに対する知覚レベル若しくは度合いを判定するために、XRシステムは、コンテンツを評価し、ユーザの眼分析(例えば、サッカード分析)を実施し、かつ/又はユーザの二次分析を(例えば、瞳孔、眼を細めること、及び頭部運動をチェックすることによって)実施することができる。場合によっては、XRシステムは、ユーザが仮想コンテンツを知覚したかどうかを判定するために、(例えば、1つ又は複数のニューラルネットワークを使用した)機械学習(ML)ベースのパターン認識を使用することができる。ユーザが仮想コンテンツを知覚した(例えば、閾値時間を超えて仮想コンテンツの方向を見た)と判定された場合、XRシステムは、仮想コンテンツを閉じるか又は消去する(例えば、コンテンツをディスプレイから消去する)ことができる。ユーザが仮想コンテンツを知覚していないとXRシステムが判定した場合、XRシステムは、コンテンツを適所に維持するかどうか、コンテンツの顕著性を高めるかどうか(例えば、コンテキストに基づいて)、及び/又は他のアクションを実施するかどうかを(例えば、環境光、雑音、ユーザ活動などのコンテキストに基づいて)判定することができる。例えば、環境光が明るいことをコンテキストが示した場合、XRシステムはディスプレイ輝度を高めることができる。別の例では、周囲環境が騒々しいことをコンテキストが示した場合、XRシステムは、(例えば、可聴仮想コンテンツが出力されるときに)ARコンテンツの音量を上げることができる。
[0147] いくつかの態様では、眼分析を実施するために、XRシステムは、眼追跡カメラをオンにすることができ、眼追跡カメラを使用して仮想コンテンツ上で眼を追跡することができる。例えば、XRシステムは、仮想コンテンツに払われた注意と、仮想コンテンツの背後の視野内の何かに払われた注意とを明確にすることができる。仮想コンテンツに対して低い値(例えば、閾値10などの閾値未満の値)が判定された場合、XRシステムは仮想コンテンツを消去することができる。仮想コンテンツに対して高い値(例えば、閾値よりも大きい値)が判定された場合、XRシステムは、ある時間期間(例えば、5秒間、10秒間など)にわたってコンテンツを適所に維持して、コンテンツを再読する時間をユーザに与えることができる。ユーザが仮想コンテンツを再読しているとXRシステムが判定した場合、XRシステムはコンテンツを適所に残すことができる。
[0148] いくつかの態様では、二次分析を実施するために、XRシステムは、ユーザの瞳孔、ユーザが眼を細めているかどうか、及び/又はユーザの頭部の運動をチェックすることができる。例えば、XRシステムは、ユーザの瞳孔のうちの1つ又は複数が拡張されていない、ユーザが眼を細めている、ユーザの頭部が横に倒れているか又は前方に傾いている、ユーザが瞬き頻度である、ユーザが仮想コンテンツを特定の持続時間(例えば、3秒以上)の間凝視している、ユーザが特定の頻度(例えば、毎秒2回)でコンテンツを見ていると判定した場合、コンテンツを適所に維持することができる。
[0149] 場合によっては、経時的に、XRシステムは、メッセージがユーザのために適所に留まるべき時間を(例えば、MLベースのパターン認識を使用して)学習し、最適化することができる。XRシステムは、仮想コンテンツが閾値時間内(例えば、1秒、2秒、3秒、4秒、5秒、10秒、15秒などの閾値時間期間以内)に読まれる、かつ/又は視認される尤度を決定してもよい。いくつかの例では、XRシステムは、この尤度を決定するために、表示された仮想コンテンツ(例えば、仮想メッセージ又は通知)の信頼レベルを展開してもよい。場合によっては、仮想コンテンツの所与の項目について高い尤度が決定された場合、XRシステムは、上記で説明された眼分析のために眼追跡カメラを利用しない可能性がある。
[0150] 図9は、エクステンデッドリアリティコンテンツを視認しているユーザの分析のために、トレーニングされた機械学習システムによって使用され得るニューラルネットワーク(neural network、NN)900の一例を示すブロック図である。ニューラルネットワーク900は、畳み込みニューラルネットワーク(convolutional neural network、CNN)、オートエンコーダ、ディープビリーフネット(deep belief net、DBN)、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)、敵対的生成ネットワーク(Generative Adversarial Network、GAN)、及び/又は他のタイプのニューラルネットワークなど、任意のタイプのディープネットワークを含むことができる。ニューラルネットワーク900は、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、第3のトレーニングされたMLモデル865、又はそれらの組み合わせの、1つ又は複数のトレーニングされたニューラルネットワークのうちの1つの例であり得る。
[0151] ニューラルネットワーク900の入力層910は入力データを含む。入力層910の入力データは、1つ又は複数の入力画像フレームの画素を表すデータを含むことができる。いくつかの例では、入力層910の入力データは、(例えば、ユーザ対面センサ205、第3のカメラ330C、第4のカメラ330D、第1のカメラ430A、第2のカメラ430B、及び/又はセンサ810によって捕捉された画像の)画像データの画素を表すデータ、及び/又は画像データに対応するメタデータを含む。いくつかの例では、入力層910の入力データは、ユーザ対面センサ205、第3のカメラ330C、第4のカメラ330D、第1のカメラ430A、第2のカメラ430B、及び/又はセンサ810によって捕捉された画像を含む。
[0152] いくつかの例では、入力層910の入力データは、知覚関連属性データ830、及び/又は属性エンジン230によって生成された知覚関連属性データなどの、知覚関連属性データを含むことができる。いくつかの例では、入力層910の入力データは、第1の表示設定250、第2の表示設定255、表示設定6520、表示設定555、表示設定620、表示設定720、表示設定837、又はそれらの組み合わせなどの、仮想コンテンツを表示するための表示設定を含むことができる。
[0153] いくつかの例では、入力層910の入力データは、知覚レベル850、及び/又は知覚エンジン235を使用して判定された知覚レベルなどの、ユーザの眼を通したユーザによる仮想コンテンツに対する知覚レベルを含むことができる。いくつかの例では、入力層910の入力データは、履歴データ855などの、ユーザに関連付けられた履歴データを含むことができる。いくつかの例では、入力層910の入力データは、評価860、仮想コンテンツ評価エンジン245によって生成される評価及び/若しくは測定基準、又はそれらの組み合わせなどの、仮想コンテンツに関連付けられた1つ又は複数の評価を含むことができる。いくつかの例では、入力層910の入力データは、コンテキスト情報890などの、コンテキストデータ及び/又はコンテキスト情報を含むことができる。いくつかの態様では、評価860は、メトリック及び/又はスコアと呼ばれることがある。
[0154] 画像は、生の画素データ(例えば、ベイヤーフィルタに基づいて画素ごとに単一の色を含む)を含むイメージセンサからの画像データ、又は処理された画素値(例えば、RGB画像のRGB画素)を含み得る。ニューラルネットワーク900は、複数の隠れ層912A、912Bから912Nを含む。隠れ層912A、912Bから912Nは、「N」個の隠れ層を含み、ここで、「N」は、1よりも大きいか又はそれに等しい整数である。隠れ層の個数は、所与の適用例にとって必要とされるのと同数の層を含むようにされ得る。ニューラルネットワーク900は、隠れ層912A、912Bから912Nによって実施された処理から生じる出力を提供する出力層914を更に含む。いくつかの例では、出力層914は、出力画像を提供することができる。いくつかの例では、出力層914は、知覚関連属性データ830、及び/又は属性エンジン230によって生成された知覚関連属性データなどの、知覚関連属性データを提供することができる。いくつかの例では、出力層914は、知覚レベル850、及び/又は知覚エンジン235を使用して判定された知覚レベルなどの、仮想コンテンツに対する知覚レベルを提供することができる。いくつかの例では、出力層914は、把握レベル870、及び/又は把握エンジン240を使用して決定された把握レベルなどの、ユーザによる仮想コンテンツに対する把握及び/又は理解レベルを提供することができる。
[0155] ニューラルネットワーク900は、相互接続されるフィルタの多層ニューラルネットワークである。各フィルタは、入力データを表す特徴を学習するようにトレーニングされ得る。フィルタに関連する情報は異なる層の間で共有され、情報が処理されるにつれて各層が情報を保持する。場合によっては、ニューラルネットワーク900はフィードフォワードネットワークを含むことができ、その場合、ネットワークの出力がそれ自体にフィードバックされるフィードバック接続はない。場合によっては、ネットワーク900は再帰ニューラルネットワークを含むことができ、これは、入力を読み取る間に、ノードにわたって情報が搬送されることを可能にするループを有することができる。
[0156] 場合によっては、様々な層間のノードとノードの相互接続を通じて、情報を層間で交換することができる。場合によっては、ネットワークは畳み込みニューラルネットワークを含むことができ、これは、ある層の中のあらゆるノードを次の層の中のあらゆる他のノードにつながないことがある。情報が層間で交換されるネットワークでは、入力層910のノードは、第1の隠れ層912A中のノードのセットをアクティブ化することができる。例えば、図示のように、入力層910の入力ノードの各々が第1の隠れ層912Aのノードの各々に接続され得る。隠れ層のノードは、各入力ノードの情報を、この情報にアクティブ化関数(例えば、フィルタ)を適用することによって、変換することができる。変換から導出された情報は、次いで、次の隠れ層912Bのノードに渡され、それらのノードをアクティブ化することができ、それらのノードは、それら自体の指定された関数を実施することができる。例示的な機能には、畳み込み機能、ダウンサンプリング、アップスケーリング、データ変換、及び/又は任意の他の適切な機能がある。隠れ層912Bの出力は、次いで、次の隠れ層のノードをアクティブ化することができ、以下同様である。最後の隠れ層912Nの出力は、出力層914の1つ又は複数のノードをアクティブ化することができ、出力層914は、処理された出力画像を提供する。場合によっては、ニューラルネットワーク900の中のノード(例えば、ノード916)は、複数の出力線を有するものとして示されるが、ノードは単一の出力を有し、ノードから出力されるものとして示される全ての線が同じ出力値を表す。
[0157] 場合によっては、各ノード又はノード間の相互接続は、ニューラルネットワーク900のトレーニングから導出されるパラメータのセットである、重みを有することができる。例えば、ノード間の相互接続部は、相互接続されたノードについて学習された情報を表すことができる。相互接続は、(例えば、トレーニングデータセットに基づいて)調整され得る調整可能な数値重みを有することができ、ニューラルネットワーク900が、入力に対して適応的であること、及びますます多くのデータが処理されるにつれて学習できることを可能にする。
[0158] ニューラルネットワーク900は、出力層914を通して出力を提供するために、異なる隠れ層912A、912Bから912Nを使用して入力層910中のデータからの特徴を処理するように事前トレーニングされる。
[0159] 図10は、エクステンデッドリアリティ(XR)表示動作のためのプロセスを示すフロー図である。プロセス1000は、撮像システムによって実施され得る。いくつかの例では、撮像システムは、例えば、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、XRシステム200、HMD310、モバイルハンドセット410、画像505を捕捉し、仮想コンテンツ525~535をオーバーレイする撮像デバイス、画像605を捕捉し、仮想コンテンツ630をオーバーレイする撮像デバイス、画像705を捕捉し、仮想コンテンツ730をオーバーレイする撮像デバイス、図8の撮像デバイス、第2のトレーニングされたMLモデル835の第1のトレーニングされたMLモデル825、第3のトレーニングされたMLモデル865、ニューラルネットワーク900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせを含むことができる。
[0160] 動作1005において、撮像システムは、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるように構成されており、かつ表示させることができ、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である。いくつかの例では、撮像システムは、ディスプレイを含む。ディスプレイの例としては、ディスプレイ225、ディスプレイ340、ディスプレイ440、ディスプレイ845、出力デバイス1135、本明細書で説明される他のディスプレイ、又はそれらの組み合わせが挙げられる。仮想コンテンツの例としては、仮想コンテンツ生成器215によって生成された仮想コンテンツ、仮想コンテンツ515、仮想コンテンツ525、仮想コンテンツ530、仮想コンテンツ535、仮想コンテンツ615、仮想コンテンツ630、仮想コンテンツ715、仮想コンテンツ730、仮想コンテンツ840、本明細書で説明される他の仮想コンテンツ、又はそれらの組み合わせが挙げられる。表示設定の例としては、第1の表示設定250、第2の表示設定255、表示設定520、表示設定555、表示設定620、表示設定720、表示設定837(修正875の前)、表示設定837(修正875の後)、本明細書で説明される他の表示設定、又はそれらの組み合わせが挙げられる。
[0161] いくつかの例では、撮像システムは、ディスプレイを使用して仮想コンテンツを表示させる前に、仮想コンテンツを生成するように構成されており、かつ生成することができる。例えば、撮像システムの仮想コンテンツ生成器215は、仮想コンテンツを生成することができる。いくつかの例では、撮像システムの合成器220は、表示設定を生成することができる。
[0162] いくつかの例では、ディスプレイの少なくとも一部分を通過する環境からの光に少なくとも部分的に基づいて、環境がディスプレイを使用して視認可能である。例えば、ディスプレイは、少なくとも部分的に透明、半透明、光受容、光透過性、及び/又は光許容であってもよい。そのような例では、撮像システムは、光学シースルーディスプレイを有すると呼ばれることがある。そのような例では、撮像システムは、表示設定に従ってディスプレイを使用して、仮想コンテンツの少なくとも一部分を環境のビューの少なくとも一部分の上に表示させることができる。いくつかの態様では、撮像システムの合成器220は、仮想コンテンツの少なくとも一部分を環境のビューの上にオーバーレイするように、表示設定を生成することができる。いくつかの態様では、撮像システムの合成器220は、環境の少なくとも一部分が、表示設定ごとに表示されない仮想コンテンツの少なくとも非表示部分の前にあるように見えるように、仮想コンテンツの表示部分をシミュレートされた深度で表示するように、表示設定を生成することができる。
[0163] いくつかの例では、撮像システムが環境のビューをディスプレイによって表示させることに少なくとも部分的に基づいて、環境がディスプレイを使用して視認可能である。例えば、撮像システムは、撮像システムの1つ又は複数の環境焦点センサ210を使用して、環境のビューを描写する1つ又は複数の画像を捕捉することができる。撮像システムは、ディスプレイに、環境の1つ又は複数の画像を仮想コンテンツと組み合わせて表示させることができる。例えば、撮像システムは、例えば撮像システムの合成器220を使用して、仮想コンテンツの少なくとも一部を環境の1つ若しくは複数の画像の少なくとも一部分と組み合わせてかつ/又は合成して合成画像を生成し、結果として得られた合成画像をディスプレイに表示させることによって、仮想コンテンツを表示させることができる。いくつかの態様では、撮像システムの合成器220は、仮想コンテンツの少なくとも一部分を環境の1つ又は複数の画像内の環境のビューの少なくとも一部分の上にオーバーレイするように、表示設定を生成することができる。いくつかの態様では、撮像システムの合成器220は、(環境の1つ又は複数の画像からの)環境の少なくとも一部分が、表示設定ごとに環境がオーバーレイする仮想コンテンツの少なくとも非表示部分の前にあるように見えるように、仮想コンテンツの表示部分をシミュレートされた深度で表示するように、表示設定を生成することができる。
[0164] 動作1010において、撮像システムは、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定するように構成されており、かつ判定することができる。知覚レベルは、知覚の程度及び/又は知覚のメトリックと呼ばれることがある。いくつかの例では、撮像システムは、撮像システムの属性エンジン230、撮像システムの第1のトレーニングされたMLモデル825、ニューラルネットワーク900、又はそれらの組み合わせを使用して、ユーザの知覚関連属性を判定することができる。知覚関連属性の例としては、属性エンジン230を使用して判定された知覚関連属性、知覚関連属性データ830、NN900を使用して判定された知覚関連属性、又はそれらの組み合わせが挙げられる。
[0165] いくつかの例では、撮像システムは、撮像システムの知覚エンジン235、撮像システムの第2のトレーニングされたMLモデル835、ニューラルネットワーク900、又はそれらの組み合わせを使用して、ユーザによる仮想コンテンツに対する知覚レベルを判定することができる。いくつかの例では、知覚レベルは把握レベルを含み、撮像システムは、撮像システムの知覚エンジン235、撮像システムの把握エンジン240、撮像システムの仮想コンテンツ評価エンジン245、撮像システムの第2のトレーニングされたMLモデル835、撮像システムの第3のトレーニングされたMLモデル865、ニューラルネットワーク900、又はそれらの組み合わせを使用して、知覚レベル及び/又は把握レベルを判定することができる。ユーザによる仮想コンテンツに対する知覚レベルの例としては、知覚エンジン235を使用して判定される知覚レベル、知覚レベル850、NN900を使用して判定される知覚レベル、又はそれらの組み合わせが挙げられる。いくつかの例では、知覚レベルは把握レベルを含み、知覚レベル及び/又は把握レベルの例としては、知覚エンジン235を使用して判定された知覚レベル、把握エンジン240を使用して判定された把握レベル、知覚レベル850、把握レベル870、NN900を使用して判定された知覚レベル、NN900を使用して判定された把握レベル、又はそれらの組み合わせが挙げられる。
[0166] いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼に関連付けられている。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼の1つ又は複数の属性、ユーザの1つ又は複数の表情の1つ又は複数の属性、ユーザの1つ又は複数のジェスチャ、又はそれらの組み合わせのうちの少なくとも1つを含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性を判定することは、ユーザの眼の眼球位置を追跡すること、ユーザの眼の眼球位置を追跡すること、ユーザの眼の眼球運動を追跡すること、ユーザの眼の瞳孔拡張を追跡すること、ユーザの眼のサッカードを追跡すること、ユーザの眼による固視を追跡すること、ユーザの瞼による瞬きを追跡すること、ユーザの瞼による眼を細めることを追跡すること、ユーザの眼による視運動反射を追跡すること、ユーザの眼による前庭動眼反射を追跡すること、ユーザの眼による調節反射を追跡すること、ユーザの表情を追跡すること、ユーザによるジェスチャを追跡すること、又はそれらの組み合わせを含む。上に列挙された動作における追跡は、タイミング、頻度、程度、振幅、眼球位置、眼球運動、眼の速度、又はそれらの組み合わせの追跡を指し得る。
[0167] いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、仮想コンテンツに対するユーザの1つ又は複数の眼の1つ又は複数の眼球位置を含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1つ又は複数のサッカードの1つ又は複数の特性を含む。1つ又は複数の特性は、頻度、持続時間、タイミング、サッカード速度、サッカード振幅、眼球位置、眼球運動、本明細書で論じる他の特性、又はそれらの組み合わせのうちの少なくとも1つを含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1つ又は複数の固視の1つ又は複数の特性を含む。1つ又は複数の特性は、頻度、持続時間、タイミング、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の眼による1回又は複数回の瞳孔拡張の1つ又は複数の特性を含む。1つ又は複数の特性は、頻度、持続時間、タイミング、瞳孔拡張レベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の瞼による1回又は複数回の瞬きの1つ又は複数の特性を含む。1つ又は複数の特性は、頻度、持続時間、タイミング、瞬き速度、眼球位置、及び眼球運動のうちの少なくとも1つを含む。いくつかの例では、ユーザの1つ又は複数の知覚関連属性は、ユーザの1つ又は複数の瞼による1回又は複数回の眼を細めることの1つ又は複数の特性を含む。1つ又は複数の特性は、頻度、持続時間、タイミング、眼を細めるレベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む。
[0168] いくつかの例では、撮像システムは、1つ又は複数のセンサによって捕捉されたセンサデータを受信するように構成されており、かつ受信することができる。センサデータは、ユーザの1つ又は複数の眼を示す。撮像システムは、センサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定するように更に構成されており、かつ判定することができる。いくつかの例では、撮像システムは、1つ又は複数のセンサを含む。いくつかの例では、1つ又は複数のセンサは、センサデータを捕捉するように構成されており、かつ捕捉することができる。1つ又は複数のセンサの例としては、ユーザ対面センサ205、追加のセンサ208、センサ810、第3のカメラ330C、第4のカメラ330D、第1のカメラ430A、第2のカメラ430B、入力デバイス1145、本明細書で説明される他のセンサ、又はそれらの組み合わせが挙げられる。センサデータの例としては、例えばセンサデータ805を含む、前文に列挙されたセンサのいずれかによって捕捉されたセンサデータが挙げられる。いくつかの例では、1つ又は複数のセンサは、1つ又は複数の画像センサを含み、センサデータは、1つ又は複数の画像、ビデオ、又はそれらの組み合わせを含む。いくつかの例では、センサデータは、ユーザの1つ又は複数の眼の表現を含む。いくつかの例では、センサデータは含む
[0169] いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、1つ又は複数のトレーニングされた機械学習システムへの入力として、ユーザの1つ又は複数の知覚関連属性を使用することを含む。1つ又は複数のトレーニングされたMLシステムの例としては、属性エンジン230、知覚エンジン235、把握エンジン240、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、第3のトレーニングされたMLモデル865、NN900、又はそれらの組み合わせが挙げられる。いくつかの例では、撮像システムは、ユーザインターフェースを通して、ユーザによる仮想コンテンツに対する知覚レベルに対応するフィードバックを受信するように構成されており、かつ受信することができる。いくつかの例では、撮像システムは、フィードバックに基づいて、1つ又は複数のトレーニングされた機械学習システムを更新するように構成されており、かつ更新することができる。いくつかの例では、撮像システムは、撮像システムがフィードバックを受信し、トレーニングされたMLシステムの更なるトレーニング及び/又は学習を使用してトレーニングされたMLシステムを更新するために使用する、フィードバックエンジン260を含む。フィードバックの例としては、フィードバック880が挙げられる。トレーニングの例としては、トレーニング885が挙げられる。
[0170] いくつかの例では、撮像システムは、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定するように構成されており、かつ判定することができる。いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザによる仮想コンテンツに対する把握レベルを判定することを含む。撮像システムは、把握レベル及び/又は知覚レベルに基づいて、表示設定に対する修正を決定するように構成されており、かつ決定することができる。いくつかの例では、ユーザによる仮想コンテンツに対する把握レベルを判定することは、ユーザの1つ又は複数の知覚関連属性、仮想コンテンツの1つ又は複数の特性、コンテキストデータ、ユーザに関連付けられた履歴情報、ユーザのユーザプロファイル、仮想コンテンツの複雑さの評価、仮想コンテンツの一意性の評価、又はそれらの組み合わせに基づく。いくつかの例では、撮像システムは、ユーザに関連付けられた履歴情報を受信するように構成されており、かつ受信することができる。いくつかの例では、ユーザによる仮想コンテンツに対する把握レベルを判定することは、ユーザに関する履歴情報に基づく。いくつかの例では、ユーザプロファイルは、ユーザに関連付けられた履歴データを含む。いくつかの例では、コンテキストデータは、仮想コンテンツに対するユーザによる1つ又は複数の反応を含む。いくつかの例では、コンテキストデータは、XRシステムのロケーションを含む。
[0171] いくつかの例では、撮像システムは、撮像システムの知覚エンジン235、撮像システムの把握エンジン240、撮像システムの仮想コンテンツ評価エンジン245、撮像システムの第2のトレーニングされたMLモデル835、撮像システムの第3のトレーニングされたMLモデル865、ニューラルネットワーク900、又はそれらの組み合わせを使用して、把握レベルを判定することができる。把握レベルの例としては、把握エンジン240を使用して判定される把握レベル、把握レベル870、NN900を使用して判定される把握レベル、又はそれらの組み合わせが挙げられる。
[0172] いくつかの例では、撮像システムは、例えば、仮想コンテンツ評価エンジン245を使用して、仮想コンテンツの特性を判定するように構成されており、かつ判定することができ、ユーザによる仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定することは、仮想コンテンツの特性に基づく。特性の例としては、仮想コンテンツ評価エンジン245による評価、仮想コンテンツ840に関連付けられた評価860、又はそれらの組み合わせが挙げられる。いくつかの例では、撮像システムは、仮想コンテンツの複雑さレベルを判定するように構成されており、かつ判定することができる。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定することは、仮想コンテンツの複雑さレベルに基づく。いくつかの例では、撮像システムは、仮想コンテンツの一意性レベルを判定するように構成されており、かつ判定することができる。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定することは、仮想コンテンツの一意性レベルに基づく。いくつかの例では、撮像システムは、環境に対する仮想コンテンツの独自性レベルを判定するように構成されており、かつ判定することができる。いくつかの態様では、ユーザによる仮想コンテンツに対する知覚レベル及び/又は把握レベルを判定することは、環境に対する仮想コンテンツの独自性レベルに基づく。
[0173] いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが仮想コンテンツを知覚したと判定することを含む。いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが仮想コンテンツを知覚していないと判定することを含む。いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが複数の知覚レベルのうちの第1の知覚レベルまで仮想コンテンツを知覚したと判定することを含む。いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザが複数の知覚レベルのうちの第2の知覚レベルまで仮想コンテンツを知覚したと判定することを含む。いくつかの態様では、第1の知覚レベルは第2の知覚レベルよりも大きく、第2の知覚レベルは第1の知覚レベルよりも小さい。いくつかの態様では、第2の知覚レベルは第1の知覚レベルよりも大きく、第1の知覚レベルは第2の知覚レベルよりも小さい。
[0174] いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、ユーザによる仮想コンテンツに対する知覚レベルに対応する信頼レベルを判定することを含む。いくつかの態様では、表示設定に対する修正は、信頼レベルに基づく。信頼レベルは、属性エンジン230、知覚エンジン235、把握エンジン240、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、第3のトレーニングされたMLモデル865、NN900、又はそれらの組み合わせなどの機械学習システムによって提供され得る。
[0175] いくつかの例では、ユーザによる仮想コンテンツに対する知覚レベルを判定することは、例えば、1つ又は複数のセンサ(例えば、画像センサ、カメラ、ユーザ焦点センサ205、環境焦点センサ210)を使用して、ユーザの1つ又は複数のジェスチャを識別することを含む。撮像システムは、環境焦点センサ210からのセンサデータを使用して、ユーザの手を追跡することができる。例えば、撮像システムは、ユーザの手が仮想コンテンツに向かって指差している、かつ/又はジェスチャしているかどうかを判定し、知覚レベルを高レベルの知覚に高めることができる。撮像システムは、ユーザの手が仮想コンテンツから離れて指差している、かつ/又はジェスチャしているかどうかを判定し、知覚レベルを低レベルの知覚に低下させることができる。
[0176] いくつかの例では、仮想コンテンツは文字列を含む。撮像システムは、仮想コンテンツに対する知覚レベル、文字列の長さ、文字列の複雑さ、及び/又は文字列の一意性に基づいて、ユーザによる文字列の読解の程度を判定するように構成されており、かつ判定することができる。文字列の複雑さ及び/又は一意性は、撮像システムの仮想コンテンツ評価エンジン245による評価(例えば、評価860)であり得る。例えば、知覚レベルが、ユーザが仮想コンテンツを素早く一瞥したことを示すが、文字列が短く、複雑でなく、かつ/又は一意でない場合、文字列の読解の程度はそれでも高くなり得る。一方、知覚レベルが、ユーザが仮想コンテンツを素早く一瞥したが、文字列が長く、複雑で、かつ/又は一意であることを示す場合、文字列の読解の程度は低くなり得る。知覚レベルが、ユーザが仮想コンテンツを非常に長い時間見たことを示す場合、たとえ文字列が長く、複雑であり、かつ/又は一意であったとしても、文字列の読解の程度は高くなり得る。
[0177] 動作1015において、撮像システムは、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定するように構成されており、かつ決定することができる。表示設定に対する修正の例としては、図2の第1の表示設定250から第2の表示設定255への修正、図5A~図5Bの表示設定520から表示設定555への修正、表示設定837に対する修正875、又はそれらの組み合わせが挙げられる。
[0178] いくつかの例では、仮想コンテンツに対応する表示設定に対する修正は、ディスプレイに、仮想コンテンツの少なくとも一部分を表示することを停止させることを含む。この例が図5Bに示されており、表示設定520から表示設定555への修正により、図5Bに示されているように、仮想コンテンツ535がもはや画像505の上にオーバーレイされないようにする。いくつかの例では、仮想コンテンツに対応する表示設定に対する修正は、ディスプレイに、仮想コンテンツの少なくとも一部分を、修正の前よりも顕著に表示させることを含む。この例が図5Bに示されており、表示設定520から表示設定555への修正により、図5Bに示されているように、仮想コンテンツ525のサイズ、フォントサイズ、及び詳細レベル(情報量)が増加される。いくつかの例では、仮想コンテンツに対応する表示設定に対する修正は、仮想コンテンツの1つ又は複数の特性に対する修正を含み、1つ又は複数の特性は、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、フォント、言語、レイアウト、又はそれらの組み合わせのうちの少なくとも1つを含む。この例が図5Bに示されており、表示設定520から表示設定555への修正により、図5Bに示されているように、仮想コンテンツ525のサイズ、フォントサイズ、及び詳細レベル(情報量)が増加され、仮想コンテンツ530の位置及び深さを変更して、部分的にレッド・アワーバックの像の背後に見えるようにする。
[0179] いくつかの例では、表示設定に対する修正は、仮想コンテンツが閾値時間内にユーザによって再視認される尤度に基づく。例えば、図7の仮想コンテンツ730の例では、車がユーザに急速に接近しているので、閾値時間は短くすることができ、(例えば、知覚レベル及び/又は把握レベルに基づいて)ユーザが閾値時間内に仮想コンテンツを再視認する可能性が低いと思われる場合に、ユーザが警告されることを確実にするために、修正により、仮想コンテンツ730のサイズを迅速に大きくすることができる。
[0180] いくつかの例では、撮像システムは、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるための手段であって、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である、表示させるための手段と、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定するための手段と、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定するための手段と、を含むことができる。
[0181] いくつかの例では、仮想コンテンツを表示させるための手段は、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、XRシステム200、仮想コンテンツ生成器215、環境対面センサ210、合成器220、ディスプレイ225、ディスプレイ340、第1のカメラ330A、第2のカメラ330B、ディスプレイ440、第3のカメラ430C、第4のカメラ430D、仮想コンテンツ525、仮想コンテンツ530、仮想コンテンツ535、仮想コンテンツ630、仮想コンテンツ730、コンピューティングシステム1100、又はそれらの組み合わせを含む。いくつかの例では、知覚レベルを判定するための手段は、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、XRシステム200、ユーザ対面センサ205、属性エンジン230、知覚エンジン235、把握エンジン240、仮想コンテンツスコアリングエンジン245、フィードバックエンジン260、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、第3のトレーニングされたMLモデル865、NN900、コンピューティングシステム1100、又はそれらの組み合わせを含む。いくつかの例では、表示設定に対する修正を決定する手段は、XRシステム200、合成器220、属性エンジン230、知覚エンジン235、把握エンジン240、仮想コンテンツスコアリングエンジン245、フィードバックエンジン260、第1のトレーニングされたMLモデル825、第2のトレーニングされたMLモデル835、第3のトレーニングされたMLモデル865、NN900、コンピューティングシステム1100、又はそれらの組み合わせを含む。
[0182] いくつかの例では、本明細書で説明されるプロセス(例えば、図1、図2、図8、図9、図10のプロセス及び/又は本明細書で説明される他のプロセス)は、コンピューティングデバイス又は装置によって実施されてもよい。いくつかの例では、図1、図2、図8、図9、及び/又は図10のプロセスは、画像捕捉及び処理システム100、画像捕捉デバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、XRシステム200、HMD310、モバイルハンドセット410、画像505を捕捉し、仮想コンテンツ525~535をオーバーレイする撮像デバイス、画像605を捕捉し、仮想コンテンツ630をオーバーレイする撮像デバイス、画像705を捕捉し、仮想コンテンツ730をオーバーレイする撮像デバイス、図8の撮像デバイス、第2のトレーニングされたMLモデル835の第1のトレーニングされたMLモデル825、第3のトレーニングされたMLモデル865、ニューラルネットワーク900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせによって実施され得る。
[0183] コンピューティングデバイスは、モバイルデバイス(例えば、携帯電話)、デスクトップコンピューティングデバイス、タブレットコンピューティングデバイス、ウェアラブルデバイス(例えば、VRヘッドセット、ARヘッドセット、AR眼鏡、ネットワーク接続されたウォッチ若しくはスマートウォッチ、又は他のウェアラブルデバイス)、サーバコンピュータ、自律ビークル若しくは自律ビークルのコンピューティングデバイス、ロボットデバイス、テレビ、並びに/又は図1、図2、図8、図9、及び/若しくは図10のプロセスを含む本明細書に説明されるプロセスを実施するためのリソース能力を有する任意の他のコンピューティングデバイスなどの、任意の好適なデバイスを含むことができる。場合によっては、コンピューティングデバイス又は装置は、1つ又は複数の入力デバイス、1つ又は複数の出力デバイス、1つ又は複数のプロセッサ、1つ又は複数のマイクロプロセッサ、1つ又は複数のマイクロコンピュータ、1つ又は複数のカメラ、1つ又は複数のセンサ、及び/又は本明細書で説明するプロセスのステップを実行するように構成される他の構成要素などの、様々な構成要素を含み得る。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信及び/又は受信するように構成されたネットワークインターフェース、それらの任意の組み合わせ、及び/又は他の構成要素を含んでよい。ネットワークインターフェースは、インターネットプロトコル(IP)ベースのデータ若しくは他のタイプのデータを通信及び/又は受信するように構成され得る。
[0184] コンピューティングデバイスの構成要素は、回路に実装され得る。例えば、構成要素は、1つ又は複数のプログラマブル電子回路(例えば、マイクロプロセッサ、グラフィックス処理ユニット(GPUs)、デジタル信号プロセッサ(DSPs)、中央処理ユニット(CPUs)、及び/又は他の好適な電子回路)を含み得る、電子回路若しくは他の電子ハードウェアを含むことができる、及び/若しくはそれらを使用して実装されることが可能であり、並びに/又は本明細書で説明する様々な動作を実行するために、コンピュータソフトウェア、ファームウェア、若しくはそれらの任意の組み合わせを含むことができる、及び/若しくはそれらを使用して実装されることが可能である。
[0185] 図1、図2、図8、図9、及び/又は図10のプロセスは、論理フロー図、ブロック図、又は概念図として示され、それらの動作は、ハードウェア、コンピュータ命令、又はそれらの組み合わせにおいて実装され得る動作のシーケンスを表す。コンピュータ命令のコンテキストでは、動作は、1つ又は複数のプロセッサによって実行されたとき、記載された動作を実行する、1つ又は複数のコンピュータ可読記憶媒体上に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実行するか又は特定のデータタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図せず、任意の数の説明される動作は、プロセスを実装するために任意の順序で、及び/又は並列に組み合わせることができる。
[0186] 追加的に、図1、図2、図8、図9、及び/若しくは図10のプロセス、並びに/又は本明細書において説明される他のプロセスは、実行可能命令を用いて構成された1つ又は複数のコンピュータシステムの制御下で実施されてもよく、1つ若しくは複数のプロセッサ上で、ハードウェアによって、又はそれらの組み合わせで、まとめて実行するコード(例えば、実行可能命令、1つ若しくは複数のコンピュータプログラム、又は1つ若しくは複数のアプリケーション)として実装されてもよい。上述のように、コードは、例えば、1つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体又は機械可読記憶媒体上に記憶されてもよい。コンピュータ可読記憶媒体又は機械可読記憶媒体は、非一時的であってもよい。
[0187] 図11は、本技術のいくつかの態様を実装するためのシステムの一例を示す図である。詳細には、図11は、例えば、システムの構成要素が接続1105を使用して互いに通信している、内部コンピューティングシステム、リモートコンピューティングシステム、カメラ、又はそれらの任意の構成要素を構成する、任意のコンピューティングデバイスであり得るコンピューティングシステム1100の一例を示す。接続1105は、バスを使用した物理接続、又はチップセットアーキテクチャなどにおけるプロセッサ1110への直接接続であってよい。接続1105はまた、仮想接続、ネットワーク接続、又は論理接続であってもよい。
[0188] いくつかの実施形態では、コンピューティングシステム1100は、本開示において説明する機能が、1つのデータセンター、複数のデータセンター、ピアネットワークなどに分散され得る分散型システムである。いくつかの実施形態では、説明されるシステム構成要素の1つ又は複数は、構成要素の説明の対象である機能のうちのいくつか又は全てを各々実施するような多くの構成要素を表す。いくつかの実施形態では、構成要素は物理デバイス又は仮想デバイスとすることができる。
[0189] 例示的なシステム1100は、少なくとも1つの処理ユニット(CPU又はプロセッサ)1110と、読取り専用メモリ(ROM)1120及びランダムアクセスメモリ(RAM)1125などのシステムメモリ1115を含む様々なシステム構成要素をプロセッサ1110に結合する接続1105とを含む。コンピューティングシステム1100は、プロセッサ1110と直接接続されるか、プロセッサ1110に極めて近接しているか、又はプロセッサ1110の一部として統合される、高速メモリのキャッシュ1112を含み得る。
[0190] プロセッサ1110は、任意の汎用プロセッサと、記憶デバイス1130内に記憶され、プロセッサ1110、並びにソフトウェア命令が実際のプロセッサ設計に組み込まれた専用プロセッサを制御するように構成された、サービス1132、1134、及び1136などのハードウェアサービス又はソフトウェアサービスとを含み得る。プロセッサ1110は基本的に、複数のコア又はプロセッサ、バス、メモリコントローラ、キャッシュなどを含む、完全に自己完結型のコンピューティングシステムであってもよい。マルチコアプロセッサは、対称であってもよく又は非対称であってもよい。
[0191] ユーザ対話を可能にするために、コンピューティングシステム1100は、発話のためのマイクロフォン、ジェスチャ入力又はグラフィカル入力のためのタッチ感知スクリーン、キーボード、マウス、モーション入力、発話などの、任意の数の入力機構を表すことができる、入力デバイス1145を含む。コンピューティングシステム1100はまた、いくつかの出力機構のうちの1つ又は複数であり得る出力デバイス1135も含み得る。場合によっては、多モードのシステムは、コンピューティングシステム1100と通信するためにユーザが複数のタイプの入力/出力を提供することを可能にし得る。コンピューティングシステム1100は、一般に、ユーザ入力及びシステム出力を支配し管理することができる通信インターフェース1140を含み得る。通信インターフェースは、オーディオジャック/プラグ、マイクロフォンジャック/プラグ、ユニバーサルシリアルバス(universal serial bus、USB)ポート/プラグ、Apple(登録商標)Lightning(登録商標)ポート/プラグ、Ethernet(登録商標)ポート/プラグ、光ファイバーポート/プラグ、プロプライエタリ有線ポート/プラグ、BLUETOOTH(登録商標)ワイヤレス信号転送、BLUETOOTH(登録商標)低エネルギー(low energy、BLE)ワイヤレス信号転送、IBEACON(登録商標)ワイヤレス信号転送、無線周波識別(radio-frequency identification、RFID)ワイヤレス信号転送、近距離通信(near-field communications、NFC)ワイヤレス信号転送、専用短距離通信(dedicated short range communication、DSRC)ワイヤレス信号転送、802.11 Wi-Fiワイヤレス信号転送、ワイヤレスローカルエリアネットワーク(WLAN)信号転送、可視光通信(Visible Light Communication、VLC)、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(Worldwide Interoperability for Microwave Access、WiMAX)、赤外線(infrared、IR)通信ワイヤレス信号転送、公衆交換電話網(Public Switched Telephone Network、PSTN)信号転送、統合サービスデジタルネットワーク(Integrated Services Digital Network、ISDN)信号転送、3G/4G/5G/LTEセルラーデータネットワークワイヤレス信号転送、アドホックネットワーク信号転送、電波信号転送、マイクロ波信号転送、赤外線信号転送、可視光信号転送、紫外光信号転送、電磁スペクトルに沿ったワイヤレス信号転送、又はそれらの何らかの組み合わせを利用するものを含む、有線及び/又はワイヤレスのトランシーバを使用する有線通信又はワイヤレス通信の受信及び/又は送信を実施し得るか、又は容易にし得る。通信インターフェース1140はまた、1つ又は複数の全地球航法衛星システム(GNSS)システムに関連する1つ又は複数の衛星からの1つ又は複数の信号の受信に基づいて、コンピューティングシステム1100のロケーションを決定するために使用される、1つ又は複数のGNSS受信機又はトランシーバを含んでもよい。GNSSシステムは、限定はしないが、米国の全地球測位システム(GPS)、ロシアの全地球航法衛星システム(Global Navigation Satellite System、GLONASS)、中国の北斗航法衛星システム(BeiDou Navigation Satellite system、BDS)、及び欧州のGalileo GNSSを含む。任意の特定のハードウェア配列で動作することに対して制約がなく、したがって、ここでの基本的な特徴は、それらが開発されるにつれて、改善されたハードウェア配列又はファームウェア配列のために容易に置き換えられてよい。
[0192] 記憶デバイス1130は、不揮発性のかつ/又は非一時的なかつ/又はコンピュータ可読のメモリデバイスであってもよく、磁気カセット、フラッシュメモリカード、固体メモリデバイス、デジタル多用途ディスク、カートリッジ、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、磁気ストリップ/ストライプ、任意の他の磁気記憶媒体、フラッシュメモリ、メモリスタメモリ、任意の他の固体メモリ、コンパクトディスク読取り専用メモリ(compact disc read only memory、CD-ROM)光ディスク、再書き込み可能コンパクトディスク(compact disc、CD)光ディスク、デジタルビデオディスク(digital video disk、DVD)光ディスク、ブルーレイディスク(blu-ray disc、BDD)光ディスク、ホログラフィック光ディスク、別の光媒体、セキュアデジタル(secure digital、SD)カード、マイクロセキュアデジタル(micro secure digital、microSD)カード、メモリスティック(登録商標)カード、スマートカードチップ、EMVチップ、加入者識別モジュール(subscriber identity module、SIM)カード、ミニ/マイクロ/ナノ/ピコSIMカード、別の集積回路(integrated circuit、IC)チップ/カード、ランダムアクセスメモリ(RAM)、スタティックRAM(static RAM、SRAM)、ダイナミックRAM(dynamic RAM、DRAM)、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(programmable read-only memory、PROM)、消去可能プログラマブル読取り専用メモリ(erasable programmable read-only memory、EPROM)、電気的消去可能プログラマブル読取り専用メモリ(electrically erasable programmable read-only memory、EEPROM(登録商標))、フラッシュEPROM(flashEPROM、FLASHEPROM)、キャッシュメモリ(L1/L2/L3/L4/L5/L#)、抵抗性ランダムアクセスメモリ(resistive random-access memory、RRAM(登録商標)/ReRAM)、位相変化メモリ(phase change memory、PCM)、スピン転送トルクRAM(spin transfer torque RAM、STT-RAM)、別のメモリチップ若しくはカートリッジ、及び/又はそれらの組み合わせなどの、コンピュータによってアクセス可能であるデータを記憶できるハードディスク又は他のタイプのコンピュータ可読媒体であってよい。
[0193] 記憶デバイス1130は、そのようなソフトウェアを定義するコードがプロセッサ1110によって実行されたときに、システムに機能を実施させる、ソフトウェアサービス、サーバ、サービスなどを含み得る。いくつかの実施形態では、特定の機能を実施するハードウェアサービスは、機能を実行するために、プロセッサ1110、接続1105、出力デバイス1135などの必要なハードウェア構成要素に関してコンピュータ可読媒体内に記憶された、ソフトウェア構成要素を含み得る。
[0194] 本明細書で使用する「コンピュータ可読媒体」という用語は、限定はしないが、携帯型又は非携帯型の記憶デバイス、光記憶デバイス、並びに命令及び/又はデータを記憶、格納、又は搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データが記憶され、かつワイヤレスで若しくは有線接続を介して伝搬する搬送波及び/又は一時的な電子信号を含まない、非一時的媒体を含んでもよい。非一時的媒体の例としては、限定はしないが、磁気ディスク若しくはテープ、コンパクトディスク(CD)若しくはデジタル多用途ディスク(DVD)などの光記憶媒体、フラッシュメモリ、メモリ、又はメモリデバイスが挙げられ得る。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は命令、データ構造、若しくはプログラムステートメントの任意の組み合わせを表し得る、コンピュータ可読媒体上に記憶されたコード及び/又は機械実行可能命令を有してもよい。コードセグメントは、情報、データ、引数、パラメータ、又はメモリコンテンツを渡すこと及び/又は受けることによって、別のコードセグメント又はハードウェア回路に結合されてもよい。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む、任意の適切な手段を使用して渡され、転送され、又は伝送されてもよい。
[0195] いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、及びメモリは、ビットストリームなどを含むケーブル又はワイヤレス信号を含み得る。しかしながら、言及する場合、非一時的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、及び信号自体などの媒体を明確に除外する。
[0196] 本明細書で提供する実施形態及び例の完全な理解を与えるために、上記の説明において具体的な詳細が提供されている。しかしながら、実施形態がこれらの具体的な詳細なしに実践され得ることが当業者によって理解されよう。説明を分かりやすくするために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアの中で具現される方法におけるステップ若しくはルーチン、又はハードウェアとソフトウェアとの組み合わせを備える機能ブロックを含む、個々の機能ブロックを含むものとして提示されることがある。図中に示され、及び/又は本明細書で説明される構成要素以外の、追加の構成要素が使用されてもよい。例えば、不必要な詳細で実施形態を不明瞭にしないように、回路、システム、ネットワーク、プロセス、及び他の構成要素がブロック図の形態で構成要素として示されてもよい。他の事例では、実施形態を不明瞭にすることを避けるために、よく知られている回路、プロセス、アルゴリズム、構造、及び技法は、不必要な詳細なしに示されてもよい。
[0197] 個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として示されるプロセス又は方法として上記で説明されてもよい。フローチャートは、動作を逐次プロセスとして説明することがあるが、動作の多くは並列に又は同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了するときに終了するが、図に含まれていない追加のステップを有することができる。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、その関数が呼出し関数又はメイン関数に戻ることに対応することができる。
[0198] 上記で説明した例によるプロセス及び方法は、コンピュータ可読媒体に記憶されているか、又はそうでなければコンピュータ可読媒体から入手可能なコンピュータ実行可能命令を使用して実装され得る。そのような命令は、例えば、汎用コンピュータ、専用コンピュータ、若しくは処理デバイスにいくつかの機能若しくは機能の群を実施させるか、又は場合によっては、いくつかの機能若しくは機能の群を実施するように汎用コンピュータ、専用コンピュータ、若しくは処理デバイスを構成する、命令及びデータを含み得る。使用されるコンピュータリソースの部分は、ネットワークを介してアクセス可能であり得る。コンピュータ実行可能命令は、例えば、アセンブリ言語、ファームウェア、ソースコードなどの、バイナリ、中間フォーマット命令であってもよい。命令、使用される情報、及び/又は説明する例による方法の間に作成される情報を記憶するために使用されることがあるコンピュータ可読媒体の例としては、磁気又は光ディスク、フラッシュメモリ、不揮発性メモリを備えたUSBデバイス、ネットワーク接続された記憶デバイスなどが挙げられる。
[0199] これらの開示に従ってプロセス及び方法を実装するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを含むことができ、様々なフォームファクタのうちのいずれかを取ることができる。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードにおいて実装されるとき、必要なタスクを実行するためのプログラムコード又はコードセグメント(例えば、コンピュータプログラム製品)は、コンピュータ可読媒体又は機械可読媒体に記憶されてもよい。プロセッサは、必要なタスクを実行してもよい。フォームファクタの典型的な例は、ラップトップ、スマートフォン、携帯電話、タブレットデバイス又は他の小スペース型パーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどを含む。本明細書で説明した機能はまた、周辺装置又はアドインカードで具現化され得る。そのような機能はまた、更なる例として、異なるチップのうちの回路基板上、又は単一のデバイスにおいて実行する異なるプロセス上で実装され得る。
[0200] 命令、そのような命令を伝えるための媒体、命令を実行するためのコンピューティングリソース、及びそのようなコンピューティングリソースをサポートするための他の構造は、本開示で説明した機能を提供するための例示的な手段である。
[0201] 上記の説明では、本出願の態様はそれらの特定の実施形態を参照しながら説明されるが、本出願がそれらに限定されないことを当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に説明されているが、本発明の概念が別のやり方で様々に具現及び採用され得ること、並びに従来技術によって限定される場合を除き、添付の特許請求の範囲がそのような変形を含むものと解釈されることが意図されることを理解されたい。上記で説明した本出願の様々な特徴及び態様は、個別に又は共同で使用され得る。更に、実施形態は、本明細書のより広い趣旨及び範囲から逸脱することなく、本明細書で説明されるもの以外の任意の数の環境及び適用例において利用することができる。したがって、本明細書及び図面は、限定的ではなく例示的とみなされるべきである。例示の目的のために、方法は特定の順序で説明された。代替実施形態では、方法は、説明された順序とは異なる順序で実行されてもよいことを理解されたい。
[0202] 本明細書において使用される、よりも小さい(「<」)及びよりも大きい(「>」)という記号又は用語は、本説明の範囲から逸脱することなく、以下(「≦」)及び以上(「≧」)という記号それぞれに置き換えることができることを、当業者は理解するであろう。
[0203] 構成要素が特定の動作を実行する「ように構成されている」ものとして説明される場合、そのような構成は、例えば、動作を実行するように電子回路若しくは他のハードウェアを設計することによって、動作を実行するようにプログラマブル電子回路(例えば、マイクロプロセッサ、又は他の適切な電子回路)をプログラムすることによって、又はそれらの任意の組み合わせで達成され得る。
[0204] 「に結合された」という句は、直接的若しくは間接的のいずれかで別の構成要素に物理的に接続されている任意の構成要素、及び/又は直接的若しくは間接的のいずれかで別の構成要素と通信している(例えば、有線接続若しくはワイヤレス接続及び/又は他の好適な通信インターフェースを介して他の構成要素に接続されている)任意の構成要素を指す。
[0205] 集合「のうちの少なくとも1つ」及び/又は集合のうちの「1つ又は複数」と記載する請求項の文言又は他の文言は、集合の1つのメンバー又は集合の(任意の組み合わせでの)複数のメンバーが請求項を満たすことを示す。例えば、「A及びBのうちの少なくとも1つ」と記載する請求項の文言は、A、B、又はA及びBを意味する。別の例では、「A、B、及びCのうちの少なくとも1つ」と記載する請求項の文言は、A、B、C、又はA及びB、又はA及びC、又はB及びC、又はA及びB及びCを意味する。集合「のうちの少なくとも1つ」及び/又は集合のうちの「1つ以上」という文言は、集合の中で列挙される項目にその集合を限定しない。例えば、「A及びBのうちの少なくとも1つ」を記述する請求項の文言は、A、B、又はA及びBを意味することができ、加えて、A及びBの集合に列挙されていない項目を更に含むことができる。
[0206] 本明細書で開示する実施形態に関して説明した様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、又はそれらの組み合わせとして実装され得る。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップについて、それらの機能に関して概略的に上記で説明した。そのような機能がハードウェアとして実装されるのか又はソフトウェアとして実装されるのかは、特定の適用例及びシステム全体に課される設計上の制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本出願の範囲から逸脱する原因として解釈されるべきではない。
[0207] 本明細書で説明される技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、又はそれらの任意の組み合わせにおいて実装され得る。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、又はワイヤレス通信デバイスハンドセット及び他のデバイスにおける適用例を含む複数の用途を有する集積回路デバイスなどの、様々なデバイスのうちのいずれかにおいて実装されてもよい。モジュール又は構成要素として説明した任意の特徴は、集積ロジックデバイスの中で一緒に、又は個別であるが相互動作可能なロジックデバイスとして別々に実装され得る。ソフトウェアで実装される場合、技法は、実行されると、上で説明された方法のうちの1つ又は複数を実施する命令を含むプログラムコードを備える、コンピュータ可読データ記憶媒体によって少なくとも部分的に実現されてよい。コンピュータ可読データ記憶媒体は、コンピュータプログラム製品の一部を形成してもよく、これはパッケージ材料を含んでもよい。コンピュータ可読媒体は、同期ダイナミックランダムアクセスメモリ(synchronous dynamic random access memory、SDRAM)などのランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(non-volatile random access memory、NVRAM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、FLASH(登録商標)メモリ、磁気又は光データ記憶媒体などの、メモリ又はデータ記憶媒体を備えてもよい。技法は、追加又は代替として、命令又はデータ構造の形態でのプログラムコードを搬送又は通信し得る、かつコンピュータによってアクセスされ、読み取られ、及び/又は実行され得る、伝搬される信号又は波などの、コンピュータ可読通信媒体によって少なくとも部分的に実現されてもよい。
[0208] プログラムコードは、1つ又は複数のデジタル信号プロセッサ(DSPs)、汎用マイクロプロセッサ、特定用途向け集積回路(application specific integrated circuits、ASICs)、フィールドプログラマブルロジックアレイ(field programmable logic arrays、FPGAs)、又は他の同等の集積論理回路若しくは個別論理回路などの1つ又は複数のプロセッサを含み得る、プロセッサによって実行されてもよい。そのようなプロセッサは、本開示に記載された技法のいずれかを実施するように構成されてもよい。汎用プロセッサは、マイクロプロセッサであってもよい代わりに、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンでもあってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携した1つ又は複数のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、上記の構造の任意の組み合わせ、又は本明細書で説明した技法の実装に適した任意の他の構造若しくは装置のうちのいずれかを指すことがある。加えて、いくつかの態様では、本明細書で説明した機能性は、符号化及び復号のために構成された専用のソフトウェアモジュール若しくはハードウェアモジュール内に設けられてよく、又は複合ビデオエンコーダデコーダ(combined video encoder-decoder、CODEC)内に組み込まれてよい。
[0209] 本開示の例示的な態様は以下を含む。
[0210] 態様1:エクステンデッドリアリティ(XR)システムであって、装置は、メモリと、メモリに結合された1つ又は複数のプロセッサと、を備え、1つ又は複数のプロセッサは、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させ、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能であり、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定し、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定する、ように構成されている、XRシステム。
[0211] 態様2.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼に関連付けられている、態様1に記載のXRシステム。
[0212] 態様3.ディスプレイの少なくとも一部分を通過する環境からの光に少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である、態様1又は2に記載のXRシステム。
[0213] 態様4.環境のビューをディスプレイによって表示させるように1つ又は複数のプロセッサが構成されていることに少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である、態様1~3のいずれかに記載のXRシステム。
[0214] 態様5.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、1つ又は複数のトレーニングされた機械学習システムへの入力として、ユーザの1つ又は複数の知覚関連属性を使用するように構成されている、態様1~4のいずれかに記載のXRシステム。
[0215] 態様6.1つ又は複数のプロセッサが、ユーザインターフェースを通して、ユーザによる仮想コンテンツに対する知覚レベルに対応するフィードバックを受信し、フィードバックに基づいて、1つ又は複数のトレーニングされた機械学習システムを更新する、ように構成されている、態様5に記載のXRシステム。
[0216] 態様7.1つ又は複数のプロセッサが、1つ又は複数のセンサによって捕捉されたセンサデータであって、ユーザの1つ又は複数の眼を示す、センサデータを受信し、センサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定する、ように構成されている、態様1~6のいずれかに記載のXRシステム。
[0217] 態様8.1つ又は複数のセンサを更に備える、態様7に記載のXRシステム。
[0218] 態様9.1つ又は複数のプロセッサが、1つ又は複数の画像センサによって捕捉されたセンサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定するように構成されており、センサデータが、ユーザの1つ又は複数の眼の1つ又は複数の画像を含む、態様1~8のいずれかに記載のXRシステム。
[0219] 態様10.1つ又は複数のプロセッサが、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定するように構成されており、知覚レベルに基づいて表示設定に対する修正を決定するために、1つ又は複数のプロセッサが、把握レベルに基づいて、表示設定に対する修正を決定するように構成されている、態様1~9のいずれかに記載のXRシステム。
[0220] 態様11.1つ又は複数のプロセッサが、ユーザに関連付けられた履歴情報を受信するように構成されており、ユーザによる仮想コンテンツに対する把握レベルを判定するために、1つ又は複数のプロセッサが、ユーザに関する履歴情報に基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定するように構成されている、態様10に記載のXRシステム。
[0221] 態様12.1つ又は複数のプロセッサが、仮想コンテンツの特性を判定するように構成されており、ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、仮想コンテンツの特性に更に基づいて、知覚レベルを判定するように構成されている、態様1~11のいずれかに記載のXRシステム。
[0222] 態様13.1つ又は複数のプロセッサが、仮想コンテンツの複雑さレベルを判定するように構成されており、ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、仮想コンテンツの複雑さレベルに基づいて、知覚レベルを判定するように構成されている、態様1~12のいずれかに記載のXRシステム。
[0223] 態様14.1つ又は複数のプロセッサが、仮想コンテンツの一意性レベルを判定するように構成されており、ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、仮想コンテンツの一意性レベルに基づいて、知覚レベルを判定するように構成されている、態様1~13のいずれかに記載のXRシステム。
[0224] 態様15.仮想コンテンツに対応する表示設定に対する修正が、ディスプレイに、仮想コンテンツの少なくとも一部分を表示することを停止させることを含む、態様1~14のいずれかに記載のXRシステム。
[0225] 態様16.仮想コンテンツに対応する表示設定に対する修正が、ディスプレイに、仮想コンテンツの少なくとも一部分を、修正の前よりも顕著に表示させることを含む、態様1~15のいずれかに記載のXRシステム。
[0226] 態様17.仮想コンテンツに対応する表示設定に対する修正が、仮想コンテンツの1つ又は複数の特性に対する修正を含み、1つ又は複数の特性が、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、フォント、言語、及びレイアウトのうちの少なくとも1つを含む、態様1~16のいずれかに記載のXRシステム。
[0227] 態様18.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザが仮想コンテンツを知覚したことを判定するように構成されている、態様1~17のいずれかに記載のXRシステム。
[0228] 態様19.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザが仮想コンテンツを知覚していないと判定するように構成されている、態様1~18のいずれかに記載のXRシステム。
[0229] 態様20.表示設定に対する修正が、仮想コンテンツが閾値時間内にユーザによって再視認される尤度に基づく、態様1~19のいずれかに記載のXRシステム。
[0230] 態様21.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザによる仮想コンテンツに対する知覚レベルに対応する信頼レベルを判定するように構成されており、表示設定に対する修正が、信頼レベルに基づく、態様1~20のいずれかに記載のXRシステム。
[0231] 態様22.ユーザの1つ又は複数の知覚関連属性が、仮想コンテンツに対するユーザの1つ又は複数の眼の1つ又は複数の眼球位置を含む、態様1~21のいずれかに記載のXRシステム。
[0232] 態様23.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回のサッカードの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、サッカード速度、サッカード振幅、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様1~22のいずれかに記載のXRシステム。
[0233] 態様24.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回の固視の1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様1~23のいずれかに記載のXRシステム。
[0234] 態様25.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回の瞳孔拡張の1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、瞳孔拡張レベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様1~24のいずれかに記載のXRシステム。
[0235] 態様26.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の瞼による1回又は複数回の瞬きの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、瞬き速度、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様1~25のいずれかに記載のXRシステム。
[0236] 態様27.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の瞼による1回又は複数回の眼を細めることの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、眼を細めるレベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様1~26のいずれかに記載のXRシステム。
[0237] 態様28.1つ又は複数のプロセッサが、ユーザによる文字列の読解の程度を、仮想コンテンツに対する知覚レベルと文字列の長さとに基づいて判定するように構成されており、仮想コンテンツが、文字列を含む、態様1~27のいずれかに記載のXRシステム。
[0238] 態様29.ディスプレイを更に備える、態様1~28のいずれかに記載のXRシステム。
[0239] 態様30.XRシステムが、モバイルハンドセット、無線通信デバイス、及びヘッドマウントディスプレイのうちの少なくとも1つを含む、態様1~29のいずれかに記載のXRシステム。
[0240] 態様31.1つ又は複数のプロセッサが、環境に対する仮想コンテンツの独自性レベルを判定するように構成されており、ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、環境に対する仮想コンテンツの独自性レベルに基づいて、知覚レベルを判定するように構成されている、態様1~30のいずれかに記載のXRシステム。
[0241] 態様32.1つ又は複数のプロセッサが、ユーザの1つ又は複数の眼の表現を含むセンサデータに少なくとも部分的に基づいて、ユーザの1つ又は複数の知覚関連属性のうちの少なくとも1つを判定するように構成されており、1つ又は複数のセンサが、センサデータを捕捉するように構成されている、態様1~31のいずれかに記載のXRシステム。
[0242] 態様33.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼の1つ又は複数の属性、ユーザの1つ又は複数の表情の1つ又は複数の属性、及びユーザの1つ又は複数のジェスチャ、のうちの少なくとも1つを含む、態様1~32のいずれかに記載のXRシステム。
[0243] 態様34.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定するように構成されている、態様1~33のいずれかに記載のXRシステム。
[0244] 態様35.ユーザによる仮想コンテンツに対する把握レベルを判定するために、1つ又は複数のプロセッサが、ユーザの1つ又は複数の知覚関連属性と、仮想コンテンツの1つ又は複数の特性、コンテキストデータ、及びユーザのユーザプロファイルのうちの少なくとも1つとに基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定するように構成されている、態様34に記載のXRシステム。
[0245] 態様36.ユーザプロファイルが、ユーザに関連付けられた履歴データを含む、態様35に記載のXRシステム。
[0246] 態様37.コンテキストデータが、仮想コンテンツに対するユーザによる1つ又は複数の反応を含む、態様35又は36に記載のXRシステム。
[0247] 態様38.コンテキストデータが、XRシステムのロケーションを含む、態様35~37のいずれかに記載のXRシステム。
[0248] 態様39.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザが複数の知覚レベルのうちの第1の知覚レベルまで仮想コンテンツを知覚したことを判定するように構成されている、態様1~38のいずれかに記載のXRシステム。
[0249] 態様40.ユーザによる仮想コンテンツに対する知覚レベルを判定するために、1つ又は複数のプロセッサが、ユーザが複数の知覚レベルのうちの第2の知覚レベルまで仮想コンテンツを知覚したことを判定するように構成されている、態様1~39のいずれかに記載のXRシステム。
[0250] 態様41.エクステンデッドリアリティ(XR)動作の方法であって、方法は、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させることであって、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である、表示させることと、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定することと、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定することと、を含む、方法。
[0251] 態様42.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼に関連付けられている、態様41に記載の方法。
[0252] 態様43.ディスプレイの少なくとも一部分を通過する環境からの光に少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である、態様41又は42に記載の方法。
[0253] 態様44.環境のビューをディスプレイによって表示させることに少なくとも部分的に基づいて、環境が、ディスプレイを使用して視認可能である、態様41~43のいずれかに記載の方法。
[0254] 態様45.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、1つ又は複数のトレーニングされた機械学習システムへの入力として、ユーザの1つ又は複数の知覚関連属性を使用することを含む、態様41~44のいずれかに記載の方法。
[0255] 態様46.ユーザインターフェースを通して、ユーザによる仮想コンテンツに対する知覚レベルに対応するフィードバックを受信することと、フィードバックに基づいて、1つ又は複数のトレーニングされた機械学習システムを更新することと、を更に含む、態様45に記載の方法。
[0256] 態様47.1つ又は複数のセンサによって捕捉されたセンサデータであって、ユーザの1つ又は複数の眼を示す、センサデータを受信することと、センサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定することと、を更に含む、態様41~46のいずれかに記載の方法。
[0257] 態様48.方法が、1つ又は複数のセンサを含むXRシステムによって実施される、態様41~47のいずれかに記載の方法。
[0258] 態様49.1つ又は複数の画像センサによって捕捉されたセンサデータに基づいて、ユーザの1つ又は複数の知覚関連属性を判定することを更に含み、センサデータが、ユーザの1つ又は複数の眼の1つ又は複数の画像を含む、態様41~48のいずれかに記載の方法。
[0259] 態様50.ユーザによる仮想コンテンツに対する知覚レベルに基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定することを更に含み、知覚レベルに基づいて表示設定に対する修正を決定することが、把握レベルに基づいて表示設定に対する修正を決定することを含む、態様41~49のいずれかに記載の方法。
[0260] 態様51.ユーザに関連付けられた履歴情報を受信することを更に含み、ユーザによる仮想コンテンツに対する把握レベルを判定することが、ユーザに関する履歴情報に基づく、態様50に記載の方法。
[0261] 態様52.仮想コンテンツの特性を判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することが、仮想コンテンツの特性に基づく、態様41~51のいずれかに記載の方法。
[0262] 態様53.仮想コンテンツの複雑さレベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することが、仮想コンテンツの複雑さレベルに基づく、態様41~52のいずれかに記載の方法。
[0263] 態様54.仮想コンテンツの一意性レベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することが、仮想コンテンツの一意性レベルに基づく、態様41~53のいずれかに記載の方法。
[0264] 態様55.仮想コンテンツに対応する表示設定に対する修正が、ディスプレイに、仮想コンテンツの少なくとも一部分を表示することを停止させることを含む、態様41~54のいずれかに記載の方法。
[0265] 態様56.仮想コンテンツに対応する表示設定に対する修正が、ディスプレイに、仮想コンテンツの少なくとも一部分を、修正の前よりも顕著に表示させることを含む、態様41~55のいずれかに記載の方法。
[0266] 態様57.仮想コンテンツに対応する表示設定に対する修正が、仮想コンテンツの1つ又は複数の特性に対する修正を含み、1つ又は複数の特性が、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、フォント、言語、及びレイアウトのうちの少なくとも1つを含む、態様41~56のいずれかに記載の方法。
[0267] 態様58.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザが仮想コンテンツを知覚したと判定することを含む、態様41~57のいずれかに記載の方法。
[0268] 態様59.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザが仮想コンテンツを知覚していないと判定することを含む、態様41~58のいずれかに記載の方法。
[0269] 態様60.表示設定に対する修正が、仮想コンテンツが閾値時間内にユーザによって再視認される尤度に基づく、態様41~59のいずれかに記載の方法。
[0270] 態様61.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザによる仮想コンテンツに対する知覚レベルに対応する信頼レベルを判定することを含み、表示設定に対する修正が、信頼レベルに基づく、態様41~60のいずれかに記載の方法。
[0271] 態様62.ユーザの1つ又は複数の知覚関連属性が、仮想コンテンツに対するユーザの1つ又は複数の眼の1つ又は複数の眼球位置を含む、態様41~61のいずれかに記載の方法。
[0272] 態様63.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回のサッカードの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、サッカード速度、サッカード振幅、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様41~62のいずれかに記載の方法。
[0273] 態様64.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回の固視の1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様41~63のいずれかに記載の方法。
[0274] 態様65.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼による1回又は複数回の瞳孔拡張の1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、瞳孔拡張レベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様41~64のいずれかに記載の方法。
[0275] 態様66.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の瞼による1回又は複数回の瞬きの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、瞬き速度、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様41~65のいずれかに記載の方法。
[0276] 態様67.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の瞼による1回又は複数回の眼を細めることの1つ又は複数の特性を含み、1つ又は複数の特性が、頻度、持続時間、タイミング、眼を細めるレベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、態様41~66のいずれかに記載の方法。
[0277] 態様68.ユーザによる文字列の読解の程度を、仮想コンテンツに対する知覚レベルと文字列の長さとに基づいて判定することを更に含み、仮想コンテンツが、文字列を含む、態様41~67のいずれかに記載の方法。
[0278] 態様69.方法が、ディスプレイを含むXRシステムによって実施される、態様41~68のいずれかに記載の方法。
[0279] 態様70.方法が、モバイルハンドセット、無線通信デバイス、及びヘッドマウントディスプレイのうちの少なくとも1つを含むXRシステムによって実施される、態様41~69のいずれかに記載の方法。
[0280] 態様71.環境に対する仮想コンテンツの独自性レベルを判定することを更に含み、ユーザによる仮想コンテンツに対する知覚レベルを判定することが、環境に対する仮想コンテンツの独自性レベルに基づく、態様41~70のいずれかに記載の方法。
[0281] 態様72.ユーザの1つ又は複数の眼の表現を含むセンサデータに少なくとも部分的に基づいて、ユーザの1つ又は複数の知覚関連属性のうちの少なくとも1つを判定することを更に含み、1つ又は複数のセンサが、センサデータを捕捉するように構成されている、態様41~71のいずれかに記載の方法。
[0282] 態様73.ユーザの1つ又は複数の知覚関連属性が、ユーザの1つ又は複数の眼の1つ又は複数の属性、ユーザの1つ又は複数の表情の1つ又は複数の属性、及びユーザの1つ又は複数のジェスチャ、のうちの少なくとも1つを含む、態様41~72のいずれかに記載の方法。
[0283] 態様74.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによる仮想コンテンツに対する把握レベルを判定することを含む、態様41~73のいずれかに記載の方法。
[0284] 態様75.ユーザによる仮想コンテンツに対する把握レベルを判定することが、ユーザの1つ又は複数の知覚関連属性と、仮想コンテンツの1つ又は複数の特性、コンテキストデータ、及びユーザのユーザプロファイルのうちの少なくとも1つと、に基づく、態様74に記載の方法。
[0285] 態様76.ユーザプロファイルが、ユーザに関連付けられた履歴データを含む、態様75に記載の方法。
[0286] 態様77.コンテキストデータが、仮想コンテンツに対するユーザによる1つ又は複数の反応を含む、態様75又は76に記載の方法。
[0287] 態様78.方法が、XRシステムによって実施され、コンテキストデータが、XRシステムのロケーションを含む、態様75~77のいずれかに記載の方法。
[0288] 態様79.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザが複数の知覚レベルのうちの第1の知覚レベルまで仮想コンテンツを知覚したと判定することを含む、態様41~78のいずれかに記載の方法。
[0289] 態様80.ユーザによる仮想コンテンツに対する知覚レベルを判定することが、ユーザが複数の知覚レベルのうちの第2の知覚レベルまで仮想コンテンツを知覚したと判定することを含む、態様41~79のいずれかに記載の方法。
[0290] 態様81:命令を記憶した非一時的コンピュータ可読媒体であって、命令は、1つ又は複数のプロセッサによって実行されたときに、1つ又は複数のプロセッサに、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるようにさせ、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能であり、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定させ、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定させる、非一時的コンピュータ可読媒体。
[0291] 態様82:態様2~40のいずれか及び/又は態様42~80のいずれかを更に含む、態様81に記載の非一時的コンピュータ可読媒体。
[0292] 態様83:画像処理のための装置であって、装置は、仮想コンテンツを、仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させるための手段であって、仮想コンテンツがディスプレイによって表示されるときに、環境がディスプレイを使用して視認可能である、表示させるための手段と、ユーザの1つ又は複数の知覚関連属性に基づいて、ユーザによってディスプレイを使用して表示された仮想コンテンツに対する知覚レベルを判定するための手段と、ユーザによる仮想コンテンツに対する知覚レベルに基づいて、仮想コンテンツに対応する表示設定に対する修正を決定するための手段と、を備える、装置。
[0293] 態様84:態様2~40のいずれか及び/又は態様42~80のいずれかを更に含む、態様83に記載の装置。
Claims (35)
- 少なくとも1つのメモリと、
前記少なくとも1つのメモリに結合された1つ又は複数のプロセッサと、
を備えるエクステンデッドリアリティ(XR)システムであって、
前記1つ又は複数のプロセッサが、
仮想コンテンツを、前記仮想コンテンツに関連付けられた表示設定に従って、ディスプレイを使用して表示させ、前記仮想コンテンツが前記ディスプレイによって表示されるときに、環境が前記ディスプレイを使用して視認可能であり、
ユーザの1つ又は複数の知覚関連属性に基づいて、前記ユーザによって前記ディスプレイを使用して表示された前記仮想コンテンツに対する知覚レベルを決定し、
前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに基づいて、前記仮想コンテンツに対応する前記表示設定に対する修正を決定する、
ように構成されている、XRシステム。 - 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の眼に関連付けられている、請求項1に記載のXRシステム。
- 前記ディスプレイの少なくとも一部分を通過する前記環境からの光に少なくとも部分的に基づいて、前記環境が、前記ディスプレイを使用して視認可能である、請求項1に記載のXRシステム。
- 前記環境のビューを前記ディスプレイによって表示させるように前記1つ又は複数のプロセッサが構成されていることに少なくとも部分的に基づいて、前記環境が、前記ディスプレイを使用して視認可能である、請求項1に記載のXRシステム。
- 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、1つ又は複数のトレーニングされた機械学習システムへの入力として、前記ユーザの前記1つ又は複数の知覚関連属性を使用するように構成されている、請求項1に記載のXRシステム。
- 前記1つ又は複数のプロセッサが、
ユーザインターフェースを通して、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに対応するフィードバックを受信し、
前記フィードバックに基づいて、前記1つ又は複数のトレーニングされた機械学習システムを更新する、
ように構成されている、請求項5に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
1つ又は複数のセンサによって捕捉されたセンサデータを受信し、ここにおいて前記センサデータは、前記ユーザの1つ又は複数の眼を示す、
前記センサデータに基づいて、前記ユーザの前記1つ又は複数の知覚関連属性を決定する、
ように構成されている、請求項1に記載のXRシステム。 - 前記1つ又は複数のセンサを更に備える、請求項7に記載のXRシステム。
- 前記1つ又は複数のプロセッサが、
1つ又は複数の画像センサによって捕捉されたセンサデータに基づいて、前記ユーザの前記1つ又は複数の知覚関連属性を決定するように構成されており、前記センサデータが、前記ユーザの1つ又は複数の眼の1つ又は複数の画像を含む、請求項1に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに基づいて、前記ユーザによる前記仮想コンテンツに対する把握レベルを決定するように構成されており、前記知覚レベルに基づいて前記表示設定に対する前記修正を決定するために、前記1つ又は複数のプロセッサが、前記把握レベルに基づいて、前記表示設定に対する前記修正を決定するように構成されている、請求項1に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
前記ユーザに関連付けられた履歴情報を受信するように構成されており、前記ユーザによる前記仮想コンテンツに対する前記把握レベルを決定するために、前記1つ又は複数のプロセッサが、前記ユーザに関する前記履歴情報に基づいて、前記ユーザによる前記仮想コンテンツに対する前記把握レベルを決定するように構成されている、請求項10に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
前記仮想コンテンツの特性を決定するように構成されており、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、前記仮想コンテンツの前記特性に更に基づいて、前記知覚レベルを決定するように構成されている、請求項1に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
前記仮想コンテンツの複雑さレベルを決定するように構成されており、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、前記仮想コンテンツの前記複雑さレベルに基づいて、前記知覚レベルを決定するように構成されている、請求項1に記載のXRシステム。 - 前記1つ又は複数のプロセッサが、
前記仮想コンテンツの一意性レベルを決定するように構成されており、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、前記仮想コンテンツの前記一意性レベルに基づいて、前記知覚レベルを決定するように構成されている、請求項1に記載のXRシステム。 - 前記仮想コンテンツに対応する前記表示設定に対する前記修正が、前記ディスプレイに、前記仮想コンテンツの少なくとも一部分を表示することを停止させることを備える、請求項1に記載のXRシステム。
- 前記仮想コンテンツに対応する前記表示設定に対する前記修正が、前記ディスプレイに、前記仮想コンテンツの少なくとも一部分を、前記修正の前よりも顕著に表示させることを備える、請求項1に記載のXRシステム。
- 前記仮想コンテンツに対応する前記表示設定に対する前記修正が、前記仮想コンテンツの1つ又は複数の特性に対する修正を備え、前記1つ又は複数の特性が、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、フォント、言語、及びレイアウトのうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、前記ユーザが前記仮想コンテンツを知覚したと決定するように構成されている、請求項1に記載のXRシステム。
- 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定するために、前記1つ又は複数のプロセッサが、前記ユーザが前記仮想コンテンツを知覚していないと決定するように構成されている、請求項1に記載のXRシステム。
- 信頼レベルであって、前記表示設定に対する前記修正が、前記仮想コンテンツが一定の時間内に前記ユーザによって再視認される尤度、信頼レベルに基づく、請求項1に記載のXRシステム。
- 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを判定するために、前記1つ又は複数のプロセッサが、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに対応する信頼レベルを判定するように構成されており、前記表示設定に対する前記修正が、前記信頼レベルに基づく、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記仮想コンテンツに対する前記ユーザの1つ又は複数の眼の1つ又は複数の眼球位置を含む、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の眼による1回又は複数回のサッカードの1つ又は複数の特性を含み、前記1つ又は複数の特性が、頻度、持続時間、タイミング、サッカード速度、サッカード振幅、眼球位置、及び眼球運動のうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の眼による1回又は複数回の固視の1つ又は複数の特性を含み、前記1つ又は複数の特性が、頻度、持続時間、タイミング、眼球位置、及び眼球運動のうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の眼による1回又は複数回の瞳孔拡張の1つ又は複数の特性を含み、前記1つ又は複数の特性が、頻度、持続時間、タイミング、瞳孔拡張レベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の瞼による1回又は複数回の瞬きの1つ又は複数の特性を含み、前記1つ又は複数の特性が、頻度、持続時間、タイミング、瞬き速度、眼球位置、及び眼球運動のうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記ユーザの前記1つ又は複数の知覚関連属性が、前記ユーザの1つ又は複数の瞼による1回又は複数回の眼を細めることの1つ又は複数の特性を含み、前記1つ又は複数の特性が、頻度、持続時間、タイミング、眼を細めるレベル、眼球位置、及び眼球運動のうちの少なくとも1つを含む、請求項1に記載のXRシステム。
- 前記1つ又は複数のプロセッサが、
前記ユーザによる文字列の読解の程度を、前記仮想コンテンツに対する前記知覚レベルと前記文字列の長さとに基づいて決定するように構成されており、前記仮想コンテンツが、前記文字列を含む、請求項1に記載のXRシステム。 - 前記ディスプレイを更に備える、請求項1に記載のXRシステム。
- エクステンデッドリアリティ(XR)動作の方法であって、
仮想コンテンツを、前記仮想コンテンツに関連付けられた表示設定に従ってディスプレイを使用して表示させることであって、前記仮想コンテンツが前記ディスプレイによって表示されるときに、環境が前記ディスプレイを使用して視認可能である、表示させることと、
ユーザの1つ又は複数の知覚関連属性に基づいて、前記ユーザによって前記ディスプレイを使用して表示された前記仮想コンテンツに対する知覚レベルを決定することと、
前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに基づいて、前記仮想コンテンツに対応する前記表示設定に対する修正を決定することと、
を備える、方法。 - 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定することが、1つ又は複数のトレーニングされた機械学習システムへの入力として、前記ユーザの前記1つ又は複数の知覚関連属性を使用することを含む、請求項30に記載の方法。
- 1つ又は複数の画像センサによって捕捉されたセンサデータに基づいて、前記ユーザの前記1つ又は複数の知覚関連属性を決定することを更に備え、前記センサデータが、前記ユーザの1つ又は複数の眼の1つ又は複数の画像を含む、請求項30に記載の方法。
- 前記ユーザによる前記仮想コンテンツに対する前記知覚レベルに基づいて、前記ユーザによる前記仮想コンテンツに対する把握レベルを決定することを更に備え、前記知覚レベルに基づいて前記表示設定に対する前記修正を決定することが、前記把握レベルに基づいて前記表示設定に対する前記修正を決定することを含む、請求項30に記載の方法。
- 前記仮想コンテンツの複雑さレベルを決定することを更に備え、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定することが、前記仮想コンテンツの前記複雑さレベルに基づく、請求項30に記載の方法。
- 前記仮想コンテンツの一意性レベルを決定することを更に備え、前記ユーザによる前記仮想コンテンツに対する前記知覚レベルを決定することが、前記仮想コンテンツの前記一意性レベルに基づく、請求項30に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/454,188 | 2021-11-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024542959A true JP2024542959A (ja) | 2024-11-19 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102305380B1 (ko) | 자동 컨텐츠 스크롤링 | |
US9105210B2 (en) | Multi-node poster location | |
US20240168548A1 (en) | Dynamic content presentation for extended reality systems | |
US20140002496A1 (en) | Constraint based information inference | |
US11487354B2 (en) | Information processing apparatus, information processing method, and program | |
JPWO2018155026A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
TW202405617A (zh) | 針對擴展現實的使用者注意力決定 | |
TW202414341A (zh) | 自動成像域轉移的系統和方法 | |
JP2024542959A (ja) | エクステンデッドリアリティシステムのための動的コンテンツ提示 | |
US20230222757A1 (en) | Systems and methods of media processing | |
US11798204B2 (en) | Systems and methods of image processing based on gaze detection | |
US12100067B2 (en) | Systems and methods for user persona management in applications with virtual content | |
US20230342487A1 (en) | Systems and methods of image processing for privacy management | |
US11889196B2 (en) | Systems and methods for determining image capture settings | |
US20240095997A1 (en) | Systems and methods of image reprojection | |
US20240197217A1 (en) | Fatigue detection in extended reality applications | |
KR20240158244A (ko) | 시선 검출에 기초한 이미지 프로세싱 시스템들 및 방법들 |