JP7572066B2

JP7572066B2 - ネットワーク型ｖｒシステム

Info

Publication number: JP7572066B2
Application number: JP2022008537A
Authority: JP
Inventors: 明彦小長谷; グレッググタマン
Original assignee: 株式会社分子ロボット総合研究所
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2024-10-23
Anticipated expiration: 2042-01-24
Also published as: JP2023107369A

Description

本発明は、遠隔サーバがバーチャルリアリティ（以下、「ＶＲ」）の３次元情報を生成し、この３次元情報を局所クライアントがレンダリングしてディスプレイに表示させるネットワーク型ＶＲシステムであって、遠隔サーバと局所クライアントとの間のラウンドトリップタイム（以下、「RTT」）を原因とする表示の不一致を解消するシステムに関する。

本発明者は微小管を用いた群ロボットの運動やＮＡを用いたナノ構造体をコンピュータ上で再現する粒子シミュレーションを開発したが、同時に処理すべき粒子数は数十万にのぼることもある。ヘッドマウントディスプレイを装着した操作者はＶＲ上にのみ存在する仮想対象物（例：多数の原子からなる粒子）を自分の手の動き（ハンドジェスチャ）などで遠隔操作を行う。遠隔操作された仮想対象物の３次元情報を生成する処理は、遠隔サーバに実行させる。ＶＲの３次元情報の生成に要するデータ数と演算処理数は膨大であることから、遠隔サーバは高性能であることが望まれ、複数の局所クライアントから接続される。

高性能な遠隔サーバを利用することは、長所だけでなく、短所もある。それは、局所クライアントからの情報を遠隔サーバに伝達するためにかかる送信時間と、遠隔サーバ上で３次元情報を生成するための計算時間と、生成した３次元情報を局所クライアントに伝達するためにかかる受信時間とからなるRTTが発生するということである。
何らかの事情で通信が極端に遅くなったり、遠隔サーバの性能を上回るジョブが発生したために３次元情報の生成が著しく滞ったりしたときは、局所クライアント側はしばらく作業を中断し、様子を見て再開すればよい。
しかし問題は、遠隔操作時にRTTの発生が不可避であるということである。

RTTが発生する以上、操作物体（例：操作者の手）の現在の動きに完全に即応したＶＲの３次元情報をレンダリングすることは不可能であって、RTTの分だけ古いＶＲの３次元情報がレンダリングされることになる。これでは操作物体の実際の動きとＶＲ上の仮想対象物のレンダリングとが一致せず、操作者を苛立たせ思考の妨げとなってしまう。

このような問題意識のもと、本発明者が発表した非特許文献１では、RTTの分だけ未来の操作物体の位置を予測し、この予測位置に基づく仮想対象物の３次元情報を取得することを提案した。予測には、回帰式を利用する場合と機械学習を利用する場合が考えられるので、それぞれについて実験を試みた。
その結果RTTが少ないときは、いずれの結果も大差はないが、RTTが大になるほど、機械学習に比べて回帰予測はエラーが発生しやすいことが判明した。
そこで、機械学習を利用して操作物体の移動を予測する方法を採用したのであるが、ここでも問題が残る。すなわち、dtミリ秒後の予測位置と実際にdtミリ秒経過したときの物体の位置とにギャップが生ずるという問題である。

これを解消するために非特許文献１では、所定時間内のギャップをもとに実時間で学習して機械学習のパラメータを更新し、更新後のパラメータを操作物体の動きの予測に直ちに利用、すなわち実時間推論をしようとするのである。予測した位置にある操作物体と生成された３次元情報を同時にＶＲ上に表示させれば、ほとんど違和感を与えずにすむ。もちろん操作物体の現在の位置と予測した位置とはギャップがあるであろうが、このギャップをもとに局所クライアントは機械学習を利用した予測モデルのパラメータを実時間で更新する。つまり、局所クライアントは、実時間推論と実時間学習とを並列で行うのである。

Gutmann, G., Konagaya, A.: Real-time inferencing and training of artificial neural network for adaptive latency negation in distributed virtual environments. In: 2020 International Congress on Human-Computer Interaction, Optimization and Robotic Applications (HORA), pp. 1-8. IEEE (2020)DOI: 10.1109/HORA49412.2020.9152833

しかしながら、非特許文献１には、課題の提示、複数条件下での実験結果の比較、今後の展望等が記載されているが、実運用に移行できるような具体的な手段は明示されていない。また、操作物体の予測位置と実際の位置とのギャップが異常である場合の対応については特に言及していない。
そこで、本発明は、実用に耐えるシステムとするために、操作物体の予測位置の精度を高める手法と、予測位置と実際の位置とのギャップが異常と判断せざるをえない場合の解決を意図したものである。

上述した課題解決のために、請求項１に係る発明は、
ＶＲの3次元情報を、操作者が装着するヘッドマウントディスプレイまたは２次元ディスプレイにレンダリングする局所クライアントと、ＶＲ上の仮想対象物の３次元情報を生成する遠隔サーバとからなるネットワーク型ＶＲシステムであって、
前記局所クライアントは、レンダリングされた前記３次元情報の中から操作物体の現在のタイムスタンプＴでの位置を取得する手段と、
現在のタイムスタンプＴからdtミリ秒後の前記操作物体の予測位置を機械学習を利用したAI予測モデルを用いて実時間に推論する手段と、
前記推論による前記予測位置を前記遠隔サーバに送信し、該遠隔サーバによる前記予測位置を用いて生成したＶＲの３次元情報を受信する手段と、
前記ヘッドマウントディスプレイまたは２次元ディスプレイに前記生成されたＶＲの３次元情報を表示させる手段を備え、
Tからdtミリ秒後の前記操作物体の予測位置と、Tからdtミリ秒経過したときの前記操作物体の実際の位置との差分を用いて実時間学習をし、この学習結果に基づいて前記AI予測モデルのパラメータを更新することを特徴とする。
ここで、dtはRTTのことである。
つまり、RTT分だけ未来の操作物体の位置を予測し、この予測位置に基づくＶＲの３次元情報をレンダリングしようとするのが、本発明の主題である。これにより、操作者による現在の実際の操作とＶＲの３次元情報との表示の不一致が減少し、快適に操作ができる。
なお、前記操作物体は下記の実施の形態では操作者の両手であるが、何らかの物体でもロボットでもなんでもよい。

実時間学習の結果に基づいて前記AI予測モデルのパラメータを更新することにより、予測位置と実際の位置とのギャップが累積することなく、妥当な位置の予測が期待できる。

Ｔからdtミリ秒後の前記予測位置と、Ｔからdtミリ秒経過したときの前記操作物体の実際の位置との差分が連続して異常値を示すときは、前記AI予測モデルのパラメータを再初期化する実時間監視手段をさらに備えることが望ましい。
これにより、意味のない操作を続けるようなことはせず、ＡＩ予測モデルの問題点などを見直すきっかけとなる。

ＶＲの３次元情報を、３次元あるいは２次元ディスプレイ上でリアルタイムに表示できるので、操作者にとって違和感のない表示が得られ、思考を妨げられることなく快適かつ効率的に作業が進捗する。

ＲＴＴの概念説明のための図である。操作物体の実際の位置と予測位置を対比する図である。局所クライアントと遠隔サーバとの連携処理を説明する図である。第１の実施の形態にかかるシステムの全体構成及び各構成要素のブロック構造を示す図である。第１の実施の形態にかかる処理全体のフロー図である。第１の実施の形態にかかる学習データに適しない操作物体の予測位置を排除する処理のフロー図である。第１の実施の形態にかかるＡＩ予測モデルのパラメータを再初期化するべき場合を説明する図である。第１の実施の形態にかかるＲＴＴの変化を説明する図である。第１の実施の形態にかかる局所クライアントと遠隔サーバが非同期に実行する場合を説明する図である。

本発明の実施の形態のシステム（以下、「本システム」）について、下記の順に説明する。
〔１〕本システムの概要
〔１－１〕RTTの意味
〔１－２〕操作物体の動き
〔１－３〕局所クライアントと遠隔サーバの連携
〔２〕本システムの構成
〔２－１〕システムの全体構成
〔２－２〕機能ブロック構成
〔３〕本システムの動作
〔３－１〕全体処理フロー
〔３－２〕学習データの適否監視
〔３－３〕RTTの変化

〔１〕本システムの概要
まず、本システムにとって重要な概念であるRTTと,それに関連する事項について述べることとする。

〔１－１〕RTTの意味
RTTとは、局所クライアントから遠隔サーバに送信して、遠隔サーバ上で３次元情報生成処理を実行して、処理結果を局所クライアントが受理するまでの合計時間のことであり、図１の例に従い説明する。
図１の左側に記載のT0,T1,・・・はタイムスタンプ（integerで表現したTime of day(ミリ秒））を表し、等間隔である。S0，S1,・・・は送信タイムスタンプであり、R0,R1,・・・は受信タイムスタンプである。図１の例では、S0は時刻T0のときの送信タイムスタンプであり、R0は時刻T2のときの受信タイムスタンプである。図１では、時刻がT0（＝S0）のときに送信された情報は、遠隔サーバで処理され、その結果が時刻T2（＝R0）のときに受信される。このときのRTTはR0-S0（＝T2-T0）である。時刻がT１（＝S1）のときに送信された情報は、遠隔サーバで処理され、その結果が時刻T4（＝R2）のときに受信される。このときのRTTはR2-S１（＝T4-T1）である。

ここで、T1の送信タイムスタンプをもつRTTは、T0の送信タイムスタンプをもつRTTの1.5倍の時間を要している。このように、RTTは通信環境などによって変動する。このRTTの変化については後述する。
なお、送信時と受信時の組み合わせは過去2秒分ほど短期記憶に保存しておく。この情報もＡＩ予測モデルを利用した実時間推論で参照することがあるからである。

〔１－２〕操作物体の動き
本システムは実時間推論と実時間学習とを同時並行的に行うことによって、RTTによってひきおこされる３次元情報表示の遅れを解消することを目的とする。遅れの解消が、なぜ解決を要すべき問題となるのかを図２に従い説明する。
Ｘ（Ｔ）は現在（タイムスタンプＴ）の操作物体の実際の位置である。この位置情報を遠隔サーバに送信しても、結果がかえってきたときは、操作物体はＸ（Ｔ＋RTT）の位置にある。遠隔サーバは操作物体がＸ（Ｔ）の位置にあるものとして３次元情報を生成するならば、この３次元情報は現在の操作物体の位置Ｘ(Ｔ＋RTT）からギャップのあるものとなって、これをディスプレイ表示すると操作者に違和感を与えてしまう。そこで、ＴからRTT後の物体の位置を予測して、この予測位置ｆ（Ｘ（Ｔ),RTT）を現在のＸ（Ｔ）のかわりに遠隔サーバに送信するのである。しかし、表示の遅れを解消するために、予測位置を利用することで、別の問題が生ずる。すなわち、予測位置ｆ（Ｘ（Ｔ),RTT）とＴからRTT後の実際の位置Ｘ（Ｔ＋RTT）とでは、完全には一致しないのが通常という問題である。

この不一致をいかに少なくするかが本システムにおいて重要である。
ところが、操作物体が人間の手指とすると、問題がより複雑になる。なぜならば、手指の動きの自由度はきわめて高く、動く速度も一定しない。たとえば、手のひらを横に移動させるときと、指を折り曲げるときとでは、速度が異なる。
したがって、いかに操作物体の位置を的確に予測するかが重要なのである。予測の手法として2次多項式を用いた回帰予測や機械学習を利用した予測などがある。回帰予測は、RTTが小さい値のときは機械学習を利用した場合と遜色はないが、RTTが大となるにつれて予測エラー、つまり実際の位置とかけはなれた予測となる可能性が高まる。そのため、本システムでは機械学習を利用して予測をすることとしたのである。

なお、機械学習には大量のデータを収集し、収集済のデータを対象にオフラインで学習する場合もあるが、本システムでは、ユーザの操作によって得られたデータを実時間で学習し、ＡＩ予測モデルのパラメータを逐次更新する。これによって、ユーザの操作が直ちに推論に反映されて実際の位置とのギャップの小さい予測が可能となる。図２の場合、ＴからRTT経過後の予測位置と実際の位置の差分が直ちに学習されると、時刻Ｔ+RTTからさらにRTT経過後の予測位置と実際の位置のギャップは縮小しうるのである。
機械学習の手法はADAM（Adaptive Moment Estimation）など多数提案されているので、適宜選択すればよい。

〔１－３〕局所クライアントと遠隔サーバの連携
本システムは、大量のデータ処理を遠隔サーバが担っている。この膨大な演算は高性能かつ高価格の遠隔サーバに分担させ、設計作業等をする操作者は自分が装着するヘッドマウントディスプレイと接続するパソコン（局所クライアント）から遠隔サーバの機能を利用するのである。
図３は、局所クライアントと遠隔サーバとの連携動作を説明する図である。
局所クライアントがS0のときに送信した情報から遠隔サーバが生成した結果を局所クライアントに送り返す（ステップＦ１０１。以下、単に「Ｆ１０１」のように記載する）。このときのRTTはR0-S0（＝RTT0）である。局所クライアントは、現在時刻S1からRTT0後の操作物体の位置を予測し（Ｆ１０２）、遠隔サーバに送信する（Ｆ１０３）。遠隔サーバは、時刻S1+RTT0の予測値を用いて３次元情報を生成し（Ｆ１０４）、局所クライアントへ送信する（Ｆ１０６）。遠隔サーバによる３次元情報の生成と並行して、局所クライアントは時刻R0で受信した３次元情報をレンダリングする（Ｆ１０５）。局所クライアントは、受信した時刻R１においてRTTをR1-S1（＝RTT1）に更新し、現在の時刻S2にRTT1を加算した時刻での物体の位置を予測する（Ｆ１０７）。予測値は遠隔サーバへ送信され（Ｆ１０８）、遠隔サーバは、時刻S２+RTT１での予測値を用いて３次元情報を生成し（Ｆ１０９）、局所クライアントへ送信する（Ｆ１１０）。このように、局所クライアント側のレンダリングと遠隔サーバ側の３次元情報生成（以下、「シミュレーション」ということもある）は交互に実行されるのが、基本的な連携動作である。

現在時刻からRTT分進んだ時刻の操作物体の位置を予測するのであるが、図３の例では、直近の送信時刻と受信時刻との差をRTTの値としている。したがって、RTTは一定の値をとるとは限らない。そのため、図３のような局所クライアントと遠隔サーバが交互に実行することは現実的ではなく、実際は後述する図９のような非同期の実行となる。

以上、本システムにとって重要な、〔１－１〕RTTの概念と、〔１－２〕操作物体の将来の予測位置を遠隔サーバに送信することの意味と、〔１－３〕局所クライアントと遠隔サーバとの連携について説明した。
次に、本システムの構成を説明する。

〔２〕本システムの構成
〔２－１〕システムの全体構成
本システムは、図４に示すように、局所クライアント１（以下、「クライアント１」）が遠隔サーバ２（以下、「サーバ２」）と通信ネットワークＮを介して接続している。
クライアント１は、ヘッドマウントディスプレイ３から受信した操作物体の現在位置をもとに、dtミリ秒後の位置を予測し、サーバ２が生成した３次元情報をレンダリングしてヘッドマウントディスプレイ３上に表示させる。

このように、クライアント１とサーバ２とが通信ネットワークNで接続し、役割分担をしていることから、RTTの問題が生ずるのである。
ただし、本システムで課題とするRTTは、サーバ２との間で通常発生するものに限られ、通信会社で発生したトラブル由来の長時間続く遅延や、サーバ２の性能を超えるジョブ発生による処理渋滞を原因とする遅延への対応は想定していない。このような異常な遅延が発生したときは、操作者（以下、「ユーザ」という）の作業を中断させてトラブルが解消した後に再開すればよいのである。

〔２－２〕機能ブロック構成
クライアント１は、図４に示すように、現在位置入力部１１と、実時間推論部１２と、実時間学習部１３と、実時間監視部１４と、サーバ送受信部１５と、レンダリング処理部１６を備える。他に、キーボード、マウス、ディスプレイ、プリンタなどの入出力部、コンピュータプログラムや処理結果などを格納する記憶部も備える。

現在位置入力部１１は、ヘッドマウントディスプレイ３に付属する立体カメラ３１が、Leap Motion社の「Leap Motion」などを使用して捕捉したユーザの手の位置を受信する。手の位置は、１０本の指先端の座標で表してもよいが、手のひらの中央部の座標を追加してもよい。

実時間推論部１２は、実際の手の位置を受信した時刻をＴとすると、機械学習で得られた実時間ＡＩ予測モデルの変数として現在の実際の位置と、dtの値を入力し、Ｔ＋dtのときの手の位置を予測する。このdtとして本実施形態では直近のRTTを用いる。RTTの値はクライアント１とサーバ２との連携動作毎に可変となるが、以下の説明では、RTTの添え字は省略し単にdtと表現する。また、予測された位置にある手を仮想ハンドということもある。

実時間学習部１３は、現在からdtミリ秒後の仮想ハンドの位置と、立体カメラ３１によって捕捉されたＴからdtミリ秒経過時の実際の手の位置との差分を用いて、機械学習によって実時間ＡＩ予測モデルのパラメータを更新し、これを実時間推論部１２に渡す。

実時間監視部１４は、実時間学習部１３が仮想ハンドの位置と実際の手の位置との差分に従い学習する際に、差分が適正か監視し所定の閾値を超えているときは、学習対象から除外し、実時間ＡＩ予測モデルを再初期化する。

サーバ送受信部１５は、サーバ２に、現在からdtミリ秒後の仮想ハンドの位置を送信し、予測位置に基づいて生成した３次元情報をサーバ２から受信する。この３次元情報とは、ユーザの手によって操作される仮想対象物（実在せず、ＶＲ空間でのみ存在してメガネ型ディスプレイ３２に表示される）の状態をいう。

レンダリング処理部１６は、サーバ２から受信したシミュレーション結果と、実時間推論部１２が予測した位置にある仮想ハンドを組み合わせて、ヘッドマウントディスプレイ３のメガネ型ディスプレイ３２に表示させる。

サーバ２は、クライアント１と情報の送受信をするクライアント送受信部２１と、シミュレーションを行う３次元情報生成部２２を備える。他に、キーボード、マウス、ディスプレイ、プリンタなどの入出力部、コンピュータプログラムや処理結果などを格納する記憶部も備える。

ヘッドマウントディスプレイ３は、ユーザの手の動きを撮影する立体カメラ３１と、VR上の仮想対象物をユーザの目に投影させるメガネ型ディスプレイ３２を備える。
以上、本システムの構成を説明した。続いて、本システムの動作について説明する。

〔３〕本システムの動作
〔３－１〕全体処理フロー
続いて、図５を参照しながら、本システム全体の処理を説明する。
ユーザが、ヘッドマウントディスプレイ３を装着すると、ＶＲ空間上の仮想対象物がメガネ型ディスプレイ３２に表示される。これがあたかも眼前に実在するかのようにハンドジェスチャで操作すると、ユーザの手の動きに連動して仮想対象物も変化して見えるのである。
ヘッドマウントディスプレイ３に付属する立体カメラ３１が捕捉したユーザの現在の手の位置をクライアント１が受信する（ステップＦ１,以後、単に「Ｆ１」のように記す）。

このときの時刻情報をタイムスタンプＴとする。Ｆ１で取得した現在位置を実時間学習プロセスに送信する（Ｆ２）。実時間学習プロセスには、後述するＦ１１において現在よりもdtミリ秒前の仮想ハンドの位置も送信される。このように記憶部には同一タイムスタンプの実際の位置と予測位置のデータが蓄積される（Ｆ３）。Ｆ３で蓄積しているデータは、予測位置と実測値とでは通常ギャップがあるので、このギャップを用いたＡＩ予測モデルを実時間学習する（Ｆ４）。実時間学習とはデータが入力される都度、ＡＩ予測モデルのパラメータを更新していく意味であり、集積済のデータを事後的に学習するのではない。
Ｆ４での学習によってＡＩ予測モデルのパラメータ情報は更新される（Ｆ５）。Ｆ５で更新されたパラメータは直ちに推論プロセスに出力され（Ｆ６）、カメラ３１から取得した現在位置情報に基づいてdtミリ秒後の手の位置が予測される（Ｆ７）。これがＴ＋dtミリ秒のタイムスタンプが付与された仮想ハンドの位置となり、サーバ２に送信される（Ｆ８）。送信時のタイムスタンプをSiとする。

サーバ２は、T＋dtミリ秒での仮想ハンドの位置を用いたシミュレーション処理を実行し（Ｆ９）、クライアント１がタイムスタンプRiのときに実行結果を受信する（Ｆ１０）。サーバ２から受信するまでにdtミリ秒かかっているので、現在の時刻はＴ＋dtであり、この予測位置は、現時点（Ｔからdt経過している）でカメラ３１から入力された現在の実測値と時間は同一であるとみなす。そこで、この予測位置は実時間学習プロセスの入力値となる（Ｆ１１）。このように、仮想ハンドの位置を予測する推論プロセスと、ＡＩ予測モデルのパラメータを機械学習によって更新する学習プロセスは並行して実行されるのである。
サーバ２によって生成されたシミュレーション結果はクライアント１がレンダリングして（Ｆ１２）、メガネ型端末３２に表示させる（Ｆ１３）。シミュレーション結果をＶＲ空間上に表示させるソフトウェアは市販されているので、それを用いることもできる。

〔３－２〕学習データの適否監視
図５のステップＦ３において、実時間学習のためのデータを蓄積しているが、学習に適さない不良データが含まれるときは、これを監視して実時間で排除しなくてはならない。これについて、図６を参照しながら説明する。この実時間監視のプロセスは、図５のステップＦ３の処理から呼び出される。

時刻Tからdt後の実際の手の現在位置（Ｘ（Ｔ＋dt））と、タイムスタンプＴ＋dtを持つ仮想ハンドの予測位置（ｆ（Ｘ（Ｔ）、dt））とがステップＦ３から出力される（ステップＦ２０１）。このとき、カウンター変数＃Ｒにゼロをセットしておく（Ｆ２０２）。
両者のギャップが所定の正常値の範囲内にあれば（Ｆ２０３でＹｅｓ）、カウンター変数＃Ｒにゼロをセットする（Ｆ２０４）。そして、直近S秒間に実行したRTTに対して、次の項目を監視する（Ｆ２０５）。すなわち、
・物体の平均移動速度Vave
・物体の平均移動距離Xave
・現在位置と予測位置とのギャップE（T+dt）
・ＲＴＴの最大値、平均値、分散
上記項目の監視後、再びＦ２０３へ遷移する。
なお、RTTの最大値、平均値等は、実時間監視アルゴリズムの解析および改善に使用される。

ギャップが正常範囲内になければ（Ｆ２０３でＮｏ）、カウンター変数＃Ｒに１を加算する（Ｆ２０６）。＃Ｒが所定の閾値Ｌを越えても現在位置と予測位置のギャップの改善が得られないならば（Ｆ２０７でＹｅｓ）、実時間推論が失敗した等と判断して、実時間ＡＩ予測モデルを再初期化する（Ｆ２０８）。現在位置と予測位置のギャップの改善が得られるならば（Ｆ２０７でＮｏ）、平均移動速度と平均移動距離を参照する（Ｆ２０９）。
少なくとも一方が人間の物理的限界を超えていれば（Ｆ２０９でＹｅｓ）、立体カメラ３１の不調などが発生したと判断し、時刻Ｔ＋dtの現在位置は入力エラーとみなして無視する（Ｆ２１０）。Ｆ２０９で、入力エラーとは判断できないとき（Ｆ２０９でＮｏ）は、極端なネット遅延などが発生したと判断し、クライアント１からサーバ２にdt後の物体位置を送って、シミュレーション結果が返ってくるまでのRTTを計測する（Ｆ２１１）。
Ｆ２１０あるいはＦ２１１のときは、実時間学習は継続しつつ様子を見て（Ｆ２１２）、Ｆ２０５の各項目を監視し、Ｆ２０３に遷移する。

実時間監視について、具体例で説明する。
図７の例で、P0は実際の手の位置、P1はP0からdt経過後の実際の位置、VP1はP0からdt後の仮想ハンドの予測位置、g1はP1とVP1とのギャップを表すものとする。同様に、P２はP１からdt経過後の実際の位置、VP２はP１からdt後の仮想ハンドの予測位置、g2はP2とVP2とのギャップを表すものとする。P3，P4等も同様である。
ここで、ギャップg1,g2,g3,g4が正常範囲内には無いとすると、図６の＃Ｒは値4をとる。もし、閾値Ｌ=3とすると＃Ｒ＞Ｌとなり、ギャップの改善が得られないならばＡＩ予測モデルを再初期化することになる。

上記の〔３－１〕および〔３－２〕において、本システムの動作をひととおり説明した。ユーザの手の位置と仮想ハンドの位置とのギャップを極力解消するために、実時間学習と実時間推論とを同時並行で実行し、学習によって更新されたパラメータを直ちに推論に利用することが第一に着目するべき点であった。しかし、本システムでは手の位置のギャップのほかにRTTが一定ではないという不確定要素があるので、この点につき、図８を参照しながら説明する。

〔３－３〕ＲＴＴの変化
図８の例では、タイムスタンプｓ１（＝0）のときにサーバ２に送信してから、サーバ２の処理結果を受理したｒ１（＝50）までのＲＴＴ１は50である。同様にｓ２のときに送信し、ｒ２で受理したときのＲＴＴ２は60である。ここで、ＲＴＴは50から60への遅延が発生した。さらにＲＴＴ３は70となり、直近の60から70への遅延が発生した。その後、ＲＴＴ４，ＲＴＴ５、・・・は継続して70の値をとった。
ＲＴＴは50～70ミリ秒であれば想定の範囲であり、しかも、70に変化してからRTTが安定しているので、問題ないといえる。仮想ハンドの位置を予測するときdtを50->60->70に変更すればよい。ただし、ＲＴＴが50～70ミリ秒の範囲にあっても頻繁に変化する場合は、原因を突き止めておくことが好ましい。そのためにも、図１に図示したように、直近の２秒分くらいのＲＴＴの記録をとっておくとよい。

なお、図８で使用したRTTの値はあくまでも参考例であり、本発明の範囲を限定するものではない。一般に、２次元ディスプレイであれば、レンダリングに必要な時間は60Hz、すなわち、約16.7ミリ秒以下であり、VRヘッドセットであれば90Hzから120Hz、すなわち、約11.1ミリ秒から8.3ミリ秒以下である。また、サーバでのシミュレーションステップ実行時間はレンダリングに必要な時間よりも短い方が望ましく、短ければ短いほどシミュレーションの精度は向上する。さらに、通常の通信環境でのクライアントとサーバ間の転送時間は、LAN環境では数ミリ秒以下、WAN環境やWiFi環境では数ミリ秒から数１０ミリ秒程度である。さらに、海底ケーブルを介して海外のサーバを利用した場合はRTTの値は約200ミリ秒ほどかかるときがあるが、本発明で十分対応できる範囲である。

RTTが変化するのであれば、クライアント１側のレンダリング処理とサーバ２側のシミュレーション処理とは図３に示したように同期することはありえず、図９のように非同期となる。シミュレーションsim1では、直近に受信した時刻S1＋RTT0での仮想ハンドの位置を使って３次元情報を生成する。シミュレーションsim2,sim3では、次の仮想ハンドの新規の位置情報が送信されてこないので、時刻ｓ１＋RTT0＋ｎ＊step後（ｎ＝１，２，・・・）の仮想ハンドの位置をサーバ２が予測して３次元情報を生成する。シミュレーションsim4では、直近に受信した時刻S２＋RTT１での仮想ハンドの位置を使って３次元情報を生成する。つまり、シミュレーションsim2,sim3などは、３次元情報をレンダリングしてディスプレイ表示する際に、不自然な描画とならないように補間するデータを生成しているのである。

以上、本発明の実施の形態について説明したが、本発明は上記の実施の形態に限定されるものではない。特許請求の範囲に記載された内容を逸脱しない範囲でさまざまに変形して実施することができる。
例えば、ディスプレイはメガネ型ディスプレイに限らず、２次元ディスプレイでもよい。
また、遠隔サーバでは３次元情報の生成のみ実行しているが、実時間推論と実時間学習を遠隔サーバで実行し、クライアントはレンダリングのみ実行してもかまわない。

本発明は、ＤＮＡを用いたナノ構造体の設計などの理工学的用途のほかに、ゲームをはじめとするエンタテインメント分野など多方面において広く活用されることが期待できる。

１：局所クライアント
１１：現在位置入力部
１２：実時間推論部
１３：実時間学習部
１４：実時間監視部
１５：サーバ送受信部
１６：レンダリング処理部
２：遠隔サーバ
２１：クライアント送受信部
２２：３次元情報生成部
３：ヘッドマウントディスプレイ
３１：立体カメラ
３２：メガネ型ディスプレイ
Ｎ：通信ネットワーク

Claims

ＶＲの3次元情報を、操作者が装着するヘッドマウントディスプレイまたは２次元ディスプレイにレンダリングする局所クライアントと、ＶＲ上の仮想対象物の３次元情報を生成する遠隔サーバとからなるネットワーク型ＶＲシステムであって、
前記局所クライアントは、レンダリングされた前記３次元情報の中から操作物体の現在のタイムスタンプＴでの位置を取得する手段と、
現在のタイムスタンプＴからdtミリ秒後の前記操作物体の予測位置を、機械学習を利用したAI予測モデルを用いて実時間に推論する手段と、
前記推論による前記予測位置を前記遠隔サーバに送信し、該遠隔サーバによる前記予測位置を用いて生成したＶＲの３次元情報を受信する手段と、
前記ヘッドマウントディスプレイまたは２次元ディスプレイに前記生成されたＶＲの３次元情報を表示させる手段を備え、
Tからdtミリ秒後の前記操作物体の予測位置と、Tからdtミリ秒経過したときの前記操作物体の実際の位置との差分を用いて実時間学習をし、この学習結果に基づいて前記AI予測モデルのパラメータを更新することを特徴とするネットワーク型VRシステム。
Ｔからdtミリ秒後の前記予測位置と、Ｔからdtミリ秒経過したときの前記操作物体の実際の位置との差分が連続して異常値を示すときは、前記AI予測モデルのパラメータを再初期化する実時間監視手段をさらに備えることを特徴とする請求項１に記載のネットワーク型VRシステム。