JP6182464B2 - Image display system and image display method - Google Patents
Image display system and image display method Download PDFInfo
- Publication number
- JP6182464B2 JP6182464B2 JP2014012588A JP2014012588A JP6182464B2 JP 6182464 B2 JP6182464 B2 JP 6182464B2 JP 2014012588 A JP2014012588 A JP 2014012588A JP 2014012588 A JP2014012588 A JP 2014012588A JP 6182464 B2 JP6182464 B2 JP 6182464B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- speaker
- display
- conversation partner
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 122
- 238000001514 detection method Methods 0.000 claims description 79
- 230000008569 process Effects 0.000 claims description 76
- 238000012545 processing Methods 0.000 claims description 56
- 230000009471 action Effects 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 239000004566 building material Substances 0.000 claims description 6
- 238000005034 decoration Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 31
- 238000003384 imaging method Methods 0.000 description 23
- 210000001747 pupil Anatomy 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 210000003128 head Anatomy 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 210000000887 face Anatomy 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、話者の画像を対話相手に対して表示する画像表示システム及び画像表示方法に係り、特に、より臨場感のある対話を実現することが可能な画像表示システム及び画像表示方法に関する。 The present invention relates to an image display system and an image display method for displaying an image of a speaker to a conversation partner, and more particularly to an image display system and an image display method capable of realizing a more realistic dialogue.
遠隔会議システム等、遠隔地にいる者同士が互いの映像を見ながら対話を行うための通信技術は、既に周知である。また、近年では、臨場感のある対話を実現するために、表示画面に表示させる対話者の画像中、当該対話者の視線を意図的に変化させる技術が開発されている(例えば、特許文献1参照)。 Communication techniques for remote parties such as a teleconference system for performing a conversation while watching each other's images are already well known. In recent years, in order to realize a dialogue with a sense of presence, a technique has been developed that intentionally changes the line of sight of a conversation person in a conversation person image displayed on a display screen (for example, Patent Document 1). reference).
特許文献1に記載された画像表示システムでは、対話者同士が互いの映像を見ながら対話を行っている際、一方の対話者Aがディスプレイにて他方の対話者Bの映像を見ているときの視線を検知し、その検知結果に基づき、対話者Bがディスプレイにて見ている対話者Aの映像中、瞳の形状や位置を変化させて対話者Aの映像を再構築することとしている。このような構成により、特許文献1に記載の画像表示システムでは、例えば対話者Aが複数人の対話者Bを相手に対話するときに、そのうちの特定の対話者Bに視線を向けていることを各対話者Bに知覚させることが可能となる。
In the image display system described in
ところで、対話者同士が互いの画像を見ながら行う対話に対しては、更なる臨場感の向上が求められている。かかる要求を満たすには、特許文献1に記載された画像表示システムのように対話者の映像中の視線を変化させる技術を応用し、あたかも対面しながら対話しているように感じさせることが可能なシステム及び方法の開発が必要となる。
By the way, further improvement of a sense of reality is demanded for the dialogue performed by the interlocutors while looking at each other's images. In order to satisfy such a requirement, it is possible to apply a technology for changing the line of sight in the video of the interlocutor as in the image display system described in
そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、話者の画像を対話相手に対して表示する画像表示システム及び方法として、より臨場感のある対話を実現することが可能なシステム及び方法を提供することである。 Therefore, the present invention has been made in view of the above problems, and the object of the present invention is to provide a more realistic dialogue as an image display system and method for displaying a speaker's image to a dialogue partner. It is an object to provide a system and method capable of realizing the above.
前記課題は、本発明の画像表示システムによれば、話者の画像を対話相手に対して表示する画像表示システムであって、前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、前記検知部が前記動作を行った前記対話相手を検知したときには、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、前記表示データ生成部は、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することにより解決される。 According to the image display system of the present invention, the subject is an image display system for displaying a speaker's image to a conversation partner, and is provided on the speaker side, and an image when the speaker is captured A data acquisition unit that acquires data indicating a display, a display data generation unit that generates display data for displaying the image corrected from the video, and the display partner that expands the display data An image display unit for displaying the image, and a detection unit that is provided on the conversation partner side and detects the conversation partner when the conversation partner performs an operation that satisfies a preset condition , wherein when the front Symbol detection unit detects the dialogue partner were performing the operation, the display data generation unit, which has been corrected so that the face is the speaker of the line-of-sight to the dialogue partner is present position, which was the operating Display images Run the first process of generating the display data of the eye, the when the detection unit does not detect the dialogue partner for a predetermined time of performing the operation, the display data generating unit, the talk in the predetermined position This is solved by executing a second process for generating the display data for displaying the image corrected so that the user's line of sight faces .
上述したように、本発明の画像表示システムでは、対話相手が所定の動作を行うと、検知部がこれを検知する。そして、当該検知動作に連動する形で、表示データ生成部が、上記動作を行った前記対話相手が居る位置に話者の視線が向くように補正された画像の表示データを生成する。これにより、対話相手側で話者の画像が表示されると、当該画像中の話者の視線が対話相手に向けられるようになる。このような視線の変化は、対話相手に対して、上記の動作に対して話者が反応したという錯覚をもたらし、この結果、対話相手は、あたかも話者と対面しながら対話していると感じることが可能となる。
また、上記の構成によれば、所定の動作を行う対話相手を検知していない非検知期間には、対話相手に対して表示された話者の画像中、話者の視線が予め設定された位置に向くようになる。これにより、非検知期間における話者の視線を好適に設定することが可能となる。
As described above, in the image display system of the present invention, when the conversation partner performs a predetermined operation, the detection unit detects this. Then, the display data generation unit generates display data of the image corrected so that the line of sight of the speaker is directed to the position where the conversation partner who has performed the above operation exists in conjunction with the detection operation. Thus, when an image of the speaker is displayed on the conversation partner side, the line of sight of the speaker in the image is directed toward the conversation partner. This change in line of sight gives the conversation partner the illusion that the speaker has responded to the above actions, and as a result, the conversation partner feels as if they are interacting with the speaker. It becomes possible.
Further, according to the above configuration, in the non-detection period in which the conversation partner performing the predetermined operation is not detected, the line of sight of the speaker is preset in the speaker image displayed for the conversation partner. It comes to the position. This makes it possible to suitably set the speaker's line of sight during the non-detection period.
また、上記の画像表示システムにおいて、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った対話相手が居る位置に前記話者の視線及び前記話者の顔が向くように補正された前記画像を表示するための前記表示データを生成するとよい。
上記の構成によれば、対話相手に対して表示された話者の画像中、話者の視線及び話者の顔が所定の動作を行った対話相手が居る位置に向けられることで、より一層臨場感のある対話を実現することが可能となる。すなわち、話者の視線のみならず、話者の顔も上記動作を行った対話相手に向けられることで、当該対話相手が話者と対面しながら対話しているように感じる度合い(対面性)が、より高まることとなる。
In the image display system, when the display unit detects the conversation partner that performed the operation, the display data generation unit detects the speaker's line of sight and the position of the conversation partner who performed the operation. The display data for displaying the image corrected so that the face of the speaker faces may be generated.
According to the above configuration, in the speaker image displayed to the conversation partner, the speaker's line of sight and the speaker's face are directed to the position where the conversation partner who has performed the predetermined action is present, so that Realistic dialogue can be realized. In other words, not only the line of sight of the speaker but also the speaker's face is directed to the conversation partner who performed the above action, so that the conversation partner feels as if interacting with the speaker (face-to-face) However, it will increase further.
特に、前記対話相手が複数存在する場合において、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないとき、前記表示データ生成部は、複数の前記対話相手のうち、前記話者の視線が向いている位置に居る前記対話相手が順次切り替わるように前記第二処理を繰り返し実行すると、好適である。
上記の構成によれば、非検知期間中、表示データ生成部が、話者の視線が向いている位置に居る対話相手が順次切り替わるように第二処理を繰り返し実行する。すなわち、対話相手に対して表示された話者の画像において、話者の視線は、その先に位置する対話相手が順次変化するような動きを示す。これにより、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、対話における画像表示の趣向性を向上させることが可能となる。
In particular, when there are a plurality of conversation partners, when the detection unit does not detect the conversation partner that has performed the operation for a predetermined time or more, the display data generation unit is the speaker among the plurality of conversation partners. It is preferable that the second process is repeatedly executed so that the conversation partner at the position where the line of sight is facing sequentially switches.
According to the above configuration, during the non-detection period, the display data generation unit repeatedly executes the second process so that the conversation partners at the position where the speaker's line of sight is sequentially switched. That is, in the speaker's image displayed to the conversation partner, the speaker's line of sight shows a movement in which the conversation partner positioned ahead changes sequentially. This makes it possible for each conversation partner to feel as if the speaker is looking around, thereby improving the preference of image display in the conversation.
また、上記の画像表示システムにおいて、前記対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分を構成するとともに前記画像の表示画面を形成する表示画面形成部と、前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成するとよい。
上記の構成によれば、対話相手側でその者の動作、位置、姿勢及び音のうちの少なくとも一つを検知することをトリガーとして、画像の表示画面が形成されることになっている。そして、トリガーとなる検知対象の検知がない期間には表示画面が形成せず、その代わりに、対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分としての外観を現すようになる。これにより、表示画面を形成する表示画面形成部は、話者との対話が行われていない期間中には建築材料等として機能するようになり、建物内で目立ち難くなる。この結果、同期間中における表示画面形成部の存在が気付き難くなる。一方、上述したように、対話相手側で検知対象が検知されると、これをトリガーとして表示画面が形成されるので、表示画面形成に特段複雑な操作を要さなくなる。
Further, in the above image display system, a display screen forming unit that forms a part of a building material, furniture, or decoration arranged in a building where the conversation partner is located and forms a display screen of the image; Provided at the time of detecting at least one of an action performed by the conversation partner, a position where the conversation partner is located, a posture of the conversation partner, and a sound emitted by the conversation partner. A sensor that detects the detection target that satisfies the condition, and the display screen forming unit displays the display screen during a period in which the sensor does not detect the detection target that satisfies the second condition. It is preferable that the display screen is formed only during a period in which the appearance as the part is displayed without being formed and the sensor detects the detection target that satisfies the second condition.
According to the above configuration, an image display screen is formed by using at least one of the operation, position, posture and sound of the person on the conversation partner side as a trigger. In addition, the display screen is not formed during the period when the detection target that is the trigger is not detected, and instead, the appearance as a part of the building material, furniture, or decoration arranged in the building where the conversation partner is located is displayed. become. As a result, the display screen forming unit that forms the display screen functions as a building material or the like during a period in which no dialogue with the speaker is performed, making it difficult to stand out in the building. As a result, it is difficult to notice the presence of the display screen forming unit during the same period. On the other hand, as described above, when a detection target is detected on the conversation partner side, a display screen is formed using this as a trigger, so that no complicated operation is required for forming the display screen.
また、前述の課題は、本発明の画像表示方法によれば、話者の画像を対話相手に対して表示する画像表示方法であって、前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、前記検知部が前記動作を行った前記対話相手を検知したときには、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、前記表示データ生成部は、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することにより解決される。 Further, the above-described problem is an image display method for displaying a speaker's image to a conversation partner according to the image display method of the present invention, wherein the data acquisition unit provided on the speaker side Obtaining data indicating a video when a speaker is imaged, a display data generation unit generating display data for displaying the image corrected from the video, and provided on the conversation partner side The displayed image display unit displays the image by expanding the display data, and the detecting unit provided on the dialog partner side performs an operation satisfying a preset condition. Detecting the conversation partner at the time, and when the detection unit detects the conversation partner that performed the operation , the display data generation unit is a position where the conversation partner who performed the operation is located. The speaker ’s line of sight Run the first process of generating the display data for displaying the corrected the image, the when the detection unit said no interaction partner is detected over a predetermined time of performing the operation, the display data generating unit This is solved by executing a second process of generating the display data for displaying the image corrected so that the line of sight of the speaker is directed to a preset position .
本発明の画像表示システム及び画像表示方法によれば、対話相手が所定の動作を行うと、対話相手に対して表示される話者の画像が補正され、話者の視線が上記動作を行った対話相手が居る位置に向けられるようになる。これにより、より臨場感のある対話を実現することが可能となる。つまり、本発明によれば、互いに離れた場所にいる話者と対話相手がお互いの映像を見ながら対話をする場合、対話相手は、あたかも話者と対面しながら対話しているような視聴覚効果を得ることが可能となる。
また、所定の動作を行う対話相手を検知していない非検知期間には、対話相手に対して表示された話者の画像中、話者の視線が予め設定された位置に向くようになる。これにより、非検知期間における話者の視線を好適に設定することが可能となる。
According to the image display system and the image display method of the present invention, when the conversation partner performs a predetermined operation, the image of the speaker displayed to the conversation partner is corrected, and the speaker's line of sight performs the above operation. It will be directed to the position where the conversation partner is. This makes it possible to realize a more realistic dialogue. That is, according to the present invention, when a speaker and a conversation partner at a distant place interact with each other while watching each other's images, the conversation partner is as if they are interacting with the speaker in an audiovisual effect. Can be obtained.
Further, in a non-detection period in which a conversation partner performing a predetermined operation is not detected, the speaker's line of sight is directed to a preset position in the speaker image displayed for the conversation partner. This makes it possible to suitably set the speaker's line of sight during the non-detection period.
以下、本発明の一実施形態(以下、本実施形態)に係る画像表示システム及び画像表示方法について図面を参照しながら説明する。なお、説明を分かり易くするために、以下では、話者をAさんとし、対話相手をBさん、Cさん、Dさんとするケースを具体例に挙げて説明することとする。ここで、「話者」とは、自らの発意により対話(会話)を開始し、対話相手に対して話し掛ける者である。これに対して、「対話相手」とは、話者の話の聞き手であり話者の話に応答して対話を行う者である。 Hereinafter, an image display system and an image display method according to an embodiment of the present invention (hereinafter, this embodiment) will be described with reference to the drawings. In order to make the description easy to understand, a case where the speaker is Mr. A and the conversation partners are Mr. B, Mr. C, and Mr. D will be described below as a specific example. Here, the “speaker” is a person who starts a conversation (conversation) based on his own idea and talks to the conversation partner. On the other hand, a “dialogue partner” is a speaker who is a listener of a speaker's story and performs a dialogue in response to the speaker's story.
また、以下では、話者であるAさんは、対話時に所定の建物内(例えば、Aさんの自宅内)に居ることとし、対話相手であるBさん、Cさん、Dさんは、Aさんとは異なる場所(例えば、Aさんの自宅とは異なる建物内)に居て、3人すべてが同じ場所に集まってAさんと対話を行うケースを例に挙げて説明することとする。 In the following description, Mr. A who is a speaker is in a predetermined building (for example, Mr. A's home) at the time of conversation, and Mr. B, Mr. C, and Mr. D who are conversation partners are with Mr. A. An example will be described in which a person is in a different place (for example, in a different building from Mr. A's home) and all three people gather at the same place and interact with Mr. A.
<<本実施形態に係る画像表示システムの構成>>
本実施形態に係る画像表示システム(本システムS)は、話者であるAさんと、対話相手であるBさん、Cさん、Dさんとが互いの画像を見ながら対話を行うために利用される。すなわち、本システムSを用いることにより、Bさん、Cさん及びDさんは、図1Aに示すようにAさんの画像を見ながら対話することが可能である。同様に、Aさんは、図1Bに示すようにBさん、Cさん、Dさんの画像を見ながら対話することが可能である。ここで、図1Aは、話者の画像を対話相手側で表示している様子を示した図であり、図1Bは、対話相手の画像を話者側で表示している様子を示した図である。
<< Configuration of Image Display System According to Present Embodiment >>
The image display system (present system S) according to the present embodiment is used for a conversation between Mr. A who is a speaker and Mr. B, C, and D who are conversation partners while viewing each other's images. The That is, by using this system S, Mr. B, Mr. C, and Mr. D can interact while viewing the image of Mr. A as shown in FIG. 1A. Similarly, Mr. A can interact while viewing the images of Mr. B, Mr. C, and Mr. D as shown in FIG. 1B. Here, FIG. 1A is a diagram showing a state in which an image of a speaker is displayed on the conversation partner side, and FIG. 1B is a diagram showing a state in which an image of the conversation partner is displayed on the speaker side. It is.
本実施形態において表示される話者及び対話相手それぞれの画像について図1A及び図1Bを参照しながらより詳しく説明すると、話者であるAさんの画像は、図1Aに示すように、Bさん達が居る建物内に設置されたディスプレイに映し出され、Aさんの全身像及びその周辺空間が表示されることになっている。同様に、対話相手であるBさん、Cさん及びDさんの画像は、Aさんの自宅に設置されたディスプレイに映し出され、上記3人すべての全身像及びその周辺空間が表示されることになっている。 Referring to FIGS. 1A and 1B, the images of the speaker and the conversation partner displayed in the present embodiment will be described in more detail with reference to FIGS. 1A and 1B. As shown in FIG. It is projected on the display installed in the building where there is, and the whole body image of Mr. A and the surrounding space are to be displayed. Similarly, the images of Mr. B, Mr. C, and Mr. D who are conversation partners are displayed on the display installed at Mr. A's home, and the whole body image of the above three people and the surrounding space are displayed. ing.
以上のように、話者と対話相手とは、互いに離れた場所にてお互いの全身像及びその周辺空間を見ながら対話をすることが可能となる。これにより、話者と対話相手の双方は、あたかも同じ室内に居るような感覚を感じながら対話することができるので、臨場感のある対話が実現されるようになる。なお、「全身像」とは、頭部から足に亘る身体全体の姿であり、起立状態であっても着座状態であってもよく、また、前方に配置された物によって一部が隠れている状態の姿を含む概念である。 As described above, the speaker and the conversation partner can interact with each other while looking at each other's whole body image and the surrounding space at a location apart from each other. As a result, both the speaker and the conversation partner can interact while feeling as if they are in the same room, so that a realistic conversation can be realized. The “whole body image” is the appearance of the entire body from the head to the foot, and may be in a standing state or a sitting state, and partly hidden by an object placed in front. It is a concept that includes the state of being.
そして、本システムSでは、臨場感のある対話を実現するために、図2に示すように、Aさん側及びBさん達側にそれぞれ通信ユニット1、2を設けている。図2は、本システムSの概念図である。通信ユニット1、2同士は、同図に示すように、インターネット等の通信回線3を通じてデータ通信可能となっている。なお、図2には不図示となっているが、一般的に、通信ユニット1、2の間には中継サーバ(プロキシサーバ)が介在している。つまり、各通信ユニット1、2間で送受信されるデータについては、通常、上記の中継サーバを経由することになる。
And in this system S, in order to implement | achieve the realistic dialogue, as shown in FIG. 2, the
以下、通信ユニット1、2の構成について説明する。先ず、話者側(Aさん側)に設けられた通信ユニット1について説明すると、図3に示すように、話者側に設けられたサーバコンピュータ(以下、話者側サーバ)10A及び視聴覚設備等によって構成されている。図3は、通信ユニット1、2を含む本システムSの構成を示すブロック図である。視聴覚設備としては、集音装置21、撮像装置22、音声再生装置24及びディスプレイ(厳密には後述のディスプレイ兼用ミラー25)が備えられている。さらに、本実施形態に係る通信ユニット1は、ディスプレイ前に居る話者を検知するセンサとしての人感センサ23を備えている。
Hereinafter, the configuration of the
話者側サーバ10Aは、通信ユニット1の中枢を担う装置であり、図3に示すようにCPU11、ROMやRAMからなるメモリ12、ハードディスクドライブ13(図3中、HDDと表記)、通信用インターフェース14(図3中、通信用I/F)及びI/Oポート15を有する。話者側サーバ10Aは、通信回線3に接続された外部機器(例えば、後述する相手側サーバ10B)から送信されてくるデータを受信し、当該データをメモリ12若しくはハードディスクドライブ13に記憶する。また、メモリ12には、話者であるAさんがBさん達と対話するにあたって実行される一連のデータ処理を規定したプログラム(以下、対話プログラム)が格納されている。この対話プログラムがCPU11により読み出されて実行されることで、Aさんの映像や音声がBさん達側に送られ、また、Bさん達の画像や音声がAさん側で表示/再生されることになる。
The speaker-
集音装置21は、Aさんが話す声や発する音を集音する装置であり、マイクロフォン等の公知の装置により構成される。この集音装置21は、集音した音声を示す音声信号を出力し、当該音声信号は、話者側サーバ10Aに設けられたI/Oポート15に入力される。
The
撮像装置22は、Aさんの姿及び周辺空間を撮像する装置であり、ビデオカメラ等の公知の装置により構成される。この、撮像装置22は、撮像した映像を示す映像信号を出力し、当該映像信号は、話者側サーバ10Aに設けられたI/Oポート15に入力される。
The
人感センサ23は、その検知エリア内にヒトが存在していると、その者の位置を検知し、検知結果を示す信号を話者側サーバ10Aに向けて出力する。より具体的に説明すると、本実施形態に係る人感センサ23は、その構造が公知となっており、ディスプレイ前方に話者(Aさん)が居るときに、その者の位置を検知するものである。つまり、本実施形態に係る人感センサ23は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件を満たしたときに、上記の検知対象を検知する。
When the
なお、人感センサとしては、ヒトの位置を検知するものに限定されるものではなく、ヒトが行う動作、姿勢、ヒトが発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたとき、当該検知対象を検知するものであればよい。例えば、ヒトの足音や話し声に反応する音センサを用い、所定の音量以上となったときに、その音を検知することとしてもよい。このように音を検知対象とする構成については、例えば特開2013−73505号公報や特開2005−78347号公報に記載された構成のように公知の構成を利用することが可能である。 The human sensor is not limited to the one that detects the position of the person, and at least one of the action, posture, and sound emitted by the person is set as the detection target, and the detection target is previously set. What is necessary is just to detect the said detection object, when the set conditions are satisfy | filled. For example, a sound sensor that reacts to human footsteps or spoken voice may be used to detect the sound when the sound volume exceeds a predetermined level. As for the configuration in which sound is detected as described above, it is possible to use a known configuration, for example, a configuration described in JP2013-73505A or JP2005-78347A.
音声再生装置24は、音声を再生する装置であり、スピーカー等の公知の装置により構成される。この音声再生装置24は、話者側サーバ10Aが対話相手の音声を示すデータを展開することで出力される再生命令を受け付ける。この結果、音声再生装置24によって対話相手の音声が再生されるようになる。
The
ディスプレイは、Bさん達の画像(以下、相手画像)を表示する表示画面を形成する装置であり、表示画面形成部に相当する。このディスプレイは、話者側サーバ10Aが相手画像表示用のデータを展開することで出力される表示命令を受け付ける。この結果、ディスプレイ上の表示画面には、相手画像が表示されるようになる。
The display is a device that forms a display screen for displaying Mr. B's images (hereinafter referred to as partner images), and corresponds to a display screen forming unit. This display accepts a display command that is output when the speaker-
そして、本実施形態に係るディスプレイは、通常時にはAさんが居る建物(自宅)内に配置された装飾品、具体的には姿見として機能し、対話が実行される時にのみ表示画面を形成するものとなっている。以下、図3及び図4を参照しながら、本実施形態に係るディスプレイについて説明する。図4は、本実施形態に係るディスプレイを示す図であり、同図の(A)は、対話が行われていない非対話時の状態を、同図の(B)は、対話が行われている対話時の状態を、それぞれ示している。 The display according to the present embodiment normally functions as an ornament arranged in the building (home) where Mr. A is present, specifically as a figure, and forms a display screen only when a dialogue is executed. It has become. Hereinafter, the display according to the present embodiment will be described with reference to FIGS. 3 and 4. FIG. 4 is a diagram showing a display according to the present embodiment, where FIG. 4A shows a non-interactive state when no dialogue is performed, and FIG. It shows the state at the time of dialogue.
本実施形態に係るディスプレイは、前述したように、Aさんの自宅内に配置された姿見の一部分、具体的には鏡面部分を構成しており、図4の(A)に示す通り、非対話時には表示画面を形成せずに鏡面部分としての外観を現している。一方、本実施形態に係るディスプレイは、対話時になると、図4の(B)に示すように、表示画面を形成し、当該表示画面には相手画像が表示されるようになる。 As described above, the display according to the present embodiment constitutes a part of the appearance arranged in Mr. A's house, specifically a specular part. As shown in FIG. Sometimes the appearance as a mirror surface part is shown without forming a display screen. On the other hand, the display according to the present embodiment forms a display screen as shown in FIG. 4B when the conversation is started, and the partner image is displayed on the display screen.
以上のように本実施形態に係るディスプレイは、ディスプレイ兼用ミラー25により構成されており、表示画面の形成・消去が自在に切り替え可能となっている。より具体的に説明すると、ディスプレイ兼用ミラー25は、図3に示すように、制御回路26と発光部27を内蔵している。そして、制御回路26が、話者側サーバ10Aから出力される表示画面形成命令を受信し、当該命令に従って発光部27を点灯させると、ディスプレイ兼用ミラー25の鏡面部分に表示画面が形成されるようになる。
As described above, the display according to the present embodiment is constituted by the display /
一方、表示画面形成命令の出力がない期間には、制御回路26は、発光部27を消灯状態のままで保持し、これにより、ディスプレイ兼用ミラー25の鏡面部分は、その本来の外観を現すようになる。このように、対話時には表示画面を形成するディスプレイ兼用ミラー25が、対話が行われていない非対話時には姿見として機能することで、対話者(相手側対話者)の自宅内で目立ち難くなり、結果として表示画面の存在が気付き難くなる。なお、ディスプレイ兼用ミラー25の構成については、例えば国際公開第2009/122716号に記載された構成のように公知の構成が利用可能である。
On the other hand, during a period when there is no output of the display screen formation command, the
ちなみに、通常時(非対話時)に表示画面の存在を気付き難くするディスプレイとしては、上記のディスプレイ兼用ミラー25に限定されず、姿見以外のものであってもよい。すなわち、相手画像表示用の表示画面を形成するディスプレイについては、建物内に配置された建築材料、家具若しくは装飾品の一部分を構成し、表示画面の形成・消去を自在に切り替えることが可能なものであればよい。例えば、建物のドアや内壁を構成する建築材料、あるいは、タンス等の家具の一部を上記ディスプレイとして用いることとしてもよい。
Incidentally, the display that makes it difficult to notice the presence of the display screen during normal (non-interactive) time is not limited to the above-mentioned display-
次に、対話相手側(Bさん達側)に設けられた通信ユニット2について説明すると、図3に示すように、対話相手側に設けられたサーバコンピュータ(以下、相手側サーバ)10B及び視聴覚設備等によって構成されている。視聴覚設備としては、話者側の通信ユニット1と同様の装置、すなわち、集音装置21、撮像装置22、音声再生装置24及びディスプレイ(厳密にはディスプレイ兼用ミラー25)が備えられている。これらの機器については、話者側の通信ユニット1に備えられた装置と同様であるため、説明を省略する。
Next, the
さらに、本実施形態では、対話相手側の通信ユニット2においても、話者側の通信ユニット1と同じく、人感センサ23が備えられている。対話相手側に設けられた人感センサ23は、センサの一例であり、ディスプレイ前方に対話相手(Bさん、Cさん、Dさんのいずれか)が居るときに、その者の位置を検知するものである。つまり、対話相手側に設けられた人感センサ23は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件(第二の条件に相当し、具体的にはディスプレイ前方に位置するという条件)を満たしたときに、上記の検知対象を検知する。
Further, in the present embodiment, the
なお、対話相手側に設けられた人感センサ23についても、ヒトの位置を検知するものに限定されずヒトが行う動作、姿勢、その者が発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたときに当該検知対象を検知するものであればよい。
In addition, the
相手側サーバ10Bは、話者側サーバ10Aと略同様の構成となっており、そのメモリ12には対話プログラムが格納されている。そして、対話プログラムがCPU11により読み出されて実行されることで、Bさん達の映像や音声がAさん側に送られ、また、Aさんの画像や音声がBさん達側で表示/再生されることになる。
The
ところで、相手側サーバ10Bは、話者側サーバ10Aの機能に加えて、特別な機能が搭載されている。かかる機能について説明すると、相手側サーバ10Bは、話者側サーバ10Aから話者の映像を示す映像データを受信したときに、当該映像データに基づいて話者の画像(以下、話者画像)を表示するための表示データを生成する。この表示データが展開されると、Bさん達側に設けられたディスプレイに話者画像が表示されるようになる。
By the way, the
そして、本実施形態において、相手側サーバ10Bは、表示データ生成時に、話者側サーバ10Aから受信した映像データが示す話者の映像から補正された画像を表示するための表示データを生成することが可能である。すなわち、本実施形態では、対話相手に対して表示される話者画像については、話者を撮像したときの映像を補正した画像(分かり易く言えば、撮像された話者の実際の映像とは異なる画像)とすることが可能である。
And in this embodiment, the
話者画像の補正についてより具体的に説明するために、Bさん、Cさん、DさんのいずれかがAさんの話に対して所定の反応動作(例えば、話し声や笑い声を発する等の動作)を示したケースを想定する。このとき、相手側サーバ10Bは、上記の反応動作を検知し、当該動作を行った者(以下、動作実行者)が居る位置を特定する。その後、相手側サーバ10Bは、特定結果に基づき、動作実行者が居る位置にAさんの視線が向かうように補正された話者画像を表示するための表示データを生成する。
In order to explain the correction of the speaker image more specifically, any one of Mr. B, Mr. C, and Mr. D reacts to Mr. A's story (for example, an operation such as speaking or laughing) Is assumed. At this time, the
そして、上記の表示データが展開されると、Bさん達側では、図10に示すようにAさんの視線が動作実行者に向けられた話者画像(以下、視線合わせ画像)が表示されるようになる。この視線合わせ画像が表示されることで、動作実行者は、当該画像中のAさんの視線を見て、自身の動作に対してAさんが反応してくれたものと錯覚し、あたかもAさんと直に対面しながら対話していると感じるようになる。 Then, when the display data is expanded, Mr. B's side displays a speaker image (hereinafter referred to as a line-of-sight image) in which Mr. A's line of sight is directed to the action performer as shown in FIG. It becomes like this. By displaying this line-of-sight image, the person performing the operation looks at Mr. A's line of sight in the image and feels that Mr. A has responded to his / her movement, as if Mr. A. You will feel like you are interacting directly with each other.
また、本実施形態において、相手側サーバ10Bは、視線合わせ画像の表示後に、動作実行者が居る位置にAさんの視線及び顔が向くように補正された話者画像を表示するための表示データを更に生成する。かかる表示データが展開されると、Bさん達側では、図12に示すようにAさんの視線及び顔が動作実行者に向けられた話者画像(以下、二次視線合わせ画像)が表示されるようになる。この二次視線合わせ画像が表示されることで、より一層臨場感のある対話が実現される。分かり易く説明すると、Aさんの視線のみならず、Aさんの顔も動作実行者に向けられるため、当該動作実行者にとって、Aさんと対面しながら対話しているように感じる度合い、すなわち対面性がより高まることとなる。
In the present embodiment, the
<<話者側サーバ及び相手側サーバの構成について>>
話者側サーバ10A及び相手側サーバ10Bの各々の構成、特にハードウェア構成については既に説明した通りであるが、以下では、図5を参照しながら、各サーバの構成をその機能面から改めて説明することとする。図5は、話者側サーバ10A及び相手側サーバ10Bの各々の構成を機能面から示した図である。
<< Configuration of Speaker Server and Counterparty Server >>
The configuration of each of the speaker-
話者側サーバ10Aの構成を機能面から説明すると、図5に示すように、データ取得部31、データ送信部32、データ受信部33、相手画像表示部34及び相手音声再生部35が備えられている。これらは、話者側サーバ10Aが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した5つのデータ処理部は、それぞれ、CPU11、メモリ12、ハードディスクドライブ13、通信用インターフェース14及びI/Oポート15といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。以下、各データ処理部について個別に説明する。
The configuration of the speaker-
(データ取得部31について)
データ取得部31は、話者側サーバ10AがI/Oポート15を介して集音装置21及び撮像装置22から受信した信号、具体的には音声信号と映像信号をそれぞれデジタル化してからエンコードすることで音声データと映像データを取得する。ここで、音声データとは、集音装置21により集音されたAさんの音声(話し声)を示すデータである。また、映像データとは、Aさんを撮像した際の実際の映像を示すデータであり、本実施形態では、ディスプレイ兼用ミラー25の前方に居るAさんの全身像と周辺空間の映像を示すものとなっている。
(About the data acquisition unit 31)
The
なお、本実施形態では、Aさん側に設けられた人感センサ23がその検知エリア内に居る者の位置を検知すると、これをトリガーとして、集音装置21及び撮像装置22が起動し、音声の集音や映像の撮像が開始される。これに連動する形でデータ取得部31が上記2つのデータを取得し始めるようになる。
In the present embodiment, when the
(データ送信部32について)
データ送信部32は、データ取得部31が音声データ及び映像データを取得すると、これらのデータを相手側サーバ10Bに向けて随時送信する。なお、本実施形態において、データ送信部32は、音声データ及び映像データを多重化して一つのデータ(以下、対話データ)として送信することとしている。
(About the data transmission unit 32)
When the
(データ受信部33について)
データ受信部33は、相手側サーバ10Bから送信されてくる対話データを、通信回線3を通じて受信する。なお、受信した対話データは、話者側サーバ10Aのメモリ12の所定領域、若しくはハードディスクドライブ13に保存される。
(About the data receiver 33)
The
(相手画像表示部34について)
相手画像表示部34は、メモリ12やハードディスクドライブ13に保存されている対話データを読み出して同データから映像データを抽出した上で、映像データをデコードして展開し、Aさん側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に相手画像、すなわち、Bさん達の全身画像及び周辺空間の映像が表示されるようになる。このように相手画像表示部34は、対話データから抽出した映像データを展開することで相手画像を表示するものである。
(About the partner image display unit 34)
The partner
ところで、本実施形態では、前述したように、話者側に設けられたディスプレイがディスプレイ兼用ミラー25によって構成されている。そして、相手画像表示部34は、相手画像を表示するにあたり、ディスプレイ兼用ミラー25の鏡面部分に表示画面を形成させるための処理を実行することとしている。かかる処理(以下、表示画面形成命令処理)は、ディスプレイ兼用ミラー25が表示画面を形成していない状態において画面形成条件が成立したことをトリガーとして相手画像表示部34によって実行される。ここで、画面形成条件とは、ディスプレイ兼用ミラー25に表示画面を形成させる条件として予め設定されたものであり、具体的には、Aさん側に設けられた人感センサ23がその検知エリア内に居る者の位置を検知することである。
By the way, in this embodiment, as described above, the display provided on the speaker side is constituted by the display /
より詳しく説明すると、人感センサ23の検知エリアは、ディスプレイ兼用ミラー25の前方位置、例えば、ディスプレイ兼用ミラー25を姿見として利用する際に立つ位置よりも幾分近付いた位置に設定されている。そのため、図4の(B)に示すように、ディスプレイ兼用ミラー25に対して通常時よりも近付いた位置にAさんが位置していると、人感センサ23は、その検知エリア内に居るAさんの位置を検知し、その検知結果を示す信号(以下、検知信号)を話者側サーバ10Aに向けて出力する。検知信号がI/Oポート15を介して話者側サーバ10Aに入力されると、相手画像表示部34が表示画面形成命令処理を実行し、ディスプレイ兼用ミラー25に表示画面を形成させる命令(表示画面形成命令)を生成して、当該命令をディスプレイ兼用ミラー25に向けて出力する。
More specifically, the detection area of the
表示画面形成命令を受け付けたディスプレイ兼用ミラー25では、制御回路26が当該命令に従って発光部27を点灯させる。これにより、それまで姿見としての外観を呈していたディスプレイ兼用ミラー25の鏡面部分に、表示画面が形成されるようになる。そして、ディスプレイ兼用ミラー25は、人感センサ23がその検知エリア内に居る者の位置を検知し続けている間、表示画面を形成した状態で維持される。一方、検知エリア内に居た者が当該エリア外に移動して人感センサ23が検知対象を検知しなくなると、ディスプレイ兼用ミラー25は、表示画面を消去し、鏡面部分に姿見としての外観を現すようになる。すなわち、本実施形態においてディスプレイ兼用ミラー25は、人感センサ23が検知エリア内に居る者の位置を検知している期間にのみ表示画面を形成する。
In the display-
(相手音声再生部35について)
相手音声再生部35は、メモリ12やハードディスクドライブ13に保存されている対話データを読み出して同データから音声データを抽出した上で、当該音声データをデコードして展開し、Aさん側の音声再生装置24に対して再生命令を出力する。この再生命令を受け付けた音声再生装置24は、当該命令に従って上記の音声データが示す音声、すなわちBさん達の音声を再生する。
(About the other party voice playback unit 35)
The other party's
次に、相手側サーバ10Bの構成を機能面から説明すると、図5に示すように、データ取得部41、データ送信部42、データ受信部43、動作実行者検知部44、表示データ生成部45、話者画像表示部46及び話者音声再生部47が備えられている。これらは、相手側サーバ10Bが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した7つのデータ処理部は、それぞれ、CPU11、メモリ12、ハードディスクドライブ13、通信用インターフェース14及びI/Oポート15といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。
Next, the configuration of the
なお、上記7つのデータ処理部のうち、データ取得部41、データ送信部42及びデータ受信部43については、対象とするデータの内容が異なるものの、その機能については話者側サーバ10Aのデータ処理部(具体的にはデータ取得部31、データ送信部32及びデータ受信部33)と共通するので、説明を省略することとする。以下、残りのデータ処理部について説明する。
Among the above seven data processing units, the
(動作実行者検知部44について)
動作実行者検知部44は、検知部に相当し、データ取得部41が取得した音声データ及び映像データに基づいて、動作実行者を検知するものである。より具体的に説明すると、対話相手であるBさん、Cさん及びDさんは、対話中、ディスプレイを構成するディスプレイ兼用ミラー25の前方位置に居て、ディスプレイ兼用ミラー25に形成された表示画面にてAさんの画像を見るとともに、音声再生装置24により再生されるAさんの音声を聞く。この間、Bさん達の音声が集音装置21により集音され、Bさん達の映像が撮像装置22により撮像されている。その音声信号及び映像信号は、逐次、相手側サーバ10Bに向けて出力され、データ取得部41は、上記の出力信号から音声データ及び映像データを取得する。
(About the operation executor detection unit 44)
The operation
一方で、動作実行者検知部44は、データ取得部41が取得した音声データ及び映像データを解析し、Bさん達の中で該当動作を行っている者がいるか否かを判定する。ここで、該当動作とは、動作実行者を検知するために予め設定された条件を満たす動作のことであり、具体的には、笑い声や話し声を発する動作のことである。そして、動作実行者検知部44は、該当動作を行っている者が居ると判定すると、その者を検知する。
On the other hand, the operation
なお、動作実行者を検知する方法については特に限定されるものではないが、一例としては、音声データから音量や声の高さを特定して当該特定結果から音声発生源の位置を算出するとともに、映像データから各対話相手の位置を特定し、算出した音声発生源の位置に相当する位置に居る者を割り出すことで動作実行者を検知することが考えられる。 The method for detecting the person performing the operation is not particularly limited. For example, the volume and the pitch of the voice are specified from the voice data, and the position of the voice source is calculated from the specified result. It is conceivable to identify the position of each conversation partner from the video data and detect the person who is in the position corresponding to the calculated position of the sound generation source to detect the person performing the operation.
(表示データ生成部45について)
表示データ生成部45は、話者側サーバ10Aから送信されてくる対話データから映像データを抽出し、当該映像データに基づいて話者画像の表示データを生成するものである。そして、本実施形態では、表示データ生成部45によるデータ処理(表示データ生成処理)が2種類あり、いずれの処理が実行されるかについては、動作実行者検知部44による動作実行者の検知の有無に応じて変化することとなっている。
(About the display data generation unit 45)
The display
より具体的に説明すると、動作実行者検知部44が動作実行者を検知したとき、表示データ生成部45は、話者画像として前述の視線合わせ画像を表示する表示データの生成処理を実行する。かかる処理は、本発明の第一処理に相当し、以降では視線合わせ画像生成処理と呼ぶこととする。
More specifically, when the operation
視線合わせ画像生成処理について図6に図示した手順に沿って説明する。図6は、視線合わせ画像生成処理の流れを示した図である。視線合わせ画像生成処理は、動作実行者検知部44が動作実行者を検知したことをトリガーとして実行され、先ず、動作実行者が居る位置を特定する工程から始まる(S001)。本工程S001において、表示データ生成部45は、動作実行者検知部44が動作実行者を検知する際に割り出した音声発生源の位置から動作実行者の位置を特定する。以下、動作実行者位置特定工程S001について図7を参照しながらより詳細に説明する。図7は、動作実行者位置の特定に関する説明図である。
The line-of-sight image generation processing will be described along the procedure illustrated in FIG. FIG. 6 is a diagram illustrating a flow of the line-of-sight image generation processing. The line-of-sight image generation processing is executed with the operation
表示データ生成部45は、音声を発した対話相手(図7では最も右側に位置する者)の位置を特定するにあたり、映像データを解析して動作実行者の位置を特定する。より具体的に説明すると、音声を発した対話相手について、撮像装置22から見たときの方向及び撮像装置22の正面位置からの傾き角度(図7中、記号θにて表記)を特定する。なお、動作実行者位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。
The display
動作実行者の位置を特定した後、表示データ生成部45は、データ受信部43が話者側サーバ10Aから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する(S002)。この処理は、対話データから抽出した映像データが示す話者の映像を、図8に示すように話者の瞳の映像(以下、瞳映像)、瞳を除く頭部の映像(以下、頭部映像)、及び、話者の頭部以外及び周辺空間の映像(以下、胴等映像)に分割する処理であり、公知の画像処理技術により実現される。図8は、話者映像の分解に関する説明図である。
After specifying the position of the person who performs the operation, the display
話者映像分解処理を実行した後、表示データ生成部45は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する(S003)。この視線編集処理は、動作実行者位置特定工程S001にて特定した動作実行者位置に応じて話者の視線を変化させるために実行される。以下、視線編集処理について図9を参照しながら説明する。図9は、視線編集に関する説明図である。
After executing the speaker video decomposition process, the display
視線編集処理では、実際の瞳の映像(図9中の黒抜き部分)を動作実行者位置に応じて編集し、具体的には、撮像装置22から動作実行者を見たときの方向に傾き角度θに応じた分だけ視線がずれるように瞳の形状及び位置を変更する。かかる手順を経ることにより、瞳映像は、図9中、ハッチングが掛かった部分で示すように動作実行者の位置に応じて位置や形状が変化された映像(以下、編集後の瞳映像)となる。なお、視線編集処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。
In the line-of-sight editing process, the actual pupil image (the black portion in FIG. 9) is edited according to the position of the person performing the operation, and specifically, tilted in the direction when the person performing the operation is viewed from the
視線編集処理を実行した後、表示データ生成部45は、話者映像分解工程S002において抽出された頭部映像及び胴等映像と、視線編集工程S003において得た編集後の瞳映像を合成した画像を表示するための表示データを生成する(S004)。かかる工程S004によって得られる表示データを展開すると、図10に図示の視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図10は、視線合わせ画像を表示している様子を示した図である。
After executing the line-of-sight editing process, the display
視線合わせ画像についてより詳しく説明すると、話者側サーバ10Aから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、視線合わせ画像は、図10に示す通り、動作実行者の位置(図10に示すケースではDさんの位置)に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、動作実行者位置特定工程S001にて特定された動作実行者の位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。
The line-of-sight image will be described in more detail. The image is different from the actual speaker image displayed by expanding the video data in the conversation data received from the speaker-
また、視線合わせ画像における話者の視線については、瞬時に動作実行者の位置に向くように切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程S003では、動作実行者の位置に向かって徐々に変化するように視線を編集すると良い。 In addition, it is desirable that the line of sight of the speaker in the line-of-sight image is gradually switched in accordance with the normal human movement, rather than instantaneously switching to the position of the person performing the operation. Therefore, in the line-of-sight editing step S003, it is preferable to edit the line of sight so as to gradually change toward the position of the person performing the operation.
また、動作実行者の検知をトリガーとして視線合わせ画像生成処理を開始してから、当該処理にて生成された表示データを展開して視線合わせ画像を表示するまでの時間については、通常の人間の神経回路において視線を切り替えるのに要する時間と一致させると良い。かかる場合には、話者画像において話者の視線がより自然に変化するようになる。 In addition, regarding the time from the start of the line-of-sight image generation process triggered by the detection of the person performing the operation until the display data generated by the process is expanded to display the line-of-sight image, The time required for switching the line of sight in the neural circuit is preferably matched. In such a case, the speaker's line of sight changes more naturally in the speaker image.
視線合わせ画像の表示データを生成した後、表示データ生成部45は、更に、話者映像分解処理において分割した頭部映像のデータに対して、話者の顔の向きを編集する処理を実行する(S005)。この処理は、動作実行者位置特定工程S001にて特定した動作実行者位置に応じて話者の顔の向きを変化させるために実行される。以下、顔向き編集処理について図11を参照しながら説明する。図11は、顔向き編集に関する説明図である。
After generating the display data of the line-of-sight image, the display
顔向き編集処理では、頭部映像を動作実行者位置に応じて編集し、具体的には、話者が正面を向いているときの顔の中心線(図11中、破線にて示す)を基準にして、撮像装置22から動作実行者を見たときの方向に傾き角度θに応じた分だけ話者の顔の向きが変化ように、鼻や口等の顔各部の位置及び顔の輪郭を変更する。かかる手順を経ることにより、頭部映像は、図11に示すように正面を向いた状態から動作実行者の位置に応じて顔の向きが変化された映像(以下、編集後の頭部映像)となる。なお、顔向き編集処理において顔の向きを変更する方法としては、公知の画像編集技術が利用可能である。
In the face orientation editing process, the head image is edited according to the position of the person who performs the operation. Specifically, the center line of the face when the speaker is facing the front (indicated by a broken line in FIG. 11). The position of each part of the face such as the nose and mouth and the contour of the face so that the direction of the speaker's face changes by an amount corresponding to the tilt angle θ in the direction when the person performing the operation is viewed from the
顔向き編集処理を実行した後、表示データ生成部45は、前工程S005において得た編集後の頭部映像と残りの部分映像とを合成した画像を表示するための表示データを生成する(S006)。かかる工程S006によって得られる表示データを展開すると、図12に図示の二次視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図12は、二次視線合わせ画像を表示している様子を示した図である。
After executing the face orientation editing process, the display
二次視線合わせ画像について説明すると、上述した視線合わせ画像と同様、実際の話者映像とは異なった画像となっており、図12に示す通り、動作実行者の位置(図10に示すケースではDさんの位置)に話者の視線及び話者の顔が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を再合成することで生成される表示データは、動作実行者位置特定工程S001にて特定された動作実行者の位置に話者の視線及び話者の顔が向くように補正された話者画像を表示するためのデータである。なお、二次視線合わせ画像を構築するために各部分画像を再合成する方法についても、視線合わせ画像を構築するために各部分画像を合成するときと同様、公知の画像処理技術が利用可能である。 The secondary line-of-sight image will be described. Similar to the above-described line-of-sight alignment image, the image is different from the actual speaker image, and as shown in FIG. 12, the position of the person performing the operation (in the case shown in FIG. 10). The actual video image of the speaker is corrected so that the speaker's line of sight and the speaker's face face the position of Mr. D. In other words, the display data generated by recombining the partial videos divided from the speaker video is the speaker's line of sight and speech at the position of the motion executor identified in the motion executor position identifying step S001. This is data for displaying a speaker image corrected so that the person's face faces. As for the method of recombining each partial image to construct a secondary line-of-sight image, a known image processing technique can be used as in the case of combining each partial image to construct a line-of-sight image. is there.
また、二次視線合わせ画像における話者の顔の向きについては、瞬時に動作実行者に向くように変化することよりも、通常の人間の動きに合わせて漸次的に変化することが望ましい。したがって、顔向き編集工程S005では、動作実行者の位置に向かって徐々に変化するように話者の顔の向きを編集すると良い。また、このとき、顔の向きの変化に連動して話者の視線が変化することが望ましい。したがって、顔向き編集工程S005と同時に顔の向きの変化に付随して瞳映像を再編集することとし、かかる再編集工程において、顔の向きの変化量に応じて瞳の形状や位置を変化させると良い。 Moreover, it is desirable that the orientation of the speaker's face in the secondary line-of-sight image changes gradually in accordance with normal human movement, rather than instantaneously changing toward the action performer. Therefore, in the face direction editing step S005, it is preferable to edit the face direction of the speaker so as to gradually change toward the position of the person performing the operation. At this time, it is desirable that the line of sight of the speaker changes in conjunction with the change in the orientation of the face. Therefore, at the same time as the face direction editing step S005, the pupil video is re-edited in association with the change in the face direction, and in this re-editing step, the shape and position of the pupil are changed according to the amount of change in the face direction. And good.
以上までの一連の工程が完了した時点で、視線合わせ画像生成処理が終了する。そして、表示データ生成部45は、動作実行者検知部44が動作実行者を検知する度に視線合わせ画像生成処理を繰り返し実行する。
When the series of steps described above is completed, the line-of-sight image generation processing is completed. Then, the display
一方、動作実行者検知部44が所定時間以上動作実行者を検知していないとき、表示データ生成部45は、話者の視線が所定の位置を向いている話者画像(以下、目配せ画像)を表示する表示データの生成処理を実行する。かかる処理は、本発明の第二処理に相当し、以降では目配せ画像生成処理と呼ぶこととする。
On the other hand, when the motion
目配せ画像生成処理について図13に図示した手順に沿って説明する。図13は、目配せ画像生成処理の流れを示した図である。目配せ画像生成処理は、動作実行者検知部44が動作実行者を検知していない時間が所定時間に達すると実行される。なお、目配せ画像生成処理の実行条件となる動作実行者の非検知時間については、任意に設定することが可能である。
The layout image generation processing will be described along the procedure illustrated in FIG. FIG. 13 is a diagram illustrating a flow of a side-by-side image generation process. The gaze image generation process is executed when the operation
目配せ画像生成処理は、先ず、各対話相手が居る位置を特定する工程から始まる(S011)。具体的に説明すると、本工程S011において、表示データ生成部45は、撮像装置22により撮像された対話相手の映像データを解析して各対話相手の位置を特定する。より具体的には、各対話相手について、撮像装置22から見たときの方向及び撮像装置22の正面位置からの傾き角度θを特定する。なお、各対話相手の位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。
The gaze image generation process starts from a step of specifying a position where each conversation partner is present (S011). Specifically, in this step S011, the display
各対話相手の位置を特定した後、表示データ生成部45は、データ受信部43が話者側サーバ10Aから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する(S012)。かかる処理は、視線合わせ画像生成処理における話者映像分解処理と同様の処理である。
After specifying the position of each conversation partner, the display
そして、話者映像分解処理を実行した後、表示データ生成部45は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する(S013)。この視線編集処理は、話者の視線を予め設定された位置に向けるために実行され、具体的には複数の対話相手であるBさん、Cさん及びDさんのうちの一人が居る位置に向けるために実行される。なお、視線編集処理の手順については、視線合わせ画像生成処理における視線編集処理と同様であり、同処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。
After executing the speaker video decomposition process, the display
視線編集処理の実行後、表示データ生成部45は、前工程S013において得た編集後の瞳映像と、話者映像分解工程S012において抽出された頭部映像及び胴等映像と、を合成した画像を表示するための表示データを生成する(S014)。かかる工程S014によって得られる表示データを展開すると、対話相手の一人が居る位置に話者の視線が向いた話者画像、すなわち目配せ画像がディスプレイに表示されるようになる。
After executing the line-of-sight editing process, the display
目配せ画像について説明すると、視線合わせ画像と同様、話者側サーバ10Aから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、目配せ画像は、対話相手の一人が居る位置に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、対話相手位置特定工程S011にて各対話相手の位置のうち、所定の対話相手、例えば、撮像装置22から見て最も右側に位置する対話相手が居る位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。
The look-ahead image will be described. Similar to the line-of-sight image, the image is different from the actual speaker image displayed by expanding the video data in the conversation data received from the speaker-
また、目配せ画像における話者の視線については、所定の対話相手が居る位置に向かって瞬時に切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程S013では、所定の対話相手が居る位置に向かって徐々に変化するように視線を編集すると良い。 Further, it is desirable that the line of sight of the speaker in the look-ahead image is gradually switched in accordance with a normal human movement rather than instantaneously switching toward a position where a predetermined conversation partner is present. Therefore, in the line-of-sight editing step S013, it is preferable to edit the line of sight so as to gradually change toward a position where a predetermined dialogue partner is present.
以上までの一連の工程が完了した時点で、目配せ画像生成処理が終了する。そして、表示データ生成部45は、動作実行者を検知していない非検知期間が継続する間、一定の間隔で目配せ画像生成処理を繰り返し実行する。このとき、表示データ生成部45は、複数の対話相手のうち、話者の視線が向いている位置に居る対話相手が順次切り替わるように目配せ画像生成処理を繰り返す。
At the time when the series of steps described above is completed, the side-by-side image generation processing ends. Then, the display
より具体的に説明すると、ある回の目配せ画像生成処理において、撮像装置22から見て最も右側に位置する対話相手(すなわち、Bさん)が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成したとする。かかる場合、次回実行される目配せ画像生成処理では、Bさんの左隣に居る対話相手(すなわち、Cさん)の位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。さらに、その次の回で実行される目配せ画像生成処理では、撮像装置22から見て最も左側に位置する対話相手(すなわち、Dさん)が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。以降、話者の視線がBさんの位置、Cさんの位置、Dさんの位置の順で切り替わるように目配せ画像生成処理が繰り返し実行される。
More specifically, in the one-time gaze image generation process, correction was performed so that the speaker's line of sight is directed to the position where the conversation partner (that is, Mr. B) located on the rightmost side as viewed from the
以上のように目配せ画像生成処理が繰り返し実行されることにより、Bさん達側のディスプレイに表示される話者画像(すなわち、目配せ画像)では、図14の(A)、(B)及び(C)に示すように、話者の視線が定期的に変化し、その視線の先に居る対話相手が順次切り替わるようになる。図14の(A)、(B)及び(C)は、目配せ画像生成処理にて生成された表示データに基づいて話者画像を表示している様子を示した図である。そして、上記の視覚的効果により、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、話者画像を見ながら行う対話の趣向性が向上することとなる。 As described above, by repeating the look-ahead image generation process, in the speaker image (that is, the look-ahead image) displayed on the display on the side of Mr. B, (A), (B), and (C ), The speaker's line of sight changes periodically, and the conversation partner at the end of the line of sight switches sequentially. (A), (B), and (C) of FIG. 14 are views showing a state in which a speaker image is displayed based on display data generated by the lookout image generation process. The above-mentioned visual effect makes it possible for each conversation partner to feel as if the speaker is paying attention, thereby improving the preference of the conversation performed while looking at the speaker image. .
なお、本実施形態において、目配せ画像では話者の視線のみが所定の対話相手の位置を向いていることとしたが、話者の視線とともに話者の顔が所定の対話相手の位置に向くような目配せ画像を表示することとしてもよい。換言すると、目配せ画像生成処理では、所定の対話相手の位置に話者の視線及び話者の顔が向くように補正された話者画像(目配せ画像)を表示するための表示データを生成することとしてもよい。 In this embodiment, it is assumed that only the speaker's line of sight faces the position of the predetermined conversation partner in the look-ahead image, but the speaker's face faces the predetermined conversation partner's position together with the speaker's line of sight. It is also possible to display a fine-grained image. In other words, in the look-ahead image generation process, display data for displaying a speaker image (a look-ahead image) corrected so that the speaker's line of sight and the speaker's face are directed to the position of a predetermined conversation partner is generated. It is good.
(話者画像表示部46及び話者音声再生部47について)
話者画像表示部46は、Bさん達側のディスプレイと協働することで画像表示部として機能する。厳密に説明すると、話者画像表示部46は、表示データ生成部45によって生成された表示データを展開し、Bさん達側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に前述の視線合わせ画像、二次視線合わせ画像若しくは目配せ画像が表示されるようになる。このように話者画像表示部46は、表示データを展開することで話者画像を表示するものである。
(About the speaker
The speaker
なお、Bさん達側のディスプレイについてもディスプレイ兼用ミラー25によって構成されているため、話者画像表示部46は、話者画像を表示するにあたり、ディスプレイ兼用ミラー25の鏡面部分に表示画面を形成させるために表示画面形成命令処理を実行する。表示画面形成命令処理は、話者側サーバ10Aの相手画像表示部34によって行われる処理と同様であるため、同処理の具体的な手順については説明を省略する。
Since the display on the side of Mr. B is also composed of the display /
話者音声再生部47は、話者側サーバ10Aより受信した対話データから音声データを抽出し、当該音声データをデコードして展開し、Bさん達側の音声再生装置24に対して再生命令を出力する。この再生命令を受け付けた音声再生装置24は、当該命令に従って上記の音声データが示す音声、すなわちAさんの音声を再生する。
The speaker
<<本実施形態に係る画像表示方法の手順>>
次に、本実施形態に係る画像表示方法について説明する。なお、以下の説明においても、上記までの説明と同様に話者をAさんとし、対話相手をBさん、Cさん及びDさんとするケースを具体例に挙げることとする。
<< Procedure for Image Display Method According to Present Embodiment >>
Next, an image display method according to the present embodiment will be described. In the following description, the case where the speaker is Mr. A and the conversation partners are Mr. B, Mr. C, and Mr. D is given as a specific example in the same manner as described above.
本実施形態に係る画像表示方法は、本システムSにおいて話者及び対話相手双方の通信ユニット1、2によって実現され、具体的には、各通信ユニット1、2のサーバコンピュータ(話者側サーバ10A及び相手側サーバ10B)が図15及び16に示す流れにてデータ処理を順次実行することで実現される。図15及び16は、AさんとBさん達との間の対話において本システムSが実行するデータ処理の流れを示した図である。以下、一連のデータ処理の流れについて図15及び16を参照しながら説明する。
The image display method according to the present embodiment is realized by the
先ず、Aさんが自宅内に設置されたディスプレイ兼用ミラー25の前方に移動し、人感センサ23がその検知エリア内に居るAさんの位置を検知するところから開始される(S021)。そして、話者側サーバ10Aは、I/Oポート15を介して上記の人感センサ23による検知結果を示す信号を受信すると(S021でYes)、表示画面形成命令処理を実行する。これにより、Aさん側のディスプレイ兼用ミラー25は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる(S022)。なお、Aさん側のディスプレイ兼用ミラー25に表示画面が形成された時点では、当該表示画面が所定の待ち受け画面となっている。
First, Mr. A moves to the front of the display /
一方、表示画面形成命令処理の実行に伴って集音装置21及び撮像装置22が作動し、これにより、Aさんの全身像及びその周辺空間の映像が撮像され、Aさんの話し声が集音されるようになる(S023)。その後、話者側サーバ10Aが、集音装置21及び撮像装置22からの出力信号を基に対話データを生成し、同データを相手側サーバ10Bに向けて送信する(S024)。
On the other hand, the
相手側サーバ10Bは、通信回線3を介して対話データを受信し、当該対話データを内部のメモリ12又はハードディスクドライブ13に記憶する(S025)。その後、相手側サーバ10Bは、記憶した対話データを読み出して同データの中から音声データを抽出し、当該音声データが示す音声を再生させる命令を音声再生装置24に対して出力する。かかる再生命令を受け付けた音声再生装置24は、上記音声データが示す音声を再生する(S026)。この結果、Bさん達が居る建物内ではAさんの音声(話し声)が聞こえるようになる。
The
一方、Bさん達は、Aさんの音声に反応する形で、Bさん達が居る建物内に設置されたディスプレイ兼用ミラー25の前方に移動する。そして、Aさんの音声が再生されている間にBさん達のいずれかが人感センサ23の検知エリア内に入ると、人感センサ23がその者の位置を検知するようになる(S027)。相手側サーバ10Bは、I/Oポート15を介して上記の人感センサ23による検知結果を示す信号を受信すると、これに伴って表示画面形成命令処理を実行する。これにより、Bさん達側のディスプレイ兼用ミラー25は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる(S028)。
On the other hand, Mr. B moves to the front of the display /
表示画面の形成後、相手側サーバ10Bは、話者画像の表示に係るデータ処理を実行する。当該データ処理の実行により、Aさんの音声が音声再生装置24により再生されるとともに、話者画像が表示画面に表示されるようになる(S029)。なお、話者画像の表示に係るデータ処理の流れについては、後に詳しく説明する。
After the display screen is formed, the
また、Bさん達が居る建物において人感センサ23がその検知エリア内に居る者の位置を検知すると、集音装置21及び撮像装置22が作動するようになる。これにより、Bさん達の全身像及びその周辺空間の映像が撮像され、Bさん達の音声が集音されるようになる(S030)。その後、相手側サーバ10Bは、集音装置21及び撮像装置22からの出力信号を基に対話データを生成し、生成した対話データを話者側サーバ10Aに向けて送信する(S031)。
Further, when the
話者側サーバ10Aは、通信回線3を介して対話データを受信し、当該対話データを内部のメモリ12又はハードディスクドライブ13に記憶する(S032)。その後、話者側サーバ10Aは、記憶した対話データを読み出した上で同データから音声データと映像データとを抽出し、これら2つのデータを展開する。そして、話者側サーバ10Aは、抽出した音声データが示す音声を再生させる命令を音声再生装置24に対して出力するとともに、抽出した映像データが示す映像(すなわち、相手画像)を表示させる命令をディスプレイ兼用ミラー25に対して出力する。これにより、Aさん側の音声再生装置24がBさん達の音声を再生し、ディスプレイ兼用ミラー25が形成する表示画面にはBさん達の全身像及びその周辺空間の映像が表示されるようになる(S033)。
The speaker-
以降、両者間での対話が継続する間、上述した一連のデータ処理が各通信ユニット1、2にて繰り返し実行される。そして、Aさんの自宅又はBさん達が居る建物において、人感センサ23がその検知エリア内に居る者の位置を検知しなくなったときに(S034、S035)、対話が終了し、上述した一連のデータ処理の実行についても終了することになる。これにより、集音装置21及び撮像装置22が停止する。また、人感センサ23がその検知エリア内に居る者の位置を検知しなくなると、これに連動して、ディスプレイ兼用ミラー25に形成されていた表示画面が消去され、ディスプレイ兼用ミラー25は、その鏡面部分に姿見としての外観を現すようになる。
Thereafter, while the conversation between the two continues, the series of data processing described above is repeatedly executed in each of the
次に、上述したデータ処理のうち、話者画像の表示に係るデータ処理について図17を参照しながら詳細に説明する。図17は、話者画像を表示する際の手順を示した図である。話者画像の表示に係るデータ処理は、図17に示すように、相手側サーバ10Bによる動作実行者の検知の有無に応じて2つのパターンに分かれている。
Next, of the above-described data processing, data processing related to display of a speaker image will be described in detail with reference to FIG. FIG. 17 is a diagram illustrating a procedure for displaying a speaker image. As shown in FIG. 17, the data processing related to the display of the speaker image is divided into two patterns depending on whether or not the operation server is detected by the
一方の処理パターンは、相手側サーバ10Bが動作実行者を検知したとき(S041でYes)のパターンである。かかる処理パターンでは、相手側サーバ10Bが前述の視線合わせ画像生成処理を実行する(S042)。視線合わせ画像生成処理にて生成された表示データは、相手側サーバ10Bによって逐次展開される(S043)。これにより、Bさん達側のディスプレイには話者画像が表示されるようになる。より具体的に説明すると、視線合わせ画像生成処理が実行されると、先ず、話者の視線が動作実行者の位置に向いている視線合わせ画像が表示され、次いで、話者の視線及び顔が動作実行者の位置に向いている二次視線合わせ画像が表示されるようになる。なお、視線合わせ画像生成処理が実行された場合には、一定時間、視線合わせ画像(厳密には、二次視線合わせ画像)がディスプレイに表示され続けるようになる。
One processing pattern is a pattern when the
そして、視線合わせ画像生成処理が実行されてから一定時間が経過すると(S044でYes)、相手側サーバ10Bが動作実行者の検知の有無を再び判定するようになる(S041)。
When a certain time has elapsed since the line-of-sight image generation processing is executed (Yes in S044), the
もう一方の処理パターンは、相手側サーバ10Bが動作実行者を検知しないとき(S041でNo)のパターンである。かかる処理パターンでは、相手側サーバ10Bが前述の目配せ画像生成処理を実行する(S045)。目配せ画像生成処理にて生成された表示データは、相手側サーバ10Bによって逐次展開される(S046)。これにより、Bさん達側のディスプレイには話者画像として、話者の視線が所定の対話相手の位置に向いた目配せ画像が表示されるようになる。
The other processing pattern is a pattern when the
そして、目配せ画像生成処理は、相手側サーバ10Bが動作実行者を検知しない非検知期間中、一定の時間毎に繰り返し実行される(S047、S048)。これにより、Bさん達側のディスプレイに表示される話者画像中、話者の視線の向きがBさんの位置、Cさんの位置、Dさんの位置の順で切り替わるようになる。
Then, the side-by-side image generation process is repeatedly executed at regular intervals during the non-detection period in which the
なお、相手側サーバ10Bが目配せ画像生成処理を実行した後に動作実行者を検知した場合には(S047でYes)、図17に示すように、処理パターンが、目配せ画像生成処理を実行するパターンから視線合わせ画像生成処理を実行するパターンに移行する。
When the
<<その他の実施形態>>
上記の実施形態では、本発明の画像表示システム及び画像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
<< Other Embodiments >>
In the above embodiment, the image display system and the image display method of the present invention have been described by way of example. However, said embodiment is only an example for making an understanding of this invention easy, and does not limit this invention. The present invention can be changed and improved without departing from the gist thereof, and the present invention includes the equivalents thereof.
また、上記の実施形態では、実際の話者映像に対して話者の視線や話者の顔の向きを補正した話者画像を表示するにあたり、実際の話者映像を部分映像に分割することとした。そして、分割された部分映像中、瞳映像や頭部映像を編集し、編集された部分映像と残りの部分映像とを合成することで最終的な話者画像の表示データを生成することとした。かかる手順は、あくまでも話者画像の表示データを生成する手順の一例に過ぎず、その他の手順にて話者画像の表示データを生成することとしてもよい。例えば、話者映像を部分映像に分割せずに話者映像のままの状態(すなわち、分割されていない状態)で瞳や頭部のみを編集することとしてもよい。 Further, in the above embodiment, when displaying a speaker image in which the speaker's line of sight and the direction of the speaker's face are corrected with respect to the actual speaker image, the actual speaker image is divided into partial images. It was. Then, in the divided partial video, the pupil video and the head video are edited, and the edited partial video and the remaining partial video are combined to generate the final speaker image display data. . Such a procedure is merely an example of a procedure for generating speaker image display data, and the speaker image display data may be generated by another procedure. For example, it is possible to edit only the pupil or the head in a state where the speaker video is not divided into partial videos and is still in the state of the speaker video (that is, not divided).
また、上記の実施形態では、相手側サーバ10Bが話者画像の表示データを生成することとした。ただし、表示データの生成を行う装置については、相手側サーバ10Bに限定されず、話者側サーバ10Aが行うこととしてもよい。あるいは、話者側サーバ10Aと相手側サーバ10Bの双方と通信可能な第三のサーバ(不図示のサーバであり、例えば、ASPサーバやクラウドサービス用のサーバ)が表示データを生成してもよい。
In the above embodiment, the
また、上記の実施形態では、対話中に笑い声や話し声を発する対話相手が居たときに相手側サーバ10Bが当該対話相手を動作実行者として検知し、これをトリガーとして視線合わせ画像生成処理を実行することとした。ただし、動作実行者を検知する際の条件については、笑い声や話し声を発することに限定されるものではなく、それ以外の動作を行うことを検知条件とすることとしてもよい。例えば、挙手動作や起立動作等のように身体を動かす動作を行うことを検知条件として設定することとしてもよい。
In the above embodiment, when there is a conversation partner who laughs or speaks during the conversation, the
また、上記の実施形態では、視線や顔の向きを補正して得られる画像として話者画像を例に挙げて説明したが、対話相手の画像(相手画像)についても視線や顔の向きを実際の映像から補正した上で表示することとしてもよい。 In the above embodiment, the speaker image is described as an example of the image obtained by correcting the line of sight and the face direction. However, the line of sight and the face direction are actually applied to the conversation partner image (the partner image). It is good also as displaying after correcting from the image | video of.
また、上記の実施形態では、一人の話者に対して対話相手が複数人存在するケースを例に挙げて説明したが、これに限定されるものではない。例えば、話者が複数人存在することとしてもよい。かかる場合には、話者画像の表示データを生成するに際して、話者の視線や顔の向きを補正するためのデータ処理(具体的には、話者映像の分割、編集及び合成)を話者毎に実行することとなる。また、対話相手が単数(一人)であることとしてもよい。ただし、本システムSの機能をより効果的に発揮する観点では、対話相手が複数存在する上記の構成がより望ましい。 In the above-described embodiment, a case where there are a plurality of conversation partners with respect to one speaker has been described as an example, but the present invention is not limited to this. For example, there may be a plurality of speakers. In such a case, when generating the display data of the speaker image, the speaker performs data processing (specifically, dividing, editing, and synthesizing the speaker video) to correct the speaker's line of sight and face orientation. It will be executed every time. Further, the conversation partner may be a single person (one person). However, from the viewpoint of more effectively demonstrating the function of the system S, the above-described configuration in which there are a plurality of conversation partners is more desirable.
S 本システム(画像表示システム)
1,2 通信ユニット
3 通信回線
10A 話者側サーバ
10B 相手側サーバ
11 CPU、12 メモリ
13 ハードディスクドライブ
14 通信用インターフェース
15 I/Oポート
21 集音装置、22 撮像装置
23 人感センサ、24 音声再生装置
25 ディスプレイ兼用ミラー
26 制御回路、27 発光部
31,41 データ取得部
32,42 データ送信部
33,43 データ受信部
34 相手画像表示部、35 相手音声再生部
44 動作実行者検知部、45 表示データ生成部
46 話者画像表示部、47 話者音声再生部
S System (image display system)
1, 2
Claims (5)
前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、
前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、
前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、
前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、
前記検知部が前記動作を行った前記対話相手を検知したときには、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、
前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、前記表示データ生成部は、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することを特徴とする画像表示システム。 An image display system for displaying a speaker's image to a conversation partner,
A data acquisition unit which is provided on the speaker side and acquires data indicating an image when the speaker is imaged;
A display data generation unit for generating display data for displaying the image corrected from the video;
An image display unit provided on the conversation partner side and displaying the image by expanding the display data;
A detection unit that is provided on the conversation partner side and detects the conversation partner when the conversation partner performs an operation that satisfies a preset condition ;
Wherein when the front Symbol detection unit detects the dialogue partner were performing the operation, the display data generation unit, which has been corrected so that the face is the speaker of the line-of-sight to the dialogue partner is present position, which was the operating Performing a first process for generating the display data for displaying an image ;
When the detection unit does not detect the conversation partner who has performed the operation for a predetermined time or longer, the display data generation unit displays the image corrected so that the line of sight of the speaker faces at a preset position. An image display system characterized by executing a second process for generating the display data for the purpose .
前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、
前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成することを特徴とする請求項1乃至3のいずれか一項に記載の画像表示システム。 A display screen forming unit that forms a part of a building material, furniture, or decoration arranged in a building where the conversation partner is located and forms a display screen of the image;
It is set in advance when the object to be detected is at least one of the action performed by the conversation partner, the position where the conversation partner is located, the posture of the conversation partner, and the sound emitted by the conversation partner. A sensor that detects the detection target that satisfies the second condition,
The display screen forming unit displays the appearance as the part without forming the display screen during a period in which the sensor does not detect the detection target that satisfies the second condition. the image display system according to any one of claims 1 to 3, characterized in that the condition is satisfied the formation of the display screen only during the period in which to detect the detection target.
前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、
表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、
前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、
前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、
前記検知部が前記動作を行った前記対話相手を検知したときには、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、
前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、前記表示データ生成部は、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することを特徴とする画像表示方法。 An image display method for displaying an image of a speaker to a conversation partner,
A data acquisition unit provided on the speaker side acquires data indicating an image when the speaker is imaged;
A display data generation unit generating display data for displaying the image corrected from the video;
An image display unit provided on the conversation partner side displays the image by expanding the display data;
A detection unit provided on the conversation partner side detects the conversation partner when the conversation partner performs an operation that satisfies a preset condition;
When the detection unit detects the conversation partner who performed the operation , the display data generation unit corrects the image so that the line of sight of the speaker faces the position where the conversation partner who performed the operation exists. Executing a first process for generating the display data for displaying
When the detection unit does not detect the conversation partner who has performed the operation for a predetermined time or longer, the display data generation unit displays the image corrected so that the line of sight of the speaker faces at a preset position. An image display method comprising: executing a second process for generating the display data for the purpose .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014012588A JP6182464B2 (en) | 2014-01-27 | 2014-01-27 | Image display system and image display method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014012588A JP6182464B2 (en) | 2014-01-27 | 2014-01-27 | Image display system and image display method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015142168A JP2015142168A (en) | 2015-08-03 |
| JP6182464B2 true JP6182464B2 (en) | 2017-08-16 |
Family
ID=53772294
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014012588A Expired - Fee Related JP6182464B2 (en) | 2014-01-27 | 2014-01-27 | Image display system and image display method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6182464B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3461125B1 (en) * | 2016-05-18 | 2024-10-09 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1115392A (en) * | 1997-06-26 | 1999-01-22 | Sony Corp | Backlight type image display device, image display member and half mirror member |
| JP2011097447A (en) * | 2009-10-30 | 2011-05-12 | Sharp Corp | Communication system |
| JP2012070081A (en) * | 2010-09-21 | 2012-04-05 | Fuji Xerox Co Ltd | Image display device, image display program, and image display system |
| JP5601142B2 (en) * | 2010-10-20 | 2014-10-08 | カシオ計算機株式会社 | Image display device, image display method, and program |
-
2014
- 2014-01-27 JP JP2014012588A patent/JP6182464B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015142168A (en) | 2015-08-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240098446A1 (en) | Head tracked spatial audio and/or video rendering | |
| JP2024019661A (en) | Information processing device, information processing method, and information processing program | |
| US12382235B2 (en) | Device and rendering environment tracking | |
| JP6461679B2 (en) | Video display system and video display method | |
| US12389189B2 (en) | Head tracking and HRTF prediction | |
| JP2014187559A (en) | Virtual reality presentation system and virtual reality presentation method | |
| WO2016159164A1 (en) | Image display system and image display method | |
| US12615355B2 (en) | Information processing apparatus, information processing method, and system | |
| JP2016045814A (en) | Virtual reality service providing system and virtual reality service providing method | |
| CN115428032A (en) | Information processing apparatus, information processing method, and program | |
| JP6410346B2 (en) | Remote communication device and program | |
| JP6433209B2 (en) | Dialog communication system and communication method | |
| JP2016192687A (en) | Video display system and video display method | |
| JP4501037B2 (en) | COMMUNICATION CONTROL SYSTEM, COMMUNICATION DEVICE, AND COMMUNICATION METHOD | |
| JP6182464B2 (en) | Image display system and image display method | |
| JP2019220932A (en) | Content distribution system, content distribution method, computer program, content distribution server, and transmission path | |
| JP6570290B2 (en) | Video display system and video display method | |
| WO2012166072A1 (en) | Apparatus, systems and methods for enhanced viewing experience using an avatar | |
| WO2017043662A1 (en) | Image display system and image display method | |
| JP5143114B2 (en) | Preliminary motion detection and transmission method, apparatus and program for speech | |
| JP2025011115A (en) | Special Effects Communication Technology | |
| JP7102457B2 (en) | Content distribution systems, content distribution methods, and computer programs | |
| JP7420078B2 (en) | Information processing device and information processing method | |
| JP2017126861A (en) | Video display system and video display method | |
| JP7689173B2 (en) | Information processing device, head mounted display and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160331 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170313 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170321 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170509 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170724 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6182464 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |