Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4191452B2 - Image display device, image display method, and program - Google Patents
[go: Go Back, main page]

JP4191452B2 - Image display device, image display method, and program - Google Patents

Image display device, image display method, and program Download PDF

Info

Publication number
JP4191452B2
JP4191452B2 JP2002290200A JP2002290200A JP4191452B2 JP 4191452 B2 JP4191452 B2 JP 4191452B2 JP 2002290200 A JP2002290200 A JP 2002290200A JP 2002290200 A JP2002290200 A JP 2002290200A JP 4191452 B2 JP4191452 B2 JP 4191452B2
Authority
JP
Japan
Prior art keywords
image
speaker
code
angle
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002290200A
Other languages
Japanese (ja)
Other versions
JP2004126941A (en
Inventor
声揚 黄
裕 勝倉
淳 富士本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universal Entertainment Corp
Ptopa Inc
Original Assignee
Ptopa Inc
Aruze Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ptopa Inc, Aruze Corp filed Critical Ptopa Inc
Priority to JP2002290200A priority Critical patent/JP4191452B2/en
Publication of JP2004126941A publication Critical patent/JP2004126941A/en
Application granted granted Critical
Publication of JP4191452B2 publication Critical patent/JP4191452B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、話者の居る位置に応じた画像を画面に表示させる画像表示装置、画像表示方法及びプログラムに関する。
【0002】
【従来の技術】
従来から、コンピュータが話者との間で話す音声システムがある(例えば、特許文献1参照。)。これにより、遊技場等の人が多く出入りするような場所に音声システムを構築すれば、その音声を発するコンピュータは、一種の広告塔としての機能を果たすことができる。また、特に一人暮らしの者が、自宅に音声システムを配備すれば、音声を発するコンピュータが、その者からの音声に応じて所定の回答文を出力するので、かかる者は、少しでも一人暮らしの寂しさを紛らわすことができる。
【0003】
【特許文献1】
特開2002−169804(第5−13、第15図)
【0004】
【発明が解決しようとする課題】
しかしながら、話者が上記コンピュータに対して発話したとしても、コンピュータが単にその発話に対して所定の回答文を出力していただけであるので、その話者は何か物足りなさを感じていた。このため、従来からは、話者に飽きさせることのないキャラクタの動作を見せることで、話者をより楽しませ、話者がそのキャラクタとの間でコミュニケーションを取っているかのような感覚を味わせることのできるシステムの開発が望まれていた。
【0005】
そこで、本発明は以上の点に鑑みてなされたものであり、話者が居る位置に応じて画面に表示された画像を変化させることで、その話者が、その変化された画像を見て恰も他の話者との間でコミュニケーションを取っているかのような感覚を味わうことのできる画像表示装置、画像表示方法及びプログラムを提供することを課題とする。
【0006】
【課題を解決するための手段】
本発明は、上記課題を解決すべくなされたものであり、画面中のいずれかの領域に表示される複数の画像のそれぞれに含まれる顔の回転角の大きさに応じた角度情報としての、検索の基準となる符号と共に、各領域にそれぞれ相応する配置関係の位置情報のうち、話者が居るであろうと予想される位置に応じた位置情報が、対応付けられた複数の各画像を予め記憶し、話者から発せられた音声を取得する複数のマイクロホンが特定の方向に配備され、その各マイクロホンで取得された音声に基づいて、話者が各マイクロホンに向かって音声を発した方向と各マイクロホンが配備されている方向との間でなす角度を算出し、算出された角度に基づいて角度と各符号とを照合し、各符号の中から、角度に応じた符号を検索し、検索された符号に基づいて符号に対応付けられた、話者の方向を向いた顔を含む画像であって、話者から発せられた音声に基づいて推定された話者の位置に基づいて、話者の位置と予め記憶された各位置情報とを照合し、各位置情報の中から、話者の位置に応じた位置情報を検索し、検索された位置情報に対応付けられた画像を取得し、取得された画像を、画面の、推定された話者の位置に応じた位置情報に相応する配置関係の領域に表示することを特徴とする。
【0007】
このような本願に係る発明によれば、画像表示装置は、話者から発せられた音声の方向と各マイクロホンが配備されている方向との間でなす角度(以下、「入射角度」とする)に基づいて、その入射角度と一致する符号に対応付けられた画像を画面に表示することができる。また、画像表示装置は、画面上の画像を一義的に動作させるのではなく、話者が居る位置に応じて画像を動作させることができるので、その話者は、画面上に表示された画像との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【0008】
上記構成においては、各画像のそれぞれには、所定のキャラクタの顔が含まれ、その各画像を順次切り替えることにより顔は、所定の回転角をもって回転するように表示されることが好ましい。また、画像に対応付けられた符号の大きさは、画像に含まれる顔の回転角の大きさと一致することが好ましい。
【0009】
この場合には、画像表示装置は、話者から発せられた音声の入射角度に応じて、画面に表示された顔の画像の回転角を変えることができる。特に、この入射角度と顔の回転角の大きさとが一致していれば、話者が所定の音声を発すれば、画面に表示された顔の画像が話者の方向を向くので、その話者は、恰もその顔画像とコミュニケーションを取っているかのような感覚を味わうことができる。
【0010】
尚、画像表示装置は、所定のキーワードを予め複数記憶し、話者から発せられた音声に対応する文字列を認識し、認識された文字列に基づいて文字列と一致するキーワードを検索することができた場合には、検索された符号に対応付けられた画像を取得することが好ましい。
【0011】
この場合には、画像表示装置は、話者から発せられた音声に対応する文字列に基づいて、その文字列と一致するキーワードを検索することができたときは、検索された符号に対応付けられた画像を表示することができる。この結果、話者は、自己の特定の言葉に反応して画面上の画像が動くので、恰もその画像との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【0012】
尚、各キーワードの内容としては、各話者との間で最初又は最後に交わされる挨拶文等が挙げられる。この場合には、話者は、特定の挨拶文を発すれば、その挨拶文に反応して画面上の画像が動くので、話者は、画面上の画像との間で親密な関係を有するかのような感覚を味わうことができる。この結果、話者は、画面上の画像との間でより多くの出来事を話そうとする動機付けが高まり、退屈な時間をより楽しく過ごすことができる。
【0013】
【発明の実施の形態】
[実施形態]
(画像表示装置の基本構成)
本発明に係る画像表示装置について図面を参照しながら説明する。図1は、本実施形態に係る画像表示装置100の内部構造を示す図である。同図に示すように、画像表示装置100は、話者の居る位置に応じた画像を画面に表示させるものである。画像表示装置100は、本実施形態では、音声入力部110と、位置推定部120と、画像検索部130と、画像記憶部140と、出力部150とを有する。
【0014】
前記音声入力部110は、話者から発せられた音声を取得するものである。この音声入力部110は、本実施形態では、複数のマイクロホンで構成することができる。具体的に、話者から発せられた音声を取得した音声入力部110は、取得した音声を音声信号として位置推定部120に出力する。
【0015】
位置推定部120は、話者から発せられた音声に基づいて話者の位置を推定するものである。ここで、話者の位置は、図2に示すように、座標系で示すことができる。この座標系は、話者が居るであろう位置を示す仮想的なものである。これら各座標は、本実施形態では、(xi、yj){i=1、2、・・・n;j=1、2、・・・m}で示すものとする。尚、位置推定部120は、本実施形態では、推定した位置を座標系で特定しているが、極座標系で特定してもよい。
【0016】
具体的に、音声入力部110から音声信号が入力された位置推定部120は、先ず入力された複数の音声信号に基づいて、それら音声信号の相互相関関数を、全てのマイクロホンの組み合わせについて計算する。この相互相関関数を計算した位置推定部120は、計算した相互相関関数に基づいて、予め決められた一の基準マイクロホンと他のマイクロホンとの間の最大値を与える時間差を求める。
【0017】
この位置推定部120は、求めた時間差に基づいて話者(音源)の位置を推定する(参考文献:特開平11−304906)。話者の位置を推定した位置推定部120は、推定した位置を位置信号として画像検索部130に出力する。尚、その他の複数のマイクロホンから得られる音声信号を処理して話者の位置を推定する方法は、文献「音響システムと信号処理」、大賀他、電子情報通信学会の7章に詳述されている。
【0018】
画像検索部130は、位置推定部120で推定された位置に基づいて、その位置と予め記憶された各位置情報とを照合し、各位置情報の中から、その位置と一致する位置情報を検索するものである。また、画像検索部130は、検索した位置情報に基づいて、その位置情報に対応付けられた画像を取得するものでもある。
【0019】
ここで、複数の画像のそれぞれには、話者が位置するであろうと予測される位置情報が対応付けられている。この各画像(画像パターン1−1、画像パターン1−2・・・)は、本実施形態では、図4に示すように、予め画像記憶部140に記憶されている。
【0020】
具体的に、位置推定部120から位置信号が入力された画像検索部130は、入力された位置信号に対応する話者の位置と、予め記憶された各位置情報とを照合し、各位置情報の中から、その話者の位置と一致する位置情報を検索する。画像検索部130は、その検索した位置情報に対応付けられた画像パターンを取得する。画像検索部130は、その取得した画像パターンを画像信号として出力部150に出力する。
【0021】
出力部150は、画像検索部130で検索された画像パターンを画面に表示するものである。出力部150は、本実施形態では、液晶ディスプレイ等が挙げられる。具体的に、画像検索部130から画像信号が入力された出力部150は、入力された画像信号に基づいて、画像信号に対する画像パターンを画面に表示する。
【0022】
尚、各画像のそれぞれには、所定のキャラクタを含めてもよい。また、その各画像のそれぞれに対応付けられた位置情報には、上記キャラクタを特定の領域に表示させるための領域情報を対応付けてもよい。この特定の領域は、図5に示すように、本実施形態では、キャラクタが移動する方向、例えば水平方向に設けられるものとする。ここで、キャラクタは、本実施形態では、現存の人物、架空の人物又は動物等を意味するものである。
【0023】
具体的に、キャラクタは、本実施形態では、図5及び図6に示すように、話者が居る位置に応じて、基準領域、A領域〜D領域のいずれかの領域に移動する。この基準領域は、本実施形態では、キャラクタが最初に位置する領域を意味する。キャラクタは、その基準領域を中心として、A領域〜D領域のいずれかの領域へと移動する。
【0024】
即ち、出力部150は、画像検索部130で検索された位置情報に対応付けられた領域情報に基づいて、その領域情報に対応する領域に、検索された位置情報に対応付けられた画像に含まれるキャラクタを表示する。これにより、出力部150は、話者が居る位置に応じてキャラクタを移動させることができる。
【0025】
尚、各領域は、図6に示すように、話者が居る(位置する)であろうと予測される上記位置情報と相応する配置関係に設けることが好ましい。即ち、各領域は、各位置情報に対応する各位置の関係と相対的に釣り合いが取れた配置関係に設けることが好ましい。
【0026】
例えば、各位置情報に対応する各位置が、図6に示すように、音声入力部110の中央部分(同図中の”基準領域”)である場合には、上記基準領域は、その各位置と相対的に釣り合いが取れた部分、即ち画面の中央部分(図5中の”基準領域”)に設ける。これと同様にして、A〜D領域も各位置情報に対応する各位置と相応する部分に設けることができる。これにより、話者が特定の方向に移動したときは、画面上のキャラクタは、その方向と同一の方向に移動することができる。
【0027】
(画像表示装置を用いた画像表示方法)
上記構成を有する画像表示装置による画像表示方法は、以下の手順により実施することができる。図7は、本実施形態に係る画像表示方法の手順を示すフロー図である。
【0028】
先ず、音声入力部110が、話者から発せられた音声を取得するステップを行う(S101)。この音声入力部110は、本実施形態では、複数のマイクロホンで構成することができる。具体的に、話者から発せられた音声を取得した音声入力部110は、取得した音声を音声信号として位置推定部120に出力する。
【0029】
そして、位置推定部120が、話者から発せられた音声に基づいて話者の位置を推定するステップを行う(S102)。具体的に、音声入力部110から音声信号が入力された位置推定部120は、先ず入力された複数の音声信号に基づいて、それら音声信号の相互相関関数を、全てのマイクロホンの組み合わせについて計算する。
【0030】
この相互相関関数を計算した位置推定部120は、計算した相互相関関数に基づいて、予め決められた一の基準マイクロホンと他のマイクロホンとの間の最大値を与える時間差を求める。位置推定部120は、求めた時間差に基づいて話者(音源)の位置を推定する(参考文献:特開平11−304906)。話者の位置を推定した位置推定部120は、推定した位置を位置信号として画像検索部130に出力する。
【0031】
次いで、出力部150が、画像検索部130で検索された画像を画面に表示するステップを行う(S103)。具体的に、位置推定部120から位置信号が入力された画像検索部130は、入力された位置信号に対応する話者の位置と、予め記憶された各位置情報とを照合し、各位置情報の中から、その話者の位置と一致する位置情報を検索する。
【0032】
その画像検索部130は、その検索した位置情報に対応付けられた画像パターンを取得する。画像検索部130は、その取得した画像パターンを画像信号として出力部150に出力する。画像検索部130から画像信号が入力された出力部150は、入力された画像信号に基づいて、画像信号に対する画像パターンを画面に表示する。
【0033】
(画像表示装置及び画像表示方法による作用及び効果)
このような本願に係る発明によれば、出力部150が、位置推定部120で推定された話者の位置に基づいて、その位置と一致する位置情報に対応付けられた画像を画面に表示することができる。即ち、出力部150は、話者が居る位置に応じて特定の画像を画面に表示することができる。
【0034】
また、出力部150は、画像検索部130で検索された位置情報に対応付けられた領域情報に基づいて、その領域情報に対応する領域に、検索された位置情報に対応付けられた画像に含まれるキャラクタを表示することができる。これにより、キャラクタが移動する方向に各領域が設けられている場合には、出力部150は、例えば、話者の移動に伴なって画面上のキャラクタを同方向に移動させることができるので、その話者は、そのキャラクタとの間で恰もコミュニケーションを取っているかのような感覚を味わうことができる。
【0035】
[変更例]
尚、本発明は、上記実施形態に限定されるものではなく、以下に示す変更を加えることができる。
【0036】
(第一変更例)
図8に示すように、音声入力部110を構成する各マイクロホン111a〜111cは、特定の方向に配備してもよい。本変更例では、各マイクロホン111a〜111cは、一列に並べるものとする。また、位置推定部120は、各マイクロホンで取得された音声に基づいて、話者が各マイクロホンに向かって音声を発した方向と各マイクロホンが配備されている方向との間でなす角度を算出するものであってもよい。
【0037】
ここで、図8は、二つのマイクロホン111b、111cに平面波が入力する様子を示すものである。この二つのマイクロホン111b、111cに平面波が入力された時間差が幾何学的に何を示しているのかを説明するものである。同図中の破線は平面波の等位相面を示す。同図は、これらの平面波が、先ずマイクロホン111bに到達し、遅れてマイクロホン111cに到達する様子を描いている。
【0038】
同図に示すように、各平面波が各マイクロホン111b、111cに到達する時間差(到達時間差)は、各マイクロホンの間隔と入射角度θの余角との積を正規化音速cで除したものである。すなわち、到達時間差は、マイクロホン間隔cosθ/cとして表現することができる。
【0039】
この入射角度θは、本変更例では、話者が各マイクロホン111a〜111cに向かって音声を発した方向と各マイクロホン111a〜111cが配備されている方向との間でなす角度を意味する。すなわち、入射角度θは、話者から発せられた音声に対応する平面波が進行する方向と各マイクロホン111a〜111cが配備されている方向との間でなす角度を意味するものである。本変更例では、入射角度θは、図8に示すように、二方向の間でなす内角の角度、又は外角の角度を示すものとする。
【0040】
上記式を変形すると、入射角度θは、arccos(c到達時間差/マイクロホン間隔)となる。従って、入射角度θは、到達時間差とマイクロホン間隔が分かれば特定することができる。具体的に、各マイクロホンから音声信号が入力された位置推定部120は、入力された各音声信号に基づいて、少なくとも二つの音声信号が入力された時間差を算出する。この時間差は上記到達時間差とすることができる。
【0041】
この到達時間差を算出した位置推定部120は、上式に従って、算出した到達時間差と、上記各音声信号を取得した各マイクロホンの間隔とに基づいて平面波の入射角度θを算出する。位置推定部120は、その算出した入射角度θを角度信号として画像検索部130に出力する。
【0042】
画像検索部130は、位置推定部120で算出された入射角度θに基づいて、この入射角度θと予め設定された各符号とを照合し、各符号の中から、入射角度θと一致する符号を検索するものであってもよい。この符号は、本変更例では角度情報として表現する。
【0043】
ここで、本変更例では、各画像のそれぞれには、所定のキャラクタの顔が含まれ、その各画像を順次切り替えることにより顔は、所定の回転角をもって回転するように表示されるものとなっている。また、画像に対応付けられた角度情報の大きさは、本変更例では、画像に含まれる顔の回転角の大きさと一致するものとなっている。
【0044】
すなわち、図10に示すように、正面を向いている顔は、回転角を有しないので、例えば、正面を向いた顔の画像2−0には、角度情報0を対応付ける。同様にして、図11に示すように、斜め30°の方向を向いている顔は、回転角30°を有するので、例えば、斜め30°の方向を向いている顔の画像2−30には、角度情報30を対応付ける。
【0045】
具体的に、位置推定部120から角度信号が入力された画像検索部130は、入力された角度信号に対応する入射角度θに基づいて、各角度情報の中から、入射角度θ(例えば、3)と一致する角度情報3を検索する。この角度情報3を検索した画像検索部130は、検索した角度情報3に基づいて、角度情報3に対応付けられた画像2−3を取得する。出力部150は、画像検索部130で検索された画像2−3を画面に表示する。
【0046】
このような本変更例に係る発明によれば、画像検索部130は、位置推定部120で算出された入射角度θに基づいて、その入射角度θと一致する角度情報に対応付けられた画像を画面に表示させることができる。また、画像検索部130は、画面上の画像を一義的に動作させるのではなく、話者の位置に応じて画像を動作させることができるので、その話者は、画面上に表示された画像との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【0047】
更に、画像検索部130は、話者から発せられた音声の入射角度に応じて、画面に表示された顔の画像の回転角を変えることができる。これにより、話者が所定の音声を発すれば、画面に表示された顔の画像が話者の方向を向くので、その話者は、恰もその顔画像との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【0048】
(第二変更例)
尚、画像記憶部140は、所定のキーワードを予め複数記憶するものであってもよい。また、音声入力部110は、話者から発せられた音声に対応する文字列を認識するものであってもよい。更に、画像検索部130は、音声入力部110で認識された文字列に基づいて文字列と一致するキーワードを検索することができた場合には、自部で検索した角度情報(符号)に対応付けられた画像を取得することが好ましい。
【0049】
この場合には、画像検索部130は、話者から発せられた音声に対応する文字列に基づいて、その文字列と一致するキーワードを検索することができたときは、検索した角度情報に対応付けられた画像を出力部150で表示させることができる。この結果、話者は、自己の特定の言葉に反応して画面上の画像が動くので、恰もその画像との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【0050】
尚、各キーワードの内容としては、各話者との間で最初又は最後に交わされる挨拶文等が挙げられる。この場合には、話者は、特定の挨拶文を発すれば、その挨拶文に反応して画面上の画像が動くので、話者は、画面上の画像との間で親密な関係を有するかのような感覚を味わうことができる。この結果、話者は、画面上の画像との間でより多くの出来事を話そうとする動機付けが高まり、退屈な時間をより楽しく過ごすことができる。
【0051】
[プログラム]
上記画像表示装置及び画像表示方法で説明した内容は、パーソナルコンピュータ等の汎用コンピュータで、所定のプログラム言語で記述された専用プログラムを実行することにより実現することができる。
【0052】
このような本実施形態に係るプログラムによれば、話者が居る位置に応じて画面に表示させる画像を変化させることで、その話者が、その変化された画像を見て恰も他の話者との間でコミュニケーションを取っているような感覚を味わうことができるという作用効果を奏する画像表示装置及び画像表示方法を一般的な汎用コンピュータで容易に実現することができる。
【0053】
尚、プログラムは、記録媒体に記録することができる。この記録媒体は、図12に示すように、例えば、ハードディスク200、フレキシブルディスク300、コンパクトディスク400、ICチップ500、カセットテープ600などが挙げられる。このようなプログラムを記録した記録媒体によれば、プログラムの保存、運搬、販売などを容易に行うことができる。
【0054】
【発明の効果】
以上説明したように本発明によれば、話者が居る位置に応じて画面に表示された画像を変化させることで、その話者は、その変化された画像を見て恰も他の話者との間でコミュニケーションを取っているかのような感覚を味わうことができる。
【図面の簡単な説明】
【図1】本実施形態に係る画像表示装置の内部構成を示すブロック図である。
【図2】本実施形態における音声入力部の前で話者が行動するであろうと予想される仮想的な範囲を示す図である。
【図3】本実施形態における位置推定部で推定された話者の位置を示す図である。
【図4】本実施形態における画像記憶部で記憶される各位置情報及び各画像の内容を示す図である。
【図5】本実施形態における画面で所定のキャラクタが移動する様子を示す図である。
【図6】本実施形態における出力部が話者の位置に応じてキャラクタを画面上に表示させる各領域を示す図である。
【図7】本実施形態に係る画像表示方法の手順を示すフロー図である。
【図8】本変更例における位置推定部が平面波の入射角度を特定する様子を示す図である。
【図9】本変更例における画像記憶部で記憶する各角度情報及び各画像の内容を示す図である。
【図10】変更例における出力部で表示する人物のキャラクタを示す図である(その1)。
【図11】変更例における出力部で表示する人物のキャラクタを示す図である(その2)。
【図12】本実施形態におけるプログラムを記録する記録媒体を示す図である。
【符号の説明】
100…画像表示装置、110…音声入力部、111…マイクロホン、120…位置推定部、130…画像検索部、140…画像記憶部、150…出力部、160…画像検索部、200…ハードディスク、300…フレキシブルディスク、400…コンパクトディスク、500…ICチップ、600…カセットテープ
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image display device, an image display method, and a program for displaying an image corresponding to a position where a speaker is present on a screen.
[0002]
[Prior art]
Conventionally, there is an audio system in which a computer talks with a speaker (for example, see Patent Document 1). Thus, if a sound system is constructed in a place where many people such as a game hall enter and leave, the computer that emits the sound can function as a kind of advertising tower. Also, especially if a person living alone deploys a voice system at home, the computer that emits the sound outputs a predetermined answer sentence according to the voice from the person, so that person is lonely living alone. Can be confused.
[0003]
[Patent Document 1]
JP 2002-169804 (FIGS. 5-13 and 15)
[0004]
[Problems to be solved by the invention]
However, even if the speaker utters to the computer, the computer simply outputs a predetermined answer to the utterance, and the speaker felt something unsatisfactory. For this reason, traditionally, the behavior of a character that does not bore the speaker is shown to make the speaker more enjoyable and feel as if the speaker is communicating with the character. The development of a system that can be adjusted is desired.
[0005]
Therefore, the present invention has been made in view of the above points, and by changing the image displayed on the screen according to the position where the speaker is, the speaker can see the changed image. It is an object of the present invention to provide an image display device, an image display method, and a program that allow the user to enjoy a feeling as if the user is communicating with another speaker.
[0006]
[Means for Solving the Problems]
The present invention has been made to solve the above problems, and the angle information corresponding to the magnitude of the rotation angle of each of the free Murrell face multiple images displayed on one area of the screen In addition to the reference codes for the search, the position information corresponding to the position where the speaker is expected to be located among the position information of the arrangement relationship corresponding to each area is associated with a plurality of associated information. A plurality of microphones that store images in advance and acquire sound emitted from the speaker are arranged in a specific direction, and the speaker emits sound toward each microphone based on the sound acquired by each microphone. Calculate the angle between the measured direction and the direction in which each microphone is installed, and collate the angle with each code based on the calculated angle, and search for the code corresponding to the angle from each code. And based on the retrieved code There associated with codes, an image including a facing direction of the speaker faces, based on the estimated speaker's location based on the sound emitted from the speaker in advance and the position of the speaker Each position information stored is collated, position information corresponding to the position of the speaker is searched from each position information, an image associated with the searched position information is acquired, and the acquired image Is displayed in an arrangement-related area corresponding to the position information corresponding to the estimated position of the speaker on the screen .
[0007]
According to such an invention according to the present application, the image display device is configured to make an angle (hereinafter referred to as an “incident angle”) between the direction of the sound emitted from the speaker and the direction in which each microphone is provided. Based on the above, it is possible to display an image associated with a code matching the incident angle on the screen. In addition, since the image display device can operate the image according to the position where the speaker is, rather than operating the image on the screen unambiguously, the speaker can display the image displayed on the screen. You can feel as if you are communicating with the other.
[0008]
In the above configuration, each image includes a face of a predetermined character, and the face is preferably displayed so as to rotate at a predetermined rotation angle by sequentially switching the images. Moreover, it is preferable that the size of the code associated with the image matches the size of the face rotation angle included in the image.
[0009]
In this case, the image display device can change the rotation angle of the face image displayed on the screen in accordance with the incident angle of the sound emitted from the speaker. In particular, if the incident angle and the face rotation angle coincide with each other, if the speaker utters a predetermined voice, the face image displayed on the screen faces the speaker. The person can experience a feeling as if the frog is communicating with the face image.
[0010]
The image display device stores a plurality of predetermined keywords in advance, recognizes a character string corresponding to a voice uttered by a speaker, and searches for a keyword that matches the character string based on the recognized character string. If it is possible, it is preferable to acquire an image associated with the retrieved code.
[0011]
In this case, when the image display device can search for a keyword that matches the character string based on the character string corresponding to the voice uttered by the speaker, the image display device associates it with the searched code. Displayed images can be displayed. As a result, the speaker can feel as if he / she is communicating with the image because the image on the screen moves in response to his / her specific words.
[0012]
Note that the content of each keyword includes a greeting sentence exchanged with each speaker first or last. In this case, if the speaker utters a specific greeting, the image on the screen moves in response to the greeting, so the speaker has an intimate relationship with the image on the screen. You can enjoy a feeling like that. As a result, the speaker is more motivated to talk more events with the image on the screen, and can have a more enjoyable boring time.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
[Embodiment]
(Basic configuration of image display device)
An image display apparatus according to the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an internal structure of the image display apparatus 100 according to the present embodiment. As shown in the figure, the image display device 100 displays an image corresponding to the position where the speaker is on the screen. In the present embodiment, the image display apparatus 100 includes a voice input unit 110, a position estimation unit 120, an image search unit 130, an image storage unit 140, and an output unit 150.
[0014]
The voice input unit 110 acquires voice uttered by a speaker. In this embodiment, the voice input unit 110 can be composed of a plurality of microphones. Specifically, the voice input unit 110 that has acquired the voice uttered by the speaker outputs the acquired voice to the position estimation unit 120 as a voice signal.
[0015]
The position estimation unit 120 estimates the position of the speaker based on the voice emitted from the speaker. Here, the position of the speaker can be shown in a coordinate system as shown in FIG. This coordinate system is a virtual one indicating the position where the speaker will be. In the present embodiment, these coordinates are represented by (xi, yj) {i = 1, 2,... N; j = 1, 2,. In the present embodiment, the position estimation unit 120 specifies the estimated position in the coordinate system, but may specify the position in the polar coordinate system.
[0016]
Specifically, the position estimation unit 120 to which the audio signal is input from the audio input unit 110 first calculates a cross-correlation function of the audio signals for all combinations of microphones based on the input audio signals. . The position estimation unit 120 that has calculated the cross-correlation function obtains a time difference that gives the maximum value between one predetermined reference microphone and another microphone based on the calculated cross-correlation function.
[0017]
The position estimation unit 120 estimates the position of the speaker (sound source) based on the obtained time difference (reference document: Japanese Patent Laid-Open No. 11-304906). The position estimation unit 120 that has estimated the position of the speaker outputs the estimated position to the image search unit 130 as a position signal. A method for estimating the position of a speaker by processing audio signals obtained from a plurality of other microphones is described in detail in the literature “Acoustic System and Signal Processing”, Oga et al., Chapter 7 of the Institute of Electronics, Information and Communication Engineers. Yes.
[0018]
Based on the position estimated by the position estimation unit 120, the image search unit 130 collates the position with each piece of position information stored in advance, and searches for position information that matches the position from the position information. To do. The image search unit 130 is also configured to acquire an image associated with the position information based on the searched position information.
[0019]
Here, each of the plurality of images is associated with position information where it is predicted that the speaker will be located. In the present embodiment, each image (image pattern 1-1, image pattern 1-2,...) Is stored in advance in the image storage unit 140 as shown in FIG.
[0020]
Specifically, the image search unit 130 to which the position signal is input from the position estimation unit 120 collates the position of the speaker corresponding to the input position signal with each position information stored in advance, and each position information The position information that matches the position of the speaker is retrieved from the list. The image search unit 130 acquires an image pattern associated with the searched position information. The image search unit 130 outputs the acquired image pattern to the output unit 150 as an image signal.
[0021]
The output unit 150 displays the image pattern searched by the image search unit 130 on the screen. In the present embodiment, the output unit 150 includes a liquid crystal display. Specifically, the output unit 150 to which the image signal is input from the image search unit 130 displays an image pattern for the image signal on the screen based on the input image signal.
[0022]
Each image may include a predetermined character. Further, the position information associated with each of the images may be associated with area information for displaying the character in a specific area. As shown in FIG. 5, this specific area is provided in the direction in which the character moves, for example, in the horizontal direction in this embodiment. Here, in the present embodiment, the character means an existing person, a fictional person, an animal, or the like.
[0023]
Specifically, in this embodiment, as shown in FIGS. 5 and 6, the character moves to one of the reference area and the areas A to D according to the position where the speaker is present. In the present embodiment, this reference area means an area where the character is first positioned. The character moves from the A area to the D area around the reference area.
[0024]
That is, the output unit 150 includes, in the image associated with the searched position information, the area corresponding to the area information based on the area information associated with the position information searched by the image search unit 130. The character to be displayed is displayed. Thereby, the output part 150 can move a character according to the position where a speaker exists.
[0025]
As shown in FIG. 6, each region is preferably provided in an arrangement relationship corresponding to the position information predicted that a speaker is present (positioned). That is, it is preferable to provide each region in an arrangement relationship that is relatively balanced with the relationship between the positions corresponding to the position information.
[0026]
For example, when each position corresponding to each position information is the central portion ("reference area" in the figure) of the voice input unit 110 as shown in FIG. It is provided in a relatively balanced part, that is, in the central part of the screen ("reference area" in FIG. 5). Similarly, the areas A to D can be provided at portions corresponding to the positions corresponding to the position information. Thus, when the speaker moves in a specific direction, the character on the screen can move in the same direction as that direction.
[0027]
(Image display method using image display device)
The image display method by the image display apparatus having the above configuration can be implemented by the following procedure. FIG. 7 is a flowchart showing the procedure of the image display method according to the present embodiment.
[0028]
First, the voice input unit 110 performs a step of acquiring voice uttered by a speaker (S101). In this embodiment, the voice input unit 110 can be composed of a plurality of microphones. Specifically, the voice input unit 110 that has acquired the voice uttered by the speaker outputs the acquired voice to the position estimation unit 120 as a voice signal.
[0029]
And the position estimation part 120 performs the step which estimates the position of a speaker based on the audio | voice emitted from the speaker (S102). Specifically, the position estimation unit 120 to which the audio signal is input from the audio input unit 110 first calculates a cross-correlation function of the audio signals for all combinations of microphones based on the input audio signals. .
[0030]
The position estimation unit 120 that has calculated the cross-correlation function obtains a time difference that gives the maximum value between one predetermined reference microphone and another microphone based on the calculated cross-correlation function. The position estimation unit 120 estimates the position of the speaker (sound source) based on the obtained time difference (reference document: Japanese Patent Laid-Open No. 11-304906). The position estimation unit 120 that has estimated the position of the speaker outputs the estimated position to the image search unit 130 as a position signal.
[0031]
Next, the output unit 150 performs a step of displaying the image searched by the image search unit 130 on the screen (S103). Specifically, the image search unit 130 to which the position signal is input from the position estimation unit 120 collates the position of the speaker corresponding to the input position signal with each position information stored in advance, and each position information The position information that matches the position of the speaker is retrieved from the list.
[0032]
The image search unit 130 acquires an image pattern associated with the searched position information. The image search unit 130 outputs the acquired image pattern to the output unit 150 as an image signal. The output unit 150 to which the image signal is input from the image search unit 130 displays an image pattern for the image signal on the screen based on the input image signal.
[0033]
(Operation and effect of image display device and image display method)
According to the invention according to this application, the output unit 150 displays, on the screen, an image associated with position information that matches the position based on the position of the speaker estimated by the position estimation unit 120. be able to. That is, the output unit 150 can display a specific image on the screen according to the position where the speaker is present.
[0034]
Further, the output unit 150 includes, in the image associated with the searched position information, the area corresponding to the area information based on the area information associated with the position information searched by the image search unit 130. Character can be displayed. Thereby, when each area is provided in the direction in which the character moves, the output unit 150 can move the character on the screen in the same direction as the speaker moves, for example. The speaker can feel as if he / she is communicating with the character.
[0035]
[Example of change]
In addition, this invention is not limited to the said embodiment, The change shown below can be added.
[0036]
(First change example)
As shown in FIG. 8, each of the microphones 111 a to 111 c constituting the voice input unit 110 may be arranged in a specific direction. In this modification, the microphones 111a to 111c are arranged in a line. Further, the position estimation unit 120 calculates an angle formed between the direction in which the speaker utters the sound toward each microphone and the direction in which each microphone is provided, based on the sound acquired by each microphone. It may be a thing.
[0037]
Here, FIG. 8 shows a state in which plane waves are input to the two microphones 111b and 111c. This is to explain what geometrically the time difference when plane waves are input to the two microphones 111b and 111c shows. The broken line in the figure shows an equiphase surface of a plane wave. This figure depicts how these plane waves first reach the microphone 111b and then arrive at the microphone 111c with a delay.
[0038]
As shown in the figure, the time difference (arrival time difference) at which each plane wave reaches each of the microphones 111b and 111c is obtained by dividing the product of the interval between each microphone and the remainder of the incident angle θ by the normalized sound velocity c. . That is, the arrival time difference can be expressed as a microphone interval cos θ / c.
[0039]
In this modification, the incident angle θ means an angle formed between the direction in which the speaker emits sound toward the microphones 111a to 111c and the direction in which the microphones 111a to 111c are provided. That is, the incident angle θ means an angle formed between the direction in which the plane wave corresponding to the sound emitted from the speaker travels and the direction in which the microphones 111a to 111c are provided. In this modified example, as shown in FIG. 8, the incident angle θ represents an inner angle or an outer angle formed between two directions.
[0040]
When the above equation is modified, the incident angle θ becomes arccos (c arrival time difference / microphone interval). Therefore, the incident angle θ can be specified if the arrival time difference and the microphone interval are known. Specifically, the position estimation unit 120 to which audio signals are input from the microphones calculates a time difference at which at least two audio signals are input based on the input audio signals. This time difference can be the arrival time difference.
[0041]
The position estimation unit 120 that has calculated the arrival time difference calculates the incident angle θ of the plane wave based on the calculated arrival time difference and the interval between the microphones that have acquired the audio signals according to the above formula. The position estimation unit 120 outputs the calculated incident angle θ to the image search unit 130 as an angle signal.
[0042]
Based on the incident angle θ calculated by the position estimating unit 120, the image search unit 130 collates the incident angle θ with each preset code, and the code that matches the incident angle θ from the respective codes. May be searched. This code is expressed as angle information in this modification.
[0043]
Here, in this modified example, each image includes a face of a predetermined character, and the face is displayed so as to rotate at a predetermined rotation angle by sequentially switching each image. ing. Further, in the present modification example, the size of the angle information associated with the image matches the size of the face rotation angle included in the image.
[0044]
That is, as shown in FIG. 10, since the face facing the front does not have a rotation angle, for example, the angle information 0 is associated with the image 2-0 of the face facing the front. Similarly, as shown in FIG. 11, a face that faces 30 ° obliquely has a rotation angle of 30 °. Therefore, for example, an image 2-30 of a face that faces 30 ° obliquely has a rotation angle of 30 °. The angle information 30 is associated.
[0045]
Specifically, the image search unit 130 to which the angle signal is input from the position estimation unit 120, from the angle information based on the incident angle θ corresponding to the input angle signal, the incident angle θ (for example, 3 ) Is searched for angle information 3 that matches. The image search unit 130 searching for the angle information 3 acquires the image 2-3 associated with the angle information 3 based on the searched angle information 3. The output unit 150 displays the image 2-3 searched by the image search unit 130 on the screen.
[0046]
According to the invention according to the present modification example, the image search unit 130, based on the incident angle θ calculated by the position estimating unit 120, searches for an image associated with angle information that matches the incident angle θ. It can be displayed on the screen. In addition, since the image search unit 130 can operate the image according to the position of the speaker rather than uniquely operating the image on the screen, the speaker can display the image displayed on the screen. You can feel as if you are communicating with the other.
[0047]
Furthermore, the image search unit 130 can change the rotation angle of the face image displayed on the screen in accordance with the incident angle of the sound emitted from the speaker. As a result, if the speaker emits a predetermined sound, the face image displayed on the screen faces the speaker, so that the speaker is also communicating with the face image. You can taste a feeling like this.
[0048]
(Second modified example)
Note that the image storage unit 140 may store a plurality of predetermined keywords in advance. Further, the voice input unit 110 may recognize a character string corresponding to a voice uttered by a speaker. Further, when the image search unit 130 can search for a keyword that matches the character string based on the character string recognized by the voice input unit 110, the image search unit 130 corresponds to the angle information (code) searched by the own unit. It is preferable to acquire the attached image.
[0049]
In this case, when the image search unit 130 can search for a keyword that matches the character string based on the character string corresponding to the voice uttered by the speaker, the image search unit 130 corresponds to the searched angle information. The attached image can be displayed on the output unit 150. As a result, the speaker can feel as if he / she is communicating with the image because the image on the screen moves in response to his / her specific words.
[0050]
Note that the content of each keyword includes a greeting sentence exchanged with each speaker first or last. In this case, if the speaker utters a specific greeting, the image on the screen moves in response to the greeting, so the speaker has an intimate relationship with the image on the screen. You can enjoy a feeling like that. As a result, the speaker is more motivated to talk more events with the image on the screen, and can have a more enjoyable boring time.
[0051]
[program]
The contents described in the image display apparatus and the image display method can be realized by executing a dedicated program written in a predetermined program language on a general-purpose computer such as a personal computer.
[0052]
According to such a program according to the present embodiment, by changing the image to be displayed on the screen according to the position where the speaker is, the speaker sees the changed image and the other speaker An image display device and an image display method that have an effect of being able to taste a sense of communicating with a general-purpose computer can be easily realized.
[0053]
The program can be recorded on a recording medium. Examples of the recording medium include a hard disk 200, a flexible disk 300, a compact disk 400, an IC chip 500, and a cassette tape 600 as shown in FIG. According to the recording medium on which such a program is recorded, the program can be easily stored, transported, sold, and the like.
[0054]
【The invention's effect】
As described above, according to the present invention, by changing the image displayed on the screen according to the position where the speaker is, the speaker can see the changed image from the other speaker. You can feel as if you are communicating with each other.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an internal configuration of an image display apparatus according to an embodiment.
FIG. 2 is a diagram illustrating a virtual range in which a speaker is expected to act in front of a voice input unit according to the present embodiment.
FIG. 3 is a diagram illustrating a speaker position estimated by a position estimation unit according to the present embodiment.
FIG. 4 is a diagram showing position information and contents of each image stored in an image storage unit in the present embodiment.
FIG. 5 is a diagram illustrating a state in which a predetermined character moves on the screen according to the present embodiment.
FIG. 6 is a diagram illustrating each region where an output unit according to the present embodiment displays a character on the screen according to the position of a speaker.
FIG. 7 is a flowchart showing a procedure of an image display method according to the present embodiment.
FIG. 8 is a diagram illustrating a state in which a position estimation unit according to the present modification specifies an incident angle of a plane wave.
FIG. 9 is a diagram illustrating each angle information stored in an image storage unit and contents of each image in the present modification example.
FIG. 10 is a diagram showing a human character displayed on the output unit in the modified example (No. 1);
FIG. 11 is a diagram showing a character of a person displayed on the output unit in the modified example (No. 2).
FIG. 12 is a diagram showing a recording medium for recording a program in the present embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 100 ... Image display apparatus 110 ... Audio | voice input part 111 ... Microphone 120 ... Position estimation part 130 ... Image search part 140 ... Image storage part 150 ... Output part 160 ... Image search part 200 ... Hard disk 300 ... flexible disk, 400 ... compact disk, 500 ... IC chip, 600 ... cassette tape

Claims (12)

画面中のいずれかの領域に表示される複数の画像のそれぞれに含まれる顔の回転角の大きさに応じた角度情報としての、検索の基準となる符号と共に、前記各領域にそれぞれ相応する配置関係の位置情報のうち、話者が居るであろうと予想される位置に応じた位置情報が、それぞれ対応付けられた複数の前記各画像を予め記憶する画像記憶手段と、
話者から発せられた音声を取得する複数のマイクロホンが特定の方向に配備され、前記各マイクロホンで取得された音声に基づいて、話者が前記各マイクロホンに向かって音声を発した方向と前記各マイクロホンが配備されている方向との間でなす角度を算出する角度算出手段と、
前記角度算出手段で算出された前記角度に基づいて、該角度と前記各符号とを照合し、各符号の中から、該角度に応じた前記符号を検索し、検索された該符号に対応付けられた、話者の方向を向いた顔を含む前記画像であって、前記話者から発せられた音声に基づいて推定された該話者の位置に基づいて、該位置と予め記憶された前記各位置情報とを照合し、該各位置情報の中から、該位置に応じた前記位置情報を検索し、検索された該位置情報に対応付けられた前記画像を取得する画像取得手段と、
前記画像取得手段で取得された前記画像を、前記画面の、前記推定された前記話者の位置に応じた位置情報に相応する配置関係の領域に表示する表示手段と
を有することを特徴とする画像表示装置。
The either as each containing Murrell angle information corresponding to the magnitude of the rotation angle of the face of multiple images to be displayed in the area on the screen, along with the code to be searched criteria, each of the in each area of the positional information of positional relationship of corresponding position information corresponding to the position that is expected to will speaker there is, an image storage means for storing a plurality of pre-Symbol respective images respectively associated with pre-
A plurality of microphones that acquire sound emitted from a speaker are arranged in a specific direction, and based on the sound acquired by each microphone, the direction in which the speaker emits sound toward each microphone and each of the microphones An angle calculating means for calculating an angle formed with the direction in which the microphone is disposed;
Based on the angle calculated by the angle calculation means, the angle is compared with each code, the code corresponding to the angle is searched from each code, and the code is associated with the searched code. The image including a face facing the direction of the speaker, the position pre-stored with the position based on the position of the speaker estimated based on the speech emitted from the speaker Image acquisition means for collating each position information, searching the position information according to the position from the position information, and acquiring the image associated with the searched position information ;
Display means for displaying the image acquired by the image acquisition means in an area of the screen corresponding to position information corresponding to the estimated position of the speaker. Image display device.
請求項1に記載の画像表示装置であって、
所定のキーワードを予め複数記憶するキーワード記憶手段と、
前記話者から発せられた音声に対応する文字列を認識する文字認識手段とを有し、
前記画像検索手段は、前記文字認識手段で認識された前記文字列に基づいて、該文字列と一致する前記キーワードを検索することができた場合には、前記符号検索手段で検索された前記符号に対応付けられた前記画像を取得する
ことを特徴とする画像表示装置。
The image display device according to claim 1,
Keyword storage means for storing a plurality of predetermined keywords in advance;
Character recognition means for recognizing a character string corresponding to a voice emitted from the speaker;
When the image search means can search the keyword matching the character string based on the character string recognized by the character recognition means, the code searched by the code search means An image display device that acquires the image associated with the image.
請求項1又は請求項2のいずれかに記載の画像表示装置であって、
前記各画像のそれぞれには、所定のキャラクタの顔が含まれ、該各画像を順次切り替えることにより前記顔は、所定の回転角をもって回転するように表示されることを特徴とする画像表示装置。
The image display device according to claim 1, wherein:
Each of the images includes a face of a predetermined character, and the face is displayed so as to rotate at a predetermined rotation angle by sequentially switching the images.
請求項3に記載の画像表示装置であって、
前記画像に対応付けられた前記符号の大きさは、該画像に含まれる前記顔の前記回転角の大きさと一致することを特徴とする画像表示装置。
The image display device according to claim 3,
The size of the code associated with the image matches the size of the rotation angle of the face included in the image.
画面中のいずれかの領域に表示される複数の画像のそれぞれに含まれる顔の回転角の大きさに応じた角度情報としての、検索の基準となる符号と共に、前記各領域にそれぞれ相応する配置関係の位置情報のうち、話者が居るであろうと予想される位置に応じた位置情報が、対応付けられた複数の前記各画像は予め記憶され、
話者から発せられた音声を取得する複数のマイクロホンが特定の方向に配備され、前記各マイクロホンで取得された音声に基づいて、話者が前記各マイクロホンに向かって音声を発した方向と前記各マイクロホンが配備されている方向との間でなす角度を算出するステップと、
算出された前記角度に基づいて、該角度と前記各符号とを照合し、各符号の中から、該角度に応じた前記符号を検索し、検索された該符号に対応付けられた、話者の方向を向いた顔を含む前記画像であって、前記話者から発せられた音声に基づいて推定された該話者の位置に基づいて、該位置と予め記憶された前記各位置情報とを照合し、該各位置情報の中から、該位置に応じた前記位置情報を検索し、検索された該位置情報に対応付けられた前記画像を取得するステップと、
取得された前記画像を、前記画面の、推定された前記位置に応じた位置情報に相応する配置関係の領域に表示するステップと
を有することを特徴とする画像表示方法。
The either as each containing Murrell angle information corresponding to the magnitude of the rotation angle of the face of multiple images to be displayed in the area on the screen, along with the code to be searched criteria, each of the in each area of the positional information of positional relationship of corresponding position information corresponding to the position that is expected to will speaker there is a plurality of pre-Symbol each image associated is stored in advance,
A plurality of microphones that acquire sound emitted from a speaker are arranged in a specific direction, and based on the sound acquired by each microphone, the direction in which the speaker emits sound toward each microphone and each of the microphones Calculating an angle between the direction in which the microphone is deployed;
Based on the calculated angle, the angle is compared with each code, the code corresponding to the angle is searched from each code, and the speaker associated with the searched code The image including a face facing in the direction of the position, and based on the position of the speaker estimated based on the speech uttered from the speaker, the position and each position information stored in advance Collating, searching the position information according to the position from the position information, and acquiring the image associated with the searched position information ;
And displaying the acquired image in an area of the layout corresponding to the position information corresponding to the estimated position on the screen .
請求項5に記載の画像表示方法であって、
所定のキーワードは予め複数記憶され、
前記話者から発せられた音声に対応する文字列を認識するステップと、
認識された前記文字列に基づいて、該文字列と一致する前記キーワードを検索することができた場合には、検索された前記符号に対応付けられた前記画像を取得するステップと
を有することを特徴とする画像表示方法。
The image display method according to claim 5,
A plurality of predetermined keywords are stored in advance,
Recognizing a character string corresponding to speech uttered by the speaker;
Obtaining the image associated with the searched code when the keyword matching the character string can be searched based on the recognized character string. Characteristic image display method.
請求項5又は請求項6のいずれかに記載の画像表示方法であって、
前記各画像のそれぞれには、所定のキャラクタの顔が含まれ、該各画像を順次切り替えることにより前記顔は、所定の回転角をもって回転するように表示されることを特徴とする画像表示方法。
The image display method according to claim 5, wherein:
Each of the images includes a face of a predetermined character, and the face is displayed so as to rotate at a predetermined rotation angle by sequentially switching the images.
請求項7に記載の画像表示方法であって、
前記画像に対応付けられた前記符号の大きさは、該画像に含まれる前記顔の前記回転角の大きさと一致することを特徴とする画像表示方法。
The image display method according to claim 7,
The image display method according to claim 1, wherein the size of the code associated with the image matches the size of the rotation angle of the face included in the image.
画面中のいずれかの領域に表示される複数の画像のそれぞれに含まれる顔の回転角の大きさに応じた角度情報としての、検索の基準となる符号と共に、前記各領域にそれぞれ相応する配置関係の位置情報のうち、話者が居るであろうと予想される位置に応じた位置情報が、対応付けられた複数の前記各画像は予め記憶され、
コンピュータに、
話者から発せられた音声を取得する複数のマイクロホンが特定の方向に配備され、前記各マイクロホンで取得された音声に基づいて、話者が前記各マイクロホンに向かって音声を発した方向と前記各マイクロホンが配備されている方向との間でなす角度を算出するステップと、
算出された前記角度に基づいて、該角度と前記各符号とを照合し、各符号の中から、該角度に応じた前記符号を検索し、検索された該符号に対応付けられた、話者の方向を向いた顔を含む前記画像であって、前記話者から発せられた音声に基づいて推定された該話者の位置に基づいて、該位置と予め記憶された前記各位置情報とを照合し、該各位置情報の中から、該位置に応じた前記位置情報を検索し、検索された該位置情報に対応付けられた前記画像を取得するステップと、
取得された前記画像を、前記画面の、推定された前記位置に応じた位置情報に相応する配置関係の領域に表示するステップと
を有する処理を実行させるプログラム。
The either as each containing Murrell angle information corresponding to the magnitude of the rotation angle of the face of multiple images to be displayed in the area on the screen, along with the code to be searched criteria, each of the in each area of the positional information of positional relationship of corresponding position information corresponding to the position that is expected to will speaker there is a plurality of pre-Symbol each image associated is stored in advance,
On the computer,
A plurality of microphones that acquire sound emitted from a speaker are arranged in a specific direction, and based on the sound acquired by each microphone, the direction in which the speaker emits sound toward each microphone and each of the microphones Calculating an angle between the direction in which the microphone is deployed;
Based on the calculated angle, the angle is compared with each code, the code corresponding to the angle is searched from each code, and the speaker associated with the searched code The image including a face facing in the direction of the position, and based on the position of the speaker estimated based on the speech uttered from the speaker, the position and each position information stored in advance Collating, searching the position information according to the position from the position information, and acquiring the image associated with the searched position information ;
And displaying the acquired image in an area of the layout corresponding to the position information corresponding to the estimated position of the screen .
請求項9に記載のプログラムであって、
所定のキーワードは予め複数記憶され、
前記話者から発せられた音声に対応する文字列を認識するステップと、
認識された前記文字列に基づいて、該文字列と一致する前記キーワードを検索することができた場合には、検索された前記符号に対応付けられた前記画像を取得するステップと
を有する処理を実行させるプログラム。
The program according to claim 9, wherein
A plurality of predetermined keywords are stored in advance,
Recognizing a character string corresponding to speech uttered by the speaker;
If the keyword that matches the character string can be searched based on the recognized character string, the processing includes a step of acquiring the image associated with the searched code. The program to be executed.
請求項9又は請求項10のいずれかに記載のプログラムであって、
前記各画像のそれぞれには、所定のキャラクタの顔が含まれ、該各画像を順次切り替えることにより前記顔は、所定の回転角をもって回転するように表示されることを特徴とするプログラム。
A program according to any one of claims 9 and 10,
Each of the images includes a face of a predetermined character, and the face is displayed so as to rotate at a predetermined rotation angle by sequentially switching the images.
請求項11に記載のプログラムであって、
前記画像に対応付けられた前記符号の大きさは、該画像に含まれる前記顔の前記回転角の大きさと一致することを特徴とするプログラム。
The program according to claim 11,
The size of the code associated with the image matches the size of the rotation angle of the face included in the image.
JP2002290200A 2002-10-02 2002-10-02 Image display device, image display method, and program Expired - Fee Related JP4191452B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002290200A JP4191452B2 (en) 2002-10-02 2002-10-02 Image display device, image display method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002290200A JP4191452B2 (en) 2002-10-02 2002-10-02 Image display device, image display method, and program

Publications (2)

Publication Number Publication Date
JP2004126941A JP2004126941A (en) 2004-04-22
JP4191452B2 true JP4191452B2 (en) 2008-12-03

Family

ID=32282155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002290200A Expired - Fee Related JP4191452B2 (en) 2002-10-02 2002-10-02 Image display device, image display method, and program

Country Status (1)

Country Link
JP (1) JP4191452B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2434158C2 (en) * 2006-11-24 2011-11-20 Тойота Дзидося Кабусики Кайся Fuel spray device and control method thereof

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4982807B2 (en) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 Operating method, operating device and program therefor
JP6085951B2 (en) * 2012-11-14 2017-03-01 カシオ計算機株式会社 Image processing apparatus and image selection method
JP2020036113A (en) 2018-08-28 2020-03-05 シャープ株式会社 Sound system
JP7025303B2 (en) 2018-08-28 2022-02-24 シャープ株式会社 Acoustic system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3667615B2 (en) * 1991-11-18 2005-07-06 株式会社東芝 Spoken dialogue method and system
JPH1141577A (en) * 1997-07-18 1999-02-12 Fujitsu Ltd Speaker position detection device
JPH11304906A (en) * 1998-04-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> Sound source position estimation method and recording medium recording the program
WO2000053281A1 (en) * 1999-03-05 2000-09-14 Namco, Ltd. Virtual pet device and medium on which its control program is recorded
JP3886660B2 (en) * 1999-03-11 2007-02-28 株式会社東芝 Registration apparatus and method in person recognition apparatus
JP2001128134A (en) * 1999-11-01 2001-05-11 Atr Media Integration & Communications Res Lab Presentation device
US6384829B1 (en) * 1999-11-24 2002-05-07 Fuji Xerox Co., Ltd. Streamlined architecture for embodied conversational characters with reduced message traffic
JP2002112287A (en) * 2000-09-28 2002-04-12 Takenaka Komuten Co Ltd Virtual reality exhibition system
JP2002245490A (en) * 2001-02-16 2002-08-30 Sony Corp Image reproducing apparatus and image reproducing method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2434158C2 (en) * 2006-11-24 2011-11-20 Тойота Дзидося Кабусики Кайся Fuel spray device and control method thereof

Also Published As

Publication number Publication date
JP2004126941A (en) 2004-04-22

Similar Documents

Publication Publication Date Title
US12190900B2 (en) Personalized, real-time audio processing
US12069470B2 (en) System and method for assisting selective hearing
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
US10915291B2 (en) User-interfaces for audio-augmented-reality
US20190281389A1 (en) Prioritizing delivery of location-based personal audio
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
US20150154957A1 (en) Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
CN111524501B (en) Voice playback method, device, computer equipment and computer-readable storage medium
Reyes et al. Whoosh: non-voice acoustics for low-cost, hands-free, and rapid input on smartwatches
JP2012220959A (en) Apparatus and method for determining relevance of input speech
WO2006070044A1 (en) A method and a device for localizing a sound source and performing a related action
JP2007221300A (en) Robot and robot control method
JP6696878B2 (en) Audio processing device, wearable terminal, mobile terminal, and audio processing method
JP7458127B2 (en) Processing systems, sound systems and programs
JP4191452B2 (en) Image display device, image display method, and program
JP5383056B2 (en) Sound data recording / reproducing apparatus and sound data recording / reproducing method
WO2018190099A1 (en) Voice providing device, voice providing method, and program
JP4141782B2 (en) Image display device, image display method, and program
CN115862586B (en) Method and device for training timbre feature extraction model and audio synthesis
WO2015200556A2 (en) Presenting and creating audiolinks
WO2023084933A1 (en) Information processing device, information processing method, and program
JP2022182624A (en) Acoustic Sonification Apparatus and Acoustic Sonification Program
WO2007055259A1 (en) Navigation device, navigation method, navigation program, and its recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080918

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4191452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees