1.処理システム1の概要
本開示に係る処理システム1は、送信者から送信されるコンテンツについて、受信者が所望のオブジェクトに関連付けられた発話情報を出力するために用いられる。一例としては、処理システム1は、送信者から送信される動画コンテンツについて、受信者が動画コンテンツ内に登場するキャラクタオブジェクトのうちの1つを選択することで、当該キャラクタオブジェクトに関連付けられた音声のみを出力するために用いられる。
ここで、図1Aは、本開示の実施形態に係る処理システム1に係る処理の概要を示す図である。具体的には、図1Aは、処理システム1を用いて行われる動画コンテンツの配信における処理の一例が示されている。図1Aによると、送信者であるユーザは、利用可能な送信者端末装置を用いて、サーバ装置を介して、キャラクタA及びキャラクタBの各オブジェクトが登場する動画コンテンツを、受信者であるユーザの受信者端末装置に送信する。当該動画コンテンツには、例えば送信者自身が、キャラクタAの音声Aである音声情報と、キャラクタBの音声Bである音声情報の両方を入力する(典型的には、動画コンテンツにおいてキャラクタAとキャラクタBを送信者が演じ分ける場合が想定される。)。
そして、受信者であるユーザは、利用可能な受信者端末装置を用いて、サーバ装置を介して、送信者端末装置から動画コンテンツを受信し、再生する。ところで、受信者は、例えば自身の好みや自身の状況などに応じて、再生される動画コンテンツからキャラクタA及びキャラクタBのうちいずれか一方だけの音声を出力したい、逆に言えば他方をミュートしたいというニーズがある。このとき、ただ単に音声のボリュームや再生アプリケーションの音声の設定変更のみであれば、送信者端末装置から送信される音声の全て、すなわちキャラクタAの音声A及びキャラクタBの音声Bの両方をミュートするか、両方を出力し続けるかしかできない。しかし、処理システム1によれば、あらかじめキャラクタAの音声Aの音声情報及びキャラクタBの音声Bの音声情報に対して各音声情報を識別するための識別情報を付しているため、受信者が所望する音声のみを出力して、他方の出力を制限、つまりミュートすることが可能である。図1Aの例では、音声Aのみが出力され、音声Bの出力が制限、つまりミュートされている。
このような処理システム1は、典型的にはキャラクタAやキャラクタBが登場する動画コンテンツにおいて利用されるが、その他にもビデオ会議や電話会議などの動画コンテンツにおいても利用することが可能である。このような場合も、上記と同様に、ビデオ会議や電話会議に参加するユーザのキャラクタやユーザの識別情報を指定することによって、いずれかの音声の出力を制限することが可能である。
このように、処理システム1では、送信者端末装置において、コンテンツ(例えば、動画コンテンツ)に含まれる複数のオブジェクト(例えば、キャラクタA及びキャラクタB)のそれぞれに関連付けて発話情報(例えば、音声Aの音声情報及び音声Bの音声情報)が入力される。一方、受信者端末装置において、複数のオブジェクトのうちの少なくとも一つのオブジェクト(例えば、キャラクタA)が選択される。そして、受信者端末装置において、選択された少なくとも一つのオブジェクト(例えば、キャラクタA)に関連付けられた発話情報(例えば、音声Aの音声情報)の出力を許容するとともに、当該オブジェクト以外のオブジェクト(例えば、キャラクタB)に関連付けられた発話情報(例えば、音声Bの音声情報)の出力を制限する。
なお、本開示において、「送信者」及び「受信者」は、コンテンツの送信をする者とコンテンツの受信をする者を区別するためにつけた呼称であるにすぎない。すなわち、送信者と記載されていたとしても、他の者からコンテンツを受信する場合には受信者になり得るし、受信者と記載されていたとしても、他の者にコンテンツを送信する場合には送信者になり得る。また、送信者及び受信者は、共に、個人のみに限定されるわけではなく、企業や団体などの組織であってもよい。また、送信者自らコンテンツの生成をする場合を主に記載するが、送信者とコンテンツの生成を行う者は別々であってもよい。この場合、コンテンツの生成を行う者が、コンテンツの生成のみを行ってコンテンツの生成を行わなかったとしても、生成したコンテンツがいずれかの者によって送信される場合には、送信者に含む。
また、本開示において、「送信者端末装置」及び「受信者端末装置」は、コンテンツの送信をする端末装置とコンテンツの受信をする端末装置を区別するためにつけた呼称であるにすぎない。すなわち、送信者端末装置と記載されていたとしても、他の端末装置からコンテンツを受信する場合には受信者端末装置になり得るし、受信者端末装置と記載されていたとしても、他の端末装置にコンテンツを送信する場合には送信者端末装置になり得る。
本開示において、「コンテンツ」は、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。このようなコンテンツには、一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、本開示においては、動画コンテンツには、動画コンテンツの配信サイト等を通じて配信されているコンテンツのみならず、例えばビデオ会議コンテンツ(カメラ機能をオフにして音声のみで送受信される場合も含む)、電話会議コンテンツ、デジタルサイネージ等の電子広告コンテンツなども含む。また、以下では、特に言及しない限り、コンテンツの例として動画コンテンツの場合を説明するが、当然にコンテンツが動画コンテンツに限定されるわけではない。
本開示において、「オブジェクト」は、コンテンツ内に含まれるデータ又はそれを操作入力するための手段のことを意味する。このようなオブジェクトには、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト(例えば、図1AのキャラクタA及びキャラクタB)に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。
本開示において、「処理装置」は、処理システム1を構成する装置のいずれかを意味するものであり、サーバ装置、送信者端末装置及び受信者端末装置のいずれであってもよい。また、処理装置は、これらいずれかの装置単体に限るものではなく、処理装置において行われる処理を分散して処理可能に複数の装置が組み合わされたものであってもよい。なお、「処理プログラム」及び「処理方法」は、当該処理装置において実行されるプログラム及び方法を意味する。
2.処理システム1の構成
図1Bは、本開示の一実施形態に係る処理システム1の構成を示すブロック図である。図1Bによれば、処理システム1は、コンテンツ(例えば、動画コンテンツ)の処理をするためのサーバ装置100、コンテンツを送信する送信者端末装置200-1、及びコンテンツを受信する受信者端末装置200-2を含み、これらが通信ネットワークを介して通信可能に接続されている。
なお、図1Bにおいて、送信者端末装置200-1及び受信者端末装置200-2はそれぞれ単一の装置が示されているが、当然に、それぞれ複数の装置が含まれていてもよい。
また、図1Bにおいて、単一のサーバ装置100が示されているが、複数のサーバ装置や他の装置が組み合わされて処理や記憶を分散してもよい。この場合、サーバ装置100は、複数のサーバ装置や他の装置の組み合わせも含みうる。
3.サーバ装置100の構成
図2Aは、本開示の一実施形態に係るサーバ装置100の構成を示すブロック図である。サーバ装置100は、図2Aに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。サーバ装置100は単一の筐体に図2Aに図示する構成要素を備える必要はなく、サーバ装置100の各構成要素及び処理を複数の装置に分散することも可能である。
図2Aによると、サーバ装置100は、CPU等から構成されるプロセッサ111、RAM、ROM、及び不揮発性メモリ、HDD等を含むメモリ112、及び通信インターフェイス113を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。
プロセッサ111は、CPU(マイクロコンピュータ:マイコン)から構成され、メモリ112に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ111は、本開示に係るアプリケーションを実行するためのプログラムやOSを実行するためのプログラムをメモリ112から読み出して実行する。具体的には、プロセッサ111は、「通信インターフェイス113を介して、送信者端末装置200-1において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を送信者端末装置200-1から受信する処理」、及び「通信インターフェイス113を介して、受信したコンテンツを受信者端末装置200-2に送信する処理」等を、メモリ112に記憶されたプログラムに基づいて実行する。プロセッサ111は、主に一又は複数のCPUにより構成されるが、適宜GPUやFPGAなどを組み合わせてもよい。
メモリ112は、RAM、ROM、不揮発性メモリ、HDDを含み、記憶部として機能する。ROMは、本開示に係るアプリケーションやOSを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ111によってロードされ実行される。RAMは、ROMに記憶されたプログラムがプロセッサ111によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ112は、プロセッサ111が上記処理等を実行するためのプログラムを記憶する。
通信インターフェイス113は、通信処理回路及びアンテナを介して、遠隔に設置された送信者端末装置200-1及び受信者端末装置200-2等の他の装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム1において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、LTE方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、IEEE802.11に代表されるような無線LANやBluetooth(登録商標)のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。
4.端末装置200の構成
図2Bは、本開示の一実施形態に係る端末装置200の構成を示すブロック図である。端末装置200は、図2Bに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。また、端末装置200は、送信者端末装置200-1又は受信者端末装置200-2として利用されるが、両者が同一の構成を備える必要はなく、端末装置ごとに異なる構成を有してもよい。
図2Bによると、端末装置200は、CPU等から構成されるプロセッサ211、RAM、ROM、及び不揮発性メモリ、HDD等を含むメモリ212、通信インターフェイス213、入力インターフェイス214及び出力インターフェイス215を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。
プロセッサ211は、CPU(マイクロコンピュータ:マイコン)から構成され、メモリ212に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ211は、本開示に係るアプリケーションを実行するためのプログラムやOSを実行するためのプログラムをメモリ212から読み出して実行する。プロセッサ211は、主に一又は複数のCPUにより構成されるが、適宜GPUやFPGAなどを組み合わせてもよい。
プロセッサ111は、送信者端末装置200-1として機能する場合は、「入力インターフェイス214を介して送信者による操作入力を受け付けて、コンテンツを生成するためのアプリケーションプログラムを起動する処理」、「入力インターフェイス214を介して送信者による操作入力を受け付けて、コンテンツに含まれる複数のオブジェクトのうちのいずれか一つのオブジェクトを特定するために入力された識別情報に基づいて、当該いずれか一つのオブジェクトを選択する処理」、「入力インターフェイス214を介して、選択された当該いずれか一つのオブジェクトに関連付けて発話情報を入力する処理」、及び「通信インターフェイス213を介して、サーバ装置100に、画像情報及び発話情報を含むコンテンツを送信する処理」等を、メモリ212に記憶されたプログラムに基づいて実行する。
また、プロセッサ111は、受信者端末装置200-2として機能する場合は、「入力インターフェイス214を介して受信者による操作入力を受け付けて、コンテンツを出力するためのアプリケーションプログラムを起動し、所望のコンテンツの選択をする処理」、「通信インターフェイス213を介して、送信者端末装置200-1において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を含むコンテンツを送信者端末装置200-1から受信する処理」、「出力インターフェイス215を介して選択されたコンテンツを出力する処理」、「入力インターフェイス214を介してコンテンツに含まれる複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する処理」、及び「出力インターフェイス215を介してコンテンツに含まれる発話情報を出力するときに、選択された少なくとも一つのオブジェクトに関連付けられた発話情報を出力する処理」等を、メモリ212に記憶されたプログラムに基づいて実行する。
メモリ212は、RAM、ROM又は不揮発性メモリを含み、記憶部として機能する。ROMは、本開示に係るアプリケーションやOSを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ211によってロードされ実行される。RAMは、ROMに記憶されたプログラムがプロセッサ211によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ212は、プロセッサ211が上記処理等を実行するためのプログラムを記憶する。
通信インターフェイス213は、通信処理回路を介して、電気的に接続されたサーバ装置100や他の端末装置200との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム1において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、LTE方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、IEEE802.11に代表されるような無線LANやBluetooth(登録商標)のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。
入力インターフェイス214は、端末装置200に対する送信者又は受信者の操作入力や送信者又は受信者による各種情報の入力を受け付ける入力部として機能する。入力インターフェイス214の一例としては、キーボード、マウス等の各種ハードキーや、ディスプレイ装置のディスプレイに重畳して設けられディスプレイの表示座標系に対応する入力座標系を有するタッチパネルなどに加え、発話情報の一つである音声情報の入力を入力するためのマイク、画像を撮影するためのカメラなどの外部環境をセンシングするためのセンサ等が挙げられる。タッチパネルの場合、ディスプレイに入力したいコマンドに対応したアイコンが表示され、当該タッチパネルを介してユーザ又は事業者が操作入力を行うことで、各アイコンに対する選択が行われる。タッチパネルによる操作入力の検出方式は、静電容量式、抵抗膜式などいかなる方式であってもよい。入力インターフェイス214は、常に端末装置200に物理的に備えられる必要はなく、有線や無線ネットワークを介して必要に応じて接続されてもよい。
出力インターフェイス215は、各種情報を出力するための出力部として機能する。出力インターフェイス215の一例としては、液晶パネル、有機ELディスプレイ又はプラズマディスプレイ等から構成されるディスプレイ装置等の外部装置又は外部機器と接続するためのインターフェイスが挙げられる。しかし、端末装置200そのものがディスプレイを有する場合には、当該ディスプレイが出力インターフェイスとして機能することが可能である。また、ディスプレイ装置などに対して通信インターフェイス213を介して接続されている場合には、当該通信インターフェイス213が出力インターフェイス215として機能することも可能である。
6.コンテンツの例
本実施形態において、上記のとおり、送信者端末装置200-1においてコンテンツが生成され、サーバ装置100を介して受信者端末装置200-2に生成されたコンテンツが出力される。このようなコンテンツには複数のオブジェクトが含まれ、各オブジェクトに対して発話情報が対応付けられている。このようなコンテンツは、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。その一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、以下では、特に言及しない限り、コンテンツが動画コンテンツである場合を例に説明するが、当然にコンテンツが動画コンテンツのみに限定されるわけではなく、他のコンテンツであっても本実施形態に係る処理は同様に実行可能である。
図3は、本開示の一実施形態に係る送信情報として送信者端末装置200-1から送信される情報を概略的に示す図である。具体的には、図3は、送信者端末装置200-1において生成されメモリ212に記憶されたのちに、サーバ装置100に送信されコンテンツ管理テーブルに記憶される動画コンテンツの一例を示す図である。
図3によると、動画コンテンツは、当該動画コンテンツのコンテンツID情報に対応付けて、画像情報と音声情報を含む。「コンテンツID情報」は、各動画コンテンツに対して固有の情報であり、各動画コンテンツを識別するための情報である。当該コンテンツID情報は、送信者端末装置200-1において新たな動画コンテンツの生成がされるたび、又はサーバ装置100において新たな動画コンテンツが受信されるたびに生成される。
「画像情報」は、動画コンテンツを構成する画像データである。当該画像情報は、静止画像、動画像及びこれらの組み合わせのいずれであってもよい。このような画像情報は、送信者端末装置200-1において入力インターフェイス214の一つとして備えられたカメラによって実空間を撮影されたものであってもよいし、プロセッサ211の処理によって仮想的に生成されたものであってもよい。画像情報には、互いに識別可能である複数のオブジェクトが少なくとも含まれ、各オブジェクトに対応付けてオブジェクトID情報が付与されている。例えば、図3の例では、画像情報には、オブジェクトID情報が「B1」であるキャラクタAのキャラクタオブジェクトと、オブジェクトID情報が「B2」であるキャラクタBのキャラクタオブジェクトが含まれる。このようなオブジェクトは、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト(例えば、図1AのキャラクタA及びキャラクタB)に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。
「音声情報」は、発話情報の一つであり、動画コンテンツを構成する音声データである。当該音声情報は、一例としては、送信者端末装置200-1において入力インターフェイス214の一つとして備えられたマイクによって送信者の音声等が入力された音声データである。ただし、これ以外にも、音声情報は、例えば、入力インターフェイス214を介して入力されたテキスト情報に基づいてキャラクタオブジェクトの音声を再現した音声データや、マイクによって入力された送信者の音声をテキスト化したテキストデータ、入力インターフェイス214を介して入力されたテキスト情報に基づいて生成されたテキストデータ、又はこれらのうちの少なくともいずれかを変換した他のデータであってもよい。このような音声情報は、典型的には、動画コンテンツに含まれる各オブジェクトの各オブジェクトID情報に対応付けて記憶される。例えば、図3の例では、キャラクタAのオブジェクトID情報である「B1」に対応付けて音声情報Aが記憶され、キャラクタBのオブジェクトID情報である「B2」に対応付けて音声情報Bが記憶され、いずれのオブジェクトID情報にも対応付けられていない音声情報としてBGM音声情報が記憶されている。
すなわち、図3によると、コンテンツID情報が「A1」である動画コンテンツがコンテンツの一例として示されている。当該動画コンテンツには、F1からFnの複数のフレームで構成され時間t0から時間tnの長さを有する動画である画像情報が含まれる。当該画像情報のうちの少なくともいずれかのフレームには、その登場人物として、オブジェクトID情報が「B1」であるキャラクタAと、オブジェクトID情報が「B2」であるキャラクタBが、それぞれオブジェクトとして含まれる。ここで、例えば図1Aで例示したように、送信者自らが自身の送信者端末装置200-1を使って、キャラクタA及びキャラクタBをそれぞれ演じ分けてる場合が想定されている。したがって。当該動画コンテンツには、時間t0で入力が開始され時間t2で入力が終了されたキャラクタAの音声情報Aが含まれる。また、当該動画コンテンツには、時間t1において送信者による操作入力が受け付けられることによって、時間t1で入力が開始され時間t4で入力が終了されたキャラクタBの音声情報Bが含まれる。また、当該動画コンテンツには、時間t3において送信者による操作入力が受け付けられることによって、時間t3で入力が開始され時間t6で入力が終了されたキャラクタAの音声情報Aが含まれる。また、当該動画コンテンツには、時間t5において送信者による操作入力が受け付けられることによって、時間t4で入力が開始され時間tnで入力が終了されたキャラクタBの音声情報Bが含まれる。さらに、時間t1から時間t6の期間においては、いずれのオブジェクトにも対応付けられていない音声情報としてBGM音声情報が含まれている。すなわち、図3の例では、例えば時間t1から時間t2、時間t3から時間t4、及び時間t5から時間t6では、キャラクタAの音声情報A及びキャラクタBの音声情報Bが同時に再生されることとなる。
このように、コンテンツには、動画コンテンツを例にすると、コンテンツID情報に対応付けて、画像情報と音声情報が含まれる。また、当該画像情報には、時間(例えば、t0~tn)に同期するするように、時間に対応付けて動画を構成する各フレーム(画像データ)、各フレームを識別するフレームID情報(例えば、F1~Fn)、及び画像情報の少なくともいずれかのフレームに含まれる各オブジェクトを識別するオブジェクトID情報が含まれる。また、当該音声情報には、時間(例えば、t0~tn)に同期するように、時間に対応付けて各音声データ、及び各音声データに対応付けられたオブジェクトID情報(対応付けられたオブジェクトID情報がない場合もある)が含まれる。
なお、図3に示す動画コンテンツは、上記のとおりコンテンツの一例であるにすぎない。したがって、コンテンツとして動画コンテンツを用いる場合であっても、上記において例示する各種情報の全てを備える必要はないし、他の情報をさらに備えていてもよい。
また、上記のとおり音声情報は発話情報の一つであり、発話情報は、オブジェクトのオブジェクトID情報に対応付けられ、送信者が入力した情報を再現可能な情報であればいずれでもよく、音声情報以外にも、例えばテキスト情報や画像情報であってもよい。
7.処理システム1により実行さる処理シーケンス
図4は、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図4は、送信者端末装置200-1においてコンテンツが生成され、サーバ装置100を介して受信者端末装置200-2において生成されたコンテンツが出力されるまでの一連の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。
(A)コンテンツの生成に係る処理
図4によると、まず、主に送信者端末装置200-1においてコンテンツの生成に係る処理が実行される。送信者端末装置200-1のプロセッサ211は、入力インターフェイス214を介して送信者による操作入力を受付て、コンテンツの生成のためのアプリケーションプログラムをメモリ212から読み出して、当該アプリケーションプログラムの起動を行う(S11)。アプリケーションプログラムが起動されると、プロセッサ211は、図3に示すように、コンテンツの画像情報として、フレームF1である画像データの記憶を開始する。このとき、プロセッサ211は、入力インターフェイス214を介して、コンテンツの画像情報に含まれるオブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると(S12)、出力インターフェイス215を介して音声入力画面を出力する。
ここで、図6は、本開示の一実施形態に係る送信者端末装置200-1において出力される画面の例を示す図である。具体的には、図6は、送信者端末装置200-1において図4のS12において音声情報の入力を所望するための送信者による操作入力を受け付けたときに出力される音声入力画面10の例を示す図である。図6によると、音声入力画面10には、「アプリケーションA」というアプリケーションプログラムの名称と共に、画像情報表示領域11とオブジェクト選択領域12が含まれる。画像情報表示領域11には、現在録画されている画像情報として、例えばフレームF1の画像データ13が出力されている。当該画像データ13には、その中にキャラクタオブジェクトとしてキャラクタAの画像14及びキャラクタBの画像15が含まれる。
ここで、画像14で示されるキャラクタAにはオブジェクトID情報として「B1」が、画像15で示されるキャラクタBにはオブジェクトID情報として「B2」が付与される。当該オブジェクトID情報の付与は、例えばカメラによって動画撮影が行われているときに、プロセッサ211が物体検知処理を実行することによって各フレーム内に含まれるオブジェクトを検知するとともに、各オブジェクトが初めて検知されたタイミングで各プロジェクトに対してオブジェクトID情報を割り当てることによって行われる。また、当該オブジェクトID情報の付与は、例えば送信者端末装置200-1によって仮想空間上に仮想的に画像情報を生成する場合には、プロセッサ211がその生成時に描画されるオブジェクトに対してオブジェクトID情報を割り当てることによって行われる。したがって、図6の例では、たまたまキャラクタAの画像14及びキャラクタBの画像15のみが含まれているが、新たに他のキャラクタの画像が含まれる場合には当該他のキャラクタのキャラクタID情報が生成されることとなる。
オブジェクト選択領域12には、画像情報に含まれるオブジェクトのうちオブジェクトID情報が付与されたオブジェクトに対応して各オブジェクトを選択するためのアイコンが含まれる。図6の例では、オブジェクト選択領域12には、キャラクタAに対応してキャラクタAアイコン16と、キャラクタBに対応してキャラクタBアイコン17が含まれる。プロセッサ211は、入力インターフェイス214を介してオブジェクト選択領域12に含まれるいずれかのアイコン(例えば、キャラクタAアイコン16及びキャラクタBアイコン17のいずれか)に対する送信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図6の例では、キャラクタAアイコン16が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトID情報として、キャラクタAのオブジェクトID情報(すなわち、「B1」)が選択されたことを示している。
再び図4に戻り、図6に示すとおり、音声情報の入力を所望するキャラクタのオブジェクトID情報が選択されると、送信者端末装置200-1のプロセッサ211は、入力インターフェイス214を介して当該オブジェクトID情報に対応付けて音声情報の入力を受け付ける(S13)。具体的には、プロセッサ211は、音声情報が入力されている時間(例えば、T0)に対応付けられた画像情報の各フレームに同期して、入力インターフェイス214の一つであるマイクから送信者が発話した音声データを音声情報としてメモリ212に記憶する。
送信者端末装置200-1のプロセッサ211は、S11~S13の画像情報の録画、音声情報を対応付けるオブジェクトID情報の選択、及び音声情報の入力を繰り返し、例えば図3に例示する、コンテンツID情報が「A1」のコンテンツの生成を行う。プロセッサ211は、コンテンツの生成が終了すると、コンテンツID情報に対応付けてメモリ212に記憶するとともに、通信インターフェイス213を介してサーバ装置100に生成したコンテンツ(T11)を送信する。
サーバ装置100のプロセッサ111は、送信者端末装置200-1からコンテンツを受信すると、コンテンツID情報に対応付けて、メモリ112のコンテンツ管理テーブル(図示しない)に受信したコンテンツを記憶する(S14)。具体的には、サーバ装置100のプロセッサ111は、例えば図3で示されたコンテンツに含まれる各情報(画像情報、オブジェクトID情報及び音声情報など)を、メモリ112のコンテンツ管理テーブル(図示しない)にコンテンツID情報に対応付けて記憶する。以上により、コンテンツの生成に係る処理を終了する。
なお、図4においては、送信者端末装置200-1のプロセッサ211は、コンテンツの生成が終了したタイミングでサーバ装置100に当該コンテンツを送信したが、所定のフレーム数やデータ量のコンテンツが生成されるごとに分割してコンテンツを送信するようにしてもよい。
また、図4においては、画像情報の録画をしつつ音声情報の入力をすることを前提に説明したが、送信者端末装置200-1のプロセッサ211は、最初に画像情報を生成しておき、後から画像情報の各フレームに同期して、音声情報の入力を行うようにしてもよい。例えば、図3に示す例においては、時間t1から時間t2において音声情報A及び音声情報Bが重複して入力されているが、これらは画像情報が生成されたのちに、各音声情報を各フレームに同期して入力することによって、同じ送信者がキャラクタA及びキャラクタBを演じ分けることが可能となる。
また、図4においては特に図示はしていないものの、図3に示すように、特定のオブジェクトのオブジェクトID情報に関連付けられていない音声情報(例えば、BGM音声情報)も入力することが可能である。
(B)コンテンツの出力に係る処理
次に、図4によると、主に受信者末装置200-2においてコンテンツの出力に係る処理が実行される。当該処理は、例えばコンテンツが動画コンテンツである場合には、受信者端末装置200-2において所望の動画コンテンツを選択し、当該動画コンテンツを再生する処理である。受信者端末装置200-2のプロセッサ211は、入力インターフェイス214を介して受信者による操作入力を受付て、コンテンツの出力のためのアプリケーションプログラムをメモリ212から読み出して、当該アプリケーションプログラムの起動を行う(S21)。アプリケーションプログラムが起動されると、プロセッサ211は、出力インターフェイス215を介して、例えば、受信者端末装置200-2において出力が可能な一又は複数の動画コンテンツを選択するためのサムネイル画像が一覧として表示されたコンテンツ選択画面を出力する。そして、プロセッサ211は、入力インターフェイス214を介してコンテンツ選択画面内の一欄の中から所望のコンテンツのサムネイル画像を選択するための受信者による操作入力を受付て、出力するコンテンツの選択をする(S22)。プロセッサ211は、通信インターフェイス213を介して、選択されたコンテンツに対応付けられたコンテンツID情報(例えば、コンテンツID情報が「A1」)と共に、当該コンテンツの送信を所望するためのコンテンツ要求(T21)をサーバ装置100に送信する。
サーバ装置100のプロセッサ111は、通信インターフェイス113を介して受信者端末装置200-2からコンテンツ要求を受信すると、一緒に受信したコンテンツID情報(例えば、A1)に基づいてコンテンツ管理テーブルを参照し、コンテンツ(例えば図3に例示された情報)を読み出す(S23)。プロセッサ111は、通信インターフェイス113を介して、コンテンツ要求を送信してきた受信者端末装置200-2に読み出したコンテンツ(T22)を送信する。
受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介してコンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する(S24)。ここで、受信者端末装置200-2のプロセッサ211は、入力インターフェイス214を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトID情報が対応付けられている場合には、受信者の操作入力を介して、出力する音声情報を選択することが可能である。すなわち、プロセッサ211は、オブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると(S25)、出力インターフェイス215を介して出力する音声情報の選択を行い、出力される音声情報を変更する処理を実行する(S26)。なお、S24~S26に係る一連の処理の詳細については、図5において後述する。
そして、受信者端末装置200-2は、S24~S26のコンテンツの出力、オブジェクトの選択、及びその選択に応じて出力する音声情報の変更を繰り返し、時間tnに達すると、コンテンツの出力を終了する。以上により、コンテンツの出力に係る処理を終了する。
なお、図4においては、受信者端末装置200-2のプロセッサ211は、コンテンツをサーバ装置100からひとまとまりのデータとして受信しているが、所定のフレーム数やデータ量ごとに受信し、順次出力するようにしてもよい。
8.受信者端末装置200-2の処理フロー
図5は、本開示の一実施形態に係るサーバ装置100において実行される処理フローを示す図である。具体的には、図5、図4のS24~S26において受信者末装置200-2が行うコンテンツの出力に係る処理のフローを示す図である。当該処理フローは、主に受信者端末装置200-2がメモリ212に記憶されたプログラムを読み出して実行することにより行われる。
図5によると、プロセッサ211は、通信インターフェイス213を介して、サーバ装置100から所望するコンテンツ(例えば、図3に示すコンテンツID情報がA1のコンテンツ)を受信する(S111)。そして、プロセッサ211は、コンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する。具体的には、プロセッサ211は、出力インターフェイス215の一つであるディスプレイを介して、受信したコンテンツに含まれる画像情報をフレームF1から順次出力する。また、プロセッサ211は、出力インターフェイス215の一つであるスピーカーを介して、受信したコンテンツに含まれる音声情報を出力する画像情報のフレームに同期して出力する。図3の例では、時間t0からキャラクタAの音声情報Aが出力され、時間t1になると音声情報Aに加えてキャラクタBの音声情報B及びBGM音声情報がそれぞれ出力されることになる。
プロセッサ211は、入力インターフェイス214を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトID情報が対応付けられている場合には、入力インターフェイス214を介して受信者の操作入力を受け付けて、出力する音声情報を選択することが可能である。したがって、プロセッサ211は、当該操作入力を受け付けることによって、オブジェクトの選択がされたか否かを判断する(S113)。
ここで、図7は、本開示の一実施形態に係る受信者端末装置200-2において出力される画面の例を示す図である。具体的には、図7は、受信者端末装置200-2において図5のS112~S113において出力する音声情報を選択するための受信者による操作入力を受け付けたときのコンテンツ出力画面20の例を示す図である。図7によると、コンテンツ出力画面20には、「アプリケーションB」というアプリケーションプログラムの名称と共に、画像情報表示領域21とオブジェクト選択領域22が含まれる。画像情報表示領域21には、現在出力されている画像情報として、例えばフレームF3の画像データ23が出力されている。当該画像データ23には、その中にキャラクタオブジェクトとしてキャラクタAの画像24及びキャラクタBの画像25が含まれる。画像24で示されるキャラクタAにはオブジェクトID情報として「B1」が、画像25で示されるキャラクタBにはオブジェクトID情報として「B2」が付与されている。
オブジェクト選択領域22には、音声情報のうち、現在出力されている画像情報のフレームに同期する音声情報に対応付けられたオブジェクトID情報に対応して、各オブジェクトすなわちキャラクタを選択するためのアイコンが含まれる。例えば、図3の時間t1から時間t2のいずれかのタイミングのコンテンツ出力画面20を例にすると、当該時間ではキャラクタAの音声情報A及びキャラクタBの音声情報Bの両方が出力されている。したがって、オブジェクト選択領域22には、キャラクタAに対応してキャラクタAアイコン26と、キャラクタBに対応してキャラクタBアイコン27が含まれる。プロセッサ211は、入力インターフェイス214を介してオブジェクト選択領域22に含まれるいずれかのアイコン(例えば、キャラクタAアイコン26及びキャラクタBアイコン27のいずれか)に対する受信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図7の例では、キャラクタAアイコン26が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトID情報として、キャラクタAのオブジェクトID情報(すなわち、「B1」)が選択されたことを示している。
なお、図7の例では、オブジェクト選択領域22には、現在出力されているフレームに含まれるキャラクタに対応して、出力する音声情報を選択するためのアイコンを含むようにした。しかし、これに限らず、コンテンツ全体において少なくとも1フレームにおいて登場するキャラクタについては、常に音声情報を選択するためのアイコンを含むようにし、音声情報が出力されていないときであっても音声情報の選択ができるようにしてもよい。
また、図5のS113及び図7においては、受信者による操作入力を入力インターフェイス214で受け付けることによってオブジェクトを選択する場合について説明した。しかし、これに代えて、又はこれに加えて、入力インターフェイス214として、マイクやカメラなどのセンサを使ってオブジェクトを選択することも可能である。例えば、プロセッサ211は、カメラを利用して受信者端末装置200-2を利用している受信者の属性(例えば、年齢、性別など)を認識する。そして、プロセッサ211は、その認識結果に基づいて音声の出力をするオブジェクトの選択を行う。例えば、受信者端末装置200-2としてデジタルサイネージ用の端末装置を用意し、当該端末装置に搭載されたカメラにおいて当該端末装置のディスプレイを参照しているユーザ(受信者)の属性を認識する。そして、ユーザ(受信者)が「子供」であると認識された場合には子供向けのオブジェクト(例えば、動物キャラクタ)以外の音声をミュートにし、「大人」であると認識された場合には大人向けのオブジェクト(例えば、人間キャラクタ)以外の音声をミュートにする。このように、入力インターフェイス214としてカメラ等のセンサを用いることによってより多様な選択の方法を実現することが可能である。
再び図5に戻り、図7に示すとおり、音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、プロセッサ211は選択されたキャラクタの音声情報のみを出力し、それ以外のキャラクタの音声情報の出力を制限(例えば、ミュート)する(S114)。すなわち、プロセッサ211は、図3の時間t1から時間t2において、キャラクタAのオブジェクトID情報が選択されると、キャラクタBの音声情報Bの出力インターフェイス215(例えば、スピーカ)からの出力を制限し、キャラクタAの音声情報Aのみが出力されるようにする。一方で、S113においていずれのオブジェクトの選択も行われていない場合には、S114に係る処理はスキップする。
プロセッサ211は、時間t0~tnに至る一連のコンテンツの出力を終了するまで、S112~S114に係る処理を常に繰り返す。以上により、本処理フローを終了する。
なお、ここでは、キャラクタAの音声情報A及びキャラクタBの音声情報Bのみがコンテンツに含まれる場合を説明しているために、キャラクタAが選択された場合には音声情報Bの出力が制限され、音声情報Aのみが出力されるとした。しかし、図7において選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。
また、3以上の音声情報がコンテンツに含まれている場合には、
(1)選択された一のキャラクタの音声情報のみを出力し、残りのキャラクタ全ての音声情報の出力を制限
(2)選択された一のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
(3)選択された複数のキャラクタの音声情報を出力し、残りのキャラクタ全ての音声情報の出力を制限
(4)選択された複数のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
など、様々な組み合わせで音声情報を出力することができる。
また、音声情報の出力の制限の方法も、上記の例では「ミュート」する場合を例に挙げたが、出力されるときの音量を変更したり(例えば、小さくする)、通常に出力する音声情報には字幕のテキスト情報を同時に出力するが制限する音声情報の字幕は出力しなかったり、他の様々な制限の方法が採用されてよい。
以上、本実施形態においては、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することが可能である。特に、出力されるコンテンツに複数の発話情報(例えば、音声情報)が含まれているような場合には、出力する発話情報(例えば、音声情報)を受信者の選択によって選ぶことが可能である。例えば、従来では、一部のオブジェクトに対応付けられた音声情報を出力したくないという場合、受信者端末装置200-2等において音量ボタンによる制御を行うことで出力の制限がされていた。したがって、全ての音声情報の出力が制限されることとなった。しかし、本実施形態では、受信者が所望するタイミングで、受信者が所望するオブジェクトに対応付けられた音声情報のみを選択的に出力したり、選択的に出力の制限をすることが可能となる。
9.変形例
以下に、図1~図7に示す上記実施形態においける変形例を示す。なお、以下の変形例及び図1~図7に示す実施形態は、相互に組み合わせて実施することも可能である。また、以下において特に言及する点を除いて、図1~図7に示す実施形態において説明した点と同様に処理することが可能である。
(A)音声情報の選択に係る変形例1
上記においては、図4等に示すように、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置200-2のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、サーバ装置100のプロセッサ111によって再編成されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。
図8Aは、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図8Aは、発話情報の一つである音声情報の選択に係る処理がサーバ装置100のプロセッサ111によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。
なお、コンテンツ生成に係るS31~S34に係る処理は、図4に示すコンテンツ生成に係るS11~S14に係る処理と同じであるため、その説明は省略する。
また、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのS41~S45に係る処理は、図4に示すコンテンツ出力に係る処理のうちのS21~S25に係る処理と同じであるため、その説明は省略する。
図7に示す方法等により音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介して、現在出力するコンテンツのコンテンツID情報と選択されたオブジェクトID情報を含むオブジェクト選択情報(T43)をサーバ装置100に送信する。
サーバ装置100のプロセッサ111は、オブジェクト選択情報を受信すると、コンテンツID情報に対応付けられたコンテンツをメモリ112から読み出して、当該コンテンツを再編成する処理を実行する(S46)。具体的には、プロセッサ111は、読み出されたコンテンツに含まれる音声情報A及び音声情報Bのうち、選択されたオブジェクトID情報に対応付けられた音声情報(図7の例では音声情報A)をそのままにし、選択されなかった他の音声情報(図7の例では音声情報B)を当該コンテンツから削除する。そして、プロセッサ111は、上記処理によりコンテンツを再編成すると、再編成後のコンテンツを新たにメモリ112に記憶するとともに、通信インターフェイス113を介してオブジェクト選択情報を送信してきた受信者端末装置200-2に当該コンテンツ(T44)を送信する。
受信者端末装置200-2は、通信インターフェイス213を介して再編成後のコンテンツを受信すると、S44と同様に出力インターフェイス215を介して受信したコンテンツを出力する。このとき、当該コンテンツの音声情報にはキャラクタBの音声情報Bは含まれていない。したがって、受信者端末装置200-2のプロセッサ111は、キャラクタBの音声情報Bを出力することなく、出力インターフェイス215を介してキャラクタAの音声情報Aのみを出力することとなる。
なお、例えば図7に出力するコンテンツ出力画面20のオブジェクト選択領域22には、画像情報の少なくとも一部のフレームに含まれるオブジェクト(キャラクタ)に対応するアイコンが常に表示されるものとする。これによって、音声情報Bの出力が制限されている場合であっても、再度受信者が音声情報Bの出力を所望する場合には、音声情報Bの選択が可能となる。
以上、図8Aに示す例によっても、図1~図7の実施形態と同様に、音声情報の選択的な出力が可能となる。
(B)音声情報の選択に係る変形例2
上記においては、図4等に示すように、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置200-2のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、送信者端末装置200-1のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。
図8Bは、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図8Bは、発話情報の一つである音声情報の選択に係る処理が送信者端末装置200-1のプロセッサ211によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。
なお、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ生成に係るS61~S64に係る処理は、図4に示すコンテンツ生成に係るS11~S14に係る処理と同じであるため、その説明は省略する。
また、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのS71~S75に係る処理は、図4に示すコンテンツ出力に係る処理のうちのS21~S25に係る処理と同じであるため、その説明は省略する。
図7に示す方法等により音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介して、現在出力するコンテンツのコンテンツID情報と選択されたオブジェクトID情報を含むオブジェクト選択情報(T43)をサーバ装置100に送信する。
サーバ装置100のプロセッサ111は、オブジェクト選択情報(T73)を受信すると、コンテンツID情報に基づいてコンテンツの送信者である送信者端末装置200-1を特定する(S76)。そして、プロセッサ111は、通信インターフェイス113を介して、特定された送信者端末装置200-1にオブジェクト選択情報(T74)を送信する。
送信者端末装置200-1のプロセッサ211は、通信インターフェイス213を介してオブジェクト選択情報を受信すると、選択的に音声情報の入力を実行する(S77)。具体的には、送信者端末装置200-1では、リアルタイムで画像情報と音声情報の入力が行われ、配信がなされているところ、プロセッサ211は、S62及びS63に示す処理(すなわち、図4のS22及びS23に示す処理)によって、オブジェクトID情報に対応付けて音声情報の入力を受け付ける。そして、プロセッサ211は、オブジェクト選択情報により受信したオブジェクトID情報を参照して、当該オブジェクトID情報と同じオブジェクトID情報に対応付けられた音声情報が入力されている場合には、当該音声情報を画像情報に同期して記憶する。一方、プロセッサ211は、受信したオブジェクトID情報と異なるオブジェクトID情報に対応付けられた音声情報については、入力を受け付けるものの、送信するコンテンツには含めない。すなわち、プロセッサ211は、受信者により選択されたキャラクタのオブジェクトID情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトID情報に対応付けられた音声情報が含まれていないコンテンツを生成する。
送信者端末装置200-1のプロセッサ211は、通信インターフェイス213を介して、上記のとおり生成したコンテンツ(T75)をコンテンツID情報と共にサーバ装置100に送信する。サーバ装置100のプロセッサ111は、通信インターフェイス113を介してコンテンツを受信すると、コンテンツID情報に対応付けてコンテンツ管理テーブルに記憶するとともに、通信インターフェイス113を介して、オブジェクト選択情報を送信してきた受信者端末装置200-2に受信した受信したコンテンツ(T76)を送信する。
受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介してコンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する。このとき、受信したコンテンツには、上記のとおり、選択されたキャラクタのオブジェクトID情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトID情報に対応付けられた音声情報が含まれていない。すなわち、受信者により選択されたキャラクタ以外のオブジェクトID情報に対応付けられた音声情報は、その送信が制限されることによって、受信者端末装置200-2における出力が制限されることになる。
以上、図8Bに示す例によっても、図1~図7の実施形態と同様に、音声情報の選択的な出力が可能となる。
(C)制限される音声情報に係る変形例
図1~図8Bにおいては、キャラクタAの音声情報A及びキャラクタBの音声情報Bのみがコンテンツに含まれる場合を説明しているために、キャラクタAが選択された場合には音声情報Bの出力が制限され、音声情報Aのみが出力されるとした。しかし、選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。
また、3以上の音声情報がコンテンツに含まれている場合には、
(1)選択された一のキャラクタの音声情報のみを出力し、残りのキャラクタ全ての音声情報の出力を制限
(2)選択された一のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
(3)選択された複数のキャラクタの音声情報を出力し、残りのキャラクタ全ての音声情報の出力を制限
(4)選択された複数のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
など、様々な組み合わせで音声情報を出力することができる。
(C)複数の送信者が存在する変形例
図1~図8Bの例においては、一の送信者端末装置200-1において複数のキャラクタの音声情報をオブジェクトID情報に対応付けて入力することで、一の送信者が複数のキャラクタを演じ分ける場合について説明した。しかし、これに代えて、又はこれに加えて、複数の送信者端末装置200-1において複数のキャラクタの音声情報をオブジェクトID情報に対応付けて入力することで、複数の送信者で同一のキャラクタを演じたり、複数の送信者で複数のキャラクタを演じ分けることも可能である。
図9は、本開示の実施形態に係る処理システム1に係る処理の概要を示す図である。具体的には、図9は、処理システム1を用いて行われる動画コンテンツの配信における処理の一例が示されている。図9によると、同じ動画コンテンツに対して、送信者Aの送信者端末装置では、キャラクタAの音声情報AとキャラクタBの音声情報Bが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。また、送信者Bの送信者端末装置では、キャラクタCの音声情報CとキャラクタDの音声情報Dが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。このとき、音声情報A及び音声情報Bには、送信者A又は送信者Aの送信者端末装置を特定するための送信者ID情報が対応付けられている。また、音声情報C及び音声情報Dには、送信者B又は送信者Bの送信者端末装置を特定するための送信者ID情報が対応付けられている。したがって、受信者端末装置において出力する音声情報を選択するときに、オブジェクトID情報を選択することに代えて、送信者ID情報を選択させることも可能である。例えば、受信者端末装置において送信者Aの送信者ID情報が選択された場合には、音声情報A及び音声情報Bのみが出力され、音声情報C及び音声情報Dの出力が制限される。また、受信者端末装置において送信者Bの送信者ID情報が選択された場合には、音声情報C及び音声情報Dのみが出力され、音声情報A及び音声情報Bの出力が制限される。
以上、図9に示す例によっても、図1~図8Bの実施形態と同様に、音声情報の選択的な出力が可能となる。
(D)コンテンツ、オブジェクト、及び発話情報に係る変形例
図1~図8Bの例においては、コンテンツとして動画コンテンツを例に挙げたために、オブジェクトがキャラクタオブジェクトであり、発話情報が音声情報である場合を例に挙げて説明した。しかし、コンテンツが動画コンテンツであるか他のコンテンツかに関わらず、他のオブジェクトや他の発話情報であっても同様の処理することが可能である。例えば、コンテンツとしては、動画コンテンツ以外にも、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。また、オブジェクトとしても、キャラクタオブジェクト以外にも、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。また、発話情報としても、音声情報以外に、テキスト情報、画像情報及びこれらの組み合わせ等が挙げられる。
例えば、コンテンツとしてチャットコンテンツを本開示に係る実施形態に適用する場合、オブジェクトとしては各送信者に対応付けられて吹き出し形状をしたGUIオブジェクトが挙げられ、発話情報には各ユーザがチャットとして入力したテキスト情報が挙げられる。このような場合であっても、受信者が所望の送信者のGUIオブジェクトを選択することによって、他の送信者のGUIオブジェクトに対応付けれたチャット(テキスト情報)の出力(表示)を制限する。これによって、特定の送信者のみを選択的に出力することが可能となる。
本明細書で説明される処理及び手順は、実施形態において明示的に説明されたものによってのみならず、ソフトウェア、ハードウェア又はこれらの組み合わせによっても実現可能である。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することによって実現される。また、本明細書で説明される処理及び手順は、それらの処理・手順をコンピュータプログラムとして実装し、処理装置やサーバ装置を含む各種のコンピュータに実行させることが可能である。
本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理又は手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は、複数のモジュールによって実行されるものとすることができる。また、本明細書中で説明される各種情報が単一のメモリや記憶部に格納される旨が説明されたとしても、そのような情報は、単一の装置に備えられた複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されるものとすることができる。さらに、本明細書において説明されるソフトウェア及びハードウェアの要素は、それらをより少ない構成要素に統合して、又は、より多い構成要素に分解することによって実現されるものとすることができる。