JP7828984B2

JP7828984B2 - 処理装置、処理プログラム及び処理方法

Info

Publication number: JP7828984B2
Application number: JP2024013605A
Authority: JP
Inventors: 渡岡田
Original assignee: 株式会社フレクト
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2026-03-12
Anticipated expiration: 2044-01-31
Also published as: JP2025118337A

Description

本開示は、選択されたオブジェクトに関連付けられた発話情報を出力するための処理装置、処理プログラム及び処理方法に関する。

従来より、インターネットを介した動画配信システムが知られている。例えば、特許文献１には、「ユーザ端末に動画の配信条件を含む募集要項を通知すると共に、ユーザ端末から投稿動画を取得する募集管理部と、前記投稿動画の配信可否を分析して、配信可の投稿動画を配信動画とする動画分析部と、前記配信動画を配信する動画配信管理部とを備えることを特徴とする動画配信システム」が記載されている。

特開２０２２－１８０９６７号公報

そこで、上記のような技術を踏まえ、本開示では、様々な実施形態により、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することを目的とする。

本開示の一態様によれば、「少なくとも一つのプロセッサを具備する処理装置であって、前記少なくとも一つのプロセッサは、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力するための処理を実行するように構成された処理装置」が提供される。

本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサを、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力するための処理を実行するように機能させる処理プログラム」が提供される。

本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信する段階と、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する段階と、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する段階とを含む処理方法」が提供される。

本開示によれば、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することができる。

なお、上記効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上記効果に加えて、又は上記効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。

図１Ａは、本開示の実施形態に係る処理システム１に係る処理の概要を示す図である。図１Ｂは、本開示の一実施形態に係る処理システム１の構成を示すブロック図である。図２Ａは、本開示の一実施形態に係るサーバ装置１００の構成を示すブロック図である。図２Ｂは、本開示の一実施形態に係る端末装置２００の構成を示すブロック図である。図３は、本開示の一実施形態に係る送信情報として送信者端末装置２００－１から送信される情報を概略的に示す図である。図４は、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。図５は、本開示の一実施形態に係る受信者端末装置２００－２において実行される処理フローを示す図である。図６は、本開示の一実施形態に係る送信者端末装置２００－１において出力される画面の例を示す図である。図７は、本開示の一実施形態に係る受信者端末装置２００－２において出力される画面の例を示す図である。図８Ａは、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。図８Ｂは、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。図９は、本開示の実施形態に係る処理システム１に係る処理の概要を示す図である。

１．処理システム１の概要
本開示に係る処理システム１は、送信者から送信されるコンテンツについて、受信者が所望のオブジェクトに関連付けられた発話情報を出力するために用いられる。一例としては、処理システム１は、送信者から送信される動画コンテンツについて、受信者が動画コンテンツ内に登場するキャラクタオブジェクトのうちの１つを選択することで、当該キャラクタオブジェクトに関連付けられた音声のみを出力するために用いられる。

ここで、図１Ａは、本開示の実施形態に係る処理システム１に係る処理の概要を示す図である。具体的には、図１Ａは、処理システム１を用いて行われる動画コンテンツの配信における処理の一例が示されている。図１Ａによると、送信者であるユーザは、利用可能な送信者端末装置を用いて、サーバ装置を介して、キャラクタＡ及びキャラクタＢの各オブジェクトが登場する動画コンテンツを、受信者であるユーザの受信者端末装置に送信する。当該動画コンテンツには、例えば送信者自身が、キャラクタＡの音声Ａである音声情報と、キャラクタＢの音声Ｂである音声情報の両方を入力する（典型的には、動画コンテンツにおいてキャラクタＡとキャラクタＢを送信者が演じ分ける場合が想定される。）。

そして、受信者であるユーザは、利用可能な受信者端末装置を用いて、サーバ装置を介して、送信者端末装置から動画コンテンツを受信し、再生する。ところで、受信者は、例えば自身の好みや自身の状況などに応じて、再生される動画コンテンツからキャラクタＡ及びキャラクタＢのうちいずれか一方だけの音声を出力したい、逆に言えば他方をミュートしたいというニーズがある。このとき、ただ単に音声のボリュームや再生アプリケーションの音声の設定変更のみであれば、送信者端末装置から送信される音声の全て、すなわちキャラクタＡの音声Ａ及びキャラクタＢの音声Ｂの両方をミュートするか、両方を出力し続けるかしかできない。しかし、処理システム１によれば、あらかじめキャラクタＡの音声Ａの音声情報及びキャラクタＢの音声Ｂの音声情報に対して各音声情報を識別するための識別情報を付しているため、受信者が所望する音声のみを出力して、他方の出力を制限、つまりミュートすることが可能である。図１Ａの例では、音声Ａのみが出力され、音声Ｂの出力が制限、つまりミュートされている。

このような処理システム１は、典型的にはキャラクタＡやキャラクタＢが登場する動画コンテンツにおいて利用されるが、その他にもビデオ会議や電話会議などの動画コンテンツにおいても利用することが可能である。このような場合も、上記と同様に、ビデオ会議や電話会議に参加するユーザのキャラクタやユーザの識別情報を指定することによって、いずれかの音声の出力を制限することが可能である。

このように、処理システム１では、送信者端末装置において、コンテンツ（例えば、動画コンテンツ）に含まれる複数のオブジェクト（例えば、キャラクタＡ及びキャラクタＢ）のそれぞれに関連付けて発話情報（例えば、音声Ａの音声情報及び音声Ｂの音声情報）が入力される。一方、受信者端末装置において、複数のオブジェクトのうちの少なくとも一つのオブジェクト（例えば、キャラクタＡ）が選択される。そして、受信者端末装置において、選択された少なくとも一つのオブジェクト（例えば、キャラクタＡ）に関連付けられた発話情報（例えば、音声Ａの音声情報）の出力を許容するとともに、当該オブジェクト以外のオブジェクト（例えば、キャラクタＢ）に関連付けられた発話情報（例えば、音声Ｂの音声情報）の出力を制限する。

なお、本開示において、「送信者」及び「受信者」は、コンテンツの送信をする者とコンテンツの受信をする者を区別するためにつけた呼称であるにすぎない。すなわち、送信者と記載されていたとしても、他の者からコンテンツを受信する場合には受信者になり得るし、受信者と記載されていたとしても、他の者にコンテンツを送信する場合には送信者になり得る。また、送信者及び受信者は、共に、個人のみに限定されるわけではなく、企業や団体などの組織であってもよい。また、送信者自らコンテンツの生成をする場合を主に記載するが、送信者とコンテンツの生成を行う者は別々であってもよい。この場合、コンテンツの生成を行う者が、コンテンツの生成のみを行ってコンテンツの生成を行わなかったとしても、生成したコンテンツがいずれかの者によって送信される場合には、送信者に含む。

また、本開示において、「送信者端末装置」及び「受信者端末装置」は、コンテンツの送信をする端末装置とコンテンツの受信をする端末装置を区別するためにつけた呼称であるにすぎない。すなわち、送信者端末装置と記載されていたとしても、他の端末装置からコンテンツを受信する場合には受信者端末装置になり得るし、受信者端末装置と記載されていたとしても、他の端末装置にコンテンツを送信する場合には送信者端末装置になり得る。

本開示において、「コンテンツ」は、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。このようなコンテンツには、一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、ＳＮＳコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム１は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、本開示においては、動画コンテンツには、動画コンテンツの配信サイト等を通じて配信されているコンテンツのみならず、例えばビデオ会議コンテンツ（カメラ機能をオフにして音声のみで送受信される場合も含む）、電話会議コンテンツ、デジタルサイネージ等の電子広告コンテンツなども含む。また、以下では、特に言及しない限り、コンテンツの例として動画コンテンツの場合を説明するが、当然にコンテンツが動画コンテンツに限定されるわけではない。

本開示において、「オブジェクト」は、コンテンツ内に含まれるデータ又はそれを操作入力するための手段のことを意味する。このようなオブジェクトには、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、ＧＵＩオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム１は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト（例えば、図１ＡのキャラクタＡ及びキャラクタＢ）に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。

本開示において、「処理装置」は、処理システム１を構成する装置のいずれかを意味するものであり、サーバ装置、送信者端末装置及び受信者端末装置のいずれであってもよい。また、処理装置は、これらいずれかの装置単体に限るものではなく、処理装置において行われる処理を分散して処理可能に複数の装置が組み合わされたものであってもよい。なお、「処理プログラム」及び「処理方法」は、当該処理装置において実行されるプログラム及び方法を意味する。

２．処理システム１の構成
図１Ｂは、本開示の一実施形態に係る処理システム１の構成を示すブロック図である。図１Ｂによれば、処理システム１は、コンテンツ（例えば、動画コンテンツ）の処理をするためのサーバ装置１００、コンテンツを送信する送信者端末装置２００－１、及びコンテンツを受信する受信者端末装置２００－２を含み、これらが通信ネットワークを介して通信可能に接続されている。

なお、図１Ｂにおいて、送信者端末装置２００－１及び受信者端末装置２００－２はそれぞれ単一の装置が示されているが、当然に、それぞれ複数の装置が含まれていてもよい。

また、図１Ｂにおいて、単一のサーバ装置１００が示されているが、複数のサーバ装置や他の装置が組み合わされて処理や記憶を分散してもよい。この場合、サーバ装置１００は、複数のサーバ装置や他の装置の組み合わせも含みうる。

３．サーバ装置１００の構成
図２Ａは、本開示の一実施形態に係るサーバ装置１００の構成を示すブロック図である。サーバ装置１００は、図２Ａに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。サーバ装置１００は単一の筐体に図２Ａに図示する構成要素を備える必要はなく、サーバ装置１００の各構成要素及び処理を複数の装置に分散することも可能である。

図２Ａによると、サーバ装置１００は、ＣＰＵ等から構成されるプロセッサ１１１、ＲＡＭ、ＲＯＭ、及び不揮発性メモリ、ＨＤＤ等を含むメモリ１１２、及び通信インターフェイス１１３を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。

プロセッサ１１１は、ＣＰＵ（マイクロコンピュータ：マイコン）から構成され、メモリ１１２に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ１１１は、本開示に係るアプリケーションを実行するためのプログラムやＯＳを実行するためのプログラムをメモリ１１２から読み出して実行する。具体的には、プロセッサ１１１は、「通信インターフェイス１１３を介して、送信者端末装置２００－１において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を送信者端末装置２００－１から受信する処理」、及び「通信インターフェイス１１３を介して、受信したコンテンツを受信者端末装置２００－２に送信する処理」等を、メモリ１１２に記憶されたプログラムに基づいて実行する。プロセッサ１１１は、主に一又は複数のＣＰＵにより構成されるが、適宜ＧＰＵやＦＰＧＡなどを組み合わせてもよい。

メモリ１１２は、ＲＡＭ、ＲＯＭ、不揮発性メモリ、ＨＤＤを含み、記憶部として機能する。ＲＯＭは、本開示に係るアプリケーションやＯＳを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ１１１によってロードされ実行される。ＲＡＭは、ＲＯＭに記憶されたプログラムがプロセッサ１１１によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ１１２は、プロセッサ１１１が上記処理等を実行するためのプログラムを記憶する。

通信インターフェイス１１３は、通信処理回路及びアンテナを介して、遠隔に設置された送信者端末装置２００－１及び受信者端末装置２００－２等の他の装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム１において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、ＬＴＥ方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、ＩＥＥＥ８０２．１１に代表されるような無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。

４．端末装置２００の構成
図２Ｂは、本開示の一実施形態に係る端末装置２００の構成を示すブロック図である。端末装置２００は、図２Ｂに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。また、端末装置２００は、送信者端末装置２００－１又は受信者端末装置２００－２として利用されるが、両者が同一の構成を備える必要はなく、端末装置ごとに異なる構成を有してもよい。

図２Ｂによると、端末装置２００は、ＣＰＵ等から構成されるプロセッサ２１１、ＲＡＭ、ＲＯＭ、及び不揮発性メモリ、ＨＤＤ等を含むメモリ２１２、通信インターフェイス２１３、入力インターフェイス２１４及び出力インターフェイス２１５を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。

プロセッサ２１１は、ＣＰＵ（マイクロコンピュータ：マイコン）から構成され、メモリ２１２に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ２１１は、本開示に係るアプリケーションを実行するためのプログラムやＯＳを実行するためのプログラムをメモリ２１２から読み出して実行する。プロセッサ２１１は、主に一又は複数のＣＰＵにより構成されるが、適宜ＧＰＵやＦＰＧＡなどを組み合わせてもよい。

プロセッサ１１１は、送信者端末装置２００－１として機能する場合は、「入力インターフェイス２１４を介して送信者による操作入力を受け付けて、コンテンツを生成するためのアプリケーションプログラムを起動する処理」、「入力インターフェイス２１４を介して送信者による操作入力を受け付けて、コンテンツに含まれる複数のオブジェクトのうちのいずれか一つのオブジェクトを特定するために入力された識別情報に基づいて、当該いずれか一つのオブジェクトを選択する処理」、「入力インターフェイス２１４を介して、選択された当該いずれか一つのオブジェクトに関連付けて発話情報を入力する処理」、及び「通信インターフェイス２１３を介して、サーバ装置１００に、画像情報及び発話情報を含むコンテンツを送信する処理」等を、メモリ２１２に記憶されたプログラムに基づいて実行する。

また、プロセッサ１１１は、受信者端末装置２００－２として機能する場合は、「入力インターフェイス２１４を介して受信者による操作入力を受け付けて、コンテンツを出力するためのアプリケーションプログラムを起動し、所望のコンテンツの選択をする処理」、「通信インターフェイス２１３を介して、送信者端末装置２００－１において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を含むコンテンツを送信者端末装置２００－１から受信する処理」、「出力インターフェイス２１５を介して選択されたコンテンツを出力する処理」、「入力インターフェイス２１４を介してコンテンツに含まれる複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する処理」、及び「出力インターフェイス２１５を介してコンテンツに含まれる発話情報を出力するときに、選択された少なくとも一つのオブジェクトに関連付けられた発話情報を出力する処理」等を、メモリ２１２に記憶されたプログラムに基づいて実行する。

メモリ２１２は、ＲＡＭ、ＲＯＭ又は不揮発性メモリを含み、記憶部として機能する。ＲＯＭは、本開示に係るアプリケーションやＯＳを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ２１１によってロードされ実行される。ＲＡＭは、ＲＯＭに記憶されたプログラムがプロセッサ２１１によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ２１２は、プロセッサ２１１が上記処理等を実行するためのプログラムを記憶する。

通信インターフェイス２１３は、通信処理回路を介して、電気的に接続されたサーバ装置１００や他の端末装置２００との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム１において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、ＬＴＥ方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、ＩＥＥＥ８０２．１１に代表されるような無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。

入力インターフェイス２１４は、端末装置２００に対する送信者又は受信者の操作入力や送信者又は受信者による各種情報の入力を受け付ける入力部として機能する。入力インターフェイス２１４の一例としては、キーボード、マウス等の各種ハードキーや、ディスプレイ装置のディスプレイに重畳して設けられディスプレイの表示座標系に対応する入力座標系を有するタッチパネルなどに加え、発話情報の一つである音声情報の入力を入力するためのマイク、画像を撮影するためのカメラなどの外部環境をセンシングするためのセンサ等が挙げられる。タッチパネルの場合、ディスプレイに入力したいコマンドに対応したアイコンが表示され、当該タッチパネルを介してユーザ又は事業者が操作入力を行うことで、各アイコンに対する選択が行われる。タッチパネルによる操作入力の検出方式は、静電容量式、抵抗膜式などいかなる方式であってもよい。入力インターフェイス２１４は、常に端末装置２００に物理的に備えられる必要はなく、有線や無線ネットワークを介して必要に応じて接続されてもよい。

出力インターフェイス２１５は、各種情報を出力するための出力部として機能する。出力インターフェイス２１５の一例としては、液晶パネル、有機ＥＬディスプレイ又はプラズマディスプレイ等から構成されるディスプレイ装置等の外部装置又は外部機器と接続するためのインターフェイスが挙げられる。しかし、端末装置２００そのものがディスプレイを有する場合には、当該ディスプレイが出力インターフェイスとして機能することが可能である。また、ディスプレイ装置などに対して通信インターフェイス２１３を介して接続されている場合には、当該通信インターフェイス２１３が出力インターフェイス２１５として機能することも可能である。

６．コンテンツの例
本実施形態において、上記のとおり、送信者端末装置２００－１においてコンテンツが生成され、サーバ装置１００を介して受信者端末装置２００－２に生成されたコンテンツが出力される。このようなコンテンツには複数のオブジェクトが含まれ、各オブジェクトに対して発話情報が対応付けられている。このようなコンテンツは、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。その一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、ＳＮＳコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム１は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、以下では、特に言及しない限り、コンテンツが動画コンテンツである場合を例に説明するが、当然にコンテンツが動画コンテンツのみに限定されるわけではなく、他のコンテンツであっても本実施形態に係る処理は同様に実行可能である。

図３は、本開示の一実施形態に係る送信情報として送信者端末装置２００－１から送信される情報を概略的に示す図である。具体的には、図３は、送信者端末装置２００－１において生成されメモリ２１２に記憶されたのちに、サーバ装置１００に送信されコンテンツ管理テーブルに記憶される動画コンテンツの一例を示す図である。

図３によると、動画コンテンツは、当該動画コンテンツのコンテンツＩＤ情報に対応付けて、画像情報と音声情報を含む。「コンテンツＩＤ情報」は、各動画コンテンツに対して固有の情報であり、各動画コンテンツを識別するための情報である。当該コンテンツＩＤ情報は、送信者端末装置２００－１において新たな動画コンテンツの生成がされるたび、又はサーバ装置１００において新たな動画コンテンツが受信されるたびに生成される。

「画像情報」は、動画コンテンツを構成する画像データである。当該画像情報は、静止画像、動画像及びこれらの組み合わせのいずれであってもよい。このような画像情報は、送信者端末装置２００－１において入力インターフェイス２１４の一つとして備えられたカメラによって実空間を撮影されたものであってもよいし、プロセッサ２１１の処理によって仮想的に生成されたものであってもよい。画像情報には、互いに識別可能である複数のオブジェクトが少なくとも含まれ、各オブジェクトに対応付けてオブジェクトＩＤ情報が付与されている。例えば、図３の例では、画像情報には、オブジェクトＩＤ情報が「Ｂ１」であるキャラクタＡのキャラクタオブジェクトと、オブジェクトＩＤ情報が「Ｂ２」であるキャラクタＢのキャラクタオブジェクトが含まれる。このようなオブジェクトは、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、ＧＵＩオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム１は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト（例えば、図１ＡのキャラクタＡ及びキャラクタＢ）に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。

「音声情報」は、発話情報の一つであり、動画コンテンツを構成する音声データである。当該音声情報は、一例としては、送信者端末装置２００－１において入力インターフェイス２１４の一つとして備えられたマイクによって送信者の音声等が入力された音声データである。ただし、これ以外にも、音声情報は、例えば、入力インターフェイス２１４を介して入力されたテキスト情報に基づいてキャラクタオブジェクトの音声を再現した音声データや、マイクによって入力された送信者の音声をテキスト化したテキストデータ、入力インターフェイス２１４を介して入力されたテキスト情報に基づいて生成されたテキストデータ、又はこれらのうちの少なくともいずれかを変換した他のデータであってもよい。このような音声情報は、典型的には、動画コンテンツに含まれる各オブジェクトの各オブジェクトＩＤ情報に対応付けて記憶される。例えば、図３の例では、キャラクタＡのオブジェクトＩＤ情報である「Ｂ１」に対応付けて音声情報Ａが記憶され、キャラクタＢのオブジェクトＩＤ情報である「Ｂ２」に対応付けて音声情報Ｂが記憶され、いずれのオブジェクトＩＤ情報にも対応付けられていない音声情報としてＢＧＭ音声情報が記憶されている。

すなわち、図３によると、コンテンツＩＤ情報が「Ａ１」である動画コンテンツがコンテンツの一例として示されている。当該動画コンテンツには、Ｆ１からＦｎの複数のフレームで構成され時間ｔ０から時間ｔｎの長さを有する動画である画像情報が含まれる。当該画像情報のうちの少なくともいずれかのフレームには、その登場人物として、オブジェクトＩＤ情報が「Ｂ１」であるキャラクタＡと、オブジェクトＩＤ情報が「Ｂ２」であるキャラクタＢが、それぞれオブジェクトとして含まれる。ここで、例えば図１Ａで例示したように、送信者自らが自身の送信者端末装置２００－１を使って、キャラクタＡ及びキャラクタＢをそれぞれ演じ分けてる場合が想定されている。したがって。当該動画コンテンツには、時間ｔ０で入力が開始され時間ｔ２で入力が終了されたキャラクタＡの音声情報Ａが含まれる。また、当該動画コンテンツには、時間ｔ１において送信者による操作入力が受け付けられることによって、時間ｔ１で入力が開始され時間ｔ４で入力が終了されたキャラクタＢの音声情報Ｂが含まれる。また、当該動画コンテンツには、時間ｔ３において送信者による操作入力が受け付けられることによって、時間ｔ３で入力が開始され時間ｔ６で入力が終了されたキャラクタＡの音声情報Ａが含まれる。また、当該動画コンテンツには、時間ｔ５において送信者による操作入力が受け付けられることによって、時間ｔ４で入力が開始され時間ｔｎで入力が終了されたキャラクタＢの音声情報Ｂが含まれる。さらに、時間ｔ１から時間ｔ６の期間においては、いずれのオブジェクトにも対応付けられていない音声情報としてＢＧＭ音声情報が含まれている。すなわち、図３の例では、例えば時間ｔ１から時間ｔ２、時間ｔ３から時間ｔ４、及び時間ｔ５から時間ｔ６では、キャラクタＡの音声情報Ａ及びキャラクタＢの音声情報Ｂが同時に再生されることとなる。

このように、コンテンツには、動画コンテンツを例にすると、コンテンツＩＤ情報に対応付けて、画像情報と音声情報が含まれる。また、当該画像情報には、時間（例えば、ｔ０～ｔｎ）に同期するするように、時間に対応付けて動画を構成する各フレーム（画像データ）、各フレームを識別するフレームＩＤ情報（例えば、Ｆ１～Ｆｎ）、及び画像情報の少なくともいずれかのフレームに含まれる各オブジェクトを識別するオブジェクトＩＤ情報が含まれる。また、当該音声情報には、時間（例えば、ｔ０～ｔｎ）に同期するように、時間に対応付けて各音声データ、及び各音声データに対応付けられたオブジェクトＩＤ情報（対応付けられたオブジェクトＩＤ情報がない場合もある）が含まれる。

なお、図３に示す動画コンテンツは、上記のとおりコンテンツの一例であるにすぎない。したがって、コンテンツとして動画コンテンツを用いる場合であっても、上記において例示する各種情報の全てを備える必要はないし、他の情報をさらに備えていてもよい。

また、上記のとおり音声情報は発話情報の一つであり、発話情報は、オブジェクトのオブジェクトＩＤ情報に対応付けられ、送信者が入力した情報を再現可能な情報であればいずれでもよく、音声情報以外にも、例えばテキスト情報や画像情報であってもよい。

７．処理システム１により実行さる処理シーケンス
図４は、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。具体的には、図４は、送信者端末装置２００－１においてコンテンツが生成され、サーバ装置１００を介して受信者端末装置２００－２において生成されたコンテンツが出力されるまでの一連の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。

（Ａ）コンテンツの生成に係る処理
図４によると、まず、主に送信者端末装置２００－１においてコンテンツの生成に係る処理が実行される。送信者端末装置２００－１のプロセッサ２１１は、入力インターフェイス２１４を介して送信者による操作入力を受付て、コンテンツの生成のためのアプリケーションプログラムをメモリ２１２から読み出して、当該アプリケーションプログラムの起動を行う（Ｓ１１）。アプリケーションプログラムが起動されると、プロセッサ２１１は、図３に示すように、コンテンツの画像情報として、フレームＦ１である画像データの記憶を開始する。このとき、プロセッサ２１１は、入力インターフェイス２１４を介して、コンテンツの画像情報に含まれるオブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると（Ｓ１２）、出力インターフェイス２１５を介して音声入力画面を出力する。

ここで、図６は、本開示の一実施形態に係る送信者端末装置２００－１において出力される画面の例を示す図である。具体的には、図６は、送信者端末装置２００－１において図４のＳ１２において音声情報の入力を所望するための送信者による操作入力を受け付けたときに出力される音声入力画面１０の例を示す図である。図６によると、音声入力画面１０には、「アプリケーションＡ」というアプリケーションプログラムの名称と共に、画像情報表示領域１１とオブジェクト選択領域１２が含まれる。画像情報表示領域１１には、現在録画されている画像情報として、例えばフレームＦ１の画像データ１３が出力されている。当該画像データ１３には、その中にキャラクタオブジェクトとしてキャラクタＡの画像１４及びキャラクタＢの画像１５が含まれる。

ここで、画像１４で示されるキャラクタＡにはオブジェクトＩＤ情報として「Ｂ１」が、画像１５で示されるキャラクタＢにはオブジェクトＩＤ情報として「Ｂ２」が付与される。当該オブジェクトＩＤ情報の付与は、例えばカメラによって動画撮影が行われているときに、プロセッサ２１１が物体検知処理を実行することによって各フレーム内に含まれるオブジェクトを検知するとともに、各オブジェクトが初めて検知されたタイミングで各プロジェクトに対してオブジェクトＩＤ情報を割り当てることによって行われる。また、当該オブジェクトＩＤ情報の付与は、例えば送信者端末装置２００－１によって仮想空間上に仮想的に画像情報を生成する場合には、プロセッサ２１１がその生成時に描画されるオブジェクトに対してオブジェクトＩＤ情報を割り当てることによって行われる。したがって、図６の例では、たまたまキャラクタＡの画像１４及びキャラクタＢの画像１５のみが含まれているが、新たに他のキャラクタの画像が含まれる場合には当該他のキャラクタのキャラクタＩＤ情報が生成されることとなる。

オブジェクト選択領域１２には、画像情報に含まれるオブジェクトのうちオブジェクトＩＤ情報が付与されたオブジェクトに対応して各オブジェクトを選択するためのアイコンが含まれる。図６の例では、オブジェクト選択領域１２には、キャラクタＡに対応してキャラクタＡアイコン１６と、キャラクタＢに対応してキャラクタＢアイコン１７が含まれる。プロセッサ２１１は、入力インターフェイス２１４を介してオブジェクト選択領域１２に含まれるいずれかのアイコン（例えば、キャラクタＡアイコン１６及びキャラクタＢアイコン１７のいずれか）に対する送信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図６の例では、キャラクタＡアイコン１６が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトＩＤ情報として、キャラクタＡのオブジェクトＩＤ情報（すなわち、「Ｂ１」）が選択されたことを示している。

再び図４に戻り、図６に示すとおり、音声情報の入力を所望するキャラクタのオブジェクトＩＤ情報が選択されると、送信者端末装置２００－１のプロセッサ２１１は、入力インターフェイス２１４を介して当該オブジェクトＩＤ情報に対応付けて音声情報の入力を受け付ける（Ｓ１３）。具体的には、プロセッサ２１１は、音声情報が入力されている時間（例えば、Ｔ０）に対応付けられた画像情報の各フレームに同期して、入力インターフェイス２１４の一つであるマイクから送信者が発話した音声データを音声情報としてメモリ２１２に記憶する。

送信者端末装置２００－１のプロセッサ２１１は、Ｓ１１～Ｓ１３の画像情報の録画、音声情報を対応付けるオブジェクトＩＤ情報の選択、及び音声情報の入力を繰り返し、例えば図３に例示する、コンテンツＩＤ情報が「Ａ１」のコンテンツの生成を行う。プロセッサ２１１は、コンテンツの生成が終了すると、コンテンツＩＤ情報に対応付けてメモリ２１２に記憶するとともに、通信インターフェイス２１３を介してサーバ装置１００に生成したコンテンツ（Ｔ１１）を送信する。

サーバ装置１００のプロセッサ１１１は、送信者端末装置２００－１からコンテンツを受信すると、コンテンツＩＤ情報に対応付けて、メモリ１１２のコンテンツ管理テーブル（図示しない）に受信したコンテンツを記憶する（Ｓ１４）。具体的には、サーバ装置１００のプロセッサ１１１は、例えば図３で示されたコンテンツに含まれる各情報（画像情報、オブジェクトＩＤ情報及び音声情報など）を、メモリ１１２のコンテンツ管理テーブル（図示しない）にコンテンツＩＤ情報に対応付けて記憶する。以上により、コンテンツの生成に係る処理を終了する。

なお、図４においては、送信者端末装置２００－１のプロセッサ２１１は、コンテンツの生成が終了したタイミングでサーバ装置１００に当該コンテンツを送信したが、所定のフレーム数やデータ量のコンテンツが生成されるごとに分割してコンテンツを送信するようにしてもよい。

また、図４においては、画像情報の録画をしつつ音声情報の入力をすることを前提に説明したが、送信者端末装置２００－１のプロセッサ２１１は、最初に画像情報を生成しておき、後から画像情報の各フレームに同期して、音声情報の入力を行うようにしてもよい。例えば、図３に示す例においては、時間ｔ１から時間ｔ２において音声情報Ａ及び音声情報Ｂが重複して入力されているが、これらは画像情報が生成されたのちに、各音声情報を各フレームに同期して入力することによって、同じ送信者がキャラクタＡ及びキャラクタＢを演じ分けることが可能となる。

また、図４においては特に図示はしていないものの、図３に示すように、特定のオブジェクトのオブジェクトＩＤ情報に関連付けられていない音声情報（例えば、ＢＧＭ音声情報）も入力することが可能である。

（Ｂ）コンテンツの出力に係る処理
次に、図４によると、主に受信者末装置２００－２においてコンテンツの出力に係る処理が実行される。当該処理は、例えばコンテンツが動画コンテンツである場合には、受信者端末装置２００－２において所望の動画コンテンツを選択し、当該動画コンテンツを再生する処理である。受信者端末装置２００－２のプロセッサ２１１は、入力インターフェイス２１４を介して受信者による操作入力を受付て、コンテンツの出力のためのアプリケーションプログラムをメモリ２１２から読み出して、当該アプリケーションプログラムの起動を行う（Ｓ２１）。アプリケーションプログラムが起動されると、プロセッサ２１１は、出力インターフェイス２１５を介して、例えば、受信者端末装置２００－２において出力が可能な一又は複数の動画コンテンツを選択するためのサムネイル画像が一覧として表示されたコンテンツ選択画面を出力する。そして、プロセッサ２１１は、入力インターフェイス２１４を介してコンテンツ選択画面内の一欄の中から所望のコンテンツのサムネイル画像を選択するための受信者による操作入力を受付て、出力するコンテンツの選択をする（Ｓ２２）。プロセッサ２１１は、通信インターフェイス２１３を介して、選択されたコンテンツに対応付けられたコンテンツＩＤ情報（例えば、コンテンツＩＤ情報が「Ａ１」）と共に、当該コンテンツの送信を所望するためのコンテンツ要求（Ｔ２１）をサーバ装置１００に送信する。

サーバ装置１００のプロセッサ１１１は、通信インターフェイス１１３を介して受信者端末装置２００－２からコンテンツ要求を受信すると、一緒に受信したコンテンツＩＤ情報（例えば、Ａ１）に基づいてコンテンツ管理テーブルを参照し、コンテンツ（例えば図３に例示された情報）を読み出す（Ｓ２３）。プロセッサ１１１は、通信インターフェイス１１３を介して、コンテンツ要求を送信してきた受信者端末装置２００－２に読み出したコンテンツ（Ｔ２２）を送信する。

受信者端末装置２００－２のプロセッサ２１１は、通信インターフェイス２１３を介してコンテンツを受信すると、出力インターフェイス２１５を介して受信したコンテンツを出力する（Ｓ２４）。ここで、受信者端末装置２００－２のプロセッサ２１１は、入力インターフェイス２１４を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトＩＤ情報が対応付けられている場合には、受信者の操作入力を介して、出力する音声情報を選択することが可能である。すなわち、プロセッサ２１１は、オブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると（Ｓ２５）、出力インターフェイス２１５を介して出力する音声情報の選択を行い、出力される音声情報を変更する処理を実行する（Ｓ２６）。なお、Ｓ２４～Ｓ２６に係る一連の処理の詳細については、図５において後述する。

そして、受信者端末装置２００－２は、Ｓ２４～Ｓ２６のコンテンツの出力、オブジェクトの選択、及びその選択に応じて出力する音声情報の変更を繰り返し、時間ｔｎに達すると、コンテンツの出力を終了する。以上により、コンテンツの出力に係る処理を終了する。

なお、図４においては、受信者端末装置２００－２のプロセッサ２１１は、コンテンツをサーバ装置１００からひとまとまりのデータとして受信しているが、所定のフレーム数やデータ量ごとに受信し、順次出力するようにしてもよい。

８．受信者端末装置２００－２の処理フロー
図５は、本開示の一実施形態に係るサーバ装置１００において実行される処理フローを示す図である。具体的には、図５、図４のＳ２４～Ｓ２６において受信者末装置２００－２が行うコンテンツの出力に係る処理のフローを示す図である。当該処理フローは、主に受信者端末装置２００－２がメモリ２１２に記憶されたプログラムを読み出して実行することにより行われる。

図５によると、プロセッサ２１１は、通信インターフェイス２１３を介して、サーバ装置１００から所望するコンテンツ（例えば、図３に示すコンテンツＩＤ情報がＡ１のコンテンツ）を受信する（Ｓ１１１）。そして、プロセッサ２１１は、コンテンツを受信すると、出力インターフェイス２１５を介して受信したコンテンツを出力する。具体的には、プロセッサ２１１は、出力インターフェイス２１５の一つであるディスプレイを介して、受信したコンテンツに含まれる画像情報をフレームＦ１から順次出力する。また、プロセッサ２１１は、出力インターフェイス２１５の一つであるスピーカーを介して、受信したコンテンツに含まれる音声情報を出力する画像情報のフレームに同期して出力する。図３の例では、時間ｔ０からキャラクタＡの音声情報Ａが出力され、時間ｔ１になると音声情報Ａに加えてキャラクタＢの音声情報Ｂ及びＢＧＭ音声情報がそれぞれ出力されることになる。

プロセッサ２１１は、入力インターフェイス２１４を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトＩＤ情報が対応付けられている場合には、入力インターフェイス２１４を介して受信者の操作入力を受け付けて、出力する音声情報を選択することが可能である。したがって、プロセッサ２１１は、当該操作入力を受け付けることによって、オブジェクトの選択がされたか否かを判断する（Ｓ１１３）。

ここで、図７は、本開示の一実施形態に係る受信者端末装置２００－２において出力される画面の例を示す図である。具体的には、図７は、受信者端末装置２００－２において図５のＳ１１２～Ｓ１１３において出力する音声情報を選択するための受信者による操作入力を受け付けたときのコンテンツ出力画面２０の例を示す図である。図７によると、コンテンツ出力画面２０には、「アプリケーションＢ」というアプリケーションプログラムの名称と共に、画像情報表示領域２１とオブジェクト選択領域２２が含まれる。画像情報表示領域２１には、現在出力されている画像情報として、例えばフレームＦ３の画像データ２３が出力されている。当該画像データ２３には、その中にキャラクタオブジェクトとしてキャラクタＡの画像２４及びキャラクタＢの画像２５が含まれる。画像２４で示されるキャラクタＡにはオブジェクトＩＤ情報として「Ｂ１」が、画像２５で示されるキャラクタＢにはオブジェクトＩＤ情報として「Ｂ２」が付与されている。

オブジェクト選択領域２２には、音声情報のうち、現在出力されている画像情報のフレームに同期する音声情報に対応付けられたオブジェクトＩＤ情報に対応して、各オブジェクトすなわちキャラクタを選択するためのアイコンが含まれる。例えば、図３の時間ｔ１から時間ｔ２のいずれかのタイミングのコンテンツ出力画面２０を例にすると、当該時間ではキャラクタＡの音声情報Ａ及びキャラクタＢの音声情報Ｂの両方が出力されている。したがって、オブジェクト選択領域２２には、キャラクタＡに対応してキャラクタＡアイコン２６と、キャラクタＢに対応してキャラクタＢアイコン２７が含まれる。プロセッサ２１１は、入力インターフェイス２１４を介してオブジェクト選択領域２２に含まれるいずれかのアイコン（例えば、キャラクタＡアイコン２６及びキャラクタＢアイコン２７のいずれか）に対する受信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図７の例では、キャラクタＡアイコン２６が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトＩＤ情報として、キャラクタＡのオブジェクトＩＤ情報（すなわち、「Ｂ１」）が選択されたことを示している。

なお、図７の例では、オブジェクト選択領域２２には、現在出力されているフレームに含まれるキャラクタに対応して、出力する音声情報を選択するためのアイコンを含むようにした。しかし、これに限らず、コンテンツ全体において少なくとも１フレームにおいて登場するキャラクタについては、常に音声情報を選択するためのアイコンを含むようにし、音声情報が出力されていないときであっても音声情報の選択ができるようにしてもよい。

また、図５のＳ１１３及び図７においては、受信者による操作入力を入力インターフェイス２１４で受け付けることによってオブジェクトを選択する場合について説明した。しかし、これに代えて、又はこれに加えて、入力インターフェイス２１４として、マイクやカメラなどのセンサを使ってオブジェクトを選択することも可能である。例えば、プロセッサ２１１は、カメラを利用して受信者端末装置２００－２を利用している受信者の属性（例えば、年齢、性別など）を認識する。そして、プロセッサ２１１は、その認識結果に基づいて音声の出力をするオブジェクトの選択を行う。例えば、受信者端末装置２００－２としてデジタルサイネージ用の端末装置を用意し、当該端末装置に搭載されたカメラにおいて当該端末装置のディスプレイを参照しているユーザ（受信者）の属性を認識する。そして、ユーザ（受信者）が「子供」であると認識された場合には子供向けのオブジェクト（例えば、動物キャラクタ）以外の音声をミュートにし、「大人」であると認識された場合には大人向けのオブジェクト（例えば、人間キャラクタ）以外の音声をミュートにする。このように、入力インターフェイス２１４としてカメラ等のセンサを用いることによってより多様な選択の方法を実現することが可能である。

再び図５に戻り、図７に示すとおり、音声情報の出力を所望するキャラクタのオブジェクトＩＤ情報が選択されると、プロセッサ２１１は選択されたキャラクタの音声情報のみを出力し、それ以外のキャラクタの音声情報の出力を制限（例えば、ミュート）する（Ｓ１１４）。すなわち、プロセッサ２１１は、図３の時間ｔ１から時間ｔ２において、キャラクタＡのオブジェクトＩＤ情報が選択されると、キャラクタＢの音声情報Ｂの出力インターフェイス２１５（例えば、スピーカ）からの出力を制限し、キャラクタＡの音声情報Ａのみが出力されるようにする。一方で、Ｓ１１３においていずれのオブジェクトの選択も行われていない場合には、Ｓ１１４に係る処理はスキップする。

プロセッサ２１１は、時間ｔ０～ｔｎに至る一連のコンテンツの出力を終了するまで、Ｓ１１２～Ｓ１１４に係る処理を常に繰り返す。以上により、本処理フローを終了する。

なお、ここでは、キャラクタＡの音声情報Ａ及びキャラクタＢの音声情報Ｂのみがコンテンツに含まれる場合を説明しているために、キャラクタＡが選択された場合には音声情報Ｂの出力が制限され、音声情報Ａのみが出力されるとした。しかし、図７において選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。

また、３以上の音声情報がコンテンツに含まれている場合には、
（１）選択された一のキャラクタの音声情報のみを出力し、残りのキャラクタ全ての音声情報の出力を制限
（２）選択された一のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
（３）選択された複数のキャラクタの音声情報を出力し、残りのキャラクタ全ての音声情報の出力を制限
（４）選択された複数のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
など、様々な組み合わせで音声情報を出力することができる。

また、音声情報の出力の制限の方法も、上記の例では「ミュート」する場合を例に挙げたが、出力されるときの音量を変更したり（例えば、小さくする）、通常に出力する音声情報には字幕のテキスト情報を同時に出力するが制限する音声情報の字幕は出力しなかったり、他の様々な制限の方法が採用されてよい。

以上、本実施形態においては、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することが可能である。特に、出力されるコンテンツに複数の発話情報（例えば、音声情報）が含まれているような場合には、出力する発話情報（例えば、音声情報）を受信者の選択によって選ぶことが可能である。例えば、従来では、一部のオブジェクトに対応付けられた音声情報を出力したくないという場合、受信者端末装置２００－２等において音量ボタンによる制御を行うことで出力の制限がされていた。したがって、全ての音声情報の出力が制限されることとなった。しかし、本実施形態では、受信者が所望するタイミングで、受信者が所望するオブジェクトに対応付けられた音声情報のみを選択的に出力したり、選択的に出力の制限をすることが可能となる。

９．変形例
以下に、図１～図７に示す上記実施形態においける変形例を示す。なお、以下の変形例及び図１～図７に示す実施形態は、相互に組み合わせて実施することも可能である。また、以下において特に言及する点を除いて、図１～図７に示す実施形態において説明した点と同様に処理することが可能である。

（Ａ）音声情報の選択に係る変形例１
上記においては、図４等に示すように、受信者端末装置２００－２において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置２００－２のプロセッサ２１１によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置２００－２において選択されたキャラクタに対応付けられた音声情報が、サーバ装置１００のプロセッサ１１１によって再編成されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。

図８Ａは、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。具体的には、図８Ａは、発話情報の一つである音声情報の選択に係る処理がサーバ装置１００のプロセッサ１１１によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。

なお、コンテンツ生成に係るＳ３１～Ｓ３４に係る処理は、図４に示すコンテンツ生成に係るＳ１１～Ｓ１４に係る処理と同じであるため、その説明は省略する。

また、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのＳ４１～Ｓ４５に係る処理は、図４に示すコンテンツ出力に係る処理のうちのＳ２１～Ｓ２５に係る処理と同じであるため、その説明は省略する。

図７に示す方法等により音声情報の出力を所望するキャラクタのオブジェクトＩＤ情報が選択されると、受信者端末装置２００－２のプロセッサ２１１は、通信インターフェイス２１３を介して、現在出力するコンテンツのコンテンツＩＤ情報と選択されたオブジェクトＩＤ情報を含むオブジェクト選択情報（Ｔ４３）をサーバ装置１００に送信する。

サーバ装置１００のプロセッサ１１１は、オブジェクト選択情報を受信すると、コンテンツＩＤ情報に対応付けられたコンテンツをメモリ１１２から読み出して、当該コンテンツを再編成する処理を実行する（Ｓ４６）。具体的には、プロセッサ１１１は、読み出されたコンテンツに含まれる音声情報Ａ及び音声情報Ｂのうち、選択されたオブジェクトＩＤ情報に対応付けられた音声情報（図７の例では音声情報Ａ）をそのままにし、選択されなかった他の音声情報（図７の例では音声情報Ｂ）を当該コンテンツから削除する。そして、プロセッサ１１１は、上記処理によりコンテンツを再編成すると、再編成後のコンテンツを新たにメモリ１１２に記憶するとともに、通信インターフェイス１１３を介してオブジェクト選択情報を送信してきた受信者端末装置２００－２に当該コンテンツ（Ｔ４４）を送信する。

受信者端末装置２００－２は、通信インターフェイス２１３を介して再編成後のコンテンツを受信すると、Ｓ４４と同様に出力インターフェイス２１５を介して受信したコンテンツを出力する。このとき、当該コンテンツの音声情報にはキャラクタＢの音声情報Ｂは含まれていない。したがって、受信者端末装置２００－２のプロセッサ１１１は、キャラクタＢの音声情報Ｂを出力することなく、出力インターフェイス２１５を介してキャラクタＡの音声情報Ａのみを出力することとなる。

なお、例えば図７に出力するコンテンツ出力画面２０のオブジェクト選択領域２２には、画像情報の少なくとも一部のフレームに含まれるオブジェクト（キャラクタ）に対応するアイコンが常に表示されるものとする。これによって、音声情報Ｂの出力が制限されている場合であっても、再度受信者が音声情報Ｂの出力を所望する場合には、音声情報Ｂの選択が可能となる。

以上、図８Ａに示す例によっても、図１～図７の実施形態と同様に、音声情報の選択的な出力が可能となる。

（Ｂ）音声情報の選択に係る変形例２
上記においては、図４等に示すように、受信者端末装置２００－２において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置２００－２のプロセッサ２１１によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置２００－２において選択されたキャラクタに対応付けられた音声情報が、送信者端末装置２００－１のプロセッサ２１１によって選択されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。

図８Ｂは、本開示の一実施形態に係る処理システム１で実行される処理シーケンスを示す図である。具体的には、図８Ｂは、発話情報の一つである音声情報の選択に係る処理が送信者端末装置２００－１のプロセッサ２１１によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。

なお、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ生成に係るＳ６１～Ｓ６４に係る処理は、図４に示すコンテンツ生成に係るＳ１１～Ｓ１４に係る処理と同じであるため、その説明は省略する。

また、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのＳ７１～Ｓ７５に係る処理は、図４に示すコンテンツ出力に係る処理のうちのＳ２１～Ｓ２５に係る処理と同じであるため、その説明は省略する。

サーバ装置１００のプロセッサ１１１は、オブジェクト選択情報（Ｔ７３）を受信すると、コンテンツＩＤ情報に基づいてコンテンツの送信者である送信者端末装置２００－１を特定する（Ｓ７６）。そして、プロセッサ１１１は、通信インターフェイス１１３を介して、特定された送信者端末装置２００－１にオブジェクト選択情報（Ｔ７４）を送信する。

送信者端末装置２００－１のプロセッサ２１１は、通信インターフェイス２１３を介してオブジェクト選択情報を受信すると、選択的に音声情報の入力を実行する（Ｓ７７）。具体的には、送信者端末装置２００－１では、リアルタイムで画像情報と音声情報の入力が行われ、配信がなされているところ、プロセッサ２１１は、Ｓ６２及びＳ６３に示す処理（すなわち、図４のＳ２２及びＳ２３に示す処理）によって、オブジェクトＩＤ情報に対応付けて音声情報の入力を受け付ける。そして、プロセッサ２１１は、オブジェクト選択情報により受信したオブジェクトＩＤ情報を参照して、当該オブジェクトＩＤ情報と同じオブジェクトＩＤ情報に対応付けられた音声情報が入力されている場合には、当該音声情報を画像情報に同期して記憶する。一方、プロセッサ２１１は、受信したオブジェクトＩＤ情報と異なるオブジェクトＩＤ情報に対応付けられた音声情報については、入力を受け付けるものの、送信するコンテンツには含めない。すなわち、プロセッサ２１１は、受信者により選択されたキャラクタのオブジェクトＩＤ情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトＩＤ情報に対応付けられた音声情報が含まれていないコンテンツを生成する。

送信者端末装置２００－１のプロセッサ２１１は、通信インターフェイス２１３を介して、上記のとおり生成したコンテンツ（Ｔ７５）をコンテンツＩＤ情報と共にサーバ装置１００に送信する。サーバ装置１００のプロセッサ１１１は、通信インターフェイス１１３を介してコンテンツを受信すると、コンテンツＩＤ情報に対応付けてコンテンツ管理テーブルに記憶するとともに、通信インターフェイス１１３を介して、オブジェクト選択情報を送信してきた受信者端末装置２００－２に受信した受信したコンテンツ（Ｔ７６）を送信する。

受信者端末装置２００－２のプロセッサ２１１は、通信インターフェイス２１３を介してコンテンツを受信すると、出力インターフェイス２１５を介して受信したコンテンツを出力する。このとき、受信したコンテンツには、上記のとおり、選択されたキャラクタのオブジェクトＩＤ情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトＩＤ情報に対応付けられた音声情報が含まれていない。すなわち、受信者により選択されたキャラクタ以外のオブジェクトＩＤ情報に対応付けられた音声情報は、その送信が制限されることによって、受信者端末装置２００－２における出力が制限されることになる。

以上、図８Ｂに示す例によっても、図１～図７の実施形態と同様に、音声情報の選択的な出力が可能となる。

（Ｃ）制限される音声情報に係る変形例
図１～図８Ｂにおいては、キャラクタＡの音声情報Ａ及びキャラクタＢの音声情報Ｂのみがコンテンツに含まれる場合を説明しているために、キャラクタＡが選択された場合には音声情報Ｂの出力が制限され、音声情報Ａのみが出力されるとした。しかし、選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。

（Ｃ）複数の送信者が存在する変形例
図１～図８Ｂの例においては、一の送信者端末装置２００－１において複数のキャラクタの音声情報をオブジェクトＩＤ情報に対応付けて入力することで、一の送信者が複数のキャラクタを演じ分ける場合について説明した。しかし、これに代えて、又はこれに加えて、複数の送信者端末装置２００－１において複数のキャラクタの音声情報をオブジェクトＩＤ情報に対応付けて入力することで、複数の送信者で同一のキャラクタを演じたり、複数の送信者で複数のキャラクタを演じ分けることも可能である。

図９は、本開示の実施形態に係る処理システム１に係る処理の概要を示す図である。具体的には、図９は、処理システム１を用いて行われる動画コンテンツの配信における処理の一例が示されている。図９によると、同じ動画コンテンツに対して、送信者Ａの送信者端末装置では、キャラクタＡの音声情報ＡとキャラクタＢの音声情報Ｂが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。また、送信者Ｂの送信者端末装置では、キャラクタＣの音声情報ＣとキャラクタＤの音声情報Ｄが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。このとき、音声情報Ａ及び音声情報Ｂには、送信者Ａ又は送信者Ａの送信者端末装置を特定するための送信者ＩＤ情報が対応付けられている。また、音声情報Ｃ及び音声情報Ｄには、送信者Ｂ又は送信者Ｂの送信者端末装置を特定するための送信者ＩＤ情報が対応付けられている。したがって、受信者端末装置において出力する音声情報を選択するときに、オブジェクトＩＤ情報を選択することに代えて、送信者ＩＤ情報を選択させることも可能である。例えば、受信者端末装置において送信者Ａの送信者ＩＤ情報が選択された場合には、音声情報Ａ及び音声情報Ｂのみが出力され、音声情報Ｃ及び音声情報Ｄの出力が制限される。また、受信者端末装置において送信者Ｂの送信者ＩＤ情報が選択された場合には、音声情報Ｃ及び音声情報Ｄのみが出力され、音声情報Ａ及び音声情報Ｂの出力が制限される。

以上、図９に示す例によっても、図１～図８Ｂの実施形態と同様に、音声情報の選択的な出力が可能となる。

（Ｄ）コンテンツ、オブジェクト、及び発話情報に係る変形例
図１～図８Ｂの例においては、コンテンツとして動画コンテンツを例に挙げたために、オブジェクトがキャラクタオブジェクトであり、発話情報が音声情報である場合を例に挙げて説明した。しかし、コンテンツが動画コンテンツであるか他のコンテンツかに関わらず、他のオブジェクトや他の発話情報であっても同様の処理することが可能である。例えば、コンテンツとしては、動画コンテンツ以外にも、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、ＳＮＳコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。また、オブジェクトとしても、キャラクタオブジェクト以外にも、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、ＧＵＩオブジェクト及びこれらの組み合わせ等が挙げられる。また、発話情報としても、音声情報以外に、テキスト情報、画像情報及びこれらの組み合わせ等が挙げられる。

例えば、コンテンツとしてチャットコンテンツを本開示に係る実施形態に適用する場合、オブジェクトとしては各送信者に対応付けられて吹き出し形状をしたＧＵＩオブジェクトが挙げられ、発話情報には各ユーザがチャットとして入力したテキスト情報が挙げられる。このような場合であっても、受信者が所望の送信者のＧＵＩオブジェクトを選択することによって、他の送信者のＧＵＩオブジェクトに対応付けれたチャット（テキスト情報）の出力（表示）を制限する。これによって、特定の送信者のみを選択的に出力することが可能となる。

本明細書で説明される処理及び手順は、実施形態において明示的に説明されたものによってのみならず、ソフトウェア、ハードウェア又はこれらの組み合わせによっても実現可能である。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することによって実現される。また、本明細書で説明される処理及び手順は、それらの処理・手順をコンピュータプログラムとして実装し、処理装置やサーバ装置を含む各種のコンピュータに実行させることが可能である。

本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理又は手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び／又は、複数のモジュールによって実行されるものとすることができる。また、本明細書中で説明される各種情報が単一のメモリや記憶部に格納される旨が説明されたとしても、そのような情報は、単一の装置に備えられた複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されるものとすることができる。さらに、本明細書において説明されるソフトウェア及びハードウェアの要素は、それらをより少ない構成要素に統合して、又は、より多い構成要素に分解することによって実現されるものとすることができる。

１処理システム
１００サーバ装置
２００端末装置
２００－１送信者端末装置
２００－２受信者端末装置

Claims

少なくとも一つのプロセッサを具備する処理装置であって、
前記少なくとも一つのプロセッサは、
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように構成された処理装置。
前記コンテンツは動画コンテンツであり、
前記オブジェクトは前記動画コンテンツに含まれるキャラクタオブジェクトである、
請求項１に記載の処理装置。
前記発話情報は、前記キャラクタオブジェクトに関連付けて入力された音声情報である、請求項２に記載の処理装置。
前記少なくとも一つのプロセッサは、
前記複数のオブジェクトのそれぞれに関連付けて入力される各発話情報を受信し、
前記出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクト以外のオブジェクトに関連付けられた発話情報の出力を制限することで、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように構成された、請求項１に記載の処理装置。
前記少なくとも一つのプロセッサは、
前記複数のオブジェクトに関連付けて入力される発話情報のうち、選択された前記少なくとも一つのオブジェクトの発話情報のみを受信し、
前記出力インターフェイスを介して前記発話情報を出力するときに、受信された前記少なくとも一つのオブジェクトに関連付けられた発話情報のみを出力する、
ための処理を実行するように構成された、請求項１に記載の処理装置。
選択された前記少なくとも一つのオブジェクト以外のオブジェクトに関連付けられた発話情報は、前記送信者端末装置から前記処理装置に送信されることが制限される、請求項５に記載の処理装置。
前記発話情報は、前記送信者端末装置から遠隔に設置されたサーバ装置を介して受信され、
選択された前記少なくとも一つのオブジェクト以外のオブジェクトに関連付けられた発話情報は、前記サーバ装置から前記処理装置に送信されることが制限される、請求項５に記載の処理装置。
前記発話情報は、あらかじめ送信者が送信者端末装置において前記複数のオブジェクトのうちのいずれか一つを選択することによって、前記複数のオブジェクトのそれぞれに関連付けて入力される、請求項１に記載の処理装置。
少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサを、
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように機能させる処理プログラム。
少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信する段階と、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する段階と、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する段階と、
を含む処理方法。