JP7828984B2 - Processing apparatus, processing program, and processing method - Google Patents
Processing apparatus, processing program, and processing methodInfo
- Publication number
- JP7828984B2 JP7828984B2 JP2024013605A JP2024013605A JP7828984B2 JP 7828984 B2 JP7828984 B2 JP 7828984B2 JP 2024013605 A JP2024013605 A JP 2024013605A JP 2024013605 A JP2024013605 A JP 2024013605A JP 7828984 B2 JP7828984 B2 JP 7828984B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- content
- terminal device
- output
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本開示は、選択されたオブジェクトに関連付けられた発話情報を出力するための処理装置、処理プログラム及び処理方法に関する。 This disclosure relates to a processing device, a processing program, and a processing method for outputting speech information associated with a selected object.
従来より、インターネットを介した動画配信システムが知られている。例えば、特許文献1には、「ユーザ端末に動画の配信条件を含む募集要項を通知すると共に、ユーザ端末から投稿動画を取得する募集管理部と、前記投稿動画の配信可否を分析して、配信可の投稿動画を配信動画とする動画分析部と、前記配信動画を配信する動画配信管理部とを備えることを特徴とする動画配信システム」が記載されている。 Video distribution systems via the internet have been known for some time. For example, Patent Document 1 describes a "video distribution system characterized by comprising: a recruitment management unit that notifies a user terminal of recruitment requirements including video distribution conditions and acquires submitted videos from the user terminal; a video analysis unit that analyzes whether the submitted videos are eligible for distribution and designates eligible submitted videos as distribution videos; and a video distribution management unit that distributes the distribution videos."
そこで、上記のような技術を踏まえ、本開示では、様々な実施形態により、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することを目的とする。 Therefore, based on the technologies described above, this disclosure aims to provide a processing device, processing program, and processing method that are more user-friendly for users such as recipients, through various embodiments.
本開示の一態様によれば、「少なくとも一つのプロセッサを具備する処理装置であって、前記少なくとも一つのプロセッサは、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力するための処理を実行するように構成された処理装置」が提供される。 According to one aspect of this disclosure, a processing device is provided comprising at least one processor, wherein the at least one processor is configured to receive speech information from a transmitting terminal device via a communication interface, associated with each of a plurality of objects included in content generated in the transmitting terminal device, to select at least one of the plurality of objects via an input interface, and to perform processing for outputting speech information associated with the selected at least one object when outputting the speech information via an output interface.
本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサを、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力するための処理を実行するように機能させる処理プログラム」が提供される。 According to one aspect of this disclosure, a processing program is provided that causes a computer comprising at least one processor to function as follows: the computer receiving speech information from a sender terminal device via a communication interface, associated with each of a plurality of objects included in content generated at the sender terminal device; selecting at least one of the plurality of objects via an input interface; and, when outputting the speech information via an output interface, to perform processing to output the speech information associated with the selected at least one object.
本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて、前記少なくとも一つのプロセッサにより実行される処理方法であって、通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信する段階と、入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する段階と、出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する段階とを含む処理方法」が提供される。 According to one aspect of this disclosure, a processing method is provided for a computer comprising at least one processor, the method being performed by the at least one processor, the method comprising: receiving speech information input from a sender terminal device via a communication interface, associated with each of a plurality of objects included in content generated in a sender terminal device; selecting at least one object from the plurality of objects via an input interface; and outputting speech information associated with the selected at least one object when outputting the speech information via an output interface.
本開示によれば、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することができる。 This disclosure provides a more user-friendly processing device, processing program, and processing method for users such as recipients.
なお、上記効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上記効果に加えて、又は上記効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。 The effects described above are merely illustrative for illustrative purposes and are not limiting. In addition to, or in lieu of, any other effects described herein or those obvious to those skilled in the art may also be achieved.
1.処理システム1の概要
本開示に係る処理システム1は、送信者から送信されるコンテンツについて、受信者が所望のオブジェクトに関連付けられた発話情報を出力するために用いられる。一例としては、処理システム1は、送信者から送信される動画コンテンツについて、受信者が動画コンテンツ内に登場するキャラクタオブジェクトのうちの1つを選択することで、当該キャラクタオブジェクトに関連付けられた音声のみを出力するために用いられる。
1. Overview of Processing System 1 The processing system 1 described herein is used to output speech information associated with an object desired by the receiver for content transmitted from the sender. For example, the processing system 1 is used to output only the audio associated with a character object when the receiver selects one of the character objects appearing in video content transmitted from the sender.
ここで、図1Aは、本開示の実施形態に係る処理システム1に係る処理の概要を示す図である。具体的には、図1Aは、処理システム1を用いて行われる動画コンテンツの配信における処理の一例が示されている。図1Aによると、送信者であるユーザは、利用可能な送信者端末装置を用いて、サーバ装置を介して、キャラクタA及びキャラクタBの各オブジェクトが登場する動画コンテンツを、受信者であるユーザの受信者端末装置に送信する。当該動画コンテンツには、例えば送信者自身が、キャラクタAの音声Aである音声情報と、キャラクタBの音声Bである音声情報の両方を入力する(典型的には、動画コンテンツにおいてキャラクタAとキャラクタBを送信者が演じ分ける場合が想定される。)。 Here, Figure 1A is a diagram illustrating the overview of the processing according to the processing system 1 according to the embodiment of this disclosure. Specifically, Figure 1A shows an example of the processing in the distribution of video content performed using the processing system 1. According to Figure 1A, the user, as the sender, uses an available sender terminal device to transmit video content featuring the objects of character A and character B to the receiver terminal device of the user, as the receiver. For example, the sender themselves inputs both audio information, which is voice A for character A, and audio information, which is voice B for character B (typically, it is assumed that the sender performs both character A and character B in the video content).
そして、受信者であるユーザは、利用可能な受信者端末装置を用いて、サーバ装置を介して、送信者端末装置から動画コンテンツを受信し、再生する。ところで、受信者は、例えば自身の好みや自身の状況などに応じて、再生される動画コンテンツからキャラクタA及びキャラクタBのうちいずれか一方だけの音声を出力したい、逆に言えば他方をミュートしたいというニーズがある。このとき、ただ単に音声のボリュームや再生アプリケーションの音声の設定変更のみであれば、送信者端末装置から送信される音声の全て、すなわちキャラクタAの音声A及びキャラクタBの音声Bの両方をミュートするか、両方を出力し続けるかしかできない。しかし、処理システム1によれば、あらかじめキャラクタAの音声Aの音声情報及びキャラクタBの音声Bの音声情報に対して各音声情報を識別するための識別情報を付しているため、受信者が所望する音声のみを出力して、他方の出力を制限、つまりミュートすることが可能である。図1Aの例では、音声Aのみが出力され、音声Bの出力が制限、つまりミュートされている。 The user, as the recipient, then uses an available recipient terminal device to receive and play video content from the sender terminal device via the server device. However, the recipient may have a need to output only the voice of either character A or character B from the video content being played, depending on their preferences or circumstances, or conversely, to mute the other. In this case, simply changing the volume or audio settings of the playback application would only allow either muting all the audio transmitted from the sender terminal device—that is, both voice A of character A and voice B of character B—or continuously outputting both. However, according to processing system 1, since identification information is pre-assigned to the audio information of character A's voice A and character B's voice B, it is possible to output only the audio desired by the recipient and restrict, i.e., mute, the output of the other. In the example in Figure 1A, only voice A is output, and the output of voice B is restricted, i.e., muted.
このような処理システム1は、典型的にはキャラクタAやキャラクタBが登場する動画コンテンツにおいて利用されるが、その他にもビデオ会議や電話会議などの動画コンテンツにおいても利用することが可能である。このような場合も、上記と同様に、ビデオ会議や電話会議に参加するユーザのキャラクタやユーザの識別情報を指定することによって、いずれかの音声の出力を制限することが可能である。 This processing system 1 is typically used in video content featuring characters A and B, but it can also be used in other video content such as video conferencing and teleconferencing. In such cases, as described above, it is possible to restrict the output of any of the audio by specifying the character or user identification information of the users participating in the video or teleconferencing.
このように、処理システム1では、送信者端末装置において、コンテンツ(例えば、動画コンテンツ)に含まれる複数のオブジェクト(例えば、キャラクタA及びキャラクタB)のそれぞれに関連付けて発話情報(例えば、音声Aの音声情報及び音声Bの音声情報)が入力される。一方、受信者端末装置において、複数のオブジェクトのうちの少なくとも一つのオブジェクト(例えば、キャラクタA)が選択される。そして、受信者端末装置において、選択された少なくとも一つのオブジェクト(例えば、キャラクタA)に関連付けられた発話情報(例えば、音声Aの音声情報)の出力を許容するとともに、当該オブジェクト以外のオブジェクト(例えば、キャラクタB)に関連付けられた発話情報(例えば、音声Bの音声情報)の出力を制限する。 Thus, in processing system 1, the sender terminal device receives speech information (e.g., audio information for voice A and voice B) associated with each of the multiple objects (e.g., character A and character B) contained in the content (e.g., video content). Meanwhile, the receiver terminal device selects at least one of the multiple objects (e.g., character A). The receiver terminal device then allows the output of speech information (e.g., audio information for voice A) associated with the selected object (e.g., character A), while restricting the output of speech information (e.g., audio information for voice B) associated with other objects (e.g., character B).
なお、本開示において、「送信者」及び「受信者」は、コンテンツの送信をする者とコンテンツの受信をする者を区別するためにつけた呼称であるにすぎない。すなわち、送信者と記載されていたとしても、他の者からコンテンツを受信する場合には受信者になり得るし、受信者と記載されていたとしても、他の者にコンテンツを送信する場合には送信者になり得る。また、送信者及び受信者は、共に、個人のみに限定されるわけではなく、企業や団体などの組織であってもよい。また、送信者自らコンテンツの生成をする場合を主に記載するが、送信者とコンテンツの生成を行う者は別々であってもよい。この場合、コンテンツの生成を行う者が、コンテンツの生成のみを行ってコンテンツの生成を行わなかったとしても、生成したコンテンツがいずれかの者によって送信される場合には、送信者に含む。 In this disclosure, "sender" and "receiver" are merely designations used to distinguish between those who send content and those who receive content. That is, even if someone is described as a sender, they may also be a receiver if they receive content from someone else, and even if someone is described as a receiver, they may also be a sender if they transmit content to someone else. Furthermore, both senders and receivers are not limited to individuals; they may also be organizations such as companies or groups. While this primarily describes cases where the sender generates the content themselves, the sender and the content creator may be different individuals. In this case, even if the content creator only generates the content and does not create the content themselves, if the generated content is transmitted by someone else, they are included as the sender.
また、本開示において、「送信者端末装置」及び「受信者端末装置」は、コンテンツの送信をする端末装置とコンテンツの受信をする端末装置を区別するためにつけた呼称であるにすぎない。すなわち、送信者端末装置と記載されていたとしても、他の端末装置からコンテンツを受信する場合には受信者端末装置になり得るし、受信者端末装置と記載されていたとしても、他の端末装置にコンテンツを送信する場合には送信者端末装置になり得る。 Furthermore, in this disclosure, "sender terminal device" and "receiver terminal device" are merely designations used to distinguish between terminal devices that transmit content and terminal devices that receive content. That is, even if a device is described as a sender terminal device, it can become a receiver terminal device if it receives content from another terminal device, and even if a device is described as a receiver terminal device, it can become a sender terminal device if it transmits content to another terminal device.
本開示において、「コンテンツ」は、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。このようなコンテンツには、一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、本開示においては、動画コンテンツには、動画コンテンツの配信サイト等を通じて配信されているコンテンツのみならず、例えばビデオ会議コンテンツ(カメラ機能をオフにして音声のみで送受信される場合も含む)、電話会議コンテンツ、デジタルサイネージ等の電子広告コンテンツなども含む。また、以下では、特に言及しない限り、コンテンツの例として動画コンテンツの場合を説明するが、当然にコンテンツが動画コンテンツに限定されるわけではない。 In this disclosure, "content" means a set of electronic information transmitted and received via a communication network. Examples of such content include video content, music content, game content, publication content, chat content, social networking service (SNS) content, web content, and combinations thereof. Among these, processing system 1 is preferably used for video content that includes at least image information containing multiple character objects as characters, and audio information associated with each character object. In this disclosure, video content includes not only content distributed through video content distribution sites, but also, for example, video conferencing content (including cases where only audio is transmitted and received with the camera function turned off), teleconferencing content, and electronic advertising content such as digital signage. Furthermore, unless otherwise specified, the following explanation will use video content as an example of content; however, content is not necessarily limited to video content.
本開示において、「オブジェクト」は、コンテンツ内に含まれるデータ又はそれを操作入力するための手段のことを意味する。このようなオブジェクトには、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト(例えば、図1AのキャラクタA及びキャラクタB)に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。 In this disclosure, "object" means data contained within content or means for manipulating and inputting such data. Examples of such objects include character objects, structural objects, decorative objects, text objects, image objects, GUI objects, and combinations thereof. Among these, the processing system 1 is preferably used for character objects included as characters within video content (for example, character A and character B in Figure 1A). In the following, unless otherwise specified, the example of an object will be a character object; however, objects are not necessarily limited to character objects.
本開示において、「処理装置」は、処理システム1を構成する装置のいずれかを意味するものであり、サーバ装置、送信者端末装置及び受信者端末装置のいずれであってもよい。また、処理装置は、これらいずれかの装置単体に限るものではなく、処理装置において行われる処理を分散して処理可能に複数の装置が組み合わされたものであってもよい。なお、「処理プログラム」及び「処理方法」は、当該処理装置において実行されるプログラム及び方法を意味する。 In this disclosure, "processing device" means any of the devices constituting the processing system 1, and may be a server device, a sender terminal device, or a receiver terminal device. Furthermore, the processing device is not limited to any single device, but may be a combination of multiple devices capable of distributing the processing performed by the processing device. "Processing program" and "processing method" mean the program and method executed in the said processing device.
2.処理システム1の構成
図1Bは、本開示の一実施形態に係る処理システム1の構成を示すブロック図である。図1Bによれば、処理システム1は、コンテンツ(例えば、動画コンテンツ)の処理をするためのサーバ装置100、コンテンツを送信する送信者端末装置200-1、及びコンテンツを受信する受信者端末装置200-2を含み、これらが通信ネットワークを介して通信可能に接続されている。
2. Diagram 1B of the configuration of the processing system 1 is a block diagram showing the configuration of the processing system 1 according to one embodiment of the present disclosure. According to Figure 1B, the processing system 1 includes a server device 100 for processing content (for example, video content), a sender terminal device 200-1 for transmitting content, and a receiver terminal device 200-2 for receiving content, and these are connected to each other so as to be able to communicate via a communication network.
なお、図1Bにおいて、送信者端末装置200-1及び受信者端末装置200-2はそれぞれ単一の装置が示されているが、当然に、それぞれ複数の装置が含まれていてもよい。 In Figure 1B, the sender terminal device 200-1 and the receiver terminal device 200-2 are shown as single devices, but naturally, each may include multiple devices.
また、図1Bにおいて、単一のサーバ装置100が示されているが、複数のサーバ装置や他の装置が組み合わされて処理や記憶を分散してもよい。この場合、サーバ装置100は、複数のサーバ装置や他の装置の組み合わせも含みうる。 Furthermore, although Figure 1B shows a single server device 100, multiple server devices and other devices may be combined to distribute processing and storage. In this case, the server device 100 may include combinations of multiple server devices and other devices.
3.サーバ装置100の構成
図2Aは、本開示の一実施形態に係るサーバ装置100の構成を示すブロック図である。サーバ装置100は、図2Aに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。サーバ装置100は単一の筐体に図2Aに図示する構成要素を備える必要はなく、サーバ装置100の各構成要素及び処理を複数の装置に分散することも可能である。
3. Configuration diagram 2A of the server device 100 is a block diagram showing the configuration of a server device 100 according to one embodiment of the present disclosure. The server device 100 does not need to have all of the components shown in Figure 2A; it is possible to omit some components or add other components. The server device 100 does not need to have all the components shown in Figure 2A in a single enclosure; it is possible to distribute each component and processing of the server device 100 across multiple devices.
図2Aによると、サーバ装置100は、CPU等から構成されるプロセッサ111、RAM、ROM、及び不揮発性メモリ、HDD等を含むメモリ112、及び通信インターフェイス113を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。 According to Figure 2A, the server device 100 includes a processor 111 composed of a CPU, RAM, ROM, and memory 112 including non-volatile memory and an HDD, and a communication interface 113. These components are electrically connected to each other via control lines and data lines.
プロセッサ111は、CPU(マイクロコンピュータ:マイコン)から構成され、メモリ112に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ111は、本開示に係るアプリケーションを実行するためのプログラムやOSを実行するためのプログラムをメモリ112から読み出して実行する。具体的には、プロセッサ111は、「通信インターフェイス113を介して、送信者端末装置200-1において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を送信者端末装置200-1から受信する処理」、及び「通信インターフェイス113を介して、受信したコンテンツを受信者端末装置200-2に送信する処理」等を、メモリ112に記憶されたプログラムに基づいて実行する。プロセッサ111は、主に一又は複数のCPUにより構成されるが、適宜GPUやFPGAなどを組み合わせてもよい。 The processor 111 is composed of a CPU (microcomputer) and functions as a control unit for controlling other connected components based on various programs stored in the memory 112. The processor 111 reads and executes programs for running the application and the OS from the memory 112. Specifically, the processor 111 executes processes such as "receiving speech information from the sender terminal device 200-1 via the communication interface 113, associated with each of the multiple objects included in the content generated in the sender terminal device 200-1," and "transmitting the received content to the receiver terminal device 200-2 via the communication interface 113," based on programs stored in the memory 112. The processor 111 is mainly composed of one or more CPUs, but a GPU, FPGA, etc., may be combined as appropriate.
メモリ112は、RAM、ROM、不揮発性メモリ、HDDを含み、記憶部として機能する。ROMは、本開示に係るアプリケーションやOSを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ111によってロードされ実行される。RAMは、ROMに記憶されたプログラムがプロセッサ111によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ112は、プロセッサ111が上記処理等を実行するためのプログラムを記憶する。 Memory 112 includes RAM, ROM, non-volatile memory, and HDD, and functions as a storage unit. ROM stores instruction commands for executing the application and OS related to this disclosure as programs. Such programs are loaded and executed by the processor 111. RAM is used to write and read data while the program stored in ROM is being processed by the processor 111. Non-volatile memory is memory where data is written and read as a result of program execution, and data written there is retained even after the program execution has finished. Specifically, memory 112 stores programs for the processor 111 to perform the above-mentioned processing.
通信インターフェイス113は、通信処理回路及びアンテナを介して、遠隔に設置された送信者端末装置200-1及び受信者端末装置200-2等の他の装置との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム1において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、LTE方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、IEEE802.11に代表されるような無線LANやBluetooth(登録商標)のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。 The communication interface 113 functions as a communication unit that transmits and receives information with other devices, such as the remotely installed transmitter terminal device 200-1 and receiver terminal device 200-2, via the communication processing circuit and antenna. The communication processing circuit performs processing to transmit and receive programs and various information used in the processing system 1 as processing progresses. The communication processing circuit processes based on a wideband wireless communication method, such as LTE, but can also process based on narrowband wireless communication methods such as wireless LAN (as represented by IEEE 802.11) or Bluetooth®, or contactless wireless communication methods. Furthermore, wired communication can be used in place of, or in addition to, wireless communication.
4.端末装置200の構成
図2Bは、本開示の一実施形態に係る端末装置200の構成を示すブロック図である。端末装置200は、図2Bに示す構成要素の全てを備える必要はなく、一部を省略した構成をとることも可能であるし、他の構成要素を加えることも可能である。また、端末装置200は、送信者端末装置200-1又は受信者端末装置200-2として利用されるが、両者が同一の構成を備える必要はなく、端末装置ごとに異なる構成を有してもよい。
4. Diagram 2B of the configuration of the terminal device 200 is a block diagram showing the configuration of the terminal device 200 according to one embodiment of the present disclosure. The terminal device 200 does not need to have all of the components shown in Figure 2B; it is possible to omit some components or to add other components. Furthermore, although the terminal device 200 is used as a sender terminal device 200-1 or a receiver terminal device 200-2, the two do not need to have the same configuration; each terminal device may have a different configuration.
図2Bによると、端末装置200は、CPU等から構成されるプロセッサ211、RAM、ROM、及び不揮発性メモリ、HDD等を含むメモリ212、通信インターフェイス213、入力インターフェイス214及び出力インターフェイス215を含む。そして、これらの各構成要素が制御ライン及びデータラインを介して互いに電気的に接続される。 According to Figure 2B, the terminal device 200 includes a processor 211 composed of a CPU, RAM, ROM, and memory 212 including non-volatile memory and HDD, a communication interface 213, an input interface 214, and an output interface 215. These components are electrically connected to each other via control lines and data lines.
プロセッサ211は、CPU(マイクロコンピュータ:マイコン)から構成され、メモリ212に記憶された各種プログラムに基づいて、接続された他の構成要素を制御するための制御部として機能する。プロセッサ211は、本開示に係るアプリケーションを実行するためのプログラムやOSを実行するためのプログラムをメモリ212から読み出して実行する。プロセッサ211は、主に一又は複数のCPUにより構成されるが、適宜GPUやFPGAなどを組み合わせてもよい。 The processor 211 consists of a CPU (microcomputer) and functions as a control unit for controlling other connected components based on various programs stored in the memory 212. The processor 211 reads and executes programs for running the application and the operating system from the memory 212. The processor 211 is mainly composed of one or more CPUs, but may be combined with a GPU, FPGA, etc., as appropriate.
プロセッサ111は、送信者端末装置200-1として機能する場合は、「入力インターフェイス214を介して送信者による操作入力を受け付けて、コンテンツを生成するためのアプリケーションプログラムを起動する処理」、「入力インターフェイス214を介して送信者による操作入力を受け付けて、コンテンツに含まれる複数のオブジェクトのうちのいずれか一つのオブジェクトを特定するために入力された識別情報に基づいて、当該いずれか一つのオブジェクトを選択する処理」、「入力インターフェイス214を介して、選択された当該いずれか一つのオブジェクトに関連付けて発話情報を入力する処理」、及び「通信インターフェイス213を介して、サーバ装置100に、画像情報及び発話情報を含むコンテンツを送信する処理」等を、メモリ212に記憶されたプログラムに基づいて実行する。 When the processor 111 functions as the sender terminal device 200-1, it executes the following processes based on a program stored in memory 212: "receiving operation input from the sender via the input interface 214 and starting an application program for generating content," "receiving operation input from the sender via the input interface 214 and selecting one of several objects included in the content based on the inputted identification information," "inputting speech information associated with the selected object via the input interface 214," and "transmitting content including image information and speech information to the server device 100 via the communication interface 213."
また、プロセッサ111は、受信者端末装置200-2として機能する場合は、「入力インターフェイス214を介して受信者による操作入力を受け付けて、コンテンツを出力するためのアプリケーションプログラムを起動し、所望のコンテンツの選択をする処理」、「通信インターフェイス213を介して、送信者端末装置200-1において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を含むコンテンツを送信者端末装置200-1から受信する処理」、「出力インターフェイス215を介して選択されたコンテンツを出力する処理」、「入力インターフェイス214を介してコンテンツに含まれる複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する処理」、及び「出力インターフェイス215を介してコンテンツに含まれる発話情報を出力するときに、選択された少なくとも一つのオブジェクトに関連付けられた発話情報を出力する処理」等を、メモリ212に記憶されたプログラムに基づいて実行する。 Furthermore, when the processor 111 functions as a receiver terminal device 200-2, it executes the following processes based on a program stored in memory 212: "receiving operation input from the receiver via the input interface 214, launching an application program for outputting content, and selecting the desired content"; "receiving content from the sender terminal device 200-1 via the communication interface 213, including speech information input associated with each of the multiple objects included in the content generated at the sender terminal device 200-1"; "outputting the selected content via the output interface 215"; "selecting at least one object from the multiple objects included in the content via the input interface 214"; and "outputting speech information associated with the selected at least one object when outputting speech information included in the content via the output interface 215."
メモリ212は、RAM、ROM又は不揮発性メモリを含み、記憶部として機能する。ROMは、本開示に係るアプリケーションやOSを実行するための指示命令をプログラムとして記憶する。このようなプログラムは、プロセッサ211によってロードされ実行される。RAMは、ROMに記憶されたプログラムがプロセッサ211によって処理されている間、データの書き込み及び読み込みを実行するために用いられる。不揮発性メモリは、当該プログラムの実行によってデータの書き込み及び読み込みが実行されるメモリであって、ここに書き込まれたデータは、当該プログラムの実行が終了した後でも保存される。具体的には、メモリ212は、プロセッサ211が上記処理等を実行するためのプログラムを記憶する。 Memory 212 includes RAM, ROM, or non-volatile memory and functions as a storage unit. ROM stores instruction commands for executing the application and OS according to this disclosure as a program. Such programs are loaded and executed by the processor 211. RAM is used to write and read data while the program stored in ROM is being processed by the processor 211. Non-volatile memory is memory in which data is written and read as a result of program execution, and the data written therein is retained even after the program execution has finished. Specifically, memory 212 stores programs for the processor 211 to perform the above-mentioned processing, etc.
通信インターフェイス213は、通信処理回路を介して、電気的に接続されたサーバ装置100や他の端末装置200との間で情報の送受信をする通信部として機能する。通信処理回路は、処理システム1において用いられるプログラムや各種情報等を処理の進行に応じて情報を送受信するための処理をする。通信処理回路は、LTE方式に代表されるような広帯域の無線通信方式に基づいて処理されるが、IEEE802.11に代表されるような無線LANやBluetooth(登録商標)のような狭帯域の無線通信に関する方式や非接触無線通信に関する方式に基づいて処理することも可能である。また、無線通信に代えて、又は加えて、有線通信を用いることも可能である。 The communication interface 213 functions as a communication unit that transmits and receives information between the electrically connected server device 100 and other terminal devices 200 via the communication processing circuit. The communication processing circuit performs processing to transmit and receive programs and various other information used in the processing system 1 as processing progresses. While the communication processing circuit processes based on a broadband wireless communication method such as LTE, it can also process based on narrowband wireless communication methods such as wireless LAN (as represented by IEEE 802.11) or Bluetooth®, or contactless wireless communication methods. Furthermore, wired communication can be used in place of, or in addition to, wireless communication.
入力インターフェイス214は、端末装置200に対する送信者又は受信者の操作入力や送信者又は受信者による各種情報の入力を受け付ける入力部として機能する。入力インターフェイス214の一例としては、キーボード、マウス等の各種ハードキーや、ディスプレイ装置のディスプレイに重畳して設けられディスプレイの表示座標系に対応する入力座標系を有するタッチパネルなどに加え、発話情報の一つである音声情報の入力を入力するためのマイク、画像を撮影するためのカメラなどの外部環境をセンシングするためのセンサ等が挙げられる。タッチパネルの場合、ディスプレイに入力したいコマンドに対応したアイコンが表示され、当該タッチパネルを介してユーザ又は事業者が操作入力を行うことで、各アイコンに対する選択が行われる。タッチパネルによる操作入力の検出方式は、静電容量式、抵抗膜式などいかなる方式であってもよい。入力インターフェイス214は、常に端末装置200に物理的に備えられる必要はなく、有線や無線ネットワークを介して必要に応じて接続されてもよい。 The input interface 214 functions as an input unit that accepts operation input from the sender or receiver to the terminal device 200, as well as input of various types of information by the sender or receiver. Examples of the input interface 214 include various hard keys such as keyboards and mice, a touch panel superimposed on the display of a display device and having an input coordinate system corresponding to the display's coordinate system, a microphone for inputting voice information (a type of spoken information), and sensors for sensing the external environment, such as a camera for capturing images. In the case of a touch panel, icons corresponding to the command to be input are displayed on the screen, and the user or business operator makes a selection of each icon by performing operation input via the touch panel. The detection method for operation input via the touch panel can be any method, such as capacitive or resistive. The input interface 214 does not always need to be physically provided on the terminal device 200; it may be connected via a wired or wireless network as needed.
出力インターフェイス215は、各種情報を出力するための出力部として機能する。出力インターフェイス215の一例としては、液晶パネル、有機ELディスプレイ又はプラズマディスプレイ等から構成されるディスプレイ装置等の外部装置又は外部機器と接続するためのインターフェイスが挙げられる。しかし、端末装置200そのものがディスプレイを有する場合には、当該ディスプレイが出力インターフェイスとして機能することが可能である。また、ディスプレイ装置などに対して通信インターフェイス213を介して接続されている場合には、当該通信インターフェイス213が出力インターフェイス215として機能することも可能である。 The output interface 215 functions as an output unit for outputting various types of information. An example of the output interface 215 is an interface for connecting to an external device or equipment, such as a display device composed of a liquid crystal panel, organic EL display, or plasma display. However, if the terminal device 200 itself has a display, that display can function as the output interface. Furthermore, if it is connected to a display device via a communication interface 213, the communication interface 213 can also function as the output interface 215.
6.コンテンツの例
本実施形態において、上記のとおり、送信者端末装置200-1においてコンテンツが生成され、サーバ装置100を介して受信者端末装置200-2に生成されたコンテンツが出力される。このようなコンテンツには複数のオブジェクトが含まれ、各オブジェクトに対して発話情報が対応付けられている。このようなコンテンツは、通信ネットワークを介して送受信されるひとまとまりの電子的な情報を意味する。その一例としては、動画コンテンツ、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、複数のオブジェクトであるキャラクタオブジェクトが登場人物として含まれる画像情報と各キャラクタオブジェクトに対してそれぞれ関連付けられた音声情報を少なくとも含む動画コンテンツに対して、好ましくは用いられる。なお、以下では、特に言及しない限り、コンテンツが動画コンテンツである場合を例に説明するが、当然にコンテンツが動画コンテンツのみに限定されるわけではなく、他のコンテンツであっても本実施形態に係る処理は同様に実行可能である。
6. Examples of Content In this embodiment, as described above, content is generated in the sender terminal device 200-1, and the generated content is output to the receiver terminal device 200-2 via the server device 100. Such content includes multiple objects, and speech information is associated with each object. Such content refers to a set of electronic information transmitted and received via a communication network. Examples include video content, music content, game content, publication content, chat content, SNS content, web content, and combinations thereof. Among these, the processing system 1 is preferably used for video content that includes at least image information in which multiple objects, namely character objects, are characters, and audio information associated with each character object. In the following, unless otherwise specified, the explanation will be given using the case where the content is video content as an example, but of course, the content is not limited to video content, and the processing according to this embodiment can be executed similarly even with other types of content.
図3は、本開示の一実施形態に係る送信情報として送信者端末装置200-1から送信される情報を概略的に示す図である。具体的には、図3は、送信者端末装置200-1において生成されメモリ212に記憶されたのちに、サーバ装置100に送信されコンテンツ管理テーブルに記憶される動画コンテンツの一例を示す図である。 Figure 3 is a schematic diagram illustrating information transmitted from the sender terminal device 200-1 as transmission information according to one embodiment of this disclosure. Specifically, Figure 3 shows an example of video content that is generated in the sender terminal device 200-1, stored in memory 212, and then transmitted to the server device 100 and stored in the content management table.
図3によると、動画コンテンツは、当該動画コンテンツのコンテンツID情報に対応付けて、画像情報と音声情報を含む。「コンテンツID情報」は、各動画コンテンツに対して固有の情報であり、各動画コンテンツを識別するための情報である。当該コンテンツID情報は、送信者端末装置200-1において新たな動画コンテンツの生成がされるたび、又はサーバ装置100において新たな動画コンテンツが受信されるたびに生成される。 According to Figure 3, video content includes image information and audio information, associated with the content ID information of the video content. "Content ID information" is unique to each video content and is used to identify each video content. This content ID information is generated each time new video content is generated at the sender terminal device 200-1, or each time new video content is received at the server device 100.
「画像情報」は、動画コンテンツを構成する画像データである。当該画像情報は、静止画像、動画像及びこれらの組み合わせのいずれであってもよい。このような画像情報は、送信者端末装置200-1において入力インターフェイス214の一つとして備えられたカメラによって実空間を撮影されたものであってもよいし、プロセッサ211の処理によって仮想的に生成されたものであってもよい。画像情報には、互いに識別可能である複数のオブジェクトが少なくとも含まれ、各オブジェクトに対応付けてオブジェクトID情報が付与されている。例えば、図3の例では、画像情報には、オブジェクトID情報が「B1」であるキャラクタAのキャラクタオブジェクトと、オブジェクトID情報が「B2」であるキャラクタBのキャラクタオブジェクトが含まれる。このようなオブジェクトは、一例としては、キャラクタオブジェクト、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。これらの中でも、処理システム1は、動画コンテンツ内において登場人物として含まれるようなキャラクタオブジェクト(例えば、図1AのキャラクタA及びキャラクタB)に対して、好ましくは用いられる。なお、以下では、特に言及しない限り、オブジェクトの例としてキャラクタオブジェクトの場合を説明するが、当然にオブジェクトがキャラクタオブジェクトに限定されるわけではない。 "Image information" refers to image data that constitutes the video content. This image information may be a still image, a moving image, or a combination thereof. Such image information may be captured from real space by a camera provided as one of the input interfaces 214 in the sender terminal device 200-1, or it may be virtually generated by the processing of the processor 211. The image information includes at least multiple objects that are identifiable from one another, and each object is assigned object ID information. For example, in the example in Figure 3, the image information includes a character object of character A with object ID information "B1" and a character object of character B with object ID information "B2". Examples of such objects include character objects, structural objects, decorative objects, text objects, image objects, GUI objects, and combinations thereof. Among these, the processing system 1 is preferably used for character objects that are included as characters in the video content (for example, character A and character B in Figure 1A). Note that, unless otherwise specified, the following explanation will describe the case of character objects as examples of objects, but of course, objects are not limited to character objects.
「音声情報」は、発話情報の一つであり、動画コンテンツを構成する音声データである。当該音声情報は、一例としては、送信者端末装置200-1において入力インターフェイス214の一つとして備えられたマイクによって送信者の音声等が入力された音声データである。ただし、これ以外にも、音声情報は、例えば、入力インターフェイス214を介して入力されたテキスト情報に基づいてキャラクタオブジェクトの音声を再現した音声データや、マイクによって入力された送信者の音声をテキスト化したテキストデータ、入力インターフェイス214を介して入力されたテキスト情報に基づいて生成されたテキストデータ、又はこれらのうちの少なくともいずれかを変換した他のデータであってもよい。このような音声情報は、典型的には、動画コンテンツに含まれる各オブジェクトの各オブジェクトID情報に対応付けて記憶される。例えば、図3の例では、キャラクタAのオブジェクトID情報である「B1」に対応付けて音声情報Aが記憶され、キャラクタBのオブジェクトID情報である「B2」に対応付けて音声情報Bが記憶され、いずれのオブジェクトID情報にも対応付けられていない音声情報としてBGM音声情報が記憶されている。 "Audio information" is a type of speech information and constitutes audio data that makes up the video content. For example, this audio information is audio data input by a microphone provided as one of the input interfaces 214 in the sender terminal device 200-1, containing the sender's voice, etc. However, the audio information may also be, for example, audio data that reproduces the voice of a character object based on text information input via the input interface 214, text data that transcribes the sender's voice input via the microphone, text data generated based on text information input via the input interface 214, or other data converted from at least one of these. Such audio information is typically stored in association with the object ID information of each object included in the video content. For example, in the example in Figure 3, audio information A is stored in association with "B1," which is the object ID information of character A, audio information B is stored in association with "B2," which is the object ID information of character B, and BGM audio information is stored as audio information not associated with any object ID information.
すなわち、図3によると、コンテンツID情報が「A1」である動画コンテンツがコンテンツの一例として示されている。当該動画コンテンツには、F1からFnの複数のフレームで構成され時間t0から時間tnの長さを有する動画である画像情報が含まれる。当該画像情報のうちの少なくともいずれかのフレームには、その登場人物として、オブジェクトID情報が「B1」であるキャラクタAと、オブジェクトID情報が「B2」であるキャラクタBが、それぞれオブジェクトとして含まれる。ここで、例えば図1Aで例示したように、送信者自らが自身の送信者端末装置200-1を使って、キャラクタA及びキャラクタBをそれぞれ演じ分けてる場合が想定されている。したがって。当該動画コンテンツには、時間t0で入力が開始され時間t2で入力が終了されたキャラクタAの音声情報Aが含まれる。また、当該動画コンテンツには、時間t1において送信者による操作入力が受け付けられることによって、時間t1で入力が開始され時間t4で入力が終了されたキャラクタBの音声情報Bが含まれる。また、当該動画コンテンツには、時間t3において送信者による操作入力が受け付けられることによって、時間t3で入力が開始され時間t6で入力が終了されたキャラクタAの音声情報Aが含まれる。また、当該動画コンテンツには、時間t5において送信者による操作入力が受け付けられることによって、時間t4で入力が開始され時間tnで入力が終了されたキャラクタBの音声情報Bが含まれる。さらに、時間t1から時間t6の期間においては、いずれのオブジェクトにも対応付けられていない音声情報としてBGM音声情報が含まれている。すなわち、図3の例では、例えば時間t1から時間t2、時間t3から時間t4、及び時間t5から時間t6では、キャラクタAの音声情報A及びキャラクタBの音声情報Bが同時に再生されることとなる。 In other words, as shown in Figure 3, a video content with content ID information "A1" is shown as an example of content. This video content includes image information that is a video consisting of multiple frames from F1 to Fn and having a length from time t0 to time tn. At least one of the frames of this image information includes, as characters, character A with object ID information "B1" and character B with object ID information "B2" as objects. Here, it is assumed that the sender himself is acting out character A and character B respectively using his own sender terminal device 200-1, as illustrated in Figure 1A. Therefore, this video content includes voice information A of character A, which is input started at time t0 and ended at time t2. Also, this video content includes voice information B of character B, which is input started at time t1 and ended at time t4, as a result of receiving operation input from the sender at time t1. Furthermore, the video content includes voice information A of character A, which was inputted at time t3 and ended at time t6, as the sender's input was received at time t3. The video content also includes voice information B of character B, which was inputted at time t4 and ended at time tn, as the sender's input was received at time t5. Additionally, during the period from time t1 to time t6, background music (BGM) audio information is included as audio information not associated with any object. That is, in the example in Figure 3, for example, from time t1 to time t2, from time t3 to time t4, and from time t5 to time t6, voice information A of character A and voice information B of character B are played simultaneously.
このように、コンテンツには、動画コンテンツを例にすると、コンテンツID情報に対応付けて、画像情報と音声情報が含まれる。また、当該画像情報には、時間(例えば、t0~tn)に同期するするように、時間に対応付けて動画を構成する各フレーム(画像データ)、各フレームを識別するフレームID情報(例えば、F1~Fn)、及び画像情報の少なくともいずれかのフレームに含まれる各オブジェクトを識別するオブジェクトID情報が含まれる。また、当該音声情報には、時間(例えば、t0~tn)に同期するように、時間に対応付けて各音声データ、及び各音声データに対応付けられたオブジェクトID情報(対応付けられたオブジェクトID情報がない場合もある)が含まれる。 Thus, in the case of video content, the content includes image information and audio information, associated with the content ID information. The image information includes each frame (image data) constituting the video, associated with time (e.g., t0 to tn), frame ID information identifying each frame (e.g., F1 to Fn), and object ID information identifying each object contained in at least one of the frames of the image information, synchronized with time (e.g., t0 to tn). The audio information includes each audio data, associated with time (e.g., t0 to tn), and object ID information associated with each audio data (although there may be cases where no associated object ID information exists).
なお、図3に示す動画コンテンツは、上記のとおりコンテンツの一例であるにすぎない。したがって、コンテンツとして動画コンテンツを用いる場合であっても、上記において例示する各種情報の全てを備える必要はないし、他の情報をさらに備えていてもよい。 The video content shown in Figure 3 is merely one example of content, as described above. Therefore, even when using video content, it is not necessary to include all of the various types of information exemplified above, and additional information may be included.
また、上記のとおり音声情報は発話情報の一つであり、発話情報は、オブジェクトのオブジェクトID情報に対応付けられ、送信者が入力した情報を再現可能な情報であればいずれでもよく、音声情報以外にも、例えばテキスト情報や画像情報であってもよい。 Furthermore, as mentioned above, audio information is a type of speech information. Speech information can be associated with the object ID information of an object, and can be any type of information that can reproduce the information entered by the sender. Besides audio information, it can also be text information or image information, for example.
7.処理システム1により実行さる処理シーケンス
図4は、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図4は、送信者端末装置200-1においてコンテンツが生成され、サーバ装置100を介して受信者端末装置200-2において生成されたコンテンツが出力されるまでの一連の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。
7. Processing Sequence Executed by Processing System 1 Figure 4 is a diagram showing a processing sequence executed by processing system 1 according to one embodiment of the present disclosure. Specifically, Figure 4 is a diagram showing a series of processing sequences from when content is generated in the sender terminal device 200-1 until the generated content is output to the receiver terminal device 200-2 via the server device 100. Processing in each device is executed by a processor processing a program stored in the memory of each device.
(A)コンテンツの生成に係る処理
図4によると、まず、主に送信者端末装置200-1においてコンテンツの生成に係る処理が実行される。送信者端末装置200-1のプロセッサ211は、入力インターフェイス214を介して送信者による操作入力を受付て、コンテンツの生成のためのアプリケーションプログラムをメモリ212から読み出して、当該アプリケーションプログラムの起動を行う(S11)。アプリケーションプログラムが起動されると、プロセッサ211は、図3に示すように、コンテンツの画像情報として、フレームF1である画像データの記憶を開始する。このとき、プロセッサ211は、入力インターフェイス214を介して、コンテンツの画像情報に含まれるオブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると(S12)、出力インターフェイス215を介して音声入力画面を出力する。
(A) Processing related to content generation As shown in Figure 4, first, the processing related to content generation is mainly performed in the sender terminal device 200-1. The processor 211 of the sender terminal device 200-1 receives operation input from the sender via the input interface 214, reads the application program for content generation from the memory 212, and starts the application program (S11). When the application program is started, the processor 211 starts storing the image data, which is frame F1, as image information of the content, as shown in Figure 3. At this time, when the processor 211 receives operation input from the sender via the input interface 214 to request input of audio information associated with an object included in the image information of the content (S12), it outputs an audio input screen via the output interface 215.
ここで、図6は、本開示の一実施形態に係る送信者端末装置200-1において出力される画面の例を示す図である。具体的には、図6は、送信者端末装置200-1において図4のS12において音声情報の入力を所望するための送信者による操作入力を受け付けたときに出力される音声入力画面10の例を示す図である。図6によると、音声入力画面10には、「アプリケーションA」というアプリケーションプログラムの名称と共に、画像情報表示領域11とオブジェクト選択領域12が含まれる。画像情報表示領域11には、現在録画されている画像情報として、例えばフレームF1の画像データ13が出力されている。当該画像データ13には、その中にキャラクタオブジェクトとしてキャラクタAの画像14及びキャラクタBの画像15が含まれる。 Here, Figure 6 shows an example of a screen output in a sender terminal device 200-1 according to one embodiment of the present disclosure. Specifically, Figure 6 shows an example of a voice input screen 10 output when the sender terminal device 200-1 receives an operation input from the sender requesting voice information input in S12 of Figure 4. According to Figure 6, the voice input screen 10 includes the name of the application program, "Application A," along with an image information display area 11 and an object selection area 12. The image information display area 11 outputs image data 13 of frame F1, for example, as currently recorded image information. This image data 13 includes an image 14 of character A and an image 15 of character B as character objects.
ここで、画像14で示されるキャラクタAにはオブジェクトID情報として「B1」が、画像15で示されるキャラクタBにはオブジェクトID情報として「B2」が付与される。当該オブジェクトID情報の付与は、例えばカメラによって動画撮影が行われているときに、プロセッサ211が物体検知処理を実行することによって各フレーム内に含まれるオブジェクトを検知するとともに、各オブジェクトが初めて検知されたタイミングで各プロジェクトに対してオブジェクトID情報を割り当てることによって行われる。また、当該オブジェクトID情報の付与は、例えば送信者端末装置200-1によって仮想空間上に仮想的に画像情報を生成する場合には、プロセッサ211がその生成時に描画されるオブジェクトに対してオブジェクトID情報を割り当てることによって行われる。したがって、図6の例では、たまたまキャラクタAの画像14及びキャラクタBの画像15のみが含まれているが、新たに他のキャラクタの画像が含まれる場合には当該他のキャラクタのキャラクタID情報が生成されることとなる。 Here, character A shown in image 14 is assigned object ID information "B1", and character B shown in image 15 is assigned object ID information "B2". This assignment of object ID information is performed, for example, when video recording is being performed by a camera, by the processor 211 executing object detection processing to detect objects included in each frame, and assigning object ID information to each project at the moment each object is first detected. Furthermore, when, for example, the sender terminal device 200-1 virtually generates image information in a virtual space, the processor 211 assigns object ID information to the objects drawn during that generation. Therefore, in the example of Figure 6, only images 14 of character A and 15 of character B happen to be included, but if images of other characters are newly included, character ID information for those other characters will be generated.
オブジェクト選択領域12には、画像情報に含まれるオブジェクトのうちオブジェクトID情報が付与されたオブジェクトに対応して各オブジェクトを選択するためのアイコンが含まれる。図6の例では、オブジェクト選択領域12には、キャラクタAに対応してキャラクタAアイコン16と、キャラクタBに対応してキャラクタBアイコン17が含まれる。プロセッサ211は、入力インターフェイス214を介してオブジェクト選択領域12に含まれるいずれかのアイコン(例えば、キャラクタAアイコン16及びキャラクタBアイコン17のいずれか)に対する送信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図6の例では、キャラクタAアイコン16が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトID情報として、キャラクタAのオブジェクトID情報(すなわち、「B1」)が選択されたことを示している。 The object selection area 12 contains icons for selecting objects corresponding to objects in the image information that have been assigned object ID information. In the example in Figure 6, the object selection area 12 includes a character A icon 16 corresponding to character A and a character B icon 17 corresponding to character B. When the processor 211 receives an operation input from the sender for any of the icons in the object selection area 12 (for example, either character A icon 16 or character B icon 17) via the input interface 214, it selects the character corresponding to the icon for which the operation input was made. In the example in Figure 6, character A icon 16 is displayed in a way that allows it to be identified from the other icons, indicating that the object ID information of character A (i.e., "B1") has been selected as the object ID information of the character to which the incoming audio information will be associated.
再び図4に戻り、図6に示すとおり、音声情報の入力を所望するキャラクタのオブジェクトID情報が選択されると、送信者端末装置200-1のプロセッサ211は、入力インターフェイス214を介して当該オブジェクトID情報に対応付けて音声情報の入力を受け付ける(S13)。具体的には、プロセッサ211は、音声情報が入力されている時間(例えば、T0)に対応付けられた画像情報の各フレームに同期して、入力インターフェイス214の一つであるマイクから送信者が発話した音声データを音声情報としてメモリ212に記憶する。 Returning to Figure 4, as shown in Figure 6, when the object ID information of a character for which voice information input is desired is selected, the processor 211 of the sender terminal device 200-1 accepts the voice information input via the input interface 214, associating it with the object ID information (S13). Specifically, the processor 211 stores the voice data spoken by the sender from the microphone, which is one of the input interfaces 214, as voice information in the memory 212, synchronized with each frame of the image information associated with the time (e.g., T0) during which the voice information is being input.
送信者端末装置200-1のプロセッサ211は、S11~S13の画像情報の録画、音声情報を対応付けるオブジェクトID情報の選択、及び音声情報の入力を繰り返し、例えば図3に例示する、コンテンツID情報が「A1」のコンテンツの生成を行う。プロセッサ211は、コンテンツの生成が終了すると、コンテンツID情報に対応付けてメモリ212に記憶するとともに、通信インターフェイス213を介してサーバ装置100に生成したコンテンツ(T11)を送信する。 The processor 211 of the sender terminal device 200-1 repeatedly performs the recording of image information, the selection of object ID information to associate with audio information, and the input of audio information as described in S11 to S13, thereby generating content with content ID information "A1," as illustrated in Figure 3. Once content generation is complete, the processor 211 stores the generated content (T11) in memory 212, associating it with the content ID information, and transmits the generated content to the server device 100 via the communication interface 213.
サーバ装置100のプロセッサ111は、送信者端末装置200-1からコンテンツを受信すると、コンテンツID情報に対応付けて、メモリ112のコンテンツ管理テーブル(図示しない)に受信したコンテンツを記憶する(S14)。具体的には、サーバ装置100のプロセッサ111は、例えば図3で示されたコンテンツに含まれる各情報(画像情報、オブジェクトID情報及び音声情報など)を、メモリ112のコンテンツ管理テーブル(図示しない)にコンテンツID情報に対応付けて記憶する。以上により、コンテンツの生成に係る処理を終了する。 When the processor 111 of the server device 100 receives content from the sender terminal device 200-1, it stores the received content in the content management table (not shown) of memory 112, associating it with the content ID information (S14). Specifically, the processor 111 of the server device 100 stores each piece of information (image information, object ID information, and audio information, etc.) included in the content shown in Figure 3, associating it with the content ID information in the content management table (not shown) of memory 112. With this, the processing related to content generation is completed.
なお、図4においては、送信者端末装置200-1のプロセッサ211は、コンテンツの生成が終了したタイミングでサーバ装置100に当該コンテンツを送信したが、所定のフレーム数やデータ量のコンテンツが生成されるごとに分割してコンテンツを送信するようにしてもよい。 In Figure 4, the processor 211 of the sender terminal device 200-1 transmitted the content to the server device 100 when content generation was completed. However, the content may be divided and transmitted each time a predetermined number of frames or amount of data is generated.
また、図4においては、画像情報の録画をしつつ音声情報の入力をすることを前提に説明したが、送信者端末装置200-1のプロセッサ211は、最初に画像情報を生成しておき、後から画像情報の各フレームに同期して、音声情報の入力を行うようにしてもよい。例えば、図3に示す例においては、時間t1から時間t2において音声情報A及び音声情報Bが重複して入力されているが、これらは画像情報が生成されたのちに、各音声情報を各フレームに同期して入力することによって、同じ送信者がキャラクタA及びキャラクタBを演じ分けることが可能となる。 Furthermore, while Figure 4 describes the process assuming simultaneous recording of image information and input of audio information, the processor 211 of the transmitter terminal device 200-1 may first generate the image information and then input the audio information in synchronization with each frame of the image information. For example, in the example shown in Figure 3, audio information A and audio information B are input simultaneously from time t1 to time t2. However, by inputting each audio information in synchronization with each frame after the image information has been generated, the same transmitter can perform both character A and character B.
また、図4においては特に図示はしていないものの、図3に示すように、特定のオブジェクトのオブジェクトID情報に関連付けられていない音声情報(例えば、BGM音声情報)も入力することが可能である。 Furthermore, although not specifically illustrated in Figure 4, as shown in Figure 3, it is also possible to input audio information that is not associated with the object ID information of a specific object (for example, background music audio information).
(B)コンテンツの出力に係る処理
次に、図4によると、主に受信者末装置200-2においてコンテンツの出力に係る処理が実行される。当該処理は、例えばコンテンツが動画コンテンツである場合には、受信者端末装置200-2において所望の動画コンテンツを選択し、当該動画コンテンツを再生する処理である。受信者端末装置200-2のプロセッサ211は、入力インターフェイス214を介して受信者による操作入力を受付て、コンテンツの出力のためのアプリケーションプログラムをメモリ212から読み出して、当該アプリケーションプログラムの起動を行う(S21)。アプリケーションプログラムが起動されると、プロセッサ211は、出力インターフェイス215を介して、例えば、受信者端末装置200-2において出力が可能な一又は複数の動画コンテンツを選択するためのサムネイル画像が一覧として表示されたコンテンツ選択画面を出力する。そして、プロセッサ211は、入力インターフェイス214を介してコンテンツ選択画面内の一欄の中から所望のコンテンツのサムネイル画像を選択するための受信者による操作入力を受付て、出力するコンテンツの選択をする(S22)。プロセッサ211は、通信インターフェイス213を介して、選択されたコンテンツに対応付けられたコンテンツID情報(例えば、コンテンツID情報が「A1」)と共に、当該コンテンツの送信を所望するためのコンテンツ要求(T21)をサーバ装置100に送信する。
(B) Processing related to content output Next, as shown in Figure 4, processing related to content output is mainly performed in the receiver terminal device 200-2. This processing involves, for example, if the content is video content, selecting the desired video content in the receiver terminal device 200-2 and playing the video content. The processor 211 of the receiver terminal device 200-2 receives operation input from the receiver via the input interface 214, reads an application program for content output from the memory 212, and starts the application program (S21). Once the application program is started, the processor 211 outputs a content selection screen via the output interface 215, which displays a list of thumbnail images for selecting one or more video content that can be output in the receiver terminal device 200-2. The processor 211 then receives operation input from the receiver via the input interface 214 to select the thumbnail image of the desired content from the list in the content selection screen and selects the content to be output (S22). The processor 211 transmits a content request (T21) to the server device 100 via the communication interface 213, along with content ID information associated with the selected content (for example, content ID information is "A1"), requesting that the content be transmitted.
サーバ装置100のプロセッサ111は、通信インターフェイス113を介して受信者端末装置200-2からコンテンツ要求を受信すると、一緒に受信したコンテンツID情報(例えば、A1)に基づいてコンテンツ管理テーブルを参照し、コンテンツ(例えば図3に例示された情報)を読み出す(S23)。プロセッサ111は、通信インターフェイス113を介して、コンテンツ要求を送信してきた受信者端末装置200-2に読み出したコンテンツ(T22)を送信する。 When the processor 111 of the server device 100 receives a content request from the receiver terminal device 200-2 via the communication interface 113, it refers to the content management table based on the content ID information (e.g., A1) received along with the request and reads the content (e.g., the information illustrated in Figure 3) (S23). The processor 111 then transmits the read content (T22) to the receiver terminal device 200-2 that sent the content request via the communication interface 113.
受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介してコンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する(S24)。ここで、受信者端末装置200-2のプロセッサ211は、入力インターフェイス214を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトID情報が対応付けられている場合には、受信者の操作入力を介して、出力する音声情報を選択することが可能である。すなわち、プロセッサ211は、オブジェクトに関連付けて音声情報の入力を所望するための送信者による操作入力を受け付けると(S25)、出力インターフェイス215を介して出力する音声情報の選択を行い、出力される音声情報を変更する処理を実行する(S26)。なお、S24~S26に係る一連の処理の詳細については、図5において後述する。 The processor 211 of the receiver terminal device 200-2 receives content via the communication interface 213 and outputs the received content via the output interface 215 (S24). Here, the processor 211 of the receiver terminal device 200-2 can select the audio information to be output via the receiver's operation input if the received content is associated with an object ID information corresponding to a frame constituting the currently outputting image information, via the input interface 214. That is, when the processor 211 receives operation input from the sender requesting audio information to be input associated with an object (S25), it selects the audio information to be output via the output interface 215 and executes a process to change the output audio information (S26). Details of the series of processes related to S24 to S26 will be described later in Figure 5.
そして、受信者端末装置200-2は、S24~S26のコンテンツの出力、オブジェクトの選択、及びその選択に応じて出力する音声情報の変更を繰り返し、時間tnに達すると、コンテンツの出力を終了する。以上により、コンテンツの出力に係る処理を終了する。 The receiver terminal device 200-2 then repeatedly outputs content, selects objects, and modifies the audio information output according to the selection, as described in S24-S26. When time tn is reached, it terminates the content output. Thus, the process related to content output is completed.
なお、図4においては、受信者端末装置200-2のプロセッサ211は、コンテンツをサーバ装置100からひとまとまりのデータとして受信しているが、所定のフレーム数やデータ量ごとに受信し、順次出力するようにしてもよい。 In Figure 4, the processor 211 of the receiver terminal device 200-2 receives the content from the server device 100 as a single data set. However, it may also receive the content in predetermined frame or data chunks and output it sequentially.
8.受信者端末装置200-2の処理フロー
図5は、本開示の一実施形態に係るサーバ装置100において実行される処理フローを示す図である。具体的には、図5、図4のS24~S26において受信者末装置200-2が行うコンテンツの出力に係る処理のフローを示す図である。当該処理フローは、主に受信者端末装置200-2がメモリ212に記憶されたプログラムを読み出して実行することにより行われる。
8. The processing flow diagram 5 of the receiver terminal device 200-2 is a diagram showing the processing flow executed in the server device 100 according to one embodiment of the present disclosure. Specifically, it is a diagram showing the processing flow related to content output performed by the receiver terminal device 200-2 in steps S24 to S26 of Figure 4. This processing flow is mainly performed by the receiver terminal device 200-2 reading and executing a program stored in the memory 212.
図5によると、プロセッサ211は、通信インターフェイス213を介して、サーバ装置100から所望するコンテンツ(例えば、図3に示すコンテンツID情報がA1のコンテンツ)を受信する(S111)。そして、プロセッサ211は、コンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する。具体的には、プロセッサ211は、出力インターフェイス215の一つであるディスプレイを介して、受信したコンテンツに含まれる画像情報をフレームF1から順次出力する。また、プロセッサ211は、出力インターフェイス215の一つであるスピーカーを介して、受信したコンテンツに含まれる音声情報を出力する画像情報のフレームに同期して出力する。図3の例では、時間t0からキャラクタAの音声情報Aが出力され、時間t1になると音声情報Aに加えてキャラクタBの音声情報B及びBGM音声情報がそれぞれ出力されることになる。 According to Figure 5, the processor 211 receives desired content (for example, content with content ID information A1 as shown in Figure 3) from the server device 100 via the communication interface 213 (S111). Upon receiving the content, the processor 211 outputs it via the output interface 215. Specifically, the processor 211 outputs the image information contained in the received content sequentially from frame F1 via the display, which is one of the output interfaces 215. The processor 211 also outputs the audio information contained in the received content via the speaker, another output interface 215, synchronized with the image information frames. In the example in Figure 3, character A's audio information A is output from time t0, and at time t1, in addition to audio information A, character B's audio information B and BGM audio information are output.
プロセッサ211は、入力インターフェイス214を介して、受信したコンテンツに、現在出力している画像情報を構成するフレームにオブジェクトID情報が対応付けられている場合には、入力インターフェイス214を介して受信者の操作入力を受け付けて、出力する音声情報を選択することが可能である。したがって、プロセッサ211は、当該操作入力を受け付けることによって、オブジェクトの選択がされたか否かを判断する(S113)。 The processor 211, via the input interface 214, can receive operation input from the receiver via the input interface 214 and select the audio information to be output if object ID information is associated with the frame constituting the currently outputting image information in the received content. Therefore, the processor 211 determines whether or not an object has been selected by receiving this operation input (S113).
ここで、図7は、本開示の一実施形態に係る受信者端末装置200-2において出力される画面の例を示す図である。具体的には、図7は、受信者端末装置200-2において図5のS112~S113において出力する音声情報を選択するための受信者による操作入力を受け付けたときのコンテンツ出力画面20の例を示す図である。図7によると、コンテンツ出力画面20には、「アプリケーションB」というアプリケーションプログラムの名称と共に、画像情報表示領域21とオブジェクト選択領域22が含まれる。画像情報表示領域21には、現在出力されている画像情報として、例えばフレームF3の画像データ23が出力されている。当該画像データ23には、その中にキャラクタオブジェクトとしてキャラクタAの画像24及びキャラクタBの画像25が含まれる。画像24で示されるキャラクタAにはオブジェクトID情報として「B1」が、画像25で示されるキャラクタBにはオブジェクトID情報として「B2」が付与されている。 Here, Figure 7 shows an example of a screen output in a receiver terminal device 200-2 according to one embodiment of the present disclosure. Specifically, Figure 7 shows an example of a content output screen 20 when the receiver terminal device 200-2 receives operation input from a receiver to select the audio information to be output in steps S112 to S113 of Figure 5. According to Figure 7, the content output screen 20 includes the name of the application program, "Application B," along with an image information display area 21 and an object selection area 22. The image information display area 21 displays image data 23 of frame F3, for example, as the currently output image information. This image data 23 includes an image 24 of character A and an image 25 of character B as character objects. Character A, shown in image 24, is assigned the object ID information "B1," and character B, shown in image 25, is assigned the object ID information "B2."
オブジェクト選択領域22には、音声情報のうち、現在出力されている画像情報のフレームに同期する音声情報に対応付けられたオブジェクトID情報に対応して、各オブジェクトすなわちキャラクタを選択するためのアイコンが含まれる。例えば、図3の時間t1から時間t2のいずれかのタイミングのコンテンツ出力画面20を例にすると、当該時間ではキャラクタAの音声情報A及びキャラクタBの音声情報Bの両方が出力されている。したがって、オブジェクト選択領域22には、キャラクタAに対応してキャラクタAアイコン26と、キャラクタBに対応してキャラクタBアイコン27が含まれる。プロセッサ211は、入力インターフェイス214を介してオブジェクト選択領域22に含まれるいずれかのアイコン(例えば、キャラクタAアイコン26及びキャラクタBアイコン27のいずれか)に対する受信者の操作入力を受け付けると、当該操作入力がされたアイコンに対応するキャラクタを選択する。図7の例では、キャラクタAアイコン26が他のアイコンに対して識別可能に表示されているが、これから入力される音声情報が対応付けられるキャラクタのオブジェクトID情報として、キャラクタAのオブジェクトID情報(すなわち、「B1」)が選択されたことを示している。 The object selection area 22 contains icons for selecting each object, i.e., character, corresponding to the object ID information associated with the audio information synchronized with the currently output image frame. For example, in the content output screen 20 at either time t1 or t2 in Figure 3, both audio information A for character A and audio information B for character B are output at that time. Therefore, the object selection area 22 includes a character A icon 26 corresponding to character A and a character B icon 27 corresponding to character B. When the processor 211 receives a user input via the input interface 214 for any of the icons in the object selection area 22 (for example, either character A icon 26 or character B icon 27), it selects the character corresponding to the icon for which the user input was made. In the example in Figure 7, character A icon 26 is displayed identifiable from the other icons, indicating that the object ID information of character A (i.e., "B1") has been selected as the object ID information of the character to which the incoming audio information will be associated.
なお、図7の例では、オブジェクト選択領域22には、現在出力されているフレームに含まれるキャラクタに対応して、出力する音声情報を選択するためのアイコンを含むようにした。しかし、これに限らず、コンテンツ全体において少なくとも1フレームにおいて登場するキャラクタについては、常に音声情報を選択するためのアイコンを含むようにし、音声情報が出力されていないときであっても音声情報の選択ができるようにしてもよい。 In the example shown in Figure 7, the object selection area 22 includes an icon for selecting the audio information to be output, corresponding to the character included in the currently outputting frame. However, this is not limited to this example. For characters appearing in at least one frame throughout the entire content, an icon for selecting audio information may always be included, allowing for audio information selection even when no audio information is being output.
また、図5のS113及び図7においては、受信者による操作入力を入力インターフェイス214で受け付けることによってオブジェクトを選択する場合について説明した。しかし、これに代えて、又はこれに加えて、入力インターフェイス214として、マイクやカメラなどのセンサを使ってオブジェクトを選択することも可能である。例えば、プロセッサ211は、カメラを利用して受信者端末装置200-2を利用している受信者の属性(例えば、年齢、性別など)を認識する。そして、プロセッサ211は、その認識結果に基づいて音声の出力をするオブジェクトの選択を行う。例えば、受信者端末装置200-2としてデジタルサイネージ用の端末装置を用意し、当該端末装置に搭載されたカメラにおいて当該端末装置のディスプレイを参照しているユーザ(受信者)の属性を認識する。そして、ユーザ(受信者)が「子供」であると認識された場合には子供向けのオブジェクト(例えば、動物キャラクタ)以外の音声をミュートにし、「大人」であると認識された場合には大人向けのオブジェクト(例えば、人間キャラクタ)以外の音声をミュートにする。このように、入力インターフェイス214としてカメラ等のセンサを用いることによってより多様な選択の方法を実現することが可能である。 Furthermore, Figures 5 (S113) and 7 illustrate the case where an object is selected by receiving operation input from the receiver via the input interface 214. However, it is also possible to select objects using sensors such as microphones or cameras as the input interface 214, either as an alternative or in addition to this. For example, the processor 211 uses the camera to recognize the attributes of the receiver using the receiver terminal device 200-2 (e.g., age, gender, etc.). The processor 211 then selects objects for audio output based on this recognition result. For example, a digital signage terminal device could be provided as the receiver terminal device 200-2, and the camera mounted on the terminal device could recognize the attributes of the user (receiver) viewing the terminal device's display. If the user (receiver) is recognized as a "child," audio from objects other than child-oriented objects (e.g., animal characters) would be muted; if the user is recognized as an "adult," audio from objects other than adult-oriented objects (e.g., human characters) would be muted. In this way, using sensors such as cameras as the input interface 214 makes it possible to realize a wider variety of selection methods.
再び図5に戻り、図7に示すとおり、音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、プロセッサ211は選択されたキャラクタの音声情報のみを出力し、それ以外のキャラクタの音声情報の出力を制限(例えば、ミュート)する(S114)。すなわち、プロセッサ211は、図3の時間t1から時間t2において、キャラクタAのオブジェクトID情報が選択されると、キャラクタBの音声情報Bの出力インターフェイス215(例えば、スピーカ)からの出力を制限し、キャラクタAの音声情報Aのみが出力されるようにする。一方で、S113においていずれのオブジェクトの選択も行われていない場合には、S114に係る処理はスキップする。 Returning to Figure 5, as shown in Figure 7, when the object ID information of a character whose audio information output is desired is selected, the processor 211 outputs only the audio information of the selected character and restricts (e.g., mutes) the output of audio information of other characters (S114). That is, between time t1 and time t2 in Figure 3, if the object ID information of character A is selected, the processor 211 restricts the output from the output interface 215 (e.g., speaker) of character B's audio information B, so that only character A's audio information A is output. On the other hand, if no object is selected in S113, the process related to S114 is skipped.
プロセッサ211は、時間t0~tnに至る一連のコンテンツの出力を終了するまで、S112~S114に係る処理を常に繰り返す。以上により、本処理フローを終了する。 Processor 211 continuously repeats the processes described in S112 to S114 until it has finished outputting the series of content from time t0 to tn. This completes the processing flow.
なお、ここでは、キャラクタAの音声情報A及びキャラクタBの音声情報Bのみがコンテンツに含まれる場合を説明しているために、キャラクタAが選択された場合には音声情報Bの出力が制限され、音声情報Aのみが出力されるとした。しかし、図7において選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。 In this explanation, we are describing a scenario where only the voice information A for character A and the voice information B for character B are included in the content. Therefore, when character A is selected, the output of voice information B is restricted, and only voice information A is output. However, in Figure 7, the output of the selected character's voice information may be restricted, while the voice information of the unselected character is output without restriction.
また、3以上の音声情報がコンテンツに含まれている場合には、
(1)選択された一のキャラクタの音声情報のみを出力し、残りのキャラクタ全ての音声情報の出力を制限
(2)選択された一のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
(3)選択された複数のキャラクタの音声情報を出力し、残りのキャラクタ全ての音声情報の出力を制限
(4)選択された複数のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
など、様々な組み合わせで音声情報を出力することができる。
Furthermore, if the content contains three or more audio pieces,
Audio information can be output in various combinations, such as (1) outputting only the audio information of one selected character and restricting the output of audio information for all remaining characters, (2) restricting the output of audio information for one selected character and outputting audio information for all remaining characters, (3) outputting audio information for multiple selected characters and restricting the output of audio information for all remaining characters, or (4) restricting the output of audio information for multiple selected characters and outputting audio information for all remaining characters.
また、音声情報の出力の制限の方法も、上記の例では「ミュート」する場合を例に挙げたが、出力されるときの音量を変更したり(例えば、小さくする)、通常に出力する音声情報には字幕のテキスト情報を同時に出力するが制限する音声情報の字幕は出力しなかったり、他の様々な制限の方法が採用されてよい。 Furthermore, while the above example used "muting" as a method for restricting audio output, various other restriction methods can be employed. These include changing the output volume (for example, lowering it), simultaneously outputting subtitle text information with normally outputted audio, but not outputting subtitles for restricted audio.
以上、本実施形態においては、受信者等のユーザにとってより使い勝手の良い処理装置、処理プログラム及び処理方法を提供することが可能である。特に、出力されるコンテンツに複数の発話情報(例えば、音声情報)が含まれているような場合には、出力する発話情報(例えば、音声情報)を受信者の選択によって選ぶことが可能である。例えば、従来では、一部のオブジェクトに対応付けられた音声情報を出力したくないという場合、受信者端末装置200-2等において音量ボタンによる制御を行うことで出力の制限がされていた。したがって、全ての音声情報の出力が制限されることとなった。しかし、本実施形態では、受信者が所望するタイミングで、受信者が所望するオブジェクトに対応付けられた音声情報のみを選択的に出力したり、選択的に出力の制限をすることが可能となる。 In this embodiment, it is possible to provide a processing device, processing program, and processing method that are more user-friendly for users such as receivers. In particular, when the output content includes multiple speech information (e.g., voice information), it is possible for the receiver to select which speech information (e.g., voice information) to output. For example, conventionally, if the receiver did not want to output voice information associated with certain objects, the output was limited by controlling the volume using a volume button on the receiver terminal device 200-2, etc. Therefore, the output of all voice information was limited. However, in this embodiment, it is possible to selectively output only the voice information associated with the object desired by the receiver at the timing desired by the receiver, or to selectively limit the output.
9.変形例
以下に、図1~図7に示す上記実施形態においける変形例を示す。なお、以下の変形例及び図1~図7に示す実施形態は、相互に組み合わせて実施することも可能である。また、以下において特に言及する点を除いて、図1~図7に示す実施形態において説明した点と同様に処理することが可能である。
9. Modifications Below are modifications of the above embodiment shown in Figures 1 to 7. Note that the following modifications and the embodiment shown in Figures 1 to 7 can be combined and implemented. Furthermore, except for points specifically mentioned below, the process can be carried out in the same manner as described in the embodiment shown in Figures 1 to 7.
(A)音声情報の選択に係る変形例1
上記においては、図4等に示すように、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置200-2のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、サーバ装置100のプロセッサ111によって再編成されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。
(A) Variation 1 of the selection of audio information
In the above, as shown in Figure 4, etc., the case described is one in which the audio information associated with the character selected in the receiver terminal device 200-2 is selected by the processor 211 of the receiver terminal device 200-2, and the output of audio information for other characters is restricted. However, instead, the audio information associated with the character selected in the receiver terminal device 200-2 may be reorganized by the processor 111 of the server device 100, and the output of audio information for other characters may be restricted.
図8Aは、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図8Aは、発話情報の一つである音声情報の選択に係る処理がサーバ装置100のプロセッサ111によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。 Figure 8A is a diagram showing a processing sequence executed in a processing system 1 according to one embodiment of this disclosure. Specifically, Figure 8A shows a processing sequence when the processing related to the selection of speech information, which is one of the speech information, is performed by the processor 111 of the server device 100. Processing in each device is executed by the processor processing a program stored in the memory of each device.
なお、コンテンツ生成に係るS31~S34に係る処理は、図4に示すコンテンツ生成に係るS11~S14に係る処理と同じであるため、その説明は省略する。 Note that the processes related to content generation in S31 to S34 are the same as the processes related to content generation in S11 to S14 shown in Figure 4, therefore their explanation is omitted.
また、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのS41~S45に係る処理は、図4に示すコンテンツ出力に係る処理のうちのS21~S25に係る処理と同じであるため、その説明は省略する。 Furthermore, regarding the content output process, the processes S41 to S45, which involve receiving the content output, launching the application program, outputting the desired content via the output interface, and selecting the audio information associated with the desired object, are the same as the processes S21 to S25 shown in Figure 4 regarding the content output process; therefore, their explanation is omitted.
図7に示す方法等により音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介して、現在出力するコンテンツのコンテンツID情報と選択されたオブジェクトID情報を含むオブジェクト選択情報(T43)をサーバ装置100に送信する。 When the object ID information of a character from which audio information output is desired is selected using the method shown in Figure 7, the processor 211 of the receiver terminal device 200-2 transmits object selection information (T43), which includes the content ID information of the content to be output and the selected object ID information, to the server device 100 via the communication interface 213.
サーバ装置100のプロセッサ111は、オブジェクト選択情報を受信すると、コンテンツID情報に対応付けられたコンテンツをメモリ112から読み出して、当該コンテンツを再編成する処理を実行する(S46)。具体的には、プロセッサ111は、読み出されたコンテンツに含まれる音声情報A及び音声情報Bのうち、選択されたオブジェクトID情報に対応付けられた音声情報(図7の例では音声情報A)をそのままにし、選択されなかった他の音声情報(図7の例では音声情報B)を当該コンテンツから削除する。そして、プロセッサ111は、上記処理によりコンテンツを再編成すると、再編成後のコンテンツを新たにメモリ112に記憶するとともに、通信インターフェイス113を介してオブジェクト選択情報を送信してきた受信者端末装置200-2に当該コンテンツ(T44)を送信する。 When the processor 111 of the server device 100 receives object selection information, it reads the content associated with the content ID information from the memory 112 and performs a process to reorganize the content (S46). Specifically, the processor 111 keeps the audio information associated with the selected object ID information (audio information A in the example of Figure 7) as is, and deletes the other audio information that was not selected (audio information B in the example of Figure 7) from the content. After reorganizing the content through the above process, the processor 111 stores the reorganized content in the memory 112 and transmits the content (T44) to the receiver terminal device 200-2 that sent the object selection information via the communication interface 113.
受信者端末装置200-2は、通信インターフェイス213を介して再編成後のコンテンツを受信すると、S44と同様に出力インターフェイス215を介して受信したコンテンツを出力する。このとき、当該コンテンツの音声情報にはキャラクタBの音声情報Bは含まれていない。したがって、受信者端末装置200-2のプロセッサ111は、キャラクタBの音声情報Bを出力することなく、出力インターフェイス215を介してキャラクタAの音声情報Aのみを出力することとなる。 When the receiver terminal device 200-2 receives the reorganized content via the communication interface 213, it outputs the received content via the output interface 215, similar to S44. At this time, the audio information of the content does not include the audio information B of character B. Therefore, the processor 111 of the receiver terminal device 200-2 outputs only the audio information A of character A via the output interface 215, without outputting the audio information B of character B.
なお、例えば図7に出力するコンテンツ出力画面20のオブジェクト選択領域22には、画像情報の少なくとも一部のフレームに含まれるオブジェクト(キャラクタ)に対応するアイコンが常に表示されるものとする。これによって、音声情報Bの出力が制限されている場合であっても、再度受信者が音声情報Bの出力を所望する場合には、音声情報Bの選択が可能となる。 Furthermore, for example, in the content output screen 20 output in Figure 7, the object selection area 22 will always display icons corresponding to objects (characters) included in at least some of the frames of the image information. This ensures that even if the output of audio information B is restricted, the recipient can select audio information B again if they wish to receive it.
以上、図8Aに示す例によっても、図1~図7の実施形態と同様に、音声情報の選択的な出力が可能となる。 As shown in Figure 8A, selective output of audio information is possible, similar to the embodiments in Figures 1 to 7.
(B)音声情報の選択に係る変形例2
上記においては、図4等に示すように、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、受信者端末装置200-2のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限される場合について説明した。しかし、これに代えて、受信者端末装置200-2において選択されたキャラクタに対応付けられた音声情報が、送信者端末装置200-1のプロセッサ211によって選択されて、それ以外のキャラクタの音声情報の出力が制限されるようにしてもよい。
(B) Modification 2 of the selection of audio information
In the above, as shown in Figure 4, etc., the case described is one in which the audio information associated with the character selected in the receiver terminal device 200-2 is selected by the processor 211 of the receiver terminal device 200-2, and the output of audio information for other characters is restricted. However, instead, the audio information associated with the character selected in the receiver terminal device 200-2 may be selected by the processor 211 of the sender terminal device 200-1, and the output of audio information for other characters may be restricted.
図8Bは、本開示の一実施形態に係る処理システム1で実行される処理シーケンスを示す図である。具体的には、図8Bは、発話情報の一つである音声情報の選択に係る処理が送信者端末装置200-1のプロセッサ211によって行われる場合の処理シーケンスを示す図である。各装置における処理は、各装置のメモリに記憶されたプログラムをプロセッサが処理することによって実行される。 Figure 8B is a diagram showing a processing sequence executed in a processing system 1 according to one embodiment of this disclosure. Specifically, Figure 8B shows a processing sequence when the processing related to the selection of voice information, which is one of the speech information, is performed by the processor 211 of the sender terminal device 200-1. Processing in each device is executed by the processor processing a program stored in the memory of each device.
なお、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ生成に係るS61~S64に係る処理は、図4に示すコンテンツ生成に係るS11~S14に係る処理と同じであるため、その説明は省略する。 Except for the fact that the content is streamed in fixed data chunks, the processes related to content generation S61-S64 are the same as the processes related to content generation S11-S14 shown in Figure 4, so their explanation will be omitted.
また、コンテンツが一定のデータ量ごとにストリーミング配信される点を除いて、コンテンツ出力に係る処理のうち、コンテンツ出力を受け付けてアプリケーションプログラムを起動し、出力インターフェイスを介して所望のコンテンツの出力をし、所望のオブジェクトに対応付けらえた音声情報の選択を行うまでのS71~S75に係る処理は、図4に示すコンテンツ出力に係る処理のうちのS21~S25に係る処理と同じであるため、その説明は省略する。 Furthermore, except for the fact that the content is streamed in fixed data chunks, the processing related to content output, specifically steps S71-S75, which involve receiving the content output, launching the application program, outputting the desired content via the output interface, and selecting the audio information associated with the desired object, is the same as the processing related to content output shown in Figure 4, specifically steps S21-S25. Therefore, a detailed explanation of these steps is omitted.
図7に示す方法等により音声情報の出力を所望するキャラクタのオブジェクトID情報が選択されると、受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介して、現在出力するコンテンツのコンテンツID情報と選択されたオブジェクトID情報を含むオブジェクト選択情報(T43)をサーバ装置100に送信する。 When the object ID information of a character from which audio information output is desired is selected using the method shown in Figure 7, the processor 211 of the receiver terminal device 200-2 transmits object selection information (T43), which includes the content ID information of the content to be output and the selected object ID information, to the server device 100 via the communication interface 213.
サーバ装置100のプロセッサ111は、オブジェクト選択情報(T73)を受信すると、コンテンツID情報に基づいてコンテンツの送信者である送信者端末装置200-1を特定する(S76)。そして、プロセッサ111は、通信インターフェイス113を介して、特定された送信者端末装置200-1にオブジェクト選択情報(T74)を送信する。 When the processor 111 of the server device 100 receives object selection information (T73), it identifies the sender terminal device 200-1, which is the sender of the content, based on the content ID information (S76). Then, the processor 111 transmits the object selection information (T74) to the identified sender terminal device 200-1 via the communication interface 113.
送信者端末装置200-1のプロセッサ211は、通信インターフェイス213を介してオブジェクト選択情報を受信すると、選択的に音声情報の入力を実行する(S77)。具体的には、送信者端末装置200-1では、リアルタイムで画像情報と音声情報の入力が行われ、配信がなされているところ、プロセッサ211は、S62及びS63に示す処理(すなわち、図4のS22及びS23に示す処理)によって、オブジェクトID情報に対応付けて音声情報の入力を受け付ける。そして、プロセッサ211は、オブジェクト選択情報により受信したオブジェクトID情報を参照して、当該オブジェクトID情報と同じオブジェクトID情報に対応付けられた音声情報が入力されている場合には、当該音声情報を画像情報に同期して記憶する。一方、プロセッサ211は、受信したオブジェクトID情報と異なるオブジェクトID情報に対応付けられた音声情報については、入力を受け付けるものの、送信するコンテンツには含めない。すなわち、プロセッサ211は、受信者により選択されたキャラクタのオブジェクトID情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトID情報に対応付けられた音声情報が含まれていないコンテンツを生成する。 The processor 211 of the sender terminal device 200-1, upon receiving object selection information via the communication interface 213, selectively performs input of audio information (S77). Specifically, while the sender terminal device 200-1 inputs and distributes image and audio information in real time, the processor 211 accepts input of audio information associated with object ID information through the processes shown in S62 and S63 (i.e., the processes shown in S22 and S23 of Figure 4). The processor 211 then refers to the object ID information received via the object selection information, and if audio information associated with the same object ID information is input, it stores that audio information synchronized with the image information. On the other hand, the processor 211 accepts input of audio information associated with object ID information different from the received object ID information, but does not include it in the transmitted content. That is, the processor 211 generates content that includes only audio information associated with the object ID information of the character selected by the receiver, and does not include audio information associated with the object ID information of other characters.
送信者端末装置200-1のプロセッサ211は、通信インターフェイス213を介して、上記のとおり生成したコンテンツ(T75)をコンテンツID情報と共にサーバ装置100に送信する。サーバ装置100のプロセッサ111は、通信インターフェイス113を介してコンテンツを受信すると、コンテンツID情報に対応付けてコンテンツ管理テーブルに記憶するとともに、通信インターフェイス113を介して、オブジェクト選択情報を送信してきた受信者端末装置200-2に受信した受信したコンテンツ(T76)を送信する。 The processor 211 of the sender terminal device 200-1 transmits the content (T75) generated as described above, along with the content ID information, to the server device 100 via the communication interface 213. Upon receiving the content via the communication interface 113, the processor 111 of the server device 100 stores it in the content management table, associating it with the content ID information, and also transmits the received content (T76) to the receiver terminal device 200-2, which sent the object selection information, via the communication interface 113.
受信者端末装置200-2のプロセッサ211は、通信インターフェイス213を介してコンテンツを受信すると、出力インターフェイス215を介して受信したコンテンツを出力する。このとき、受信したコンテンツには、上記のとおり、選択されたキャラクタのオブジェクトID情報に対応付けられた音声情報のみが含まれ、他のキャラクタのオブジェクトID情報に対応付けられた音声情報が含まれていない。すなわち、受信者により選択されたキャラクタ以外のオブジェクトID情報に対応付けられた音声情報は、その送信が制限されることによって、受信者端末装置200-2における出力が制限されることになる。 The processor 211 of the receiver terminal device 200-2, upon receiving content via the communication interface 213, outputs the received content via the output interface 215. At this time, the received content includes only the audio information associated with the object ID information of the selected character, as described above, and does not include audio information associated with the object ID information of other characters. In other words, audio information associated with object ID information of characters other than the one selected by the receiver is restricted from transmission, thereby limiting its output in the receiver terminal device 200-2.
以上、図8Bに示す例によっても、図1~図7の実施形態と同様に、音声情報の選択的な出力が可能となる。 As described above, the example shown in Figure 8B also enables selective output of audio information, similar to the embodiments shown in Figures 1 to 7.
(C)制限される音声情報に係る変形例
図1~図8Bにおいては、キャラクタAの音声情報A及びキャラクタBの音声情報Bのみがコンテンツに含まれる場合を説明しているために、キャラクタAが選択された場合には音声情報Bの出力が制限され、音声情報Aのみが出力されるとした。しかし、選択されたキャラクタの音声情報の出力を制限して、選択されなかった方の音声情報を制限することなく出力してもよい。
(C) Modifications relating to restricted audio information Figures 1 to 8B illustrate the case where only audio information A for character A and audio information B for character B are included in the content. Therefore, when character A is selected, the output of audio information B is restricted, and only audio information A is output. However, it is also possible to restrict the output of the audio information of the selected character and output the audio information of the other character without restriction.
また、3以上の音声情報がコンテンツに含まれている場合には、
(1)選択された一のキャラクタの音声情報のみを出力し、残りのキャラクタ全ての音声情報の出力を制限
(2)選択された一のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
(3)選択された複数のキャラクタの音声情報を出力し、残りのキャラクタ全ての音声情報の出力を制限
(4)選択された複数のキャラクタの音声情報の出力を制限し、残りのキャラクタ全ての音声情報を出力
など、様々な組み合わせで音声情報を出力することができる。
Furthermore, if the content contains three or more audio pieces,
Audio information can be output in various combinations, such as (1) outputting only the audio information of one selected character and restricting the output of audio information for all remaining characters, (2) restricting the output of audio information for one selected character and outputting audio information for all remaining characters, (3) outputting audio information for multiple selected characters and restricting the output of audio information for all remaining characters, or (4) restricting the output of audio information for multiple selected characters and outputting audio information for all remaining characters.
(C)複数の送信者が存在する変形例
図1~図8Bの例においては、一の送信者端末装置200-1において複数のキャラクタの音声情報をオブジェクトID情報に対応付けて入力することで、一の送信者が複数のキャラクタを演じ分ける場合について説明した。しかし、これに代えて、又はこれに加えて、複数の送信者端末装置200-1において複数のキャラクタの音声情報をオブジェクトID情報に対応付けて入力することで、複数の送信者で同一のキャラクタを演じたり、複数の送信者で複数のキャラクタを演じ分けることも可能である。
(C) Modification with Multiple Transmitters In the examples in Figures 1 to 8B, the case in which one sender plays multiple characters was explained by inputting the voice information of multiple characters in association with object ID information in one sender terminal device 200-1. However, instead of this, or in addition to this, it is also possible for multiple senders to play the same character, or for multiple senders to play multiple characters, by inputting the voice information of multiple characters in association with object ID information in multiple sender terminal devices 200-1.
図9は、本開示の実施形態に係る処理システム1に係る処理の概要を示す図である。具体的には、図9は、処理システム1を用いて行われる動画コンテンツの配信における処理の一例が示されている。図9によると、同じ動画コンテンツに対して、送信者Aの送信者端末装置では、キャラクタAの音声情報AとキャラクタBの音声情報Bが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。また、送信者Bの送信者端末装置では、キャラクタCの音声情報CとキャラクタDの音声情報Dが入力され、サーバ装置を介して受信者の受信者端末装置に送信されている。このとき、音声情報A及び音声情報Bには、送信者A又は送信者Aの送信者端末装置を特定するための送信者ID情報が対応付けられている。また、音声情報C及び音声情報Dには、送信者B又は送信者Bの送信者端末装置を特定するための送信者ID情報が対応付けられている。したがって、受信者端末装置において出力する音声情報を選択するときに、オブジェクトID情報を選択することに代えて、送信者ID情報を選択させることも可能である。例えば、受信者端末装置において送信者Aの送信者ID情報が選択された場合には、音声情報A及び音声情報Bのみが出力され、音声情報C及び音声情報Dの出力が制限される。また、受信者端末装置において送信者Bの送信者ID情報が選択された場合には、音声情報C及び音声情報Dのみが出力され、音声情報A及び音声情報Bの出力が制限される。 Figure 9 is a diagram illustrating an overview of the processing according to the processing system 1 according to the embodiment of this disclosure. Specifically, Figure 9 shows an example of processing in the distribution of video content performed using the processing system 1. According to Figure 9, for the same video content, the sender terminal device of sender A receives voice information A for character A and voice information B for character B, and transmits them to the receiver terminal device of the recipient via the server device. In addition, the sender terminal device of sender B receives voice information C for character C and voice information D for character D, and transmits them to the receiver terminal device of the recipient via the server device. At this time, sender ID information for identifying sender A or sender terminal device of sender A is associated with voice information A and voice information B. In addition, sender ID information for identifying sender B or sender terminal device of sender B is associated with voice information C and voice information D. Therefore, when selecting the voice information to be output in the receiver terminal device, it is possible to select sender ID information instead of object ID information. For example, if the receiver terminal device selects the sender ID information of sender A, only voice information A and voice information B will be output, and the output of voice information C and voice information D will be restricted. Similarly, if the receiver terminal device selects the sender ID information of sender B, only voice information C and voice information D will be output, and the output of voice information A and voice information B will be restricted.
以上、図9に示す例によっても、図1~図8Bの実施形態と同様に、音声情報の選択的な出力が可能となる。 As shown in Figure 9, selective output of audio information is possible, similar to the embodiments in Figures 1 to 8B.
(D)コンテンツ、オブジェクト、及び発話情報に係る変形例
図1~図8Bの例においては、コンテンツとして動画コンテンツを例に挙げたために、オブジェクトがキャラクタオブジェクトであり、発話情報が音声情報である場合を例に挙げて説明した。しかし、コンテンツが動画コンテンツであるか他のコンテンツかに関わらず、他のオブジェクトや他の発話情報であっても同様の処理することが可能である。例えば、コンテンツとしては、動画コンテンツ以外にも、音楽コンテンツ、ゲームコンテンツ、出版物コンテンツ、チャットコンテンツ、SNSコンテンツ、ウェブコンテンツ及びこれらの組み合わせ等が挙げられる。また、オブジェクトとしても、キャラクタオブジェクト以外にも、構造物オブジェクト、装飾オブジェクト、テキストオブジェクト、画像オブジェクト、GUIオブジェクト及びこれらの組み合わせ等が挙げられる。また、発話情報としても、音声情報以外に、テキスト情報、画像情報及びこれらの組み合わせ等が挙げられる。
(D) Modifications relating to content, objects, and speech information In the examples in Figures 1 to 8B, video content was used as an example of content, and the explanation was given using the case where the object is a character object and the speech information is audio information. However, regardless of whether the content is video content or other content, similar processing is possible for other objects and other speech information. For example, in addition to video content, content can include music content, game content, publication content, chat content, SNS content, web content, and combinations thereof. Similarly, in addition to character objects, objects can include structure objects, decorative objects, text objects, image objects, GUI objects, and combinations thereof. Furthermore, in addition to audio information, speech information can include text information, image information, and combinations thereof.
例えば、コンテンツとしてチャットコンテンツを本開示に係る実施形態に適用する場合、オブジェクトとしては各送信者に対応付けられて吹き出し形状をしたGUIオブジェクトが挙げられ、発話情報には各ユーザがチャットとして入力したテキスト情報が挙げられる。このような場合であっても、受信者が所望の送信者のGUIオブジェクトを選択することによって、他の送信者のGUIオブジェクトに対応付けれたチャット(テキスト情報)の出力(表示)を制限する。これによって、特定の送信者のみを選択的に出力することが可能となる。 For example, when applying chat content as content to the embodiments described herein, the objects include GUI objects in the shape of speech bubbles associated with each sender, and the utterance information includes text information entered by each user as chat. Even in such a case, the recipient can restrict the output (display) of chat (text information) associated with the GUI objects of other senders by selecting the GUI object of the desired sender. This makes it possible to selectively output only specific senders.
本明細書で説明される処理及び手順は、実施形態において明示的に説明されたものによってのみならず、ソフトウェア、ハードウェア又はこれらの組み合わせによっても実現可能である。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することによって実現される。また、本明細書で説明される処理及び手順は、それらの処理・手順をコンピュータプログラムとして実装し、処理装置やサーバ装置を含む各種のコンピュータに実行させることが可能である。 The processes and procedures described herein can be implemented not only by those explicitly described in the embodiments, but also by software, hardware, or a combination thereof. Specifically, the processes and procedures described herein are implemented by implementing the logic corresponding to the process on a medium such as an integrated circuit, volatile memory, non-volatile memory, magnetic disk, or optical storage. Furthermore, the processes and procedures described herein can be implemented as computer programs and executed by various computers, including processing units and server devices.
本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理又は手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は、複数のモジュールによって実行されるものとすることができる。また、本明細書中で説明される各種情報が単一のメモリや記憶部に格納される旨が説明されたとしても、そのような情報は、単一の装置に備えられた複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されるものとすることができる。さらに、本明細書において説明されるソフトウェア及びハードウェアの要素は、それらをより少ない構成要素に統合して、又は、より多い構成要素に分解することによって実現されるものとすることができる。 Even if the processes and procedures described herein are described as being performed by a single device, software, component, or module, such processes or procedures may be performed by multiple devices, multiple software programs, multiple components, and/or multiple modules. Similarly, even if the various types of information described herein are described as being stored in a single memory or storage unit, such information may be distributed and stored in multiple memories within a single device or in multiple memories distributed across multiple devices. Furthermore, the software and hardware elements described herein may be implemented by integrating them into fewer components or by decomposing them into more components.
1 処理システム
100 サーバ装置
200 端末装置
200-1 送信者端末装置
200-2 受信者端末装置
1 Processing System 100 Server Device 200 Terminal Device 200-1 Sender Terminal Device 200-2 Receiver Terminal Device
Claims (10)
前記少なくとも一つのプロセッサは、
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように構成された処理装置。 A processing unit comprising at least one processor,
The at least one processor is
The system receives speech information from the transmitting terminal device via a communication interface, which is input in association with each of the multiple objects included in the content generated in the transmitting terminal device.
Select at least one of the multiple objects via the input interface.
When outputting the utterance information via the output interface, the utterance information associated with the selected at least one object is output.
A processing unit configured to perform a process for that purpose.
前記オブジェクトは前記動画コンテンツに含まれるキャラクタオブジェクトである、
請求項1に記載の処理装置。 The aforementioned content is video content,
The aforementioned object is a character object included in the video content.
The apparatus according to claim 1.
前記複数のオブジェクトのそれぞれに関連付けて入力される各発話情報を受信し、
前記出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクト以外のオブジェクトに関連付けられた発話情報の出力を制限することで、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように構成された、請求項1に記載の処理装置。 The at least one processor is
The system receives each utterance information input associated with each of the aforementioned multiple objects,
When outputting the speech information via the output interface, the output of speech information associated with objects other than the selected at least one object is restricted, thereby limiting the output of speech information associated with the selected at least one object.
The apparatus according to claim 1, configured to perform a process for that purpose.
前記複数のオブジェクトに関連付けて入力される発話情報のうち、選択された前記少なくとも一つのオブジェクトの発話情報のみを受信し、
前記出力インターフェイスを介して前記発話情報を出力するときに、受信された前記少なくとも一つのオブジェクトに関連付けられた発話情報のみを出力する、
ための処理を実行するように構成された、請求項1に記載の処理装置。 The at least one processor is
Of the speech information input in association with the aforementioned multiple objects, only the speech information of the selected at least one object is received.
When outputting the speech information via the output interface, only the speech information associated with the at least one received object is output.
The apparatus according to claim 1, configured to perform a process for that purpose.
選択された前記少なくとも一つのオブジェクト以外のオブジェクトに関連付けられた発話情報は、前記サーバ装置から前記処理装置に送信されることが制限される、請求項5に記載の処理装置。 The aforementioned speech information is received from the transmitting terminal device via a server device installed remotely.
The processing apparatus according to claim 5, wherein speech information associated with objects other than the selected at least one object is restricted from being transmitted from the server device to the processing apparatus.
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信し、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択し、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する、
ための処理を実行するように機能させる処理プログラム。 In a computer comprising at least one processor, the at least one processor is:
The system receives speech information from the transmitting terminal device via a communication interface, which is input in association with each of the multiple objects included in the content generated in the transmitting terminal device.
Select at least one of the multiple objects via the input interface.
When outputting the utterance information via the output interface, the utterance information associated with the selected at least one object is output.
A processing program that is designed to perform a specific action.
通信インターフェイスを介して、送信者端末装置において生成されるコンテンツに含まれる複数のオブジェクトのそれぞれに関連付けて入力される発話情報を前記送信者端末装置から受信する段階と、
入力インターフェイスを介して前記複数のオブジェクトのうちの少なくとも一つのオブジェクトを選択する段階と、
出力インターフェイスを介して前記発話情報を出力するときに、選択された前記少なくとも一つのオブジェクトに関連付けられた発話情報を出力する段階と、
を含む処理方法。 A computer comprising at least one processor, wherein a processing method is performed by the at least one processor,
The process involves receiving speech information from the sender terminal device via a communication interface, which is input in association with each of the multiple objects included in the content generated in the sender terminal device,
A step of selecting at least one object from the plurality of objects via an input interface,
When outputting the speech information via the output interface, the steps include outputting the speech information associated with the selected at least one object,
A processing method that includes this.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024013605A JP7828984B2 (en) | 2024-01-31 | 2024-01-31 | Processing apparatus, processing program, and processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024013605A JP7828984B2 (en) | 2024-01-31 | 2024-01-31 | Processing apparatus, processing program, and processing method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2025118337A JP2025118337A (en) | 2025-08-13 |
| JP7828984B2 true JP7828984B2 (en) | 2026-03-12 |
Family
ID=96701178
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024013605A Active JP7828984B2 (en) | 2024-01-31 | 2024-01-31 | Processing apparatus, processing program, and processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7828984B2 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003348243A (en) | 2002-04-03 | 2003-12-05 | Ricoh Co Ltd | Technology for archiving voice information |
| JP2010507114A (en) | 2006-10-16 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for multi-channel parameter conversion |
| JP2010088097A (en) | 2008-09-29 | 2010-04-15 | Avaya Inc | Method and apparatus for identifying and eliminating source of background noise in multi-party teleconference |
| US20150012270A1 (en) | 2013-07-02 | 2015-01-08 | Family Systems, Ltd. | Systems and methods for improving audio conferencing services |
| US20150215249A1 (en) | 2014-01-24 | 2015-07-30 | Miroslawa Bruns-Bielkowicz | Animated delivery of electronic messages |
| WO2017208820A1 (en) | 2016-05-30 | 2017-12-07 | ソニー株式会社 | Video sound processing device, video sound processing method, and program |
-
2024
- 2024-01-31 JP JP2024013605A patent/JP7828984B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003348243A (en) | 2002-04-03 | 2003-12-05 | Ricoh Co Ltd | Technology for archiving voice information |
| JP2010507114A (en) | 2006-10-16 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for multi-channel parameter conversion |
| JP2010088097A (en) | 2008-09-29 | 2010-04-15 | Avaya Inc | Method and apparatus for identifying and eliminating source of background noise in multi-party teleconference |
| US20150012270A1 (en) | 2013-07-02 | 2015-01-08 | Family Systems, Ltd. | Systems and methods for improving audio conferencing services |
| US20150215249A1 (en) | 2014-01-24 | 2015-07-30 | Miroslawa Bruns-Bielkowicz | Animated delivery of electronic messages |
| WO2017208820A1 (en) | 2016-05-30 | 2017-12-07 | ソニー株式会社 | Video sound processing device, video sound processing method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2025118337A (en) | 2025-08-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9407866B2 (en) | Joining an electronic conference in response to sound | |
| US9055193B2 (en) | System and method of a remote conference | |
| EP3131257B1 (en) | Program, information processing apparatus, and information processing system for use in an electronic conference system | |
| CN108702483A (en) | Communication event | |
| CN108322474B (en) | Virtual reality system, related device and method based on shared desktop | |
| CN109151565B (en) | Method and device for playing voice, electronic equipment and storage medium | |
| JP2014082582A (en) | Viewing device, content provision device, viewing program, and content provision program | |
| US12231478B2 (en) | Systems and methods for enabling a virtual assistant in different environments | |
| JP2022125064A (en) | Information processing system, its control method and program. | |
| US20240290329A1 (en) | Systems and methods for enhanced contextual responses with a virtual assistant | |
| US20250358140A1 (en) | Systems and methods for enabling a virtual assistant in different environments | |
| JP7828984B2 (en) | Processing apparatus, processing program, and processing method | |
| KR20170124758A (en) | Method for providing conference service and apparatus thereof | |
| US20240379107A1 (en) | Real-time ai screening and auto-moderation of audio comments in a livestream | |
| JP6610076B2 (en) | Information processing apparatus, information processing system, program, and recording medium | |
| US12526387B2 (en) | Systems and methods for managing audio input data and audio output data of virtual meetings | |
| JP7638327B2 (en) | Control system, control method, and computer program | |
| JP2013183182A (en) | Conference system, minutes server, and minutes creation method | |
| US20250157112A1 (en) | Apparatus and method for providing speech video | |
| CN113096674B (en) | Audio processing method and device and electronic equipment | |
| US12462832B2 (en) | Information processing apparatus, information processing system, information processing method, and non-transitory recording medium to generate sound data including beats based on user behavior information in a scheduled conference | |
| JP2014072686A (en) | System, method, and video recording server | |
| US20250166271A1 (en) | Apparatus and method for providing speech video | |
| JP7436319B2 (en) | server equipment | |
| JP2023072720A (en) | Conference server and conference server control method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20240322 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20251222 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20251222 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260302 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7828984 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |