JP7808657B2 - system - Google Patents
systemInfo
- Publication number
- JP7808657B2 JP7808657B2 JP2024163700A JP2024163700A JP7808657B2 JP 7808657 B2 JP7808657 B2 JP 7808657B2 JP 2024163700 A JP2024163700 A JP 2024163700A JP 2024163700 A JP2024163700 A JP 2024163700A JP 7808657 B2 JP7808657 B2 JP 7808657B2
- Authority
- JP
- Japan
- Prior art keywords
- story
- user
- scene
- music
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
本開示の技術は、システムに関する。 The technology disclosed herein relates to a system.
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。 Patent document 1 discloses a persona chatbot control method executed by at least one processor, the method including the steps of receiving a user utterance, adding the user utterance to a prompt including an instruction sentence related to a description of the chatbot's character, encoding the prompt, and inputting the encoded prompt into a language model to generate a chatbot utterance in response to the user utterance.
物語作成には、ストーリーの構成、登場人物のセリフ、情景の描写、伏線の張り方、感動的なシーンの作り方など、多くの要素が絡み合い、それらを適切に組み合わせることで初めて面白い物語が生まれる。しかし、これらの要素を全て人間が手作業で作り出すのは非常に時間と労力がかかる。また、物語に合わせたグラフィックや音楽を制作するにも専門的な知識と技術が必要であり、これらを一人で行うことは困難である。 Creating a story involves many intertwining elements, such as story structure, character dialogue, scenic descriptions, plot twists, and creating moving scenes, and only by properly combining these elements can an interesting story emerge. However, creating all of these elements by hand takes an immense amount of time and effort. Additionally, creating the graphics and music to accompany a story requires specialized knowledge and skills, making it difficult for one person to do all of this alone.
本発明は、物語のテーマや舞台、登場人物などのストーリー設定を入力すると、登場人物のセリフや情景、物語の構成を自動で作成する。さらに、物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。そして、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 This invention automatically creates character dialogue, scenery, and story structure when story settings such as the story's theme, setting, and characters are input. It also automatically generates plot twists, mystery elements, and moving scenes to make the story more interesting. It then automatically creates graphics and music that match each scene in the story. This enhances the dramatic effect of the story structure, character dialogue, images, and music, making it possible to effectively stir the viewer's emotions.
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。 Below, an example of an embodiment of a system relating to the technology disclosed herein will be described with reference to the accompanying drawings.
先ず、以下の説明で使用される文言について説明する。 First, let me explain the terminology used in the following explanation.
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)、又はTPU(TENSOR PROCESSING UNIT(登録商標))等が挙げられる。 In the following embodiments, a coded processor (hereinafter simply referred to as a "processor") may be a single arithmetic unit or a combination of multiple arithmetic units. Furthermore, a processor may be a single type of arithmetic unit or a combination of multiple types of arithmetic units. Examples of arithmetic units include a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a GPGPU (General-Purpose Computing on Graphics Processing Units), an APU (Accelerated Processing Unit), or a TPU (TENSOR PROCESSING UNIT (registered trademark)).
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。 In the following embodiments, coded random access memory (RAM) is memory in which information is temporarily stored and is used by the processor as work memory.
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。 In the following embodiments, the coded storage refers to one or more non-volatile storage devices that store various programs, parameters, etc. Examples of non-volatile storage devices include flash memory (SSD (Solid State Drive)), magnetic disks (e.g., hard disks), and magnetic tapes.
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。 In the following embodiments, a communication I/F (Interface) with a symbol is an interface that includes a communication processor, an antenna, etc. The communication I/F controls communication between multiple computers. Examples of communication standards that can be applied to the communication I/F include wireless communication standards such as 5G (5th Generation Mobile Communication System), Wi-Fi (registered trademark), or Bluetooth (registered trademark).
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。 In the following embodiments, "A and/or B" is synonymous with "at least one of A and B." In other words, "A and/or B" means that it may be just A, just B, or a combination of A and B. Furthermore, in this specification, the same concept as "A and/or B" also applies when three or more things are expressed connected by "and/or."
[第1実施形態] [First embodiment]
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。 Figure 1 shows an example of the configuration of a data processing system 10 according to the first embodiment.
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 1, the data processing system 10 includes a data processing device 12 and a smart device 14. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。 The smart device 14 includes a computer 36, a reception device 38, an output device 40, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The reception device 38, output device 40, and camera 42 are also connected to the bus 52.
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。 The reception device 38 is equipped with a touch panel 38A, a microphone 38B, etc., and receives user input. The touch panel 38A detects contact with an indicator (e.g., a pen or finger) to receive user input via the indicator. The microphone 38B detects the user's voice to receive user input via voice. The control unit 46A transmits data indicating the user input received by the touch panel 38A and the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the data indicating the user input.
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。 The output device 40 is equipped with a display 40A and a speaker 40B, and presents data to the user 20 by outputting the data in a form perceptible by the user 20 (e.g., audio and/or text). The display 40A displays visible information such as text and images in accordance with instructions from the processor 46. The speaker 40B outputs audio in accordance with instructions from the processor 46. The camera 42 is a compact digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor.
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54.
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。 Figure 2 shows an example of the main functions of the data processing device 12 and smart device 14.
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。 As shown in FIG. 2, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32. The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as a specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart device 14, the processor 46 performs the reception output processing. The storage 50 stores a reception output program 60. The reception output program 60 is used in conjunction with the specific processing program 56 by the data processing system 10. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output processing is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12.
「形態例1」 "Example 1"
本発明のシステムは、ユーザーから物語のテーマや舞台、登場人物などのストーリー設定を入力として受け取る。この入力はテキスト形式で行われ、例えば「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。次に、この入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われ、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 The system of the present invention receives input from the user about the story setting, such as the story's theme, setting, and characters. This input is in text format, such as "A knight's adventure story set in medieval Europe." Next, based on this input, the system automatically creates character dialogue, scenes, and a story structure. This creation is carried out using existing story databases and artificial intelligence technology, generating dialogue and scenes that match the story flow, character personalities, and story theme.
「形態例2」 "Example 2"
さらに、システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。これは、物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 In addition, the system automatically generates hints, mystery elements, and moving scenes to make the story more interesting. This is done by laying hints at the right time, sprinkling mystery elements, and creating moving scenes in line with the story's theme, the characters' personalities, and the story's progression. For example, it automatically generates hints that people the knight meets during his adventure will play an important role later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties.
「形態例3」 "Example 3"
そして、システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これは、シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 The system then automatically creates graphics and music that match each scene in the story you've created. The graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters. For example, powerful graphics and music that heighten tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This makes it possible to enhance the dramatic effect of the story's structure, the characters' conversations, images, and music, effectively stirring the viewer's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザーから物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力として受け取る。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。 Step 1: The user provides textual input of the story setting, including the story's theme, setting, and characters. For example, it could be provided as "a knight's adventure story set in medieval Europe."
ステップ2:入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われる。 Step 2: Based on the input, the system automatically creates character dialogue, scenery, and story structure. This is done using existing story databases and artificial intelligence technology.
ステップ3:物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 Step 3: Lines and scenes are generated that match the story flow, character personalities, and theme of the story.
「形態例2」 "Example 2"
ステップ1:システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 1: The system automatically generates plot twists, mystery elements, moving scenes, and more to make the story more interesting.
ステップ2:物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。 Step 2: Lay out hints at the right time, sprinkle in mystery elements, and create moving scenes in line with the story's theme, the characters' personalities, and the story's progression.
ステップ3:例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 Step 3: For example, foreshadowing, such as people the knight meets during his adventure playing important roles later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties, are automatically generated.
「形態例3」 "Example 3"
ステップ1:システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 Step 1: The system automatically creates graphics and music that match each scene in the story you've created.
ステップ2:シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。 Step 2: Graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ3:例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 Step 3: For example, powerful graphics and music that heightens the tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This enhances the dramatic effect of the story structure, character dialogue, images and music, making it possible to effectively stir the viewer's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性を保つことが難しい。また、生成された物語が視聴者にとって感動的で面白いものになるようにするための工夫が不足している。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することができず、視聴者の心情を効果的に揺さぶることができないという課題がある When conventional story generation systems automatically generate a story based on a user-entered story setting, they struggle to maintain consistency in the story flow, character dialogue, and scenery. They also lack the ingenuity to ensure the generated story is moving and entertaining for the viewer. Furthermore, they are unable to automatically create graphics and music that match each scene in the story, which means they are unable to effectively move the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーからの入力を受信し、自然言語処理技術を用いて解析する手段と、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、生成AIモデルを用いて物語のセリフや情景、構成を自動で生成する手段と、生成された物語を整形し、ユーザーに提供する手段を含む。これにより、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, and images and music to effectively stir the viewer's emotions; means for receiving input from the user and analyzing it using natural language processing technology; means for generating prompt sentences to be input into the generative AI model based on the analysis results; means for automatically generating story dialogue, scenery, and structure using the generative AI model; and means for formatting the generated story and providing it to the user. This makes it possible to automatically generate a consistent story based on user input and provide the viewer with a moving and entertaining story.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定する要素である。 A "story theme" is the central subject or theme of a story, and is the element that determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する重要な要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an important element in shaping the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動し、物語を進行させるキャラクターのことであり、物語の展開やテーマに大きな影響を与える要素である。 "Characters" are characters who act within a story and move the story forward, and are elements that have a major influence on the story's development and theme.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成する要素である。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and is the element that forms the framework of the story.
「セリフ」とは、登場人物が話す言葉や台詞のことであり、物語の進行やキャラクターの性格を表現する重要な要素である。 "Dialogue" refers to the words or lines spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現する要素である。 "Scenes" refer to the scenery and scenes depicted in a story, and are elements that visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことであり、物語の展開を効果的にするための要素である。 "Story structure" refers to the overall flow and structure of a story, including the beginning, middle, and end, and is an element that makes the story unfold effectively.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語の一貫性や深みを増すための要素である。 "Foreshadowing" is a hint or sign that relates to later developments in a story, and is an element that adds consistency and depth to a story.
「ミステリー要素」とは、物語の中で謎や疑問を提示し、読者や視聴者の興味を引くための要素である。 "Mystery elements" are elements that present mysteries or questions within a story and attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に残る印象的な要素である。 A "moving scene" is a scene in a story that strongly stirs emotions and is an impressive element that stays in the viewer's mind.
「グラフィック」とは、物語の各シーンに合わせて視覚的に表現される画像やイラストのことであり、物語の雰囲気や感情を視覚的に補完する要素である。 "Graphics" refers to images and illustrations that visually represent each scene in the story, and are elements that visually complement the atmosphere and emotion of the story.
「曲」とは、物語の各シーンに合わせて音楽的に表現されるメロディやサウンドのことであり、物語の雰囲気や感情を音楽的に補完する要素である。 "Songs" are melodies and sounds that are musically expressed to match each scene in a story, and are elements that musically complement the atmosphere and emotions of the story.
「自然言語処理技術」とは、コンピュータが人間の言語を理解し、解析するための技術のことであり、テキストデータの解析や情報抽出に用いられる。 "Natural language processing technology" is a technology that enables computers to understand and analyze human language, and is used to analyze text data and extract information.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するためのモデルのことであり、物語のセリフや情景、構成を自動で生成するために使用される。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically generate dialogue, scenes, and structure for a story.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、モデルが生成する内容を誘導するための要素である。 A "prompt" is an instruction to be input into a generative AI model, and is an element that guides the content generated by the model.
「整形」とは、生成された物語のテキストを読みやすくするために段落分けや改行を追加する作業のことであり、ユーザーに提供する前に行われる。 "Formatting" refers to the process of adding paragraph breaks and line breaks to make the generated narrative text easier to read, before it is presented to the user.
この発明は、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するシステムである。以下に、このシステムの具体的な実施形態を説明する。 This invention is a system that automatically generates a story based on story settings such as the story's theme, setting, and characters, which are input by the user. Specific embodiments of this system are described below.
ユーザーからの入力 User input
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。 The user uses a terminal to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe."
サーバによる入力データの受信と解析 Receive and analyze input data by the server
サーバは、ユーザーから送信されたテキストデータを受信する。次に、自然言語処理技術を用いて入力データを解析する。具体的には、Python(登録商標)のNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。 The server receives the text data sent by the user. It then analyzes the input data using natural language processing technology. Specifically, it uses the Python (registered trademark) NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story."
プロンプト文の生成 Generating prompt statements
サーバは、抽出した情報を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。 The server generates a prompt to be input into the generative AI model based on the extracted information. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe."
生成AIモデルによる物語の生成 Generating stories using generative AI models
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAI(登録商標)のGPT-4(登録商標))に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's (registered trademark) GPT-4 (registered trademark)). The generative AI model automatically generates the dialogue, scenery, and structure of the story based on the prompt. For example, it could generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'"
生成結果の整形と提供 Format and provide generated results
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。最後に、サーバは整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easy for the user to read. Finally, the server provides the formatted story to the user, who can view the results through their device.
具体例 Specific examples
ユーザーの入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」を考える。この入力に基づいて、サーバは以下のようなプロンプト文を生成する: As an example of user input, consider "a knight's adventure story set in medieval Europe." Based on this input, the server generates the following prompt:
「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください。」 "Generate lines and scenes from characters in a knight's adventure story set in medieval Europe."
生成AIモデルは、このプロンプト文に基づいて物語を生成し、例えば以下のようなテキストを出力する: The generative AI model generates a story based on this prompt, outputting text such as the following:
「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」 "The brave knight Arthur met a wizard in a dark forest. The wizard told Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to defeat the dragon.'"
このようにして、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this way, it is possible to automatically generate a coherent story based on user input, providing an inspiring and entertaining story for the viewer.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1: Step 1:
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力データがサーバに送信される。 The user uses their device to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe." This input data is then sent to the server.
ステップ2: Step 2:
サーバは、ユーザーから送信されたテキストデータを受信する。受信したデータを自然言語処理技術を用いて解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果が次のステップの入力となる。 The server receives text data sent by the user. It analyzes the received data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis become the input for the next step.
ステップ3: Step 3:
サーバは、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。このプロンプト文が次のステップの入力となる。 Based on the analysis results, the server generates a prompt to be input into the generative AI model. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe." This prompt becomes the input for the next step.
ステップ4: Step 4:
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。この生成されたテキストが次のステップの入力となる。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it might generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'" This generated text becomes the input for the next step.
ステップ5: Step 5:
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。この整形されたテキストが次のステップの入力となる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easier for the user to read. This formatted text becomes the input for the next step.
ステップ6: Step 6:
サーバは、整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。例えば、生成された物語を表示するウェブページやアプリケーションの画面に表示する。ユーザーは、生成された物語を読み、楽しむことができる。 The server provides the formatted story to the user. The user can view the results through their device, for example, on a web page or application screen that displays the generated story. The user can then read and enjoy the generated story.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したテーマや設定に基づいて物語を自動生成する際に、物語の構成や登場人物のセリフ、情景の生成が不十分であり、視聴者の心情を効果的に揺さぶることが難しい。また、生成された物語をプレビューし、保存および共有する機能が欠如しているため、ユーザーの利便性が低いという問題がある Existing story generation systems automatically generate stories based on user-entered themes and settings, but they often lack sufficient story structure, character dialogue, and scene generation, making it difficult to effectively sway viewers' emotions. Furthermore, the lack of functionality to preview, save, and share the generated stories creates a problem of inconvenient user experience.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いてプロンプト文を生成し、物語を自動生成する手段と、生成された物語をプレビューし、保存および共有する手段と、を含む。これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating prompt sentences using a generative AI model and automatically generating a story; and means for previewing, saving, and sharing the generated story. This makes it possible to automatically generate high-quality stories based on the settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語に登場するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters that appear in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the framework of the story.
「セリフ」とは、登場人物が話す言葉のことであり、物語の進行やキャラクターの性格を表現するための重要な要素である。 "Dialogue" refers to the words spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現するものである。 "Scenes" refer to the landscapes and scenes depicted in a story, and visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造のことであり、物語の展開を効果的にするための枠組みである。 "Story structure" refers to the overall flow and structure of a story, including a beginning, middle, and end, and is the framework for effectively developing the story.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語を面白くするための要素である。 "Foreshadowing" is a hint or omen that relates to later developments in a story, and is an element that makes a story more interesting.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements that add mystery and suspense to a story, and are meant to attract the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者に深い印象を与えるためのものである。 A "moving scene" is a scene in a story that stirs strong emotions and is intended to leave a deep impression on the viewer.
「グラフィック」とは、物語の各シーンに合わせて描かれる視覚的な画像やイラストのことであり、物語の雰囲気や感情を視覚的に表現するためのものである。 "Graphics" refers to the visual images and illustrations that accompany each scene in the story, and are intended to visually express the atmosphere and emotions of the story.
「曲」とは、物語の各シーンに合わせて作られる音楽のことであり、物語の雰囲気や感情を音楽的に表現するためのものである。 "Songs" are pieces of music created to accompany each scene in a story, and are intended to musically express the atmosphere and emotions of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストや画像などを自動生成するためのモデルのことであり、物語の自動生成に利用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to automatically generate text, images, etc., and is used to automatically generate stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、物語のテーマや設定に基づいて生成されるものである。 A "prompt" is an instruction to be input into a generative AI model, and is generated based on the theme and setting of the story.
「プレビュー」とは、生成された物語を事前に確認するための機能のことであり、ユーザーが内容をチェックするためのものである。 "Preview" is a feature that allows users to preview the generated story in advance and check the content.
「保存」とは、生成された物語をデジタル形式で記録することを指し、後で再利用や共有ができるようにするためのものである。 "Preservation" refers to recording the stories that are created in digital form so that they can be reused and shared later.
「共有」とは、生成された物語を他のユーザーやプラットフォームと分かち合うことを指し、物語の拡散や評価を促進するためのものである。 "Sharing" refers to sharing the story you create with other users and platforms, with the aim of promoting the spread and appreciation of the story.
この発明を実施するためのシステムは、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するものである。以下に、このシステムの具体的な実施形態について説明する。 A system for implementing this invention allows the user to input story settings such as the story's theme, setting, and characters, and automatically generates a story based on these settings. Specific embodiments of this system are described below.
システム構成 System Configuration
このシステムは、主に以下のハードウェアおよびソフトウェアを用いて構成される。 This system is primarily composed of the following hardware and software:
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
プログラムの処理 Program processing
ユーザー入力 User input
ユーザーは、スマートフォンアプリケーションを通じて物語のテーマ、舞台、登場人物をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマを入力する。 Users enter the story's theme, setting, and characters in text form through a smartphone application. For example, they might enter the theme "A knight's adventure story set in medieval Europe."
プロンプト生成 Prompt generation
サーバは、ユーザーが入力した情報を基にプロンプト文を生成する。このプロンプト文は、生成AIモデルに入力される指示文である。具体例として、以下のようなプロンプト文が生成される。 The server generates a prompt based on the information entered by the user. This prompt is an instruction that is input into the generative AI model. As a specific example, the following prompt is generated:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
物語生成 Story generation
サーバは、生成AIモデル(例えば、GPT-4)を用いて、生成されたプロンプト文に基づいて物語を自動生成する。この生成AIモデルは、OpenAI APIを通じて呼び出される。 The server uses a generative AI model (e.g., GPT-4) to automatically generate a story based on the generated prompt. This generative AI model is called through the OpenAI API.
プレビュー、保存、共有 Preview, save, share
生成された物語は、ユーザーがスマートフォンアプリケーションを通じてプレビューできるように表示される。ユーザーは、生成された物語を保存し、SNSなどで共有することができる。 The generated story is displayed so that users can preview it through the smartphone application. Users can save the generated story and share it on social media, etc.
具体例 Specific examples
ユーザーが「中世ヨーロッパを舞台にした騎士の冒険物語」をテーマに設定し、登場人物として「勇敢な騎士、魔法使い、ドラゴン」を入力した場合、以下のような物語が生成される。 If a user sets the theme to "a knight's adventure story set in medieval Europe" and enters "a brave knight, a wizard, and a dragon" as the characters, the following story will be generated.
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文を生成AIモデルに入力することで、物語が自動生成される。生成された物語は、ユーザーがプレビューし、保存および共有することができる。 By inputting this prompt into a generative AI model, a story is automatically generated. Users can preview, save, and share the generated story.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 This makes it possible to automatically generate high-quality stories based on user-entered settings, effectively stirring the viewer's emotions.
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
ステップ1: Step 1:
ユーザは、スマートフォン端末を使用して物語のテーマ、舞台、登場人物をテキスト形式で入力する。入力されたデータは、端末からサーバに送信される。入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマが含まれる。 Users use their smartphone to input the story's theme, setting, and characters in text format. The input data is then sent from the device to the server. An example input includes the theme "A knight's adventure story set in medieval Europe."
ステップ2: Step 2:
サーバは、受信したユーザの入力データを基にプロンプト文を生成する。具体的には、テーマ、舞台、登場人物の情報を組み合わせて、生成AIモデルに適したプロンプト文を作成する。生成されたプロンプト文は以下のようになる。 The server generates a prompt based on the received user input data. Specifically, it combines information about the theme, setting, and characters to create a prompt that is suitable for the generative AI model. The generated prompt looks like this:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文が生成される。 This prompt text is generated.
ステップ3: Step 3:
サーバは、生成されたプロンプト文を用いて生成AIモデル(例えば、GPT-4)を呼び出す。OpenAI APIを使用してプロンプト文を送信し、物語の生成を依頼する。入力はプロンプト文であり、出力は生成された物語のテキストである。 The server calls a generative AI model (e.g., GPT-4) with the generated prompt text. It sends the prompt text using the OpenAI API and requests the generation of a story. The input is the prompt text, and the output is the generated story text.
ステップ4: Step 4:
生成AIモデルは、プロンプト文に基づいて物語を自動生成する。生成された物語のテキストは、サーバに返される。例えば、以下のような物語が生成される。 The generative AI model automatically generates a story based on the prompt text. The generated story text is returned to the server. For example, the following story might be generated:
昔々、中世ヨーロッパの広大な王国に、勇敢な騎士が住んでいた。彼の名はアーサー。ある日、彼は魔法使いの助けを借りて、恐ろしいドラゴンと戦う冒険に出ることになった。 Once upon a time, in a vast kingdom in medieval Europe, there lived a brave knight. His name was Arthur. One day, with the help of a wizard, he embarked on an adventure to battle a fearsome dragon.
ステップ5: Step 5:
サーバは、生成された物語のテキストをスマートフォン端末に送信する。ユーザは、スマートフォン端末を通じて生成された物語をプレビューすることができる。入力は生成された物語のテキストであり、出力はユーザの端末に表示されるプレビュー画面である。 The server sends the text of the generated story to the smartphone device. The user can preview the generated story through the smartphone device. The input is the text of the generated story, and the output is the preview screen displayed on the user's device.
ステップ6: Step 6:
ユーザは、生成された物語を保存するか、SNSなどで共有することができる。保存された物語は、端末のストレージに記録され、共有された物語は、指定されたプラットフォームに送信される。入力はユーザの選択であり、出力は保存されたファイルまたは共有されたコンテンツである。 Users can save the generated story or share it on social media. Saved stories are recorded in the device's storage, and shared stories are sent to the specified platform. The input is the user's selection, and the output is the saved file or shared content.
以上のステップにより、ユーザが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 These steps make it possible to automatically generate a high-quality story based on the settings entered by the user, effectively stirring the viewer's emotions.
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の要素を整理し、ユーザに提供する機能が不足しているため、ユーザが生成された物語を効果的に利用することが困難である。さらに、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段が不足している。 While conventional story generation systems can automatically generate stories based on the story's theme and character settings, they have difficulty appropriately generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. Furthermore, they lack the functionality to organize the generated story elements and provide them to users, making it difficult for users to effectively use the generated story. Furthermore, they lack the means to enhance the dramatic effect through story structure, character dialogue, visuals, and music, and to effectively stir the viewer's emotions.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、生成された物語の要素を整理し、ユーザに提供する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for organizing the generated story elements and providing them to the user; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to make the story more interesting and enable users to effectively use the generated story.
「物語のテーマ」とは、物語の中心となる主題や題材を指すものである。 "Story theme" refers to the central subject or subject matter of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物を指すものである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素や出来事を指すものである。 "Foreshadowing" refers to elements or events placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎や推理の要素を加えることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that add mystery or detective elements to a story, attracting the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面を指すものである。 A "moving scene" refers to a scene in a story that stirs strong emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やBGMを指すものである。 "Song" refers to the music or background music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、視聴者の感情や反応を引き出すための手法を指すものである。 "Directory effects" refers to techniques that use the visual and auditory elements of a story to elicit emotions and reactions from the viewer.
「視聴者の心情」とは、物語を見たり読んだりする人々の感情や気持ちを指すものである。 "Audience sentiment" refers to the emotions and feelings of the people who watch or read the story.
この発明は、物語のテーマや登場人物の性格、物語の進行に基づいて、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動生成するシステムである。以下に、このシステムの具体的な実施形態を示す。 This invention is a system that automatically generates plot twists, mystery elements, and moving scenes to make a story more interesting, based on the story's theme, the characters' personalities, and the story's progression. A specific embodiment of this system is shown below.
システムの構成 System Configuration
ハードウェア Hardware
サーバは、高性能なGPUを搭載したクラウドサーバを使用する。 The server uses a cloud server equipped with a high-performance GPU.
ソフトウェア Software
サーバは、生成AIモデルを使用する。具体的には、OpenAIのGPT-4などの生成AIモデルを用いる。 The server uses a generative AI model. Specifically, it uses a generative AI model such as OpenAI's GPT-4.
プログラムの処理 Program processing
ユーザの入力 User input
ユーザは、端末を使用して物語のテーマ、登場人物の性格、物語の進行に関する情報を入力する。例えば、ユーザは以下のような情報を入力する。 The user uses the device to input information about the story's theme, the characters' personalities, and the story's progression. For example, the user might input the following information:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
プロンプト文の生成 Generating prompt statements
サーバは、ユーザから入力された情報を受け取り、それを基にプロンプト文を生成する。生成されたプロンプト文は以下のようになる。 The server receives the information entered by the user and generates a prompt based on that information. The generated prompt looks like this:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
物語の要素の生成 Generating story elements
サーバは、生成したプロンプト文を生成AIモデルに入力し、物語の要素を生成する。生成AIモデルは、プロンプト文を基に以下のような物語の要素を生成する。 The server inputs the generated prompt text into the generative AI model to generate story elements. The generative AI model generates the following story elements based on the prompt text.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
生成された物語の要素の整理と提供 Organizing and providing generated story elements
サーバは、生成AIモデルから出力された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 The server organizes the story elements output by the generative AI model and provides them to the user. The user can check the generated story elements via their device and make corrections or additions as needed.
具体例 Specific examples
ユーザがシステムを利用して物語を生成する際の具体例を以下に示す。 Below is a concrete example of how a user can use the system to generate a story.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
サーバはこのプロンプト文を生成AIモデルに入力し、物語のテーマや登場人物の性格、物語の進行に基づいて伏線やミステリー要素、感動的なシーンを自動生成する。生成された物語の要素は、ユーザに提供され、ユーザはそれを確認し、必要に応じて修正や追加を行うことができる。 The server inputs this prompt into a generative AI model, which automatically generates plot twists, mystery elements, and moving scenes based on the story's theme, the characters' personalities, and the story's progression. The generated story elements are provided to the user, who can review them and make corrections or additions as needed.
このようにして、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this way, it is possible to make the story more interesting and enable users to effectively use the generated story.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: Information about the story's theme, character personalities, and story progression.
具体的な動作: ユーザは端末の入力フォームに「中世の騎士の冒険」というテーマと、「勇敢な騎士、謎めいた老人、王女」という登場人物の情報を入力する。入力が完了したら、「送信」ボタンをクリックする。 Specific operation: The user enters the theme "Adventures of a Medieval Knight" and character information - "A Brave Knight, a Mysterious Old Man, and a Princess" - into the input form on their device. Once the input is complete, they click the "Submit" button.
出力: 入力された情報がサーバに送信される。 Output: The entered information is sent to the server.
ステップ2: Step 2:
サーバが入力された情報を受け取り、プロンプト文を生成する。 The server receives the entered information and generates a prompt.
入力: ユーザから送信された物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: User-submitted information about the story's theme, character personalities, and story progression.
具体的な動作: サーバは受信した情報を基に、生成AIモデルに入力するためのプロンプト文を生成する。 Specific operation: Based on the received information, the server generates a prompt sentence to input into the generative AI model.
出力: 生成されたプロンプト文。 Output: The generated prompt text.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
ステップ3: Step 3:
サーバが生成AIモデルにプロンプト文を入力し、物語の要素を生成する。 The server inputs prompts into the generative AI model to generate story elements.
入力: 生成されたプロンプト文。 Input: The generated prompt text.
具体的な動作: サーバは生成AIモデルにプロンプト文を入力し、物語の伏線、ミステリー要素、感動的なシーンを生成する。 Specific operation: The server inputs prompt text into the generative AI model, generating story hints, mystery elements, and moving scenes.
出力: 生成された物語の要素。 Output: Generated story elements.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
ステップ4: Step 4:
サーバが生成された物語の要素を整理し、ユーザに提供する。 The server organizes the generated story elements and provides them to the user.
入力: 生成AIモデルから出力された物語の要素。 Input: Story elements output from the generative AI model.
具体的な動作: サーバは生成された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 Specific operation: The server organizes the generated story elements and provides them to the user. The user can review the generated story elements through their device and make corrections or additions as necessary.
出力: 整理された物語の要素がユーザに提供される。 Output: The organized story elements are presented to the user.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて自動で物語を作成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の各シーンにマッチしたグラフィックや曲を自動で制作し、視聴者の心情を効果的に揺さぶることも困難である。さらに、生成AIモデルを活用して物語の要素を生成する際に、プロンプト文を適切に生成し、モデルに入力する手段が不足しているため、ユーザーにとって満足のいく物語を提供することができないという課題がある。 While conventional story generation systems can automatically create stories based on the story's theme and character settings, they have difficulty properly generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. It is also difficult to automatically create graphics and music that match each scene in the generated story and effectively stir the viewer's emotions. Furthermore, when using generative AI models to generate story elements, there is a lack of a way to properly generate prompt sentences and input them into the model, which poses the challenge of not being able to provide a satisfying story to the user.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いて物語の要素を生成する手段と、プロンプト文を生成し、生成AIモデルに入力する手段と、生成された物語の要素をユーザーに表示する手段を含む。これにより、物語をより面白くし、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user. This makes it possible to make the story more interesting and effectively stir the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境のことである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターのことである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマや舞台、登場人物などの基本的な要素のことである。 "Story setting" refers to the basic elements of the story, such as its theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉のことである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、後の展開に関連する重要な要素を前もって示すことである。 "Foreshadowing" is the advance indication of important elements related to later developments.
「ミステリー要素」とは、物語に謎や不思議な出来事を含めることである。 "Mystery elements" refer to the inclusion of mysteries or mysterious events in a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、視覚的な画像やイラストのことである。 "Graphics" refers to visual images and illustrations.
「曲」とは、音楽やメロディのことである。 "Song" refers to music or melody.
「演出効果」とは、物語をより魅力的に見せるための視覚や聴覚の工夫のことである。 "Producer effects" refer to visual and auditory techniques used to make a story more compelling.
「視聴者」とは、物語を観る人のことである。 "Viewers" are people who watch a story.
「生成AIモデル」とは、人工知能を用いてテキストや画像などを生成するアルゴリズムのことである。 A "generative AI model" is an algorithm that uses artificial intelligence to generate text, images, etc.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことである。 A "prompt" is an instruction sentence to be input into a generative AI model.
「ユーザー」とは、システムを利用する人のことである。 "User" refers to a person who uses the system.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段、生成AIモデルを用いて物語の要素を生成する手段、プロンプト文を生成し、生成AIモデルに入力する手段、生成された物語の要素をユーザーに表示する手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user.
サーバは、ユーザーが入力した物語のテーマや登場人物の情報を受け取り、それに基づいてプロンプト文を生成する。生成されたプロンプト文は、生成AIモデル(例えば、GPT-3(登録商標))に入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 The server receives information about the story's theme and characters entered by the user and generates a prompt based on that information. The generated prompt is then input into a generative AI model (e.g., GPT-3 (registered trademark)) to generate story elements. The generated story elements are then displayed to the user.
具体的には、サーバは以下のような手順で動作する。まず、ユーザーが物語のテーマや登場人物の情報を入力する。次に、サーバはこれらの情報を基にプロンプト文を生成する。生成されたプロンプト文は、生成AIモデルに入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 Specifically, the server operates in the following steps: First, the user inputs information about the story's theme and characters. Next, the server generates a prompt based on this information. The generated prompt is input into a generative AI model, which generates story elements. The generated story elements are then displayed to the user.
使用するハードウェアとしては、サーバやユーザー端末が含まれる。使用するソフトウェアとしては、生成AIモデル(例:GPT-3)やプロンプト文生成アルゴリズムが含まれる。 The hardware used includes servers and user devices. The software used includes generative AI models (e.g., GPT-3) and prompt generation algorithms.
具体例として、以下のようなプロンプト文が生成される。 As a concrete example, the following prompt sentence is generated:
テーマ: 騎士の冒険 Theme: Knight's Adventure
登場人物: 勇敢な騎士、謎の老人、魔法使い Characters: Brave knight, mysterious old man, wizard
物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。 Generate plot twists, mystery elements, and moving scenes to make your story more interesting.
このプロンプト文を生成AIモデルに入力することで、物語の要素が自動的に生成される。生成された物語の要素は、ユーザーに表示され、物語の構成や登場人物の会話、映像や音楽で演出効果を高めることができる。 By inputting this prompt into a generative AI model, story elements are automatically generated. The generated story elements are displayed to the user, and the dramatic effect can be enhanced with story structure, character dialogue, visuals, and music.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の情報 Input: Story theme, character information
出力: 入力されたテーマと登場人物の情報 Output: Input theme and character information
具体的な動作: ユーザはスマートフォンアプリケーションの入力フォームに物語のテーマ(例:「騎士の冒険」)や登場人物(例:「勇敢な騎士、謎の老人、魔法使い」)を入力する。 Specific actions: The user enters the story's theme (e.g., "The Knight's Adventure") and characters (e.g., "The Brave Knight, the Mysterious Old Man, and the Wizard") into an input form on a smartphone application.
ステップ2: Step 2:
サーバが入力されたテーマと登場人物の情報を受け取り、プロンプト文を生成する。 The server receives the entered theme and character information and generates a prompt.
入力: 入力されたテーマと登場人物の情報 Input: Entered theme and character information
出力: 生成されたプロンプト文 Output: Generated prompt text
具体的な動作: サーバは受け取ったテーマと登場人物の情報を基に、以下のようなプロンプト文を生成する。「テーマ: 騎士の冒険 登場人物: 勇敢な騎士、謎の老人、魔法使い 物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。」 Specific operation: Based on the received theme and character information, the server generates a prompt like the following: "Theme: A knight's adventure. Characters: A brave knight, a mysterious old man, a wizard. Please generate hints, mystery elements, and moving scenes to make the story more interesting."
ステップ3: Step 3:
サーバが生成されたプロンプト文を生成AIモデルに入力する。 The server inputs the generated prompt sentence into the generative AI model.
入力: 生成されたプロンプト文 Input: Generated prompt text
出力: 生成AIモデルによって生成された物語の要素 Output: Story elements generated by the generative AI model
具体的な動作: サーバは生成されたプロンプト文をGPT-3などの生成AIモデルに送信し、物語の要素(例:伏線、ミステリー要素、感動的なシーン)を生成する。 Specific operation: The server sends the generated prompt to a generative AI model such as GPT-3 to generate story elements (e.g., foreshadowing, mystery elements, emotional scenes).
ステップ4: Step 4:
サーバが生成された物語の要素を受け取り、ユーザに表示する。 The server receives the generated story elements and displays them to the user.
入力: 生成AIモデルによって生成された物語の要素 Input: Story elements generated by a generative AI model
出力: ユーザに表示される物語の要素 Output: Story elements displayed to the user
具体的な動作: サーバは生成AIモデルから受け取った物語の要素をユーザのスマートフォンアプリケーションに送信し、ユーザに表示する。ユーザは生成された物語の要素を確認することができる。 Specific operation: The server sends the story elements received from the generative AI model to the user's smartphone application and displays them to the user. The user can then review the generated story elements.
ステップ5: Step 5:
サーバが物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力: 生成された物語の要素 Input: Generated story elements
出力: 各シーンにマッチしたグラフィックや曲 Output: Graphics and music that match each scene
具体的な動作: サーバは生成された物語の要素を基に、シーンの雰囲気や登場人物の感情状態を考慮して、適切なグラフィックや曲を自動で制作する。 Specific operation: Based on the generated story elements, the server automatically creates appropriate graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ6: Step 6:
サーバが物語の構成や登場人物の会話、映像や音楽で演出効果を高める。 The server enhances the dramatic effect through story structure, character dialogue, visuals, and music.
入力: 各シーンにマッチしたグラフィックや曲、物語の要素 Input: Graphics, music, and story elements that match each scene
出力: 演出効果が高められた物語 Output: A story with enhanced dramatic effects
具体的な動作: サーバは物語の構成や登場人物の会話、映像や音楽を組み合わせて、視聴者の心情を効果的に揺さぶる演出効果を高める。 Specific operation: The server combines the story structure, character dialogue, images, and music to enhance the dramatic effect, effectively stirring the viewer's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが困難であり、視聴者の心情を効果的に揺さぶる演出効果を高めることができなかった。また、シーンの雰囲気や登場人物の感情状態を考慮したグラフィックや音楽の生成が手動で行われるため、時間と労力がかかるという問題があった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, preventing them from effectively evoking the viewer's emotions. Furthermore, generating graphics and music that take into account the scene's atmosphere and the characters' emotional states was a time-consuming and labor-intensive process.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、シーンデータを解析し、シーンの雰囲気や登場人物の感情状態を抽出する手段と、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する手段と、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段と、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for analyzing scene data and extracting the atmosphere of the scene and the emotional state of the characters; means for generating prompt text to be input into a generative AI model based on the extracted information; means for inputting the prompt text into the generative AI model and generating graphics and music that match the scene; means for integrating the generated graphics and music with the scene data and generating final output; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story, enhancing the dramatic effect that effectively stirs the viewer's emotions.
「物語のテーマや舞台、登場人物などのストーリー設定」とは、物語の基本的な要素であり、物語の背景や登場人物の特徴、物語の進行に必要な設定を指す。 "Story settings such as the story's theme, setting, and characters" are the basic elements of a story, and refer to the background of the story, the characteristics of the characters, and the settings necessary for the story's progression.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するためのインターフェースを指す。 "Means of input" refers to the interface that allows the user to provide the story setting, such as the story's theme, setting, and characters, to the system.
「登場人物のセリフや情景、物語の構成を自動で作成する手段」とは、入力されたストーリー設定に基づいて、登場人物の会話やシーンの描写、物語の全体的な流れを自動的に生成する機能を指す。 "Means for automatically creating character dialogue, scenes, and story structure" refers to a function that automatically generates character dialogue, scene descriptions, and the overall flow of a story based on the input story setting.
「伏線やミステリー要素、感動的なシーンなどを自動で生成する手段」とは、物語をより面白くするために、予め設定されたストーリーの中にサプライズや感動を引き起こす要素を自動的に追加する機能を指す。 "Means for automatically generating foreshadowing, mystery elements, moving scenes, etc." refers to a function that automatically adds elements that cause surprises or emotions to a pre-set story in order to make the story more interesting.
「グラフィックや曲を自動で制作する手段」とは、物語の各シーンに合わせて、視覚的および聴覚的な要素を自動的に生成する機能を指す。 "Means for automatically creating graphics and music" refers to a function that automatically generates visual and auditory elements to match each scene in a story.
「シーンデータを解析する手段」とは、物語の各シーンの内容を分析し、シーンの雰囲気や登場人物の感情状態を抽出する機能を指す。 "Means for analyzing scene data" refers to the function of analyzing the content of each scene in a story and extracting the atmosphere of the scene and the emotional state of the characters.
「生成AIモデルに入力するプロンプト文を生成する手段」とは、解析されたシーンデータに基づいて、生成AIモデルに対して適切な指示を与えるためのテキストを作成する機能を指す。 "Means for generating prompt sentences to be input to a generative AI model" refers to a function that creates text to provide appropriate instructions to a generative AI model based on analyzed scene data.
「生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段」とは、生成AIモデルに対してプロンプト文を入力し、その結果としてシーンに適したグラフィックと音楽を生成する機能を指す。 "A means of inputting a prompt sentence into a generative AI model and generating graphics and music that match the scene" refers to a function that inputs a prompt sentence into a generative AI model and, as a result, generates graphics and music that are appropriate for the scene.
「生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段」とは、生成された視覚および聴覚要素をシーンデータに組み込み、最終的な物語の出力を作成する機能を指す。 "Means for integrating generated graphics and music into scene data and generating final output" refers to the functionality for incorporating generated visual and auditory elements into scene data to create the final narrative output.
「視聴者の心情を効果的に揺さぶる手段」とは、物語の構成や登場人物の会話、映像や音楽を通じて、視聴者の感情に強い影響を与えるための機能を指す。 "Means to effectively stir the viewer's emotions" refers to the function of having a strong impact on the viewer's emotions through the story structure, the characters' dialogue, images, and music.
この発明は、物語の各シーンにマッチしたグラフィックや曲を自動で制作するシステムに関するものである。このシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて登場人物のセリフや情景、物語の構成を自動で作成する。また、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成し、さらに各シーンにマッチしたグラフィックや曲を自動で制作する。 This invention relates to a system that automatically creates graphics and music that match each scene in a story. This system inputs story settings such as the story's theme, setting, and characters, and automatically creates character dialogue, scenery, and story structure based on the input story settings. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting, and automatically creates graphics and music that match each scene.
使用するハードウェアおよびソフトウェア Hardware and software used
このシステムは、以下のハードウェアおよびソフトウェアを使用する: This system uses the following hardware and software:
サーバ:データの解析および生成AIモデルの実行を行う。 Server: Analyzes data and runs generative AI models.
端末:ユーザが物語のストーリー設定を入力するためのインターフェースを提供する。 Terminal: Provides an interface for users to enter the story setting for their story.
生成AIモデル:例えば、OpenAIのGPT-4やDALL-E、音楽生成モデルなどを使用する。 Generative AI models: For example, OpenAI's GPT-4, DALL-E, and music generation models are used.
データ加工およびデータ演算 Data processing and calculation
サーバは、ユーザが端末を通じて入力した物語のストーリー設定を受け取る。ストーリー設定には、物語のテーマ、舞台、登場人物の特徴などが含まれる。サーバは、これらのデータを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server receives the story settings entered by the user via their device. The story settings include the story's theme, setting, and character traits. The server analyzes this data and automatically creates the characters' lines, scenery, and story structure.
次に、サーバは作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。これにより、物語がより面白く、視聴者の心情を揺さぶるものとなる。 Next, the server automatically generates foreshadowing, mystery elements, and moving scenes based on the story you've created. This makes the story more interesting and emotionally stirring for the viewer.
さらに、サーバは物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。解析結果として、シーンの雰囲気や登場人物の感情状態を抽出する。サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 Furthermore, the server analyzes scene data to automatically create graphics and music that match each scene in the story. As a result of the analysis, it extracts the atmosphere of the scene and the emotional state of the characters. Based on the extracted information, the server generates prompt sentences to input into the generative AI model.
具体例 Specific examples
例えば、感動的なシーンの場合、サーバは以下のようなプロンプト文を生成AIモデルに入力する: For example, in the case of an emotional scene, the server inputs the following prompt sentence into the generative AI model:
グラフィック生成のプロンプト文例:「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example prompt for graphic generation: "Generate a graphic of a beautiful landscape. The scene is emotional, and the character is in tears."
音楽生成のプロンプト文例:「心を打つ感動的な音楽を生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example music generation prompt: "Generate moving, poignant music. The scene is emotional, and the characters are in tears."
生成AIモデルは、これらのプロンプト文に基づいてグラフィックと音楽を生成する。サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。端末は、統合された結果をユーザに表示する。 The generative AI model generates graphics and music based on these prompts. The server integrates the generated graphics and music with the scene data to generate the final output. The device displays the integrated results to the user.
このようにして、ユーザは物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることができる。実施例3における特定処理の流れについて図15を用いて説明する。 In this way, the user can automatically create graphics and music that match each scene in the story, enhancing the dramatic effect that effectively stirs the viewer's emotions. The flow of the specific processing in Example 3 will be explained using Figure 15.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定を端末に入力する。 The user enters story settings such as the story's theme, setting, and characters into the device.
具体的な動作:ユーザは、端末の入力フォームに物語のテーマ(例:ファンタジー)、舞台(例:中世の城)、登場人物(例:勇者、魔法使い)などの情報を入力する。端末は、入力されたストーリー設定をサーバに送信する。 Specific operation: The user enters information such as the story's theme (e.g., fantasy), setting (e.g., medieval castle), and characters (e.g., hero, wizard) into the device's input form. The device then sends the entered story settings to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは、受け取ったストーリー設定データを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server analyzes the received story setting data and automatically creates the characters' lines, scenes, and story structure.
具体的な動作:サーバは、自然言語処理(NLP)技術を使用してストーリー設定データを解析し、登場人物のセリフやシーンの描写、物語の全体的な流れを生成する。 Specific operations: The server uses natural language processing (NLP) technology to analyze story setting data and generate character dialogue, scene descriptions, and the overall story flow.
入力:ストーリー設定データ Input: Story setting data
出力:登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
ステップ3: Step 3:
サーバは、作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Based on the story you create, the server automatically generates foreshadowing, mystery elements, moving scenes, and more.
具体的な動作:サーバは、物語の構成データを解析し、物語をより面白くするための伏線やミステリー要素、感動的なシーンを追加する。 Specific operation: The server analyzes the story's composition data and adds hints, mystery elements, and moving scenes to make the story more interesting.
入力:物語の構成データ Input: Story composition data
出力:伏線やミステリー要素、感動的なシーンを含む物語データ Output: Story data including foreshadowing, mystery elements, and moving scenes
ステップ4: Step 4:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。 The server analyzes scene data to automatically create graphics and music that match each scene in the story.
具体的な動作:サーバは、物語データをシーンごとに分割し、各シーンの雰囲気や登場人物の感情状態を抽出する。 Specific operation: The server divides the story data into scenes and extracts the atmosphere of each scene and the emotional state of the characters.
入力:物語データ Input: Story data
出力:シーンごとの雰囲気や登場人物の感情状態データ Output: Scene-specific mood and character emotional state data
ステップ5: Step 5:
サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 The server generates prompt sentences to input into the generative AI model based on the extracted information.
具体的な動作:サーバは、シーンの雰囲気や登場人物の感情状態に応じたプロンプト文を作成する。例えば、感動的なシーンの場合、「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」というプロンプト文を生成する。 Specific operation: The server creates a prompt that corresponds to the atmosphere of the scene and the emotional state of the characters. For example, in the case of an emotional scene, the server generates the prompt, "Generate a graphic of a beautiful landscape. The scene is emotional, and the characters are crying."
入力:シーンごとの雰囲気や登場人物の感情状態データ Input: Scene atmosphere and character emotional state data
出力:生成AIモデルに入力するプロンプト文 Output: Prompt text to be input to the generative AI model
ステップ6: Step 6:
サーバは、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する。 The server inputs prompt text into the generative AI model, generating graphics and music that match the scene.
具体的な動作:サーバは、生成AIモデル(例:DALL-E)にプロンプト文を送信し、シーンにマッチしたグラフィックを生成する。同様に、音楽生成モデルにプロンプト文を送信し、シーンにマッチした音楽を生成する。 Specific operation: The server sends a prompt to the generative AI model (e.g., DALL-E), which generates graphics that match the scene. Similarly, it sends a prompt to the music generation model, which generates music that matches the scene.
入力:生成AIモデルに入力するプロンプト文 Input: Prompt text to be input to the generative AI model
出力:生成されたグラフィックと音楽 Output: Generated graphics and music
ステップ7: Step 7:
サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。 The server integrates the generated graphics and music with the scene data to generate the final output.
具体的な動作:サーバは、生成されたグラフィックと音楽を各シーンデータに統合し、物語全体の最終的な出力を作成する。 Specific operation: The server integrates the generated graphics and music with each scene data to create the final output of the entire story.
入力:生成されたグラフィックと音楽、シーンデータ Input: Generated graphics, music, and scene data
出力:統合された最終的な物語データ Output: Final integrated narrative data
ステップ8: Step 8:
端末は、統合された最終的な物語データをユーザに表示する。 The terminal displays the final, integrated story data to the user.
具体的な動作:端末は、サーバから送信された最終的な物語データを受信し、ユーザに視覚的および聴覚的に表示する。 Specific operation: The terminal receives the final story data sent from the server and displays it visually and audibly to the user.
入力:統合された最終的な物語データ Input: Final integrated narrative data
出力:ユーザに表示される物語の視覚および聴覚的コンテンツ Output: The visual and auditory content of the story presented to the user.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視覚的・聴覚的な演出効果が限定されていた。また、ユーザーが自分の物語を入力しても、その物語に適したグラフィックや音楽を生成するための手段が不足しており、コンテンツの質が低下する問題があった。さらに、生成されたコンテンツをプレビューし、エクスポートする機能が欠如していたため、ユーザーの利便性が低かった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, limiting the visual and auditory effects they could produce. Furthermore, even when users input their own stories, there was a lack of means to generate graphics and music appropriate for that story, resulting in a decline in content quality. Furthermore, the lack of functionality to preview and export the generated content resulted in poor user convenience.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する手段と、シーンの説明に基づいてグラフィックを生成する手段と、シーンの説明に基づいて音楽を生成する手段と、生成されたコンテンツをプレビューする手段と、完成したコンテンツをエクスポートする手段を含む。これにより、ユーザーが入力した物語に基づいて、視覚的・聴覚的に豊かなコンテンツを自動で生成し、プレビューおよびエクスポートすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, video, and music, and effectively stirring the viewer's emotions; means for analyzing story scenes and extracting the scene atmosphere and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content. This makes it possible to automatically generate, preview, and export visually and aurally rich content based on a story entered by the user.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指す。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を指す。 "Story setting" refers to basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要になる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that foreshadow information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される視覚的な画像やイラストを指す。 "Graphics" refers to visual images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「シーンの雰囲気」とは、物語の特定の場面が持つ全体的な感覚やムードを指す。 'Scene atmosphere' refers to the overall feeling or mood of a particular scene in a story.
「登場人物の感情状態」とは、物語の中で登場人物が感じている感情を指す。 "A character's emotional state" refers to the emotions the character is feeling in the story.
「シーンの説明」とは、物語の特定の場面についての詳細な描写や解説を指す。 A "scene description" refers to a detailed description or explanation of a particular scene in a story.
「プレビュー」とは、生成されたコンテンツを事前に確認することを指す。 "Preview" refers to checking the generated content in advance.
「エクスポート」とは、生成されたコンテンツを外部ファイルとして保存することを指す。 "Export" refers to saving the generated content as an external file.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め視聴者の心情を効果的に揺さぶる手段、物語のシーンを解析しシーンの雰囲気と登場人物の感情状態を抽出する手段、シーンの説明に基づいてグラフィックを生成する手段、シーンの説明に基づいて音楽を生成する手段、生成されたコンテンツをプレビューする手段、完成したコンテンツをエクスポートする手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the story structure, character dialogue, and visuals and music to effectively stir the viewer's emotions; means for analyzing story scenes and extracting the atmosphere of the scene and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content.
ハードウェアおよびソフトウェアの構成 Hardware and software configuration
ハードウェア: Hardware:
スマートフォン Smartphone
ソフトウェア: Software:
Python Python
OpenAI API OpenAI API
PIL (Python Imaging Library) PIL (Python Imaging Library)
音楽生成ライブラリ Music generation library
データ加工およびデータ演算 Data processing and calculation
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段: How to enter story settings such as theme, setting, and characters:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
登場人物のセリフや情景、物語の構成を自動で作成する手段: Methods for automatically creating character dialogue, scenes, and story structure:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
伏線やミステリー要素、感動的なシーンなどを自動で生成する手段: Methods for automatically generating foreshadowing, mystery elements, moving scenes, etc.:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段: Methods for automatically creating graphics and music that match each scene in a story:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。これに基づいて、OpenAIの画像生成APIを使用してグラフィックを生成し、音楽生成APIを使用して音楽を生成する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the characters' emotional state. Based on this, it generates graphics using OpenAI's image generation API and music using OpenAI's music generation API.
生成されたコンテンツをプレビューする手段: How to preview generated content:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including generated graphics and music, through a smartphone application.
完成したコンテンツをエクスポートする手段: How to export your finished content:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
具体例 Specific examples
例えば、ユーザが「勇者はドラゴンと戦うために山に登った。」という物語を入力すると、システムはこのシーンを解析し、勇者とドラゴンの戦闘シーンにマッチした迫力のあるグラフィックと緊張感を高める音楽を生成する。 For example, if a user inputs the story "A hero climbed a mountain to fight a dragon," the system will analyze this scene and generate powerful graphics and music that heightens the tension to match the battle scene between the hero and the dragon.
プロンプト文の例: Example prompt:
以下の物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を出力してください: Analyze the following story scene and output the scene's atmosphere and the characters' emotional states:
勇者はドラゴンと戦うために山に登った。 The hero climbed the mountain to fight the dragon.
このようにして、ユーザは自分の物語を視覚的・聴覚的に豊かなコンテンツとして楽しむことができる。 In this way, users can enjoy their stories as visually and aurally rich content.
応用例3における特定処理の流れについて図16を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 16.
ステップ1: Step 1:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
入力: 物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力: テキスト形式のストーリー設定データ Output: Story setting data in text format
ステップ2: Step 2:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
入力: テキスト形式のストーリー設定データ Input: Text-based story setting data
出力: 登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ3: Step 3:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
入力: 登場人物のセリフ、情景、物語の構成データ Input: Character dialogue, scenery, and story structure data
出力: 伏線、ミステリー要素、感動的なシーンデータ Output: Foreshadowing, mystery elements, and moving scene data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ4: Step 4:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the emotional state of the characters.
入力: 伏線、ミステリー要素、感動的なシーンデータ Input: Foreshadowing, mystery elements, and moving scene data
出力: シーンの雰囲気、登場人物の感情状態データ Output: Scene atmosphere, character emotional state data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、解析結果を受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the analysis results.
ステップ5: Step 5:
サーバは、シーンの説明に基づいてグラフィックを生成する。 The server generates graphics based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: グラフィックデータ Output: Graphics data
具体的な動作: サーバはOpenAIの画像生成APIにプロンプト文を送信し、生成された画像を受け取る。 Specific operation: The server sends a prompt to OpenAI's image generation API and receives the generated image.
ステップ6: Step 6:
サーバは、シーンの説明に基づいて音楽を生成する。 The server generates music based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: 音楽データ Output: Music data
具体的な動作: サーバはOpenAIの音楽生成APIにプロンプト文を送信し、生成された音楽を受け取る。 Specific operation: The server sends a prompt to OpenAI's music generation API and receives the generated music.
ステップ7: Step 7:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including generated graphics and music, through a smartphone application.
入力: グラフィックデータ、音楽データ Input: Graphics data, music data
出力: プレビュー画面 Output: Preview screen
具体的な動作: スマートフォンのアプリケーションが生成されたデータを表示し、ユーザにプレビューを提供する。 Specific behavior: The smartphone application displays the generated data and provides a preview to the user.
ステップ8: Step 8:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
入力: プレビュー画面 Input: Preview screen
出力: 動画ファイル Output: Video file
具体的な動作: スマートフォンのアプリケーションが生成されたデータを動画ファイルとして保存し、ユーザに提供する。 Specific operation: The smartphone application saves the generated data as a video file and provides it to the user.
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
「形態例1」 "Example 1"
本発明の一実施形態として、感情エンジンを組み合わせた物語生成システムがある。このシステムは、ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。そして、そのストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。さらに、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。また、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。そして、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 One embodiment of the present invention is a story generation system that incorporates an emotion engine. This system receives story settings, such as the story's theme, setting, and characters, as input information from the user. Based on this story setting, the system then automatically creates character dialogue, scenery, and story structure. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting. It also automatically creates graphics and music that match each scene in the story. The story structure, character dialogue, video, and music enhance the dramatic effect, effectively stirring the viewer's emotions.
「形態例2」 "Example 2"
さらに、本システムは感情エンジンを含む。この感情エンジンは、ユーザの感情をリアルタイムで認識する。そして、その感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Furthermore, the system includes an emotion engine. This emotion engine recognizes the user's emotions in real time and adjusts the story development according to those emotions. For example, if the user feels joyful about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
感情エンジンは、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions. For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. If the user speaks in a sad tone of voice, the emotion engine will recognize that the user is feeling sad. Furthermore, if the user inputs the text "fun," the emotion engine will recognize that the user is feeling happy. Based on this information, the emotion engine adjusts the development of the story and provides a story experience that matches the user's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。 Step 1: Receive story settings such as theme, setting, and characters as input from the user.
ステップ2:受け取ったストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 Step 2: Based on the received story setting, character dialogue, scenes, and story structure are automatically created.
ステップ3:作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 3: Automatically generate hints, mystery elements, moving scenes, and more to make your story more interesting.
ステップ4:作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。ステップ5:物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 Step 4: Automatically create graphics and music that match each scene in the story you've created. Step 5: Enhance the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions.
「形態例2」 "Example 2"
ステップ1:感情エンジンを起動し、ユーザの感情をリアルタイムで認識する。 Step 1: Launch the emotion engine and recognize the user's emotions in real time.
ステップ2:認識した感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Step 2: Adjust the story development according to the recognized emotion. For example, if the user feels happy about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
ステップ1:感情エンジンがユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。 Step 1: The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions.
ステップ2:例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。 Step 2: For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. Also, if the user is speaking in a sad tone of voice, the emotion engine will recognize that the user is feeling sad.
ステップ3:さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 Step 3: Furthermore, if the user enters the text "fun," the emotion engine recognizes that the user is feeling enjoyment. Based on this information, the emotion engine adjusts the development of the story and provides a narrative experience that matches the user's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性が欠けることが多かった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンの生成が難しく、視聴者の心情を効果的に揺さぶることができなかった。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することが困難であった。これらの課題を解決するために、本発明は、より一貫性のある物語生成と、視聴者の心情を効果的に揺さぶるためのシステムを提供することを目的とする In conventional story generation systems, when automatically generating a story based on a story setting entered by the user, the story flow, character dialogue, and scenery often lacked consistency. Furthermore, it was difficult to generate foreshadowing, mystery elements, and moving scenes to make the story more interesting, making it difficult to effectively move the viewer's emotions. Furthermore, it was difficult to automatically create graphics and music that matched each scene in the story. To address these issues, the present invention aims to provide a system that generates more consistent stories and effectively moves the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定を解析する手段と、解析されたストーリー設定に基づき、既存の物語データベースを検索する手段と、生成AIモデルにプロンプト文を生成し入力する手段と、生成AIモデルを用いて登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for analyzing the input story settings; means for searching an existing story database based on the analyzed story settings; means for generating and inputting prompt sentences to a generation AI model; means for automatically creating character dialogue, scenes, and story structure using the generation AI model; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions. This makes it possible to generate a consistent story based on the story settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や時代背景のことである。 "Setting" refers to the place and historical background in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物のことである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するための方法や装置のことである。 "Input means" refers to the method or device by which the user provides the story setting, such as the story's theme, setting, and characters, to the system.
「解析する手段」とは、入力されたストーリー設定を分析し、重要なキーワードやフレーズを抽出するための方法や装置のことである。 "Means for analyzing" refers to a method or device for analyzing the input story setting and extracting important keywords and phrases.
「データベースを検索する手段」とは、解析されたストーリー設定に基づいて、既存の物語データベースから関連情報を検索するための方法や装置のことである。 "Means for searching a database" refers to a method or device for searching relevant information from an existing narrative database based on the analyzed story setting.
「生成AIモデル」とは、人工知能技術を用いてテキストや物語を生成するためのモデルのことである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文や質問文のことである。 A "prompt" is an instruction or question that is input into a generative AI model.
「プロンプト文を生成し入力する手段」とは、生成AIモデルに適したプロンプト文を作成し、それをモデルに入力するための方法や装置のことである。 "Means for generating and inputting prompt sentences" refers to a method or device for creating prompt sentences suitable for a generative AI model and inputting them into the model.
「セリフ」とは、登場人物が話す言葉や台詞のことである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の流れや展開を決定するための構造や配置のことである。 "Narrative structure" refers to the structure and arrangement that determines the flow and development of a story.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントのことである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎やサスペンスを加えるための要素のことである。 "Mystery elements" are elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語の各シーンに合わせて生成される画像やイラストのことである。 "Graphics" refers to images and illustrations generated to match each scene in the story.
「曲」とは、物語の各シーンに合わせて生成される音楽やメロディのことである。 "Songs" refer to music and melodies generated to match each scene in the story.
「演出効果」とは、物語の構成や登場人物の会話、映像や音楽を用いて視聴者の心情を揺さぶるための効果のことである。 "Directory effects" refer to effects that use story structure, character dialogue, images, and music to stir the viewer's emotions.
本発明は、物語生成システムに関するものであり、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることを目的とする。 The present invention relates to a story generation system that generates a coherent story based on a story setting entered by the user, and aims to effectively stir the emotions of the viewer.
システムの構成 System Configuration
ユーザの入力 User input
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった具体的な設定を提供する。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they can provide a specific setting such as "a knight's adventure story set in medieval Europe."
サーバの入力解析 Server input analysis
サーバは、ユーザから受け取ったストーリー設定を解析する。この解析には、自然言語処理技術を用いる。具体的には、PythonのNLTKライブラリやSpaCyを使用する。サーバは、入力テキストをトークン化し、重要なキーワードやフレーズを抽出する。 The server analyzes the story setting received from the user. This analysis uses natural language processing techniques, specifically Python's NLTK library and SpaCy. The server tokenizes the input text and extracts important keywords and phrases.
データベースの検索 Search the database
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。このデータベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。 The server searches an existing story database based on the extracted keywords and phrases. This database stores information on past stories and characters. The server finds similar stories and character settings and uses them as reference information.
生成AIモデルのプロンプト生成 Prompt generation for generative AI models
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。 Based on user input and information obtained from the database, the server generates prompts to be input into the generative AI model. For example, it creates a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and descriptions of the scenery."
生成AIモデルによる物語生成 Story generation using generative AI models
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。 The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities.
感情エンジンの適用 Applying the Emotion Engine
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM Watson(登録商標)のTone Analyzerを使用する。 The server applies an emotional engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotional engine uses IBM Watson (registered trademark) Tone Analyzer.
グラフィックと音楽の生成 Graphics and music generation
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music.
最終出力の統合 Merge the final output
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例 Specific examples
ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」という設定を入力した場合、サーバは以下のような物語を生成する: If the user inputs the setting "A knight's adventure story set in medieval Europe," the server will generate a story like this:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
プロンプト文の例 Example prompt
生成AIモデルに入力するプロンプト文の例は以下の通り: An example of a prompt to input to the generative AI model is as follows:
「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」 "Create a knight's adventure story set in medieval Europe. The main character is a brave knight named Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include an opening line, character dialogue, and a description of the scenery."
このプロンプト文を生成AIモデルに入力することで、物語の各要素が自動的に生成される。 By inputting this prompt into a generative AI model, each element of the story is automatically generated.
実施例1における特定処理の流れについて図17を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 17.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力は、システムのユーザインターフェースを通じて行われる。入力されたテキストは、サーバに送信される。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they might enter "A knight's adventure story set in medieval Europe." This input is done through the system's user interface. The entered text is sent to the server.
ステップ2: Step 2:
サーバは、ユーザから受け取ったストーリー設定を解析する。具体的には、PythonのNLTKライブラリやSpaCyを使用してテキストをトークン化し、重要なキーワードやフレーズを抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果は、次のステップで使用される。 The server analyzes the story setting received from the user. Specifically, it uses Python's NLTK library and SpaCy to tokenize the text and extract important keywords and phrases. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis are used in the next step.
ステップ3: Step 3:
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。データベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。例えば、「中世ヨーロッパ」をテーマにした過去の物語や、「騎士」を主人公とした物語を検索する。この検索結果は、次のステップで使用される。 The server searches an existing story database based on the extracted keywords and phrases. The database contains information on past stories and characters. The server finds similar stories and character settings and uses them as reference information. For example, it searches for past stories with a "medieval Europe" theme or stories with a "knight" as the main character. The search results are used in the next step.
ステップ4: Step 4:
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。このプロンプト文は、次のステップで使用される。 Based on user input and information obtained from the database, the server generates a prompt to be input into the generative AI model. For example, it might create a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and a description of the scenery." This prompt will be used in the next step.
ステップ5: Step 5:
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。例えば、生成AIモデルは以下のような物語を生成する: The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities. For example, the generative AI model generates the following story:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
ステップ6: Step 6:
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。感情エンジンは、生成されたテキストを解析し、適切な感情要素を追加する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer. The emotion engine analyzes the generated text and adds appropriate emotional elements.
ステップ7: Step 7:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。例えば、物語の冒頭シーンに合わせて、中世ヨーロッパの風景を描いたグラフィックや、冒険を感じさせる曲を生成する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music. For example, to match the opening scene of the story, it generates graphics depicting the scenery of medieval Europe and music that evokes a sense of adventure.
ステップ8: Step 8:
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力した設定に基づいて物語を生成することはできるが、生成された物語をリアルタイムで視覚化・音声化し、ユーザーが仮想現実空間で体験することはできなかった。また、物語の各シーンにマッチしたグラフィックや音楽を自動で生成し、視聴者の心情を効果的に揺さぶる演出効果を高めることも困難であった。これにより、ユーザーの体験が限定され、物語の没入感が不足していた。 Conventional story generation systems could generate stories based on settings entered by the user, but they were unable to visualize and sound out the generated stories in real time and allow users to experience them in a virtual reality space. It was also difficult to automatically generate graphics and music that matched each scene in the story, enhancing the dramatic effects that effectively stirred the viewer's emotions. This limited the user experience and led to a lack of immersion in the story.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーが入力した物語の設定に基づき、生成AIモデルを用いて物語を生成する手段と、生成された物語をリアルタイムで視覚化・音声化する手段と、ヘッドマウントディスプレイを用いてユーザーが生成された物語を仮想現実空間で体験する手段と、を含む。これにより、ユーザーは生成された物語をリアルタイムで視覚化・音声化し、仮想現実空間で体験することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating a story using a generative AI model based on the story settings input by the user; means for visualizing and audibly converting the generated story in real time; and means for the user to experience the generated story in a virtual reality space using a head-mounted display. This allows the user to visualize and audibly convert the generated story in real time and experience it in a virtual reality space.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters who act in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の基盤を形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the foundation of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するモデルのことであり、物語の構成やセリフを自動で作成するために使用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically create story structures and dialogue.
「伏線」とは、物語の中で後の展開を予感させる要素やヒントのことであり、物語を面白くするための技法である。 "Foreshadowing" refers to elements or hints in a story that give a glimpse of future developments, and is a technique used to make a story more interesting.
「ミステリー要素」とは、物語の中で謎や疑問を提示する要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements in a story that present a mystery or question, and are intended to attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に深い印象を与えるものである。 A "moving scene" is a scene in a story that stirs strong emotions and leaves a deep impression on the viewer's mind.
「グラフィック」とは、視覚的な画像や映像のことであり、物語のシーンや登場人物を視覚的に表現するためのものである。 "Graphics" refers to visual images and footage that visually represent scenes and characters in a story.
「曲」とは、音楽のことであり、物語のシーンや雰囲気を音楽で演出するためのものである。 "Song" refers to music, used to create scenes and atmosphere in a story.
「視覚化」とは、物語の内容を視覚的に表現することであり、ユーザーが物語を目で見て楽しむことができるようにするものである。 "Visualization" refers to the visual representation of the story content, allowing users to enjoy the story visually.
「音声化」とは、物語の内容を音声で表現することであり、ユーザーが物語を耳で聞いて楽しむことができるようにするものである。 "Audio" refers to the expression of the story content in audio, allowing users to enjoy the story by listening to it.
「仮想現実空間」とは、コンピュータ技術を用いて作り出された仮想の空間のことであり、ユーザーがその中で現実のように体験できるものである。 A "virtual reality space" is a virtual space created using computer technology that allows users to experience reality.
「ヘッドマウントディスプレイ」とは、頭部に装着するディスプレイ装置のことであり、ユーザーが仮想現実空間を体験するために使用されるものである。 A "head-mounted display" is a display device worn on the head, used to allow users to experience virtual reality spaces.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、ユーザはスマートフォンやヘッドマウントディスプレイを使用して物語のテーマや舞台、登場人物などのストーリー設定を入力する。これらの入力はテキスト形式で行われる。 A system for implementing this invention has the following configuration: First, a user uses a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters. This input is done in text format.
次に、サーバは生成AIモデル(例:GPT-4)を用いて、ユーザが入力したストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。生成AIモデルは、既存の物語データベースを参照しながら、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景を生成する。 Next, the server uses a generative AI model (e.g., GPT-4) to automatically create character dialogue, scenes, and a story structure based on the story setting entered by the user. The generative AI model references an existing story database to generate dialogue and scenes that match the story flow, character personalities, and story theme.
さらに、サーバは感情エンジンを用いて、作成された物語に伏線やミステリー要素、感動的なシーンなどを追加する。これにより、物語がより面白く、感動的なものとなる。 In addition, the server uses an emotion engine to add hints, mystery elements, and moving scenes to the stories created, making them more interesting and moving.
次に、サーバはグラフィック生成エンジンと音楽生成エンジンを使用して、作成された物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これにより、物語の視覚的および聴覚的な演出効果が高まり、視聴者の心情を効果的に揺さぶることができる。 The server then uses a graphics generation engine and a music generation engine to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story, effectively stirring the emotions of the viewer.
最後に、生成された物語はリアルタイムで視覚化・音声化され、ユーザはヘッドマウントディスプレイを用いて仮想現実空間で物語を体験することができる。これにより、ユーザは物語の中に没入し、より深い体験を得ることができる。 Finally, the generated story is visualized and audible in real time, and the user can experience the story in a virtual reality space using a head-mounted display. This allows the user to become immersed in the story and enjoy a deeper experience.
具体例として、ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」を入力した場合、以下のようなプロンプト文が生成AIモデルに入力される。 As a concrete example, if a user inputs "a knight's adventure story set in medieval Europe," the following prompt sentence will be input to the generative AI model:
プロンプト文の例: Example prompt:
テーマ: 中世ヨーロッパ Theme: Medieval Europe
舞台: 騎士の冒険 Setting: Knight's Adventure
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語の設定: 勇敢な騎士が魔法使いと共にドラゴンを倒す冒険に出る Story setting: A brave knight and a wizard embark on an adventure to slay a dragon.
このプロンプト文を基に、生成AIモデルが物語を生成し、感情エンジンが感情的な要素を追加し、グラフィック生成エンジンと音楽生成エンジンがグラフィックと音楽を生成する。ユーザはヘッドマウントディスプレイを通じて、リアルタイムでこの物語を体験することができる。 Based on this prompt, a generative AI model generates a story, an emotion engine adds emotional elements, and a graphics generation engine and music generation engine generate graphics and music. Users can experience this story in real time through a head-mounted display.
応用例1における特定処理の流れについて図18を用いて説明する。 The flow of the specific processing in Application Example 1 is explained using Figure 18.
ステップ1: Step 1:
ユーザはスマートフォンやヘッドマウントディスプレイを使用して、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。入力されたデータはサーバに送信される。 Users use a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters in text format. The input data is sent to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは受信したストーリー設定データを基に、生成AIモデル(例:GPT-4)を使用して物語の構成、登場人物のセリフ、情景を自動で作成する。生成AIモデルは既存の物語データベースを参照しながら、物語の流れや登場人物の性格に合わせたテキストを生成する。 Based on the received story setting data, the server uses a generative AI model (e.g., GPT-4) to automatically create the story structure, character dialogue, and scenery. The generative AI model references an existing story database to generate text that matches the story flow and character personalities.
入力:ストーリー設定データ Input: Story setting data
出力:生成された物語の構成、セリフ、情景 Output: Generated story structure, dialogue, and scenery
ステップ3: Step 3:
サーバは感情エンジンを用いて、生成された物語に伏線やミステリー要素、感動的なシーンなどの感情的な要素を追加する。感情エンジンは物語の各シーンに適した感情的な要素を自動で挿入する。 The server uses an emotion engine to add emotional elements such as foreshadowing, mystery elements, and moving scenes to the generated story. The emotion engine automatically inserts emotional elements appropriate to each scene in the story.
入力:生成された物語の構成、セリフ、情景 Input: Generated story structure, dialogue, and scenery
出力:感情的な要素が追加された物語 Output: A story with added emotional content
ステップ4: Step 4:
サーバはグラフィック生成エンジンを使用して、物語の各シーンにマッチしたグラフィックを自動で制作する。グラフィック生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切なビジュアルを生成する。 The server uses a graphics generation engine to automatically create graphics that match each scene in the story. The graphics generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate visuals.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチしたグラフィック Output: Graphics that match each scene
ステップ5: Step 5:
サーバは音楽生成エンジンを使用して、物語の各シーンにマッチした曲を自動で制作する。音楽生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切な音楽を生成する。 The server uses a music generation engine to automatically create music that matches each scene in the story. The music generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate music.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチした曲 Output: Songs that match each scene
ステップ6: Step 6:
サーバは生成された物語、グラフィック、音楽を統合し、リアルタイムで視覚化・音声化する。これにより、ユーザは物語を視覚と聴覚で体験することができる。 The server integrates the generated story, graphics, and music, visualizing and audiovisualizing them in real time, allowing users to experience the story visually and aurally.
入力:生成された物語、グラフィック、音楽 Input: Generated story, graphics, music
出力:リアルタイムで視覚化・音声化された物語 Output: Real-time visual and audio narrative
ステップ7: Step 7:
ユーザはヘッドマウントディスプレイを使用して、仮想現実空間で生成された物語を体験する。ユーザは物語の中に没入し、より深い体験を得ることができる。 Using a head-mounted display, users experience a story generated in a virtual reality space, immersing themselves in the story and providing a deeper experience.
入力:リアルタイムで視覚化・音声化された物語 Input: Real-time visual and audio narrative
出力:仮想現実空間での物語体験 Output: Narrative experience in a virtual reality space
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動で生成することが難しい。また、ユーザの感情に応じて物語の展開をリアルタイムで調整する機能が欠如しているため、ユーザの感情に寄り添った物語体験を提供することができない。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することも困難である。これらの課題を解決するための新しいシステムが求められている。 While conventional story generation systems can automatically generate a story based on the story's theme and character settings, they have difficulty automatically generating foreshadowing, mystery elements, and moving scenes that make the story more interesting. Furthermore, they lack the functionality to adjust the story's development in real time based on the user's emotions, making it impossible to provide a narrative experience that is in tune with the user's emotions. Furthermore, it is difficult to automatically create graphics and music that match each scene in the story. A new system that can solve these issues is needed.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語のテーマや登場人物の設定に基づいて物語を自動生成するだけでなく、伏線やミステリー要素、感動的なシーンを自動で生成し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for recognizing the user's emotions in real time and adjusting the story development in accordance with those emotions; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible not only to automatically generate a story based on the story theme and character settings, but also to automatically generate foreshadowing, mystery elements, and moving scenes, and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の全体的な主題や方向性を示すものである。 The "story theme" indicates the overall subject or direction of the story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語の中で行動するキャラクターを指すものである。 "Characters" refers to the characters who take action in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前もって配置される要素を指すものである。 "Foreshadowing" refers to elements that are laid out in advance in a way that will have important meaning later in the story.
「ミステリー要素」とは、物語に謎や不明な点を含めることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that attract the interest of readers or viewers by including mysteries or unknown points in a story.
「感動的なシーン」とは、読者や視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the emotions of the reader or viewer.
「ユーザの感情」とは、物語を体験するユーザが感じる喜び、悲しみ、驚きなどの感情を指すものである。 "User emotions" refers to feelings such as joy, sadness, and surprise felt by users as they experience the story.
「リアルタイムで認識」とは、ユーザの感情をその場で即座に検出することを指すものである。 "Real-time recognition" refers to detecting the user's emotions instantly and on the spot.
「物語の展開を調整」とは、ユーザの感情に応じて物語の進行や内容を変更することを指すものである。 "Adjusting the story development" refers to changing the progress and content of the story based on the user's emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、読者や視聴者の感情や興味を引き立てる効果を指すものである。 "Directory effects" refer to the effects of using the visual and auditory elements of a story to stimulate the emotions and interest of readers or viewers.
この発明は、物語のテーマや登場人物の設定に基づいて物語を自動生成し、さらに伏線やミステリー要素、感動的なシーンを自動で生成するシステムである。加えて、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する機能を持つ。 This invention is a system that automatically generates a story based on the story's theme and character settings, and also automatically generates foreshadowing, mystery elements, and moving scenes. It also has the ability to recognize the user's emotions in real time and adjust the story's development accordingly.
使用するハードウェアおよびソフトウェア Hardware and software used
サーバは、生成AIモデル(例:GPT-4)を使用して物語の要素を生成する。サーバは、ユーザから受け取った物語のテーマや登場人物の性格、物語の進行に関する情報を基に、プロンプト文を生成AIモデルに入力し、物語の要素を生成する。 The server generates story elements using a generative AI model (e.g., GPT-4). Based on information received from the user about the story's theme, the characters' personalities, and the story's progression, the server inputs prompt sentences into the generative AI model to generate story elements.
端末は、ユーザの入力情報をサーバに送信し、サーバから受け取った物語の要素をユーザに表示する。また、端末はユーザの表情や音声から感情データを収集し、サーバに送信するための感情認識ソフトウェアを使用する。 The device sends the user's input information to the server and displays the story elements received from the server to the user. The device also uses emotion recognition software to collect emotional data from the user's facial expressions and voice and send it to the server.
ユーザは、物語のテーマや登場人物の性格、物語の進行に関する情報を端末に入力し、物語を楽しむ。ユーザの感情は端末によってリアルタイムで認識され、物語の展開に反映される。 Users enter information about the story's theme, the characters' personalities, and the story's progression into their device and enjoy the story. The device recognizes the user's emotions in real time and reflects them in the development of the story.
データ加工およびデータ演算 Data processing and calculation
サーバは、以下のようなデータ加工およびデータ演算を行う: The server performs the following data processing and calculations:
物語のテーマや登場人物の性格に基づいて、適切な伏線を生成する。 Generate appropriate foreshadowing based on the story's theme and the characters' personalities.
物語の進行に合わせて、ミステリー要素を散りばめる。 Mystery elements are scattered throughout the story as it progresses.
感動的なシーンを作り出すために、登場人物の感情や状況を分析する。 Analyze the characters' emotions and situations to create moving scenes.
端末は、ユーザの表情や音声から感情データを収集し、サーバに送信する。サーバはこの感情データを解析し、物語の展開を調整する。 The device collects emotional data from the user's facial expressions and voice and sends it to the server. The server analyzes this emotional data and adjusts the story's development.
具体例 Specific examples
例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線を生成する場合、以下のようなプロンプト文を生成AIモデルに入力する: For example, to generate a hint that a person the knight meets during his adventure will play an important role later in the story, the following prompt sentence can be input into the generative AI model:
プロンプト文の例: Example prompt:
「騎士が冒険の途中で出会った謎の老人が、後の物語で重要な役割を果たすような伏線を作成してください。」 "Please create a plot twist that will lead to the mysterious old man the knight meets during his adventure playing an important role later in the story."
また、ユーザが物語に対して喜びを感じている場合、物語をさらに明るい展開にするためのプロンプト文は以下のようになる: Also, if the user is feeling happy about the story, a prompt to make the story even more upbeat might look like this:
プロンプト文の例: Example prompt:
「ユーザが喜びを感じているので、物語をさらに明るい展開にしてください。例えば、騎士が新たな仲間を見つけるシーンを追加してください。」 "Users are enjoying this, so please make the story even more upbeat. For example, add a scene where the knight finds a new companion."
このようにして、サーバは生成AIモデルと感情エンジンを活用し、ユーザの感情に応じた物語の展開を自動で生成する。 In this way, the server utilizes a generative AI model and emotion engine to automatically generate a story development that corresponds to the user's emotions.
実施例2における特定処理の流れについて図19を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 19.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の性格、物語の進行に関する情報を入力する。 The user enters information about the story's theme, the characters' personalities, and the story's progression.
入力:物語のテーマ(例:冒険)、登場人物の性格(例:勇敢)、物語の進行に関する情報 Input: Story theme (e.g., adventure), character traits (e.g., bravery), and information about the story's progression.
出力:ユーザの入力情報 Output: User input information
具体的な動作:ユーザは端末の入力フォームに「冒険」をテーマとして入力し、登場人物の性格を「勇敢」と設定する。 Specific operation: The user enters the theme "adventure" into the device's input form and sets the character's personality to "brave."
ステップ2: Step 2:
端末がユーザの入力情報をサーバに送信する。 The device sends the user's input information to the server.
入力:ユーザの入力情報 Input: User input information
出力:サーバに送信されたユーザの入力情報 Output: User input information sent to the server
具体的な動作:端末が「テーマ: 冒険、性格: 勇敢」という情報をサーバに送信する。 Specific operation: The device sends the information "Theme: Adventure, Personality: Brave" to the server.
ステップ3: Step 3:
サーバが生成AIモデルを使用して物語の要素を生成する。 The server generates story elements using generative AI models.
入力:ユーザの入力情報 Input: User input information
出力:生成された物語の要素 Output: Generated story elements
具体的な動作:サーバが生成AIモデルに「冒険テーマで勇敢な騎士が主人公の物語を生成してください」というプロンプト文を入力し、物語の要素を生成する。 Specific operation: The server inputs the prompt "Generate a story with an adventure theme and a brave knight as the protagonist" into the generation AI model, and generates the elements of the story.
ステップ4: Step 4:
サーバが生成した物語の要素を端末に送信する。 The server sends the generated story elements to the device.
入力:生成された物語の要素 Input: Generated story elements
出力:端末に送信された物語の要素 Output: Story elements sent to the device
具体的な動作:サーバが生成した物語の要素(例:「騎士が冒険の途中で出会う謎の老人」)を端末に送信する。 Specific operation: The server sends story elements generated by the server (e.g., "The mysterious old man the knight meets during his adventure") to the device.
ステップ5: Step 5:
端末が物語をユーザに表示する。 The device displays the story to the user.
入力:サーバから受け取った物語の要素 Input: Story elements received from the server
出力:ユーザに表示された物語 Output: The story displayed to the user
具体的な動作:端末が「騎士が冒険の途中で謎の老人に出会う」というシーンをユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight meets a mysterious old man during his adventure.
ステップ6: Step 6:
ユーザの感情をリアルタイムで認識する。 Recognize user emotions in real time.
入力:ユーザの表情や音声 Input: User's facial expressions and voice
出力:認識されたユーザの感情データ Output: Recognized user emotion data
具体的な動作:ユーザが笑顔を見せると、端末がユーザの表情をカメラでキャプチャし、喜びを感じていると認識する。 Specific operation: When the user smiles, the device captures the user's facial expression with its camera and recognizes that the user is feeling happy.
ステップ7: Step 7:
端末がユーザの感情データをサーバに送信する。 The device sends the user's emotional data to the server.
入力:認識されたユーザの感情データ Input: Recognized user emotion data
出力:サーバに送信された感情データ Output: Emotion data sent to the server
具体的な動作:端末が「ユーザは喜びを感じている」という感情データをサーバに送信する。 Specific operation: The device sends emotional data indicating "the user is feeling happy" to the server.
ステップ8: Step 8:
サーバが感情データを解析し、物語の展開を調整する。 The server analyzes the emotional data and adjusts the story development.
入力:ユーザの感情データ Input: User emotion data
出力:調整された物語の展開 Output: Coordinated story development
具体的な動作:サーバが感情データを解析し、「物語をさらに明るい展開にする」ためのプロンプト文を生成AIモデルに入力する。 Specific operation: The server analyzes the emotional data and inputs prompt sentences into the generative AI model to "make the story more upbeat."
ステップ9: Step 9:
サーバが調整後の物語を端末に送信する。 The server will send the adjusted story to your device.
入力:調整された物語の展開 Input: Adjusted story development
出力:端末に送信された調整後の物語 Output: The adjusted story sent to the terminal.
具体的な動作:サーバが生成した明るい展開の物語(例:「騎士が新たな仲間を見つけるシーン」)を端末に送信する。 Specific operation: The server generates a story with an upbeat plot (e.g., "A scene where the knight finds a new companion") and sends it to the device.
ステップ10: Step 10:
端末が調整後の物語をユーザに表示する。 The device will then display the adjusted story to the user.
入力:サーバから受け取った調整後の物語 Input: Adjusted story received from the server
出力:ユーザに表示された調整後の物語 Output: The adjusted story displayed to the user.
具体的な動作:端末が「騎士が新たな仲間を見つけるシーン」をユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight finds a new companion.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、ユーザの感情に応じて物語の展開をリアルタイムで調整することができなかった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する機能も不十分であった。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが困難であった。 While conventional story generation systems could automatically generate a story based on the story's theme and character settings, they were unable to adjust the story's development in real time in response to the user's emotions. They also lacked the functionality to automatically generate plot twists, mystery elements, and moving scenes to make a story more interesting. This made it difficult to provide an interactive story experience that responded to the user's emotions.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する手段と、を含む。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions in real time and adjusting the story development in response to those emotions; and means for generating story prompts using a generative AI model and automatically generating a story. This makes it possible to provide an interactive story experience that responds to the user's emotions.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指すものである。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや役割を持つ人物を指すものである。 "Characters" refers to the characters or people who play a role in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントを指すものである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語において謎や疑問を引き起こす要素を指すものである。 "Mystery elements" refer to elements in a story that raise questions or raise doubts.
「感動的なシーン」とは、視聴者や読者に強い感情を引き起こす場面を指すものである。 A "moving scene" is one that evokes strong emotions in the viewer or reader.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やサウンドトラックを指すものである。 "Song" refers to the music or soundtrack that plays along with the story scenes.
「演出効果」とは、物語のシーンをより効果的に見せるための視覚的、聴覚的な手法を指すものである。 "Stage effects" refer to visual and auditory techniques used to make story scenes appear more effective.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指すものである。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
「感情をリアルタイムで認識する」とは、ユーザの表情や声のトーンなどを分析して、その瞬間の感情を把握することを指すものである。 "Recognizing emotions in real time" refers to analyzing the user's facial expressions, tone of voice, etc. to grasp their emotions at that moment.
「物語の展開を調整する」とは、物語の進行や内容をユーザの感情に応じて変更することを指すものである。 "Adjusting the development of the story" refers to changing the progress and content of the story in response to the user's emotions.
「生成AIモデル」とは、人工知能を用いてテキストや物語を生成するためのモデルを指すものである。 "Generative AI model" refers to a model that uses artificial intelligence to generate text or stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文やキーワードを指すものである。 A "prompt" refers to an instruction or keyword that is input into a generative AI model.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、サーバは物語のテーマや舞台、登場人物などのストーリー設定を入力する手段を提供する。ユーザはこれらの設定を入力することで、物語の基本的な要素を決定する。 A system for implementing this invention has the following configuration: First, the server provides a means for inputting story settings such as the story's theme, setting, and characters. By inputting these settings, the user determines the basic elements of the story.
次に、サーバは入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段を持つ。この手段は、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 Next, the server has a means to automatically create character dialogue, scenery, and story structure based on the input story setting. This means uses a generative AI model to generate story prompts and automatically generate the story.
さらに、サーバは作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段を持つ。これにより、物語の深みや興味を引き出すことができる。 Furthermore, the server has the means to automatically generate hints, mystery elements, moving scenes, and more to make the stories you create more interesting. This helps to add depth and interest to the story.
また、サーバは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段を持つ。これにより、物語の視覚的および聴覚的な演出効果を高めることができる。具体的には、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する。 The server also has the means to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story. Specifically, the graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
さらに、サーバは物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を持つ。これにより、ユーザはより感情的に物語に引き込まれる。 Furthermore, the server has the means to enhance the dramatic effect through the story structure, character dialogue, visuals, and music, effectively stirring the viewer's emotions. This allows users to be more emotionally drawn into the story.
特に重要なのは、サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段を持つことである。スマートフォンのカメラやマイクを使用してユーザの表情や声のトーンを分析し、ユーザの感情を把握する。この感情データに基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 What's particularly important is that the server has a means of recognizing the user's emotions in real time and adjusting the story development accordingly. It uses the smartphone's camera and microphone to analyze the user's facial expressions and tone of voice to understand their emotions. Based on this emotional data, it generates prompt sentences for the story and adjusts the story development accordingly.
具体例として、ユーザが物語を読み進めているときに、カメラがユーザの表情をキャプチャし、ユーザが笑顔であることを認識した場合、物語の展開が明るく楽しいものになる。逆に、ユーザが悲しんでいる場合、物語はより深みのある展開になる。 For example, if a user is reading a story and the camera captures their facial expressions and recognizes that they are smiling, the story will develop in a lighthearted and cheerful way. Conversely, if the user is sad, the story will develop in a more profound way.
プロンプト文の例としては、以下のようなものがある。 Examples of prompt statements include:
「主人公は幸せな気持ちで冒険を続けている。」 "The protagonist continues his adventure with a happy feeling."
「主人公は困難に直面しているが、希望を失わない。」 "The protagonist faces difficulties, but does not lose hope."
「主人公は新たな謎に挑む。」 "The protagonist takes on a new mystery."
このようにして、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能である。 In this way, it is possible to provide an interactive narrative experience that responds to the user's emotions.
応用例2における特定処理の流れについて図20を用いて説明する。 The flow of the specific processing in Application Example 2 is explained using Figure 20.
ステップ1: Step 1:
ユーザが物語のテーマや舞台、登場人物などのストーリー設定を入力する。 The user enters story settings such as theme, setting, and characters.
入力:ユーザが入力する物語のテーマ、舞台、登場人物などの設定情報。 Input: Setting information such as the story's theme, setting, and characters entered by the user.
出力:ストーリー設定データ。 Output: Story setting data.
具体的な動作:ユーザはスマートフォンのアプリケーションを使用して、物語の基本設定を入力する。これには、物語の主題、場所、主要なキャラクターの情報が含まれる。サーバはこれらの設定情報を受け取り、ストーリー設定データとして保存する。 Specific operation: The user uses a smartphone application to input the basic setting of the story, including information about the story's theme, location, and main characters. The server receives this setting information and stores it as story setting data.
ステップ2: Step 2:
サーバが入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 The server automatically creates character dialogue, scenes, and story structure based on the story settings entered.
入力:ストーリー設定データ。 Input: Story setting data.
出力:物語のセリフ、情景、構成データ。 Output: Story dialogue, scenery, and composition data.
具体的な動作:サーバは生成AIモデルを使用して、ストーリー設定データに基づいて登場人物のセリフや情景、物語の構成を生成する。生成されたデータは、物語の進行に必要な要素として保存される。 Specific operation: The server uses a generative AI model to generate character dialogue, scenery, and story structure based on story setting data. The generated data is saved as elements necessary for the story's progression.
ステップ3: Step 3:
サーバが作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 The server automatically generates hints, mystery elements, moving scenes, and more to make the stories it creates more interesting.
入力:物語のセリフ、情景、構成データ。 Input: Story lines, scenery, and composition data.
出力:伏線、ミステリー要素、感動的なシーンデータ。 Output: Foreshadowing, mystery elements, and moving scene data.
具体的な動作:サーバは生成AIモデルを使用して、物語のセリフや情景、構成データに基づいて伏線やミステリー要素、感動的なシーンを生成する。これにより、物語の深みや興味を引き出す要素が追加される。 Specifically, how it works: The server uses a generative AI model to generate plot twists, mystery elements, and moving scenes based on the dialogue, scenery, and composition data of the story. This adds depth and intrigue to the story.
ステップ4: Step 4:
サーバが作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力:伏線、ミステリー要素、感動的なシーンデータ。 Input: Foreshadowing, mystery elements, and moving scene data.
出力:グラフィックデータ、音楽データ。 Output: Graphics data, music data.
具体的な動作:サーバはシーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲を自動で制作する。これには、画像生成モデルや音楽生成モデルが使用される。生成されたグラフィックや音楽は、物語の各シーンに適用される。 Specific operation: The server automatically creates graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters. This is done using image generation models and music generation models. The generated graphics and music are then applied to each scene in the story.
ステップ5: Step 5:
サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する。 The server recognizes the user's emotions in real time and adjusts the story development accordingly.
入力:ユーザの表情データ、声のトーンデータ。 Input: User's facial expression data, tone of voice data.
出力:調整された物語のプロンプト文。 Output: Tailored narrative prompt.
具体的な動作:スマートフォンのカメラやマイクを使用して、ユーザの表情や声のトーンをキャプチャする。サーバはこれらのデータを分析し、ユーザの感情をリアルタイムで認識する。認識された感情に基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 Specific operation: The smartphone's camera and microphone are used to capture the user's facial expressions and tone of voice. The server analyzes this data and recognizes the user's emotions in real time. Based on the recognized emotions, it generates story prompts and adjusts the story's development.
ステップ6: Step 6:
サーバが生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 The server uses a generative AI model to generate story prompts and automatically generate the story.
入力:調整された物語のプロンプト文。 Input: Tailored story prompt.
出力:生成された物語。 Output: The generated story.
具体的な動作:サーバは生成AIモデルを使用して、調整されたプロンプト文に基づいて物語を生成する。生成された物語は、ユーザの感情に応じたインタラクティブな体験を提供するために使用される。 Specific operation: The server uses a generative AI model to generate a story based on the adjusted prompt. The generated story is used to provide an interactive experience that responds to the user's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視聴者の心情を効果的に揺さぶることができなかった。また、ユーザの感情をリアルタイムで認識し、それに応じて物語の展開を調整する機能が欠如していたため、ユーザに対して一貫した感情体験を提供することが困難であった。これにより、物語体験の質が低下し、ユーザの満足度が低くなるという課題があった。 With conventional story generation systems, it was difficult to automatically create graphics and music that matched each scene in the story, making it difficult to effectively sway the viewer's emotions. Furthermore, they lacked the ability to recognize the user's emotions in real time and adjust the story's development accordingly, making it difficult to provide the user with a consistent emotional experience. This resulted in a decline in the quality of the story experience and low user satisfaction.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する手段と、ユーザの感情に応じて物語の展開を調整する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for using information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions; means for adjusting the story development in accordance with the user's emotions; and means for enhancing the dramatic effects of the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材を指す。 "Story theme" refers to the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指す。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要となる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that provide advance hints at information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される画像やイラストを指す。 "Graphics" refers to images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指す。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「顔表情」とは、ユーザの顔の表情筋の動きによって表現される感情を指す。 "Facial expression" refers to emotions expressed through the movement of the user's facial muscles.
「声のトーン」とは、ユーザの声の高さや強さ、抑揚などを指す。 "Tone of voice" refers to the pitch, strength, and intonation of the user's voice.
「テキスト入力」とは、ユーザがキーボードやタッチパネルを用いて入力する文字情報を指す。 "Text input" refers to text information entered by a user using a keyboard or touch panel.
「物語の展開」とは、物語が進行する過程や流れを指す。 "Story development" refers to the process and flow of the story.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて視聴者に与える影響を指す。 "Directory effects" refer to the impact that the visual and auditory elements of a story have on the viewer.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指す。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
この発明は、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて物語を自動で生成し、さらにユーザの感情に応じて物語の展開を調整するシステムである。このシステムは、以下のようなハードウェアおよびソフトウェアを用いて実施される。 This invention is a system that inputs story settings such as the story's theme, setting, and characters, automatically generates a story based on the input story settings, and further adjusts the story's development according to the user's emotions. This system is implemented using the following hardware and software.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: 高性能なサーバ(例: GPU搭載のサーバ)およびユーザの端末(例: カメラとマイクを搭載したPCやスマートフォン) Hardware: High-performance servers (e.g., servers with GPUs) and user devices (e.g., PCs or smartphones with cameras and microphones)
ソフトウェア: 生成AIモデル(例: GPT-4、画像生成AI、音楽生成AI)、感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ) Software: Generative AI models (e.g., GPT-4, image generation AI, music generation AI), emotion recognition software (e.g., OpenCV, voice analysis libraries)
プログラムの処理の説明 Program processing explanation
1. 物語の入力と解析 1. Story input and analysis
ユーザは端末を使用して、物語のテーマや舞台、登場人物などのストーリー設定を入力する。例えば、「勇者がドラゴンと戦うシーン」と入力する。サーバはこの入力を受信し、生成AIモデル(例: GPT-4)を用いて物語の各シーンを解析し、シーンの雰囲気や登場人物の感情状態を抽出する。 The user uses their device to input story settings such as the story's theme, setting, and characters. For example, they might input "a scene where a hero fights a dragon." The server receives this input and uses a generative AI model (e.g., GPT-4) to analyze each scene in the story and extract the scene's atmosphere and the characters' emotional states.
2. グラフィックと音楽の生成 2. Graphics and Music Generation
サーバは解析結果を基に、画像生成AIを用いてシーンにマッチしたグラフィックを生成する。例えば、ドラゴンと勇者が戦っている迫力あるグラフィックを生成する。同様に、音楽生成AIを用いてシーンに適した音楽を生成する。例えば、戦闘シーンに合う緊張感を高める音楽を生成する。 Based on the analysis results, the server uses image generation AI to generate graphics that match the scene. For example, it could generate an impressive graphic of a hero fighting a dragon. Similarly, it uses music generation AI to generate music that suits the scene. For example, it could generate music that heightens the tension in a battle scene.
3. ユーザの感情認識 3. User Emotion Recognition
端末はカメラとマイクを使用して、ユーザの顔表情や声のトーンを取得する。例えば、ユーザが笑顔を見せている場合、端末はその情報をサーバに送信する。サーバは感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)を用いて、ユーザの感情を解析する。 The device uses a camera and microphone to capture the user's facial expressions and tone of voice. For example, if the user is smiling, the device sends that information to the server. The server then uses emotion recognition software (e.g., OpenCV, voice analysis library) to analyze the user's emotions.
4. 物語の展開調整 4. Story Development Adjustments
サーバはユーザの感情情報を基に、感情エンジンを使用して物語の展開を調整する。例えば、ユーザが笑顔を見せている場合、物語の展開をさらにエキサイティングな方向に調整する。 The server uses an emotion engine to adjust the story development based on the user's emotional information. For example, if the user is smiling, the story development will be adjusted to a more exciting direction.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例: Example:
ユーザが「勇者がドラゴンと戦うシーン」を入力する。 The user enters "a scene in which a hero fights a dragon."
サーバは戦闘シーンとして解析し、画像生成AIを用いてドラゴンと勇者の迫力あるグラフィックを生成する。 The server analyzes the scene as a battle scene and uses image generation AI to generate powerful graphics of the dragon and hero.
音楽生成AIを用いて緊張感を高める音楽を生成する。 Music generation AI is used to generate music that heightens the tension.
ユーザが笑顔を見せている場合、感情エンジンはユーザが楽しんでいると認識し、物語の展開をさらにエキサイティングな方向に調整する。 If the user is smiling, the emotion engine recognizes that the user is having fun and adjusts the story development in a more exciting direction.
プロンプト文の例: Example prompt:
「勇者がドラゴンと戦うシーンのグラフィックを生成してください。」 "Generate graphics for a scene in which a hero fights a dragon."
「感動的なシーンに合う音楽を生成してください。」 "Generate music that matches an emotional scene."
「ユーザが笑顔を見せている場合、物語の展開を楽しい方向に調整してください。」 "If the user is smiling, adjust the story development to make it more enjoyable."
このシステムにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。これにより、視聴者の心情を効果的に揺さぶることができ、物語体験の質を向上させることができる。実施例3における特定処理の流れについて図21を用いて説明する。 This system makes it possible to automatically create graphics and music that match each scene in a story, and to provide a story development that responds to the user's emotions. This effectively stirs the viewer's emotions and improves the quality of the story experience. The flow of the specific processing in Example 3 is explained using Figure 21.
ステップ1: Step 1:
ユーザが物語のテキストを入力する。 The user enters the text of the story.
ユーザは端末のテキスト入力フィールドに「勇者がドラゴンと戦うシーン」と入力し、送信ボタンをクリックする。入力されたテキストは端末からサーバに送信される。 The user enters "A scene in which a hero fights a dragon" into the text input field on the device and clicks the send button. The entered text is sent from the device to the server.
ステップ2: Step 2:
サーバが物語のテキストを解析する。 The server analyzes the story text.
サーバは受信したテキストを生成AIモデル(例: GPT-4)に入力し、物語の各シーンを解析する。解析の結果、シーンの雰囲気や登場人物の感情状態を抽出する。例えば、「戦闘シーン」と「緊張感」を抽出する。解析結果は内部データベースに保存される。 The server inputs the received text into a generative AI model (e.g., GPT-4) and analyzes each scene in the story. As a result of the analysis, the atmosphere of the scene and the emotional state of the characters are extracted. For example, "battle scene" and "tension" are extracted. The analysis results are stored in an internal database.
ステップ3: Step 3:
サーバがシーンにマッチしたグラフィックを生成する。 The server generates graphics that match the scene.
サーバは解析結果を基に、画像生成AI(例: DALL-E)を使用してシーンにマッチしたグラフィックを生成する。例えば、「ドラゴンと勇者が戦っているシーン」をプロンプトとして入力し、生成されたグラフィックを取得する。生成されたグラフィックはユーザの端末に送信される。 Based on the analysis results, the server uses image generation AI (e.g., DALL-E) to generate graphics that match the scene. For example, enter "a scene of a hero fighting a dragon" as a prompt and obtain the generated graphic. The generated graphic is then sent to the user's device.
ステップ4: Step 4:
サーバがシーンにマッチした音楽を生成する。 The server generates music that matches the scene.
サーバは音楽生成AIを用いて、シーンに適した音楽を生成する。例えば、「戦闘シーンに合う緊張感を高める音楽」をプロンプトとして入力し、生成された音楽を取得する。生成された音楽はユーザの端末に送信される。 The server uses music generation AI to generate music appropriate for the scene. For example, a user can enter "music that will increase tension in a battle scene" as a prompt and obtain the generated music. The generated music is then sent to the user's device.
ステップ5: Step 5:
端末がユーザの感情を認識する。 The device recognizes the user's emotions.
端末はカメラでユーザの顔表情をキャプチャし、マイクで声のトーンを録音する。これらのデータはリアルタイムでサーバに送信される。例えば、ユーザが笑顔を見せている場合、その情報がサーバに送信される。 The device uses a camera to capture the user's facial expressions and a microphone to record the tone of voice. This data is sent to the server in real time. For example, if the user is smiling, that information is sent to the server.
ステップ6: Step 6:
サーバがユーザの感情に応じて物語の展開を調整する。 The server adjusts the story development based on the user's emotions.
サーバは受信した感情データを感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)で解析し、ユーザの感情を認識する。例えば、ユーザが笑顔を見せていると認識した場合、感情エンジンを使用して物語の展開をエキサイティングな方向に調整する。新しいシーンが生成され、ユーザの端末に送信される。 The server analyzes the received emotional data using emotion recognition software (e.g., OpenCV, voice analysis library) to recognize the user's emotions. For example, if it recognizes that the user is smiling, it uses the emotion engine to adjust the story development in an exciting direction. A new scene is generated and sent to the user's device.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart device 14 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザの感情に応じた物語の調整が行われず、ユーザ体験が一律であるという問題があった。また、物語のシーンや音楽が固定されているため、ユーザの感情に応じたダイナミックな変化が提供できないという課題があった。これにより、ユーザの感情に深く訴えかける物語体験を提供することが困難であった。 Conventional story generation systems have the problem of not adjusting the story based on the user's emotions, resulting in a uniform user experience. Furthermore, because the story scenes and music are fixed, they are unable to provide dynamic changes that respond to the user's emotions. This makes it difficult to provide a story experience that deeply appeals to the user's emotions.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情を認識し、認識された感情に応じて物語のシーンや音楽を調整する手段と、ユーザの顔表情、声のトーン、テキスト入力などを利用して感情を認識する手段と、を含む。これにより、ユーザの感情に応じたダイナミックな物語体験が可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions and adjusting story scenes and music in accordance with the recognized emotions; and means for recognizing emotions using the user's facial expressions, tone of voice, text input, etc. This enables a dynamic story experience that matches the user's emotions.
「物語のテーマ」とは、物語の中心となるアイデアやメッセージを指すものである。 A "story theme" refers to the central idea or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指すものである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指すものである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指すものである。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つようになる前半の要素を指すものである。 "Foreshadowing" refers to an element in the first half of a story that becomes important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指すものである。 "Mystery elements" refer to elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンを視覚的に表現する画像や映像を指すものである。 "Graphics" refers to images and footage that visually represent scenes from a story.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語のシーンや音楽を通じて視聴者の感情に影響を与える効果を指すものである。 "Directory effects" refer to effects that influence the viewer's emotions through story scenes and music.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指すものである。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「感情を認識する手段」とは、ユーザの顔表情、声のトーン、テキスト入力などを利用してユーザの感情を判断する技術を指すものである。 "Means for recognizing emotions" refers to technology that determines a user's emotions using their facial expressions, tone of voice, text input, etc.
「物語のシーンや音楽を調整する手段」とは、認識されたユーザの感情に応じて物語のシーンや音楽を変更する技術を指すものである。 "Means for adjusting story scenes and music" refers to technology that changes story scenes and music according to the recognized user emotions.
この発明を実施するためのシステムは、ユーザの感情に応じて物語のシーンや音楽を動的に調整することができる。以下に、このシステムの具体的な実施形態を説明する。 A system for implementing this invention can dynamically adjust story scenes and music according to the user's emotions. A specific embodiment of this system is described below.
システム構成 System Configuration
このシステムは、以下の主要なハードウェアおよびソフトウェアコンポーネントを含む: The system includes the following major hardware and software components:
ハードウェア: スマートフォンのカメラ Hardware: Smartphone camera
ソフトウェア: OpenCV(顔検出)、Keras(感情認識モデル)、音楽再生ソフトウェア Software: OpenCV (face detection), Keras (emotion recognition model), music playback software
プログラムの処理 Program processing
サーバは、まずスマートフォンのカメラを使用してユーザの顔表情をキャプチャする。キャプチャされた映像は、OpenCVを用いて顔検出が行われる。次に、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。 The server first captures the user's facial expression using the smartphone camera. The captured image is then subjected to face detection using OpenCV. Next, the Keras emotion recognition model is used to recognize the user's emotion from the detected face.
認識された感情に基づいて、サーバは物語のシーンや音楽を調整する。例えば、ユーザが笑顔を見せている場合、物語のシーンは明るく楽しいものに変更され、音楽も軽快なものに変わる。逆に、ユーザが悲しい表情をしている場合、物語は感動的なシーンに移行し、音楽も心に響くものに変わる。 Based on the recognized emotion, the server adjusts the story scenes and music. For example, if the user is smiling, the story scenes will change to brighter, more cheerful ones, and the music will also become more upbeat. Conversely, if the user has a sad expression, the story will transition to a more moving scene, and the music will also change to something more moving.
具体例 Specific examples
具体例として、ユーザが物語を楽しんでいる最中に笑顔を見せた場合を考える。この場合、サーバは以下のように処理を行う: As a concrete example, consider the case where a user smiles while enjoying a story. In this case, the server would process the following:
1. スマートフォンのカメラでユーザの顔表情をキャプチャ。 1. Capture the user's facial expressions using the smartphone camera.
2. OpenCVを使用して顔を検出。 2. Detect faces using OpenCV.
3. Kerasの感情認識モデルでユーザの感情を「喜び」と認識。 3. The user's emotion is recognized as "happiness" using the Keras emotion recognition model.
4. 認識された感情に基づいて、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生。 4. Based on the recognized emotion, the story scene is changed to a brighter, more cheerful one and upbeat music is played.
プロンプト文の例 Example prompt
生成AIモデルへ入力するプロンプト文の例は以下の通りである: An example of a prompt to input to the generative AI model is as follows:
ユーザが笑顔を見せた場合、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生してください。 If the user smiles, change the story scene to something bright and cheerful and play upbeat music.
このようにして、ユーザの感情に応じたダイナミックな物語体験を提供することが可能である。このシステムにより、ユーザはより深く物語に没入し、感情に訴えかける体験を得ることができる。 In this way, it is possible to provide a dynamic narrative experience that responds to the user's emotions. This system allows users to become more immersed in the story and have an experience that appeals to their emotions.
応用例3における特定処理の流れについて図22を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 22.
ステップ1: Step 1:
サーバは、スマートフォンのカメラを使用してユーザの顔表情をキャプチャする。入力はカメラ映像であり、出力はキャプチャされた画像データである。具体的な動作として、カメラがリアルタイムで映像を取得し、その映像をフレームごとにキャプチャする。 The server uses the smartphone's camera to capture the user's facial expressions. The input is the camera image, and the output is the captured image data. Specifically, the camera acquires the image in real time and captures the image frame by frame.
ステップ2: Step 2:
サーバは、OpenCVを使用してキャプチャされた画像データから顔を検出する。入力はキャプチャされた画像データであり、出力は検出された顔の位置情報である。具体的な動作として、OpenCVの顔検出アルゴリズムが画像内の顔を識別し、その座標を取得する。 The server uses OpenCV to detect faces from the captured image data. The input is the captured image data, and the output is the location information of the detected face. Specifically, OpenCV's face detection algorithm identifies the face in the image and obtains its coordinates.
ステップ3: Step 3:
サーバは、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。入力は顔の位置情報と画像データであり、出力は認識された感情ラベルである。具体的な動作として、顔の領域を切り出し、前処理を行った後、感情認識モデルに入力して感情を分類する。 The server uses a Keras emotion recognition model to recognize the user's emotion from the detected face. The input is face position information and image data, and the output is the recognized emotion label. Specifically, the face area is extracted, preprocessed, and then input into the emotion recognition model to classify the emotion.
ステップ4: Step 4:
サーバは、認識された感情に基づいて物語のシーンや音楽を調整する。入力は認識された感情ラベルであり、出力は調整されたシーンと音楽である。具体的な動作として、感情ラベルに対応するシーンと音楽を選択し、物語の進行を変更する。 The server adjusts the story scenes and music based on the recognized emotions. The input is the recognized emotion label, and the output is the adjusted scenes and music. Specific operations include selecting scenes and music that correspond to the emotion label and changing the progression of the story.
ステップ5: Step 5:
サーバは、調整されたシーンと音楽をユーザの端末に送信する。入力は調整されたシーンと音楽であり、出力はユーザの端末に表示される物語のシーンと再生される音楽である。具体的な動作として、シーンと音楽のデータをエンコードし、ネットワークを通じてユーザの端末に送信する。 The server sends the adjusted scene and music to the user's device. The input is the adjusted scene and music, and the output is the story scene displayed on the user's device and the music played. Specifically, the server encodes the scene and music data and sends it to the user's device over the network.
ステップ6: Step 6:
ユーザの端末は、受信したシーンと音楽を再生し、ユーザに提供する。入力はサーバから受信したシーンと音楽データであり、出力はユーザに表示される映像と再生される音楽である。具体的な動作として、端末がデータをデコードし、画面に表示し、スピーカーから音楽を再生する。 The user's device plays the received scenes and music and provides them to the user. The input is the scene and music data received from the server, and the output is the video displayed to the user and the music played. Specifically, the device decodes the data, displays it on the screen, and plays the music from the speakers.
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart device 14. In the smart device 14, the control unit 46A causes the output device 40 to output the results of the specific processing. The microphone 38B acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 38B to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). An example of data generation model 58 is generative AI such as ChatGPT (registered trademark) (Internet search <URL: https://openai.com/blog/chatgpt>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating voice, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
生成AIの他の例としては、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。 Another example of generative AI is Gemini (registered trademark) (Internet search <URL: https://gemini.google.com/?hl=ja>).
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart device 14.
[第2実施形態] [Second embodiment]
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。 Figure 3 shows an example of the configuration of a data processing system 210 according to the second embodiment.
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 3, the data processing system 210 includes a data processing device 12 and smart glasses 214. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。 The smart glasses 214 include a computer 36, a microphone 238, a speaker 240, a camera 42, and a communication I/F 44. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, and camera 42 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 4 shows an example of the main functions of the data processing device 12 and smart glasses 214. As shown in Figure 4, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the smart glasses 214, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12.
「形態例1」 "Example 1"
本発明のシステムは、ユーザーから物語のテーマや舞台、登場人物などのストーリー設定を入力として受け取る。この入力はテキスト形式で行われ、例えば「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。次に、この入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われ、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 The system of the present invention receives input from the user about the story setting, such as the story's theme, setting, and characters. This input is in text format, such as "A knight's adventure story set in medieval Europe." Next, based on this input, the system automatically creates character dialogue, scenes, and a story structure. This creation is carried out using existing story databases and artificial intelligence technology, generating dialogue and scenes that match the story flow, character personalities, and story theme.
「形態例2」 "Example 2"
さらに、システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。これは、物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 In addition, the system automatically generates hints, mystery elements, and moving scenes to make the story more interesting. This is done by laying hints at the right time, sprinkling mystery elements, and creating moving scenes in line with the story's theme, the characters' personalities, and the story's progression. For example, it automatically generates hints that people the knight meets during his adventure will play an important role later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties.
「形態例3」 "Example 3"
そして、システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これは、シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 The system then automatically creates graphics and music that match each scene in the story you've created. The graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters. For example, powerful graphics and music that heighten tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This makes it possible to enhance the dramatic effect of the story's structure, the characters' conversations, images, and music, effectively stirring the viewer's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザーから物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力として受け取る。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。 Step 1: The user provides textual input of the story setting, including the story's theme, setting, and characters. For example, it could be provided as "a knight's adventure story set in medieval Europe."
ステップ2:入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われる。 Step 2: Based on the input, the system automatically creates character dialogue, scenery, and story structure. This is done using existing story databases and artificial intelligence technology.
ステップ3:物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 Step 3: Lines and scenes are generated that match the story flow, character personalities, and theme of the story.
「形態例2」 "Example 2"
ステップ1:システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 1: The system automatically generates plot twists, mystery elements, moving scenes, and more to make the story more interesting.
ステップ2:物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。 Step 2: Lay out hints at the right time, sprinkle in mystery elements, and create moving scenes in line with the story's theme, the characters' personalities, and the story's progression.
ステップ3:例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 Step 3: For example, foreshadowing, such as people the knight meets during his adventure playing important roles later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties, are automatically generated.
「形態例3」 "Example 3"
ステップ1:システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 Step 1: The system automatically creates graphics and music that match each scene in the story you've created.
ステップ2:シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。 Step 2: Graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ3:例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 Step 3: For example, powerful graphics and music that heightens the tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This enhances the dramatic effect of the story structure, character dialogue, images and music, making it possible to effectively stir the viewer's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性を保つことが難しい。また、生成された物語が視聴者にとって感動的で面白いものになるようにするための工夫が不足している。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することができず、視聴者の心情を効果的に揺さぶることができないという課題がある When conventional story generation systems automatically generate a story based on a user-entered story setting, they struggle to maintain consistency in the story flow, character dialogue, and scenery. They also lack the ingenuity to ensure the generated story is moving and entertaining for the viewer. Furthermore, they are unable to automatically create graphics and music that match each scene in the story, which means they are unable to effectively move the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーからの入力を受信し、自然言語処理技術を用いて解析する手段と、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、生成AIモデルを用いて物語のセリフや情景、構成を自動で生成する手段と、生成された物語を整形し、ユーザーに提供する手段を含む。これにより、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, and images and music to effectively stir the viewer's emotions; means for receiving input from the user and analyzing it using natural language processing technology; means for generating prompt sentences to be input into the generative AI model based on the analysis results; means for automatically generating story dialogue, scenery, and structure using the generative AI model; and means for formatting the generated story and providing it to the user. This makes it possible to automatically generate a consistent story based on user input and provide the viewer with a moving and entertaining story.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定する要素である。 A "story theme" is the central subject or theme of a story, and is the element that determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する重要な要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an important element in shaping the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動し、物語を進行させるキャラクターのことであり、物語の展開やテーマに大きな影響を与える要素である。 "Characters" are characters who act within a story and move the story forward, and are elements that have a major influence on the story's development and theme.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成する要素である。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and is the element that forms the framework of the story.
「セリフ」とは、登場人物が話す言葉や台詞のことであり、物語の進行やキャラクターの性格を表現する重要な要素である。 "Dialogue" refers to the words or lines spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現する要素である。 "Scenes" refer to the scenery and scenes depicted in a story, and are elements that visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことであり、物語の展開を効果的にするための要素である。 "Story structure" refers to the overall flow and structure of a story, including the beginning, middle, and end, and is an element that makes the story unfold effectively.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語の一貫性や深みを増すための要素である。 "Foreshadowing" is a hint or sign that relates to later developments in a story, and is an element that adds consistency and depth to a story.
「ミステリー要素」とは、物語の中で謎や疑問を提示し、読者や視聴者の興味を引くための要素である。 "Mystery elements" are elements that present mysteries or questions within a story and attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に残る印象的な要素である。 A "moving scene" is a scene in a story that strongly stirs emotions and is an impressive element that stays in the viewer's mind.
「グラフィック」とは、物語の各シーンに合わせて視覚的に表現される画像やイラストのことであり、物語の雰囲気や感情を視覚的に補完する要素である。 "Graphics" refers to images and illustrations that visually represent each scene in the story, and are elements that visually complement the atmosphere and emotion of the story.
「曲」とは、物語の各シーンに合わせて音楽的に表現されるメロディやサウンドのことであり、物語の雰囲気や感情を音楽的に補完する要素である。 "Songs" are melodies and sounds that are musically expressed to match each scene in a story, and are elements that musically complement the atmosphere and emotions of the story.
「自然言語処理技術」とは、コンピュータが人間の言語を理解し、解析するための技術のことであり、テキストデータの解析や情報抽出に用いられる。 "Natural language processing technology" is a technology that enables computers to understand and analyze human language, and is used to analyze text data and extract information.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するためのモデルのことであり、物語のセリフや情景、構成を自動で生成するために使用される。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically generate dialogue, scenes, and structure for a story.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、モデルが生成する内容を誘導するための要素である。 A "prompt" is an instruction to be input into a generative AI model, and is an element that guides the content generated by the model.
「整形」とは、生成された物語のテキストを読みやすくするために段落分けや改行を追加する作業のことであり、ユーザーに提供する前に行われる。 "Formatting" refers to the process of adding paragraph breaks and line breaks to make the generated narrative text easier to read before it is presented to the user.
この発明は、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するシステムである。以下に、このシステムの具体的な実施形態を説明する。 This invention is a system that automatically generates a story based on story settings such as the story's theme, setting, and characters, which are input by the user. Specific embodiments of this system are described below.
ユーザーからの入力 User input
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。 The user uses a terminal to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe."
サーバによる入力データの受信と解析 Receive and analyze input data by the server
サーバは、ユーザーから送信されたテキストデータを受信する。次に、自然言語処理技術を用いて入力データを解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。 The server receives the text data sent by the user. It then analyzes the input data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story."
プロンプト文の生成 Generating prompt statements
サーバは、抽出した情報を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。 The server generates a prompt to be input into the generative AI model based on the extracted information. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe."
生成AIモデルによる物語の生成 Generating stories using generative AI models
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it could generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'"
生成結果の整形と提供 Format and provide generated results
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。最後に、サーバは整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easy for the user to read. Finally, the server provides the formatted story to the user, who can view the results through their device.
具体例 Specific examples
ユーザーの入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」を考える。この入力に基づいて、サーバは以下のようなプロンプト文を生成する: As an example of user input, consider "a knight's adventure story set in medieval Europe." Based on this input, the server generates the following prompt:
「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください。」 "Generate lines and scenes from characters in a knight's adventure story set in medieval Europe."
生成AIモデルは、このプロンプト文に基づいて物語を生成し、例えば以下のようなテキストを出力する: The generative AI model generates a story based on this prompt, outputting text such as the following:
「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」 "The brave knight Arthur met a wizard in a dark forest. The wizard told Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to defeat the dragon.'"
このようにして、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this way, it is possible to automatically generate a coherent story based on user input, providing an inspiring and entertaining story for the viewer.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1: Step 1:
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力データがサーバに送信される。 The user uses their device to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe." This input data is then sent to the server.
ステップ2: Step 2:
サーバは、ユーザーから送信されたテキストデータを受信する。受信したデータを自然言語処理技術を用いて解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果が次のステップの入力となる。 The server receives text data sent by the user. It analyzes the received data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis become the input for the next step.
ステップ3: Step 3:
サーバは、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。このプロンプト文が次のステップの入力となる。 Based on the analysis results, the server generates a prompt to be input into the generative AI model. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe." This prompt becomes the input for the next step.
ステップ4: Step 4:
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。この生成されたテキストが次のステップの入力となる。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it might generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'" This generated text becomes the input for the next step.
ステップ5: Step 5:
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。この整形されたテキストが次のステップの入力となる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easier for the user to read. This formatted text becomes the input for the next step.
ステップ6: Step 6:
サーバは、整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。例えば、生成された物語を表示するウェブページやアプリケーションの画面に表示する。ユーザーは、生成された物語を読み、楽しむことができる。 The server provides the formatted story to the user. The user can view the results through their device, for example, on a web page or application screen that displays the generated story. The user can then read and enjoy the generated story.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したテーマや設定に基づいて物語を自動生成する際に、物語の構成や登場人物のセリフ、情景の生成が不十分であり、視聴者の心情を効果的に揺さぶることが難しい。また、生成された物語をプレビューし、保存および共有する機能が欠如しているため、ユーザーの利便性が低いという問題がある Existing story generation systems automatically generate stories based on user-entered themes and settings, but they often lack sufficient story structure, character dialogue, and scene generation, making it difficult to effectively sway viewers' emotions. Furthermore, the lack of functionality to preview, save, and share the generated stories creates a problem of inconvenient user experience.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いてプロンプト文を生成し、物語を自動生成する手段と、生成された物語をプレビューし、保存および共有する手段と、を含む。これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating prompt sentences using a generative AI model and automatically generating a story; and means for previewing, saving, and sharing the generated story. This makes it possible to automatically generate high-quality stories based on the settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語に登場するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters that appear in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the framework of the story.
「セリフ」とは、登場人物が話す言葉のことであり、物語の進行やキャラクターの性格を表現するための重要な要素である。 "Dialogue" refers to the words spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現するものである。 "Scenes" refer to the landscapes and scenes depicted in a story, and visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造のことであり、物語の展開を効果的にするための枠組みである。 "Story structure" refers to the overall flow and structure of a story, including a beginning, middle, and end, and is the framework for effectively developing the story.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語を面白くするための要素である。 "Foreshadowing" is a hint or omen that relates to later developments in a story, and is an element that makes a story more interesting.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements that add mystery and suspense to a story, and are meant to attract the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者に深い印象を与えるためのものである。 A "moving scene" is a scene in a story that stirs strong emotions and is intended to leave a deep impression on the viewer.
「グラフィック」とは、物語の各シーンに合わせて描かれる視覚的な画像やイラストのことであり、物語の雰囲気や感情を視覚的に表現するためのものである。 "Graphics" refers to the visual images and illustrations that accompany each scene in the story, and are intended to visually express the atmosphere and emotions of the story.
「曲」とは、物語の各シーンに合わせて作られる音楽のことであり、物語の雰囲気や感情を音楽的に表現するためのものである。 "Songs" are pieces of music created to accompany each scene in a story, and are intended to musically express the atmosphere and emotions of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストや画像などを自動生成するためのモデルのことであり、物語の自動生成に利用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to automatically generate text, images, etc., and is used to automatically generate stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、物語のテーマや設定に基づいて生成されるものである。 A "prompt" is an instruction to be input into a generative AI model, and is generated based on the theme and setting of the story.
「プレビュー」とは、生成された物語を事前に確認するための機能のことであり、ユーザーが内容をチェックするためのものである。 "Preview" is a feature that allows users to preview the generated story in advance and check the content.
「保存」とは、生成された物語をデジタル形式で記録することを指し、後で再利用や共有ができるようにするためのものである。 "Preservation" refers to recording the stories that are created in digital form so that they can be reused and shared later.
「共有」とは、生成された物語を他のユーザーやプラットフォームと分かち合うことを指し、物語の拡散や評価を促進するためのものである。 "Sharing" refers to sharing the story you create with other users and platforms, with the aim of promoting the spread and appreciation of the story.
この発明を実施するためのシステムは、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するものである。以下に、このシステムの具体的な実施形態について説明する。 A system for implementing this invention allows the user to input story settings such as the story's theme, setting, and characters, and automatically generates a story based on these settings. Specific embodiments of this system are described below.
システム構成 System Configuration
このシステムは、主に以下のハードウェアおよびソフトウェアを用いて構成される。 This system is primarily composed of the following hardware and software:
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
プログラムの処理 Program processing
ユーザー入力 User input
ユーザーは、スマートフォンアプリケーションを通じて物語のテーマ、舞台、登場人物をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマを入力する。 Users enter the story's theme, setting, and characters in text form through a smartphone application. For example, they might enter the theme "A knight's adventure story set in medieval Europe."
プロンプト生成 Prompt generation
サーバは、ユーザーが入力した情報を基にプロンプト文を生成する。このプロンプト文は、生成AIモデルに入力される指示文である。具体例として、以下のようなプロンプト文が生成される。 The server generates a prompt based on the information entered by the user. This prompt is an instruction that is input into the generative AI model. As a specific example, the following prompt is generated:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
物語生成 Story generation
サーバは、生成AIモデル(例えば、GPT-4)を用いて、生成されたプロンプト文に基づいて物語を自動生成する。この生成AIモデルは、OpenAI APIを通じて呼び出される。 The server uses a generative AI model (e.g., GPT-4) to automatically generate a story based on the generated prompt. This generative AI model is called through the OpenAI API.
プレビュー、保存、共有 Preview, save, share
生成された物語は、ユーザーがスマートフォンアプリケーションを通じてプレビューできるように表示される。ユーザーは、生成された物語を保存し、SNSなどで共有することができる。 The generated story is displayed so that users can preview it through the smartphone application. Users can save the generated story and share it on social media, etc.
具体例 Specific examples
ユーザーが「中世ヨーロッパを舞台にした騎士の冒険物語」をテーマに設定し、登場人物として「勇敢な騎士、魔法使い、ドラゴン」を入力した場合、以下のような物語が生成される。 If a user sets the theme to "a knight's adventure story set in medieval Europe" and enters "a brave knight, a wizard, and a dragon" as the characters, the following story will be generated.
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文を生成AIモデルに入力することで、物語が自動生成される。生成された物語は、ユーザーがプレビューし、保存および共有することができる。 By inputting this prompt into a generative AI model, a story is automatically generated. Users can preview, save, and share the generated story.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 This makes it possible to automatically generate high-quality stories based on user-entered settings, effectively stirring the viewer's emotions.
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
ステップ1: Step 1:
ユーザは、スマートフォン端末を使用して物語のテーマ、舞台、登場人物をテキスト形式で入力する。入力されたデータは、端末からサーバに送信される。入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマが含まれる。 Users use their smartphone to input the story's theme, setting, and characters in text format. The input data is then sent from the device to the server. An example input includes the theme "A knight's adventure story set in medieval Europe."
ステップ2: Step 2:
サーバは、受信したユーザの入力データを基にプロンプト文を生成する。具体的には、テーマ、舞台、登場人物の情報を組み合わせて、生成AIモデルに適したプロンプト文を作成する。生成されたプロンプト文は以下のようになる。 The server generates a prompt based on the received user input data. Specifically, it combines information about the theme, setting, and characters to create a prompt that is suitable for the generative AI model. The generated prompt looks like this:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文が生成される。 This prompt text is generated.
ステップ3: Step 3:
サーバは、生成されたプロンプト文を用いて生成AIモデル(例えば、GPT-4)を呼び出す。OpenAI APIを使用してプロンプト文を送信し、物語の生成を依頼する。入力はプロンプト文であり、出力は生成された物語のテキストである。 The server calls a generative AI model (e.g., GPT-4) with the generated prompt text. It sends the prompt text using the OpenAI API and requests the generation of a story. The input is the prompt text, and the output is the generated story text.
ステップ4: Step 4:
生成AIモデルは、プロンプト文に基づいて物語を自動生成する。生成された物語のテキストは、サーバに返される。例えば、以下のような物語が生成される。 The generative AI model automatically generates a story based on the prompt text. The generated story text is returned to the server. For example, the following story might be generated:
昔々、中世ヨーロッパの広大な王国に、勇敢な騎士が住んでいた。彼の名はアーサー。ある日、彼は魔法使いの助けを借りて、恐ろしいドラゴンと戦う冒険に出ることになった。 Once upon a time, in a vast kingdom in medieval Europe, there lived a brave knight. His name was Arthur. One day, with the help of a wizard, he embarked on an adventure to battle a fearsome dragon.
ステップ5: Step 5:
サーバは、生成された物語のテキストをスマートフォン端末に送信する。ユーザは、スマートフォン端末を通じて生成された物語をプレビューすることができる。入力は生成された物語のテキストであり、出力はユーザの端末に表示されるプレビュー画面である。 The server sends the text of the generated story to the smartphone device. The user can preview the generated story through the smartphone device. The input is the text of the generated story, and the output is the preview screen displayed on the user's device.
ステップ6: Step 6:
ユーザは、生成された物語を保存するか、SNSなどで共有することができる。保存された物語は、端末のストレージに記録され、共有された物語は、指定されたプラットフォームに送信される。入力はユーザの選択であり、出力は保存されたファイルまたは共有されたコンテンツである。 Users can save the generated story or share it on social media. Saved stories are recorded in the device's storage, and shared stories are sent to the specified platform. The input is the user's selection, and the output is the saved file or shared content.
以上のステップにより、ユーザが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 These steps make it possible to automatically generate a high-quality story based on the settings entered by the user, effectively stirring the viewer's emotions.
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の要素を整理し、ユーザに提供する機能が不足しているため、ユーザが生成された物語を効果的に利用することが困難である。さらに、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段が不足している。 While conventional story generation systems can automatically generate stories based on the story's theme and character settings, they have difficulty appropriately generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. Furthermore, they lack the functionality to organize the generated story elements and provide them to users, making it difficult for users to effectively use the generated story. Furthermore, they lack the means to enhance the dramatic effect through story structure, character dialogue, visuals, and music, and to effectively stir the viewer's emotions.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、生成された物語の要素を整理し、ユーザに提供する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for organizing the generated story elements and providing them to the user; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to make the story more interesting and enable users to effectively use the generated story.
「物語のテーマ」とは、物語の中心となる主題や題材を指すものである。 "Story theme" refers to the central subject or subject matter of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物を指すものである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素や出来事を指すものである。 "Foreshadowing" refers to elements or events placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎や推理の要素を加えることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that add mystery or detective elements to a story, attracting the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面を指すものである。 A "moving scene" refers to a scene in a story that stirs strong emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やBGMを指すものである。 "Song" refers to the music or background music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、視聴者の感情や反応を引き出すための手法を指すものである。 "Directory effects" refers to techniques that use the visual and auditory elements of a story to elicit emotions and reactions from the viewer.
「視聴者の心情」とは、物語を見たり読んだりする人々の感情や気持ちを指すものである。 "Audience sentiment" refers to the emotions and feelings of the people who watch or read the story.
この発明は、物語のテーマや登場人物の性格、物語の進行に基づいて、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動生成するシステムである。以下に、このシステムの具体的な実施形態を示す。 This invention is a system that automatically generates plot twists, mystery elements, and moving scenes to make a story more interesting, based on the story's theme, the characters' personalities, and the story's progression. A specific embodiment of this system is shown below.
システムの構成 System Configuration
ハードウェア Hardware
サーバは、高性能なGPUを搭載したクラウドサーバを使用する。 The server uses a cloud server equipped with a high-performance GPU.
ソフトウェア Software
サーバは、生成AIモデルを使用する。具体的には、OpenAIのGPT-4などの生成AIモデルを用いる。 The server uses a generative AI model. Specifically, it uses a generative AI model such as OpenAI's GPT-4.
プログラムの処理 Program processing
ユーザの入力 User input
ユーザは、端末を使用して物語のテーマ、登場人物の性格、物語の進行に関する情報を入力する。例えば、ユーザは以下のような情報を入力する。 The user uses the device to input information about the story's theme, the characters' personalities, and the story's progression. For example, the user might input the following information:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
プロンプト文の生成 Generating prompt statements
サーバは、ユーザから入力された情報を受け取り、それを基にプロンプト文を生成する。生成されたプロンプト文は以下のようになる。 The server receives the information entered by the user and generates a prompt based on that information. The generated prompt looks like this:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
物語の要素の生成 Generating story elements
サーバは、生成したプロンプト文を生成AIモデルに入力し、物語の要素を生成する。生成AIモデルは、プロンプト文を基に以下のような物語の要素を生成する。 The server inputs the generated prompt text into the generative AI model to generate story elements. The generative AI model generates the following story elements based on the prompt text.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
生成された物語の要素の整理と提供 Organizing and providing generated story elements
サーバは、生成AIモデルから出力された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 The server organizes the story elements output by the generative AI model and provides them to the user. The user can check the generated story elements via their device and make corrections or additions as needed.
具体例 Specific examples
ユーザがシステムを利用して物語を生成する際の具体例を以下に示す。 Below is a concrete example of how a user can use the system to generate a story.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
サーバはこのプロンプト文を生成AIモデルに入力し、物語のテーマや登場人物の性格、物語の進行に基づいて伏線やミステリー要素、感動的なシーンを自動生成する。生成された物語の要素は、ユーザに提供され、ユーザはそれを確認し、必要に応じて修正や追加を行うことができる。 The server inputs this prompt into a generative AI model, which automatically generates plot twists, mystery elements, and moving scenes based on the story's theme, the characters' personalities, and the story's progression. The generated story elements are provided to the user, who can review them and make corrections or additions as needed.
このようにして、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this way, it is possible to make the story more interesting and enable users to effectively use the generated story.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: Information about the story's theme, character personalities, and story progression.
具体的な動作: ユーザは端末の入力フォームに「中世の騎士の冒険」というテーマと、「勇敢な騎士、謎めいた老人、王女」という登場人物の情報を入力する。入力が完了したら、「送信」ボタンをクリックする。 Specific operation: The user enters the theme "Adventures of a Medieval Knight" and character information - "A Brave Knight, a Mysterious Old Man, and a Princess" - into the input form on their device. Once the input is complete, they click the "Submit" button.
出力: 入力された情報がサーバに送信される。 Output: The entered information is sent to the server.
ステップ2: Step 2:
サーバが入力された情報を受け取り、プロンプト文を生成する。 The server receives the entered information and generates a prompt.
入力: ユーザから送信された物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: User-submitted information about the story's theme, character personalities, and story progression.
具体的な動作: サーバは受信した情報を基に、生成AIモデルに入力するためのプロンプト文を生成する。 Specific operation: Based on the received information, the server generates a prompt sentence to input into the generative AI model.
出力: 生成されたプロンプト文。 Output: The generated prompt text.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
ステップ3: Step 3:
サーバが生成AIモデルにプロンプト文を入力し、物語の要素を生成する。 The server inputs prompts into the generative AI model to generate story elements.
入力: 生成されたプロンプト文。 Input: The generated prompt text.
具体的な動作: サーバは生成AIモデルにプロンプト文を入力し、物語の伏線、ミステリー要素、感動的なシーンを生成する。 Specific operation: The server inputs prompt text into the generative AI model, generating story hints, mystery elements, and moving scenes.
出力: 生成された物語の要素。 Output: Generated story elements.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
ステップ4: Step 4:
サーバが生成された物語の要素を整理し、ユーザに提供する。 The server organizes the generated story elements and provides them to the user.
入力: 生成AIモデルから出力された物語の要素。 Input: Story elements output from the generative AI model.
具体的な動作: サーバは生成された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 Specific operation: The server organizes the generated story elements and provides them to the user. The user can review the generated story elements through their device and make corrections or additions as necessary.
出力: 整理された物語の要素がユーザに提供される。 Output: The organized story elements are presented to the user.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて自動で物語を作成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の各シーンにマッチしたグラフィックや曲を自動で制作し、視聴者の心情を効果的に揺さぶることも困難である。さらに、生成AIモデルを活用して物語の要素を生成する際に、プロンプト文を適切に生成し、モデルに入力する手段が不足しているため、ユーザーにとって満足のいく物語を提供することができないという課題がある。 While conventional story generation systems can automatically create stories based on the story's theme and character settings, they have difficulty properly generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. It is also difficult to automatically create graphics and music that match each scene in the generated story and effectively stir the viewer's emotions. Furthermore, when using generative AI models to generate story elements, there is a lack of a way to properly generate prompt sentences and input them into the model, which poses the challenge of not being able to provide a satisfying story to the user.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いて物語の要素を生成する手段と、プロンプト文を生成し、生成AIモデルに入力する手段と、生成された物語の要素をユーザーに表示する手段を含む。これにより、物語をより面白くし、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user. This makes it possible to make the story more interesting and effectively stir the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境のことである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターのことである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマや舞台、登場人物などの基本的な要素のことである。 "Story setting" refers to the basic elements of the story, such as its theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉のことである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、後の展開に関連する重要な要素を前もって示すことである。 "Foreshadowing" is the advance indication of important elements related to later developments.
「ミステリー要素」とは、物語に謎や不思議な出来事を含めることである。 "Mystery elements" refer to the inclusion of mysteries or mysterious events in a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、視覚的な画像やイラストのことである。 "Graphics" refers to visual images and illustrations.
「曲」とは、音楽やメロディのことである。 "Song" refers to music or melody.
「演出効果」とは、物語をより魅力的に見せるための視覚や聴覚の工夫のことである。 "Producer effects" refer to visual and auditory techniques used to make a story more appealing.
「視聴者」とは、物語を観る人のことである。 "Viewers" are people who watch a story.
「生成AIモデル」とは、人工知能を用いてテキストや画像などを生成するアルゴリズムのことである。 A "generative AI model" is an algorithm that uses artificial intelligence to generate text, images, etc.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことである。 A "prompt" is an instruction to be input into a generative AI model.
「ユーザー」とは、システムを利用する人のことである。 "User" refers to a person who uses the system.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段、生成AIモデルを用いて物語の要素を生成する手段、プロンプト文を生成し、生成AIモデルに入力する手段、生成された物語の要素をユーザーに表示する手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user.
サーバは、ユーザーが入力した物語のテーマや登場人物の情報を受け取り、それに基づいてプロンプト文を生成する。生成されたプロンプト文は、生成AIモデル(例えば、GPT-3)に入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 The server receives information about the story's theme and characters entered by the user and generates a prompt based on that information. The generated prompt is then input into a generative AI model (e.g., GPT-3) to generate story elements. The generated story elements are then displayed to the user.
具体的には、サーバは以下のような手順で動作する。まず、ユーザーが物語のテーマや登場人物の情報を入力する。次に、サーバはこれらの情報を基にプロンプト文を生成する。生成されたプロンプト文は、生成AIモデルに入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 Specifically, the server operates in the following steps: First, the user inputs information about the story's theme and characters. Next, the server generates a prompt based on this information. The generated prompt is input into a generative AI model, which generates story elements. The generated story elements are then displayed to the user.
使用するハードウェアとしては、サーバやユーザー端末が含まれる。使用するソフトウェアとしては、生成AIモデル(例:GPT-3)やプロンプト文生成アルゴリズムが含まれる。 The hardware used includes servers and user devices. The software used includes generative AI models (e.g., GPT-3) and prompt generation algorithms.
具体例として、以下のようなプロンプト文が生成される。 As a concrete example, the following prompt sentence is generated:
テーマ: 騎士の冒険 Theme: Knight's Adventure
登場人物: 勇敢な騎士、謎の老人、魔法使い Characters: Brave knight, mysterious old man, wizard
物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。 Generate plot twists, mystery elements, and moving scenes to make your story more interesting.
このプロンプト文を生成AIモデルに入力することで、物語の要素が自動的に生成される。生成された物語の要素は、ユーザーに表示され、物語の構成や登場人物の会話、映像や音楽で演出効果を高めることができる。 By inputting this prompt into a generative AI model, story elements are automatically generated. The generated story elements are displayed to the user, and the dramatic effect can be enhanced with story structure, character dialogue, visuals, and music.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の情報 Input: Story theme, character information
出力: 入力されたテーマと登場人物の情報 Output: Input theme and character information
具体的な動作: ユーザはスマートフォンアプリケーションの入力フォームに物語のテーマ(例:「騎士の冒険」)や登場人物(例:「勇敢な騎士、謎の老人、魔法使い」)を入力する。 Specific actions: The user enters the story's theme (e.g., "The Knight's Adventure") and characters (e.g., "The Brave Knight, the Mysterious Old Man, and the Wizard") into an input form on a smartphone application.
ステップ2: Step 2:
サーバが入力されたテーマと登場人物の情報を受け取り、プロンプト文を生成する。 The server receives the entered theme and character information and generates a prompt.
入力: 入力されたテーマと登場人物の情報 Input: Entered theme and character information
出力: 生成されたプロンプト文 Output: Generated prompt text
具体的な動作: サーバは受け取ったテーマと登場人物の情報を基に、以下のようなプロンプト文を生成する。「テーマ: 騎士の冒険 登場人物: 勇敢な騎士、謎の老人、魔法使い 物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。」 Specific operation: Based on the received theme and character information, the server generates a prompt like the following: "Theme: A knight's adventure. Characters: A brave knight, a mysterious old man, a wizard. Please generate hints, mystery elements, and moving scenes to make the story more interesting."
ステップ3: Step 3:
サーバが生成されたプロンプト文を生成AIモデルに入力する。 The server inputs the generated prompt sentence into the generative AI model.
入力: 生成されたプロンプト文 Input: Generated prompt text
出力: 生成AIモデルによって生成された物語の要素 Output: Story elements generated by the generative AI model
具体的な動作: サーバは生成されたプロンプト文をGPT-3などの生成AIモデルに送信し、物語の要素(例:伏線、ミステリー要素、感動的なシーン)を生成する。 Specific operation: The server sends the generated prompt to a generative AI model such as GPT-3 to generate story elements (e.g., foreshadowing, mystery elements, emotional scenes).
ステップ4: Step 4:
サーバが生成された物語の要素を受け取り、ユーザに表示する。 The server receives the generated story elements and displays them to the user.
入力: 生成AIモデルによって生成された物語の要素 Input: Story elements generated by a generative AI model
出力: ユーザに表示される物語の要素 Output: Story elements displayed to the user
具体的な動作: サーバは生成AIモデルから受け取った物語の要素をユーザのスマートフォンアプリケーションに送信し、ユーザに表示する。ユーザは生成された物語の要素を確認することができる。 Specific operation: The server sends the story elements received from the generative AI model to the user's smartphone application and displays them to the user. The user can then review the generated story elements.
ステップ5: Step 5:
サーバが物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力: 生成された物語の要素 Input: Generated story elements
出力: 各シーンにマッチしたグラフィックや曲 Output: Graphics and music that match each scene
具体的な動作: サーバは生成された物語の要素を基に、シーンの雰囲気や登場人物の感情状態を考慮して、適切なグラフィックや曲を自動で制作する。 Specific operation: Based on the generated story elements, the server automatically creates appropriate graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ6: Step 6:
サーバが物語の構成や登場人物の会話、映像や音楽で演出効果を高める。 The server enhances the dramatic effect through story structure, character dialogue, visuals, and music.
入力: 各シーンにマッチしたグラフィックや曲、物語の要素 Input: Graphics, music, and story elements that match each scene
出力: 演出効果が高められた物語 Output: A story with enhanced dramatic effects
具体的な動作: サーバは物語の構成や登場人物の会話、映像や音楽を組み合わせて、視聴者の心情を効果的に揺さぶる演出効果を高める。 Specific operation: The server combines the story structure, character dialogue, images, and music to enhance the dramatic effect, effectively stirring the viewer's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが困難であり、視聴者の心情を効果的に揺さぶる演出効果を高めることができなかった。また、シーンの雰囲気や登場人物の感情状態を考慮したグラフィックや音楽の生成が手動で行われるため、時間と労力がかかるという問題があった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, preventing them from effectively evoking the viewer's emotions. Furthermore, generating graphics and music that take into account the scene's atmosphere and the characters' emotional states was a time-consuming and labor-intensive process.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、シーンデータを解析し、シーンの雰囲気や登場人物の感情状態を抽出する手段と、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する手段と、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段と、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for analyzing scene data and extracting the atmosphere of the scene and the emotional state of the characters; means for generating prompt text to be input into a generative AI model based on the extracted information; means for inputting the prompt text into the generative AI model and generating graphics and music that match the scene; means for integrating the generated graphics and music with the scene data and generating final output; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story, enhancing the dramatic effect that effectively stirs the viewer's emotions.
「物語のテーマや舞台、登場人物などのストーリー設定」とは、物語の基本的な要素であり、物語の背景や登場人物の特徴、物語の進行に必要な設定を指す。 "Story settings such as the story's theme, setting, and characters" are the basic elements of a story, and refer to the background of the story, the characteristics of the characters, and the settings necessary for the story's progression.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するためのインターフェースを指す。 "Means of input" refers to the interface that allows the user to provide the story setting, such as the story's theme, setting, and characters, to the system.
「登場人物のセリフや情景、物語の構成を自動で作成する手段」とは、入力されたストーリー設定に基づいて、登場人物の会話やシーンの描写、物語の全体的な流れを自動的に生成する機能を指す。 "Means for automatically creating character dialogue, scenes, and story structure" refers to a function that automatically generates character dialogue, scene descriptions, and the overall flow of a story based on the input story setting.
「伏線やミステリー要素、感動的なシーンなどを自動で生成する手段」とは、物語をより面白くするために、予め設定されたストーリーの中にサプライズや感動を引き起こす要素を自動的に追加する機能を指す。 "Means for automatically generating foreshadowing, mystery elements, moving scenes, etc." refers to a function that automatically adds elements that cause surprises or emotions to a pre-set story in order to make the story more interesting.
「グラフィックや曲を自動で制作する手段」とは、物語の各シーンに合わせて、視覚的および聴覚的な要素を自動的に生成する機能を指す。 "Means for automatically creating graphics and music" refers to a function that automatically generates visual and auditory elements to match each scene in a story.
「シーンデータを解析する手段」とは、物語の各シーンの内容を分析し、シーンの雰囲気や登場人物の感情状態を抽出する機能を指す。 "Means for analyzing scene data" refers to the function of analyzing the content of each scene in a story and extracting the atmosphere of the scene and the emotional state of the characters.
「生成AIモデルに入力するプロンプト文を生成する手段」とは、解析されたシーンデータに基づいて、生成AIモデルに対して適切な指示を与えるためのテキストを作成する機能を指す。 "Means for generating prompt sentences to be input to a generative AI model" refers to a function that creates text to provide appropriate instructions to a generative AI model based on analyzed scene data.
「生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段」とは、生成AIモデルに対してプロンプト文を入力し、その結果としてシーンに適したグラフィックと音楽を生成する機能を指す。 "A means of inputting a prompt sentence into a generative AI model and generating graphics and music that match the scene" refers to a function that inputs a prompt sentence into a generative AI model and, as a result, generates graphics and music that are appropriate for the scene.
「生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段」とは、生成された視覚および聴覚要素をシーンデータに組み込み、最終的な物語の出力を作成する機能を指す。 "Means for integrating generated graphics and music into scene data and generating final output" refers to the functionality for incorporating generated visual and auditory elements into scene data to create the final narrative output.
「視聴者の心情を効果的に揺さぶる手段」とは、物語の構成や登場人物の会話、映像や音楽を通じて、視聴者の感情に強い影響を与えるための機能を指す。 "Means to effectively stir the viewer's emotions" refers to the function of having a strong impact on the viewer's emotions through the story structure, the characters' dialogue, images, and music.
この発明は、物語の各シーンにマッチしたグラフィックや曲を自動で制作するシステムに関するものである。このシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて登場人物のセリフや情景、物語の構成を自動で作成する。また、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成し、さらに各シーンにマッチしたグラフィックや曲を自動で制作する。 This invention relates to a system that automatically creates graphics and music that match each scene in a story. This system inputs story settings such as the story's theme, setting, and characters, and automatically creates character dialogue, scenery, and story structure based on the input story settings. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting, and automatically creates graphics and music that match each scene.
使用するハードウェアおよびソフトウェア Hardware and software used
このシステムは、以下のハードウェアおよびソフトウェアを使用する: This system uses the following hardware and software:
サーバ:データの解析および生成AIモデルの実行を行う。 Server: Analyzes data and runs generative AI models.
端末:ユーザが物語のストーリー設定を入力するためのインターフェースを提供する。 Terminal: Provides an interface for users to enter the story setting for their story.
生成AIモデル:例えば、OpenAIのGPT-4やDALL-E、音楽生成モデルなどを使用する。 Generative AI models: For example, OpenAI's GPT-4, DALL-E, and music generation models are used.
データ加工およびデータ演算 Data processing and calculation
サーバは、ユーザが端末を通じて入力した物語のストーリー設定を受け取る。ストーリー設定には、物語のテーマ、舞台、登場人物の特徴などが含まれる。サーバは、これらのデータを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server receives the story settings entered by the user via their device. The story settings include the story's theme, setting, and character traits. The server analyzes this data and automatically creates the characters' lines, scenery, and story structure.
次に、サーバは作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。これにより、物語がより面白く、視聴者の心情を揺さぶるものとなる。 Next, the server automatically generates foreshadowing, mystery elements, moving scenes, and more based on the story you've created. This makes the story more interesting and emotionally stirring for the viewer.
さらに、サーバは物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。解析結果として、シーンの雰囲気や登場人物の感情状態を抽出する。サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 Furthermore, the server analyzes scene data to automatically create graphics and music that match each scene in the story. As a result of the analysis, it extracts the atmosphere of the scene and the emotional state of the characters. Based on the extracted information, the server generates prompt sentences to input into the generative AI model.
具体例 Specific examples
例えば、感動的なシーンの場合、サーバは以下のようなプロンプト文を生成AIモデルに入力する: For example, in the case of an emotional scene, the server inputs the following prompt sentence into the generative AI model:
グラフィック生成のプロンプト文例:「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example prompt for graphic generation: "Generate a graphic of a beautiful landscape. The scene is emotional, and the character is in tears."
音楽生成のプロンプト文例:「心を打つ感動的な音楽を生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example music generation prompt: "Generate moving, poignant music. The scene is emotional, and the characters are in tears."
生成AIモデルは、これらのプロンプト文に基づいてグラフィックと音楽を生成する。サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。端末は、統合された結果をユーザに表示する。 The generative AI model generates graphics and music based on these prompts. The server integrates the generated graphics and music with the scene data to generate the final output. The device displays the integrated results to the user.
このようにして、ユーザは物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることができる。実施例3における特定処理の流れについて図15を用いて説明する。 In this way, the user can automatically create graphics and music that match each scene in the story, enhancing the dramatic effect that effectively stirs the viewer's emotions. The flow of the specific processing in Example 3 will be explained using Figure 15.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定を端末に入力する。 The user enters story settings such as the story's theme, setting, and characters into the device.
具体的な動作:ユーザは、端末の入力フォームに物語のテーマ(例:ファンタジー)、舞台(例:中世の城)、登場人物(例:勇者、魔法使い)などの情報を入力する。端末は、入力されたストーリー設定をサーバに送信する。 Specific operation: The user enters information such as the story's theme (e.g., fantasy), setting (e.g., medieval castle), and characters (e.g., hero, wizard) into the device's input form. The device then sends the entered story settings to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは、受け取ったストーリー設定データを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server analyzes the received story setting data and automatically creates the characters' lines, scenes, and story structure.
具体的な動作:サーバは、自然言語処理(NLP)技術を使用してストーリー設定データを解析し、登場人物のセリフやシーンの描写、物語の全体的な流れを生成する。 Specific operations: The server uses natural language processing (NLP) technology to analyze story setting data and generate character dialogue, scene descriptions, and the overall story flow.
入力:ストーリー設定データ Input: Story setting data
出力:登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
ステップ3: Step 3:
サーバは、作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Based on the story you create, the server automatically generates foreshadowing, mystery elements, moving scenes, and more.
具体的な動作:サーバは、物語の構成データを解析し、物語をより面白くするための伏線やミステリー要素、感動的なシーンを追加する。 Specific operation: The server analyzes the story's composition data and adds hints, mystery elements, and moving scenes to make the story more interesting.
入力:物語の構成データ Input: Story composition data
出力:伏線やミステリー要素、感動的なシーンを含む物語データ Output: Story data including foreshadowing, mystery elements, and moving scenes
ステップ4: Step 4:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。 The server analyzes scene data to automatically create graphics and music that match each scene in the story.
具体的な動作:サーバは、物語データをシーンごとに分割し、各シーンの雰囲気や登場人物の感情状態を抽出する。 Specific operation: The server divides the story data into scenes and extracts the atmosphere of each scene and the emotional state of the characters.
入力:物語データ Input: Story data
出力:シーンごとの雰囲気や登場人物の感情状態データ Output: Scene-specific mood and character emotional state data
ステップ5: Step 5:
サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 The server generates prompt sentences to input into the generative AI model based on the extracted information.
具体的な動作:サーバは、シーンの雰囲気や登場人物の感情状態に応じたプロンプト文を作成する。例えば、感動的なシーンの場合、「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」というプロンプト文を生成する。 Specific operation: The server creates a prompt that corresponds to the atmosphere of the scene and the emotional state of the characters. For example, in the case of an emotional scene, the server generates the prompt, "Generate a graphic of a beautiful landscape. The scene is emotional, and the characters are crying."
入力:シーンごとの雰囲気や登場人物の感情状態データ Input: Scene atmosphere and character emotional state data
出力:生成AIモデルに入力するプロンプト文 Output: Prompt text to be input to the generative AI model
ステップ6: Step 6:
サーバは、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する。 The server inputs prompt text into the generative AI model, generating graphics and music that match the scene.
具体的な動作:サーバは、生成AIモデル(例:DALL-E)にプロンプト文を送信し、シーンにマッチしたグラフィックを生成する。同様に、音楽生成モデルにプロンプト文を送信し、シーンにマッチした音楽を生成する。 Specific operation: The server sends a prompt to the generative AI model (e.g., DALL-E), which generates graphics that match the scene. Similarly, it sends a prompt to the music generation model, which generates music that matches the scene.
入力:生成AIモデルに入力するプロンプト文 Input: Prompt text to be input to the generative AI model
出力:生成されたグラフィックと音楽 Output: Generated graphics and music
ステップ7: Step 7:
サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。 The server integrates the generated graphics and music with the scene data to generate the final output.
具体的な動作:サーバは、生成されたグラフィックと音楽を各シーンデータに統合し、物語全体の最終的な出力を作成する。 Specific operation: The server integrates the generated graphics and music with each scene data to create the final output of the entire story.
入力:生成されたグラフィックと音楽、シーンデータ Input: Generated graphics, music, and scene data
出力:統合された最終的な物語データ Output: Final integrated narrative data
ステップ8: Step 8:
端末は、統合された最終的な物語データをユーザに表示する。 The terminal displays the final, integrated story data to the user.
具体的な動作:端末は、サーバから送信された最終的な物語データを受信し、ユーザに視覚的および聴覚的に表示する。 Specific operation: The terminal receives the final story data sent from the server and displays it visually and audibly to the user.
入力:統合された最終的な物語データ Input: Final integrated narrative data
出力:ユーザに表示される物語の視覚および聴覚的コンテンツ Output: The visual and auditory content of the story presented to the user.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視覚的・聴覚的な演出効果が限定されていた。また、ユーザーが自分の物語を入力しても、その物語に適したグラフィックや音楽を生成するための手段が不足しており、コンテンツの質が低下する問題があった。さらに、生成されたコンテンツをプレビューし、エクスポートする機能が欠如していたため、ユーザーの利便性が低かった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, limiting the visual and auditory effects they could produce. Furthermore, even when users input their own stories, there was a lack of means to generate graphics and music appropriate for that story, resulting in a decline in content quality. Furthermore, the lack of functionality to preview and export the generated content resulted in poor user convenience.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する手段と、シーンの説明に基づいてグラフィックを生成する手段と、シーンの説明に基づいて音楽を生成する手段と、生成されたコンテンツをプレビューする手段と、完成したコンテンツをエクスポートする手段を含む。これにより、ユーザーが入力した物語に基づいて、視覚的・聴覚的に豊かなコンテンツを自動で生成し、プレビューおよびエクスポートすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, video, and music, and effectively stirring the viewer's emotions; means for analyzing story scenes and extracting the scene atmosphere and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content. This makes it possible to automatically generate, preview, and export visually and aurally rich content based on a story entered by the user.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指す。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を指す。 "Story setting" refers to basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要になる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that foreshadow information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される視覚的な画像やイラストを指す。 "Graphics" refers to visual images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「シーンの雰囲気」とは、物語の特定の場面が持つ全体的な感覚やムードを指す。 'Scene atmosphere' refers to the overall feeling or mood of a particular moment in a story.
「登場人物の感情状態」とは、物語の中で登場人物が感じている感情を指す。 "A character's emotional state" refers to the emotions the character is feeling in the story.
「シーンの説明」とは、物語の特定の場面についての詳細な描写や解説を指す。 A "scene description" refers to a detailed description or explanation of a particular scene in a story.
「プレビュー」とは、生成されたコンテンツを事前に確認することを指す。 "Preview" refers to checking the generated content in advance.
「エクスポート」とは、生成されたコンテンツを外部ファイルとして保存することを指す。 "Export" refers to saving the generated content as an external file.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め視聴者の心情を効果的に揺さぶる手段、物語のシーンを解析しシーンの雰囲気と登場人物の感情状態を抽出する手段、シーンの説明に基づいてグラフィックを生成する手段、シーンの説明に基づいて音楽を生成する手段、生成されたコンテンツをプレビューする手段、完成したコンテンツをエクスポートする手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the story structure, character dialogue, and visuals and music to effectively stir the viewer's emotions; means for analyzing story scenes and extracting the atmosphere of the scene and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content.
ハードウェアおよびソフトウェアの構成 Hardware and software configuration
ハードウェア: Hardware:
スマートフォン Smartphone
ソフトウェア: Software:
Python Python
OpenAI API OpenAI API
PIL (Python Imaging Library) PIL (Python Imaging Library)
音楽生成ライブラリ Music generation library
データ加工およびデータ演算 Data processing and calculation
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段: How to enter story settings such as theme, setting, and characters:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
登場人物のセリフや情景、物語の構成を自動で作成する手段: Methods for automatically creating character dialogue, scenes, and story structure:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
伏線やミステリー要素、感動的なシーンなどを自動で生成する手段: Methods for automatically generating foreshadowing, mystery elements, moving scenes, etc.:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段: Methods for automatically creating graphics and music that match each scene in a story:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。これに基づいて、OpenAIの画像生成APIを使用してグラフィックを生成し、音楽生成APIを使用して音楽を生成する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the characters' emotional state. Based on this, it generates graphics using OpenAI's image generation API and music using OpenAI's music generation API.
生成されたコンテンツをプレビューする手段: How to preview generated content:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including the generated graphics and music, through a smartphone application.
完成したコンテンツをエクスポートする手段: How to export your finished content:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
具体例 Specific examples
例えば、ユーザが「勇者はドラゴンと戦うために山に登った。」という物語を入力すると、システムはこのシーンを解析し、勇者とドラゴンの戦闘シーンにマッチした迫力のあるグラフィックと緊張感を高める音楽を生成する。 For example, if a user inputs the story "A hero climbed a mountain to fight a dragon," the system will analyze this scene and generate powerful graphics and music that heightens the tension to match the battle scene between the hero and the dragon.
プロンプト文の例: Example prompt:
以下の物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を出力してください: Analyze the following story scene and output the scene's atmosphere and the characters' emotional states:
勇者はドラゴンと戦うために山に登った。 The hero climbed the mountain to fight the dragon.
このようにして、ユーザは自分の物語を視覚的・聴覚的に豊かなコンテンツとして楽しむことができる。 In this way, users can enjoy their stories as visually and aurally rich content.
応用例3における特定処理の流れについて図16を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 16.
ステップ1: Step 1:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
入力: 物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力: テキスト形式のストーリー設定データ Output: Story setting data in text format
ステップ2: Step 2:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
入力: テキスト形式のストーリー設定データ Input: Text-based story setting data
出力: 登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ3: Step 3:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
入力: 登場人物のセリフ、情景、物語の構成データ Input: Character dialogue, scenery, and story structure data
出力: 伏線、ミステリー要素、感動的なシーンデータ Output: Foreshadowing, mystery elements, and moving scene data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ4: Step 4:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the emotional state of the characters.
入力: 伏線、ミステリー要素、感動的なシーンデータ Input: Foreshadowing, mystery elements, and moving scene data
出力: シーンの雰囲気、登場人物の感情状態データ Output: Scene atmosphere, character emotional state data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、解析結果を受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the analysis results.
ステップ5: Step 5:
サーバは、シーンの説明に基づいてグラフィックを生成する。 The server generates graphics based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: グラフィックデータ Output: Graphics data
具体的な動作: サーバはOpenAIの画像生成APIにプロンプト文を送信し、生成された画像を受け取る。 Specific operation: The server sends a prompt to OpenAI's image generation API and receives the generated image.
ステップ6: Step 6:
サーバは、シーンの説明に基づいて音楽を生成する。 The server generates music based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: 音楽データ Output: Music data
具体的な動作: サーバはOpenAIの音楽生成APIにプロンプト文を送信し、生成された音楽を受け取る。 Specific operation: The server sends a prompt to OpenAI's music generation API and receives the generated music.
ステップ7: Step 7:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including the generated graphics and music, through a smartphone application.
入力: グラフィックデータ、音楽データ Input: Graphics data, music data
出力: プレビュー画面 Output: Preview screen
具体的な動作: スマートフォンのアプリケーションが生成されたデータを表示し、ユーザにプレビューを提供する。 Specific behavior: The smartphone application displays the generated data and provides a preview to the user.
ステップ8: Step 8:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
入力: プレビュー画面 Input: Preview screen
出力: 動画ファイル Output: Video file
具体的な動作: スマートフォンのアプリケーションが生成されたデータを動画ファイルとして保存し、ユーザに提供する。 Specific operation: The smartphone application saves the generated data as a video file and provides it to the user.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
「形態例1」 "Example 1"
本発明の一実施形態として、感情エンジンを組み合わせた物語生成システムがある。このシステムは、ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。そして、そのストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。さらに、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。また、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。そして、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 One embodiment of the present invention is a story generation system that incorporates an emotion engine. This system receives story settings, such as the story's theme, setting, and characters, as input information from the user. Based on this story setting, the system then automatically creates character dialogue, scenery, and story structure. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting. It also automatically creates graphics and music that match each scene in the story. The story structure, character dialogue, video, and music enhance the dramatic effect, effectively stirring the viewer's emotions.
「形態例2」 "Example 2"
さらに、本システムは感情エンジンを含む。この感情エンジンは、ユーザの感情をリアルタイムで認識する。そして、その感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Furthermore, the system includes an emotion engine. This emotion engine recognizes the user's emotions in real time and adjusts the story development according to those emotions. For example, if the user feels joyful about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
感情エンジンは、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions. For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. If the user speaks in a sad tone of voice, the emotion engine will recognize that the user is feeling sad. Furthermore, if the user inputs the text "fun," the emotion engine will recognize that the user is feeling happy. Based on this information, the emotion engine adjusts the development of the story and provides a story experience that matches the user's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。 Step 1: Receive story settings such as theme, setting, and characters as input from the user.
ステップ2:受け取ったストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 Step 2: Based on the received story setting, character dialogue, scenes, and story structure are automatically created.
ステップ3:作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 3: Automatically generate hints, mystery elements, moving scenes, and more to make your story more interesting.
ステップ4:作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。ステップ5:物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 Step 4: Automatically create graphics and music that match each scene in the story you've created. Step 5: Enhance the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions.
「形態例2」 "Example 2"
ステップ1:感情エンジンを起動し、ユーザの感情をリアルタイムで認識する。 Step 1: Launch the emotion engine and recognize the user's emotions in real time.
ステップ2:認識した感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Step 2: Adjust the story development according to the recognized emotion. For example, if the user feels happy about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
ステップ1:感情エンジンがユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。 Step 1: The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions.
ステップ2:例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。 Step 2: For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. Also, if the user is speaking in a sad tone of voice, the emotion engine will recognize that the user is feeling sad.
ステップ3:さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 Step 3: Furthermore, if the user enters the text "fun," the emotion engine recognizes that the user is feeling enjoyment. Based on this information, the emotion engine adjusts the development of the story and provides a narrative experience that matches the user's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性が欠けることが多かった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンの生成が難しく、視聴者の心情を効果的に揺さぶることができなかった。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することが困難であった。これらの課題を解決するために、本発明は、より一貫性のある物語生成と、視聴者の心情を効果的に揺さぶるためのシステムを提供することを目的とする In conventional story generation systems, when automatically generating a story based on a story setting entered by the user, the story flow, character dialogue, and scenery often lacked consistency. Furthermore, it was difficult to generate foreshadowing, mystery elements, and moving scenes to make the story more interesting, making it difficult to effectively move the viewer's emotions. Furthermore, it was difficult to automatically create graphics and music that matched each scene in the story. To address these issues, the present invention aims to provide a system that generates more consistent stories and effectively moves the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定を解析する手段と、解析されたストーリー設定に基づき、既存の物語データベースを検索する手段と、生成AIモデルにプロンプト文を生成し入力する手段と、生成AIモデルを用いて登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for analyzing the input story settings; means for searching an existing story database based on the analyzed story settings; means for generating and inputting prompt sentences to a generation AI model; means for automatically creating character dialogue, scenes, and story structure using the generation AI model; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions. This makes it possible to generate a consistent story based on the story settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や時代背景のことである。 "Setting" refers to the place and historical background in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物のことである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するための方法や装置のことである。 "Input means" refers to the method or device by which the user provides the story setting, such as the story's theme, setting, and characters, to the system.
「解析する手段」とは、入力されたストーリー設定を分析し、重要なキーワードやフレーズを抽出するための方法や装置のことである。 "Means for analyzing" refers to a method or device for analyzing the input story setting and extracting important keywords and phrases.
「データベースを検索する手段」とは、解析されたストーリー設定に基づいて、既存の物語データベースから関連情報を検索するための方法や装置のことである。 "Means for searching a database" refers to a method or device for searching relevant information from an existing narrative database based on the analyzed story setting.
「生成AIモデル」とは、人工知能技術を用いてテキストや物語を生成するためのモデルのことである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文や質問文のことである。 A "prompt" is an instruction or question that is input into a generative AI model.
「プロンプト文を生成し入力する手段」とは、生成AIモデルに適したプロンプト文を作成し、それをモデルに入力するための方法や装置のことである。 "Means for generating and inputting prompt sentences" refers to a method or device for creating prompt sentences suitable for a generative AI model and inputting them into the model.
「セリフ」とは、登場人物が話す言葉や台詞のことである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の流れや展開を決定するための構造や配置のことである。 "Narrative structure" refers to the structure and arrangement that determines the flow and development of a story.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントのことである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎やサスペンスを加えるための要素のことである。 "Mystery elements" are elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語の各シーンに合わせて生成される画像やイラストのことである。 "Graphics" refers to images and illustrations generated to match each scene in the story.
「曲」とは、物語の各シーンに合わせて生成される音楽やメロディのことである。 "Songs" refer to music and melodies generated to match each scene in the story.
「演出効果」とは、物語の構成や登場人物の会話、映像や音楽を用いて視聴者の心情を揺さぶるための効果のことである。 "Directory effects" refer to effects that use story structure, character dialogue, images, and music to stir the viewer's emotions.
本発明は、物語生成システムに関するものであり、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることを目的とする。 The present invention relates to a story generation system that generates a coherent story based on a story setting entered by the user, and aims to effectively stir the emotions of the viewer.
システムの構成 System Configuration
ユーザの入力 User input
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった具体的な設定を提供する。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they can provide a specific setting such as "a knight's adventure story set in medieval Europe."
サーバの入力解析 Server input analysis
サーバは、ユーザから受け取ったストーリー設定を解析する。この解析には、自然言語処理技術を用いる。具体的には、PythonのNLTKライブラリやSpaCyを使用する。サーバは、入力テキストをトークン化し、重要なキーワードやフレーズを抽出する。 The server analyzes the story setting received from the user. This analysis uses natural language processing techniques, specifically Python's NLTK library and SpaCy. The server tokenizes the input text and extracts important keywords and phrases.
データベースの検索 Search the database
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。このデータベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。 The server searches an existing story database based on the extracted keywords and phrases. This database stores information on past stories and characters. The server finds similar stories and character settings and uses them as reference information.
生成AIモデルのプロンプト生成 Prompt generation for generative AI models
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。 Based on user input and information obtained from the database, the server generates prompts to be input into the generative AI model. For example, it creates a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and descriptions of the scenery."
生成AIモデルによる物語生成 Story generation using generative AI models
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。 The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities.
感情エンジンの適用 Applying the Emotion Engine
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer.
グラフィックと音楽の生成 Graphics and music generation
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music.
最終出力の統合 Merge the final output
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例 Specific examples
ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」という設定を入力した場合、サーバは以下のような物語を生成する: If the user inputs the setting "A knight's adventure story set in medieval Europe," the server will generate a story like this:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
プロンプト文の例 Example prompt
生成AIモデルに入力するプロンプト文の例は以下の通り: An example of a prompt to input to the generative AI model is as follows:
「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」 "Create a knight's adventure story set in medieval Europe. The main character is a brave knight named Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include an opening line, character dialogue, and a description of the scenery."
このプロンプト文を生成AIモデルに入力することで、物語の各要素が自動的に生成される。 By inputting this prompt into a generative AI model, each element of the story is automatically generated.
実施例1における特定処理の流れについて図17を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 17.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力は、システムのユーザインターフェースを通じて行われる。入力されたテキストは、サーバに送信される。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they might enter "A knight's adventure story set in medieval Europe." This input is done through the system's user interface. The entered text is sent to the server.
ステップ2: Step 2:
サーバは、ユーザから受け取ったストーリー設定を解析する。具体的には、PythonのNLTKライブラリやSpaCyを使用してテキストをトークン化し、重要なキーワードやフレーズを抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果は、次のステップで使用される。 The server analyzes the story setting received from the user. Specifically, it uses Python's NLTK library and SpaCy to tokenize the text and extract important keywords and phrases. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis are used in the next step.
ステップ3: Step 3:
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。データベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。例えば、「中世ヨーロッパ」をテーマにした過去の物語や、「騎士」を主人公とした物語を検索する。この検索結果は、次のステップで使用される。 The server searches an existing story database based on the extracted keywords and phrases. The database contains information on past stories and characters. The server finds similar stories and character settings and uses them as reference information. For example, it searches for past stories with a "medieval Europe" theme or stories with a "knight" as the main character. The search results are used in the next step.
ステップ4: Step 4:
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。このプロンプト文は、次のステップで使用される。 Based on user input and information obtained from the database, the server generates a prompt to be input into the generative AI model. For example, it might create a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and a description of the scenery." This prompt will be used in the next step.
ステップ5: Step 5:
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。例えば、生成AIモデルは以下のような物語を生成する: The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities. For example, the generative AI model generates the following story:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
ステップ6: Step 6:
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。感情エンジンは、生成されたテキストを解析し、適切な感情要素を追加する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer. The emotion engine analyzes the generated text and adds appropriate emotional elements.
ステップ7: Step 7:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。例えば、物語の冒頭シーンに合わせて、中世ヨーロッパの風景を描いたグラフィックや、冒険を感じさせる曲を生成する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music. For example, to match the opening scene of the story, it generates graphics depicting the scenery of medieval Europe and music that evokes a sense of adventure.
ステップ8: Step 8:
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力した設定に基づいて物語を生成することはできるが、生成された物語をリアルタイムで視覚化・音声化し、ユーザーが仮想現実空間で体験することはできなかった。また、物語の各シーンにマッチしたグラフィックや音楽を自動で生成し、視聴者の心情を効果的に揺さぶる演出効果を高めることも困難であった。これにより、ユーザーの体験が限定され、物語の没入感が不足していた。 Conventional story generation systems could generate stories based on settings entered by the user, but they were unable to visualize and sound out the generated stories in real time and allow users to experience them in a virtual reality space. It was also difficult to automatically generate graphics and music that matched each scene in the story, enhancing the dramatic effects that effectively stirred the viewer's emotions. This limited the user experience and led to a lack of immersion in the story.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーが入力した物語の設定に基づき、生成AIモデルを用いて物語を生成する手段と、生成された物語をリアルタイムで視覚化・音声化する手段と、ヘッドマウントディスプレイを用いてユーザーが生成された物語を仮想現実空間で体験する手段と、を含む。これにより、ユーザーは生成された物語をリアルタイムで視覚化・音声化し、仮想現実空間で体験することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating a story using a generative AI model based on the story settings input by the user; means for visualizing and audibly converting the generated story in real time; and means for the user to experience the generated story in a virtual reality space using a head-mounted display. This allows the user to visualize and audibly convert the generated story in real time and experience it in a virtual reality space.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters who act in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の基盤を形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the foundation of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するモデルのことであり、物語の構成やセリフを自動で作成するために使用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically create story structures and dialogue.
「伏線」とは、物語の中で後の展開を予感させる要素やヒントのことであり、物語を面白くするための技法である。 "Foreshadowing" refers to elements or hints in a story that give a glimpse of future developments, and is a technique used to make a story more interesting.
「ミステリー要素」とは、物語の中で謎や疑問を提示する要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements in a story that present a mystery or question, and are intended to attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に深い印象を与えるものである。 A "moving scene" is a scene in a story that stirs strong emotions and leaves a deep impression on the viewer's mind.
「グラフィック」とは、視覚的な画像や映像のことであり、物語のシーンや登場人物を視覚的に表現するためのものである。 "Graphics" refers to visual images and footage that visually represent scenes and characters in a story.
「曲」とは、音楽のことであり、物語のシーンや雰囲気を音楽で演出するためのものである。 "Song" refers to music, used to create scenes and atmosphere in a story.
「視覚化」とは、物語の内容を視覚的に表現することであり、ユーザーが物語を目で見て楽しむことができるようにするものである。 "Visualization" refers to the visual representation of the story content, allowing users to enjoy the story visually.
「音声化」とは、物語の内容を音声で表現することであり、ユーザーが物語を耳で聞いて楽しむことができるようにするものである。 "Audio" refers to the expression of the story content in audio, allowing users to enjoy the story by listening to it.
「仮想現実空間」とは、コンピュータ技術を用いて作り出された仮想の空間のことであり、ユーザーがその中で現実のように体験できるものである。 A "virtual reality space" is a virtual space created using computer technology that allows users to experience reality.
「ヘッドマウントディスプレイ」とは、頭部に装着するディスプレイ装置のことであり、ユーザーが仮想現実空間を体験するために使用されるものである。 A "head-mounted display" is a display device worn on the head, used to allow users to experience virtual reality spaces.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、ユーザはスマートフォンやヘッドマウントディスプレイを使用して物語のテーマや舞台、登場人物などのストーリー設定を入力する。これらの入力はテキスト形式で行われる。 A system for implementing this invention has the following configuration: First, a user uses a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters. This input is done in text format.
次に、サーバは生成AIモデル(例:GPT-4)を用いて、ユーザが入力したストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。生成AIモデルは、既存の物語データベースを参照しながら、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景を生成する。 Next, the server uses a generative AI model (e.g., GPT-4) to automatically create character dialogue, scenes, and a story structure based on the story setting entered by the user. The generative AI model references an existing story database to generate dialogue and scenes that match the story flow, character personalities, and story theme.
さらに、サーバは感情エンジンを用いて、作成された物語に伏線やミステリー要素、感動的なシーンなどを追加する。これにより、物語がより面白く、感動的なものとなる。 In addition, the server uses an emotion engine to add hints, mystery elements, and moving scenes to the stories created, making them more interesting and moving.
次に、サーバはグラフィック生成エンジンと音楽生成エンジンを使用して、作成された物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これにより、物語の視覚的および聴覚的な演出効果が高まり、視聴者の心情を効果的に揺さぶることができる。 The server then uses a graphics generation engine and a music generation engine to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story, effectively stirring the emotions of the viewer.
最後に、生成された物語はリアルタイムで視覚化・音声化され、ユーザはヘッドマウントディスプレイを用いて仮想現実空間で物語を体験することができる。これにより、ユーザは物語の中に没入し、より深い体験を得ることができる。 Finally, the generated story is visualized and audible in real time, and the user can experience the story in a virtual reality space using a head-mounted display. This allows the user to become immersed in the story and enjoy a deeper experience.
具体例として、ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」を入力した場合、以下のようなプロンプト文が生成AIモデルに入力される。 As a concrete example, if a user inputs "a knight's adventure story set in medieval Europe," the following prompt sentence will be input to the generative AI model:
プロンプト文の例: Example prompt:
テーマ: 中世ヨーロッパ Theme: Medieval Europe
舞台: 騎士の冒険 Setting: Knight's Adventure
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語の設定: 勇敢な騎士が魔法使いと共にドラゴンを倒す冒険に出る Story setting: A brave knight and a wizard embark on an adventure to slay a dragon.
このプロンプト文を基に、生成AIモデルが物語を生成し、感情エンジンが感情的な要素を追加し、グラフィック生成エンジンと音楽生成エンジンがグラフィックと音楽を生成する。ユーザはヘッドマウントディスプレイを通じて、リアルタイムでこの物語を体験することができる。 Based on this prompt, a generative AI model generates a story, an emotion engine adds emotional elements, and a graphics generation engine and music generation engine generate graphics and music. Users can experience this story in real time through a head-mounted display.
応用例1における特定処理の流れについて図18を用いて説明する。 The flow of the specific processing in Application Example 1 is explained using Figure 18.
ステップ1: Step 1:
ユーザはスマートフォンやヘッドマウントディスプレイを使用して、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。入力されたデータはサーバに送信される。 Users use a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters in text format. The input data is sent to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは受信したストーリー設定データを基に、生成AIモデル(例:GPT-4)を使用して物語の構成、登場人物のセリフ、情景を自動で作成する。生成AIモデルは既存の物語データベースを参照しながら、物語の流れや登場人物の性格に合わせたテキストを生成する。 Based on the received story setting data, the server uses a generative AI model (e.g., GPT-4) to automatically create the story structure, character dialogue, and scenery. The generative AI model references an existing story database to generate text that matches the story flow and character personalities.
入力:ストーリー設定データ Input: Story setting data
出力:生成された物語の構成、セリフ、情景 Output: Generated story structure, dialogue, and scenery
ステップ3: Step 3:
サーバは感情エンジンを用いて、生成された物語に伏線やミステリー要素、感動的なシーンなどの感情的な要素を追加する。感情エンジンは物語の各シーンに適した感情的な要素を自動で挿入する。 The server uses an emotion engine to add emotional elements such as foreshadowing, mystery elements, and moving scenes to the generated story. The emotion engine automatically inserts emotional elements appropriate to each scene in the story.
入力:生成された物語の構成、セリフ、情景 Input: Generated story structure, dialogue, and scenery
出力:感情的な要素が追加された物語 Output: A story with added emotional content
ステップ4: Step 4:
サーバはグラフィック生成エンジンを使用して、物語の各シーンにマッチしたグラフィックを自動で制作する。グラフィック生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切なビジュアルを生成する。 The server uses a graphics generation engine to automatically create graphics that match each scene in the story. The graphics generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate visuals.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチしたグラフィック Output: Graphics that match each scene
ステップ5: Step 5:
サーバは音楽生成エンジンを使用して、物語の各シーンにマッチした曲を自動で制作する。音楽生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切な音楽を生成する。 The server uses a music generation engine to automatically create music that matches each scene in the story. The music generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate music.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチした曲 Output: Songs that match each scene
ステップ6: Step 6:
サーバは生成された物語、グラフィック、音楽を統合し、リアルタイムで視覚化・音声化する。これにより、ユーザは物語を視覚と聴覚で体験することができる。 The server integrates the generated story, graphics, and music, visualizing and audiovisualizing them in real time, allowing users to experience the story visually and aurally.
入力:生成された物語、グラフィック、音楽 Input: Generated story, graphics, music
出力:リアルタイムで視覚化・音声化された物語 Output: Real-time visual and audio narrative
ステップ7: Step 7:
ユーザはヘッドマウントディスプレイを使用して、仮想現実空間で生成された物語を体験する。ユーザは物語の中に没入し、より深い体験を得ることができる。 Using a head-mounted display, users experience a story generated in a virtual reality space, immersing themselves in the story and providing a deeper experience.
入力:リアルタイムで視覚化・音声化された物語 Input: Real-time visual and audio narrative
出力:仮想現実空間での物語体験 Output: Narrative experience in a virtual reality space
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動で生成することが難しい。また、ユーザの感情に応じて物語の展開をリアルタイムで調整する機能が欠如しているため、ユーザの感情に寄り添った物語体験を提供することができない。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することも困難である。これらの課題を解決するための新しいシステムが求められている。 While conventional story generation systems can automatically generate a story based on the story's theme and character settings, they have difficulty automatically generating foreshadowing, mystery elements, and moving scenes that make the story more interesting. Furthermore, they lack the functionality to adjust the story's development in real time based on the user's emotions, making it impossible to provide a narrative experience that is in tune with the user's emotions. Furthermore, it is difficult to automatically create graphics and music that match each scene in the story. A new system that can solve these issues is needed.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語のテーマや登場人物の設定に基づいて物語を自動生成するだけでなく、伏線やミステリー要素、感動的なシーンを自動で生成し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for recognizing the user's emotions in real time and adjusting the story development in accordance with those emotions; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible not only to automatically generate a story based on the story theme and character settings, but also to automatically generate foreshadowing, mystery elements, and moving scenes, and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の全体的な主題や方向性を示すものである。 The "story theme" indicates the overall subject or direction of the story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語の中で行動するキャラクターを指すものである。 "Characters" refers to the characters who take action in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前もって配置される要素を指すものである。 "Foreshadowing" refers to elements that are laid out in advance in a way that will have important meaning later in the story.
「ミステリー要素」とは、物語に謎や不明な点を含めることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that attract the interest of readers or viewers by including mysteries or unknown points in a story.
「感動的なシーン」とは、読者や視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the emotions of the reader or viewer.
「ユーザの感情」とは、物語を体験するユーザが感じる喜び、悲しみ、驚きなどの感情を指すものである。 "User emotions" refers to feelings such as joy, sadness, and surprise felt by users as they experience the story.
「リアルタイムで認識」とは、ユーザの感情をその場で即座に検出することを指すものである。 "Real-time recognition" refers to detecting the user's emotions instantly and on the spot.
「物語の展開を調整」とは、ユーザの感情に応じて物語の進行や内容を変更することを指すものである。 "Adjusting the story development" refers to changing the progress and content of the story based on the user's emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、読者や視聴者の感情や興味を引き立てる効果を指すものである。 "Directory effects" refer to the effects of using the visual and auditory elements of a story to stimulate the emotions and interest of readers or viewers.
この発明は、物語のテーマや登場人物の設定に基づいて物語を自動生成し、さらに伏線やミステリー要素、感動的なシーンを自動で生成するシステムである。加えて、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する機能を持つ。 This invention is a system that automatically generates a story based on the story's theme and character settings, and also automatically generates foreshadowing, mystery elements, and moving scenes. It also has the ability to recognize the user's emotions in real time and adjust the story's development accordingly.
使用するハードウェアおよびソフトウェア Hardware and software used
サーバは、生成AIモデル(例:GPT-4)を使用して物語の要素を生成する。サーバは、ユーザから受け取った物語のテーマや登場人物の性格、物語の進行に関する情報を基に、プロンプト文を生成AIモデルに入力し、物語の要素を生成する。 The server generates story elements using a generative AI model (e.g., GPT-4). Based on information received from the user about the story's theme, the characters' personalities, and the story's progression, the server inputs prompt sentences into the generative AI model to generate story elements.
端末は、ユーザの入力情報をサーバに送信し、サーバから受け取った物語の要素をユーザに表示する。また、端末はユーザの表情や音声から感情データを収集し、サーバに送信するための感情認識ソフトウェアを使用する。 The device sends the user's input information to the server and displays the story elements received from the server to the user. The device also uses emotion recognition software to collect emotional data from the user's facial expressions and voice and send it to the server.
ユーザは、物語のテーマや登場人物の性格、物語の進行に関する情報を端末に入力し、物語を楽しむ。ユーザの感情は端末によってリアルタイムで認識され、物語の展開に反映される。 Users enter information about the story's theme, the characters' personalities, and the story's progression into their device and enjoy the story. The device recognizes the user's emotions in real time and reflects them in the development of the story.
データ加工およびデータ演算 Data processing and calculation
サーバは、以下のようなデータ加工およびデータ演算を行う: The server performs the following data processing and calculations:
物語のテーマや登場人物の性格に基づいて、適切な伏線を生成する。 Generate appropriate foreshadowing based on the story's theme and the characters' personalities.
物語の進行に合わせて、ミステリー要素を散りばめる。 Mystery elements are scattered throughout the story as it progresses.
感動的なシーンを作り出すために、登場人物の感情や状況を分析する。 Analyze the characters' emotions and situations to create moving scenes.
端末は、ユーザの表情や音声から感情データを収集し、サーバに送信する。サーバはこの感情データを解析し、物語の展開を調整する。 The device collects emotional data from the user's facial expressions and voice and sends it to the server. The server analyzes this emotional data and adjusts the story's development.
具体例 Specific examples
例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線を生成する場合、以下のようなプロンプト文を生成AIモデルに入力する: For example, to generate a hint that a person the knight meets during his adventure will play an important role later in the story, the following prompt sentence can be input into the generative AI model:
プロンプト文の例: Example prompt:
「騎士が冒険の途中で出会った謎の老人が、後の物語で重要な役割を果たすような伏線を作成してください。」 "Please create a plot twist that will lead to the mysterious old man the knight meets during his adventure playing an important role later in the story."
また、ユーザが物語に対して喜びを感じている場合、物語をさらに明るい展開にするためのプロンプト文は以下のようになる: Also, if the user is feeling happy about the story, a prompt to make the story even more upbeat might look like this:
プロンプト文の例: Example prompt:
「ユーザが喜びを感じているので、物語をさらに明るい展開にしてください。例えば、騎士が新たな仲間を見つけるシーンを追加してください。」 "Users are enjoying this, so please make the story even more upbeat. For example, add a scene where the knight finds a new companion."
このようにして、サーバは生成AIモデルと感情エンジンを活用し、ユーザの感情に応じた物語の展開を自動で生成する。 In this way, the server utilizes a generative AI model and emotion engine to automatically generate a story development that corresponds to the user's emotions.
実施例2における特定処理の流れについて図19を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 19.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の性格、物語の進行に関する情報を入力する。 The user enters information about the story's theme, the characters' personalities, and the story's progression.
入力:物語のテーマ(例:冒険)、登場人物の性格(例:勇敢)、物語の進行に関する情報 Input: Story theme (e.g., adventure), character traits (e.g., bravery), and information about the story's progression.
出力:ユーザの入力情報 Output: User input information
具体的な動作:ユーザは端末の入力フォームに「冒険」をテーマとして入力し、登場人物の性格を「勇敢」と設定する。 Specific operation: The user enters the theme "adventure" into the device's input form and sets the character's personality to "brave."
ステップ2: Step 2:
端末がユーザの入力情報をサーバに送信する。 The device sends the user's input information to the server.
入力:ユーザの入力情報 Input: User input information
出力:サーバに送信されたユーザの入力情報 Output: User input information sent to the server
具体的な動作:端末が「テーマ: 冒険、性格: 勇敢」という情報をサーバに送信する。 Specific operation: The device sends the information "Theme: Adventure, Personality: Brave" to the server.
ステップ3: Step 3:
サーバが生成AIモデルを使用して物語の要素を生成する。 The server generates story elements using generative AI models.
入力:ユーザの入力情報 Input: User input information
出力:生成された物語の要素 Output: Generated story elements
具体的な動作:サーバが生成AIモデルに「冒険テーマで勇敢な騎士が主人公の物語を生成してください」というプロンプト文を入力し、物語の要素を生成する。 Specific operation: The server inputs the prompt "Generate a story with an adventure theme and a brave knight as the protagonist" into the generation AI model, and generates the elements of the story.
ステップ4: Step 4:
サーバが生成した物語の要素を端末に送信する。 The server sends the generated story elements to the device.
入力:生成された物語の要素 Input: Generated story elements
出力:端末に送信された物語の要素 Output: Story elements sent to the device
具体的な動作:サーバが生成した物語の要素(例:「騎士が冒険の途中で出会う謎の老人」)を端末に送信する。 Specific operation: The server sends story elements generated by the server (e.g., "The mysterious old man the knight meets during his adventure") to the device.
ステップ5: Step 5:
端末が物語をユーザに表示する。 The device displays the story to the user.
入力:サーバから受け取った物語の要素 Input: Story elements received from the server
出力:ユーザに表示された物語 Output: The story displayed to the user
具体的な動作:端末が「騎士が冒険の途中で謎の老人に出会う」というシーンをユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight meets a mysterious old man during his adventure.
ステップ6: Step 6:
ユーザの感情をリアルタイムで認識する。 Recognize user emotions in real time.
入力:ユーザの表情や音声 Input: User's facial expressions and voice
出力:認識されたユーザの感情データ Output: Recognized user emotion data
具体的な動作:ユーザが笑顔を見せると、端末がユーザの表情をカメラでキャプチャし、喜びを感じていると認識する。 Specific operation: When the user smiles, the device captures the user's facial expression with its camera and recognizes that the user is feeling happy.
ステップ7: Step 7:
端末がユーザの感情データをサーバに送信する。 The device sends the user's emotional data to the server.
入力:認識されたユーザの感情データ Input: Recognized user emotion data
出力:サーバに送信された感情データ Output: Emotion data sent to the server
具体的な動作:端末が「ユーザは喜びを感じている」という感情データをサーバに送信する。 Specific operation: The device sends emotional data indicating "the user is feeling happy" to the server.
ステップ8: Step 8:
サーバが感情データを解析し、物語の展開を調整する。 The server analyzes the emotional data and adjusts the story development.
入力:ユーザの感情データ Input: User emotion data
出力:調整された物語の展開 Output: Coordinated story development
具体的な動作:サーバが感情データを解析し、「物語をさらに明るい展開にする」ためのプロンプト文を生成AIモデルに入力する。 Specific operation: The server analyzes the emotional data and inputs prompt sentences into the generative AI model to "make the story more upbeat."
ステップ9: Step 9:
サーバが調整後の物語を端末に送信する。 The server will send the adjusted story to your device.
入力:調整された物語の展開 Input: Adjusted story development
出力:端末に送信された調整後の物語 Output: The adjusted story sent to the terminal.
具体的な動作:サーバが生成した明るい展開の物語(例:「騎士が新たな仲間を見つけるシーン」)を端末に送信する。 Specific operation: The server generates a story with an upbeat plot (e.g., "A scene where the knight finds a new companion") and sends it to the device.
ステップ10: Step 10:
端末が調整後の物語をユーザに表示する。 The device will then display the adjusted story to the user.
入力:サーバから受け取った調整後の物語 Input: Adjusted story received from the server
出力:ユーザに表示された調整後の物語 Output: The adjusted story displayed to the user.
具体的な動作:端末が「騎士が新たな仲間を見つけるシーン」をユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight finds a new companion.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、ユーザの感情に応じて物語の展開をリアルタイムで調整することができなかった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する機能も不十分であった。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが困難であった。 While conventional story generation systems could automatically generate a story based on the story's theme and character settings, they were unable to adjust the story's development in real time in response to the user's emotions. They also lacked the functionality to automatically generate plot twists, mystery elements, and moving scenes to make a story more interesting. This made it difficult to provide an interactive story experience that responded to the user's emotions.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する手段と、を含む。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions in real time and adjusting the story development in response to those emotions; and means for generating story prompts using a generative AI model and automatically generating a story. This makes it possible to provide an interactive story experience that responds to the user's emotions.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指すものである。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや役割を持つ人物を指すものである。 "Characters" refers to the characters or people who play a role in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントを指すものである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語において謎や疑問を引き起こす要素を指すものである。 "Mystery elements" refer to elements in a story that raise questions or raise doubts.
「感動的なシーン」とは、視聴者や読者に強い感情を引き起こす場面を指すものである。 A "moving scene" is one that evokes strong emotions in the viewer or reader.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やサウンドトラックを指すものである。 "Song" refers to the music or soundtrack that plays along with the story scenes.
「演出効果」とは、物語のシーンをより効果的に見せるための視覚的、聴覚的な手法を指すものである。 "Stage effects" refer to visual and auditory techniques used to make story scenes appear more effective.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指すものである。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
「感情をリアルタイムで認識する」とは、ユーザの表情や声のトーンなどを分析して、その瞬間の感情を把握することを指すものである。 "Recognizing emotions in real time" refers to analyzing the user's facial expressions, tone of voice, etc. to grasp their emotions at that moment.
「物語の展開を調整する」とは、物語の進行や内容をユーザの感情に応じて変更することを指すものである。 "Adjusting the development of the story" refers to changing the progress and content of the story in response to the user's emotions.
「生成AIモデル」とは、人工知能を用いてテキストや物語を生成するためのモデルを指すものである。 "Generative AI model" refers to a model that uses artificial intelligence to generate text or stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文やキーワードを指すものである。 A "prompt" refers to an instruction or keyword that is input into a generative AI model.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、サーバは物語のテーマや舞台、登場人物などのストーリー設定を入力する手段を提供する。ユーザはこれらの設定を入力することで、物語の基本的な要素を決定する。 A system for implementing this invention has the following configuration: First, the server provides a means for inputting story settings such as the story's theme, setting, and characters. By inputting these settings, the user determines the basic elements of the story.
次に、サーバは入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段を持つ。この手段は、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 Next, the server has a means to automatically create character dialogue, scenery, and story structure based on the input story setting. This means uses a generative AI model to generate story prompts and automatically generate the story.
さらに、サーバは作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段を持つ。これにより、物語の深みや興味を引き出すことができる。 Furthermore, the server has the means to automatically generate hints, mystery elements, moving scenes, and more to make the stories you create more interesting. This helps to add depth and interest to the story.
また、サーバは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段を持つ。これにより、物語の視覚的および聴覚的な演出効果を高めることができる。具体的には、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する。 The server also has the means to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story. Specifically, the graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
さらに、サーバは物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を持つ。これにより、ユーザはより感情的に物語に引き込まれる。 Furthermore, the server has the means to enhance the dramatic effect through the story structure, character dialogue, visuals, and music, effectively stirring the viewer's emotions. This allows users to be more emotionally drawn into the story.
特に重要なのは、サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段を持つことである。スマートフォンのカメラやマイクを使用してユーザの表情や声のトーンを分析し、ユーザの感情を把握する。この感情データに基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 What's particularly important is that the server has a means of recognizing the user's emotions in real time and adjusting the story development accordingly. It uses the smartphone's camera and microphone to analyze the user's facial expressions and tone of voice to understand their emotions. Based on this emotional data, it generates prompt sentences for the story and adjusts the story development accordingly.
具体例として、ユーザが物語を読み進めているときに、カメラがユーザの表情をキャプチャし、ユーザが笑顔であることを認識した場合、物語の展開が明るく楽しいものになる。逆に、ユーザが悲しんでいる場合、物語はより深みのある展開になる。 For example, if a user is reading a story and the camera captures their facial expressions and recognizes that they are smiling, the story will develop in a lighthearted and cheerful way. Conversely, if the user is sad, the story will develop in a more profound way.
プロンプト文の例としては、以下のようなものがある。 Examples of prompt statements include:
「主人公は幸せな気持ちで冒険を続けている。」 "The protagonist continues his adventure with a happy feeling."
「主人公は困難に直面しているが、希望を失わない。」 "The protagonist faces difficulties, but does not lose hope."
「主人公は新たな謎に挑む。」 "The protagonist takes on a new mystery."
このようにして、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能である。 In this way, it is possible to provide an interactive narrative experience that responds to the user's emotions.
応用例2における特定処理の流れについて図20を用いて説明する。 The flow of the specific processing in Application Example 2 is explained using Figure 20.
ステップ1: Step 1:
ユーザが物語のテーマや舞台、登場人物などのストーリー設定を入力する。 The user enters story settings such as theme, setting, and characters.
入力:ユーザが入力する物語のテーマ、舞台、登場人物などの設定情報。 Input: Setting information such as the story's theme, setting, and characters entered by the user.
出力:ストーリー設定データ。 Output: Story setting data.
具体的な動作:ユーザはスマートフォンのアプリケーションを使用して、物語の基本設定を入力する。これには、物語の主題、場所、主要なキャラクターの情報が含まれる。サーバはこれらの設定情報を受け取り、ストーリー設定データとして保存する。 Specific operation: The user uses a smartphone application to input the basic setting of the story, including information about the story's theme, location, and main characters. The server receives this setting information and stores it as story setting data.
ステップ2: Step 2:
サーバが入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 The server automatically creates character dialogue, scenes, and story structure based on the story settings entered.
入力:ストーリー設定データ。 Input: Story setting data.
出力:物語のセリフ、情景、構成データ。 Output: Story dialogue, scenery, and composition data.
具体的な動作:サーバは生成AIモデルを使用して、ストーリー設定データに基づいて登場人物のセリフや情景、物語の構成を生成する。生成されたデータは、物語の進行に必要な要素として保存される。 Specific operation: The server uses the generative AI model to generate character dialogue, scenery, and story structure based on story setting data. The generated data is saved as elements necessary for the story's progression.
ステップ3: Step 3:
サーバが作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 The server automatically generates hints, mystery elements, moving scenes, and more to make the stories it creates more interesting.
入力:物語のセリフ、情景、構成データ。 Input: Story lines, scenery, and composition data.
出力:伏線、ミステリー要素、感動的なシーンデータ。 Output: Foreshadowing, mystery elements, and moving scene data.
具体的な動作:サーバは生成AIモデルを使用して、物語のセリフや情景、構成データに基づいて伏線やミステリー要素、感動的なシーンを生成する。これにより、物語の深みや興味を引き出す要素が追加される。 Specifically, how it works: The server uses a generative AI model to generate plot twists, mystery elements, and moving scenes based on the dialogue, scenery, and composition data of the story. This adds depth and intrigue to the story.
ステップ4: Step 4:
サーバが作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力:伏線、ミステリー要素、感動的なシーンデータ。 Input: Foreshadowing, mystery elements, and moving scene data.
出力:グラフィックデータ、音楽データ。 Output: Graphics data, music data.
具体的な動作:サーバはシーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲を自動で制作する。これには、画像生成モデルや音楽生成モデルが使用される。生成されたグラフィックや音楽は、物語の各シーンに適用される。 Specific operation: The server automatically creates graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters. This is done using image generation models and music generation models. The generated graphics and music are then applied to each scene in the story.
ステップ5: Step 5:
サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する。 The server recognizes the user's emotions in real time and adjusts the story development accordingly.
入力:ユーザの表情データ、声のトーンデータ。 Input: User's facial expression data, tone of voice data.
出力:調整された物語のプロンプト文。 Output: Tailored narrative prompt.
具体的な動作:スマートフォンのカメラやマイクを使用して、ユーザの表情や声のトーンをキャプチャする。サーバはこれらのデータを分析し、ユーザの感情をリアルタイムで認識する。認識された感情に基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 Specific operation: The smartphone's camera and microphone are used to capture the user's facial expressions and tone of voice. The server analyzes this data and recognizes the user's emotions in real time. Based on the recognized emotions, it generates story prompts and adjusts the story's development.
ステップ6: Step 6:
サーバが生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 The server uses a generative AI model to generate story prompts and automatically generate the story.
入力:調整された物語のプロンプト文。 Input: Tailored story prompt.
出力:生成された物語。 Output: The generated story.
具体的な動作:サーバは生成AIモデルを使用して、調整されたプロンプト文に基づいて物語を生成する。生成された物語は、ユーザの感情に応じたインタラクティブな体験を提供するために使用される。 Specific operation: The server uses a generative AI model to generate a story based on the adjusted prompt. The generated story is used to provide an interactive experience that responds to the user's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視聴者の心情を効果的に揺さぶることができなかった。また、ユーザの感情をリアルタイムで認識し、それに応じて物語の展開を調整する機能が欠如していたため、ユーザに対して一貫した感情体験を提供することが困難であった。これにより、物語体験の質が低下し、ユーザの満足度が低くなるという課題があった。 With conventional story generation systems, it was difficult to automatically create graphics and music that matched each scene in the story, making it difficult to effectively sway the viewer's emotions. Furthermore, they lacked the ability to recognize the user's emotions in real time and adjust the story's development accordingly, making it difficult to provide the user with a consistent emotional experience. This resulted in a decline in the quality of the story experience and low user satisfaction.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する手段と、ユーザの感情に応じて物語の展開を調整する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for using information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions; means for adjusting the story development in accordance with the user's emotions; and means for enhancing the dramatic effects of the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材を指す。 "Story theme" refers to the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指す。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要となる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that provide advance hints at information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される画像やイラストを指す。 "Graphics" refers to images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指す。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「顔表情」とは、ユーザの顔の表情筋の動きによって表現される感情を指す。 "Facial expression" refers to emotions expressed through the movement of the user's facial muscles.
「声のトーン」とは、ユーザの声の高さや強さ、抑揚などを指す。 "Tone of voice" refers to the pitch, strength, and intonation of the user's voice.
「テキスト入力」とは、ユーザがキーボードやタッチパネルを用いて入力する文字情報を指す。 "Text input" refers to text information entered by a user using a keyboard or touch panel.
「物語の展開」とは、物語が進行する過程や流れを指す。 "Story development" refers to the process and flow of the story.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて視聴者に与える影響を指す。 "Directory effects" refer to the impact that the visual and auditory elements of a story have on the viewer.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指す。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
この発明は、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて物語を自動で生成し、さらにユーザの感情に応じて物語の展開を調整するシステムである。このシステムは、以下のようなハードウェアおよびソフトウェアを用いて実施される。 This invention is a system that inputs story settings such as the story's theme, setting, and characters, automatically generates a story based on the input story settings, and further adjusts the story's development according to the user's emotions. This system is implemented using the following hardware and software.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: 高性能なサーバ(例: GPU搭載のサーバ)およびユーザの端末(例: カメラとマイクを搭載したPCやスマートフォン) Hardware: High-performance servers (e.g., servers with GPUs) and user devices (e.g., PCs or smartphones with cameras and microphones)
ソフトウェア: 生成AIモデル(例: GPT-4、画像生成AI、音楽生成AI)、感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ) Software: Generative AI models (e.g., GPT-4, image generation AI, music generation AI), emotion recognition software (e.g., OpenCV, voice analysis libraries)
プログラムの処理の説明 Program processing explanation
1. 物語の入力と解析 1. Story input and analysis
ユーザは端末を使用して、物語のテーマや舞台、登場人物などのストーリー設定を入力する。例えば、「勇者がドラゴンと戦うシーン」と入力する。サーバはこの入力を受信し、生成AIモデル(例: GPT-4)を用いて物語の各シーンを解析し、シーンの雰囲気や登場人物の感情状態を抽出する。 The user uses their device to input story settings such as the story's theme, setting, and characters. For example, they might input "a scene where a hero fights a dragon." The server receives this input and uses a generative AI model (e.g., GPT-4) to analyze each scene in the story and extract the scene's atmosphere and the characters' emotional states.
2. グラフィックと音楽の生成 2. Graphics and Music Generation
サーバは解析結果を基に、画像生成AIを用いてシーンにマッチしたグラフィックを生成する。例えば、ドラゴンと勇者が戦っている迫力あるグラフィックを生成する。同様に、音楽生成AIを用いてシーンに適した音楽を生成する。例えば、戦闘シーンに合う緊張感を高める音楽を生成する。 Based on the analysis results, the server uses image generation AI to generate graphics that match the scene. For example, it could generate an impressive graphic of a hero fighting a dragon. Similarly, it uses music generation AI to generate music that suits the scene. For example, it could generate music that heightens the tension in a battle scene.
3. ユーザの感情認識 3. User Emotion Recognition
端末はカメラとマイクを使用して、ユーザの顔表情や声のトーンを取得する。例えば、ユーザが笑顔を見せている場合、端末はその情報をサーバに送信する。サーバは感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)を用いて、ユーザの感情を解析する。 The device uses a camera and microphone to capture the user's facial expressions and tone of voice. For example, if the user is smiling, the device sends that information to the server. The server then uses emotion recognition software (e.g., OpenCV, voice analysis library) to analyze the user's emotions.
4. 物語の展開調整 4. Story Development Adjustments
サーバはユーザの感情情報を基に、感情エンジンを使用して物語の展開を調整する。例えば、ユーザが笑顔を見せている場合、物語の展開をさらにエキサイティングな方向に調整する。 The server uses an emotion engine to adjust the story development based on the user's emotional information. For example, if the user is smiling, the story development will be adjusted to a more exciting direction.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例: Example:
ユーザが「勇者がドラゴンと戦うシーン」を入力する。 The user enters "a scene in which a hero fights a dragon."
サーバは戦闘シーンとして解析し、画像生成AIを用いてドラゴンと勇者の迫力あるグラフィックを生成する。 The server analyzes the scene as a battle scene and uses image generation AI to generate powerful graphics of the dragon and hero.
音楽生成AIを用いて緊張感を高める音楽を生成する。 Music generation AI is used to generate music that heightens the tension.
ユーザが笑顔を見せている場合、感情エンジンはユーザが楽しんでいると認識し、物語の展開をさらにエキサイティングな方向に調整する。 If the user is smiling, the emotion engine recognizes that the user is having fun and adjusts the story development in a more exciting direction.
プロンプト文の例: Example prompt:
「勇者がドラゴンと戦うシーンのグラフィックを生成してください。」 "Generate graphics for a scene in which a hero fights a dragon."
「感動的なシーンに合う音楽を生成してください。」 "Generate music that matches an emotional scene."
「ユーザが笑顔を見せている場合、物語の展開を楽しい方向に調整してください。」 "If the user is smiling, adjust the story development to make it more enjoyable."
このシステムにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。これにより、視聴者の心情を効果的に揺さぶることができ、物語体験の質を向上させることができる。実施例3における特定処理の流れについて図21を用いて説明する。 This system makes it possible to automatically create graphics and music that match each scene in a story, and to provide a story development that responds to the user's emotions. This effectively stirs the viewer's emotions and improves the quality of the story experience. The flow of the specific processing in Example 3 is explained using Figure 21.
ステップ1: Step 1:
ユーザが物語のテキストを入力する。 The user enters the text of the story.
ユーザは端末のテキスト入力フィールドに「勇者がドラゴンと戦うシーン」と入力し、送信ボタンをクリックする。入力されたテキストは端末からサーバに送信される。 The user enters "A scene in which a hero fights a dragon" into the text input field on the device and clicks the send button. The entered text is sent from the device to the server.
ステップ2: Step 2:
サーバが物語のテキストを解析する。 The server analyzes the story text.
サーバは受信したテキストを生成AIモデル(例: GPT-4)に入力し、物語の各シーンを解析する。解析の結果、シーンの雰囲気や登場人物の感情状態を抽出する。例えば、「戦闘シーン」と「緊張感」を抽出する。解析結果は内部データベースに保存される。 The server inputs the received text into a generative AI model (e.g., GPT-4) and analyzes each scene in the story. As a result of the analysis, the atmosphere of the scene and the emotional state of the characters are extracted. For example, "battle scene" and "tension" are extracted. The analysis results are stored in an internal database.
ステップ3: Step 3:
サーバがシーンにマッチしたグラフィックを生成する。 The server generates graphics that match the scene.
サーバは解析結果を基に、画像生成AI(例: DALL-E)を使用してシーンにマッチしたグラフィックを生成する。例えば、「ドラゴンと勇者が戦っているシーン」をプロンプトとして入力し、生成されたグラフィックを取得する。生成されたグラフィックはユーザの端末に送信される。 Based on the analysis results, the server uses image generation AI (e.g., DALL-E) to generate graphics that match the scene. For example, enter "a scene of a hero fighting a dragon" as a prompt and obtain the generated graphic. The generated graphic is then sent to the user's device.
ステップ4: Step 4:
サーバがシーンにマッチした音楽を生成する。 The server generates music that matches the scene.
サーバは音楽生成AIを用いて、シーンに適した音楽を生成する。例えば、「戦闘シーンに合う緊張感を高める音楽」をプロンプトとして入力し、生成された音楽を取得する。生成された音楽はユーザの端末に送信される。 The server uses music generation AI to generate music appropriate for the scene. For example, a user can enter "music that will increase tension in a battle scene" as a prompt and obtain the generated music. The generated music is then sent to the user's device.
ステップ5: Step 5:
端末がユーザの感情を認識する。 The device recognizes the user's emotions.
端末はカメラでユーザの顔表情をキャプチャし、マイクで声のトーンを録音する。これらのデータはリアルタイムでサーバに送信される。例えば、ユーザが笑顔を見せている場合、その情報がサーバに送信される。 The device uses a camera to capture the user's facial expressions and a microphone to record the tone of voice. This data is sent to the server in real time. For example, if the user is smiling, that information is sent to the server.
ステップ6: Step 6:
サーバがユーザの感情に応じて物語の展開を調整する。 The server adjusts the story development based on the user's emotions.
サーバは受信した感情データを感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)で解析し、ユーザの感情を認識する。例えば、ユーザが笑顔を見せていると認識した場合、感情エンジンを使用して物語の展開をエキサイティングな方向に調整する。新しいシーンが生成され、ユーザの端末に送信される。 The server analyzes the received emotional data using emotion recognition software (e.g., OpenCV, voice analysis library) to recognize the user's emotions. For example, if it recognizes that the user is smiling, it uses the emotion engine to adjust the story development in an exciting direction. A new scene is generated and sent to the user's device.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the smart glasses 214 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザの感情に応じた物語の調整が行われず、ユーザ体験が一律であるという問題があった。また、物語のシーンや音楽が固定されているため、ユーザの感情に応じたダイナミックな変化が提供できないという課題があった。これにより、ユーザの感情に深く訴えかける物語体験を提供することが困難であった。 Conventional story generation systems have the problem of not adjusting the story based on the user's emotions, resulting in a uniform user experience. Furthermore, because the story scenes and music are fixed, they are unable to provide dynamic changes that respond to the user's emotions. This makes it difficult to provide a story experience that deeply appeals to the user's emotions.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情を認識し、認識された感情に応じて物語のシーンや音楽を調整する手段と、ユーザの顔表情、声のトーン、テキスト入力などを利用して感情を認識する手段と、を含む。これにより、ユーザの感情に応じたダイナミックな物語体験が可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions and adjusting story scenes and music in accordance with the recognized emotions; and means for recognizing emotions using the user's facial expressions, tone of voice, text input, etc. This enables a dynamic story experience that matches the user's emotions.
「物語のテーマ」とは、物語の中心となるアイデアやメッセージを指すものである。 A "story theme" refers to the central idea or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指すものである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指すものである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指すものである。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つようになる前半の要素を指すものである。 "Foreshadowing" refers to an element in the first half of a story that becomes important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指すものである。 "Mystery elements" refer to elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンを視覚的に表現する画像や映像を指すものである。 "Graphics" refers to images and footage that visually represent scenes from a story.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語のシーンや音楽を通じて視聴者の感情に影響を与える効果を指すものである。 "Directional effects" refer to effects that influence the viewer's emotions through story scenes and music.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指すものである。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「感情を認識する手段」とは、ユーザの顔表情、声のトーン、テキスト入力などを利用してユーザの感情を判断する技術を指すものである。 "Means for recognizing emotions" refers to technology that determines a user's emotions using their facial expressions, tone of voice, text input, etc.
「物語のシーンや音楽を調整する手段」とは、認識されたユーザの感情に応じて物語のシーンや音楽を変更する技術を指すものである。 "Means for adjusting story scenes and music" refers to technology that changes story scenes and music according to the recognized user emotions.
この発明を実施するためのシステムは、ユーザの感情に応じて物語のシーンや音楽を動的に調整することができる。以下に、このシステムの具体的な実施形態を説明する。 A system for implementing this invention can dynamically adjust story scenes and music according to the user's emotions. A specific embodiment of this system is described below.
システム構成 System Configuration
このシステムは、以下の主要なハードウェアおよびソフトウェアコンポーネントを含む: The system includes the following major hardware and software components:
ハードウェア: スマートフォンのカメラ Hardware: Smartphone camera
ソフトウェア: OpenCV(顔検出)、Keras(感情認識モデル)、音楽再生ソフトウェア Software: OpenCV (face detection), Keras (emotion recognition model), music playback software
プログラムの処理 Program processing
サーバは、まずスマートフォンのカメラを使用してユーザの顔表情をキャプチャする。キャプチャされた映像は、OpenCVを用いて顔検出が行われる。次に、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。 The server first captures the user's facial expression using the smartphone camera. The captured video undergoes face detection using OpenCV. Next, it uses the Keras emotion recognition model to recognize the user's emotion from the detected face.
認識された感情に基づいて、サーバは物語のシーンや音楽を調整する。例えば、ユーザが笑顔を見せている場合、物語のシーンは明るく楽しいものに変更され、音楽も軽快なものに変わる。逆に、ユーザが悲しい表情をしている場合、物語は感動的なシーンに移行し、音楽も心に響くものに変わる。 Based on the recognized emotion, the server adjusts the story scenes and music. For example, if the user is smiling, the story scenes will change to brighter, more cheerful ones, and the music will also become more upbeat. Conversely, if the user has a sad expression, the story will transition to a more moving scene, and the music will also change to something more moving.
具体例 Specific examples
具体例として、ユーザが物語を楽しんでいる最中に笑顔を見せた場合を考える。この場合、サーバは以下のように処理を行う: As a concrete example, consider the case where a user smiles while enjoying a story. In this case, the server would process the following:
1. スマートフォンのカメラでユーザの顔表情をキャプチャ。 1. Capture the user's facial expressions using the smartphone camera.
2. OpenCVを使用して顔を検出。 2. Detect faces using OpenCV.
3. Kerasの感情認識モデルでユーザの感情を「喜び」と認識。 3. The user's emotion is recognized as "happiness" using the Keras emotion recognition model.
4. 認識された感情に基づいて、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生。 4. Based on the recognized emotion, the story scene is changed to a brighter, more cheerful one and upbeat music is played.
プロンプト文の例 Example prompt
生成AIモデルへ入力するプロンプト文の例は以下の通りである: An example of a prompt to input to the generative AI model is as follows:
ユーザが笑顔を見せた場合、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生してください。 If the user smiles, change the story scene to something bright and cheerful and play upbeat music.
このようにして、ユーザの感情に応じたダイナミックな物語体験を提供することが可能である。このシステムにより、ユーザはより深く物語に没入し、感情に訴えかける体験を得ることができる。 In this way, it is possible to provide a dynamic narrative experience that responds to the user's emotions. This system allows users to become more immersed in the story and have an experience that appeals to their emotions.
応用例3における特定処理の流れについて図22を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 22.
ステップ1: Step 1:
サーバは、スマートフォンのカメラを使用してユーザの顔表情をキャプチャする。入力はカメラ映像であり、出力はキャプチャされた画像データである。具体的な動作として、カメラがリアルタイムで映像を取得し、その映像をフレームごとにキャプチャする。 The server uses the smartphone's camera to capture the user's facial expressions. The input is the camera image, and the output is the captured image data. Specifically, the camera acquires the image in real time and captures the image frame by frame.
ステップ2: Step 2:
サーバは、OpenCVを使用してキャプチャされた画像データから顔を検出する。入力はキャプチャされた画像データであり、出力は検出された顔の位置情報である。具体的な動作として、OpenCVの顔検出アルゴリズムが画像内の顔を識別し、その座標を取得する。 The server uses OpenCV to detect faces from the captured image data. The input is the captured image data, and the output is the location information of the detected face. Specifically, OpenCV's face detection algorithm identifies the face in the image and obtains its coordinates.
ステップ3: Step 3:
サーバは、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。入力は顔の位置情報と画像データであり、出力は認識された感情ラベルである。具体的な動作として、顔の領域を切り出し、前処理を行った後、感情認識モデルに入力して感情を分類する。 The server uses a Keras emotion recognition model to recognize the user's emotion from the detected face. The input is face position information and image data, and the output is the recognized emotion label. Specifically, the face area is extracted, preprocessed, and then input into the emotion recognition model to classify the emotion.
ステップ4: Step 4:
サーバは、認識された感情に基づいて物語のシーンや音楽を調整する。入力は認識された感情ラベルであり、出力は調整されたシーンと音楽である。具体的な動作として、感情ラベルに対応するシーンと音楽を選択し、物語の進行を変更する。 The server adjusts the story scenes and music based on the recognized emotions. The input is the recognized emotion label, and the output is the adjusted scenes and music. Specific operations include selecting scenes and music that correspond to the emotion label and changing the progression of the story.
ステップ5: Step 5:
サーバは、調整されたシーンと音楽をユーザの端末に送信する。入力は調整されたシーンと音楽であり、出力はユーザの端末に表示される物語のシーンと再生される音楽である。具体的な動作として、シーンと音楽のデータをエンコードし、ネットワークを通じてユーザの端末に送信する。 The server sends the adjusted scene and music to the user's device. The input is the adjusted scene and music, and the output is the story scene displayed on the user's device and the music played. Specifically, the server encodes the scene and music data and sends it to the user's device over the network.
ステップ6: Step 6:
ユーザの端末は、受信したシーンと音楽を再生し、ユーザに提供する。入力はサーバから受信したシーンと音楽データであり、出力はユーザに表示される映像と再生される音楽である。具体的な動作として、端末がデータをデコードし、画面に表示し、スピーカーから音楽を再生する。 The user's device plays the received scenes and music and provides them to the user. The input is the scene and music data received from the server, and the output is the video displayed to the user and the music played. Specifically, the device decodes the data, displays it on the screen, and plays the music from the speakers.
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the smart glasses 214. In the smart glasses 214, the control unit 46A causes the speaker 240 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). An example of data generation model 58 is generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating voice, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。 Another example of generative AI is Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>).
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the smart glasses 214.
[第3実施形態] [Third embodiment]
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。 Figure 5 shows an example of the configuration of a data processing system 310 according to the third embodiment.
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 5, the data processing system 310 includes a data processing device 12 and a headset terminal 314. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。 The headset terminal 314 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a display 343. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, the speaker 240, the camera 42, and the display 343 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 6 shows an example of the main functions of the data processing device 12 and headset terminal 314. As shown in Figure 6, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the headset terminal 314, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12.
「形態例1」 "Example 1"
本発明のシステムは、ユーザーから物語のテーマや舞台、登場人物などのストーリー設定を入力として受け取る。この入力はテキスト形式で行われ、例えば「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。次に、この入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われ、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 The system of the present invention receives input from the user about the story setting, such as the story's theme, setting, and characters. This input is in text format, such as "A knight's adventure story set in medieval Europe." Next, based on this input, the system automatically creates character dialogue, scenes, and a story structure. This creation is carried out using existing story databases and artificial intelligence technology, generating dialogue and scenes that match the story flow, character personalities, and story theme.
「形態例2」 "Example 2"
さらに、システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。これは、物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 In addition, the system automatically generates hints, mystery elements, and moving scenes to make the story more interesting. This is done by laying hints at the right time, sprinkling mystery elements, and creating moving scenes in line with the story's theme, the characters' personalities, and the story's progression. For example, it automatically generates hints that people the knight meets during his adventure will play an important role later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties.
「形態例3」 "Example 3"
そして、システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これは、シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 The system then automatically creates graphics and music that match each scene in the story you've created. The graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters. For example, powerful graphics and music that heighten tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This makes it possible to enhance the dramatic effect of the story's structure, the characters' conversations, images, and music, effectively stirring the viewer's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザーから物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力として受け取る。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。 Step 1: The user provides textual input of the story setting, including the story's theme, setting, and characters. For example, it could be provided as "a knight's adventure story set in medieval Europe."
ステップ2:入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われる。 Step 2: Based on the input, the system automatically creates character dialogue, scenery, and story structure. This is done using existing story databases and artificial intelligence technology.
ステップ3:物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 Step 3: Lines and scenes are generated that match the story flow, character personalities, and theme of the story.
「形態例2」 "Example 2"
ステップ1:システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 1: The system automatically generates plot twists, mystery elements, moving scenes, and more to make the story more interesting.
ステップ2:物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。 Step 2: Lay out hints at the right time, sprinkle in mystery elements, and create moving scenes in line with the story's theme, the characters' personalities, and the story's progression.
ステップ3:例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 Step 3: For example, foreshadowing, such as people the knight meets during his adventure playing important roles later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties, are automatically generated.
「形態例3」 "Example 3"
ステップ1:システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 Step 1: The system automatically creates graphics and music that match each scene in the story you've created.
ステップ2:シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。 Step 2: Graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ3:例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 Step 3: For example, powerful graphics and music that heightens the tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This enhances the dramatic effect of the story structure, character dialogue, images and music, making it possible to effectively stir the viewer's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性を保つことが難しい。また、生成された物語が視聴者にとって感動的で面白いものになるようにするための工夫が不足している。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することができず、視聴者の心情を効果的に揺さぶることができないという課題がある When conventional story generation systems automatically generate a story based on a user-entered story setting, they struggle to maintain consistency in the story flow, character dialogue, and scenery. They also lack the ingenuity to ensure the generated story is moving and entertaining for the viewer. Furthermore, they are unable to automatically create graphics and music that match each scene in the story, which means they are unable to effectively move the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーからの入力を受信し、自然言語処理技術を用いて解析する手段と、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、生成AIモデルを用いて物語のセリフや情景、構成を自動で生成する手段と、生成された物語を整形し、ユーザーに提供する手段を含む。これにより、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, and images and music to effectively stir the viewer's emotions; means for receiving input from the user and analyzing it using natural language processing technology; means for generating prompt sentences to be input into the generative AI model based on the analysis results; means for automatically generating story dialogue, scenery, and structure using the generative AI model; and means for formatting the generated story and providing it to the user. This makes it possible to automatically generate a consistent story based on user input and provide the viewer with a moving and entertaining story.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定する要素である。 A "story theme" is the central subject or theme of a story, and is the element that determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する重要な要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an important element in shaping the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動し、物語を進行させるキャラクターのことであり、物語の展開やテーマに大きな影響を与える要素である。 "Characters" are characters who act within a story and move the story forward, and are elements that have a major influence on the story's development and theme.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成する要素である。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and is the element that forms the framework of the story.
「セリフ」とは、登場人物が話す言葉や台詞のことであり、物語の進行やキャラクターの性格を表現する重要な要素である。 "Dialogue" refers to the words or lines spoken by characters, and is an important element in expressing the progression of the story and the characters' personalities.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現する要素である。 "Scenes" refer to the scenery and scenes depicted in a story, and are elements that visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことであり、物語の展開を効果的にするための要素である。 "Story structure" refers to the overall flow and structure of a story, including the beginning, middle, and end, and is an element that makes the story unfold effectively.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語の一貫性や深みを増すための要素である。 "Foreshadowing" is a hint or sign that relates to later developments in a story, and is an element that adds consistency and depth to a story.
「ミステリー要素」とは、物語の中で謎や疑問を提示し、読者や視聴者の興味を引くための要素である。 "Mystery elements" are elements that present mysteries or questions within a story and attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に残る印象的な要素である。 A "moving scene" is a scene in a story that strongly stirs emotions and is an impressive element that stays in the viewer's mind.
「グラフィック」とは、物語の各シーンに合わせて視覚的に表現される画像やイラストのことであり、物語の雰囲気や感情を視覚的に補完する要素である。 "Graphics" refers to images and illustrations that visually represent each scene in the story, and are elements that visually complement the atmosphere and emotion of the story.
「曲」とは、物語の各シーンに合わせて音楽的に表現されるメロディやサウンドのことであり、物語の雰囲気や感情を音楽的に補完する要素である。 "Songs" are melodies and sounds that are musically expressed to match each scene in a story, and are elements that musically complement the atmosphere and emotions of the story.
「自然言語処理技術」とは、コンピュータが人間の言語を理解し、解析するための技術のことであり、テキストデータの解析や情報抽出に用いられる。 "Natural language processing technology" is a technology that enables computers to understand and analyze human language, and is used to analyze text data and extract information.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するためのモデルのことであり、物語のセリフや情景、構成を自動で生成するために使用される。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically generate dialogue, scenes, and structure for a story.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、モデルが生成する内容を誘導するための要素である。 A "prompt" is an instruction to be input into a generative AI model, and is an element that guides the content generated by the model.
「整形」とは、生成された物語のテキストを読みやすくするために段落分けや改行を追加する作業のことであり、ユーザーに提供する前に行われる。 "Formatting" refers to the process of adding paragraph breaks and line breaks to make the generated narrative text easier to read before it is presented to the user.
この発明は、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するシステムである。以下に、このシステムの具体的な実施形態を説明する。 This invention is a system that automatically generates a story based on story settings such as the story's theme, setting, and characters, which are input by the user. Specific embodiments of this system are described below.
ユーザーからの入力 User input
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。 The user uses a terminal to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe."
サーバによる入力データの受信と解析 Receive and analyze input data by the server
サーバは、ユーザーから送信されたテキストデータを受信する。次に、自然言語処理技術を用いて入力データを解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。 The server receives the text data sent by the user. It then analyzes the input data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story."
プロンプト文の生成 Generating prompt statements
サーバは、抽出した情報を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。 The server generates a prompt to be input into the generative AI model based on the extracted information. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe."
生成AIモデルによる物語の生成 Generating stories using generative AI models
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it could generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'"
生成結果の整形と提供 Format and provide generated results
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。最後に、サーバは整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easy for the user to read. Finally, the server provides the formatted story to the user, who can view the results through their device.
具体例 Specific examples
ユーザーの入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」を考える。この入力に基づいて、サーバは以下のようなプロンプト文を生成する: As an example of user input, consider "a knight's adventure story set in medieval Europe." Based on this input, the server generates the following prompt:
「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください。」 "Generate lines and scenes from characters in a knight's adventure story set in medieval Europe."
生成AIモデルは、このプロンプト文に基づいて物語を生成し、例えば以下のようなテキストを出力する: The generative AI model generates a story based on this prompt, outputting text such as the following:
「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」 "The brave knight Arthur met a wizard in a dark forest. The wizard told Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to defeat the dragon.'"
このようにして、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this way, it is possible to automatically generate a coherent story based on user input, providing an inspiring and entertaining story for the viewer.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1: Step 1:
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力データがサーバに送信される。 The user uses their device to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe." This input data is then sent to the server.
ステップ2: Step 2:
サーバは、ユーザーから送信されたテキストデータを受信する。受信したデータを自然言語処理技術を用いて解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果が次のステップの入力となる。 The server receives text data sent by the user. It analyzes the received data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis become the input for the next step.
ステップ3: Step 3:
サーバは、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。このプロンプト文が次のステップの入力となる。 Based on the analysis results, the server generates a prompt to be input into the generative AI model. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe." This prompt becomes the input for the next step.
ステップ4: Step 4:
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。この生成されたテキストが次のステップの入力となる。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it might generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'" This generated text becomes the input for the next step.
ステップ5: Step 5:
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。この整形されたテキストが次のステップの入力となる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easier for the user to read. This formatted text becomes the input for the next step.
ステップ6: Step 6:
サーバは、整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。例えば、生成された物語を表示するウェブページやアプリケーションの画面に表示する。ユーザーは、生成された物語を読み、楽しむことができる。 The server provides the formatted story to the user. The user can view the results through their device, for example, on a web page or application screen that displays the generated story. The user can then read and enjoy the generated story.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したテーマや設定に基づいて物語を自動生成する際に、物語の構成や登場人物のセリフ、情景の生成が不十分であり、視聴者の心情を効果的に揺さぶることが難しい。また、生成された物語をプレビューし、保存および共有する機能が欠如しているため、ユーザーの利便性が低いという問題がある Existing story generation systems automatically generate stories based on user-entered themes and settings, but they often lack sufficient story structure, character dialogue, and scene generation, making it difficult to effectively sway viewers' emotions. Furthermore, the lack of functionality to preview, save, and share the generated stories creates a problem of inconvenient user experience.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いてプロンプト文を生成し、物語を自動生成する手段と、生成された物語をプレビューし、保存および共有する手段と、を含む。これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating prompt sentences using a generative AI model and automatically generating a story; and means for previewing, saving, and sharing the generated story. This makes it possible to automatically generate high-quality stories based on the settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語に登場するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters that appear in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the framework of the story.
「セリフ」とは、登場人物が話す言葉のことであり、物語の進行やキャラクターの性格を表現するための重要な要素である。 "Dialogue" refers to the words spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現するものである。 "Scenes" refer to the landscapes and scenes depicted in a story, and visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造のことであり、物語の展開を効果的にするための枠組みである。 "Story structure" refers to the overall flow and structure of a story, including a beginning, middle, and end, and is the framework for effectively developing the story.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語を面白くするための要素である。 "Foreshadowing" is a hint or omen that relates to later developments in a story, and is an element that makes a story more interesting.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements that add mystery and suspense to a story, and are meant to attract the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者に深い印象を与えるためのものである。 A "moving scene" is a scene in a story that stirs strong emotions and is intended to leave a deep impression on the viewer.
「グラフィック」とは、物語の各シーンに合わせて描かれる視覚的な画像やイラストのことであり、物語の雰囲気や感情を視覚的に表現するためのものである。 "Graphics" refers to the visual images and illustrations that accompany each scene in the story, and are intended to visually express the atmosphere and emotions of the story.
「曲」とは、物語の各シーンに合わせて作られる音楽のことであり、物語の雰囲気や感情を音楽的に表現するためのものである。 "Songs" are pieces of music created to accompany each scene in a story, and are intended to musically express the atmosphere and emotions of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストや画像などを自動生成するためのモデルのことであり、物語の自動生成に利用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to automatically generate text, images, etc., and is used to automatically generate stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、物語のテーマや設定に基づいて生成されるものである。 A "prompt" is an instruction to be input into a generative AI model, and is generated based on the theme and setting of the story.
「プレビュー」とは、生成された物語を事前に確認するための機能のことであり、ユーザーが内容をチェックするためのものである。 "Preview" is a feature that allows users to preview the generated story in advance and check the content.
「保存」とは、生成された物語をデジタル形式で記録することを指し、後で再利用や共有ができるようにするためのものである。 "Preservation" refers to recording the stories that are created in digital form so that they can be reused and shared later.
「共有」とは、生成された物語を他のユーザーやプラットフォームと分かち合うことを指し、物語の拡散や評価を促進するためのものである。 "Sharing" refers to sharing the story you create with other users and platforms, with the aim of promoting the spread and appreciation of the story.
この発明を実施するためのシステムは、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するものである。以下に、このシステムの具体的な実施形態について説明する。 A system for implementing this invention allows the user to input story settings such as the story's theme, setting, and characters, and automatically generates a story based on these settings. Specific embodiments of this system are described below.
システム構成 System Configuration
このシステムは、主に以下のハードウェアおよびソフトウェアを用いて構成される。 This system is primarily composed of the following hardware and software:
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
プログラムの処理 Program processing
ユーザー入力 User input
ユーザーは、スマートフォンアプリケーションを通じて物語のテーマ、舞台、登場人物をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマを入力する。 Users enter the story's theme, setting, and characters in text form through a smartphone application. For example, they might enter the theme "A knight's adventure story set in medieval Europe."
プロンプト生成 Prompt generation
サーバは、ユーザーが入力した情報を基にプロンプト文を生成する。このプロンプト文は、生成AIモデルに入力される指示文である。具体例として、以下のようなプロンプト文が生成される。 The server generates a prompt based on the information entered by the user. This prompt is an instruction that is input into the generative AI model. As a specific example, the following prompt is generated:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
物語生成 Story generation
サーバは、生成AIモデル(例えば、GPT-4)を用いて、生成されたプロンプト文に基づいて物語を自動生成する。この生成AIモデルは、OpenAI APIを通じて呼び出される。 The server uses a generative AI model (e.g., GPT-4) to automatically generate a story based on the generated prompt. This generative AI model is called through the OpenAI API.
プレビュー、保存、共有 Preview, save, share
生成された物語は、ユーザーがスマートフォンアプリケーションを通じてプレビューできるように表示される。ユーザーは、生成された物語を保存し、SNSなどで共有することができる。 The generated story is displayed so that users can preview it through the smartphone application. Users can save the generated story and share it on social media, etc.
具体例 Specific examples
ユーザーが「中世ヨーロッパを舞台にした騎士の冒険物語」をテーマに設定し、登場人物として「勇敢な騎士、魔法使い、ドラゴン」を入力した場合、以下のような物語が生成される。 If a user sets the theme to "a knight's adventure story set in medieval Europe" and enters "a brave knight, a wizard, and a dragon" as the characters, the following story will be generated.
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文を生成AIモデルに入力することで、物語が自動生成される。生成された物語は、ユーザーがプレビューし、保存および共有することができる。 By inputting this prompt into a generative AI model, a story is automatically generated. Users can preview, save, and share the generated story.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 This makes it possible to automatically generate high-quality stories based on user-entered settings, effectively stirring the emotions of viewers.
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
ステップ1: Step 1:
ユーザは、スマートフォン端末を使用して物語のテーマ、舞台、登場人物をテキスト形式で入力する。入力されたデータは、端末からサーバに送信される。入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマが含まれる。 Users use their smartphone to input the story's theme, setting, and characters in text format. The input data is then sent from the device to the server. An example input includes the theme "A knight's adventure story set in medieval Europe."
ステップ2: Step 2:
サーバは、受信したユーザの入力データを基にプロンプト文を生成する。具体的には、テーマ、舞台、登場人物の情報を組み合わせて、生成AIモデルに適したプロンプト文を作成する。生成されたプロンプト文は以下のようになる。 The server generates a prompt based on the received user input data. Specifically, it combines information about the theme, setting, and characters to create a prompt that is suitable for the generative AI model. The generated prompt looks like this:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文が生成される。 This prompt text is generated.
ステップ3: Step 3:
サーバは、生成されたプロンプト文を用いて生成AIモデル(例えば、GPT-4)を呼び出す。OpenAI APIを使用してプロンプト文を送信し、物語の生成を依頼する。入力はプロンプト文であり、出力は生成された物語のテキストである。 The server calls a generative AI model (e.g., GPT-4) with the generated prompt text. It sends the prompt text using the OpenAI API and requests the generation of a story. The input is the prompt text, and the output is the generated story text.
ステップ4: Step 4:
生成AIモデルは、プロンプト文に基づいて物語を自動生成する。生成された物語のテキストは、サーバに返される。例えば、以下のような物語が生成される。 The generative AI model automatically generates a story based on the prompt text. The generated story text is returned to the server. For example, the following story might be generated:
昔々、中世ヨーロッパの広大な王国に、勇敢な騎士が住んでいた。彼の名はアーサー。ある日、彼は魔法使いの助けを借りて、恐ろしいドラゴンと戦う冒険に出ることになった。 Once upon a time, in a vast kingdom in medieval Europe, there lived a brave knight. His name was Arthur. One day, with the help of a wizard, he embarked on an adventure to battle a fearsome dragon.
ステップ5: Step 5:
サーバは、生成された物語のテキストをスマートフォン端末に送信する。ユーザは、スマートフォン端末を通じて生成された物語をプレビューすることができる。入力は生成された物語のテキストであり、出力はユーザの端末に表示されるプレビュー画面である。 The server sends the text of the generated story to the smartphone device. The user can preview the generated story through the smartphone device. The input is the text of the generated story, and the output is the preview screen displayed on the user's device.
ステップ6: Step 6:
ユーザは、生成された物語を保存するか、SNSなどで共有することができる。保存された物語は、端末のストレージに記録され、共有された物語は、指定されたプラットフォームに送信される。入力はユーザの選択であり、出力は保存されたファイルまたは共有されたコンテンツである。 Users can save the generated story or share it on social media. Saved stories are recorded in the device's storage, and shared stories are sent to the specified platform. The input is the user's selection, and the output is the saved file or shared content.
以上のステップにより、ユーザが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 These steps make it possible to automatically generate a high-quality story based on the settings entered by the user, effectively stirring the viewer's emotions.
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 2 of Form Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の要素を整理し、ユーザに提供する機能が不足しているため、ユーザが生成された物語を効果的に利用することが困難である。さらに、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段が不足している。 While conventional story generation systems can automatically generate stories based on the story's theme and character settings, they have difficulty appropriately generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. Furthermore, they lack the functionality to organize the generated story elements and provide them to users, making it difficult for users to effectively use the generated story. Furthermore, they lack the means to enhance the dramatic effect through story structure, character dialogue, visuals, and music, and to effectively stir the viewer's emotions.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、生成された物語の要素を整理し、ユーザに提供する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for organizing the generated story elements and providing them to the user; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to make the story more interesting and enable users to effectively use the generated story.
「物語のテーマ」とは、物語の中心となる主題や題材を指すものである。 "Story theme" refers to the central subject or subject matter of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物を指すものである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素や出来事を指すものである。 "Foreshadowing" refers to elements or events placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎や推理の要素を加えることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that add mystery or detective elements to a story, attracting the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面を指すものである。 A "moving scene" refers to a scene in a story that stirs strong emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やBGMを指すものである。 "Song" refers to the music or background music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、視聴者の感情や反応を引き出すための手法を指すものである。 "Directory effects" refers to techniques that use the visual and auditory elements of a story to elicit emotions and reactions from the viewer.
「視聴者の心情」とは、物語を見たり読んだりする人々の感情や気持ちを指すものである。 "Audience sentiment" refers to the emotions and feelings of the people who watch or read the story.
この発明は、物語のテーマや登場人物の性格、物語の進行に基づいて、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動生成するシステムである。以下に、このシステムの具体的な実施形態を示す。 This invention is a system that automatically generates plot twists, mystery elements, and moving scenes to make a story more interesting, based on the story's theme, the characters' personalities, and the story's progression. A specific embodiment of this system is shown below.
システムの構成 System Configuration
ハードウェア Hardware
サーバは、高性能なGPUを搭載したクラウドサーバを使用する。 The server uses a cloud server equipped with a high-performance GPU.
ソフトウェア Software
サーバは、生成AIモデルを使用する。具体的には、OpenAIのGPT-4などの生成AIモデルを用いる。 The server uses a generative AI model. Specifically, it uses a generative AI model such as OpenAI's GPT-4.
プログラムの処理 Program processing
ユーザの入力 User input
ユーザは、端末を使用して物語のテーマ、登場人物の性格、物語の進行に関する情報を入力する。例えば、ユーザは以下のような情報を入力する。 The user uses the device to input information about the story's theme, the characters' personalities, and the story's progression. For example, the user might input the following information:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
プロンプト文の生成 Generating prompt statements
サーバは、ユーザから入力された情報を受け取り、それを基にプロンプト文を生成する。生成されたプロンプト文は以下のようになる。 The server receives the information entered by the user and generates a prompt based on that information. The generated prompt looks like this:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
物語の要素の生成 Generating story elements
サーバは、生成したプロンプト文を生成AIモデルに入力し、物語の要素を生成する。生成AIモデルは、プロンプト文を基に以下のような物語の要素を生成する。 The server inputs the generated prompt text into the generative AI model to generate story elements. The generative AI model generates the following story elements based on the prompt text.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
生成された物語の要素の整理と提供 Organizing and providing generated story elements
サーバは、生成AIモデルから出力された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 The server organizes the story elements output by the generative AI model and provides them to the user. The user can check the generated story elements via their device and make corrections or additions as needed.
具体例 Specific examples
ユーザがシステムを利用して物語を生成する際の具体例を以下に示す。 Below is a concrete example of how a user can use the system to generate a story.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
サーバはこのプロンプト文を生成AIモデルに入力し、物語のテーマや登場人物の性格、物語の進行に基づいて伏線やミステリー要素、感動的なシーンを自動生成する。生成された物語の要素は、ユーザに提供され、ユーザはそれを確認し、必要に応じて修正や追加を行うことができる。 The server inputs this prompt into a generative AI model, which automatically generates plot twists, mystery elements, and moving scenes based on the story's theme, the characters' personalities, and the story's progression. The generated story elements are provided to the user, who can review them and make corrections or additions as needed.
このようにして、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this way, it is possible to make the story more interesting and enable users to effectively use the generated story.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: Information about the story's theme, character personalities, and story progression.
具体的な動作: ユーザは端末の入力フォームに「中世の騎士の冒険」というテーマと、「勇敢な騎士、謎めいた老人、王女」という登場人物の情報を入力する。入力が完了したら、「送信」ボタンをクリックする。 Specific operation: The user enters the theme "Adventures of a Medieval Knight" and character information - "A Brave Knight, a Mysterious Old Man, and a Princess" - into the input form on their device. Once the input is complete, they click the "Submit" button.
出力: 入力された情報がサーバに送信される。 Output: The entered information is sent to the server.
ステップ2: Step 2:
サーバが入力された情報を受け取り、プロンプト文を生成する。 The server receives the entered information and generates a prompt.
入力: ユーザから送信された物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: User-submitted information about the story's theme, character personalities, and story progression.
具体的な動作: サーバは受信した情報を基に、生成AIモデルに入力するためのプロンプト文を生成する。 Specific operation: Based on the received information, the server generates a prompt sentence to input into the generative AI model.
出力: 生成されたプロンプト文。 Output: The generated prompt text.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
ステップ3: Step 3:
サーバが生成AIモデルにプロンプト文を入力し、物語の要素を生成する。 The server inputs prompts into the generative AI model to generate story elements.
入力: 生成されたプロンプト文。 Input: The generated prompt text.
具体的な動作: サーバは生成AIモデルにプロンプト文を入力し、物語の伏線、ミステリー要素、感動的なシーンを生成する。 Specific operation: The server inputs prompt text into the generative AI model, generating story hints, mystery elements, and moving scenes.
出力: 生成された物語の要素。 Output: Generated story elements.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
ステップ4: Step 4:
サーバが生成された物語の要素を整理し、ユーザに提供する。 The server organizes the generated story elements and provides them to the user.
入力: 生成AIモデルから出力された物語の要素。 Input: Story elements output from a generative AI model.
具体的な動作: サーバは生成された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 Specific operation: The server organizes the generated story elements and provides them to the user. The user can review the generated story elements through their device and make corrections or additions as necessary.
出力: 整理された物語の要素がユーザに提供される。 Output: The organized story elements are presented to the user.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて自動で物語を作成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の各シーンにマッチしたグラフィックや曲を自動で制作し、視聴者の心情を効果的に揺さぶることも困難である。さらに、生成AIモデルを活用して物語の要素を生成する際に、プロンプト文を適切に生成し、モデルに入力する手段が不足しているため、ユーザーにとって満足のいく物語を提供することができないという課題がある。 While conventional story generation systems can automatically create stories based on the story's theme and character settings, they have difficulty properly generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. It is also difficult to automatically create graphics and music that match each scene in the generated story and effectively stir the viewer's emotions. Furthermore, when using generative AI models to generate story elements, there is a lack of a way to properly generate prompt sentences and input them into the model, which poses the challenge of not being able to provide a satisfying story to the user.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いて物語の要素を生成する手段と、プロンプト文を生成し、生成AIモデルに入力する手段と、生成された物語の要素をユーザーに表示する手段を含む。これにより、物語をより面白くし、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user. This makes it possible to make the story more interesting and effectively stir the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境のことである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターのことである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマや舞台、登場人物などの基本的な要素のことである。 "Story setting" refers to the basic elements of the story, such as its theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉のことである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、後の展開に関連する重要な要素を前もって示すことである。 "Foreshadowing" is the advance indication of important elements related to later developments.
「ミステリー要素」とは、物語に謎や不思議な出来事を含めることである。 "Mystery elements" refer to the inclusion of mysteries or mysterious events in a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、視覚的な画像やイラストのことである。 "Graphics" refers to visual images and illustrations.
「曲」とは、音楽やメロディのことである。 "Song" refers to music or melody.
「演出効果」とは、物語をより魅力的に見せるための視覚や聴覚の工夫のことである。 "Producer effects" refer to visual and auditory techniques used to make a story more appealing.
「視聴者」とは、物語を観る人のことである。 "Viewers" are people who watch a story.
「生成AIモデル」とは、人工知能を用いてテキストや画像などを生成するアルゴリズムのことである。 A "generative AI model" is an algorithm that uses artificial intelligence to generate text, images, etc.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことである。 A "prompt" is an instruction sentence to be input into a generative AI model.
「ユーザー」とは、システムを利用する人のことである。 "User" refers to a person who uses the system.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段、生成AIモデルを用いて物語の要素を生成する手段、プロンプト文を生成し、生成AIモデルに入力する手段、生成された物語の要素をユーザーに表示する手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user.
サーバは、ユーザーが入力した物語のテーマや登場人物の情報を受け取り、それに基づいてプロンプト文を生成する。生成されたプロンプト文は、生成AIモデル(例えば、GPT-3)に入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 The server receives information about the story's theme and characters entered by the user and generates a prompt based on that information. The generated prompt is then input into a generative AI model (e.g., GPT-3) to generate story elements. The generated story elements are then displayed to the user.
具体的には、サーバは以下のような手順で動作する。まず、ユーザーが物語のテーマや登場人物の情報を入力する。次に、サーバはこれらの情報を基にプロンプト文を生成する。生成されたプロンプト文は、生成AIモデルに入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 Specifically, the server operates in the following steps: First, the user inputs information about the story's theme and characters. Next, the server generates a prompt based on this information. The generated prompt is input into a generative AI model, which generates story elements. The generated story elements are then displayed to the user.
使用するハードウェアとしては、サーバやユーザー端末が含まれる。使用するソフトウェアとしては、生成AIモデル(例:GPT-3)やプロンプト文生成アルゴリズムが含まれる。 The hardware used includes servers and user devices. The software used includes generative AI models (e.g., GPT-3) and prompt generation algorithms.
具体例として、以下のようなプロンプト文が生成される。 As a concrete example, the following prompt sentence is generated:
テーマ: 騎士の冒険 Theme: Knight's Adventure
登場人物: 勇敢な騎士、謎の老人、魔法使い Characters: Brave knight, mysterious old man, wizard
物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。 Generate plot twists, mystery elements, and moving scenes to make your story more interesting.
このプロンプト文を生成AIモデルに入力することで、物語の要素が自動的に生成される。生成された物語の要素は、ユーザーに表示され、物語の構成や登場人物の会話、映像や音楽で演出効果を高めることができる。 By inputting this prompt into a generative AI model, story elements are automatically generated. The generated story elements are displayed to the user, and the dramatic effect can be enhanced with story structure, character dialogue, visuals, and music.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の情報 Input: Story theme, character information
出力: 入力されたテーマと登場人物の情報 Output: Input theme and character information
具体的な動作: ユーザはスマートフォンアプリケーションの入力フォームに物語のテーマ(例:「騎士の冒険」)や登場人物(例:「勇敢な騎士、謎の老人、魔法使い」)を入力する。 Specific actions: The user enters the story's theme (e.g., "The Knight's Adventure") and characters (e.g., "The Brave Knight, the Mysterious Old Man, and the Wizard") into an input form on a smartphone application.
ステップ2: Step 2:
サーバが入力されたテーマと登場人物の情報を受け取り、プロンプト文を生成する。 The server receives the entered theme and character information and generates a prompt.
入力: 入力されたテーマと登場人物の情報 Input: Entered theme and character information
出力: 生成されたプロンプト文 Output: Generated prompt text
具体的な動作: サーバは受け取ったテーマと登場人物の情報を基に、以下のようなプロンプト文を生成する。「テーマ: 騎士の冒険 登場人物: 勇敢な騎士、謎の老人、魔法使い 物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。」 Specific operation: Based on the received theme and character information, the server generates a prompt like the following: "Theme: A knight's adventure. Characters: A brave knight, a mysterious old man, a wizard. Please generate hints, mystery elements, and moving scenes to make the story more interesting."
ステップ3: Step 3:
サーバが生成されたプロンプト文を生成AIモデルに入力する。 The server inputs the generated prompt sentence into the generative AI model.
入力: 生成されたプロンプト文 Input: Generated prompt text
出力: 生成AIモデルによって生成された物語の要素 Output: Story elements generated by the generative AI model
具体的な動作: サーバは生成されたプロンプト文をGPT-3などの生成AIモデルに送信し、物語の要素(例:伏線、ミステリー要素、感動的なシーン)を生成する。 Specific operation: The server sends the generated prompt to a generative AI model such as GPT-3 to generate story elements (e.g., foreshadowing, mystery elements, emotional scenes).
ステップ4: Step 4:
サーバが生成された物語の要素を受け取り、ユーザに表示する。 The server receives the generated story elements and displays them to the user.
入力: 生成AIモデルによって生成された物語の要素 Input: Story elements generated by a generative AI model
出力: ユーザに表示される物語の要素 Output: Story elements displayed to the user
具体的な動作: サーバは生成AIモデルから受け取った物語の要素をユーザのスマートフォンアプリケーションに送信し、ユーザに表示する。ユーザは生成された物語の要素を確認することができる。 Specific operation: The server sends the story elements received from the generative AI model to the user's smartphone application and displays them to the user. The user can then review the generated story elements.
ステップ5: Step 5:
サーバが物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力: 生成された物語の要素 Input: Generated story elements
出力: 各シーンにマッチしたグラフィックや曲 Output: Graphics and music that match each scene
具体的な動作: サーバは生成された物語の要素を基に、シーンの雰囲気や登場人物の感情状態を考慮して、適切なグラフィックや曲を自動で制作する。 Specific operation: Based on the generated story elements, the server automatically creates appropriate graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ6: Step 6:
サーバが物語の構成や登場人物の会話、映像や音楽で演出効果を高める。 The server enhances the dramatic effect through story structure, character dialogue, visuals, and music.
入力: 各シーンにマッチしたグラフィックや曲、物語の要素 Input: Graphics, music, and story elements that match each scene
出力: 演出効果が高められた物語 Output: A story with enhanced dramatic effects
具体的な動作: サーバは物語の構成や登場人物の会話、映像や音楽を組み合わせて、視聴者の心情を効果的に揺さぶる演出効果を高める。 Specific operation: The server combines the story structure, character dialogue, images, and music to enhance the dramatic effect and effectively stir the viewer's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが困難であり、視聴者の心情を効果的に揺さぶる演出効果を高めることができなかった。また、シーンの雰囲気や登場人物の感情状態を考慮したグラフィックや音楽の生成が手動で行われるため、時間と労力がかかるという問題があった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, preventing them from effectively evoking the viewer's emotions. Furthermore, generating graphics and music that take into account the scene's atmosphere and the characters' emotional states was a time-consuming and labor-intensive process.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、シーンデータを解析し、シーンの雰囲気や登場人物の感情状態を抽出する手段と、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する手段と、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段と、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for analyzing scene data and extracting the atmosphere of the scene and the emotional state of the characters; means for generating prompt text to be input into a generative AI model based on the extracted information; means for inputting the prompt text into the generative AI model and generating graphics and music that match the scene; means for integrating the generated graphics and music with the scene data and generating final output; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story, enhancing the dramatic effect that effectively stirs the viewer's emotions.
「物語のテーマや舞台、登場人物などのストーリー設定」とは、物語の基本的な要素であり、物語の背景や登場人物の特徴、物語の進行に必要な設定を指す。 "Story settings such as the story's theme, setting, and characters" are the basic elements of a story, and refer to the background of the story, the characteristics of the characters, and the settings necessary for the story's progression.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するためのインターフェースを指す。 "Means of input" refers to the interface that allows the user to provide the story setting, such as the story's theme, setting, and characters, to the system.
「登場人物のセリフや情景、物語の構成を自動で作成する手段」とは、入力されたストーリー設定に基づいて、登場人物の会話やシーンの描写、物語の全体的な流れを自動的に生成する機能を指す。 "Means for automatically creating character dialogue, scenes, and story structure" refers to a function that automatically generates character dialogue, scene descriptions, and the overall flow of a story based on the input story setting.
「伏線やミステリー要素、感動的なシーンなどを自動で生成する手段」とは、物語をより面白くするために、予め設定されたストーリーの中にサプライズや感動を引き起こす要素を自動的に追加する機能を指す。 "Means for automatically generating foreshadowing, mystery elements, moving scenes, etc." refers to a function that automatically adds elements that cause surprises or emotions to a pre-set story in order to make the story more interesting.
「グラフィックや曲を自動で制作する手段」とは、物語の各シーンに合わせて、視覚的および聴覚的な要素を自動的に生成する機能を指す。 "Means for automatically creating graphics and music" refers to a function that automatically generates visual and auditory elements to match each scene in a story.
「シーンデータを解析する手段」とは、物語の各シーンの内容を分析し、シーンの雰囲気や登場人物の感情状態を抽出する機能を指す。 "Means for analyzing scene data" refers to the function of analyzing the content of each scene in a story and extracting the atmosphere of the scene and the emotional state of the characters.
「生成AIモデルに入力するプロンプト文を生成する手段」とは、解析されたシーンデータに基づいて、生成AIモデルに対して適切な指示を与えるためのテキストを作成する機能を指す。 "Means for generating prompt sentences to be input to a generative AI model" refers to a function that creates text to provide appropriate instructions to a generative AI model based on analyzed scene data.
「生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段」とは、生成AIモデルに対してプロンプト文を入力し、その結果としてシーンに適したグラフィックと音楽を生成する機能を指す。 "A means of inputting a prompt sentence into a generative AI model and generating graphics and music that match the scene" refers to a function that inputs a prompt sentence into a generative AI model and, as a result, generates graphics and music that are appropriate for the scene.
「生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段」とは、生成された視覚および聴覚要素をシーンデータに組み込み、最終的な物語の出力を作成する機能を指す。 "Means for integrating generated graphics and music into scene data and generating final output" refers to the functionality for incorporating generated visual and auditory elements into scene data to create the final narrative output.
「視聴者の心情を効果的に揺さぶる手段」とは、物語の構成や登場人物の会話、映像や音楽を通じて、視聴者の感情に強い影響を与えるための機能を指す。 "Means to effectively stir the viewer's emotions" refers to the function of having a strong impact on the viewer's emotions through the story structure, the characters' dialogue, images, and music.
この発明は、物語の各シーンにマッチしたグラフィックや曲を自動で制作するシステムに関するものである。このシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて登場人物のセリフや情景、物語の構成を自動で作成する。また、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成し、さらに各シーンにマッチしたグラフィックや曲を自動で制作する。 This invention relates to a system that automatically creates graphics and music that match each scene in a story. This system inputs story settings such as the story's theme, setting, and characters, and automatically creates character dialogue, scenery, and story structure based on the input story settings. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting, and automatically creates graphics and music that match each scene.
使用するハードウェアおよびソフトウェア Hardware and software used
このシステムは、以下のハードウェアおよびソフトウェアを使用する: This system uses the following hardware and software:
サーバ:データの解析および生成AIモデルの実行を行う。 Server: Analyzes data and runs generative AI models.
端末:ユーザが物語のストーリー設定を入力するためのインターフェースを提供する。 Terminal: Provides an interface for users to enter the story setting for their story.
生成AIモデル:例えば、OpenAIのGPT-4やDALL-E、音楽生成モデルなどを使用する。 Generative AI models: For example, OpenAI's GPT-4, DALL-E, and music generation models are used.
データ加工およびデータ演算 Data processing and calculation
サーバは、ユーザが端末を通じて入力した物語のストーリー設定を受け取る。ストーリー設定には、物語のテーマ、舞台、登場人物の特徴などが含まれる。サーバは、これらのデータを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server receives the story settings entered by the user via their device. The story settings include the story's theme, setting, and character traits. The server analyzes this data and automatically creates the characters' lines, scenery, and story structure.
次に、サーバは作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。これにより、物語がより面白く、視聴者の心情を揺さぶるものとなる。 Next, the server automatically generates foreshadowing, mystery elements, moving scenes, and more based on the story you've created. This makes the story more interesting and emotionally stirring for the viewer.
さらに、サーバは物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。解析結果として、シーンの雰囲気や登場人物の感情状態を抽出する。サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 Furthermore, the server analyzes scene data to automatically create graphics and music that match each scene in the story. As a result of the analysis, it extracts the atmosphere of the scene and the emotional state of the characters. Based on the extracted information, the server generates prompt sentences to input into the generative AI model.
具体例 Specific examples
例えば、感動的なシーンの場合、サーバは以下のようなプロンプト文を生成AIモデルに入力する: For example, in the case of an emotional scene, the server inputs the following prompt sentence into the generative AI model:
グラフィック生成のプロンプト文例:「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example prompt for graphic generation: "Generate a graphic of a beautiful landscape. The scene is emotional, and the character is in tears."
音楽生成のプロンプト文例:「心を打つ感動的な音楽を生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example music generation prompt: "Generate moving, poignant music. The scene is emotional, and the characters are in tears."
生成AIモデルは、これらのプロンプト文に基づいてグラフィックと音楽を生成する。サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。端末は、統合された結果をユーザに表示する。 The generative AI model generates graphics and music based on these prompts. The server integrates the generated graphics and music with the scene data to generate the final output. The device displays the integrated results to the user.
このようにして、ユーザは物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることができる。実施例3における特定処理の流れについて図15を用いて説明する。 In this way, the user can automatically create graphics and music that match each scene in the story, enhancing the dramatic effect that effectively stirs the viewer's emotions. The flow of the specific processing in Example 3 will be explained using Figure 15.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定を端末に入力する。 The user enters story settings such as the story's theme, setting, and characters into the device.
具体的な動作:ユーザは、端末の入力フォームに物語のテーマ(例:ファンタジー)、舞台(例:中世の城)、登場人物(例:勇者、魔法使い)などの情報を入力する。端末は、入力されたストーリー設定をサーバに送信する。 Specific operation: The user enters information such as the story's theme (e.g., fantasy), setting (e.g., medieval castle), and characters (e.g., hero, wizard) into the device's input form. The device then sends the entered story settings to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは、受け取ったストーリー設定データを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server analyzes the received story setting data and automatically creates the characters' lines, scenes, and story structure.
具体的な動作:サーバは、自然言語処理(NLP)技術を使用してストーリー設定データを解析し、登場人物のセリフやシーンの描写、物語の全体的な流れを生成する。 Specific operations: The server uses natural language processing (NLP) technology to analyze story setting data and generate character dialogue, scene descriptions, and the overall story flow.
入力:ストーリー設定データ Input: Story setting data
出力:登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
ステップ3: Step 3:
サーバは、作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Based on the story you create, the server automatically generates foreshadowing, mystery elements, moving scenes, and more.
具体的な動作:サーバは、物語の構成データを解析し、物語をより面白くするための伏線やミステリー要素、感動的なシーンを追加する。 Specific operation: The server analyzes the story's composition data and adds hints, mystery elements, and moving scenes to make the story more interesting.
入力:物語の構成データ Input: Story composition data
出力:伏線やミステリー要素、感動的なシーンを含む物語データ Output: Story data including foreshadowing, mystery elements, and moving scenes
ステップ4: Step 4:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。 The server analyzes scene data to automatically create graphics and music that match each scene in the story.
具体的な動作:サーバは、物語データをシーンごとに分割し、各シーンの雰囲気や登場人物の感情状態を抽出する。 Specific operation: The server divides the story data into scenes and extracts the atmosphere of each scene and the emotional state of the characters.
入力:物語データ Input: Story data
出力:シーンごとの雰囲気や登場人物の感情状態データ Output: Scene-specific mood and character emotional state data
ステップ5: Step 5:
サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 The server generates prompt sentences to input into the generative AI model based on the extracted information.
具体的な動作:サーバは、シーンの雰囲気や登場人物の感情状態に応じたプロンプト文を作成する。例えば、感動的なシーンの場合、「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」というプロンプト文を生成する。 Specific operation: The server creates a prompt that corresponds to the atmosphere of the scene and the emotional state of the characters. For example, in the case of an emotional scene, the server generates the prompt, "Generate a graphic of a beautiful landscape. The scene is emotional, and the characters are crying."
入力:シーンごとの雰囲気や登場人物の感情状態データ Input: Scene atmosphere and character emotional state data
出力:生成AIモデルに入力するプロンプト文 Output: Prompt text to be input to the generative AI model
ステップ6: Step 6:
サーバは、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する。 The server inputs prompt text into the generative AI model, generating graphics and music that match the scene.
具体的な動作:サーバは、生成AIモデル(例:DALL-E)にプロンプト文を送信し、シーンにマッチしたグラフィックを生成する。同様に、音楽生成モデルにプロンプト文を送信し、シーンにマッチした音楽を生成する。 Specific operation: The server sends a prompt to the generative AI model (e.g., DALL-E), which generates graphics that match the scene. Similarly, it sends a prompt to the music generation model, which generates music that matches the scene.
入力:生成AIモデルに入力するプロンプト文 Input: Prompt text to be input to the generative AI model
出力:生成されたグラフィックと音楽 Output: Generated graphics and music
ステップ7: Step 7:
サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。 The server integrates the generated graphics and music with the scene data to generate the final output.
具体的な動作:サーバは、生成されたグラフィックと音楽を各シーンデータに統合し、物語全体の最終的な出力を作成する。 Specific operation: The server integrates the generated graphics and music with each scene data to create the final output of the entire story.
入力:生成されたグラフィックと音楽、シーンデータ Input: Generated graphics, music, and scene data
出力:統合された最終的な物語データ Output: Final integrated narrative data
ステップ8: Step 8:
端末は、統合された最終的な物語データをユーザに表示する。 The terminal displays the final, integrated story data to the user.
具体的な動作:端末は、サーバから送信された最終的な物語データを受信し、ユーザに視覚的および聴覚的に表示する。 Specific operation: The terminal receives the final story data sent from the server and displays it visually and audibly to the user.
入力:統合された最終的な物語データ Input: Final integrated narrative data
出力:ユーザに表示される物語の視覚および聴覚的コンテンツ Output: The visual and auditory content of the story presented to the user.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視覚的・聴覚的な演出効果が限定されていた。また、ユーザーが自分の物語を入力しても、その物語に適したグラフィックや音楽を生成するための手段が不足しており、コンテンツの質が低下する問題があった。さらに、生成されたコンテンツをプレビューし、エクスポートする機能が欠如していたため、ユーザーの利便性が低かった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, limiting the visual and auditory effects they could produce. Furthermore, even when users input their own stories, there was a lack of means to generate graphics and music appropriate for that story, resulting in a decline in content quality. Furthermore, the lack of functionality to preview and export the generated content resulted in poor user convenience.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する手段と、シーンの説明に基づいてグラフィックを生成する手段と、シーンの説明に基づいて音楽を生成する手段と、生成されたコンテンツをプレビューする手段と、完成したコンテンツをエクスポートする手段を含む。これにより、ユーザーが入力した物語に基づいて、視覚的・聴覚的に豊かなコンテンツを自動で生成し、プレビューおよびエクスポートすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, video, and music, and effectively stirring the viewer's emotions; means for analyzing story scenes and extracting the scene atmosphere and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content. This makes it possible to automatically generate, preview, and export visually and aurally rich content based on a story entered by the user.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指す。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を指す。 "Story setting" refers to basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要になる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that foreshadow information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される視覚的な画像やイラストを指す。 "Graphics" refers to visual images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「シーンの雰囲気」とは、物語の特定の場面が持つ全体的な感覚やムードを指す。 'Scene atmosphere' refers to the overall feeling or mood of a particular scene in a story.
「登場人物の感情状態」とは、物語の中で登場人物が感じている感情を指す。 "A character's emotional state" refers to the emotions the character is feeling in the story.
「シーンの説明」とは、物語の特定の場面についての詳細な描写や解説を指す。 A "scene description" refers to a detailed description or explanation of a particular moment in a story.
「プレビュー」とは、生成されたコンテンツを事前に確認することを指す。 "Preview" refers to checking the generated content in advance.
「エクスポート」とは、生成されたコンテンツを外部ファイルとして保存することを指す。 "Export" refers to saving the generated content as an external file.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め視聴者の心情を効果的に揺さぶる手段、物語のシーンを解析しシーンの雰囲気と登場人物の感情状態を抽出する手段、シーンの説明に基づいてグラフィックを生成する手段、シーンの説明に基づいて音楽を生成する手段、生成されたコンテンツをプレビューする手段、完成したコンテンツをエクスポートする手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the story structure, character dialogue, and visuals and music to effectively stir the viewer's emotions; means for analyzing story scenes and extracting the atmosphere of the scene and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content.
ハードウェアおよびソフトウェアの構成 Hardware and software configuration
ハードウェア: Hardware:
スマートフォン Smartphone
ソフトウェア: Software:
Python Python
OpenAI API OpenAI API
PIL (Python Imaging Library) PIL (Python Imaging Library)
音楽生成ライブラリ Music generation library
データ加工およびデータ演算 Data processing and calculation
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段: How to enter story settings such as theme, setting, and characters:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
登場人物のセリフや情景、物語の構成を自動で作成する手段: Methods for automatically creating character dialogue, scenes, and story structure:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
伏線やミステリー要素、感動的なシーンなどを自動で生成する手段: Methods for automatically generating foreshadowing, mystery elements, moving scenes, etc.:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段: Methods for automatically creating graphics and music that match each scene in a story:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。これに基づいて、OpenAIの画像生成APIを使用してグラフィックを生成し、音楽生成APIを使用して音楽を生成する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the characters' emotional state. Based on this, it generates graphics using OpenAI's image generation API and music using OpenAI's music generation API.
生成されたコンテンツをプレビューする手段: How to preview generated content:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including generated graphics and music, through a smartphone application.
完成したコンテンツをエクスポートする手段: How to export your finished content:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
具体例 Specific examples
例えば、ユーザが「勇者はドラゴンと戦うために山に登った。」という物語を入力すると、システムはこのシーンを解析し、勇者とドラゴンの戦闘シーンにマッチした迫力のあるグラフィックと緊張感を高める音楽を生成する。 For example, if a user inputs the story "A hero climbed a mountain to fight a dragon," the system will analyze this scene and generate powerful graphics and music that heightens the tension to match the battle scene between the hero and the dragon.
プロンプト文の例: Example prompt:
以下の物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を出力してください: Analyze the following story scene and output the scene's atmosphere and the characters' emotional states:
勇者はドラゴンと戦うために山に登った。 The hero climbed the mountain to fight the dragon.
このようにして、ユーザは自分の物語を視覚的・聴覚的に豊かなコンテンツとして楽しむことができる。 In this way, users can enjoy their stories as visually and aurally rich content.
応用例3における特定処理の流れについて図16を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 16.
ステップ1: Step 1:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
入力: 物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力: テキスト形式のストーリー設定データ Output: Story setting data in text format
ステップ2: Step 2:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
入力: テキスト形式のストーリー設定データ Input: Text-based story setting data
出力: 登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ3: Step 3:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
入力: 登場人物のセリフ、情景、物語の構成データ Input: Character dialogue, scenery, and story structure data
出力: 伏線、ミステリー要素、感動的なシーンデータ Output: Foreshadowing, mystery elements, and moving scene data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ4: Step 4:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the emotional state of the characters.
入力: 伏線、ミステリー要素、感動的なシーンデータ Input: Foreshadowing, mystery elements, and moving scene data
出力: シーンの雰囲気、登場人物の感情状態データ Output: Scene atmosphere, character emotional state data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、解析結果を受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the analysis results.
ステップ5: Step 5:
サーバは、シーンの説明に基づいてグラフィックを生成する。 The server generates graphics based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: グラフィックデータ Output: Graphics data
具体的な動作: サーバはOpenAIの画像生成APIにプロンプト文を送信し、生成された画像を受け取る。 Specific operation: The server sends a prompt to OpenAI's image generation API and receives the generated image.
ステップ6: Step 6:
サーバは、シーンの説明に基づいて音楽を生成する。 The server generates music based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: 音楽データ Output: Music data
具体的な動作: サーバはOpenAIの音楽生成APIにプロンプト文を送信し、生成された音楽を受け取る。 Specific operation: The server sends a prompt to OpenAI's music generation API and receives the generated music.
ステップ7: Step 7:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including generated graphics and music, through a smartphone application.
入力: グラフィックデータ、音楽データ Input: Graphics data, music data
出力: プレビュー画面 Output: Preview screen
具体的な動作: スマートフォンのアプリケーションが生成されたデータを表示し、ユーザにプレビューを提供する。 Specific behavior: The smartphone application displays the generated data and provides a preview to the user.
ステップ8: Step 8:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
入力: プレビュー画面 Input: Preview screen
出力: 動画ファイル Output: Video file
具体的な動作: スマートフォンのアプリケーションが生成されたデータを動画ファイルとして保存し、ユーザに提供する。 Specific operation: The smartphone application saves the generated data as a video file and provides it to the user.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
「形態例1」 "Example 1"
本発明の一実施形態として、感情エンジンを組み合わせた物語生成システムがある。このシステムは、ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。そして、そのストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。さらに、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。また、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。そして、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 One embodiment of the present invention is a story generation system that incorporates an emotion engine. This system receives story settings, such as the story's theme, setting, and characters, as input information from the user. Based on this story setting, the system then automatically creates character dialogue, scenery, and story structure. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting. It also automatically creates graphics and music that match each scene in the story. The story structure, character dialogue, video, and music enhance the dramatic effect, effectively stirring the viewer's emotions.
「形態例2」 "Example 2"
さらに、本システムは感情エンジンを含む。この感情エンジンは、ユーザの感情をリアルタイムで認識する。そして、その感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Furthermore, the system includes an emotion engine. This emotion engine recognizes the user's emotions in real time and adjusts the story development according to those emotions. For example, if the user feels joyful about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
感情エンジンは、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions. For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. If the user speaks in a sad tone of voice, the emotion engine will recognize that the user is feeling sad. Furthermore, if the user inputs the text "fun," the emotion engine will recognize that the user is feeling happy. Based on this information, the emotion engine adjusts the development of the story and provides a story experience that matches the user's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。 Step 1: Receive story settings such as theme, setting, and characters as input from the user.
ステップ2:受け取ったストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 Step 2: Based on the received story setting, character dialogue, scenes, and story structure are automatically created.
ステップ3:作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 3: Automatically generate hints, mystery elements, moving scenes, and more to make your story more interesting.
ステップ4:作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。ステップ5:物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 Step 4: Automatically create graphics and music that match each scene in the story you've created. Step 5: Enhance the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions.
「形態例2」 "Example 2"
ステップ1:感情エンジンを起動し、ユーザの感情をリアルタイムで認識する。 Step 1: Launch the emotion engine and recognize the user's emotions in real time.
ステップ2:認識した感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Step 2: Adjust the story development according to the recognized emotion. For example, if the user feels happy about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
ステップ1:感情エンジンがユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。 Step 1: The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions.
ステップ2:例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。 Step 2: For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. Also, if the user is speaking in a sad tone of voice, the emotion engine will recognize that the user is feeling sad.
ステップ3:さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 Step 3: Furthermore, if the user enters the text "fun," the emotion engine recognizes that the user is feeling enjoyment. Based on this information, the emotion engine adjusts the development of the story and provides a narrative experience that matches the user's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性が欠けることが多かった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンの生成が難しく、視聴者の心情を効果的に揺さぶることができなかった。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することが困難であった。これらの課題を解決するために、本発明は、より一貫性のある物語生成と、視聴者の心情を効果的に揺さぶるためのシステムを提供することを目的とする In conventional story generation systems, when automatically generating a story based on a story setting entered by the user, the story flow, character dialogue, and scenery often lacked consistency. Furthermore, it was difficult to generate foreshadowing, mystery elements, and moving scenes to make the story more interesting, making it difficult to effectively move the viewer's emotions. Furthermore, it was difficult to automatically create graphics and music that matched each scene in the story. To address these issues, the present invention aims to provide a system that generates more consistent stories and effectively moves the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定を解析する手段と、解析されたストーリー設定に基づき、既存の物語データベースを検索する手段と、生成AIモデルにプロンプト文を生成し入力する手段と、生成AIモデルを用いて登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for analyzing the input story settings; means for searching an existing story database based on the analyzed story settings; means for generating and inputting prompt sentences to a generation AI model; means for automatically creating character dialogue, scenes, and story structure using the generation AI model; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions. This makes it possible to generate a consistent story based on the story settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や時代背景のことである。 "Setting" refers to the place and historical background in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物のことである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するための方法や装置のことである。 "Input means" refers to the method or device by which the user provides the story setting, such as the story's theme, setting, and characters, to the system.
「解析する手段」とは、入力されたストーリー設定を分析し、重要なキーワードやフレーズを抽出するための方法や装置のことである。 "Means for analyzing" refers to a method or device for analyzing the input story setting and extracting important keywords and phrases.
「データベースを検索する手段」とは、解析されたストーリー設定に基づいて、既存の物語データベースから関連情報を検索するための方法や装置のことである。 "Means for searching a database" refers to a method or device for searching relevant information from an existing narrative database based on the analyzed story setting.
「生成AIモデル」とは、人工知能技術を用いてテキストや物語を生成するためのモデルのことである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文や質問文のことである。 A "prompt" is an instruction or question that is input into a generative AI model.
「プロンプト文を生成し入力する手段」とは、生成AIモデルに適したプロンプト文を作成し、それをモデルに入力するための方法や装置のことである。 "Means for generating and inputting prompt sentences" refers to a method or device for creating prompt sentences suitable for a generative AI model and inputting them into the model.
「セリフ」とは、登場人物が話す言葉や台詞のことである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の流れや展開を決定するための構造や配置のことである。 "Narrative structure" refers to the structure and arrangement that determines the flow and development of a story.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントのことである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎やサスペンスを加えるための要素のことである。 "Mystery elements" are elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語の各シーンに合わせて生成される画像やイラストのことである。 "Graphics" refers to images and illustrations generated to match each scene in the story.
「曲」とは、物語の各シーンに合わせて生成される音楽やメロディのことである。 "Songs" refer to music and melodies generated to match each scene in the story.
「演出効果」とは、物語の構成や登場人物の会話、映像や音楽を用いて視聴者の心情を揺さぶるための効果のことである。 "Directory effects" refer to effects that use story structure, character dialogue, images, and music to stir the viewer's emotions.
本発明は、物語生成システムに関するものであり、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることを目的とする。 The present invention relates to a story generation system that generates a coherent story based on a story setting entered by the user, and aims to effectively stir the emotions of the viewer.
システムの構成 System Configuration
ユーザの入力 User input
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった具体的な設定を提供する。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they can provide a specific setting such as "a knight's adventure story set in medieval Europe."
サーバの入力解析 Server input analysis
サーバは、ユーザから受け取ったストーリー設定を解析する。この解析には、自然言語処理技術を用いる。具体的には、PythonのNLTKライブラリやSpaCyを使用する。サーバは、入力テキストをトークン化し、重要なキーワードやフレーズを抽出する。 The server analyzes the story setting received from the user. This analysis uses natural language processing techniques, specifically Python's NLTK library and SpaCy. The server tokenizes the input text and extracts important keywords and phrases.
データベースの検索 Search the database
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。このデータベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。 The server searches an existing story database based on the extracted keywords and phrases. This database stores information on past stories and characters. The server finds similar stories and character settings and uses them as reference information.
生成AIモデルのプロンプト生成 Prompt generation for generative AI models
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。 Based on user input and information obtained from the database, the server generates prompts to be input into the generative AI model. For example, it creates a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and descriptions of the scenery."
生成AIモデルによる物語生成 Story generation using generative AI models
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。 The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities.
感情エンジンの適用 Applying the Emotion Engine
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer.
グラフィックと音楽の生成 Graphics and music generation
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music.
最終出力の統合 Merge the final output
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例 Specific examples
ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」という設定を入力した場合、サーバは以下のような物語を生成する: If the user inputs the setting "A knight's adventure story set in medieval Europe," the server will generate a story like this:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
プロンプト文の例 Example prompt
生成AIモデルに入力するプロンプト文の例は以下の通り: An example of a prompt to input to the generative AI model is as follows:
「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」 "Create a knight's adventure story set in medieval Europe. The main character is a brave knight named Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include an opening line, character dialogue, and a description of the scenery."
このプロンプト文を生成AIモデルに入力することで、物語の各要素が自動的に生成される。 By inputting this prompt into a generative AI model, each element of the story is automatically generated.
実施例1における特定処理の流れについて図17を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 17.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力は、システムのユーザインターフェースを通じて行われる。入力されたテキストは、サーバに送信される。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they might enter "A knight's adventure story set in medieval Europe." This input is done through the system's user interface. The entered text is sent to the server.
ステップ2: Step 2:
サーバは、ユーザから受け取ったストーリー設定を解析する。具体的には、PythonのNLTKライブラリやSpaCyを使用してテキストをトークン化し、重要なキーワードやフレーズを抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果は、次のステップで使用される。 The server analyzes the story setting received from the user. Specifically, it uses Python's NLTK library and SpaCy to tokenize the text and extract important keywords and phrases. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis are used in the next step.
ステップ3: Step 3:
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。データベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。例えば、「中世ヨーロッパ」をテーマにした過去の物語や、「騎士」を主人公とした物語を検索する。この検索結果は、次のステップで使用される。 The server searches an existing story database based on the extracted keywords and phrases. The database contains information on past stories and characters. The server finds similar stories and character settings and uses them as reference information. For example, it searches for past stories with a "medieval Europe" theme or stories with a "knight" as the main character. The search results are used in the next step.
ステップ4: Step 4:
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。このプロンプト文は、次のステップで使用される。 Based on user input and information obtained from the database, the server generates a prompt to be input into the generative AI model. For example, it might create a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and descriptions of the scenery." This prompt will be used in the next step.
ステップ5: Step 5:
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。例えば、生成AIモデルは以下のような物語を生成する: The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities. For example, the generative AI model generates the following story:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
ステップ6: Step 6:
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。感情エンジンは、生成されたテキストを解析し、適切な感情要素を追加する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer. The emotion engine analyzes the generated text and adds appropriate emotional elements.
ステップ7: Step 7:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。例えば、物語の冒頭シーンに合わせて、中世ヨーロッパの風景を描いたグラフィックや、冒険を感じさせる曲を生成する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music. For example, to match the opening scene of the story, it generates graphics depicting the scenery of medieval Europe and music that evokes a sense of adventure.
ステップ8: Step 8:
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力した設定に基づいて物語を生成することはできるが、生成された物語をリアルタイムで視覚化・音声化し、ユーザーが仮想現実空間で体験することはできなかった。また、物語の各シーンにマッチしたグラフィックや音楽を自動で生成し、視聴者の心情を効果的に揺さぶる演出効果を高めることも困難であった。これにより、ユーザーの体験が限定され、物語の没入感が不足していた。 Conventional story generation systems could generate stories based on settings entered by the user, but they were unable to visualize and sound out the generated stories in real time and allow users to experience them in a virtual reality space. It was also difficult to automatically generate graphics and music that matched each scene in the story, enhancing the dramatic effects that effectively stirred the viewer's emotions. This limited the user experience and led to a lack of immersion in the story.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーが入力した物語の設定に基づき、生成AIモデルを用いて物語を生成する手段と、生成された物語をリアルタイムで視覚化・音声化する手段と、ヘッドマウントディスプレイを用いてユーザーが生成された物語を仮想現実空間で体験する手段と、を含む。これにより、ユーザーは生成された物語をリアルタイムで視覚化・音声化し、仮想現実空間で体験することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating a story using a generative AI model based on the story settings input by the user; means for visualizing and audibly converting the generated story in real time; and means for the user to experience the generated story in a virtual reality space using a head-mounted display. This allows the user to visualize and audibly convert the generated story in real time and experience it in a virtual reality space.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters who act in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の基盤を形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the foundation of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するモデルのことであり、物語の構成やセリフを自動で作成するために使用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically create story structures and dialogue.
「伏線」とは、物語の中で後の展開を予感させる要素やヒントのことであり、物語を面白くするための技法である。 "Foreshadowing" refers to elements or hints in a story that give a glimpse of future developments, and is a technique used to make a story more interesting.
「ミステリー要素」とは、物語の中で謎や疑問を提示する要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements in a story that present a mystery or question, and are intended to attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に深い印象を与えるものである。 A "moving scene" is a scene in a story that stirs strong emotions and leaves a deep impression on the viewer's mind.
「グラフィック」とは、視覚的な画像や映像のことであり、物語のシーンや登場人物を視覚的に表現するためのものである。 "Graphics" refers to visual images and footage that visually represent scenes and characters in a story.
「曲」とは、音楽のことであり、物語のシーンや雰囲気を音楽で演出するためのものである。 "Song" refers to music, used to create scenes and atmosphere in a story.
「視覚化」とは、物語の内容を視覚的に表現することであり、ユーザーが物語を目で見て楽しむことができるようにするものである。 "Visualization" refers to the visual representation of the story content, allowing users to enjoy the story visually.
「音声化」とは、物語の内容を音声で表現することであり、ユーザーが物語を耳で聞いて楽しむことができるようにするものである。 "Audio" refers to the expression of the story content in audio, allowing users to enjoy the story by listening to it.
「仮想現実空間」とは、コンピュータ技術を用いて作り出された仮想の空間のことであり、ユーザーがその中で現実のように体験できるものである。 A "virtual reality space" is a virtual space created using computer technology that allows users to experience reality.
「ヘッドマウントディスプレイ」とは、頭部に装着するディスプレイ装置のことであり、ユーザーが仮想現実空間を体験するために使用されるものである。 A "head-mounted display" is a display device worn on the head, used to allow users to experience virtual reality spaces.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、ユーザはスマートフォンやヘッドマウントディスプレイを使用して物語のテーマや舞台、登場人物などのストーリー設定を入力する。これらの入力はテキスト形式で行われる。 A system for implementing this invention has the following configuration: First, a user uses a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters. This input is done in text format.
次に、サーバは生成AIモデル(例:GPT-4)を用いて、ユーザが入力したストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。生成AIモデルは、既存の物語データベースを参照しながら、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景を生成する。 Next, the server uses a generative AI model (e.g., GPT-4) to automatically create character dialogue, scenes, and a story structure based on the story setting entered by the user. The generative AI model references an existing story database to generate dialogue and scenes that match the story flow, character personalities, and story theme.
さらに、サーバは感情エンジンを用いて、作成された物語に伏線やミステリー要素、感動的なシーンなどを追加する。これにより、物語がより面白く、感動的なものとなる。 In addition, the server uses an emotion engine to add hints, mystery elements, and moving scenes to the stories created, making them more interesting and moving.
次に、サーバはグラフィック生成エンジンと音楽生成エンジンを使用して、作成された物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これにより、物語の視覚的および聴覚的な演出効果が高まり、視聴者の心情を効果的に揺さぶることができる。 The server then uses a graphics generation engine and a music generation engine to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story, effectively stirring the emotions of the viewer.
最後に、生成された物語はリアルタイムで視覚化・音声化され、ユーザはヘッドマウントディスプレイを用いて仮想現実空間で物語を体験することができる。これにより、ユーザは物語の中に没入し、より深い体験を得ることができる。 Finally, the generated story is visualized and audible in real time, and the user can experience the story in a virtual reality space using a head-mounted display. This allows the user to become immersed in the story and enjoy a deeper experience.
具体例として、ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」を入力した場合、以下のようなプロンプト文が生成AIモデルに入力される。 As a concrete example, if a user inputs "a knight's adventure story set in medieval Europe," the following prompt sentence will be input to the generative AI model:
プロンプト文の例: Example prompt:
テーマ: 中世ヨーロッパ Theme: Medieval Europe
舞台: 騎士の冒険 Setting: Knight's Adventure
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語の設定: 勇敢な騎士が魔法使いと共にドラゴンを倒す冒険に出る Story setting: A brave knight and a wizard embark on an adventure to slay a dragon.
このプロンプト文を基に、生成AIモデルが物語を生成し、感情エンジンが感情的な要素を追加し、グラフィック生成エンジンと音楽生成エンジンがグラフィックと音楽を生成する。ユーザはヘッドマウントディスプレイを通じて、リアルタイムでこの物語を体験することができる。 Based on this prompt, a generative AI model generates a story, an emotion engine adds emotional elements, and a graphics generation engine and music generation engine generate graphics and music. Users can experience this story in real time through a head-mounted display.
応用例1における特定処理の流れについて図18を用いて説明する。 The flow of the specific processing in Application Example 1 is explained using Figure 18.
ステップ1: Step 1:
ユーザはスマートフォンやヘッドマウントディスプレイを使用して、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。入力されたデータはサーバに送信される。 Users use a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters in text format. The input data is sent to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは受信したストーリー設定データを基に、生成AIモデル(例:GPT-4)を使用して物語の構成、登場人物のセリフ、情景を自動で作成する。生成AIモデルは既存の物語データベースを参照しながら、物語の流れや登場人物の性格に合わせたテキストを生成する。 Based on the received story setting data, the server uses a generative AI model (e.g., GPT-4) to automatically create the story structure, character dialogue, and scenery. The generative AI model references an existing story database to generate text that matches the story flow and character personalities.
入力:ストーリー設定データ Input: Story setting data
出力:生成された物語の構成、セリフ、情景 Output: Generated story structure, dialogue, and scenery
ステップ3: Step 3:
サーバは感情エンジンを用いて、生成された物語に伏線やミステリー要素、感動的なシーンなどの感情的な要素を追加する。感情エンジンは物語の各シーンに適した感情的な要素を自動で挿入する。 The server uses an emotion engine to add emotional elements such as foreshadowing, mystery elements, and moving scenes to the generated story. The emotion engine automatically inserts emotional elements appropriate to each scene in the story.
入力:生成された物語の構成、セリフ、情景 Input: Generated story structure, dialogue, and scenery
出力:感情的な要素が追加された物語 Output: A story with added emotional content
ステップ4: Step 4:
サーバはグラフィック生成エンジンを使用して、物語の各シーンにマッチしたグラフィックを自動で制作する。グラフィック生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切なビジュアルを生成する。 The server uses a graphics generation engine to automatically create graphics that match each scene in the story. The graphics generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate visuals.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチしたグラフィック Output: Graphics that match each scene
ステップ5: Step 5:
サーバは音楽生成エンジンを使用して、物語の各シーンにマッチした曲を自動で制作する。音楽生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切な音楽を生成する。 The server uses a music generation engine to automatically create music that matches each scene in the story. The music generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate music.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチした曲 Output: Songs that match each scene
ステップ6: Step 6:
サーバは生成された物語、グラフィック、音楽を統合し、リアルタイムで視覚化・音声化する。これにより、ユーザは物語を視覚と聴覚で体験することができる。 The server integrates the generated story, graphics, and music, visualizing and audiovisualizing them in real time, allowing users to experience the story visually and aurally.
入力:生成された物語、グラフィック、音楽 Input: Generated story, graphics, music
出力:リアルタイムで視覚化・音声化された物語 Output: Real-time visual and audio narrative
ステップ7: Step 7:
ユーザはヘッドマウントディスプレイを使用して、仮想現実空間で生成された物語を体験する。ユーザは物語の中に没入し、より深い体験を得ることができる。 Using a head-mounted display, users experience a story generated in a virtual reality space, immersing themselves in the story and providing a deeper experience.
入力:リアルタイムで視覚化・音声化された物語 Input: Real-time visual and audio narrative
出力:仮想現実空間での物語体験 Output: Narrative experience in a virtual reality space
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, Example 2 of Form Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動で生成することが難しい。また、ユーザの感情に応じて物語の展開をリアルタイムで調整する機能が欠如しているため、ユーザの感情に寄り添った物語体験を提供することができない。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することも困難である。これらの課題を解決するための新しいシステムが求められている。 While conventional story generation systems can automatically generate a story based on the story's theme and character settings, they have difficulty automatically generating foreshadowing, mystery elements, and moving scenes that make the story more interesting. Furthermore, they lack the functionality to adjust the story's development in real time based on the user's emotions, making it impossible to provide a narrative experience that is in tune with the user's emotions. Furthermore, it is difficult to automatically create graphics and music that match each scene in the story. A new system is needed to solve these issues.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語のテーマや登場人物の設定に基づいて物語を自動生成するだけでなく、伏線やミステリー要素、感動的なシーンを自動で生成し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for recognizing the user's emotions in real time and adjusting the story development in accordance with those emotions; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible not only to automatically generate a story based on the story theme and character settings, but also to automatically generate foreshadowing, mystery elements, and moving scenes, and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の全体的な主題や方向性を示すものである。 The "story theme" indicates the overall subject or direction of the story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語の中で行動するキャラクターを指すものである。 "Characters" refers to the characters who take action in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前もって配置される要素を指すものである。 "Foreshadowing" refers to elements that are laid out in advance in a way that will have important meaning later in the story.
「ミステリー要素」とは、物語に謎や不明な点を含めることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that attract the interest of readers or viewers by including mysteries or unknown points in a story.
「感動的なシーン」とは、読者や視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the emotions of the reader or viewer.
「ユーザの感情」とは、物語を体験するユーザが感じる喜び、悲しみ、驚きなどの感情を指すものである。 "User emotions" refers to feelings such as joy, sadness, and surprise felt by users as they experience the story.
「リアルタイムで認識」とは、ユーザの感情をその場で即座に検出することを指すものである。 "Real-time recognition" refers to detecting the user's emotions instantly and on the spot.
「物語の展開を調整」とは、ユーザの感情に応じて物語の進行や内容を変更することを指すものである。 "Adjusting the story development" refers to changing the progress and content of the story based on the user's emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、読者や視聴者の感情や興味を引き立てる効果を指すものである。 "Directory effects" refer to the effects of using the visual and auditory elements of a story to stimulate the emotions and interest of readers or viewers.
この発明は、物語のテーマや登場人物の設定に基づいて物語を自動生成し、さらに伏線やミステリー要素、感動的なシーンを自動で生成するシステムである。加えて、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する機能を持つ。 This invention is a system that automatically generates a story based on the story's theme and character settings, and also automatically generates foreshadowing, mystery elements, and moving scenes. It also has the ability to recognize the user's emotions in real time and adjust the story's development accordingly.
使用するハードウェアおよびソフトウェア Hardware and software used
サーバは、生成AIモデル(例:GPT-4)を使用して物語の要素を生成する。サーバは、ユーザから受け取った物語のテーマや登場人物の性格、物語の進行に関する情報を基に、プロンプト文を生成AIモデルに入力し、物語の要素を生成する。 The server generates story elements using a generative AI model (e.g., GPT-4). Based on information received from the user about the story's theme, the characters' personalities, and the story's progression, the server inputs prompt sentences into the generative AI model to generate story elements.
端末は、ユーザの入力情報をサーバに送信し、サーバから受け取った物語の要素をユーザに表示する。また、端末はユーザの表情や音声から感情データを収集し、サーバに送信するための感情認識ソフトウェアを使用する。 The device sends the user's input information to the server and displays the story elements received from the server to the user. The device also uses emotion recognition software to collect emotional data from the user's facial expressions and voice and send it to the server.
ユーザは、物語のテーマや登場人物の性格、物語の進行に関する情報を端末に入力し、物語を楽しむ。ユーザの感情は端末によってリアルタイムで認識され、物語の展開に反映される。 Users enter information about the story's theme, the characters' personalities, and the story's progression into their device and enjoy the story. The device recognizes the user's emotions in real time and reflects them in the development of the story.
データ加工およびデータ演算 Data processing and calculation
サーバは、以下のようなデータ加工およびデータ演算を行う: The server performs the following data processing and calculations:
物語のテーマや登場人物の性格に基づいて、適切な伏線を生成する。 Generate appropriate foreshadowing based on the story's theme and the characters' personalities.
物語の進行に合わせて、ミステリー要素を散りばめる。 Mystery elements are scattered throughout the story as it progresses.
感動的なシーンを作り出すために、登場人物の感情や状況を分析する。 Analyze the characters' emotions and situations to create moving scenes.
端末は、ユーザの表情や音声から感情データを収集し、サーバに送信する。サーバはこの感情データを解析し、物語の展開を調整する。 The device collects emotional data from the user's facial expressions and voice and sends it to the server. The server analyzes this emotional data and adjusts the story's development.
具体例 Specific examples
例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線を生成する場合、以下のようなプロンプト文を生成AIモデルに入力する: For example, to generate a hint that a person the knight meets during his adventure will play an important role later in the story, the following prompt sentence can be input into the generative AI model:
プロンプト文の例: Example prompt:
「騎士が冒険の途中で出会った謎の老人が、後の物語で重要な役割を果たすような伏線を作成してください。」 "Please create a plot twist that will lead to the mysterious old man the knight meets during his adventure playing an important role later in the story."
また、ユーザが物語に対して喜びを感じている場合、物語をさらに明るい展開にするためのプロンプト文は以下のようになる: Also, if the user is feeling happy about the story, a prompt to make the story even more upbeat might look like this:
プロンプト文の例: Example prompt:
「ユーザが喜びを感じているので、物語をさらに明るい展開にしてください。例えば、騎士が新たな仲間を見つけるシーンを追加してください。」 "Users are enjoying this, so please make the story even more upbeat. For example, add a scene where the knight finds a new companion."
このようにして、サーバは生成AIモデルと感情エンジンを活用し、ユーザの感情に応じた物語の展開を自動で生成する。 In this way, the server utilizes a generative AI model and emotion engine to automatically generate a story development that corresponds to the user's emotions.
実施例2における特定処理の流れについて図19を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 19.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の性格、物語の進行に関する情報を入力する。 The user enters information about the story's theme, the characters' personalities, and the story's progression.
入力:物語のテーマ(例:冒険)、登場人物の性格(例:勇敢)、物語の進行に関する情報 Input: Story theme (e.g., adventure), character traits (e.g., bravery), and information about the story's progression.
出力:ユーザの入力情報 Output: User input information
具体的な動作:ユーザは端末の入力フォームに「冒険」をテーマとして入力し、登場人物の性格を「勇敢」と設定する。 Specific operation: The user enters the theme "adventure" into the device's input form and sets the character's personality to "brave."
ステップ2: Step 2:
端末がユーザの入力情報をサーバに送信する。 The device sends the user's input information to the server.
入力:ユーザの入力情報 Input: User input information
出力:サーバに送信されたユーザの入力情報 Output: User input information sent to the server
具体的な動作:端末が「テーマ: 冒険、性格: 勇敢」という情報をサーバに送信する。 Specific operation: The device sends the information "Theme: Adventure, Personality: Brave" to the server.
ステップ3: Step 3:
サーバが生成AIモデルを使用して物語の要素を生成する。 The server generates story elements using generative AI models.
入力:ユーザの入力情報 Input: User input information
出力:生成された物語の要素 Output: Generated story elements
具体的な動作:サーバが生成AIモデルに「冒険テーマで勇敢な騎士が主人公の物語を生成してください」というプロンプト文を入力し、物語の要素を生成する。 Specific operation: The server inputs the prompt "Generate a story with an adventure theme and a brave knight as the protagonist" into the generation AI model, and generates the elements of the story.
ステップ4: Step 4:
サーバが生成した物語の要素を端末に送信する。 The server sends the generated story elements to the device.
入力:生成された物語の要素 Input: Generated story elements
出力:端末に送信された物語の要素 Output: Story elements sent to the device
具体的な動作:サーバが生成した物語の要素(例:「騎士が冒険の途中で出会う謎の老人」)を端末に送信する。 Specific operation: The server sends story elements generated by the server (e.g., "The mysterious old man the knight meets during his adventure") to the device.
ステップ5: Step 5:
端末が物語をユーザに表示する。 The device displays the story to the user.
入力:サーバから受け取った物語の要素 Input: Story elements received from the server
出力:ユーザに表示された物語 Output: The story displayed to the user
具体的な動作:端末が「騎士が冒険の途中で謎の老人に出会う」というシーンをユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight meets a mysterious old man during his adventure.
ステップ6: Step 6:
ユーザの感情をリアルタイムで認識する。 Recognize user emotions in real time.
入力:ユーザの表情や音声 Input: User's facial expressions and voice
出力:認識されたユーザの感情データ Output: Recognized user emotion data
具体的な動作:ユーザが笑顔を見せると、端末がユーザの表情をカメラでキャプチャし、喜びを感じていると認識する。 Specific operation: When the user smiles, the device captures the user's facial expression with its camera and recognizes that the user is feeling happy.
ステップ7: Step 7:
端末がユーザの感情データをサーバに送信する。 The device sends the user's emotional data to the server.
入力:認識されたユーザの感情データ Input: Recognized user emotion data
出力:サーバに送信された感情データ Output: Emotion data sent to the server
具体的な動作:端末が「ユーザは喜びを感じている」という感情データをサーバに送信する。 Specific operation: The device sends emotional data indicating "the user is feeling happy" to the server.
ステップ8: Step 8:
サーバが感情データを解析し、物語の展開を調整する。 The server analyzes the emotional data and adjusts the story development.
入力:ユーザの感情データ Input: User emotion data
出力:調整された物語の展開 Output: Coordinated story development
具体的な動作:サーバが感情データを解析し、「物語をさらに明るい展開にする」ためのプロンプト文を生成AIモデルに入力する。 Specific operation: The server analyzes the emotional data and inputs prompt sentences into the generative AI model to "make the story more upbeat."
ステップ9: Step 9:
サーバが調整後の物語を端末に送信する。 The server will send the adjusted story to your device.
入力:調整された物語の展開 Input: Adjusted story development
出力:端末に送信された調整後の物語 Output: The adjusted story sent to the terminal.
具体的な動作:サーバが生成した明るい展開の物語(例:「騎士が新たな仲間を見つけるシーン」)を端末に送信する。 Specific operation: The server generates a story with an upbeat plot (e.g., "A scene where the knight finds a new companion") and sends it to the device.
ステップ10: Step 10:
端末が調整後の物語をユーザに表示する。 The device will then display the adjusted story to the user.
入力:サーバから受け取った調整後の物語 Input: Adjusted story received from the server
出力:ユーザに表示された調整後の物語 Output: The adjusted story displayed to the user.
具体的な動作:端末が「騎士が新たな仲間を見つけるシーン」をユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight finds a new companion.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、ユーザの感情に応じて物語の展開をリアルタイムで調整することができなかった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する機能も不十分であった。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが困難であった。 While conventional story generation systems could automatically generate a story based on the story's theme and character settings, they were unable to adjust the story's development in real time in response to the user's emotions. They also lacked the functionality to automatically generate plot twists, mystery elements, and moving scenes to make a story more interesting. This made it difficult to provide an interactive story experience that responded to the user's emotions.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する手段と、を含む。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions in real time and adjusting the story development in response to those emotions; and means for generating story prompts using a generative AI model and automatically generating a story. This makes it possible to provide an interactive story experience that responds to the user's emotions.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指すものである。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや役割を持つ人物を指すものである。 "Characters" refers to the characters or people who play a role in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントを指すものである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語において謎や疑問を引き起こす要素を指すものである。 "Mystery elements" refer to elements in a story that raise questions or raise doubts.
「感動的なシーン」とは、視聴者や読者に強い感情を引き起こす場面を指すものである。 A "moving scene" is one that evokes strong emotions in the viewer or reader.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やサウンドトラックを指すものである。 "Song" refers to the music or soundtrack that plays along with the story scenes.
「演出効果」とは、物語のシーンをより効果的に見せるための視覚的、聴覚的な手法を指すものである。 "Stage effects" refer to visual and auditory techniques used to make story scenes appear more effective.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指すものである。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
「感情をリアルタイムで認識する」とは、ユーザの表情や声のトーンなどを分析して、その瞬間の感情を把握することを指すものである。 "Recognizing emotions in real time" refers to analyzing the user's facial expressions, tone of voice, etc. to grasp their emotions at that moment.
「物語の展開を調整する」とは、物語の進行や内容をユーザの感情に応じて変更することを指すものである。 "Adjusting the development of the story" refers to changing the progress and content of the story in response to the user's emotions.
「生成AIモデル」とは、人工知能を用いてテキストや物語を生成するためのモデルを指すものである。 "Generative AI model" refers to a model that uses artificial intelligence to generate text or stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文やキーワードを指すものである。 A "prompt" refers to an instruction or keyword that is input into a generative AI model.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、サーバは物語のテーマや舞台、登場人物などのストーリー設定を入力する手段を提供する。ユーザはこれらの設定を入力することで、物語の基本的な要素を決定する。 A system for implementing this invention has the following configuration: First, the server provides a means for inputting story settings such as the story's theme, setting, and characters. By inputting these settings, the user determines the basic elements of the story.
次に、サーバは入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段を持つ。この手段は、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 Next, the server has a means to automatically create character dialogue, scenery, and story structure based on the input story setting. This means uses a generative AI model to generate story prompts and automatically generate the story.
さらに、サーバは作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段を持つ。これにより、物語の深みや興味を引き出すことができる。 Furthermore, the server has the means to automatically generate hints, mystery elements, moving scenes, and more to make the stories you create more interesting. This helps to add depth and interest to the story.
また、サーバは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段を持つ。これにより、物語の視覚的および聴覚的な演出効果を高めることができる。具体的には、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する。 The server also has the means to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story. Specifically, the graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
さらに、サーバは物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を持つ。これにより、ユーザはより感情的に物語に引き込まれる。 Furthermore, the server has the means to enhance the dramatic effect through the story structure, character dialogue, visuals, and music, effectively stirring the viewer's emotions. This allows users to be more emotionally drawn into the story.
特に重要なのは、サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段を持つことである。スマートフォンのカメラやマイクを使用してユーザの表情や声のトーンを分析し、ユーザの感情を把握する。この感情データに基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 What's particularly important is that the server has a means of recognizing the user's emotions in real time and adjusting the story development accordingly. It uses the smartphone's camera and microphone to analyze the user's facial expressions and tone of voice to understand their emotions. Based on this emotional data, it generates prompt sentences for the story and adjusts the story development accordingly.
具体例として、ユーザが物語を読み進めているときに、カメラがユーザの表情をキャプチャし、ユーザが笑顔であることを認識した場合、物語の展開が明るく楽しいものになる。逆に、ユーザが悲しんでいる場合、物語はより深みのある展開になる。 For example, if a user is reading a story and the camera captures their facial expressions and recognizes that they are smiling, the story will develop in a lighthearted and cheerful way. Conversely, if the user is sad, the story will develop in a more profound way.
プロンプト文の例としては、以下のようなものがある。 Examples of prompt statements include:
「主人公は幸せな気持ちで冒険を続けている。」 "The protagonist continues his adventure with a happy feeling."
「主人公は困難に直面しているが、希望を失わない。」 "The protagonist faces difficulties, but does not lose hope."
「主人公は新たな謎に挑む。」 "The protagonist takes on a new mystery."
このようにして、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能である。 In this way, it is possible to provide an interactive narrative experience that responds to the user's emotions.
応用例2における特定処理の流れについて図20を用いて説明する。 The flow of the specific processing in Application Example 2 is explained using Figure 20.
ステップ1: Step 1:
ユーザが物語のテーマや舞台、登場人物などのストーリー設定を入力する。 The user enters story settings such as theme, setting, and characters.
入力:ユーザが入力する物語のテーマ、舞台、登場人物などの設定情報。 Input: Setting information such as the story's theme, setting, and characters entered by the user.
出力:ストーリー設定データ。 Output: Story setting data.
具体的な動作:ユーザはスマートフォンのアプリケーションを使用して、物語の基本設定を入力する。これには、物語の主題、場所、主要なキャラクターの情報が含まれる。サーバはこれらの設定情報を受け取り、ストーリー設定データとして保存する。 Specific operation: The user uses a smartphone application to input the basic setting of the story, including information about the story's theme, location, and main characters. The server receives this setting information and stores it as story setting data.
ステップ2: Step 2:
サーバが入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 The server automatically creates character dialogue, scenes, and story structure based on the story settings entered.
入力:ストーリー設定データ。 Input: Story setting data.
出力:物語のセリフ、情景、構成データ。 Output: Story dialogue, scenery, and composition data.
具体的な動作:サーバは生成AIモデルを使用して、ストーリー設定データに基づいて登場人物のセリフや情景、物語の構成を生成する。生成されたデータは、物語の進行に必要な要素として保存される。 Specific operation: The server uses the generative AI model to generate character dialogue, scenery, and story structure based on story setting data. The generated data is saved as elements necessary for the story's progression.
ステップ3: Step 3:
サーバが作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 The server automatically generates hints, mystery elements, moving scenes, and more to make the stories it creates more interesting.
入力:物語のセリフ、情景、構成データ。 Input: Story lines, scenery, and composition data.
出力:伏線、ミステリー要素、感動的なシーンデータ。 Output: Foreshadowing, mystery elements, and moving scene data.
具体的な動作:サーバは生成AIモデルを使用して、物語のセリフや情景、構成データに基づいて伏線やミステリー要素、感動的なシーンを生成する。これにより、物語の深みや興味を引き出す要素が追加される。 Specifically, how it works: The server uses a generative AI model to generate plot twists, mystery elements, and moving scenes based on the dialogue, scenery, and composition data of the story. This adds depth and intrigue to the story.
ステップ4: Step 4:
サーバが作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力:伏線、ミステリー要素、感動的なシーンデータ。 Input: Foreshadowing, mystery elements, and moving scene data.
出力:グラフィックデータ、音楽データ。 Output: Graphics data, music data.
具体的な動作:サーバはシーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲を自動で制作する。これには、画像生成モデルや音楽生成モデルが使用される。生成されたグラフィックや音楽は、物語の各シーンに適用される。 Specific operation: The server automatically creates graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters. This is done using image generation models and music generation models. The generated graphics and music are then applied to each scene in the story.
ステップ5: Step 5:
サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する。 The server recognizes the user's emotions in real time and adjusts the story development accordingly.
入力:ユーザの表情データ、声のトーンデータ。 Input: User's facial expression data, tone of voice data.
出力:調整された物語のプロンプト文。 Output: Tailored narrative prompt.
具体的な動作:スマートフォンのカメラやマイクを使用して、ユーザの表情や声のトーンをキャプチャする。サーバはこれらのデータを分析し、ユーザの感情をリアルタイムで認識する。認識された感情に基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 Specific operation: The smartphone's camera and microphone are used to capture the user's facial expressions and tone of voice. The server analyzes this data and recognizes the user's emotions in real time. Based on the recognized emotions, it generates story prompts and adjusts the story's development.
ステップ6: Step 6:
サーバが生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 The server uses a generative AI model to generate story prompts and automatically generate the story.
入力:調整された物語のプロンプト文。 Input: Tailored story prompt.
出力:生成された物語。 Output: The generated story.
具体的な動作:サーバは生成AIモデルを使用して、調整されたプロンプト文に基づいて物語を生成する。生成された物語は、ユーザの感情に応じたインタラクティブな体験を提供するために使用される。 Specific operation: The server uses a generative AI model to generate a story based on the adjusted prompt. The generated story is used to provide an interactive experience that responds to the user's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視聴者の心情を効果的に揺さぶることができなかった。また、ユーザの感情をリアルタイムで認識し、それに応じて物語の展開を調整する機能が欠如していたため、ユーザに対して一貫した感情体験を提供することが困難であった。これにより、物語体験の質が低下し、ユーザの満足度が低くなるという課題があった。 With conventional story generation systems, it was difficult to automatically create graphics and music that matched each scene in the story, making it difficult to effectively sway the viewer's emotions. Furthermore, they lacked the ability to recognize the user's emotions in real time and adjust the story's development accordingly, making it difficult to provide the user with a consistent emotional experience. This resulted in a decline in the quality of the story experience and low user satisfaction.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する手段と、ユーザの感情に応じて物語の展開を調整する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for using information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions; means for adjusting the story development in accordance with the user's emotions; and means for enhancing the dramatic effects of the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材を指す。 "Story theme" refers to the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指す。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要となる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that provide advance hints at information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される画像やイラストを指す。 "Graphics" refers to images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指す。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「顔表情」とは、ユーザの顔の表情筋の動きによって表現される感情を指す。 "Facial expression" refers to emotions expressed through the movement of the user's facial muscles.
「声のトーン」とは、ユーザの声の高さや強さ、抑揚などを指す。 "Tone of voice" refers to the pitch, strength, and intonation of the user's voice.
「テキスト入力」とは、ユーザがキーボードやタッチパネルを用いて入力する文字情報を指す。 "Text input" refers to text information entered by a user using a keyboard or touch panel.
「物語の展開」とは、物語が進行する過程や流れを指す。 "Story development" refers to the process and flow of the story.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて視聴者に与える影響を指す。 "Directory effects" refer to the impact that the visual and auditory elements of a story have on the viewer.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指す。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
この発明は、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて物語を自動で生成し、さらにユーザの感情に応じて物語の展開を調整するシステムである。このシステムは、以下のようなハードウェアおよびソフトウェアを用いて実施される。 This invention is a system that inputs story settings such as the story's theme, setting, and characters, automatically generates a story based on the input story settings, and further adjusts the story's development according to the user's emotions. This system is implemented using the following hardware and software.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: 高性能なサーバ(例: GPU搭載のサーバ)およびユーザの端末(例: カメラとマイクを搭載したPCやスマートフォン) Hardware: High-performance servers (e.g., servers with GPUs) and user devices (e.g., PCs or smartphones with cameras and microphones)
ソフトウェア: 生成AIモデル(例: GPT-4、画像生成AI、音楽生成AI)、感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ) Software: Generative AI models (e.g., GPT-4, image generation AI, music generation AI), emotion recognition software (e.g., OpenCV, voice analysis libraries)
プログラムの処理の説明 Program processing explanation
1. 物語の入力と解析 1. Story input and analysis
ユーザは端末を使用して、物語のテーマや舞台、登場人物などのストーリー設定を入力する。例えば、「勇者がドラゴンと戦うシーン」と入力する。サーバはこの入力を受信し、生成AIモデル(例: GPT-4)を用いて物語の各シーンを解析し、シーンの雰囲気や登場人物の感情状態を抽出する。 The user uses their device to input story settings such as the story's theme, setting, and characters. For example, they might input "a scene where a hero fights a dragon." The server receives this input and uses a generative AI model (e.g., GPT-4) to analyze each scene in the story and extract the scene's atmosphere and the characters' emotional states.
2. グラフィックと音楽の生成 2. Graphics and Music Generation
サーバは解析結果を基に、画像生成AIを用いてシーンにマッチしたグラフィックを生成する。例えば、ドラゴンと勇者が戦っている迫力あるグラフィックを生成する。同様に、音楽生成AIを用いてシーンに適した音楽を生成する。例えば、戦闘シーンに合う緊張感を高める音楽を生成する。 Based on the analysis results, the server uses image generation AI to generate graphics that match the scene. For example, it could generate an impressive graphic of a hero fighting a dragon. Similarly, it uses music generation AI to generate music that suits the scene. For example, it could generate music that heightens the tension in a battle scene.
3. ユーザの感情認識 3. User Emotion Recognition
端末はカメラとマイクを使用して、ユーザの顔表情や声のトーンを取得する。例えば、ユーザが笑顔を見せている場合、端末はその情報をサーバに送信する。サーバは感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)を用いて、ユーザの感情を解析する。 The device uses a camera and microphone to capture the user's facial expressions and tone of voice. For example, if the user is smiling, the device sends that information to the server. The server then uses emotion recognition software (e.g., OpenCV, voice analysis library) to analyze the user's emotions.
4. 物語の展開調整 4. Story Development Adjustments
サーバはユーザの感情情報を基に、感情エンジンを使用して物語の展開を調整する。例えば、ユーザが笑顔を見せている場合、物語の展開をさらにエキサイティングな方向に調整する。 The server uses an emotion engine to adjust the story development based on the user's emotional information. For example, if the user is smiling, the story development will be adjusted to a more exciting direction.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例: Example:
ユーザが「勇者がドラゴンと戦うシーン」を入力する。 The user enters "a scene in which a hero fights a dragon."
サーバは戦闘シーンとして解析し、画像生成AIを用いてドラゴンと勇者の迫力あるグラフィックを生成する。 The server analyzes the scene as a battle scene and uses image generation AI to generate powerful graphics of the dragon and hero.
音楽生成AIを用いて緊張感を高める音楽を生成する。 Music generation AI is used to generate music that heightens the tension.
ユーザが笑顔を見せている場合、感情エンジンはユーザが楽しんでいると認識し、物語の展開をさらにエキサイティングな方向に調整する。 If the user is smiling, the emotion engine recognizes that the user is having fun and adjusts the story development in a more exciting direction.
プロンプト文の例: Example prompt:
「勇者がドラゴンと戦うシーンのグラフィックを生成してください。」 "Generate graphics for a scene in which a hero fights a dragon."
「感動的なシーンに合う音楽を生成してください。」 "Generate music that matches an emotional scene."
「ユーザが笑顔を見せている場合、物語の展開を楽しい方向に調整してください。」 "If the user is smiling, adjust the story development to make it more enjoyable."
このシステムにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。これにより、視聴者の心情を効果的に揺さぶることができ、物語体験の質を向上させることができる。実施例3における特定処理の流れについて図21を用いて説明する。 This system makes it possible to automatically create graphics and music that match each scene in a story, and to provide a story development that responds to the user's emotions. This effectively stirs the viewer's emotions and improves the quality of the story experience. The flow of the specific processing in Example 3 is explained using Figure 21.
ステップ1: Step 1:
ユーザが物語のテキストを入力する。 The user enters the text of the story.
ユーザは端末のテキスト入力フィールドに「勇者がドラゴンと戦うシーン」と入力し、送信ボタンをクリックする。入力されたテキストは端末からサーバに送信される。 The user enters "A scene in which a hero fights a dragon" into the text input field on the device and clicks the send button. The entered text is sent from the device to the server.
ステップ2: Step 2:
サーバが物語のテキストを解析する。 The server analyzes the story text.
サーバは受信したテキストを生成AIモデル(例: GPT-4)に入力し、物語の各シーンを解析する。解析の結果、シーンの雰囲気や登場人物の感情状態を抽出する。例えば、「戦闘シーン」と「緊張感」を抽出する。解析結果は内部データベースに保存される。 The server inputs the received text into a generative AI model (e.g., GPT-4) and analyzes each scene in the story. As a result of the analysis, the atmosphere of the scene and the emotional state of the characters are extracted. For example, "battle scene" and "tension" are extracted. The analysis results are stored in an internal database.
ステップ3: Step 3:
サーバがシーンにマッチしたグラフィックを生成する。 The server generates graphics that match the scene.
サーバは解析結果を基に、画像生成AI(例: DALL-E)を使用してシーンにマッチしたグラフィックを生成する。例えば、「ドラゴンと勇者が戦っているシーン」をプロンプトとして入力し、生成されたグラフィックを取得する。生成されたグラフィックはユーザの端末に送信される。 Based on the analysis results, the server uses image generation AI (e.g., DALL-E) to generate graphics that match the scene. For example, enter "a scene of a hero fighting a dragon" as a prompt and obtain the generated graphic. The generated graphic is then sent to the user's device.
ステップ4: Step 4:
サーバがシーンにマッチした音楽を生成する。 The server generates music that matches the scene.
サーバは音楽生成AIを用いて、シーンに適した音楽を生成する。例えば、「戦闘シーンに合う緊張感を高める音楽」をプロンプトとして入力し、生成された音楽を取得する。生成された音楽はユーザの端末に送信される。 The server uses music generation AI to generate music appropriate for the scene. For example, a user can enter "music that will increase tension in a battle scene" as a prompt and obtain the generated music. The generated music is then sent to the user's device.
ステップ5: Step 5:
端末がユーザの感情を認識する。 The device recognizes the user's emotions.
端末はカメラでユーザの顔表情をキャプチャし、マイクで声のトーンを録音する。これらのデータはリアルタイムでサーバに送信される。例えば、ユーザが笑顔を見せている場合、その情報がサーバに送信される。 The device uses a camera to capture the user's facial expressions and a microphone to record the tone of voice. This data is sent to the server in real time. For example, if the user is smiling, that information is sent to the server.
ステップ6: Step 6:
サーバがユーザの感情に応じて物語の展開を調整する。 The server adjusts the story development based on the user's emotions.
サーバは受信した感情データを感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)で解析し、ユーザの感情を認識する。例えば、ユーザが笑顔を見せていると認識した場合、感情エンジンを使用して物語の展開をエキサイティングな方向に調整する。新しいシーンが生成され、ユーザの端末に送信される。 The server analyzes the received emotional data using emotion recognition software (e.g., OpenCV, voice analysis library) to recognize the user's emotions. For example, if it recognizes that the user is smiling, it uses the emotion engine to adjust the story development in an exciting direction. A new scene is generated and sent to the user's device.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。 Next, we will explain Application Example 3 of Configuration Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the headset-type terminal 314 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザの感情に応じた物語の調整が行われず、ユーザ体験が一律であるという問題があった。また、物語のシーンや音楽が固定されているため、ユーザの感情に応じたダイナミックな変化が提供できないという課題があった。これにより、ユーザの感情に深く訴えかける物語体験を提供することが困難であった。 Conventional story generation systems have the problem of not adjusting the story based on the user's emotions, resulting in a uniform user experience. Furthermore, because the story scenes and music are fixed, they are unable to provide dynamic changes that respond to the user's emotions. This makes it difficult to provide a story experience that deeply appeals to the user's emotions.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情を認識し、認識された感情に応じて物語のシーンや音楽を調整する手段と、ユーザの顔表情、声のトーン、テキスト入力などを利用して感情を認識する手段と、を含む。これにより、ユーザの感情に応じたダイナミックな物語体験が可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions and adjusting story scenes and music in accordance with the recognized emotions; and means for recognizing emotions using the user's facial expressions, tone of voice, text input, etc. This enables a dynamic story experience that matches the user's emotions.
「物語のテーマ」とは、物語の中心となるアイデアやメッセージを指すものである。 A "story theme" refers to the central idea or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指すものである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指すものである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指すものである。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つようになる前半の要素を指すものである。 "Foreshadowing" refers to an element in the first half of a story that becomes important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指すものである。 "Mystery elements" refer to elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンを視覚的に表現する画像や映像を指すものである。 "Graphics" refers to images and footage that visually represent scenes from a story.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語のシーンや音楽を通じて視聴者の感情に影響を与える効果を指すものである。 "Directional effects" refer to effects that influence the viewer's emotions through story scenes and music.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指すものである。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「感情を認識する手段」とは、ユーザの顔表情、声のトーン、テキスト入力などを利用してユーザの感情を判断する技術を指すものである。 "Means for recognizing emotions" refers to technology that determines a user's emotions using their facial expressions, tone of voice, text input, etc.
「物語のシーンや音楽を調整する手段」とは、認識されたユーザの感情に応じて物語のシーンや音楽を変更する技術を指すものである。 "Means for adjusting story scenes and music" refers to technology that changes story scenes and music according to the recognized user emotions.
この発明を実施するためのシステムは、ユーザの感情に応じて物語のシーンや音楽を動的に調整することができる。以下に、このシステムの具体的な実施形態を説明する。 A system for implementing this invention can dynamically adjust story scenes and music according to the user's emotions. A specific embodiment of this system is described below.
システム構成 System Configuration
このシステムは、以下の主要なハードウェアおよびソフトウェアコンポーネントを含む: The system includes the following major hardware and software components:
ハードウェア: スマートフォンのカメラ Hardware: Smartphone camera
ソフトウェア: OpenCV(顔検出)、Keras(感情認識モデル)、音楽再生ソフトウェア Software: OpenCV (face detection), Keras (emotion recognition model), music playback software
プログラムの処理 Program processing
サーバは、まずスマートフォンのカメラを使用してユーザの顔表情をキャプチャする。キャプチャされた映像は、OpenCVを用いて顔検出が行われる。次に、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。 The server first captures the user's facial expression using the smartphone camera. The captured video undergoes face detection using OpenCV. Next, it uses the Keras emotion recognition model to recognize the user's emotion from the detected face.
認識された感情に基づいて、サーバは物語のシーンや音楽を調整する。例えば、ユーザが笑顔を見せている場合、物語のシーンは明るく楽しいものに変更され、音楽も軽快なものに変わる。逆に、ユーザが悲しい表情をしている場合、物語は感動的なシーンに移行し、音楽も心に響くものに変わる。 Based on the recognized emotion, the server adjusts the story scenes and music. For example, if the user is smiling, the story scenes will change to brighter, more cheerful ones, and the music will also become more upbeat. Conversely, if the user has a sad expression, the story will transition to a more moving scene, and the music will also change to something more moving.
具体例 Specific examples
具体例として、ユーザが物語を楽しんでいる最中に笑顔を見せた場合を考える。この場合、サーバは以下のように処理を行う: As a concrete example, consider the case where a user smiles while enjoying a story. In this case, the server would process the following:
1. スマートフォンのカメラでユーザの顔表情をキャプチャ。 1. Capture the user's facial expressions using the smartphone camera.
2. OpenCVを使用して顔を検出。 2. Detect faces using OpenCV.
3. Kerasの感情認識モデルでユーザの感情を「喜び」と認識。 3. The user's emotion is recognized as "happiness" using the Keras emotion recognition model.
4. 認識された感情に基づいて、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生。 4. Based on the recognized emotion, the story scene is changed to a brighter, more cheerful one and upbeat music is played.
プロンプト文の例 Example prompt
生成AIモデルへ入力するプロンプト文の例は以下の通りである: An example of a prompt to input to the generative AI model is as follows:
ユーザが笑顔を見せた場合、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生してください。 If the user smiles, change the story scene to something bright and cheerful and play upbeat music.
このようにして、ユーザの感情に応じたダイナミックな物語体験を提供することが可能である。このシステムにより、ユーザはより深く物語に没入し、感情に訴えかける体験を得ることができる。 In this way, it is possible to provide a dynamic narrative experience that responds to the user's emotions. This system allows users to become more immersed in the story and have an experience that appeals to their emotions.
応用例3における特定処理の流れについて図22を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 22.
ステップ1: Step 1:
サーバは、スマートフォンのカメラを使用してユーザの顔表情をキャプチャする。入力はカメラ映像であり、出力はキャプチャされた画像データである。具体的な動作として、カメラがリアルタイムで映像を取得し、その映像をフレームごとにキャプチャする。 The server uses the smartphone's camera to capture the user's facial expressions. The input is the camera image, and the output is the captured image data. Specifically, the camera acquires the image in real time and captures the image frame by frame.
ステップ2: Step 2:
サーバは、OpenCVを使用してキャプチャされた画像データから顔を検出する。入力はキャプチャされた画像データであり、出力は検出された顔の位置情報である。具体的な動作として、OpenCVの顔検出アルゴリズムが画像内の顔を識別し、その座標を取得する。 The server uses OpenCV to detect faces from captured image data. The input is the captured image data, and the output is the location information of the detected face. Specifically, OpenCV's face detection algorithm identifies the face in the image and obtains its coordinates.
ステップ3: Step 3:
サーバは、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。入力は顔の位置情報と画像データであり、出力は認識された感情ラベルである。具体的な動作として、顔の領域を切り出し、前処理を行った後、感情認識モデルに入力して感情を分類する。 The server uses a Keras emotion recognition model to recognize the user's emotion from the detected face. The input is face position information and image data, and the output is the recognized emotion label. Specifically, the face area is extracted, preprocessed, and then input into the emotion recognition model to classify the emotion.
ステップ4: Step 4:
サーバは、認識された感情に基づいて物語のシーンや音楽を調整する。入力は認識された感情ラベルであり、出力は調整されたシーンと音楽である。具体的な動作として、感情ラベルに対応するシーンと音楽を選択し、物語の進行を変更する。 The server adjusts the story scenes and music based on the recognized emotions. The input is the recognized emotion label, and the output is the adjusted scenes and music. Specific operations include selecting scenes and music that correspond to the emotion label and changing the progression of the story.
ステップ5: Step 5:
サーバは、調整されたシーンと音楽をユーザの端末に送信する。入力は調整されたシーンと音楽であり、出力はユーザの端末に表示される物語のシーンと再生される音楽である。具体的な動作として、シーンと音楽のデータをエンコードし、ネットワークを通じてユーザの端末に送信する。 The server sends the adjusted scene and music to the user's device. The input is the adjusted scene and music, and the output is the story scene displayed on the user's device and the music played. Specifically, the server encodes the scene and music data and sends it to the user's device over the network.
ステップ6: Step 6:
ユーザの端末は、受信したシーンと音楽を再生し、ユーザに提供する。入力はサーバから受信したシーンと音楽データであり、出力はユーザに表示される映像と再生される音楽である。具体的な動作として、端末がデータをデコードし、画面に表示し、スピーカーから音楽を再生する。 The user's device plays the received scenes and music and provides them to the user. The input is the scene and music data received from the server, and the output is the video displayed to the user and the music played. Specifically, the device decodes the data, displays it on the screen, and plays the music from the speakers.
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the headset terminal 314. In the headset terminal 314, the control unit 46A causes the speaker 240 and display 343 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). An example of data generation model 58 is generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating voice, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。 Another example of generative AI is Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>).
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the headset-type terminal 314.
[第4実施形態] [Fourth embodiment]
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。 Figure 7 shows an example of the configuration of a data processing system 410 according to the fourth embodiment.
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。 As shown in FIG. 7, the data processing system 410 includes a data processing device 12 and a robot 414. An example of the data processing device 12 is a server.
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。 The data processing device 12 includes a computer 22, a database 24, and a communication I/F 26. The computer 22 is an example of a "computer" according to the technology of the present disclosure. The computer 22 includes a processor 28, RAM 30, and storage 32. The processor 28, RAM 30, and storage 32 are connected to a bus 34. The database 24 and communication I/F 26 are also connected to the bus 34. The communication I/F 26 is connected to a network 54. Examples of the network 54 include a WAN (Wide Area Network) and/or a LAN (Local Area Network).
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。 The robot 414 includes a computer 36, a microphone 238, a speaker 240, a camera 42, a communication I/F 44, and a control target 443. The computer 36 includes a processor 46, RAM 48, and storage 50. The processor 46, RAM 48, and storage 50 are connected to a bus 52. The microphone 238, speaker 240, camera 42, and control target 443 are also connected to the bus 52.
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。 The microphone 238 receives instructions and the like from the user 20 by receiving voice uttered by the user 20. The microphone 238 captures the voice uttered by the user 20, converts the captured voice into audio data, and outputs it to the processor 46. The speaker 240 outputs audio in accordance with instructions from the processor 46.
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。 Camera 42 is a small digital camera equipped with an optical system including a lens, aperture, and shutter, and an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor, and captures images of the user 20's surroundings (e.g., an imaging range defined by an angle of view equivalent to the field of vision of a typical healthy person).
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。 The communication I/F 44 is connected to the network 54. The communication I/Fs 44 and 26 are responsible for the exchange of various information between the processor 46 and the processor 28 via the network 54. The exchange of various information between the processor 46 and the processor 28 using the communication I/Fs 44 and 26 is carried out in a secure manner.
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。 The control object 443 includes a display device, LEDs in the eyes, and motors that drive the arms, hands, and feet. The posture and gestures of the robot 414 are controlled by controlling the motors of the arms, hands, and feet. Some of the emotions of the robot 414 can be expressed by controlling these motors. In addition, the facial expressions of the robot 414 can also be expressed by controlling the light emission state of the LEDs in the eyes of the robot 414.
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。 Figure 8 shows an example of the main functions of the data processing device 12 and the robot 414. As shown in Figure 8, in the data processing device 12, specific processing is performed by the processor 28. A specific processing program 56 is stored in the storage 32.
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。 The specific processing program 56 is an example of a "program" according to the technology of the present disclosure. The processor 28 reads the specific processing program 56 from the storage 32 and executes the read specific processing program 56 on the RAM 30. The specific processing is realized by the processor 28 operating as the specific processing unit 290 in accordance with the specific processing program 56 executed on the RAM 30.
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。 Storage 32 stores a data generation model 58 and an emotion identification model 59. The data generation model 58 and the emotion identification model 59 are used by the identification processing unit 290.
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。 In the robot 414, the reception output process is performed by the processor 46. A reception output program 60 is stored in the storage 50. The processor 46 reads the reception output program 60 from the storage 50 and executes the read reception output program 60 on the RAM 48. The reception output process is realized by the processor 46 operating as the control unit 46A in accordance with the reception output program 60 executed on the RAM 48.
次に、データ処理装置12の特定処理部290による特定処理について説明する。 Next, we will explain the identification process performed by the identification processing unit 290 of the data processing device 12.
「形態例1」 "Example 1"
本発明のシステムは、ユーザーから物語のテーマや舞台、登場人物などのストーリー設定を入力として受け取る。この入力はテキスト形式で行われ、例えば「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。次に、この入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われ、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 The system of the present invention receives input from the user about the story setting, such as the story's theme, setting, and characters. This input is in text format, such as "A knight's adventure story set in medieval Europe." Next, based on this input, the system automatically creates character dialogue, scenes, and a story structure. This creation is carried out using existing story databases and artificial intelligence technology, generating dialogue and scenes that match the story flow, character personalities, and story theme.
「形態例2」 "Example 2"
さらに、システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。これは、物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 In addition, the system automatically generates hints, mystery elements, and moving scenes to make the story more interesting. This is done by laying hints at the right time, sprinkling mystery elements, and creating moving scenes in line with the story's theme, the characters' personalities, and the story's progression. For example, it automatically generates hints that people the knight meets during his adventure will play an important role later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties.
「形態例3」 "Example 3"
そして、システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これは、シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 The system then automatically creates graphics and music that match each scene in the story you've created. The graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters. For example, powerful graphics and music that heighten tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This makes it possible to enhance the dramatic effect of the story's structure, the characters' conversations, images, and music, effectively stirring the viewer's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザーから物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力として受け取る。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった形で提供される。 Step 1: The user provides textual input of the story setting, including the story's theme, setting, and characters. For example, it could be provided as "a knight's adventure story set in medieval Europe."
ステップ2:入力に基づき、システムは登場人物のセリフや情景、物語の構成を自動で作成する。この作成は、既存の物語データベースや人工知能技術を用いて行われる。 Step 2: Based on the input, the system automatically creates character dialogue, scenery, and story structure. This is done using existing story databases and artificial intelligence technology.
ステップ3:物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景が生成される。 Step 3: Lines and scenes are generated that match the story flow, character personalities, and theme of the story.
「形態例2」 "Example 2"
ステップ1:システムは物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 1: The system automatically generates plot twists, mystery elements, moving scenes, and more to make the story more interesting.
ステップ2:物語のテーマや登場人物の性格、物語の進行に合わせて、適切なタイミングで伏線を張り、ミステリー要素を散りばめ、感動的なシーンを作り出す。 Step 2: Lay out hints at the right time, sprinkle in mystery elements, and create moving scenes in line with the story's theme, the characters' personalities, and the story's progression.
ステップ3:例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線、騎士が直面する謎解きの要素、騎士が困難を乗り越えた時の感動的なシーンなどが自動で生成される。 Step 3: For example, foreshadowing, such as people the knight meets during his adventure playing important roles later in the story, puzzles the knight faces, and moving scenes when the knight overcomes difficulties, are automatically generated.
「形態例3」 "Example 3"
ステップ1:システムは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 Step 1: The system automatically creates graphics and music that match each scene in the story you've created.
ステップ2:シーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲が制作される。 Step 2: Graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ3:例えば、戦闘シーンでは迫力のあるグラフィックと緊張感を高める音楽、感動的なシーンでは美しい風景のグラフィックと心を打つ音楽が制作される。これにより、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶることが可能となる。 Step 3: For example, powerful graphics and music that heightens the tension are created for battle scenes, while beautiful landscape graphics and moving music are created for moving scenes. This enhances the dramatic effect of the story structure, character dialogue, images and music, making it possible to effectively stir the viewer's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性を保つことが難しい。また、生成された物語が視聴者にとって感動的で面白いものになるようにするための工夫が不足している。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することができず、視聴者の心情を効果的に揺さぶることができないという課題がある When conventional story generation systems automatically generate a story based on a user-entered story setting, they struggle to maintain consistency in the story flow, character dialogue, and scenery. They also lack the ingenuity to ensure the generated story is moving and entertaining for the viewer. Furthermore, they are unable to automatically create graphics and music that match each scene in the story, which means they are unable to effectively move the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーからの入力を受信し、自然言語処理技術を用いて解析する手段と、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、生成AIモデルを用いて物語のセリフや情景、構成を自動で生成する手段と、生成された物語を整形し、ユーザーに提供する手段を含む。これにより、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, and images and music to effectively stir the viewer's emotions; means for receiving input from the user and analyzing it using natural language processing technology; means for generating prompt sentences to be input into the generative AI model based on the analysis results; means for automatically generating story dialogue, scenery, and structure using the generative AI model; and means for formatting the generated story and providing it to the user. This makes it possible to automatically generate a consistent story based on user input and provide the viewer with a moving and entertaining story.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定する要素である。 A "story theme" is the central subject or theme of a story, and is the element that determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する重要な要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an important element in shaping the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動し、物語を進行させるキャラクターのことであり、物語の展開やテーマに大きな影響を与える要素である。 "Characters" are characters who act within a story and move the story forward, and are elements that have a major influence on the story's development and theme.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成する要素である。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and is the element that forms the framework of the story.
「セリフ」とは、登場人物が話す言葉や台詞のことであり、物語の進行やキャラクターの性格を表現する重要な要素である。 "Dialogue" refers to the words or lines spoken by characters, and is an important element in expressing the progression of the story and the characters' personalities.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現する要素である。 "Scenes" refer to the scenery and scenes depicted in a story, and are elements that visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことであり、物語の展開を効果的にするための要素である。 "Story structure" refers to the overall flow and structure of a story, including the beginning, middle, and end, and is an element that makes the story unfold effectively.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語の一貫性や深みを増すための要素である。 "Foreshadowing" is a hint or sign that relates to later developments in a story, and is an element that adds consistency and depth to a story.
「ミステリー要素」とは、物語の中で謎や疑問を提示し、読者や視聴者の興味を引くための要素である。 "Mystery elements" are elements that present mysteries or questions within a story and attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に残る印象的な要素である。 A "moving scene" is a scene in a story that strongly stirs emotions and is an impressive element that stays in the viewer's mind.
「グラフィック」とは、物語の各シーンに合わせて視覚的に表現される画像やイラストのことであり、物語の雰囲気や感情を視覚的に補完する要素である。 "Graphics" refers to images and illustrations that visually represent each scene in the story, and are elements that visually complement the atmosphere and emotion of the story.
「曲」とは、物語の各シーンに合わせて音楽的に表現されるメロディやサウンドのことであり、物語の雰囲気や感情を音楽的に補完する要素である。 "Songs" are melodies and sounds that are musically expressed to match each scene in a story, and are elements that musically complement the atmosphere and emotions of the story.
「自然言語処理技術」とは、コンピュータが人間の言語を理解し、解析するための技術のことであり、テキストデータの解析や情報抽出に用いられる。 "Natural language processing technology" is a technology that enables computers to understand and analyze human language, and is used to analyze text data and extract information.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するためのモデルのことであり、物語のセリフや情景、構成を自動で生成するために使用される。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically generate dialogue, scenes, and structure for a story.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、モデルが生成する内容を誘導するための要素である。 A "prompt" is an instruction to be input into a generative AI model, and is an element that guides the content generated by the model.
「整形」とは、生成された物語のテキストを読みやすくするために段落分けや改行を追加する作業のことであり、ユーザーに提供する前に行われる。 "Formatting" refers to the process of adding paragraph breaks and line breaks to make the generated narrative text easier to read, before it is presented to the user.
この発明は、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するシステムである。以下に、このシステムの具体的な実施形態を説明する。 This invention is a system that automatically generates a story based on story settings such as the story's theme, setting, and characters, which are input by the user. Specific embodiments of this system are described below.
ユーザーからの入力 User input
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。 The user uses a terminal to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe."
サーバによる入力データの受信と解析 Receive and analyze input data by the server
サーバは、ユーザーから送信されたテキストデータを受信する。次に、自然言語処理技術を用いて入力データを解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。 The server receives the text data sent by the user. It then analyzes the input data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story."
プロンプト文の生成 Generating prompt statements
サーバは、抽出した情報を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。 The server generates a prompt to be input into the generative AI model based on the extracted information. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe."
生成AIモデルによる物語の生成 Generating stories using generative AI models
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it could generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'"
生成結果の整形と提供 Format and provide generated results
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。最後に、サーバは整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easy for the user to read. Finally, the server provides the formatted story to the user, who can view the results through their device.
具体例 Specific examples
ユーザーの入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」を考える。この入力に基づいて、サーバは以下のようなプロンプト文を生成する: As an example of user input, consider "a knight's adventure story set in medieval Europe." Based on this input, the server generates the following prompt:
「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください。」 "Generate lines and scenes from characters in a knight's adventure story set in medieval Europe."
生成AIモデルは、このプロンプト文に基づいて物語を生成し、例えば以下のようなテキストを出力する: The generative AI model generates a story based on this prompt, outputting text such as the following:
「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」 "The brave knight Arthur met a wizard in a dark forest. The wizard told Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to defeat the dragon.'"
このようにして、ユーザーの入力に基づいて一貫性のある物語を自動生成し、視聴者にとって感動的で面白い物語を提供することが可能となる。 In this way, it is possible to automatically generate a coherent story based on user input, providing an inspiring and entertaining story for the viewer.
実施例1における特定処理の流れについて図11を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 11.
ステップ1: Step 1:
ユーザーは、端末を使用してシステムの入力フォームに物語のテーマや舞台、登場人物などをテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力データがサーバに送信される。 The user uses their device to enter text information about the story's theme, setting, characters, etc. into the system's input form. For example, they might enter "A knight's adventure story set in medieval Europe." This input data is then sent to the server.
ステップ2: Step 2:
サーバは、ユーザーから送信されたテキストデータを受信する。受信したデータを自然言語処理技術を用いて解析する。具体的には、PythonのNLTKライブラリやspaCyを使用して、入力テキストからテーマ、舞台、登場人物などの情報を抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果が次のステップの入力となる。 The server receives text data sent by the user. It analyzes the received data using natural language processing technology. Specifically, it uses Python's NLTK library and spaCy to extract information such as theme, setting, and characters from the input text. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis become the input for the next step.
ステップ3: Step 3:
サーバは、解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する。例えば、ユーザーの入力が「中世ヨーロッパを舞台にした騎士の冒険物語」であれば、プロンプト文は「中世ヨーロッパを舞台にした騎士の冒険物語の登場人物のセリフや情景を生成してください」となる。このプロンプト文が次のステップの入力となる。 Based on the analysis results, the server generates a prompt to be input into the generative AI model. For example, if the user's input is "A knight's adventure story set in medieval Europe," the prompt would be "Please generate lines and scenes for the characters in a knight's adventure story set in medieval Europe." This prompt becomes the input for the next step.
ステップ4: Step 4:
サーバは、生成したプロンプト文を生成AIモデル(例えば、OpenAIのGPT-4)に入力する。生成AIモデルは、プロンプト文に基づいて物語のセリフや情景、構成を自動で生成する。例えば、「勇敢な騎士アーサーは、暗い森の中で魔法使いと出会った。魔法使いは、アーサーに向かって言った、『この森の奥には、古代のドラゴンが眠っている。君の使命は、そのドラゴンを倒すことだ。』」といったテキストが生成される。この生成されたテキストが次のステップの入力となる。 The server inputs the generated prompt into a generative AI model (for example, OpenAI's GPT-4). The generative AI model automatically generates the dialogue, scenery, and structure of a story based on the prompt. For example, it might generate text such as, "The brave knight Arthur met a wizard in a dark forest. The wizard said to Arthur, 'Deep in this forest lies an ancient dragon. Your mission is to slay the dragon.'" This generated text becomes the input for the next step.
ステップ5: Step 5:
サーバは、生成AIモデルから返された物語のテキストを受け取り、必要に応じて整形する。例えば、段落分けや改行を追加して読みやすくする。整形された物語は、ユーザーが読みやすい形式に変換される。この整形されたテキストが次のステップの入力となる。 The server receives the story text returned by the generative AI model and formats it as needed, for example by adding paragraph breaks and line breaks to make it easier to read. The formatted story is then converted into a format that is easier for the user to read. This formatted text becomes the input for the next step.
ステップ6: Step 6:
サーバは、整形された物語をユーザーに提供する。ユーザーは、端末を通じて結果を確認できる。例えば、生成された物語を表示するウェブページやアプリケーションの画面に表示する。ユーザーは、生成された物語を読み、楽しむことができる。 The server provides the formatted story to the user. The user can view the results through their device, for example, on a web page or application screen that displays the generated story. The user can then read and enjoy the generated story.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力したテーマや設定に基づいて物語を自動生成する際に、物語の構成や登場人物のセリフ、情景の生成が不十分であり、視聴者の心情を効果的に揺さぶることが難しい。また、生成された物語をプレビューし、保存および共有する機能が欠如しているため、ユーザーの利便性が低いという問題がある Existing story generation systems automatically generate stories based on user-entered themes and settings, but they often lack sufficient story structure, character dialogue, and scene generation, making it difficult to effectively sway viewers' emotions. Furthermore, the lack of functionality to preview, save, and share the generated stories creates a problem of inconvenient user experience.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いてプロンプト文を生成し、物語を自動生成する手段と、生成された物語をプレビューし、保存および共有する手段と、を含む。これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating prompt sentences using a generative AI model and automatically generating a story; and means for previewing, saving, and sharing the generated story. This makes it possible to automatically generate high-quality stories based on the settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語に登場するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters that appear in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の骨組みを形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the framework of the story.
「セリフ」とは、登場人物が話す言葉のことであり、物語の進行やキャラクターの性格を表現するための重要な要素である。 "Dialogue" refers to the words spoken by characters, and is an important element in expressing the progression of the story and the character's personality.
「情景」とは、物語の中で描かれる風景や場面のことであり、物語の雰囲気や感情を視覚的に表現するものである。 "Scenes" refer to the landscapes and scenes depicted in a story, and visually express the atmosphere and emotions of the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造のことであり、物語の展開を効果的にするための枠組みである。 "Story structure" refers to the overall flow and structure of a story, including a beginning, middle, and end, and is the framework for effectively developing the story.
「伏線」とは、物語の中で後の展開に関連するヒントや前兆のことであり、物語を面白くするための要素である。 "Foreshadowing" is a hint or omen that relates to later developments in a story, and is an element that makes a story more interesting.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements that add mystery and suspense to a story, and are meant to attract the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者に深い印象を与えるためのものである。 A "moving scene" is a scene in a story that stirs strong emotions and is intended to leave a deep impression on the viewer.
「グラフィック」とは、物語の各シーンに合わせて描かれる視覚的な画像やイラストのことであり、物語の雰囲気や感情を視覚的に表現するためのものである。 "Graphics" refers to the visual images and illustrations that accompany each scene in the story, and are intended to visually express the atmosphere and emotions of the story.
「曲」とは、物語の各シーンに合わせて作られる音楽のことであり、物語の雰囲気や感情を音楽的に表現するためのものである。 "Songs" are pieces of music created to accompany each scene in a story, and are intended to musically express the atmosphere and emotions of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストや画像などを自動生成するためのモデルのことであり、物語の自動生成に利用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to automatically generate text, images, etc., and is used to automatically generate stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことであり、物語のテーマや設定に基づいて生成されるものである。 A "prompt" is an instruction to be input into a generative AI model, and is generated based on the theme and setting of the story.
「プレビュー」とは、生成された物語を事前に確認するための機能のことであり、ユーザーが内容をチェックするためのものである。 "Preview" is a feature that allows users to preview the generated story in advance and check the content.
「保存」とは、生成された物語をデジタル形式で記録することを指し、後で再利用や共有ができるようにするためのものである。 "Preservation" refers to recording the stories that are created in digital form so that they can be reused and shared later.
「共有」とは、生成された物語を他のユーザーやプラットフォームと分かち合うことを指し、物語の拡散や評価を促進するためのものである。 "Sharing" refers to sharing the story you create with other users and platforms, with the aim of promoting the spread and appreciation of the story.
この発明を実施するためのシステムは、ユーザーが物語のテーマや舞台、登場人物などのストーリー設定を入力し、それに基づいて物語を自動生成するものである。以下に、このシステムの具体的な実施形態について説明する。 A system for implementing this invention allows the user to input story settings such as the story's theme, setting, and characters, and automatically generates a story based on these settings. Specific embodiments of this system are described below.
システム構成 System Configuration
このシステムは、主に以下のハードウェアおよびソフトウェアを用いて構成される。 This system is primarily composed of the following hardware and software:
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
プログラムの処理 Program processing
ユーザー入力 User input
ユーザーは、スマートフォンアプリケーションを通じて物語のテーマ、舞台、登場人物をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマを入力する。 Users enter the story's theme, setting, and characters in text form through a smartphone application. For example, they might enter the theme "A knight's adventure story set in medieval Europe."
プロンプト生成 Prompt generation
サーバは、ユーザーが入力した情報を基にプロンプト文を生成する。このプロンプト文は、生成AIモデルに入力される指示文である。具体例として、以下のようなプロンプト文が生成される。 The server generates a prompt based on the information entered by the user. This prompt is an instruction that is input into the generative AI model. As a specific example, the following prompt is generated:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
物語生成 Story generation
サーバは、生成AIモデル(例えば、GPT-4)を用いて、生成されたプロンプト文に基づいて物語を自動生成する。この生成AIモデルは、OpenAI APIを通じて呼び出される。 The server uses a generative AI model (e.g., GPT-4) to automatically generate a story based on the generated prompt. This generative AI model is called through the OpenAI API.
プレビュー、保存、共有 Preview, save, share
生成された物語は、ユーザーがスマートフォンアプリケーションを通じてプレビューできるように表示される。ユーザーは、生成された物語を保存し、SNSなどで共有することができる。 The generated story is displayed so that users can preview it through the smartphone application. Users can save the generated story and share it on social media, etc.
具体例 Specific examples
ユーザーが「中世ヨーロッパを舞台にした騎士の冒険物語」をテーマに設定し、登場人物として「勇敢な騎士、魔法使い、ドラゴン」を入力した場合、以下のような物語が生成される。 If a user sets the theme to "a knight's adventure story set in medieval Europe" and enters "a brave knight, a wizard, and a dragon" as the characters, the following story will be generated.
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文を生成AIモデルに入力することで、物語が自動生成される。生成された物語は、ユーザーがプレビューし、保存および共有することができる。 By inputting this prompt into a generative AI model, a story is automatically generated. Users can preview, save, and share the generated story.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: スマートフォン、サーバ Hardware: Smartphones, servers
ソフトウェア: Python、OpenAI API Software: Python, OpenAI API
これにより、ユーザーが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 This makes it possible to automatically generate high-quality stories based on user-entered settings, effectively stirring the viewer's emotions.
応用例1における特定処理の流れについて図12を用いて説明する。 The flow of the specific processing in Application Example 1 will be explained using Figure 12.
ステップ1: Step 1:
ユーザは、スマートフォン端末を使用して物語のテーマ、舞台、登場人物をテキスト形式で入力する。入力されたデータは、端末からサーバに送信される。入力例として、「中世ヨーロッパを舞台にした騎士の冒険物語」というテーマが含まれる。 Users use their smartphone to input the story's theme, setting, and characters in text format. The input data is then sent from the device to the server. An example input includes the theme "A knight's adventure story set in medieval Europe."
ステップ2: Step 2:
サーバは、受信したユーザの入力データを基にプロンプト文を生成する。具体的には、テーマ、舞台、登場人物の情報を組み合わせて、生成AIモデルに適したプロンプト文を作成する。生成されたプロンプト文は以下のようになる。 The server generates a prompt based on the received user input data. Specifically, it combines information about the theme, setting, and characters to create a prompt that is suitable for the generative AI model. The generated prompt looks like this:
テーマ: 中世ヨーロッパを舞台にした騎士の冒険物語 Theme: A knight's adventure story set in medieval Europe
舞台: 中世ヨーロッパ Setting: Medieval Europe
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語を生成してください。 Generate a story.
このプロンプト文が生成される。 This prompt text is generated.
ステップ3: Step 3:
サーバは、生成されたプロンプト文を用いて生成AIモデル(例えば、GPT-4)を呼び出す。OpenAI APIを使用してプロンプト文を送信し、物語の生成を依頼する。入力はプロンプト文であり、出力は生成された物語のテキストである。 The server calls a generative AI model (e.g., GPT-4) with the generated prompt text. It sends the prompt text using the OpenAI API and requests the generation of a story. The input is the prompt text, and the output is the generated story text.
ステップ4: Step 4:
生成AIモデルは、プロンプト文に基づいて物語を自動生成する。生成された物語のテキストは、サーバに返される。例えば、以下のような物語が生成される。 The generative AI model automatically generates a story based on the prompt text. The generated story text is returned to the server. For example, the following story might be generated:
昔々、中世ヨーロッパの広大な王国に、勇敢な騎士が住んでいた。彼の名はアーサー。ある日、彼は魔法使いの助けを借りて、恐ろしいドラゴンと戦う冒険に出ることになった。 Once upon a time, in a vast kingdom in medieval Europe, there lived a brave knight. His name was Arthur. One day, with the help of a wizard, he embarked on an adventure to battle a fearsome dragon.
ステップ5: Step 5:
サーバは、生成された物語のテキストをスマートフォン端末に送信する。ユーザは、スマートフォン端末を通じて生成された物語をプレビューすることができる。入力は生成された物語のテキストであり、出力はユーザの端末に表示されるプレビュー画面である。 The server sends the text of the generated story to the smartphone device. The user can preview the generated story through the smartphone device. The input is the text of the generated story, and the output is the preview screen displayed on the user's device.
ステップ6: Step 6:
ユーザは、生成された物語を保存するか、SNSなどで共有することができる。保存された物語は、端末のストレージに記録され、共有された物語は、指定されたプラットフォームに送信される。入力はユーザの選択であり、出力は保存されたファイルまたは共有されたコンテンツである。 Users can save the generated story or share it on social media. Saved stories are recorded in the device's storage, and shared stories are sent to the specified platform. The input is the user's selection, and the output is the saved file or shared content.
以上のステップにより、ユーザが入力した設定に基づいて高品質な物語を自動生成し、視聴者の心情を効果的に揺さぶることが可能となる。 These steps make it possible to automatically generate a high-quality story based on the settings entered by the user, effectively stirring the viewer's emotions.
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 2 of Form Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の要素を整理し、ユーザに提供する機能が不足しているため、ユーザが生成された物語を効果的に利用することが困難である。さらに、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段が不足している。 While conventional story generation systems can automatically generate stories based on the story's theme and character settings, they have difficulty appropriately generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. Furthermore, they lack the functionality to organize the generated story elements and provide them to users, making it difficult for users to effectively use the generated story. Furthermore, they lack the means to enhance the dramatic effect through story structure, character dialogue, visuals, and music, and to effectively stir the viewer's emotions.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、生成された物語の要素を整理し、ユーザに提供する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for organizing the generated story elements and providing them to the user; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to make the story more interesting and enable users to effectively use the generated story.
「物語のテーマ」とは、物語の中心となる主題や題材を指すものである。 "Story theme" refers to the central subject or subject matter of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物を指すものである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素や出来事を指すものである。 "Foreshadowing" refers to elements or events placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎や推理の要素を加えることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that add mystery or detective elements to a story, attracting the interest of readers and viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面を指すものである。 A "moving scene" refers to a scene in a story that stirs strong emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やBGMを指すものである。 "Song" refers to the music or background music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、視聴者の感情や反応を引き出すための手法を指すものである。 "Directory effects" refers to techniques that use the visual and auditory elements of a story to elicit emotions and reactions from the viewer.
「視聴者の心情」とは、物語を見たり読んだりする人々の感情や気持ちを指すものである。 "Audience sentiment" refers to the emotions and feelings of the people who watch or read the story.
この発明は、物語のテーマや登場人物の性格、物語の進行に基づいて、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動生成するシステムである。以下に、このシステムの具体的な実施形態を示す。 This invention is a system that automatically generates plot twists, mystery elements, and moving scenes to make a story more interesting, based on the story's theme, the characters' personalities, and the story's progression. A specific embodiment of this system is shown below.
システムの構成 System Configuration
ハードウェア Hardware
サーバは、高性能なGPUを搭載したクラウドサーバを使用する。 The server uses a cloud server equipped with a high-performance GPU.
ソフトウェア Software
サーバは、生成AIモデルを使用する。具体的には、OpenAIのGPT-4などの生成AIモデルを用いる。 The server uses a generative AI model. Specifically, it uses a generative AI model such as OpenAI's GPT-4.
プログラムの処理 Program processing
ユーザの入力 User input
ユーザは、端末を使用して物語のテーマ、登場人物の性格、物語の進行に関する情報を入力する。例えば、ユーザは以下のような情報を入力する。 The user uses the device to input information about the story's theme, the characters' personalities, and the story's progression. For example, the user might input the following information:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
プロンプト文の生成 Generating prompt statements
サーバは、ユーザから入力された情報を受け取り、それを基にプロンプト文を生成する。生成されたプロンプト文は以下のようになる。 The server receives the information entered by the user and generates a prompt based on that information. The generated prompt looks like this:
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
物語の要素の生成 Generating story elements
サーバは、生成したプロンプト文を生成AIモデルに入力し、物語の要素を生成する。生成AIモデルは、プロンプト文を基に以下のような物語の要素を生成する。 The server inputs the generated prompt text into the generative AI model to generate story elements. The generative AI model generates the following story elements based on the prompt text.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
生成された物語の要素の整理と提供 Organizing and providing generated story elements
サーバは、生成AIモデルから出力された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 The server organizes the story elements output by the generative AI model and provides them to the user. The user can check the generated story elements via their device and make corrections or additions as needed.
具体例 Specific examples
ユーザがシステムを利用して物語を生成する際の具体例を以下に示す。 Below is a concrete example of how a user can use the system to generate a story.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
サーバはこのプロンプト文を生成AIモデルに入力し、物語のテーマや登場人物の性格、物語の進行に基づいて伏線やミステリー要素、感動的なシーンを自動生成する。生成された物語の要素は、ユーザに提供され、ユーザはそれを確認し、必要に応じて修正や追加を行うことができる。 The server inputs this prompt into a generative AI model, which automatically generates plot twists, mystery elements, and moving scenes based on the story's theme, the characters' personalities, and the story's progression. The generated story elements are provided to the user, who can review them and make corrections or additions as needed.
このようにして、物語をより面白くし、ユーザが生成された物語を効果的に利用できるようにすることが可能となる。 In this way, it is possible to make the story more interesting and enable users to effectively use the generated story.
実施例2における特定処理の流れについて図13を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 13.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: Information about the story's theme, character personalities, and story progression.
具体的な動作: ユーザは端末の入力フォームに「中世の騎士の冒険」というテーマと、「勇敢な騎士、謎めいた老人、王女」という登場人物の情報を入力する。入力が完了したら、「送信」ボタンをクリックする。 Specific operation: The user enters the theme "Adventures of a Medieval Knight" and character information - "A Brave Knight, a Mysterious Old Man, and a Princess" - into the input form on their device. Once the input is complete, they click the "Submit" button.
出力: 入力された情報がサーバに送信される。 Output: The entered information is sent to the server.
ステップ2: Step 2:
サーバが入力された情報を受け取り、プロンプト文を生成する。 The server receives the entered information and generates a prompt.
入力: ユーザから送信された物語のテーマ、登場人物の性格、物語の進行に関する情報。 Input: User-submitted information about the story's theme, character personalities, and story progression.
具体的な動作: サーバは受信した情報を基に、生成AIモデルに入力するためのプロンプト文を生成する。 Specific operation: Based on the received information, the server generates a prompt sentence to input into the generative AI model.
出力: 生成されたプロンプト文。 Output: The generated prompt text.
テーマ: 中世の騎士の冒険 Theme: Medieval Knight's Adventure
登場人物: 勇敢な騎士、謎めいた老人、王女 Characters: A brave knight, a mysterious old man, and a princess
物語の進行: 騎士が冒険の途中で謎めいた老人に出会い、老人からの助言を受けて冒険を続ける。最終的に、騎士は王女を救い、王国を守る。 Story progression: The knight meets a mysterious old man during his adventure, receives advice from him, and continues his adventure. Ultimately, the knight saves the princess and protects the kingdom.
ステップ3: Step 3:
サーバが生成AIモデルにプロンプト文を入力し、物語の要素を生成する。 The server inputs prompts into the generative AI model to generate story elements.
入力: 生成されたプロンプト文。 Input: The generated prompt text.
具体的な動作: サーバは生成AIモデルにプロンプト文を入力し、物語の伏線、ミステリー要素、感動的なシーンを生成する。 Specific operation: The server inputs prompt text into the generative AI model, generating story hints, mystery elements, and moving scenes.
出力: 生成された物語の要素。 Output: Generated story elements.
伏線: 騎士が冒険の途中で出会った謎めいた老人が、実は王国の隠された秘密を知っている。 Foreshadowing: The mysterious old man the knight meets during his adventure actually knows the kingdom's hidden secrets.
ミステリー要素: 騎士が老人から受け取った古い地図に隠された謎を解く。 Mystery element: The knight solves the mystery hidden in an old map he received from an old man.
感動的なシーン: 騎士が王女を救い、王国を守るために最後の戦いに挑む。 Emotional scene: The knight saves the princess and fights a final battle to protect the kingdom.
ステップ4: Step 4:
サーバが生成された物語の要素を整理し、ユーザに提供する。 The server organizes the generated story elements and provides them to the user.
入力: 生成AIモデルから出力された物語の要素。 Input: Story elements output from the generative AI model.
具体的な動作: サーバは生成された物語の要素を整理し、ユーザに提供する。ユーザは端末を通じて、生成された物語の要素を確認し、必要に応じて修正や追加を行うことができる。 Specific operation: The server organizes the generated story elements and provides them to the user. The user can review the generated story elements through their device and make corrections or additions as necessary.
出力: 整理された物語の要素がユーザに提供される。 Output: The organized story elements are presented to the user.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて自動で物語を作成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを適切に生成することが難しい。また、生成された物語の各シーンにマッチしたグラフィックや曲を自動で制作し、視聴者の心情を効果的に揺さぶることも困難である。さらに、生成AIモデルを活用して物語の要素を生成する際に、プロンプト文を適切に生成し、モデルに入力する手段が不足しているため、ユーザーにとって満足のいく物語を提供することができないという課題がある。 While conventional story generation systems can automatically create stories based on the story's theme and character settings, they have difficulty properly generating foreshadowing, mystery elements, and moving scenes to make the story more interesting. It is also difficult to automatically create graphics and music that match each scene in the generated story and effectively stir the viewer's emotions. Furthermore, when using generative AI models to generate story elements, there is a lack of a way to properly generate prompt sentences and input them into the model, which poses the challenge of not being able to provide a satisfying story to the user.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、生成AIモデルを用いて物語の要素を生成する手段と、プロンプト文を生成し、生成AIモデルに入力する手段と、生成された物語の要素をユーザーに表示する手段を含む。これにより、物語をより面白くし、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user. This makes it possible to make the story more interesting and effectively stir the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境のことである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターのことである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマや舞台、登場人物などの基本的な要素のことである。 "Story setting" refers to the basic elements of the story, such as its theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉のことである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体の流れや構造のことである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、後の展開に関連する重要な要素を前もって示すことである。 "Foreshadowing" is the advance indication of important elements related to later developments.
「ミステリー要素」とは、物語に謎や不思議な出来事を含めることである。 "Mystery elements" refer to the inclusion of mysteries or mysterious events in a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、視覚的な画像やイラストのことである。 "Graphics" refers to visual images and illustrations.
「曲」とは、音楽やメロディのことである。 "Song" refers to music or melody.
「演出効果」とは、物語をより魅力的に見せるための視覚や聴覚の工夫のことである。 "Producer effects" refer to visual and auditory techniques used to make a story more compelling.
「視聴者」とは、物語を観る人のことである。 "Viewers" are people who watch a story.
「生成AIモデル」とは、人工知能を用いてテキストや画像などを生成するアルゴリズムのことである。 A "generative AI model" is an algorithm that uses artificial intelligence to generate text, images, etc.
「プロンプト文」とは、生成AIモデルに入力するための指示文のことである。 A "prompt" is an instruction sentence to be input into a generative AI model.
「ユーザー」とは、システムを利用する人のことである。 "User" refers to a person who uses the system.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段、生成AIモデルを用いて物語の要素を生成する手段、プロンプト文を生成し、生成AIモデルに入力する手段、生成された物語の要素をユーザーに表示する手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story's theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating story elements using a generative AI model; means for generating prompt sentences and inputting them into the generative AI model; and means for displaying the generated story elements to the user.
サーバは、ユーザーが入力した物語のテーマや登場人物の情報を受け取り、それに基づいてプロンプト文を生成する。生成されたプロンプト文は、生成AIモデル(例えば、GPT-3)に入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 The server receives information about the story's theme and characters entered by the user and generates a prompt based on that information. The generated prompt is then input into a generative AI model (e.g., GPT-3) to generate story elements. The generated story elements are then displayed to the user.
具体的には、サーバは以下のような手順で動作する。まず、ユーザーが物語のテーマや登場人物の情報を入力する。次に、サーバはこれらの情報を基にプロンプト文を生成する。生成されたプロンプト文は、生成AIモデルに入力され、物語の要素が生成される。生成された物語の要素は、ユーザーに表示される。 Specifically, the server operates in the following steps: First, the user inputs information about the story's theme and characters. Next, the server generates a prompt based on this information. The generated prompt is input into a generative AI model, which generates story elements. The generated story elements are then displayed to the user.
使用するハードウェアとしては、サーバやユーザー端末が含まれる。使用するソフトウェアとしては、生成AIモデル(例:GPT-3)やプロンプト文生成アルゴリズムが含まれる。 The hardware used includes servers and user devices. The software used includes generative AI models (e.g., GPT-3) and prompt generation algorithms.
具体例として、以下のようなプロンプト文が生成される。 As a concrete example, the following prompt sentence is generated:
テーマ: 騎士の冒険 Theme: Knight's Adventure
登場人物: 勇敢な騎士、謎の老人、魔法使い Characters: Brave knight, mysterious old man, wizard
物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。 Generate plot twists, mystery elements, and moving scenes to make your story more interesting.
このプロンプト文を生成AIモデルに入力することで、物語の要素が自動的に生成される。生成された物語の要素は、ユーザーに表示され、物語の構成や登場人物の会話、映像や音楽で演出効果を高めることができる。 By inputting this prompt into a generative AI model, story elements are automatically generated. The generated story elements are displayed to the user, and the dramatic effect can be enhanced with story structure, character dialogue, visuals, and music.
応用例2における特定処理の流れについて図14を用いて説明する。 The flow of the specific processing in Application Example 2 will be explained using Figure 14.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の情報を入力する。 The user enters information about the story's theme and characters.
入力: 物語のテーマ、登場人物の情報 Input: Story theme, character information
出力: 入力されたテーマと登場人物の情報 Output: Input theme and character information
具体的な動作: ユーザはスマートフォンアプリケーションの入力フォームに物語のテーマ(例:「騎士の冒険」)や登場人物(例:「勇敢な騎士、謎の老人、魔法使い」)を入力する。 Specific actions: The user enters the story's theme (e.g., "The Knight's Adventure") and characters (e.g., "The Brave Knight, the Mysterious Old Man, and the Wizard") into an input form on a smartphone application.
ステップ2: Step 2:
サーバが入力されたテーマと登場人物の情報を受け取り、プロンプト文を生成する。 The server receives the entered theme and character information and generates a prompt.
入力: 入力されたテーマと登場人物の情報 Input: Entered theme and character information
出力: 生成されたプロンプト文 Output: Generated prompt text
具体的な動作: サーバは受け取ったテーマと登場人物の情報を基に、以下のようなプロンプト文を生成する。「テーマ: 騎士の冒険 登場人物: 勇敢な騎士、謎の老人、魔法使い 物語を面白くするための伏線、ミステリー要素、感動的なシーンを生成してください。」 Specific operation: Based on the received theme and character information, the server generates a prompt like the following: "Theme: A knight's adventure. Characters: A brave knight, a mysterious old man, a wizard. Please generate hints, mystery elements, and moving scenes to make the story more interesting."
ステップ3: Step 3:
サーバが生成されたプロンプト文を生成AIモデルに入力する。 The server inputs the generated prompt sentence into the generative AI model.
入力: 生成されたプロンプト文 Input: Generated prompt text
出力: 生成AIモデルによって生成された物語の要素 Output: Story elements generated by the generative AI model
具体的な動作: サーバは生成されたプロンプト文をGPT-3などの生成AIモデルに送信し、物語の要素(例:伏線、ミステリー要素、感動的なシーン)を生成する。 Specific operation: The server sends the generated prompt to a generative AI model such as GPT-3 to generate story elements (e.g., foreshadowing, mystery elements, emotional scenes).
ステップ4: Step 4:
サーバが生成された物語の要素を受け取り、ユーザに表示する。 The server receives the generated story elements and displays them to the user.
入力: 生成AIモデルによって生成された物語の要素 Input: Story elements generated by a generative AI model
出力: ユーザに表示される物語の要素 Output: Story elements displayed to the user
具体的な動作: サーバは生成AIモデルから受け取った物語の要素をユーザのスマートフォンアプリケーションに送信し、ユーザに表示する。ユーザは生成された物語の要素を確認することができる。 Specific operation: The server sends the story elements received from the generative AI model to the user's smartphone application and displays them to the user. The user can then review the generated story elements.
ステップ5: Step 5:
サーバが物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力: 生成された物語の要素 Input: Generated story elements
出力: 各シーンにマッチしたグラフィックや曲 Output: Graphics and music that match each scene
具体的な動作: サーバは生成された物語の要素を基に、シーンの雰囲気や登場人物の感情状態を考慮して、適切なグラフィックや曲を自動で制作する。 Specific operation: Based on the generated story elements, the server automatically creates appropriate graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters.
ステップ6: Step 6:
サーバが物語の構成や登場人物の会話、映像や音楽で演出効果を高める。 The server enhances the dramatic effect through story structure, character dialogue, visuals, and music.
入力: 各シーンにマッチしたグラフィックや曲、物語の要素 Input: Graphics, music, and story elements that match each scene
出力: 演出効果が高められた物語 Output: A story with enhanced dramatic effects
具体的な動作: サーバは物語の構成や登場人物の会話、映像や音楽を組み合わせて、視聴者の心情を効果的に揺さぶる演出効果を高める。 Specific operation: The server combines the story structure, character dialogue, images, and music to enhance the dramatic effect, effectively stirring the viewer's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 3 of Form Example 3 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが困難であり、視聴者の心情を効果的に揺さぶる演出効果を高めることができなかった。また、シーンの雰囲気や登場人物の感情状態を考慮したグラフィックや音楽の生成が手動で行われるため、時間と労力がかかるという問題があった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, preventing them from effectively evoking the viewer's emotions. Furthermore, generating graphics and music that take into account the scene's atmosphere and the characters' emotional states was a time-consuming and labor-intensive process.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、シーンデータを解析し、シーンの雰囲気や登場人物の感情状態を抽出する手段と、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する手段と、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段と、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for analyzing scene data and extracting the atmosphere of the scene and the emotional state of the characters; means for generating prompt text to be input into a generative AI model based on the extracted information; means for inputting the prompt text into the generative AI model and generating graphics and music that match the scene; means for integrating the generated graphics and music with the scene data and generating final output; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story, enhancing the dramatic effect that effectively stirs the viewer's emotions.
「物語のテーマや舞台、登場人物などのストーリー設定」とは、物語の基本的な要素であり、物語の背景や登場人物の特徴、物語の進行に必要な設定を指す。 "Story settings such as the story's theme, setting, and characters" are the basic elements of a story, and refer to the background of the story, the characteristics of the characters, and the settings necessary for the story's progression.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するためのインターフェースを指す。 "Means of input" refers to the interface that allows the user to provide the story setting, such as the story's theme, setting, and characters, to the system.
「登場人物のセリフや情景、物語の構成を自動で作成する手段」とは、入力されたストーリー設定に基づいて、登場人物の会話やシーンの描写、物語の全体的な流れを自動的に生成する機能を指す。 "Means for automatically creating character dialogue, scenes, and story structure" refers to a function that automatically generates character dialogue, scene descriptions, and the overall flow of a story based on the input story setting.
「伏線やミステリー要素、感動的なシーンなどを自動で生成する手段」とは、物語をより面白くするために、予め設定されたストーリーの中にサプライズや感動を引き起こす要素を自動的に追加する機能を指す。 "Means for automatically generating foreshadowing, mystery elements, moving scenes, etc." refers to a function that automatically adds elements that cause surprises or emotions to a pre-set story in order to make the story more interesting.
「グラフィックや曲を自動で制作する手段」とは、物語の各シーンに合わせて、視覚的および聴覚的な要素を自動的に生成する機能を指す。 "Means for automatically creating graphics and music" refers to a function that automatically generates visual and auditory elements to match each scene in a story.
「シーンデータを解析する手段」とは、物語の各シーンの内容を分析し、シーンの雰囲気や登場人物の感情状態を抽出する機能を指す。 "Means for analyzing scene data" refers to the function of analyzing the content of each scene in a story and extracting the atmosphere of the scene and the emotional state of the characters.
「生成AIモデルに入力するプロンプト文を生成する手段」とは、解析されたシーンデータに基づいて、生成AIモデルに対して適切な指示を与えるためのテキストを作成する機能を指す。 "Means for generating prompt sentences to be input to a generative AI model" refers to a function that creates text to provide appropriate instructions to a generative AI model based on analyzed scene data.
「生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段」とは、生成AIモデルに対してプロンプト文を入力し、その結果としてシーンに適したグラフィックと音楽を生成する機能を指す。 "A means of inputting a prompt sentence into a generative AI model and generating graphics and music that match the scene" refers to a function that inputs a prompt sentence into a generative AI model and, as a result, generates graphics and music that are appropriate for the scene.
「生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段」とは、生成された視覚および聴覚要素をシーンデータに組み込み、最終的な物語の出力を作成する機能を指す。 "Means for integrating generated graphics and music into scene data and generating final output" refers to the functionality for incorporating generated visual and auditory elements into scene data to create the final narrative output.
「視聴者の心情を効果的に揺さぶる手段」とは、物語の構成や登場人物の会話、映像や音楽を通じて、視聴者の感情に強い影響を与えるための機能を指す。 "Means of effectively stirring the viewer's emotions" refers to the function of having a strong impact on the viewer's emotions through the story structure, the characters' dialogue, images, and music.
この発明は、物語の各シーンにマッチしたグラフィックや曲を自動で制作するシステムに関するものである。このシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて登場人物のセリフや情景、物語の構成を自動で作成する。また、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成し、さらに各シーンにマッチしたグラフィックや曲を自動で制作する。 This invention relates to a system that automatically creates graphics and music that match each scene in a story. This system inputs story settings such as the story's theme, setting, and characters, and automatically creates character dialogue, scenery, and story structure based on the input story settings. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting, and automatically creates graphics and music that match each scene.
使用するハードウェアおよびソフトウェア Hardware and software used
このシステムは、以下のハードウェアおよびソフトウェアを使用する: This system uses the following hardware and software:
サーバ:データの解析および生成AIモデルの実行を行う。 Server: Analyzes data and runs generative AI models.
端末:ユーザが物語のストーリー設定を入力するためのインターフェースを提供する。 Terminal: Provides an interface for users to enter the story setting for their story.
生成AIモデル:例えば、OpenAIのGPT-4やDALL-E、音楽生成モデルなどを使用する。 Generative AI models: For example, OpenAI's GPT-4, DALL-E, and music generation models are used.
データ加工およびデータ演算 Data processing and calculation
サーバは、ユーザが端末を通じて入力した物語のストーリー設定を受け取る。ストーリー設定には、物語のテーマ、舞台、登場人物の特徴などが含まれる。サーバは、これらのデータを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server receives the story settings entered by the user via their device. The story settings include the story's theme, setting, and character traits. The server analyzes this data and automatically creates the characters' lines, scenery, and story structure.
次に、サーバは作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。これにより、物語がより面白く、視聴者の心情を揺さぶるものとなる。 Next, the server automatically generates foreshadowing, mystery elements, moving scenes, and more based on the story you've created. This makes the story more interesting and emotionally stirring for the viewer.
さらに、サーバは物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。解析結果として、シーンの雰囲気や登場人物の感情状態を抽出する。サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 Furthermore, the server analyzes scene data to automatically create graphics and music that match each scene in the story. As a result of the analysis, it extracts the atmosphere of the scene and the emotional state of the characters. Based on the extracted information, the server generates prompt sentences to input into the generative AI model.
具体例 Specific examples
例えば、感動的なシーンの場合、サーバは以下のようなプロンプト文を生成AIモデルに入力する: For example, in the case of an emotional scene, the server inputs the following prompt sentence into the generative AI model:
グラフィック生成のプロンプト文例:「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example prompt for graphic generation: "Generate a graphic of a beautiful landscape. The scene is emotional, and the character is in tears."
音楽生成のプロンプト文例:「心を打つ感動的な音楽を生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」 Example music generation prompt: "Generate moving, poignant music. The scene is emotional, and the characters are in tears."
生成AIモデルは、これらのプロンプト文に基づいてグラフィックと音楽を生成する。サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。端末は、統合された結果をユーザに表示する。 The generative AI model generates graphics and music based on these prompts. The server integrates the generated graphics and music with the scene data to generate the final output. The device displays the integrated results to the user.
このようにして、ユーザは物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、視聴者の心情を効果的に揺さぶる演出効果を高めることができる。実施例3における特定処理の流れについて図15を用いて説明する。 In this way, the user can automatically create graphics and music that match each scene in the story, enhancing the dramatic effect that effectively stirs the viewer's emotions. The flow of the specific processing in Example 3 will be explained using Figure 15.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定を端末に入力する。 The user enters story settings such as the story's theme, setting, and characters into the device.
具体的な動作:ユーザは、端末の入力フォームに物語のテーマ(例:ファンタジー)、舞台(例:中世の城)、登場人物(例:勇者、魔法使い)などの情報を入力する。端末は、入力されたストーリー設定をサーバに送信する。 Specific operation: The user enters information such as the story's theme (e.g., fantasy), setting (e.g., medieval castle), and characters (e.g., hero, wizard) into the device's input form. The device then sends the entered story settings to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは、受け取ったストーリー設定データを解析し、登場人物のセリフや情景、物語の構成を自動で作成する。 The server analyzes the received story setting data and automatically creates the characters' lines, scenes, and story structure.
具体的な動作:サーバは、自然言語処理(NLP)技術を使用してストーリー設定データを解析し、登場人物のセリフやシーンの描写、物語の全体的な流れを生成する。 Specific operations: The server uses natural language processing (NLP) technology to analyze story setting data and generate character dialogue, scene descriptions, and the overall story flow.
入力:ストーリー設定データ Input: Story setting data
出力:登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
ステップ3: Step 3:
サーバは、作成した物語を基に、伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Based on the story you create, the server automatically generates foreshadowing, mystery elements, moving scenes, and more.
具体的な動作:サーバは、物語の構成データを解析し、物語をより面白くするための伏線やミステリー要素、感動的なシーンを追加する。 Specific operation: The server analyzes the story's composition data and adds hints, mystery elements, and moving scenes to make the story more interesting.
入力:物語の構成データ Input: Story composition data
出力:伏線やミステリー要素、感動的なシーンを含む物語データ Output: Story data including foreshadowing, mystery elements, and moving scenes
ステップ4: Step 4:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作するために、シーンデータを解析する。 The server analyzes scene data to automatically create graphics and music that match each scene in the story.
具体的な動作:サーバは、物語データをシーンごとに分割し、各シーンの雰囲気や登場人物の感情状態を抽出する。 Specific operation: The server divides the story data into scenes and extracts the atmosphere of each scene and the emotional state of the characters.
入力:物語データ Input: Story data
出力:シーンごとの雰囲気や登場人物の感情状態データ Output: Scene-specific mood and character emotional state data
ステップ5: Step 5:
サーバは、抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する。 The server generates prompt sentences to input into the generative AI model based on the extracted information.
具体的な動作:サーバは、シーンの雰囲気や登場人物の感情状態に応じたプロンプト文を作成する。例えば、感動的なシーンの場合、「美しい風景のグラフィックを生成してください。シーンは感動的な場面で、登場人物は涙を流しています。」というプロンプト文を生成する。 Specific operation: The server creates a prompt that corresponds to the atmosphere of the scene and the emotional state of the characters. For example, in the case of an emotional scene, the server generates the prompt, "Generate a graphic of a beautiful landscape. The scene is emotional, and the characters are crying."
入力:シーンごとの雰囲気や登場人物の感情状態データ Input: Scene atmosphere and character emotional state data
出力:生成AIモデルに入力するプロンプト文 Output: Prompt text to be input to the generative AI model
ステップ6: Step 6:
サーバは、生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する。 The server inputs prompt text into the generative AI model, generating graphics and music that match the scene.
具体的な動作:サーバは、生成AIモデル(例:DALL-E)にプロンプト文を送信し、シーンにマッチしたグラフィックを生成する。同様に、音楽生成モデルにプロンプト文を送信し、シーンにマッチした音楽を生成する。 Specific operation: The server sends a prompt to the generative AI model (e.g., DALL-E), which generates graphics that match the scene. Similarly, it sends a prompt to the music generation model, which generates music that matches the scene.
入力:生成AIモデルに入力するプロンプト文 Input: Prompt text to be input to the generative AI model
出力:生成されたグラフィックと音楽 Output: Generated graphics and music
ステップ7: Step 7:
サーバは、生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する。 The server integrates the generated graphics and music with the scene data to generate the final output.
具体的な動作:サーバは、生成されたグラフィックと音楽を各シーンデータに統合し、物語全体の最終的な出力を作成する。 Specific operation: The server integrates the generated graphics and music with each scene data to create the final output of the entire story.
入力:生成されたグラフィックと音楽、シーンデータ Input: Generated graphics, music, and scene data
出力:統合された最終的な物語データ Output: Final integrated narrative data
ステップ8: Step 8:
端末は、統合された最終的な物語データをユーザに表示する。 The terminal displays the final, integrated story data to the user.
具体的な動作:端末は、サーバから送信された最終的な物語データを受信し、ユーザに視覚的および聴覚的に表示する。 Specific operation: The terminal receives the final story data sent from the server and displays it visually and audibly to the user.
入力:統合された最終的な物語データ Input: Final integrated narrative data
出力:ユーザに表示される物語の視覚および聴覚的コンテンツ Output: The visual and auditory content of the story presented to the user.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視覚的・聴覚的な演出効果が限定されていた。また、ユーザーが自分の物語を入力しても、その物語に適したグラフィックや音楽を生成するための手段が不足しており、コンテンツの質が低下する問題があった。さらに、生成されたコンテンツをプレビューし、エクスポートする機能が欠如していたため、ユーザーの利便性が低かった Previous story generation systems struggled to automatically create graphics and music that matched each scene in the story, limiting the visual and auditory effects they could produce. Furthermore, even when users input their own stories, there was a lack of means to generate graphics and music appropriate for that story, resulting in a decline in content quality. Furthermore, the lack of functionality to preview and export the generated content resulted in poor user convenience.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する手段と、シーンの説明に基づいてグラフィックを生成する手段と、シーンの説明に基づいて音楽を生成する手段と、生成されたコンテンツをプレビューする手段と、完成したコンテンツをエクスポートする手段を含む。これにより、ユーザーが入力した物語に基づいて、視覚的・聴覚的に豊かなコンテンツを自動で生成し、プレビューおよびエクスポートすることが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, video, and music, and effectively stirring the viewer's emotions; means for analyzing story scenes and extracting the scene atmosphere and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content. This makes it possible to automatically generate, preview, and export visually and aurally rich content based on a story entered by the user.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指す。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を指す。 "Story setting" refers to basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要になる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that foreshadow information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される視覚的な画像やイラストを指す。 "Graphics" refers to visual images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「シーンの雰囲気」とは、物語の特定の場面が持つ全体的な感覚やムードを指す。 'Scene atmosphere' refers to the overall feeling or mood of a particular moment in a story.
「登場人物の感情状態」とは、物語の中で登場人物が感じている感情を指す。 "A character's emotional state" refers to the emotions the character is feeling in the story.
「シーンの説明」とは、物語の特定の場面についての詳細な描写や解説を指す。 A "scene description" refers to a detailed description or explanation of a particular scene in a story.
「プレビュー」とは、生成されたコンテンツを事前に確認することを指す。 "Preview" refers to checking the generated content in advance.
「エクスポート」とは、生成されたコンテンツを外部ファイルとして保存することを指す。 "Export" refers to saving the generated content as an external file.
この発明を実施するためのシステムは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段、入力されたストーリー設定に基づき登場人物のセリフや情景、物語の構成を自動で作成する手段、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段、物語の構成や登場人物の会話、映像や音楽で演出効果を高め視聴者の心情を効果的に揺さぶる手段、物語のシーンを解析しシーンの雰囲気と登場人物の感情状態を抽出する手段、シーンの説明に基づいてグラフィックを生成する手段、シーンの説明に基づいて音楽を生成する手段、生成されたコンテンツをプレビューする手段、完成したコンテンツをエクスポートする手段を含む。 A system for implementing this invention includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the story structure, character dialogue, and visuals and music to effectively stir the viewer's emotions; means for analyzing story scenes and extracting the atmosphere of the scene and the emotional state of the characters; means for generating graphics based on scene descriptions; means for generating music based on scene descriptions; means for previewing the generated content; and means for exporting the completed content.
ハードウェアおよびソフトウェアの構成 Hardware and software configuration
ハードウェア: Hardware:
スマートフォン Smartphone
ソフトウェア: Software:
Python Python
OpenAI API OpenAI API
PIL (Python Imaging Library) PIL (Python Imaging Library)
音楽生成ライブラリ Music generation library
データ加工およびデータ演算 Data processing and calculation
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段: How to enter story settings such as theme, setting, and characters:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
登場人物のセリフや情景、物語の構成を自動で作成する手段: Methods for automatically creating character dialogue, scenes, and story structure:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
伏線やミステリー要素、感動的なシーンなどを自動で生成する手段: Methods for automatically generating foreshadowing, mystery elements, moving scenes, etc.:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段: Methods for automatically creating graphics and music that match each scene in a story:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。これに基づいて、OpenAIの画像生成APIを使用してグラフィックを生成し、音楽生成APIを使用して音楽を生成する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the characters' emotional state. Based on this, it generates graphics using OpenAI's image generation API and music using OpenAI's music generation API.
生成されたコンテンツをプレビューする手段: How to preview generated content:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including the generated graphics and music, through a smartphone application.
完成したコンテンツをエクスポートする手段: How to export your finished content:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
具体例 Specific examples
例えば、ユーザが「勇者はドラゴンと戦うために山に登った。」という物語を入力すると、システムはこのシーンを解析し、勇者とドラゴンの戦闘シーンにマッチした迫力のあるグラフィックと緊張感を高める音楽を生成する。 For example, if a user inputs the story "A hero climbed a mountain to fight a dragon," the system will analyze this scene and generate powerful graphics and music that heightens the tension to match the battle scene between the hero and the dragon.
プロンプト文の例: Example prompt:
以下の物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を出力してください: Analyze the following story scene and output the scene's atmosphere and the characters' emotional states:
勇者はドラゴンと戦うために山に登った。 The hero climbed the mountain to fight the dragon.
このようにして、ユーザは自分の物語を視覚的・聴覚的に豊かなコンテンツとして楽しむことができる。 In this way, users can enjoy their stories as visually and aurally rich content.
応用例3における特定処理の流れについて図16を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 16.
ステップ1: Step 1:
ユーザはスマートフォンのアプリケーションを通じて、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。 Users enter story settings such as the story's theme, setting, and characters in text format through a smartphone application.
入力: 物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力: テキスト形式のストーリー設定データ Output: Story setting data in text format
ステップ2: Step 2:
サーバは、入力されたストーリー設定を基に、生成AIモデル(例えば、GPT-3)を使用して登場人物のセリフや情景、物語の構成を自動で作成する。 Based on the input story setting, the server uses a generative AI model (e.g., GPT-3) to automatically create character dialogue, scenes, and story structure.
入力: テキスト形式のストーリー設定データ Input: Text-based story setting data
出力: 登場人物のセリフ、情景、物語の構成データ Output: Character dialogue, scenery, and story structure data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ3: Step 3:
サーバは、生成AIモデルを用いて、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する。 The server uses a generative AI model to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting.
入力: 登場人物のセリフ、情景、物語の構成データ Input: Character dialogue, scenery, and story structure data
出力: 伏線、ミステリー要素、感動的なシーンデータ Output: Foreshadowing, mystery elements, and moving scene data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、生成されたテキストを受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the generated text.
ステップ4: Step 4:
サーバは、物語の各シーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する。 The server analyzes each scene in the story and extracts the scene's atmosphere and the emotional state of the characters.
入力: 伏線、ミステリー要素、感動的なシーンデータ Input: Foreshadowing, mystery elements, and moving scene data
出力: シーンの雰囲気、登場人物の感情状態データ Output: Scene atmosphere, character emotional state data
具体的な動作: サーバは生成AIモデルにプロンプト文を送信し、解析結果を受け取る。 Specific operation: The server sends a prompt to the generative AI model and receives the analysis results.
ステップ5: Step 5:
サーバは、シーンの説明に基づいてグラフィックを生成する。 The server generates graphics based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: グラフィックデータ Output: Graphics data
具体的な動作: サーバはOpenAIの画像生成APIにプロンプト文を送信し、生成された画像を受け取る。 Specific operation: The server sends a prompt to OpenAI's image generation API and receives the generated image.
ステップ6: Step 6:
サーバは、シーンの説明に基づいて音楽を生成する。 The server generates music based on the scene description.
入力: シーンの雰囲気、登場人物の感情状態データ Input: Scene atmosphere, character emotional state data
出力: 音楽データ Output: Music data
具体的な動作: サーバはOpenAIの音楽生成APIにプロンプト文を送信し、生成された音楽を受け取る。 Specific operation: The server sends a prompt to OpenAI's music generation API and receives the generated music.
ステップ7: Step 7:
ユーザはスマートフォンのアプリケーションを通じて、生成されたグラフィックや音楽を含む物語の各シーンをプレビューすることができる。 Users can preview each scene of the story, including the generated graphics and music, through a smartphone application.
入力: グラフィックデータ、音楽データ Input: Graphics data, music data
出力: プレビュー画面 Output: Preview screen
具体的な動作: スマートフォンのアプリケーションが生成されたデータを表示し、ユーザにプレビューを提供する。 Specific behavior: The smartphone application displays the generated data and provides a preview to the user.
ステップ8: Step 8:
ユーザは、スマートフォンのアプリケーションを通じて、完成したコンテンツを動画ファイルとしてエクスポートすることができる。 Users can export the finished content as a video file through a smartphone application.
入力: プレビュー画面 Input: Preview screen
出力: 動画ファイル Output: Video file
具体的な動作: スマートフォンのアプリケーションが生成されたデータを動画ファイルとして保存し、ユーザに提供する。 Specific operation: The smartphone application saves the generated data as a video file and provides it to the user.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。 It is also possible to further combine an emotion engine that estimates the user's emotion. That is, the identification processing unit 290 may estimate the user's emotion using the emotion identification model 59 and perform identification processing using the user's emotion.
「形態例1」 "Example 1"
本発明の一実施形態として、感情エンジンを組み合わせた物語生成システムがある。このシステムは、ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。そして、そのストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。さらに、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。また、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。そして、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 One embodiment of the present invention is a story generation system that incorporates an emotion engine. This system receives story settings, such as the story's theme, setting, and characters, as input information from the user. Based on this story setting, the system then automatically creates character dialogue, scenery, and story structure. It also automatically generates foreshadowing, mystery elements, and moving scenes to make the story more interesting. It also automatically creates graphics and music that match each scene in the story. The story structure, character dialogue, video, and music enhance the dramatic effect, effectively stirring the viewer's emotions.
「形態例2」 "Example 2"
さらに、本システムは感情エンジンを含む。この感情エンジンは、ユーザの感情をリアルタイムで認識する。そして、その感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Furthermore, the system includes an emotion engine. This emotion engine recognizes the user's emotions in real time and adjusts the story development according to those emotions. For example, if the user feels joyful about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
感情エンジンは、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions. For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. If the user speaks in a sad tone of voice, the emotion engine will recognize that the user is feeling sad. Furthermore, if the user inputs the text "fun," the emotion engine will recognize that the user is feeling happy. Based on this information, the emotion engine adjusts the development of the story and provides a story experience that matches the user's emotions.
以下に、各形態例の処理の流れについて説明する。 The processing flow for each example form is explained below.
「形態例1」 "Example 1"
ステップ1:ユーザからの入力情報として物語のテーマや舞台、登場人物などのストーリー設定を受け取る。 Step 1: Receive story settings such as theme, setting, and characters as input from the user.
ステップ2:受け取ったストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 Step 2: Based on the received story setting, character dialogue, scenes, and story structure are automatically created.
ステップ3:作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 Step 3: Automatically generate hints, mystery elements, moving scenes, and more to make your story more interesting.
ステップ4:作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。ステップ5:物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる。 Step 4: Automatically create graphics and music that match each scene in the story you've created. Step 5: Enhance the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions.
「形態例2」 "Example 2"
ステップ1:感情エンジンを起動し、ユーザの感情をリアルタイムで認識する。 Step 1: Launch the emotion engine and recognize the user's emotions in real time.
ステップ2:認識した感情に応じて物語の展開を調整する。例えば、ユーザが物語に対して喜びを感じている場合、物語はさらに明るい展開になる。逆に、ユーザが物語に対して悲しみを感じている場合、物語はより深みのある展開になる。 Step 2: Adjust the story development according to the recognized emotion. For example, if the user feels happy about the story, the story will develop in a more cheerful manner. Conversely, if the user feels sad about the story, the story will develop in a more profound manner.
「形態例3」 "Example 3"
ステップ1:感情エンジンがユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する。 Step 1: The emotion engine uses information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions.
ステップ2:例えば、ユーザが笑顔を見せている場合、感情エンジンはユーザが喜びを感じていると認識する。また、ユーザが悲しい声のトーンで話している場合、感情エンジンはユーザが悲しみを感じていると認識する。 Step 2: For example, if the user is smiling, the emotion engine will recognize that the user is feeling happy. Also, if the user is speaking in a sad tone of voice, the emotion engine will recognize that the user is feeling sad.
ステップ3:さらに、ユーザが「楽しい」というテキストを入力した場合、感情エンジンはユーザが楽しみを感じていると認識する。これらの情報を基に、感情エンジンは物語の展開を調整し、ユーザの感情に応じた物語体験を提供する。 Step 3: Furthermore, if the user enters the text "fun," the emotion engine recognizes that the user is feeling enjoyment. Based on this information, the emotion engine adjusts the development of the story and provides a narrative experience that matches the user's emotions.
(実施例1) (Example 1)
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 1 of Form Example 1 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザが入力したストーリー設定に基づいて物語を自動生成する際に、物語の流れや登場人物のセリフ、情景の一貫性が欠けることが多かった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンの生成が難しく、視聴者の心情を効果的に揺さぶることができなかった。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することが困難であった。これらの課題を解決するために、本発明は、より一貫性のある物語生成と、視聴者の心情を効果的に揺さぶるためのシステムを提供することを目的とする In conventional story generation systems, when automatically generating a story based on a story setting entered by the user, the story flow, character dialogue, and scenery often lacked consistency. Furthermore, it was difficult to generate foreshadowing, mystery elements, and moving scenes to make the story more interesting, making it difficult to effectively move the viewer's emotions. Furthermore, it was difficult to automatically create graphics and music that matched each scene in the story. To address these issues, the present invention aims to provide a system that generates more consistent stories and effectively moves the viewer's emotions.
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定を解析する手段と、解析されたストーリー設定に基づき、既存の物語データベースを検索する手段と、生成AIモデルにプロンプト文を生成し入力する手段と、生成AIモデルを用いて登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含む。これにより、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることが可能となる。 In this invention, the server includes means for inputting story settings such as the story's theme, setting, and characters; means for analyzing the input story settings; means for searching an existing story database based on the analyzed story settings; means for generating and inputting prompt sentences to a generation AI model; means for automatically creating character dialogue, scenes, and story structure using the generation AI model; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions. This makes it possible to generate a consistent story based on the story settings input by the user, effectively stirring the viewer's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材のことである。 A "story theme" is the central subject or subject of a story.
「舞台」とは、物語が展開される場所や時代背景のことである。 "Setting" refers to the place and historical background in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや人物のことである。 "Characters" refers to the characters and people who appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters.
「入力する手段」とは、ユーザが物語のテーマや舞台、登場人物などのストーリー設定をシステムに提供するための方法や装置のことである。 "Input means" refers to the method or device by which the user provides the story setting, such as the story's theme, setting, and characters, to the system.
「解析する手段」とは、入力されたストーリー設定を分析し、重要なキーワードやフレーズを抽出するための方法や装置のことである。 "Means for analyzing" refers to a method or device for analyzing the input story setting and extracting important keywords and phrases.
「データベースを検索する手段」とは、解析されたストーリー設定に基づいて、既存の物語データベースから関連情報を検索するための方法や装置のことである。 "Means for searching a database" refers to a method or device for searching relevant information from an existing narrative database based on the analyzed story setting.
「生成AIモデル」とは、人工知能技術を用いてテキストや物語を生成するためのモデルのことである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文や質問文のことである。 A "prompt" is an instruction or question that is input into a generative AI model.
「プロンプト文を生成し入力する手段」とは、生成AIモデルに適したプロンプト文を作成し、それをモデルに入力するための方法や装置のことである。 "Means for generating and inputting prompt sentences" refers to a method or device for creating prompt sentences suitable for a generative AI model and inputting them into the model.
「セリフ」とは、登場人物が話す言葉や台詞のことである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面のことである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の流れや展開を決定するための構造や配置のことである。 "Narrative structure" refers to the structure and arrangement that determines the flow and development of a story.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントのことである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語に謎やサスペンスを加えるための要素のことである。 "Mystery elements" are elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面のことである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語の各シーンに合わせて生成される画像やイラストのことである。 "Graphics" refers to images and illustrations generated to match each scene in the story.
「曲」とは、物語の各シーンに合わせて生成される音楽やメロディのことである。 "Songs" refer to music and melodies generated to match each scene in the story.
「演出効果」とは、物語の構成や登場人物の会話、映像や音楽を用いて視聴者の心情を揺さぶるための効果のことである。 "Directory effects" refer to effects that use story structure, character dialogue, images, and music to stir the viewer's emotions.
本発明は、物語生成システムに関するものであり、ユーザが入力したストーリー設定に基づいて一貫性のある物語を生成し、視聴者の心情を効果的に揺さぶることを目的とする。 The present invention relates to a story generation system that generates a coherent story based on a story setting entered by the user, and aims to effectively stir the emotions of the viewer.
システムの構成 System Configuration
ユーザの入力 User input
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」といった具体的な設定を提供する。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they can provide a specific setting such as "a knight's adventure story set in medieval Europe."
サーバの入力解析 Server input analysis
サーバは、ユーザから受け取ったストーリー設定を解析する。この解析には、自然言語処理技術を用いる。具体的には、PythonのNLTKライブラリやSpaCyを使用する。サーバは、入力テキストをトークン化し、重要なキーワードやフレーズを抽出する。 The server analyzes the story setting received from the user. This analysis uses natural language processing techniques, specifically Python's NLTK library and SpaCy. The server tokenizes the input text and extracts important keywords and phrases.
データベースの検索 Search the database
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。このデータベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。 The server searches an existing story database based on the extracted keywords and phrases. This database stores information on past stories and characters. The server finds similar stories and character settings and uses them as reference information.
生成AIモデルのプロンプト生成 Prompt generation for generative AI models
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。 Based on user input and information obtained from the database, the server generates prompts to be input into the generative AI model. For example, it creates a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and descriptions of the scenery."
生成AIモデルによる物語生成 Story generation using generative AI models
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。 The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities.
感情エンジンの適用 Applying the Emotion Engine
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer.
グラフィックと音楽の生成 Graphics and music generation
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music.
最終出力の統合 Merge the final output
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例 Specific examples
ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」という設定を入力した場合、サーバは以下のような物語を生成する: If the user inputs the setting "A knight's adventure story set in medieval Europe," the server will generate a story like this:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
プロンプト文の例 Example prompt
生成AIモデルに入力するプロンプト文の例は以下の通り: An example of a prompt to input to the generative AI model is as follows:
「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」 "Create a knight's adventure story set in medieval Europe. The main character is a brave knight named Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include an opening line, character dialogue, and a description of the scenery."
このプロンプト文を生成AIモデルに入力することで、物語の各要素が自動的に生成される。 By inputting this prompt into a generative AI model, each element of the story is automatically generated.
実施例1における特定処理の流れについて図17を用いて説明する。 The flow of the identification process in Example 1 will be explained using Figure 17.
ステップ1: Step 1:
ユーザは、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語」と入力する。この入力は、システムのユーザインターフェースを通じて行われる。入力されたテキストは、サーバに送信される。 The user enters the story's theme, setting, characters, and other story settings in text format. For example, they might enter "A knight's adventure story set in medieval Europe." This input is done through the system's user interface. The entered text is sent to the server.
ステップ2: Step 2:
サーバは、ユーザから受け取ったストーリー設定を解析する。具体的には、PythonのNLTKライブラリやSpaCyを使用してテキストをトークン化し、重要なキーワードやフレーズを抽出する。例えば、「中世ヨーロッパ」、「騎士」、「冒険物語」といったキーワードを抽出する。この解析結果は、次のステップで使用される。 The server analyzes the story setting received from the user. Specifically, it uses Python's NLTK library and SpaCy to tokenize the text and extract important keywords and phrases. For example, it extracts keywords such as "medieval Europe," "knights," and "adventure story." The results of this analysis are used in the next step.
ステップ3: Step 3:
サーバは、抽出したキーワードやフレーズを基に、既存の物語データベースを検索する。データベースには、過去の物語やキャラクターの情報が蓄積されている。サーバは、類似の物語やキャラクター設定を見つけ出し、参考情報として利用する。例えば、「中世ヨーロッパ」をテーマにした過去の物語や、「騎士」を主人公とした物語を検索する。この検索結果は、次のステップで使用される。 The server searches an existing story database based on the extracted keywords and phrases. The database contains information on past stories and characters. The server finds similar stories and character settings and uses them as reference information. For example, it searches for past stories with a "medieval Europe" theme or stories with a "knight" as the main character. The search results are used in the next step.
ステップ4: Step 4:
サーバは、ユーザの入力とデータベースから得た情報を基に、生成AIモデルに入力するプロンプト文を生成する。例えば、「中世ヨーロッパを舞台にした騎士の冒険物語を作成してください。主人公は勇敢な騎士アーサーで、彼の使命は邪悪なドラゴンを倒し、王国を救うことです。物語の冒頭、登場人物のセリフ、情景描写を含めてください。」といったプロンプト文を作成する。このプロンプト文は、次のステップで使用される。 Based on user input and information obtained from the database, the server generates a prompt to be input into the generative AI model. For example, it might create a prompt such as, "Create a knight's adventure story set in medieval Europe. The main character is the brave knight Arthur, whose mission is to defeat an evil dragon and save the kingdom. Please include the opening of the story, lines from the characters, and a description of the scenery." This prompt will be used in the next step.
ステップ5: Step 5:
サーバは、生成AIモデル(例えば、OpenAIのGPT-4)にプロンプト文を入力し、物語の流れや登場人物のセリフ、情景を生成する。生成AIモデルは、ユーザの入力に基づいて、物語のテーマや登場人物の性格に合わせたテキストを生成する。例えば、生成AIモデルは以下のような物語を生成する: The server inputs prompt text into a generative AI model (for example, OpenAI's GPT-4), which generates the story flow, character dialogue, and scenery. Based on the user's input, the generative AI model generates text that matches the story's theme and the characters' personalities. For example, the generative AI model generates the following story:
物語の冒頭: 「中世ヨーロッパの広大な平原に、勇敢な騎士アーサーが立っていた。彼の使命は、邪悪なドラゴンを倒し、王国を救うことであった。」 The story begins: "In the vast plains of medieval Europe stood the brave knight Arthur. His mission was to slay the evil dragon and save the kingdom."
登場人物のセリフ: 「アーサー:『この剣に誓って、必ずドラゴンを倒してみせる!』」 Character Quote: "Arthur: 'I swear on this sword that I will defeat the dragon!'"
情景描写: 「夕焼けに染まる空の下、アーサーは剣を握りしめ、決意を新たにした。」 Scene description: "Under the sunset, Arthur gripped his sword and renewed his resolve."
ステップ6: Step 6:
サーバは、生成された物語に感情エンジンを適用し、物語の各シーンに感情的な要素を追加する。例えば、伏線やミステリー要素、感動的なシーンを自動で生成する。この感情エンジンには、IBM WatsonのTone Analyzerを使用する。感情エンジンは、生成されたテキストを解析し、適切な感情要素を追加する。 The server applies an emotion engine to the generated story, adding emotional elements to each scene in the story. For example, it automatically generates foreshadowing, mystery elements, and moving scenes. This emotion engine uses IBM Watson's Tone Analyzer. The emotion engine analyzes the generated text and adds appropriate emotional elements.
ステップ7: Step 7:
サーバは、物語の各シーンにマッチしたグラフィックや曲を自動で制作する。グラフィックの生成には、画像生成AIを使用し、音楽の生成には、音楽生成AIを使用する。例えば、物語の冒頭シーンに合わせて、中世ヨーロッパの風景を描いたグラフィックや、冒険を感じさせる曲を生成する。 The server automatically creates graphics and music that match each scene in the story. Image generation AI is used to generate the graphics, and music generation AI is used to generate the music. For example, to match the opening scene of the story, it generates graphics depicting the scenery of medieval Europe and music that evokes a sense of adventure.
ステップ8: Step 8:
サーバは、生成された物語、グラフィック、音楽を統合し、ユーザに提供する。ユーザは、完成した物語を閲覧し、楽しむことができる。例えば、ユーザはウェブブラウザを通じて物語を閲覧し、グラフィックや音楽と共に楽しむことができる。 The server integrates the generated story, graphics, and music and provides them to the user. The user can then view and enjoy the completed story. For example, the user can view the story through a web browser and enjoy it along with the graphics and music.
(応用例1) (Application Example 1)
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 1 of Form Example 1. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザーが入力した設定に基づいて物語を生成することはできるが、生成された物語をリアルタイムで視覚化・音声化し、ユーザーが仮想現実空間で体験することはできなかった。また、物語の各シーンにマッチしたグラフィックや音楽を自動で生成し、視聴者の心情を効果的に揺さぶる演出効果を高めることも困難であった。これにより、ユーザーの体験が限定され、物語の没入感が不足していた。 Conventional story generation systems could generate stories based on settings entered by the user, but they were unable to visualize and sound out the generated stories in real time and allow users to experience them in a virtual reality space. It was also difficult to automatically generate graphics and music that matched each scene in the story, enhancing the dramatic effects that effectively stirred the viewer's emotions. This limited the user experience and led to a lack of immersion in the story.
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 1 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザーが入力した物語の設定に基づき、生成AIモデルを用いて物語を生成する手段と、生成された物語をリアルタイムで視覚化・音声化する手段と、ヘッドマウントディスプレイを用いてユーザーが生成された物語を仮想現実空間で体験する手段と、を含む。これにより、ユーザーは生成された物語をリアルタイムで視覚化・音声化し、仮想現実空間で体験することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically producing graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for generating a story using a generative AI model based on the story settings input by the user; means for visualizing and audibly converting the generated story in real time; and means for the user to experience the generated story in a virtual reality space using a head-mounted display. This allows the user to visualize and audibly convert the generated story in real time and experience it in a virtual reality space.
「物語のテーマ」とは、物語の中心となる主題や題材のことであり、物語全体の方向性や雰囲気を決定するものである。 A "story theme" is the central subject or theme of a story, and determines the overall direction and atmosphere of the story.
「舞台」とは、物語が展開される場所や時代背景のことであり、物語の設定や雰囲気を形成する要素である。 The "setting" refers to the place and historical background in which the story unfolds, and is an element that shapes the setting and atmosphere of the story.
「登場人物」とは、物語の中で行動するキャラクターのことであり、物語の進行や展開に重要な役割を果たすものである。 "Characters" are characters who act in a story and play an important role in the progression and development of the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定のことであり、物語の基盤を形成するものである。 "Story setting" refers to the setting that includes basic elements such as the story's theme, setting, and characters, and forms the foundation of the story.
「生成AIモデル」とは、人工知能技術を用いてテキストやデータを生成するモデルのことであり、物語の構成やセリフを自動で作成するために使用されるものである。 A "generative AI model" is a model that uses artificial intelligence technology to generate text and data, and is used to automatically create story structures and dialogue.
「伏線」とは、物語の中で後の展開を予感させる要素やヒントのことであり、物語を面白くするための技法である。 "Foreshadowing" refers to elements or hints in a story that give a glimpse of future developments, and is a technique used to make a story more interesting.
「ミステリー要素」とは、物語の中で謎や疑問を提示する要素のことであり、読者や視聴者の興味を引きつけるためのものである。 "Mystery elements" are elements in a story that present a mystery or question, intended to attract the interest of readers or viewers.
「感動的なシーン」とは、物語の中で感情を強く揺さぶる場面のことであり、視聴者の心に深い印象を与えるものである。 A "moving scene" is a scene in a story that stirs strong emotions and leaves a deep impression on the viewer's mind.
「グラフィック」とは、視覚的な画像や映像のことであり、物語のシーンや登場人物を視覚的に表現するためのものである。 "Graphics" refers to visual images and footage that visually represent scenes and characters in a story.
「曲」とは、音楽のことであり、物語のシーンや雰囲気を音楽で演出するためのものである。 "Song" refers to music, used to create scenes and atmosphere in a story.
「視覚化」とは、物語の内容を視覚的に表現することであり、ユーザーが物語を目で見て楽しむことができるようにするものである。 "Visualization" refers to the visual representation of the story content, allowing users to enjoy the story visually.
「音声化」とは、物語の内容を音声で表現することであり、ユーザーが物語を耳で聞いて楽しむことができるようにするものである。 "Audio" refers to the expression of the story content in audio, allowing users to enjoy the story by listening to it.
「仮想現実空間」とは、コンピュータ技術を用いて作り出された仮想の空間のことであり、ユーザーがその中で現実のように体験できるものである。 A "virtual reality space" is a virtual space created using computer technology that allows users to experience reality.
「ヘッドマウントディスプレイ」とは、頭部に装着するディスプレイ装置のことであり、ユーザーが仮想現実空間を体験するために使用されるものである。 A "head-mounted display" is a display device worn on the head, used to allow users to experience virtual reality spaces.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、ユーザはスマートフォンやヘッドマウントディスプレイを使用して物語のテーマや舞台、登場人物などのストーリー設定を入力する。これらの入力はテキスト形式で行われる。 A system for implementing this invention has the following configuration: First, a user uses a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters. This input is done in text format.
次に、サーバは生成AIモデル(例:GPT-4)を用いて、ユーザが入力したストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。生成AIモデルは、既存の物語データベースを参照しながら、物語の流れや登場人物の性格、物語のテーマに合わせたセリフや情景を生成する。 Next, the server uses a generative AI model (e.g., GPT-4) to automatically create character dialogue, scenes, and a story structure based on the story setting entered by the user. The generative AI model references an existing story database to generate dialogue and scenes that match the story flow, character personalities, and story theme.
さらに、サーバは感情エンジンを用いて、作成された物語に伏線やミステリー要素、感動的なシーンなどを追加する。これにより、物語がより面白く、感動的なものとなる。 In addition, the server uses an emotion engine to add hints, mystery elements, and moving scenes to the stories created, making them more interesting and moving.
次に、サーバはグラフィック生成エンジンと音楽生成エンジンを使用して、作成された物語の各シーンにマッチしたグラフィックや曲を自動で制作する。これにより、物語の視覚的および聴覚的な演出効果が高まり、視聴者の心情を効果的に揺さぶることができる。 The server then uses a graphics generation engine and a music generation engine to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story, effectively stirring the emotions of the viewer.
最後に、生成された物語はリアルタイムで視覚化・音声化され、ユーザはヘッドマウントディスプレイを用いて仮想現実空間で物語を体験することができる。これにより、ユーザは物語の中に没入し、より深い体験を得ることができる。 Finally, the generated story is visualized and audible in real time, and the user can experience the story in a virtual reality space using a head-mounted display. This allows the user to become immersed in the story and enjoy a deeper experience.
具体例として、ユーザが「中世ヨーロッパを舞台にした騎士の冒険物語」を入力した場合、以下のようなプロンプト文が生成AIモデルに入力される。 As a concrete example, if a user inputs "a knight's adventure story set in medieval Europe," the following prompt sentence will be input to the generative AI model:
プロンプト文の例: Example prompt:
テーマ: 中世ヨーロッパ Theme: Medieval Europe
舞台: 騎士の冒険 Setting: Knight's Adventure
登場人物: 勇敢な騎士、魔法使い、ドラゴン Characters: Brave knight, wizard, dragon
物語の設定: 勇敢な騎士が魔法使いと共にドラゴンを倒す冒険に出る Story setting: A brave knight and a wizard embark on an adventure to slay a dragon.
このプロンプト文を基に、生成AIモデルが物語を生成し、感情エンジンが感情的な要素を追加し、グラフィック生成エンジンと音楽生成エンジンがグラフィックと音楽を生成する。ユーザはヘッドマウントディスプレイを通じて、リアルタイムでこの物語を体験することができる。 Based on this prompt, a generative AI model generates a story, an emotion engine adds emotional elements, and a graphics generation engine and music generation engine generate graphics and music. Users can experience this story in real time through a head-mounted display.
応用例1における特定処理の流れについて図18を用いて説明する。 The flow of the specific processing in Application Example 1 is explained using Figure 18.
ステップ1: Step 1:
ユーザはスマートフォンやヘッドマウントディスプレイを使用して、物語のテーマや舞台、登場人物などのストーリー設定をテキスト形式で入力する。入力されたデータはサーバに送信される。 Users use a smartphone or head-mounted display to input story settings such as the story's theme, setting, and characters in text format. The input data is sent to the server.
入力:物語のテーマ、舞台、登場人物などのストーリー設定 Input: Story setting, including theme, setting, and characters.
出力:サーバに送信されたストーリー設定データ Output: Story setting data sent to the server
ステップ2: Step 2:
サーバは受信したストーリー設定データを基に、生成AIモデル(例:GPT-4)を使用して物語の構成、登場人物のセリフ、情景を自動で作成する。生成AIモデルは既存の物語データベースを参照しながら、物語の流れや登場人物の性格に合わせたテキストを生成する。 Based on the received story setting data, the server uses a generative AI model (e.g., GPT-4) to automatically create the story structure, character dialogue, and scenery. The generative AI model references an existing story database to generate text that matches the story flow and character personalities.
入力:ストーリー設定データ Input: Story setting data
出力:生成された物語の構成、セリフ、情景 Output: Generated story structure, dialogue, and scenery
ステップ3: Step 3:
サーバは感情エンジンを用いて、生成された物語に伏線やミステリー要素、感動的なシーンなどの感情的な要素を追加する。感情エンジンは物語の各シーンに適した感情的な要素を自動で挿入する。 The server uses an emotion engine to add emotional elements such as foreshadowing, mystery elements, and moving scenes to the generated story. The emotion engine automatically inserts emotional elements appropriate to each scene in the story.
入力:生成された物語の構成、セリフ、情景 Input: Generated story structure, dialogue, and scenery
出力:感情的な要素が追加された物語 Output: A story with added emotional content
ステップ4: Step 4:
サーバはグラフィック生成エンジンを使用して、物語の各シーンにマッチしたグラフィックを自動で制作する。グラフィック生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切なビジュアルを生成する。 The server uses a graphics generation engine to automatically create graphics that match each scene in the story. The graphics generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate visuals.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチしたグラフィック Output: Graphics that match each scene
ステップ5: Step 5:
サーバは音楽生成エンジンを使用して、物語の各シーンにマッチした曲を自動で制作する。音楽生成エンジンはシーンの雰囲気や登場人物の感情状態を考慮して、適切な音楽を生成する。 The server uses a music generation engine to automatically create music that matches each scene in the story. The music generation engine takes into account the atmosphere of the scene and the emotional state of the characters to generate appropriate music.
入力:感情的な要素が追加された物語 Input: A story with an emotional element
出力:各シーンにマッチした曲 Output: Songs that match each scene
ステップ6: Step 6:
サーバは生成された物語、グラフィック、音楽を統合し、リアルタイムで視覚化・音声化する。これにより、ユーザは物語を視覚と聴覚で体験することができる。 The server integrates the generated story, graphics, and music, visualizing and audiovisualizing them in real time, allowing users to experience the story visually and aurally.
入力:生成された物語、グラフィック、音楽 Input: Generated story, graphics, music
出力:リアルタイムで視覚化・音声化された物語 Output: Real-time visual and audio narrative
ステップ7: Step 7:
ユーザはヘッドマウントディスプレイを使用して、仮想現実空間で生成された物語を体験する。ユーザは物語の中に没入し、より深い体験を得ることができる。 Using a head-mounted display, users experience a story generated in a virtual reality space, immersing themselves in the story and providing a deeper experience.
入力:リアルタイムで視覚化・音声化された物語 Input: Real-time visual and audio narrative
出力:仮想現実空間での物語体験 Output: Narrative experience in a virtual reality space
(実施例2) (Example 2)
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 2 of Form Example 2 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、物語をより面白くするための伏線やミステリー要素、感動的なシーンを自動で生成することが難しい。また、ユーザの感情に応じて物語の展開をリアルタイムで調整する機能が欠如しているため、ユーザの感情に寄り添った物語体験を提供することができない。さらに、物語の各シーンにマッチしたグラフィックや曲を自動で制作することも困難である。これらの課題を解決するための新しいシステムが求められている。 While conventional story generation systems can automatically generate a story based on the story's theme and character settings, they have difficulty automatically generating foreshadowing, mystery elements, and moving scenes that make the story more interesting. Furthermore, they lack the functionality to adjust the story's development in real time based on the user's emotions, making it impossible to provide a narrative experience that is in tune with the user's emotions. Furthermore, it is difficult to automatically create graphics and music that match each scene in the story. A new system that can solve these issues is needed.
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語のテーマや登場人物の設定に基づいて物語を自動生成するだけでなく、伏線やミステリー要素、感動的なシーンを自動で生成し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for recognizing the user's emotions in real time and adjusting the story development in accordance with those emotions; means for automatically creating graphics and music that match each scene of the created story; and means for enhancing the dramatic effect with the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible not only to automatically generate a story based on the story theme and character settings, but also to automatically generate foreshadowing, mystery elements, and moving scenes, and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の全体的な主題や方向性を示すものである。 The "story theme" indicates the overall subject or direction of the story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語の中で行動するキャラクターを指すものである。 "Characters" refers to the characters who take action in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前もって配置される要素を指すものである。 "Foreshadowing" refers to elements that are laid out in advance in a way that will have important meaning later in the story.
「ミステリー要素」とは、物語に謎や不明な点を含めることで、読者や視聴者の興味を引く要素を指すものである。 "Mystery elements" refer to elements that attract the interest of readers or viewers by including mysteries or unknown points in a story.
「感動的なシーン」とは、読者や視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the emotions of the reader or viewer.
「ユーザの感情」とは、物語を体験するユーザが感じる喜び、悲しみ、驚きなどの感情を指すものである。 "User emotions" refers to feelings such as joy, sadness, and surprise felt by users as they experience the story.
「リアルタイムで認識」とは、ユーザの感情をその場で即座に検出することを指すものである。 "Real-time recognition" refers to detecting the user's emotions instantly and on the spot.
「物語の展開を調整」とは、ユーザの感情に応じて物語の進行や内容を変更することを指すものである。 "Adjusting the story development" refers to changing the progress and content of the story in response to the user's emotions.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて、読者や視聴者の感情や興味を引き立てる効果を指すものである。 "Directory effects" refer to the effects of using the visual and auditory elements of a story to stimulate the emotions and interest of readers or viewers.
この発明は、物語のテーマや登場人物の設定に基づいて物語を自動生成し、さらに伏線やミステリー要素、感動的なシーンを自動で生成するシステムである。加えて、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する機能を持つ。 This invention is a system that automatically generates a story based on the story's theme and character settings, and also automatically generates foreshadowing, mystery elements, and moving scenes. It also has the ability to recognize the user's emotions in real time and adjust the story's development accordingly.
使用するハードウェアおよびソフトウェア Hardware and software used
サーバは、生成AIモデル(例:GPT-4)を使用して物語の要素を生成する。サーバは、ユーザから受け取った物語のテーマや登場人物の性格、物語の進行に関する情報を基に、プロンプト文を生成AIモデルに入力し、物語の要素を生成する。 The server generates story elements using a generative AI model (e.g., GPT-4). Based on information received from the user about the story's theme, the characters' personalities, and the story's progression, the server inputs prompt sentences into the generative AI model to generate story elements.
端末は、ユーザの入力情報をサーバに送信し、サーバから受け取った物語の要素をユーザに表示する。また、端末はユーザの表情や音声から感情データを収集し、サーバに送信するための感情認識ソフトウェアを使用する。 The device sends the user's input information to the server and displays the story elements received from the server to the user. The device also uses emotion recognition software to collect emotional data from the user's facial expressions and voice and send it to the server.
ユーザは、物語のテーマや登場人物の性格、物語の進行に関する情報を端末に入力し、物語を楽しむ。ユーザの感情は端末によってリアルタイムで認識され、物語の展開に反映される。 Users enter information about the story's theme, the characters' personalities, and the story's progression into their device and enjoy the story. The device recognizes the user's emotions in real time and reflects them in the development of the story.
データ加工およびデータ演算 Data processing and calculation
サーバは、以下のようなデータ加工およびデータ演算を行う: The server performs the following data processing and calculations:
物語のテーマや登場人物の性格に基づいて、適切な伏線を生成する。 Generate appropriate foreshadowing based on the story's theme and the characters' personalities.
物語の進行に合わせて、ミステリー要素を散りばめる。 Mystery elements are scattered throughout the story as it progresses.
感動的なシーンを作り出すために、登場人物の感情や状況を分析する。 Analyze the characters' emotions and situations to create moving scenes.
端末は、ユーザの表情や音声から感情データを収集し、サーバに送信する。サーバはこの感情データを解析し、物語の展開を調整する。 The device collects emotional data from the user's facial expressions and voice and sends it to the server. The server analyzes this emotional data and adjusts the story's development.
具体例 Specific examples
例えば、騎士が冒険の途中で出会った人物が後の物語で重要な役割を果たすといった伏線を生成する場合、以下のようなプロンプト文を生成AIモデルに入力する: For example, to generate a hint that a person the knight meets during his adventure will play an important role later in the story, the following prompt sentence can be input into the generative AI model:
プロンプト文の例: Example prompt:
「騎士が冒険の途中で出会った謎の老人が、後の物語で重要な役割を果たすような伏線を作成してください。」 "Please create a plot twist that will lead to the mysterious old man the knight meets during his adventure playing an important role later in the story."
また、ユーザが物語に対して喜びを感じている場合、物語をさらに明るい展開にするためのプロンプト文は以下のようになる: Also, if the user is feeling happy about the story, a prompt to make the story even more upbeat might look like this:
プロンプト文の例: Example prompt:
「ユーザが喜びを感じているので、物語をさらに明るい展開にしてください。例えば、騎士が新たな仲間を見つけるシーンを追加してください。」 "Users are enjoying this, so please make the story even more upbeat. For example, add a scene where the knight finds a new companion."
このようにして、サーバは生成AIモデルと感情エンジンを活用し、ユーザの感情に応じた物語の展開を自動で生成する。 In this way, the server utilizes a generative AI model and emotion engine to automatically generate a story development that corresponds to the user's emotions.
実施例2における特定処理の流れについて図19を用いて説明する。 The flow of the identification process in Example 2 will be explained using Figure 19.
ステップ1: Step 1:
ユーザが物語のテーマや登場人物の性格、物語の進行に関する情報を入力する。 The user enters information about the story's theme, the characters' personalities, and the story's progression.
入力:物語のテーマ(例:冒険)、登場人物の性格(例:勇敢)、物語の進行に関する情報 Input: Story theme (e.g., adventure), character traits (e.g., bravery), and information about the story's progression.
出力:ユーザの入力情報 Output: User input information
具体的な動作:ユーザは端末の入力フォームに「冒険」をテーマとして入力し、登場人物の性格を「勇敢」と設定する。 Specific operation: The user enters the theme "adventure" into the device's input form and sets the character's personality to "brave."
ステップ2: Step 2:
端末がユーザの入力情報をサーバに送信する。 The device sends the user's input information to the server.
入力:ユーザの入力情報 Input: User input information
出力:サーバに送信されたユーザの入力情報 Output: User input information sent to the server
具体的な動作:端末が「テーマ: 冒険、性格: 勇敢」という情報をサーバに送信する。 Specific operation: The device sends the information "Theme: Adventure, Personality: Brave" to the server.
ステップ3: Step 3:
サーバが生成AIモデルを使用して物語の要素を生成する。 The server generates story elements using generative AI models.
入力:ユーザの入力情報 Input: User input information
出力:生成された物語の要素 Output: Generated story elements
具体的な動作:サーバが生成AIモデルに「冒険テーマで勇敢な騎士が主人公の物語を生成してください」というプロンプト文を入力し、物語の要素を生成する。 Specific operation: The server inputs the prompt "Generate a story with an adventure theme and a brave knight as the protagonist" into the generation AI model, and generates the elements of the story.
ステップ4: Step 4:
サーバが生成した物語の要素を端末に送信する。 The server sends the generated story elements to the device.
入力:生成された物語の要素 Input: Generated story elements
出力:端末に送信された物語の要素 Output: Story elements sent to the device
具体的な動作:サーバが生成した物語の要素(例:「騎士が冒険の途中で出会う謎の老人」)を端末に送信する。 Specific operation: The server sends story elements generated by the server (e.g., "The mysterious old man the knight meets during his adventure") to the device.
ステップ5: Step 5:
端末が物語をユーザに表示する。 The device displays the story to the user.
入力:サーバから受け取った物語の要素 Input: Story elements received from the server
出力:ユーザに表示された物語 Output: The story displayed to the user
具体的な動作:端末が「騎士が冒険の途中で謎の老人に出会う」というシーンをユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight meets a mysterious old man during his adventure.
ステップ6: Step 6:
ユーザの感情をリアルタイムで認識する。 Recognize user emotions in real time.
入力:ユーザの表情や音声 Input: User's facial expressions and voice
出力:認識されたユーザの感情データ Output: Recognized user emotion data
具体的な動作:ユーザが笑顔を見せると、端末がユーザの表情をカメラでキャプチャし、喜びを感じていると認識する。 Specific operation: When the user smiles, the device captures the user's facial expression with its camera and recognizes that the user is feeling happy.
ステップ7: Step 7:
端末がユーザの感情データをサーバに送信する。 The device sends the user's emotional data to the server.
入力:認識されたユーザの感情データ Input: Recognized user emotion data
出力:サーバに送信された感情データ Output: Emotion data sent to the server
具体的な動作:端末が「ユーザは喜びを感じている」という感情データをサーバに送信する。 Specific operation: The device sends emotional data indicating "the user is feeling happy" to the server.
ステップ8: Step 8:
サーバが感情データを解析し、物語の展開を調整する。 The server analyzes the emotional data and adjusts the story development.
入力:ユーザの感情データ Input: User emotion data
出力:調整された物語の展開 Output: Coordinated story development
具体的な動作:サーバが感情データを解析し、「物語をさらに明るい展開にする」ためのプロンプト文を生成AIモデルに入力する。 Specific operation: The server analyzes the emotional data and inputs prompt sentences into the generative AI model to "make the story more upbeat."
ステップ9: Step 9:
サーバが調整後の物語を端末に送信する。 The server will send the adjusted story to your device.
入力:調整された物語の展開 Input: Adjusted story development
出力:端末に送信された調整後の物語 Output: The adjusted story sent to the terminal.
具体的な動作:サーバが生成した明るい展開の物語(例:「騎士が新たな仲間を見つけるシーン」)を端末に送信する。 Specific operation: The server generates a story with an upbeat plot (e.g., "A scene where the knight finds a new companion") and sends it to the device.
ステップ10: Step 10:
端末が調整後の物語をユーザに表示する。 The device will then display the adjusted story to the user.
入力:サーバから受け取った調整後の物語 Input: Adjusted story received from the server
出力:ユーザに表示された調整後の物語 Output: The adjusted story displayed to the user.
具体的な動作:端末が「騎士が新たな仲間を見つけるシーン」をユーザに表示する。 Specific operation: The device displays a scene to the user in which a knight finds a new companion.
(応用例2) (Application Example 2)
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 2 of Form Example 2. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語のテーマや登場人物の設定に基づいて物語を自動生成することはできるが、ユーザの感情に応じて物語の展開をリアルタイムで調整することができなかった。また、物語を面白くするための伏線やミステリー要素、感動的なシーンを自動で生成する機能も不十分であった。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが困難であった。 While conventional story generation systems could automatically generate a story based on the story's theme and character settings, they were unable to adjust the story's development in real time in response to the user's emotions. They also lacked the functionality to automatically generate plot twists, mystery elements, and moving scenes to make a story more interesting. This made it difficult to provide an interactive story experience that responded to the user's emotions.
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 2 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する手段と、を含む。これにより、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能となる。 In this invention, the server includes: means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions in real time and adjusting the story development in response to those emotions; and means for generating story prompts using a generative AI model and automatically generating a story. This makes it possible to provide an interactive story experience that responds to the user's emotions.
「物語のテーマ」とは、物語の中心となる主題やメッセージを指すものである。 "Story theme" refers to the central subject or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターや役割を持つ人物を指すものである。 "Characters" refers to the characters or people who play a role in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉や台詞を指すものである。 "Dialogue" refers to the words or lines spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れや構造を指すものである。 "Story structure" refers to the overall flow and structure of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つように前半で配置される要素やヒントを指すものである。 "Foreshadowing" refers to elements or hints placed in the first half of a story that will have important meaning later on.
「ミステリー要素」とは、物語において謎や疑問を引き起こす要素を指すものである。 "Mystery elements" refer to elements in a story that raise questions or raise doubts.
「感動的なシーン」とは、視聴者や読者に強い感情を引き起こす場面を指すものである。 A "moving scene" is one that evokes strong emotions in the viewer or reader.
「グラフィック」とは、物語のシーンに合わせて表示される画像やイラストを指すものである。 "Graphics" refers to images and illustrations that are displayed in accordance with story scenes.
「曲」とは、物語のシーンに合わせて流れる音楽やサウンドトラックを指すものである。 "Song" refers to the music or soundtrack that plays along with the story scenes.
「演出効果」とは、物語のシーンをより効果的に見せるための視覚的、聴覚的な手法を指すものである。 "Stage effects" refer to visual and auditory techniques used to make story scenes appear more effective.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指すものである。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
「感情をリアルタイムで認識する」とは、ユーザの表情や声のトーンなどを分析して、その瞬間の感情を把握することを指すものである。 "Recognizing emotions in real time" refers to analyzing the user's facial expressions, tone of voice, etc. to grasp their emotions at that moment.
「物語の展開を調整する」とは、物語の進行や内容をユーザの感情に応じて変更することを指すものである。 "Adjusting the development of the story" refers to changing the progress and content of the story in response to the user's emotions.
「生成AIモデル」とは、人工知能を用いてテキストや物語を生成するためのモデルを指すものである。 "Generative AI model" refers to a model that uses artificial intelligence to generate text or stories.
「プロンプト文」とは、生成AIモデルに入力するための指示文やキーワードを指すものである。 A "prompt" refers to an instruction or keyword that is input into a generative AI model.
この発明を実施するためのシステムは、以下のような構成を持つ。まず、サーバは物語のテーマや舞台、登場人物などのストーリー設定を入力する手段を提供する。ユーザはこれらの設定を入力することで、物語の基本的な要素を決定する。 A system for implementing this invention has the following configuration: First, the server provides a means for inputting story settings such as the story's theme, setting, and characters. By inputting these settings, the user determines the basic elements of the story.
次に、サーバは入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段を持つ。この手段は、生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 Next, the server has a means to automatically create character dialogue, scenery, and story structure based on the input story setting. This means uses a generative AI model to generate story prompts and automatically generate the story.
さらに、サーバは作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段を持つ。これにより、物語の深みや興味を引き出すことができる。 Furthermore, the server has the means to automatically generate hints, mystery elements, moving scenes, and more to make the stories you create more interesting. This helps to add depth and interest to the story.
また、サーバは作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段を持つ。これにより、物語の視覚的および聴覚的な演出効果を高めることができる。具体的には、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する。 The server also has the means to automatically create graphics and music that match each scene in the story. This enhances the visual and auditory effects of the story. Specifically, the graphics and music are created taking into account the atmosphere of the scene and the emotional state of the characters.
さらに、サーバは物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を持つ。これにより、ユーザはより感情的に物語に引き込まれる。 Furthermore, the server has the means to enhance the dramatic effect through the story structure, character dialogue, visuals, and music, effectively stirring the viewer's emotions. This allows users to be more emotionally drawn into the story.
特に重要なのは、サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段を持つことである。スマートフォンのカメラやマイクを使用してユーザの表情や声のトーンを分析し、ユーザの感情を把握する。この感情データに基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 What's particularly important is that the server has a means of recognizing the user's emotions in real time and adjusting the story development accordingly. It uses the smartphone's camera and microphone to analyze the user's facial expressions and tone of voice to understand their emotions. Based on this emotional data, it generates prompt sentences for the story and adjusts the story development accordingly.
具体例として、ユーザが物語を読み進めているときに、カメラがユーザの表情をキャプチャし、ユーザが笑顔であることを認識した場合、物語の展開が明るく楽しいものになる。逆に、ユーザが悲しんでいる場合、物語はより深みのある展開になる。 For example, if a user is reading a story and the camera captures their facial expressions and recognizes that they are smiling, the story will develop in a lighthearted and cheerful way. Conversely, if the user is sad, the story will develop in a more profound way.
プロンプト文の例としては、以下のようなものがある。 Examples of prompt statements include:
「主人公は幸せな気持ちで冒険を続けている。」 "The protagonist continues his adventure with a happy feeling."
「主人公は困難に直面しているが、希望を失わない。」 "The protagonist faces difficulties, but does not lose hope."
「主人公は新たな謎に挑む。」 "The protagonist takes on a new mystery."
このようにして、ユーザの感情に応じたインタラクティブな物語体験を提供することが可能である。 In this way, it is possible to provide an interactive narrative experience that responds to the user's emotions.
応用例2における特定処理の流れについて図20を用いて説明する。 The flow of the specific processing in Application Example 2 is explained using Figure 20.
ステップ1: Step 1:
ユーザが物語のテーマや舞台、登場人物などのストーリー設定を入力する。 The user enters story settings such as theme, setting, and characters.
入力:ユーザが入力する物語のテーマ、舞台、登場人物などの設定情報。 Input: Setting information such as the story's theme, setting, and characters entered by the user.
出力:ストーリー設定データ。 Output: Story setting data.
具体的な動作:ユーザはスマートフォンのアプリケーションを使用して、物語の基本設定を入力する。これには、物語の主題、場所、主要なキャラクターの情報が含まれる。サーバはこれらの設定情報を受け取り、ストーリー設定データとして保存する。 Specific operation: The user uses a smartphone application to input the basic setting of the story, including information about the story's theme, location, and main characters. The server receives this setting information and stores it as story setting data.
ステップ2: Step 2:
サーバが入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する。 The server automatically creates character dialogue, scenes, and story structure based on the story settings entered.
入力:ストーリー設定データ。 Input: Story setting data.
出力:物語のセリフ、情景、構成データ。 Output: Story dialogue, scenery, and composition data.
具体的な動作:サーバは生成AIモデルを使用して、ストーリー設定データに基づいて登場人物のセリフや情景、物語の構成を生成する。生成されたデータは、物語の進行に必要な要素として保存される。 Specific operation: The server uses the generative AI model to generate character dialogue, scenery, and story structure based on story setting data. The generated data is saved as elements necessary for the story's progression.
ステップ3: Step 3:
サーバが作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する。 The server automatically generates hints, mystery elements, moving scenes, and more to make the stories it creates more interesting.
入力:物語のセリフ、情景、構成データ。 Input: Story lines, scenery, and composition data.
出力:伏線、ミステリー要素、感動的なシーンデータ。 Output: Foreshadowing, mystery elements, and moving scene data.
具体的な動作:サーバは生成AIモデルを使用して、物語のセリフや情景、構成データに基づいて伏線やミステリー要素、感動的なシーンを生成する。これにより、物語の深みや興味を引き出す要素が追加される。 Specifically, how it works: The server uses a generative AI model to generate plot twists, mystery elements, and moving scenes based on the dialogue, scenery, and composition data of the story. This adds depth and intrigue to the story.
ステップ4: Step 4:
サーバが作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する。 The server automatically creates graphics and music that match each scene in the story.
入力:伏線、ミステリー要素、感動的なシーンデータ。 Input: Foreshadowing, mystery elements, and moving scene data.
出力:グラフィックデータ、音楽データ。 Output: Graphics data, music data.
具体的な動作:サーバはシーンの雰囲気や登場人物の感情状態を考慮して、グラフィックや曲を自動で制作する。これには、画像生成モデルや音楽生成モデルが使用される。生成されたグラフィックや音楽は、物語の各シーンに適用される。 Specific operation: The server automatically creates graphics and music, taking into account the atmosphere of the scene and the emotional state of the characters. This is done using image generation models and music generation models. The generated graphics and music are then applied to each scene in the story.
ステップ5: Step 5:
サーバがユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する。 The server recognizes the user's emotions in real time and adjusts the story development accordingly.
入力:ユーザの表情データ、声のトーンデータ。 Input: User's facial expression data, tone of voice data.
出力:調整された物語のプロンプト文。 Output: Tailored narrative prompt.
具体的な動作:スマートフォンのカメラやマイクを使用して、ユーザの表情や声のトーンをキャプチャする。サーバはこれらのデータを分析し、ユーザの感情をリアルタイムで認識する。認識された感情に基づいて、物語のプロンプト文を生成し、物語の展開を調整する。 Specific operation: The smartphone's camera and microphone are used to capture the user's facial expressions and tone of voice. The server analyzes this data and recognizes the user's emotions in real time. Based on the recognized emotions, it generates story prompts and adjusts the story's development.
ステップ6: Step 6:
サーバが生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する。 The server uses a generative AI model to generate story prompts and automatically generate the story.
入力:調整された物語のプロンプト文。 Input: Tailored story prompt.
出力:生成された物語。 Output: The generated story.
具体的な動作:サーバは生成AIモデルを使用して、調整されたプロンプト文に基づいて物語を生成する。生成された物語は、ユーザの感情に応じたインタラクティブな体験を提供するために使用される。 Specific operation: The server uses a generative AI model to generate a story based on the adjusted prompt. The generated story is used to provide an interactive experience that responds to the user's emotions.
(実施例3) (Example 3)
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, Example 3 of Form Example 3 will be described. In the following description, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、物語の各シーンにマッチしたグラフィックや音楽を自動で制作することが難しく、視聴者の心情を効果的に揺さぶることができなかった。また、ユーザの感情をリアルタイムで認識し、それに応じて物語の展開を調整する機能が欠如していたため、ユーザに対して一貫した感情体験を提供することが困難であった。これにより、物語体験の質が低下し、ユーザの満足度が低くなるという課題があった。 With conventional story generation systems, it was difficult to automatically create graphics and music that matched each scene in the story, making it difficult to effectively sway the viewer's emotions. Furthermore, they lacked the ability to recognize the user's emotions in real time and adjust the story's development accordingly, making it difficult to provide the user with a consistent emotional experience. This resulted in a decline in the quality of the story experience and low user satisfaction.
実施例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する手段と、ユーザの感情に応じて物語の展開を調整する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、を含む。これにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for using information such as the user's facial expressions, tone of voice, and text input to recognize the user's emotions; means for adjusting the story development in accordance with the user's emotions; and means for enhancing the dramatic effects of the story structure, character dialogue, images, and music to effectively stir the viewer's emotions. This makes it possible to automatically create graphics and music that match each scene of the story and provide a story development that matches the user's emotions.
「物語のテーマ」とは、物語の中心となる主題や題材を指す。 "Story theme" refers to the central subject or subject of a story.
「舞台」とは、物語が展開される場所や環境を指す。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指す。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指す。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指す。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指す。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指す。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要となる情報や出来事を前もって示す要素を指す。 "Foreshadowing" refers to elements that provide advance hints at information or events that will become important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指す。 "Mystery elements" refer to elements that add mystery or suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指す。 A "moving scene" refers to a scene that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンに合わせて生成される画像やイラストを指す。 "Graphics" refers to images and illustrations generated to match story scenes.
「曲」とは、物語のシーンに合わせて生成される音楽を指す。 "Song" refers to music generated to match the story scenes.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指す。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「顔表情」とは、ユーザの顔の表情筋の動きによって表現される感情を指す。 "Facial expression" refers to emotions expressed through the movement of the user's facial muscles.
「声のトーン」とは、ユーザの声の高さや強さ、抑揚などを指す。 "Tone of voice" refers to the pitch, strength, and intonation of the user's voice.
「テキスト入力」とは、ユーザがキーボードやタッチパネルを用いて入力する文字情報を指す。 "Text input" refers to text information entered by a user using a keyboard or touch panel.
「物語の展開」とは、物語が進行する過程や流れを指す。 "Story development" refers to the process and flow of the story.
「演出効果」とは、物語の視覚や聴覚的な要素を用いて視聴者に与える影響を指す。 "Directory effects" refer to the impact that the visual and auditory elements of a story have on the viewer.
「視聴者の心情」とは、物語を視聴する人々の感情や気持ちを指す。 "Viewer sentiment" refers to the emotions and feelings of the people watching the story.
この発明は、物語のテーマや舞台、登場人物などのストーリー設定を入力し、入力されたストーリー設定に基づいて物語を自動で生成し、さらにユーザの感情に応じて物語の展開を調整するシステムである。このシステムは、以下のようなハードウェアおよびソフトウェアを用いて実施される。 This invention is a system that inputs story settings such as the story's theme, setting, and characters, automatically generates a story based on the input story settings, and further adjusts the story's development according to the user's emotions. This system is implemented using the following hardware and software.
使用するハードウェアおよびソフトウェア Hardware and software used
ハードウェア: 高性能なサーバ(例: GPU搭載のサーバ)およびユーザの端末(例: カメラとマイクを搭載したPCやスマートフォン) Hardware: High-performance servers (e.g., servers with GPUs) and user devices (e.g., PCs or smartphones with cameras and microphones)
ソフトウェア: 生成AIモデル(例: GPT-4、画像生成AI、音楽生成AI)、感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ) Software: Generative AI models (e.g., GPT-4, image generation AI, music generation AI), emotion recognition software (e.g., OpenCV, voice analysis libraries)
プログラムの処理の説明 Program processing explanation
1. 物語の入力と解析 1. Story input and analysis
ユーザは端末を使用して、物語のテーマや舞台、登場人物などのストーリー設定を入力する。例えば、「勇者がドラゴンと戦うシーン」と入力する。サーバはこの入力を受信し、生成AIモデル(例: GPT-4)を用いて物語の各シーンを解析し、シーンの雰囲気や登場人物の感情状態を抽出する。 The user uses their device to input story settings such as the story's theme, setting, and characters. For example, they might input "a scene where a hero fights a dragon." The server receives this input and uses a generative AI model (e.g., GPT-4) to analyze each scene in the story and extract the scene's atmosphere and the characters' emotional states.
2. グラフィックと音楽の生成 2. Graphics and Music Generation
サーバは解析結果を基に、画像生成AIを用いてシーンにマッチしたグラフィックを生成する。例えば、ドラゴンと勇者が戦っている迫力あるグラフィックを生成する。同様に、音楽生成AIを用いてシーンに適した音楽を生成する。例えば、戦闘シーンに合う緊張感を高める音楽を生成する。 Based on the analysis results, the server uses image generation AI to generate graphics that match the scene. For example, it could generate an impressive graphic of a hero fighting a dragon. Similarly, it uses music generation AI to generate music that suits the scene. For example, it could generate music that heightens the tension in a battle scene.
3. ユーザの感情認識 3. User Emotion Recognition
端末はカメラとマイクを使用して、ユーザの顔表情や声のトーンを取得する。例えば、ユーザが笑顔を見せている場合、端末はその情報をサーバに送信する。サーバは感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)を用いて、ユーザの感情を解析する。 The device uses a camera and microphone to capture the user's facial expressions and tone of voice. For example, if the user is smiling, the device sends that information to the server. The server then uses emotion recognition software (e.g., OpenCV, voice analysis library) to analyze the user's emotions.
4. 物語の展開調整 4. Story Development Adjustments
サーバはユーザの感情情報を基に、感情エンジンを使用して物語の展開を調整する。例えば、ユーザが笑顔を見せている場合、物語の展開をさらにエキサイティングな方向に調整する。 The server uses an emotion engine to adjust the story development based on the user's emotional information. For example, if the user is smiling, the story development will be adjusted to a more exciting direction.
具体例とプロンプト文の例 Specific examples and prompt sentence examples
具体例: Example:
ユーザが「勇者がドラゴンと戦うシーン」を入力する。 The user enters "a scene in which a hero fights a dragon."
サーバは戦闘シーンとして解析し、画像生成AIを用いてドラゴンと勇者の迫力あるグラフィックを生成する。 The server analyzes the scene as a battle scene and uses image generation AI to generate powerful graphics of the dragon and hero.
音楽生成AIを用いて緊張感を高める音楽を生成する。 Music generation AI is used to generate music that heightens tension.
ユーザが笑顔を見せている場合、感情エンジンはユーザが楽しんでいると認識し、物語の展開をさらにエキサイティングな方向に調整する。 If the user is smiling, the emotion engine recognizes that the user is having fun and adjusts the story development in a more exciting direction.
プロンプト文の例: Example prompt:
「勇者がドラゴンと戦うシーンのグラフィックを生成してください。」 "Generate graphics for a scene in which a hero fights a dragon."
「感動的なシーンに合う音楽を生成してください。」 "Generate music that matches an emotional scene."
「ユーザが笑顔を見せている場合、物語の展開を楽しい方向に調整してください。」 "If the user is smiling, adjust the story development to make it more enjoyable."
このシステムにより、物語の各シーンにマッチしたグラフィックや音楽を自動で制作し、ユーザの感情に応じた物語の展開を提供することが可能となる。これにより、視聴者の心情を効果的に揺さぶることができ、物語体験の質を向上させることができる。実施例3における特定処理の流れについて図21を用いて説明する。 This system makes it possible to automatically create graphics and music that match each scene in a story, and to provide a story development that responds to the user's emotions. This effectively stirs the viewer's emotions and improves the quality of the story experience. The flow of the specific processing in Example 3 is explained using Figure 21.
ステップ1: Step 1:
ユーザが物語のテキストを入力する。 The user enters the text of the story.
ユーザは端末のテキスト入力フィールドに「勇者がドラゴンと戦うシーン」と入力し、送信ボタンをクリックする。入力されたテキストは端末からサーバに送信される。 The user enters "A scene in which a hero fights a dragon" into the text input field on the device and clicks the send button. The entered text is sent from the device to the server.
ステップ2: Step 2:
サーバが物語のテキストを解析する。 The server analyzes the story text.
サーバは受信したテキストを生成AIモデル(例: GPT-4)に入力し、物語の各シーンを解析する。解析の結果、シーンの雰囲気や登場人物の感情状態を抽出する。例えば、「戦闘シーン」と「緊張感」を抽出する。解析結果は内部データベースに保存される。 The server inputs the received text into a generative AI model (e.g., GPT-4) and analyzes each scene in the story. As a result of the analysis, the atmosphere of the scene and the emotional state of the characters are extracted. For example, "battle scene" and "tension" are extracted. The analysis results are stored in an internal database.
ステップ3: Step 3:
サーバがシーンにマッチしたグラフィックを生成する。 The server generates graphics that match the scene.
サーバは解析結果を基に、画像生成AI(例: DALL-E)を使用してシーンにマッチしたグラフィックを生成する。例えば、「ドラゴンと勇者が戦っているシーン」をプロンプトとして入力し、生成されたグラフィックを取得する。生成されたグラフィックはユーザの端末に送信される。 Based on the analysis results, the server uses image generation AI (e.g., DALL-E) to generate graphics that match the scene. For example, enter "a scene of a hero fighting a dragon" as a prompt and obtain the generated graphic. The generated graphic is then sent to the user's device.
ステップ4: Step 4:
サーバがシーンにマッチした音楽を生成する。 The server generates music that matches the scene.
サーバは音楽生成AIを用いて、シーンに適した音楽を生成する。例えば、「戦闘シーンに合う緊張感を高める音楽」をプロンプトとして入力し、生成された音楽を取得する。生成された音楽はユーザの端末に送信される。 The server uses music generation AI to generate music appropriate for the scene. For example, a user can enter "music that will increase tension in a battle scene" as a prompt and obtain the generated music. The generated music is then sent to the user's device.
ステップ5: Step 5:
端末がユーザの感情を認識する。 The device recognizes the user's emotions.
端末はカメラでユーザの顔表情をキャプチャし、マイクで声のトーンを録音する。これらのデータはリアルタイムでサーバに送信される。例えば、ユーザが笑顔を見せている場合、その情報がサーバに送信される。 The device uses a camera to capture the user's facial expressions and a microphone to record the tone of voice. This data is sent to the server in real time. For example, if the user is smiling, that information is sent to the server.
ステップ6: Step 6:
サーバがユーザの感情に応じて物語の展開を調整する。 The server adjusts the story development based on the user's emotions.
サーバは受信した感情データを感情認識ソフトウェア(例: OpenCV、音声解析ライブラリ)で解析し、ユーザの感情を認識する。例えば、ユーザが笑顔を見せていると認識した場合、感情エンジンを使用して物語の展開をエキサイティングな方向に調整する。新しいシーンが生成され、ユーザの端末に送信される。 The server analyzes the received emotional data using emotion recognition software (e.g., OpenCV, voice analysis library) to recognize the user's emotions. For example, if it recognizes that the user is smiling, it uses the emotion engine to adjust the story development in an exciting direction. A new scene is generated and sent to the user's device.
(応用例3) (Application Example 3)
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。 Next, we will explain Application Example 3 of Form Example 3. In the following explanation, the data processing device 12 will be referred to as the "server" and the robot 414 will be referred to as the "terminal."
従来の物語生成システムでは、ユーザの感情に応じた物語の調整が行われず、ユーザ体験が一律であるという問題があった。また、物語のシーンや音楽が固定されているため、ユーザの感情に応じたダイナミックな変化が提供できないという課題があった。これにより、ユーザの感情に深く訴えかける物語体験を提供することが困難であった。 Conventional story generation systems have the problem of not adjusting the story based on the user's emotions, resulting in a uniform user experience. Furthermore, because the story scenes and music are fixed, they are unable to provide dynamic changes that respond to the user's emotions. This makes it difficult to provide a story experience that deeply appeals to the user's emotions.
応用例3におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。 The specific processing performed by the specific processing unit 290 of the data processing device 12 in Application Example 3 is realized by the following means.
この発明では、サーバは、物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情を認識し、認識された感情に応じて物語のシーンや音楽を調整する手段と、ユーザの顔表情、声のトーン、テキスト入力などを利用して感情を認識する手段と、を含む。これにより、ユーザの感情に応じたダイナミックな物語体験が可能となる。 In this invention, the server includes means for inputting story settings such as the story theme, setting, and characters; means for automatically creating character dialogue, scenery, and story structure based on the input story settings; means for automatically generating foreshadowing, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the dramatic effect with the story structure, character dialogue, images, and music, and effectively stirring the viewer's emotions; means for recognizing the user's emotions and adjusting story scenes and music in accordance with the recognized emotions; and means for recognizing emotions using the user's facial expressions, tone of voice, text input, etc. This enables a dynamic story experience that matches the user's emotions.
「物語のテーマ」とは、物語の中心となるアイデアやメッセージを指すものである。 A "story theme" refers to the central idea or message of a story.
「舞台」とは、物語が展開される場所や環境を指すものである。 "Setting" refers to the place or environment in which the story unfolds.
「登場人物」とは、物語に登場するキャラクターを指すものである。 "Characters" refers to the characters that appear in the story.
「ストーリー設定」とは、物語のテーマ、舞台、登場人物などの基本的な要素を含む設定を指すものである。 "Story setting" refers to the setting, including basic elements such as the story's theme, setting, and characters.
「セリフ」とは、登場人物が話す言葉を指すものである。 "Dialogue" refers to the words spoken by characters.
「情景」とは、物語の中で描かれる風景や場面を指すものである。 "Scene" refers to the scenery or scene depicted in the story.
「物語の構成」とは、物語の始まり、中盤、終わりなどの全体的な流れを指すものである。 "Story structure" refers to the overall flow of a story, including its beginning, middle, and end.
「伏線」とは、物語の後半で重要な意味を持つようになる前半の要素を指すものである。 "Foreshadowing" refers to an element in the first half of a story that becomes important later in the story.
「ミステリー要素」とは、物語に謎やサスペンスを加える要素を指すものである。 "Mystery elements" refer to elements that add mystery and suspense to a story.
「感動的なシーン」とは、視聴者の感情を強く揺さぶる場面を指すものである。 A "moving scene" is one that strongly stirs the viewer's emotions.
「グラフィック」とは、物語のシーンを視覚的に表現する画像や映像を指すものである。 "Graphics" refers to images and footage that visually represent scenes from a story.
「曲」とは、物語のシーンに合わせて流れる音楽を指すものである。 "Song" refers to the music that plays along with the story scenes.
「演出効果」とは、物語のシーンや音楽を通じて視聴者の感情に影響を与える効果を指すものである。 "Directional effects" refer to effects that influence the viewer's emotions through story scenes and music.
「ユーザの感情」とは、ユーザが感じている喜び、悲しみ、驚きなどの感情状態を指すものである。 "User emotion" refers to the emotional state the user is feeling, such as joy, sadness, or surprise.
「感情を認識する手段」とは、ユーザの顔表情、声のトーン、テキスト入力などを利用してユーザの感情を判断する技術を指すものである。 "Means for recognizing emotions" refers to technology that determines a user's emotions using their facial expressions, tone of voice, text input, etc.
「物語のシーンや音楽を調整する手段」とは、認識されたユーザの感情に応じて物語のシーンや音楽を変更する技術を指すものである。 "Means for adjusting story scenes and music" refers to technology that changes story scenes and music according to the recognized user emotions.
この発明を実施するためのシステムは、ユーザの感情に応じて物語のシーンや音楽を動的に調整することができる。以下に、このシステムの具体的な実施形態を説明する。 A system for implementing this invention can dynamically adjust story scenes and music according to the user's emotions. A specific embodiment of this system is described below.
システム構成 System Configuration
このシステムは、以下の主要なハードウェアおよびソフトウェアコンポーネントを含む: The system includes the following major hardware and software components:
ハードウェア: スマートフォンのカメラ Hardware: Smartphone camera
ソフトウェア: OpenCV(顔検出)、Keras(感情認識モデル)、音楽再生ソフトウェア Software: OpenCV (face detection), Keras (emotion recognition model), music playback software
プログラムの処理 Program processing
サーバは、まずスマートフォンのカメラを使用してユーザの顔表情をキャプチャする。キャプチャされた映像は、OpenCVを用いて顔検出が行われる。次に、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。 The server first captures the user's facial expression using the smartphone camera. The captured video undergoes face detection using OpenCV. Next, it uses the Keras emotion recognition model to recognize the user's emotion from the detected face.
認識された感情に基づいて、サーバは物語のシーンや音楽を調整する。例えば、ユーザが笑顔を見せている場合、物語のシーンは明るく楽しいものに変更され、音楽も軽快なものに変わる。逆に、ユーザが悲しい表情をしている場合、物語は感動的なシーンに移行し、音楽も心に響くものに変わる。 Based on the recognized emotion, the server adjusts the story scenes and music. For example, if the user is smiling, the story scenes will change to brighter, more cheerful ones, and the music will also become more upbeat. Conversely, if the user has a sad expression, the story will transition to a more moving scene, and the music will also change to something more moving.
具体例 Specific examples
具体例として、ユーザが物語を楽しんでいる最中に笑顔を見せた場合を考える。この場合、サーバは以下のように処理を行う: As a concrete example, consider the case where a user smiles while enjoying a story. In this case, the server would process the following:
1. スマートフォンのカメラでユーザの顔表情をキャプチャ。 1. Capture the user's facial expressions using the smartphone camera.
2. OpenCVを使用して顔を検出。 2. Detect faces using OpenCV.
3. Kerasの感情認識モデルでユーザの感情を「喜び」と認識。 3. The user's emotion is recognized as "happiness" using the Keras emotion recognition model.
4. 認識された感情に基づいて、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生。 4. Based on the recognized emotion, the story scene is changed to a brighter, more cheerful one and upbeat music is played.
プロンプト文の例 Example prompt
生成AIモデルへ入力するプロンプト文の例は以下の通りである: An example of a prompt to input to the generative AI model is as follows:
ユーザが笑顔を見せた場合、物語のシーンを明るく楽しいものに変更し、軽快な音楽を再生してください。 If the user smiles, change the story scene to something bright and cheerful and play upbeat music.
このようにして、ユーザの感情に応じたダイナミックな物語体験を提供することが可能である。このシステムにより、ユーザはより深く物語に没入し、感情に訴えかける体験を得ることができる。 In this way, it is possible to provide a dynamic narrative experience that responds to the user's emotions. This system allows users to become more immersed in the story and have an experience that appeals to their emotions.
応用例3における特定処理の流れについて図22を用いて説明する。 The flow of the specific processing in Application Example 3 will be explained using Figure 22.
ステップ1: Step 1:
サーバは、スマートフォンのカメラを使用してユーザの顔表情をキャプチャする。入力はカメラ映像であり、出力はキャプチャされた画像データである。具体的な動作として、カメラがリアルタイムで映像を取得し、その映像をフレームごとにキャプチャする。 The server uses the smartphone's camera to capture the user's facial expressions. The input is the camera image, and the output is the captured image data. Specifically, the camera acquires the image in real time and captures the image frame by frame.
ステップ2: Step 2:
サーバは、OpenCVを使用してキャプチャされた画像データから顔を検出する。入力はキャプチャされた画像データであり、出力は検出された顔の位置情報である。具体的な動作として、OpenCVの顔検出アルゴリズムが画像内の顔を識別し、その座標を取得する。 The server uses OpenCV to detect faces from the captured image data. The input is the captured image data, and the output is the location information of the detected face. Specifically, OpenCV's face detection algorithm identifies the face in the image and obtains its coordinates.
ステップ3: Step 3:
サーバは、Kerasの感情認識モデルを使用して、検出された顔からユーザの感情を認識する。入力は顔の位置情報と画像データであり、出力は認識された感情ラベルである。具体的な動作として、顔の領域を切り出し、前処理を行った後、感情認識モデルに入力して感情を分類する。 The server uses a Keras emotion recognition model to recognize the user's emotion from the detected face. The input is face position information and image data, and the output is the recognized emotion label. Specifically, the face area is extracted, preprocessed, and then input into the emotion recognition model to classify the emotion.
ステップ4: Step 4:
サーバは、認識された感情に基づいて物語のシーンや音楽を調整する。入力は認識された感情ラベルであり、出力は調整されたシーンと音楽である。具体的な動作として、感情ラベルに対応するシーンと音楽を選択し、物語の進行を変更する。 The server adjusts the story scenes and music based on the recognized emotions. The input is the recognized emotion label, and the output is the adjusted scenes and music. Specific operations include selecting scenes and music that correspond to the emotion label and changing the progression of the story.
ステップ5: Step 5:
サーバは、調整されたシーンと音楽をユーザの端末に送信する。入力は調整されたシーンと音楽であり、出力はユーザの端末に表示される物語のシーンと再生される音楽である。具体的な動作として、シーンと音楽のデータをエンコードし、ネットワークを通じてユーザの端末に送信する。 The server sends the adjusted scene and music to the user's device. The input is the adjusted scene and music, and the output is the story scene displayed on the user's device and the music played. Specifically, the server encodes the scene and music data and sends it to the user's device over the network.
ステップ6: Step 6:
ユーザの端末は、受信したシーンと音楽を再生し、ユーザに提供する。入力はサーバから受信したシーンと音楽データであり、出力はユーザに表示される映像と再生される音楽である。具体的な動作として、端末がデータをデコードし、画面に表示し、スピーカーから音楽を再生する。 The user's device plays the received scenes and music and provides them to the user. The input is the scene and music data received from the server, and the output is the video displayed to the user and the music played. Specifically, the device decodes the data, displays it on the screen, and plays the music from the speakers.
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。 The specific processing unit 290 transmits the results of the specific processing to the robot 414. In the robot 414, the control unit 46A causes the speaker 240 and the control target 443 to output the results of the specific processing. The microphone 238 acquires audio indicating the user input regarding the results of the specific processing. The control unit 46A transmits audio data indicating the user input acquired by the microphone 238 to the data processing device 12. In the data processing device 12, the specific processing unit 290 acquires the audio data.
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。 Data generation model 58 is what is known as generative AI (artificial intelligence). An example of data generation model 58 is generative AI such as ChatGPT (Internet search <URL: https://openai.com/blog/chatgpt>). Data generation model 58 is obtained by performing deep learning on a neural network. A prompt containing an instruction is input to data generation model 58, and inference data such as voice data indicating voice, text data indicating text, and image data indicating an image is also input. Data generation model 58 performs inference on the input inference data in accordance with the instructions indicated by the prompt, and outputs the inference results in the form of data such as voice data and text data. Here, inference refers to, for example, analysis, classification, prediction, and/or summarization.
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。 Another example of generative AI is Gemini (Internet search <URL: https://gemini.google.com/?hl=ja>).
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。 In the above embodiment, an example was given in which the specific processing was performed by the data processing device 12, but the technology disclosed herein is not limited to this, and the specific processing may also be performed by the robot 414.
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。 The emotion identification model 59, which serves as an emotion engine, may determine the user's emotion according to a specific mapping. Specifically, the emotion identification model 59 may determine the user's emotion according to an emotion map (see Figure 9), which is a specific mapping. Similarly, the emotion identification model 59 may determine the robot's emotion, and the identification processing unit 290 may perform identification processing using the robot's emotion.
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。 Figure 9 shows an emotion map 400 on which multiple emotions are mapped. In emotion map 400, emotions are arranged in concentric circles radiating from the center. Emotions closer to the center of the concentric circles are more primitive. Emotions representing states and actions arising from a state of mind are arranged on the outer edges of the concentric circles. The concept of emotion includes both emotions and mental states. Emotions that are generally generated from reactions that occur in the brain are arranged on the left side of the concentric circles. Emotions that are generally induced by situational judgment are arranged on the right side of the concentric circles. Emotions that are generally generated from reactions that occur in the brain and are induced by situational judgment are arranged above and below the concentric circles. Furthermore, the emotion of "pleasure" is arranged on the top side of the concentric circles, and the emotion of "discomfort" is arranged on the bottom side. In this way, emotion map 400 maps multiple emotions based on the structure by which emotions are generated, with emotions that tend to occur simultaneously being mapped close together.
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。 These emotions are distributed in the 3 o'clock direction on emotion map 400, and usually fluctuate between relief and anxiety. In the right half of emotion map 400, situational awareness takes precedence over internal sensations, resulting in a calm impression.
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。 The inside of emotion map 400 represents what is going on in the mind, and the outside of emotion map 400 represents behavior, so the further out you go on emotion map 400, the more visible (expressed in behavior) the emotion becomes.
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。 Here, human emotions are based on various balances such as posture and blood sugar levels, and when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotions can also be created for robots, cars, motorcycles, etc., based on various balances such as posture and remaining battery life, so that when these balances deviate from the ideal, it indicates discomfort, and when they approach the ideal, it indicates pleasure. Emotion maps may be generated, for example, based on Dr. Mitsuyoshi's emotion map (Research on speech emotion recognition and emotional brain physiological signal analysis systems, Tokushima University, doctoral dissertation: https://ci.nii.ac.jp/naid/500000375379). The left half of the emotion map is lined with emotions belonging to an area called "reaction," where sensation is dominant. The right half of the emotion map is lined with emotions belonging to an area called "situation," where situational awareness is dominant.
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。 The emotion map defines two emotions that encourage learning. One is the negative emotion around the middle of "repentance" or "reflection" on the situation side. In other words, this is when the robot experiences negative emotions such as "I never want to feel this way again" or "I don't want to be scolded again." The other is the positive emotion around "desire" on the response side. In other words, this is when the robot experiences positive feelings such as "I want more" or "I want to know more."
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。 The emotion identification model 59 inputs user input into a pre-trained neural network, obtains emotion values indicating each emotion shown in the emotion map 400, and determines the user's emotion. This neural network is pre-trained based on multiple pieces of training data that are combinations of user input and emotion values indicating each emotion shown in the emotion map 400. Furthermore, this neural network is trained so that emotions that are close to each other have similar values, as in the emotion map 900 shown in Figure 10. Figure 10 shows an example in which multiple emotions, such as "relieved," "calm," and "reassuring," have similar emotion values.
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。 In the above embodiment, an example was given in which a specific process is performed by a single computer 22, but the technology disclosed herein is not limited to this, and distributed processing of the specific process may also be performed by multiple computers, including computer 22.
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。 In the above embodiment, an example was described in which the specific processing program 56 is stored in the storage 32, but the technology of the present disclosure is not limited to this. For example, the specific processing program 56 may be stored in a portable, computer-readable, non-transitory storage medium such as a USB (Universal Serial Bus) memory. The specific processing program 56 stored in the non-transitory storage medium is installed in the computer 22 of the data processing device 12. The processor 28 executes the specific processing in accordance with the specific processing program 56.
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。 Alternatively, the specific processing program 56 may be stored in a storage device such as a server connected to the data processing device 12 via the network 54, and the specific processing program 56 may be downloaded and installed on the computer 22 in response to a request from the data processing device 12.
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。 It is not necessary to store the entire specific processing program 56 in a storage device such as a server connected to the data processing device 12 via the network 54, or to store the entire specific processing program 56 in the storage 32; only a portion of the specific processing program 56 may be stored.
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。 The following types of processors can be used as hardware resources for executing specific processes. Examples of processors include a CPU, a general-purpose processor that functions as a hardware resource for executing specific processes by executing software, i.e., a program. Other examples of processors include dedicated electrical circuits, such as FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices), or ASICs (Application Specific Integrated Circuits), which are processors with a circuit configuration designed specifically for executing specific processes. All processors have built-in or connected memory, and all use the memory to execute specific processes.
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。 The hardware resource that executes the specific processing may be composed of one of these various processors, or may be composed of a combination of two or more processors of the same or different types (for example, a combination of multiple FPGAs, or a combination of a CPU and an FPGA). The hardware resource that executes the specific processing may also be a single processor.
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。 As an example of a configuration using a single processor, first, there is a configuration in which one processor is configured using a combination of one or more CPUs and software, and this processor functions as a hardware resource that executes specific processing. Second, there is a configuration in which a processor is used to realize the functions of an entire system, including multiple hardware resources that execute specific processing, on a single IC chip, as typified by SoC (System-on-a-chip). In this way, specific processing is realized using one or more of the various processors listed above as hardware resources.
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。 More specifically, the hardware structure of these various processors can be an electrical circuit that combines circuit elements such as semiconductor devices. Furthermore, the specific processing described above is merely an example. Therefore, it goes without saying that unnecessary steps can be deleted, new steps can be added, or the processing order can be rearranged, all within the scope of the spirit of the invention.
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。 The above-described written content and illustrations are a detailed explanation of the parts related to the technology of the present disclosure and are merely an example of the technology of the present disclosure. For example, the above explanation of the configuration, functions, actions, and effects is an explanation of an example of the configuration, functions, actions, and effects of the parts related to the technology of the present disclosure. Therefore, it goes without saying that unnecessary parts may be deleted, new elements may be added, or substitutions may be made to the above-described written content and illustrations, as long as they do not deviate from the spirit of the technology of the present disclosure. Furthermore, to avoid confusion and facilitate understanding of the parts related to the technology of the present disclosure, the above-described written content and illustrations omit explanations of common technical knowledge that do not require particular explanation to enable the implementation of the technology of the present disclosure.
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All publications, patent applications, and technical standards mentioned in this specification are incorporated by reference herein to the same extent as if each individual publication, patent application, and technical standard was specifically and individually indicated to be incorporated by reference.
以上の実施形態に関し、更に以下を開示する。 The following is further disclosed regarding the above embodiments.
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成
(Claim 1)
It is a system that allows you to input story settings such as the theme, setting, and characters of a story, and automatically creates lines for characters, scenes, and a story structure based on the input story settings. It also automatically generates plot twists, mystery elements, and moving scenes to make the story more interesting.
する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。 The system includes a means to automatically create graphics and music that match each scene in the story, and a means to enhance the dramatic effect through the story structure, character dialogue, images and music, effectively stirring the emotions of the viewer.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
(請求項4)
前記物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、ユーザの感情を認識する感情エンジンを含むシステム。
(Claim 4)
A system including: means for inputting story settings such as the theme, setting, and characters of the story; means for automatically creating lines for characters, scenes, and a story structure based on the input story settings; means for automatically generating hints, mystery elements, and moving scenes to make the created story more interesting; means for automatically creating graphics and music that match each scene of the created story; means for enhancing the production effect with the story structure, character conversations, images, and music, and effectively stirring the emotions of viewers; and an emotion engine that recognizes the user's emotions.
(請求項5)
前記感情エンジンが、ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する、請求項4記載のシステム。
(Claim 5)
The system of claim 4 , wherein the emotion engine recognizes a user's emotions in real time and adjusts the story development according to the emotions.
(請求項6)
前記感情エンジンが、ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する、請求項4記載のシステム。
(Claim 6)
The system of claim 4 , wherein the emotion engine uses information such as a user's facial expression, tone of voice, and text input to recognize the user's emotion.
「実施例1」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
ユーザーからの入力を受信し、自然言語処理技術を用いて解析する手段と、
解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、
生成AIモデルを用いて物語のセリフや情景、構成を自動で生成する手段と、
生成された物語を整形し、ユーザーに提供する手段を含むシステム。
"Example 1"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
means for receiving and analyzing input from a user using natural language processing techniques;
A means for generating a prompt sentence to be input to the generative AI model based on the analysis result;
A means to automatically generate story lines, scenes, and structures using generative AI models,
A system that includes a means for formatting the generated narrative and providing it to the user.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「応用例1」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
生成AIモデルを用いてプロンプト文を生成し、物語を自動生成する手段と、
生成された物語をプレビューし、保存および共有する手段を含むシステム。
"Application Example 1"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
A means to generate prompt sentences using a generative AI model and automatically generate a story;
The system includes means to preview, save and share the generated narratives.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「実施例2」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
生成された物語の要素を整理し、ユーザに提供する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。
"Example 2"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A means for organizing the generated story elements and providing them to the user;
A system that includes means to enhance the production effect through story structure, character dialogue, images and music, and effectively stir the viewer's emotions.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「応用例2」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
生成AIモデルを用いて物語の要素を生成する手段と、
プロンプト文を生成し、生成AIモデルに入力する手段と、
生成された物語の要素をユーザーに表示する手段を含むシステム。
"Application Example 2"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
a means of generating narrative elements using a generative AI model; and
A means for generating prompt sentences and inputting them into a generative AI model;
The system includes a means for displaying the generated narrative elements to a user.
(請求項2)
物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure with a beginning, middle, and end.
(請求項3)
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「実施例3」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
シーンデータを解析し、シーンの雰囲気や登場人物の感情状態を抽出する手段と、
抽出した情報に基づいて生成AIモデルに入力するプロンプト文を生成する手段と、
生成AIモデルにプロンプト文を入力し、シーンにマッチしたグラフィックと音楽を生成する手段と、
生成されたグラフィックと音楽をシーンデータに統合し、最終的な出力を生成する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。
"Example 3"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
A means for analyzing scene data and extracting the atmosphere of the scene and the emotional state of the characters;
A means for generating a prompt sentence to be input to the generative AI model based on the extracted information;
A means to input a prompt sentence into the generative AI model and generate graphics and music that match the scene;
a means for integrating the generated graphics and music with the scene data to generate the final output;
A system that includes means to enhance the production effect through story structure, character dialogue, images and music, and effectively stir the viewer's emotions.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「応用例3」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
物語のシーンを解析し、シーンの雰囲気と登場人物の感情状態を抽出する手段と、
シーンの説明に基づいてグラフィックを生成する手段と、
シーンの説明に基づいて音楽を生成する手段と、
生成されたコンテンツをプレビューする手段と、
完成したコンテンツをエクスポートする手段を含むシステム。
"Application example 3"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
A means of analyzing a story scene and extracting the mood of the scene and the emotional state of the characters;
means for generating graphics based on a description of the scene;
means for generating music based on a scene description;
a means for previewing the generated content;
A system that includes a means to export completed content.
(請求項2)
物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure with a beginning, middle, and end.
(請求項3)
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の実施例1」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定を解析する手段と、
解析されたストーリー設定に基づき、既存の物語データベースを検索する手段と、
生成AIモデルにプロンプト文を生成し入力する手段と、
生成AIモデルを用いて登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。
"Example 1 of combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
A means for analyzing the input story setting;
a means for searching an existing narrative database based on the analyzed story setting;
A means for generating and inputting a prompt sentence to the generative AI model;
A means to automatically create character dialogue, scenes, and story structure using generative AI models,
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
A system that includes means to enhance the production effect through story structure, character dialogue, images and music, and effectively stir the viewer's emotions.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の応用例1」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
ユーザーが入力した物語の設定に基づき、生成AIモデルを用いて物語を生成する手段と、
生成された物語をリアルタイムで視覚化・音声化する手段と、
ヘッドマウントディスプレイを用いてユーザーが生成された物語を仮想現実空間で体験する手段と、
を含むシステム。
"Application example 1 when combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
A means for generating a story using a generative AI model based on a story setting input by a user;
A means to visualize and voice the generated story in real time,
A means for users to experience the generated story in a virtual reality space using a head-mounted display,
A system including:
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の実施例2」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。
"Example 2 when combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A means for recognizing the user's emotions in real time and adjusting the story development according to those emotions;
A way to automatically create graphics and music that match each scene in the story you've created,
A system that includes means to enhance the production effect through story structure, character dialogue, images and music, and effectively stir the viewer's emotions.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の応用例2」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
ユーザの感情をリアルタイムで認識し、その感情に応じて物語の展開を調整する手段と、
生成AIモデルを使用して物語のプロンプト文を生成し、物語を自動で生成する手段と、
を含むシステム。
"Application example 2 when combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
A means for recognizing the user's emotions in real time and adjusting the story development according to those emotions;
A means for automatically generating a story by generating a story prompt using a generative AI model; and
A system including:
(請求項2)
物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure with a beginning, middle, and end.
(請求項3)
物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の実施例3」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
ユーザの感情を認識するために、ユーザの顔表情や声のトーン、テキスト入力などの情報を利用する手段と、
ユーザの感情に応じて物語の展開を調整する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段を含むシステム。
"Example 3 when combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
A means for using information such as the user's facial expression, tone of voice, and text input to recognize the user's emotions;
A means for adjusting the development of the story in response to the user's emotions;
A system that includes means to enhance the production effect through story structure, character dialogue, images and music, and effectively stir the viewer's emotions.
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
「感情エンジンを組み合わせた場合の応用例3」
(請求項1)
物語のテーマや舞台、登場人物などのストーリー設定を入力する手段と、
入力されたストーリー設定に基づき、登場人物のセリフや情景、物語の構成を自動で作成する手段と、
作成した物語を面白くするための伏線やミステリー要素、感動的なシーンなどを自動で生成する手段と、
作成した物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段と、
物語の構成や登場人物の会話、映像や音楽で演出効果を高め、視聴者の心情を効果的に揺さぶる手段と、
ユーザの感情を認識し、認識された感情に応じて物語のシーンや音楽を調整する手段と、
ユーザの顔表情、声のトーン、テキスト入力などを利用して感情を認識する手段と、
を含むシステム。
"Application example 3 when combining emotion engines"
(Claim 1)
A way to input story settings such as the theme, setting, and characters of the story,
Based on the input story setting, it automatically creates the characters' lines, scenes, and story structure.
It is a way to automatically generate plot twists, mystery elements, and moving scenes to make the story more interesting,
A way to automatically create graphics and music that match each scene in the story you've created,
The story structure, the characters' conversations, the images and music enhance the production effect and effectively shake the viewers' emotions.
means for recognizing a user's emotion and adjusting the story scenes and music in response to the recognized emotion;
A means of recognizing emotions using the user's facial expressions, tone of voice, text input, etc.;
A system including:
(請求項2)
前記物語の構成を自動で作成する手段が、物語の始まり、中盤、終わりの三幕構成を基本として物語を作成する、請求項1記載のシステム。
(Claim 2)
2. The system according to claim 1, wherein the means for automatically creating a story structure creates a story based on a three-act structure consisting of a beginning, middle, and end.
(請求項3)
前記物語の各シーンにマッチしたグラフィックや曲を自動で制作する手段が、シーンの雰囲気や登場人物の感情状態を考慮してグラフィックや曲を制作する、請求項1記載のシステム。
(Claim 3)
2. The system according to claim 1, wherein the means for automatically creating graphics and music that match each scene of the story creates the graphics and music taking into consideration the atmosphere of the scene and the emotional state of the characters.
また、上記複数の実施形態のうち1の実施形態に含まれる1又は複数の要素は、上記複数の実施形態のうち他の実施形態に含まれる1又は複数の要素と組み合わせてもよい。以上の実施形態の組み合わせに関し、更に以下を開示する。
(請求項1)
物語のテーマ、舞台、及び登場人物の情報を含むストーリー設定を入力する手段と、
入力された前記ストーリー設定に基づき、物語の構成を自動で作成する手段と、
作成した前記物語の構成に対応する要素を生成する手段と、
前記物語に対応するグラフィック及び音楽を自動で制作する手段と、
ユーザの感情を認識する手段と、
認識された前記ユーザの感情に応じて前記物語のシーン及び音楽を調整する手段と、
を含むシステム。
Furthermore, one or more elements included in one of the above-described embodiments may be combined with one or more elements included in another of the above-described embodiments.
(Claim 1)
a means for inputting a story setting including information about the theme, setting, and characters of the story;
means for automatically creating a story structure based on the input story setting;
means for generating elements corresponding to the created story structure;
means for automatically creating graphics and music corresponding to said story;
means for recognizing a user's emotion;
means for adjusting the scenes and music of the story in response to the recognized emotions of the user;
A system including:
(請求項2)
前記物語の構成を自動で作成する手段は、前記物語の始まり、中盤、及び終わりの三幕構成を基本として前記物語を作成する、
請求項1記載のシステム。
(Claim 2)
the means for automatically creating a story structure creates the story based on a three-act structure consisting of a beginning, a middle, and an end of the story;
The system of claim 1 .
(請求項3)
前記要素は、伏線、ミステリー要素、及び感動的なシーンのうち少なくとも一つの要素である、
請求項1記載のシステム。
(Claim 3)
The element is at least one element selected from the group consisting of a foreshadowing, a mystery element, and a moving scene.
The system of claim 1 .
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
10, 210, 310, 410 Data processing system 12 Data processing device 14 Smart device 214 Smart glasses 314 Headset type terminal 414 Robot
Claims (2)
解析結果を基に生成AIモデルに入力するためのプロンプト文を生成する手段と、
前記生成AIモデルを用いて、前記プロンプト文に基づき、物語の構成を自動で作成する手段と、
伏線、ミステリー要素、及び感動的なシーンのうち少なくとも一つを、前記生成AIモデルを用いて自動で生成する手段と、
物語のシーンを解析し、前記シーンの雰囲気及び登場人物の感情状態を抽出する手段と、
抽出された前記雰囲気及び前記感情状態に基づいて、グラフィック生成エンジンを用いて前記物語に対応するグラフィックを自動で制作し、音楽生成エンジンを用いて前記物語に対応する音楽を自動で制作する手段と、
ユーザの感情を認識する手段と、
認識された前記ユーザの感情に基づき、前記生成AIモデルへ入力するプロンプト文を生成することで、認識された前記ユーザの感情に応じて前記物語のシーン及び音楽を調整する手段と、
を含むシステム。 a means for receiving text data including information on the theme, setting, and characters of a story input by a user and analyzing the data using natural language processing technology;
A means for generating a prompt sentence to be input to the generation AI model based on the analysis result;
A means for automatically creating a story structure based on the prompt sentence using the generative AI model ;
A means for automatically generating at least one of foreshadowing, mystery elements, and moving scenes using the generative AI model ;
means for analyzing a story scene and extracting the mood of said scene and the emotional state of the characters;
a means for automatically creating graphics corresponding to the story using a graphics generation engine and automatically creating music corresponding to the story using a music generation engine based on the extracted atmosphere and emotional state ;
means for recognizing a user's emotion;
a means for generating prompt sentences to be input to the generative AI model based on the recognized emotion of the user, thereby adjusting the scenes and music of the story according to the recognized emotion of the user;
A system including:
請求項1記載のシステム。 the means for automatically creating a story structure creates the story based on a three-act structure consisting of a beginning, a middle, and an end of the story;
The system of claim 1 .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023152608 | 2023-09-20 | ||
| JP2023152608 | 2023-09-20 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2025049078A JP2025049078A (en) | 2025-04-03 |
| JP7808657B2 true JP7808657B2 (en) | 2026-01-29 |
Family
ID=95211215
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024163700A Active JP7808657B2 (en) | 2023-09-20 | 2024-09-20 | system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7808657B2 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012004885A (en) | 2010-06-17 | 2012-01-05 | Hoshun Ri | Voice speech terminal device, voice speech system, and voice speech method |
| JP2019117529A (en) | 2017-12-27 | 2019-07-18 | トヨタ自動車株式会社 | Information providing apparatus |
| US20190302993A1 (en) | 2018-03-29 | 2019-10-03 | Michele Francis | Narrative arc story engine |
| JP2022174244A (en) | 2021-04-30 | 2022-11-22 | 宏幸 大曽根 | text generation system |
| CN115617982A (en) | 2022-09-22 | 2023-01-17 | 同济大学 | A fine-grained character, action and emotion controllable story generation method |
-
2024
- 2024-09-20 JP JP2024163700A patent/JP7808657B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012004885A (en) | 2010-06-17 | 2012-01-05 | Hoshun Ri | Voice speech terminal device, voice speech system, and voice speech method |
| JP2019117529A (en) | 2017-12-27 | 2019-07-18 | トヨタ自動車株式会社 | Information providing apparatus |
| US20190302993A1 (en) | 2018-03-29 | 2019-10-03 | Michele Francis | Narrative arc story engine |
| JP2022174244A (en) | 2021-04-30 | 2022-11-22 | 宏幸 大曽根 | text generation system |
| CN115617982A (en) | 2022-09-22 | 2023-01-17 | 同济大学 | A fine-grained character, action and emotion controllable story generation method |
Non-Patent Citations (2)
| Title |
|---|
| 2 サイバー、電通、博報堂 組織や事業構造が激変,日経コンピュータ no.1098,日本,日経BP,2023年07月06日,第1098号,pp.30-33 |
| 森岡 麗,生成AI革命 「ブラック・ジャック」の生成AIを体験 プロンプトのさじ加減で筋書き激変,日経コンピュータ no.1099,日本,日経BP,2023年07月20日,第1099号,p.16 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2025049078A (en) | 2025-04-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7808657B2 (en) | system | |
| JP2025049259A (en) | system | |
| JP2026028095A (en) | system | |
| JP2026022473A (en) | system | |
| JP2026019864A (en) | system | |
| JP2026028736A (en) | system | |
| JP2026027050A (en) | system | |
| JP2026040043A (en) | system | |
| JP2025049080A (en) | system | |
| JP2026030270A (en) | system | |
| JP2026017943A (en) | system | |
| JP2026014246A (en) | system | |
| JP2026074903A (en) | system | |
| JP2026017936A (en) | system | |
| JP2026037467A (en) | system | |
| JP2026021083A (en) | system | |
| JP2026068362A (en) | system | |
| JP2026029516A (en) | system | |
| JP2026029892A (en) | system | |
| JP2026029869A (en) | system | |
| JP2026018812A (en) | system | |
| JP2026029947A (en) | system | |
| JP2026024926A (en) | system | |
| JP2026018710A (en) | system | |
| JP2026024497A (en) | system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241218 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250819 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20251010 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260106 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260119 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7808657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |