Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7084520B2 - Simulation equipment, simulation method and simulation program - Google Patents
[go: Go Back, main page]

JP7084520B2 - Simulation equipment, simulation method and simulation program - Google Patents

Simulation equipment, simulation method and simulation program Download PDF

Info

Publication number
JP7084520B2
JP7084520B2 JP2021035735A JP2021035735A JP7084520B2 JP 7084520 B2 JP7084520 B2 JP 7084520B2 JP 2021035735 A JP2021035735 A JP 2021035735A JP 2021035735 A JP2021035735 A JP 2021035735A JP 7084520 B2 JP7084520 B2 JP 7084520B2
Authority
JP
Japan
Prior art keywords
simulation
prediction model
learning
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021035735A
Other languages
Japanese (ja)
Other versions
JP2021082367A (en
Inventor
健一郎 島田
浩二 伊藤
知範 泉谷
大地 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Business Inc
Original Assignee
NTT Docomo Business Inc
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Business Inc, NTT Communications Corp filed Critical NTT Docomo Business Inc
Priority to JP2021035735A priority Critical patent/JP7084520B2/en
Publication of JP2021082367A publication Critical patent/JP2021082367A/en
Application granted granted Critical
Publication of JP7084520B2 publication Critical patent/JP7084520B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、シミュレーション装置、シミュレーション方法およびシミュレーションプログラムに関する。 The present invention relates to a simulation apparatus, a simulation method and a simulation program.

近年、工場、プラント、ビルおよびデータセンタ等の様々な環境における機器制御に強化学習器等の機械学習を用いることが提案されている。この様な機械学習では、工場、プラント、ビルおよびデータセンタ等の様々な環境に対して、制御装置や空調機等の様々な機器の入出力をモデル化してシミュレーション環境を構築することで、強化学習器の制御パラメータの探索が行われている。制御パラメータの探索は、熟練作業者が試行錯誤を行うことで行われている。 In recent years, it has been proposed to use machine learning such as a reinforcement learning device for device control in various environments such as factories, plants, buildings and data centers. Such machine learning is strengthened by modeling the input and output of various devices such as control devices and air conditioners and building a simulation environment for various environments such as factories, plants, buildings and data centers. The control parameters of the learner are being searched. The search for control parameters is performed by a skilled worker through trial and error.

佐藤 和也 外2名著、「はじめての制御工学」、株式会社講談社、2010年10月Kazuya Sato, 2 authors, "First Control Engineering", Kodansha Co., Ltd., October 2010 Richard S.Sutton 外1名著、「強化学習」、森北出版株式会社、2000年12月Richard S. Sutton, 1 author, "Reinforcement Learning", Morikita Publishing Co., Ltd., December 2000 Volodymyr Mnih 外6名、“Playing Atari with Deep Reinforcement Learning”、[Online]、2013年12月、NIPS Deep Learning Workshop 2013、[平成31年1月29日検索]、インターネット<https://arxiv.org/pdf/1312.5602.pdf>Volodymyr Mnih 6 people outside, "Playing Atari with Deep Reinforcement Learning", [Online], December 2013, NIPS Deep Learning Workshop 2013, [Search January 29, 2019], Internet <https://arxiv.org /pdf/1312.5602.pdf>

しかしながら、従来は、高精度なシミュレーション環境を容易に構築することが困難であったという課題がある。例えば、シミュレーション環境の構築と、制御パラメータの探索とは、別々に行われていたため、制御パラメータの探索において、シミュレーション環境を変更したい場合、どのように変更するのかを作業者が指示することが求められる。このため、シミュレーション環境の構築と、制御パラメータの探索とを繰り返す場合、多くの手間と時間とを要することになり、高精度なシミュレーション環境を容易に構築することが困難である。 However, in the past, there is a problem that it has been difficult to easily construct a high-precision simulation environment. For example, the construction of the simulation environment and the search for control parameters were performed separately, so when searching for control parameters, if the simulation environment is to be changed, the operator is required to instruct how to change it. Be done. Therefore, when the construction of the simulation environment and the search for the control parameters are repeated, a lot of labor and time are required, and it is difficult to easily construct a highly accurate simulation environment.

上述した課題を解決し、目的を達成するために、本発明のシミュレーション装置は、学習用データの入力を受け付ける第1受付部と、受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成部と、シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器とのうち、いずれか1つまたは複数の配置を受け付ける第2受付部と、受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行部と、前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成部に対して、前記予測モデルの再生成を指示する判定部と、を有することを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the simulation apparatus of the present invention learns using the first reception unit that accepts the input of the training data and the received training data, and generates a prediction model. A second reception unit that accepts one or more of the generation unit, the evaluation data used for the simulation, the generated prediction model, and the reinforcement learning device that performs reinforcement learning in the simulation. Based on the received state of the arrangement, the execution unit that executes the simulation using the evaluation data, the prediction model, and the reinforcement learning device, and the learning result of the reinforcement learning device in the simulation. Based on this, it is determined whether or not to regenerate the prediction model, and when it is determined that the prediction model is to be regenerated, a determination unit that instructs the generation unit to regenerate the prediction model. It is characterized by having.

また、本発明のシミュレーション方法は、学習用データの入力を受け付ける第1受付工程と、受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成工程と、シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器とのうち、いずれか1つまたは複数の配置を受け付ける第2受付工程と、受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行工程と、前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成工程に対して、前記予測モデルの再生成を指示する判定工程と、をシミュレーション装置が実行することを特徴とする。 Further, the simulation method of the present invention includes a first reception step of accepting input of training data, a generation step of learning using the received training data to generate a prediction model, and evaluation data used for simulation. Based on the second reception step of accepting one or more arrangements of the generated prediction model and the reinforcement learning device for performing reinforcement learning in the simulation, and the state of the received arrangements. Whether to regenerate the prediction model based on the evaluation data, the execution step of executing the simulation using the prediction model, the reinforcement learning device, and the learning result of the reinforcement learning device in the simulation. When it is determined whether or not the prediction model is to be regenerated, the simulation device is characterized in that the simulation apparatus executes a determination step of instructing the generation step to regenerate the prediction model. ..

また、本発明のシミュレーションプログラムは、学習用データの入力を受け付ける第1受付ステップと、受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成ステップと、シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器とのうち、いずれか1つまたは複数の配置を受け付ける第2受付ステップと、受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行ステップと、前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成ステップに対して、前記予測モデルの再生成を指示する判定ステップと、をコンピュータに実行させることを特徴とする。 Further, the simulation program of the present invention includes a first reception step that accepts input of training data, a generation step that learns using the received training data and generates a prediction model, and evaluation data used for simulation. , The second reception step that accepts one or more arrangements of the generated prediction model and the reinforcement learning device that performs reinforcement learning in the simulation, and the state of the received arrangement. Whether to regenerate the prediction model based on the evaluation data, the execution step of executing the simulation using the prediction model, the reinforcement learning device, and the learning result of the reinforcement learning device in the simulation. When it is determined whether or not the prediction model is to be regenerated, the computer is made to execute a determination step instructing the generation step to regenerate the prediction model.

本発明によれば、高精度なシミュレーション環境を容易に構築することができるという効果を奏する。 According to the present invention, there is an effect that a highly accurate simulation environment can be easily constructed.

図1は、第1の実施形態に係るシミュレーション装置の構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration of the simulation apparatus according to the first embodiment. 図2は、配置画面の一例を示す図である。FIG. 2 is a diagram showing an example of an arrangement screen. 図3は、配置画面の他の一例を示す図である。FIG. 3 is a diagram showing another example of the arrangement screen. 図4は、予測画像モデルにおける学習の一例を説明する図である。FIG. 4 is a diagram illustrating an example of learning in the predicted image model. 図5は、第1の実施形態におけるシミュレーション処理の一例を示すフローチャートである。FIG. 5 is a flowchart showing an example of the simulation process in the first embodiment. 図6は、シミュレーションプログラムを実行するコンピュータの一例を示す図である。FIG. 6 is a diagram showing an example of a computer that executes a simulation program.

以下、図面に基づいて、本願の開示するシミュレーション装置、シミュレーション方法およびシミュレーションプログラムの実施の形態を詳細に説明する。なお、この実施の形態により本願に係るシミュレーション装置、シミュレーション方法およびシミュレーションプログラムが限定されるものではない。 Hereinafter, embodiments of the simulation apparatus, simulation method, and simulation program disclosed in the present application will be described in detail with reference to the drawings. The simulation apparatus, simulation method, and simulation program according to the present application are not limited to this embodiment.

[第1の実施形態]
以下の実施の形態では、第1の実施形態に係るシミュレーション装置100の構成、シミュレーション装置100の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
[First Embodiment]
In the following embodiments, the configuration of the simulation apparatus 100 and the processing flow of the simulation apparatus 100 according to the first embodiment will be described in order, and finally, the effects of the first embodiment will be described.

[シミュレーション装置の構成]
まず、図1を用いて、シミュレーション装置100の構成を説明する。図1は、第1の実施形態に係るシミュレーション装置の構成の一例を示すブロック図である。シミュレーション装置100は、例えば、他の情報処理装置から学習用データの入力を受け付ける。シミュレーション装置100は、生成部が、受け付けた学習用データを用いて学習し、予測モデルを生成する。シミュレーション装置100は、シミュレーションに用いる評価用データと、生成された予測モデルと、シミュレーションにおける強化学習を行う強化学習器と、シミュレーションにおける模倣学習を行う模倣学習器とのうち、いずれか1つまたは複数の配置を受け付ける。シミュレーション装置100は、受け付けた配置の状態に基づいて、評価用データと、予測モデルと、強化学習器と、模倣学習器とを用いたシミュレーションを実行する。シミュレーション装置100は、シミュレーションにおける強化学習器の学習結果に基づいて、予測モデルの再生成を行うか否かを判定する。シミュレーション装置100は、予測モデルの再生成を行うと判定した場合、生成部に対して、予測モデルの再生成を指示する。これにより、シミュレーション装置100は、高精度なシミュレーション環境を容易に構築することができる。
[Simulation device configuration]
First, the configuration of the simulation device 100 will be described with reference to FIG. FIG. 1 is a block diagram showing an example of the configuration of the simulation apparatus according to the first embodiment. The simulation device 100 receives input of learning data from, for example, another information processing device. The simulation device 100 learns using the received learning data by the generation unit, and generates a prediction model. The simulation device 100 is one or more of the evaluation data used for the simulation, the generated prediction model, the reinforcement learning device for performing reinforcement learning in the simulation, and the imitation learning device for performing imitation learning in the simulation. Accept the placement of. The simulation device 100 executes a simulation using the evaluation data, the prediction model, the reinforcement learner, and the imitation learner based on the received arrangement state. The simulation device 100 determines whether or not to regenerate the prediction model based on the learning result of the reinforcement learning device in the simulation. When the simulation device 100 determines that the prediction model is to be regenerated, the simulation device 100 instructs the generation unit to regenerate the prediction model. As a result, the simulation device 100 can easily construct a highly accurate simulation environment.

図1に示すように、シミュレーション装置100は、通信部110と、表示部111と、操作部112と、記憶部120と、制御部130とを有する。なお、シミュレーション装置100は、図1に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。 As shown in FIG. 1, the simulation device 100 includes a communication unit 110, a display unit 111, an operation unit 112, a storage unit 120, and a control unit 130. In addition to the functional units shown in FIG. 1, the simulation device 100 may have various functional units of known computers, such as various input devices and voice output devices.

通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークを介して、他の情報処理装置と有線または無線で接続され、他の情報処理装置との間で情報の通信を司る通信インタフェースである。通信部110は、例えば、他の情報処理装置から、学習用データおよび評価用データを受信する。通信部110は、受信した学習用データおよび評価用データを制御部130に出力する。なお、通信部110は、例えば、他の情報処理装置から、後述する予測モデル、第1学習済モデルおよび第2学習済モデル等を受信するようにしてもよい。 The communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. The communication unit 110 is a communication interface that is connected to another information processing device by wire or wirelessly via a network (not shown) and controls information communication with the other information processing device. The communication unit 110 receives learning data and evaluation data from, for example, another information processing device. The communication unit 110 outputs the received learning data and evaluation data to the control unit 130. The communication unit 110 may receive, for example, a prediction model, a first trained model, a second trained model, and the like, which will be described later, from another information processing device.

表示部111は、各種情報を表示するための表示デバイスである。表示部111は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。表示部111は、制御部130から入力された表示画面等の各種画面を表示する。 The display unit 111 is a display device for displaying various information. The display unit 111 is realized by, for example, a liquid crystal display or the like as a display device. The display unit 111 displays various screens such as a display screen input from the control unit 130.

操作部112は、シミュレーション装置100のユーザから各種操作を受け付ける入力デバイスである。操作部112は、例えば、入力デバイスとして、キーボードやマウス等によって実現される。操作部112は、ユーザによって入力された操作を操作情報として制御部130に出力する。なお、操作部112は、入力デバイスとして、タッチパネル等によって実現されるようにしてもよく、表示部111の表示デバイスと、操作部112の入力デバイスとは、一体化されるようにしてもよい。 The operation unit 112 is an input device that receives various operations from the user of the simulation device 100. The operation unit 112 is realized by, for example, a keyboard, a mouse, or the like as an input device. The operation unit 112 outputs the operation input by the user to the control unit 130 as operation information. The operation unit 112 may be realized by a touch panel or the like as an input device, or the display device of the display unit 111 and the input device of the operation unit 112 may be integrated.

記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部120は、学習用データ記憶部121と、予測モデル記憶部122と、評価用データ記憶部123と、配置情報記憶部124と、学習済モデル記憶部125とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。 The storage unit 120 is realized by, for example, a RAM (Random Access Memory), a semiconductor memory element such as a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 120 includes a learning data storage unit 121, a prediction model storage unit 122, an evaluation data storage unit 123, an arrangement information storage unit 124, and a learned model storage unit 125. Further, the storage unit 120 stores information used for processing in the control unit 130.

学習用データ記憶部121は、例えば、プラントの各部に設けられた温度や圧力等の各種センサが出力するセンサ情報を学習用データとして記憶する。学習用データは、予測対象に対する前処理が施された後、予測モデルの機械学習に用いられる。 The learning data storage unit 121 stores, for example, sensor information output by various sensors such as temperature and pressure provided in each unit of the plant as learning data. The training data is used for machine learning of the prediction model after the prediction target is preprocessed.

予測モデル記憶部122は、予測対象の各種パラメータの出力値が得られるように、前処理済みの学習用データを機械学習で学習させた予測モデルを記憶する。予測モデル記憶部122は、シミュレーションにおいて、評価用データに基づいて、予測対象の各種パラメータを出力する。また、予測モデルは、例えば、センサ情報を特徴量として、ニューラルネットワークを用いて深層学習を行ったものである。ニューラルネットワークとしては、例えば、CNN(Convolutional Neural Network)を用いることができる。つまり、予測モデルは、例えば、学習パラメータとしてニューラルネットワークの各種パラメータ(重み係数)等を記憶する。なお、通信部110を介して他の情報処理装置から予測モデルを取得した場合、予測モデルは、シミュレーションにおいて新たな機械学習を行わないようにしてもよい。 The prediction model storage unit 122 stores a prediction model in which preprocessed learning data is trained by machine learning so that output values of various parameters to be predicted can be obtained. The prediction model storage unit 122 outputs various parameters to be predicted based on the evaluation data in the simulation. Further, in the prediction model, for example, deep learning is performed using a neural network using sensor information as a feature quantity. As the neural network, for example, CNN (Convolutional Neural Network) can be used. That is, the prediction model stores, for example, various parameters (weighting coefficients) of the neural network as learning parameters. When a prediction model is acquired from another information processing device via the communication unit 110, the prediction model may not perform new machine learning in the simulation.

評価用データ記憶部123は、例えば、プラントの各部に設けられた温度や圧力等の各種センサが出力するセンサ情報を評価用データとして記憶する。評価用データは、取得されたセンサ情報のデータを、学習用データと評価用データとに分割したものであってもよい。 The evaluation data storage unit 123 stores, for example, sensor information output by various sensors such as temperature and pressure provided in each part of the plant as evaluation data. The evaluation data may be obtained by dividing the acquired sensor information data into learning data and evaluation data.

配置情報記憶部124は、ユーザから受け付けた評価用データと、予測モデルと、強化学習器と、模倣学習器とのうち、いずれか1つまたは複数の要素の配置の状態を表す配置情報を記憶する。配置情報は、配置される各要素間の接続情報も含む。 The placement information storage unit 124 stores the placement information representing the placement state of any one or more of the evaluation data received from the user, the prediction model, the reinforcement learner, and the imitation learner. do. The placement information also includes connection information between each placed element.

学習済モデル記憶部125は、シミュレーションにおける強化学習器の学習結果である第1学習済モデルと、模倣学習器の学習結果である第2学習済モデルとを記憶する。第1学習済モデルおよび第2学習済モデルは、例えば、制御対象のバルブの開閉状況に応じて出力流量を出力する予測モデルに対するバルブの開度を学習する。学習済モデル記憶部125は、第1学習済モデルとして、例えば、Q学習の各種パラメータを記憶する。また、学習済モデル記憶部125は、第2学習済モデルとして、例えば、バルブをPID(Proportional Integral Differential)制御した場合の結果を模倣した各種パラメータを記憶する。なお、通信部110を介して他の情報処理装置から第1学習済モデルおよび第2学習済モデルを取得した場合、第1学習済モデルおよび第2学習済モデルは、シミュレーションにおいて新たな強化学習および模倣学習を行わないようにしてもよい。 The trained model storage unit 125 stores the first trained model, which is the learning result of the reinforcement learner in the simulation, and the second trained model, which is the learning result of the imitation learner. The first trained model and the second trained model learn, for example, the opening degree of the valve with respect to the prediction model that outputs the output flow rate according to the open / closed state of the valve to be controlled. The trained model storage unit 125 stores, for example, various parameters of Q-learning as the first trained model. Further, the trained model storage unit 125 stores various parameters as the second trained model, for example, imitating the result when the valve is controlled by PID (Proportional Integral Differential). When the first trained model and the second trained model are acquired from another information processing device via the communication unit 110, the first trained model and the second trained model are subjected to new reinforcement learning and new training in the simulation. It is possible not to perform imitation learning.

制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。 The control unit 130 is realized by, for example, using a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like to execute a program stored in an internal storage device using the RAM as a work area. Further, the control unit 130 may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

制御部130は、第1受付部131と、設定部132と、生成部133と、第2受付部134と、実行部135と、判定部136と、出力制御部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。 The control unit 130 includes a first reception unit 131, a setting unit 132, a generation unit 133, a second reception unit 134, an execution unit 135, a determination unit 136, and an output control unit 137. Realize or execute the information processing functions and actions described. The internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 1, and may be any other configuration as long as it is configured to perform information processing described later.

第1受付部131は、ユーザの操作に基づいて、例えば、通信部110を介して、他の情報処理装置から学習用データの入力を受け付ける。第1受付部131は、受け付けた学習用データを学習用データ記憶部121に記憶する。また、第1受付部131は、ユーザの操作に基づいて、例えば、通信部110を介して、他の情報処理装置から評価用データの入力を受け付ける。第1受付部131は、受け付けた評価用データを評価用データ記憶部123に記憶する。また、第1受付部131は、ユーザから予測対象に対する設定の開始を受け付けると、設定部132に設定指示を出力する。なお、第1受付部131は、ユーザから設定を行う予測対象を複数受け付けてもよい。 The first reception unit 131 receives input of learning data from another information processing device, for example, via the communication unit 110, based on the user's operation. The first reception unit 131 stores the received learning data in the learning data storage unit 121. Further, the first reception unit 131 receives input of evaluation data from another information processing device, for example, via the communication unit 110, based on the user's operation. The first reception unit 131 stores the received evaluation data in the evaluation data storage unit 123. Further, when the first reception unit 131 receives the start of the setting for the prediction target from the user, the first reception unit 131 outputs a setting instruction to the setting unit 132. The first reception unit 131 may receive a plurality of prediction targets to be set by the user.

設定部132には、第1受付部131または生成部133から設定指示が入力される。また、設定部132には、判定部136から再設定指示が入力される。設定部132は、設定指示または再設定指示が入力されると、予測対象を設定する。設定部132は、例えば、予測対象がバルブであれば、出力値として出力流量を設定し、制御対象としてバルブの開度を設定する。なお、設定部132は、再設定指示が入力された場合、既に試行済みの設定条件と異なる条件に予測対象を設定する。設定条件は、例えば、パラメータのリストを順番に試行したり、予測モデル自体を変更したりすることで変更する。設定部132は、予測対象を設定すると、設定した予測対象に対応する前処理を、学習用データ記憶部121の学習用データに対して実行する。なお、前処理とは、例えば、欠損値の補充、異常値処理、標準化等が挙げられる。設定部132は、前処理が完了すると、生成指示を生成部133に出力する。 A setting instruction is input to the setting unit 132 from the first reception unit 131 or the generation unit 133. Further, a resetting instruction is input to the setting unit 132 from the determination unit 136. When the setting instruction or the resetting instruction is input, the setting unit 132 sets the prediction target. For example, if the prediction target is a valve, the setting unit 132 sets the output flow rate as the output value and sets the opening degree of the valve as the control target. When the resetting instruction is input, the setting unit 132 sets the prediction target under a condition different from the already tried setting condition. The setting conditions are changed, for example, by trying a list of parameters in order or changing the prediction model itself. When the prediction target is set, the setting unit 132 executes preprocessing corresponding to the set prediction target on the learning data of the learning data storage unit 121. The pretreatment includes, for example, replenishment of missing values, processing of abnormal values, standardization, and the like. When the preprocessing is completed, the setting unit 132 outputs a generation instruction to the generation unit 133.

生成部133は、設定部132から生成指示が入力されると、学習用データ記憶部121から学習用データを読み込んで機械学習を行い、予測モデルを生成する。生成部133は、例えば、CNN等の深層学習を行い、予測モデルを生成する。生成部133は、生成した予測モデルを予測モデル記憶部122に記憶する。生成部133は、予測モデルが未生成の予測対象があるか否かを判定する。生成部133は、予測モデルが未生成の予測対象があると判定した場合、設定部132に対して、残りの予測対象について設定を行うように設定指示を出力する。生成部133は、予測モデルが未生成の予測対象がないと判定した場合、第2受付部134に対して受付指示を出力する。なお、設定部132と生成部133とは、統合してもよい。また、判定部136から設定部132に入力される再設定指示は、予測モデルの再生成を指示するものであり、設定部132と生成部133とを統合した場合、統合後の生成部に入力される。 When the generation instruction is input from the setting unit 132, the generation unit 133 reads the learning data from the learning data storage unit 121, performs machine learning, and generates a prediction model. The generation unit 133 performs deep learning such as CNN and generates a prediction model. The generation unit 133 stores the generated prediction model in the prediction model storage unit 122. The generation unit 133 determines whether or not the prediction model has an ungenerated prediction target. When the generation unit 133 determines that the prediction model has an ungenerated prediction target, the generation unit 133 outputs a setting instruction to the setting unit 132 to set the remaining prediction targets. When the generation unit 133 determines that there is no ungenerated prediction target in the prediction model, the generation unit 133 outputs a reception instruction to the second reception unit 134. The setting unit 132 and the generation unit 133 may be integrated. Further, the resetting instruction input from the determination unit 136 to the setting unit 132 indicates the regeneration of the prediction model, and when the setting unit 132 and the generation unit 133 are integrated, they are input to the generation unit after integration. Will be done.

第2受付部134は、生成部133から受付指示が入力されると、表示部111に配置画面を表示させ、ユーザからシミュレーション環境における各要素の配置を受け付ける。第2受付部134は、配置する要素として、生成した予測モデルの配置を受け付ける。また、第2受付部134は、配置する要素として、評価用データ、強化学習器および模倣学習器の配置を受け付ける。さらに、第2受付部134は、例えば、配置された強化学習器および模倣学習器の制御対象等の設定、つまり各要素間の接続情報を受け付ける。第2受付部134は、ユーザから配置の完了を受け付けると、各要素の配置および接続情報を含む配置情報を配置情報記憶部124に記憶する。 When the reception instruction is input from the generation unit 133, the second reception unit 134 causes the display unit 111 to display the arrangement screen, and receives the arrangement of each element in the simulation environment from the user. The second reception unit 134 receives the arrangement of the generated prediction model as an element to be arranged. Further, the second reception unit 134 receives the arrangement of the evaluation data, the reinforcement learning device, and the imitation learning device as the elements to be arranged. Further, the second reception unit 134 receives, for example, settings such as control targets of the arranged reinforcement learner and imitation learner, that is, connection information between each element. When the second reception unit 134 receives the completion of the arrangement from the user, the second reception unit 134 stores the arrangement information including the arrangement and connection information of each element in the arrangement information storage unit 124.

ここで、図2および図3を用いて、配置画面について説明する。図2は、配置画面の一例を示す図である。図2に示す配置画面10は、シミュレーション環境において配置対象となる各要素を表示する選択領域11と、シミュレーション対象となるシミュレーション環境を構築する構築領域12とを有する。配置対象となる各要素としては、例えば、評価用データに対応するデータ13、各予測モデルに対応する予測モデルC1~CX、関数処理D1,D2、PID制御P1、強化学習器に対応する強化学習14、および、模倣学習器に対応する模倣学習15が挙げられる。なお、図2では、選択領域11のPIDパラメータ16は省略されている。 Here, the arrangement screen will be described with reference to FIGS. 2 and 3. FIG. 2 is a diagram showing an example of an arrangement screen. The arrangement screen 10 shown in FIG. 2 has a selection area 11 for displaying each element to be arranged in the simulation environment, and a construction area 12 for constructing the simulation environment to be simulated. The elements to be arranged include, for example, data 13 corresponding to evaluation data, prediction models C1 to CX corresponding to each prediction model, function processing D1, D2, PID control P1, and reinforcement learning corresponding to a reinforcement learner. 14 and imitation learning 15 corresponding to the imitation learner. In FIG. 2, the PID parameter 16 of the selection area 11 is omitted.

構築領域12では、例えば、ユーザが選択領域11から各要素についてドラッグアンドドロップ操作を行うことで、各要素が配置される。図2の例では、データ13と、予測モデルC1~C6と、関数処理D1と、強化学習14と、模倣学習15と、PID制御P1と、PIDパラメータ16とが配置されている。なお、関数処理D1は、入力に対して何らかの関数処理を行って出力を行う要素であり、例えば、移動平均を求める関数等である。また、PID制御P1は、フィードバック制御を行うPID制御に対応する。PIDパラメータ16は、PID制御P1の各種ゲインや時間、目標値、操作量等のパラメータである。 In the construction area 12, for example, each element is arranged by the user performing a drag-and-drop operation for each element from the selection area 11. In the example of FIG. 2, data 13, prediction models C1 to C6, function processing D1, reinforcement learning 14, imitation learning 15, PID control P1 and PID parameter 16 are arranged. The function processing D1 is an element that performs some function processing on the input and outputs the output, and is, for example, a function for obtaining a moving average. Further, the PID control P1 corresponds to the PID control that performs feedback control. The PID parameter 16 is a parameter such as various gains, times, target values, and operation amounts of the PID control P1.

また、図2の例では、データ13は、予測モデルC1~C6に接続される。予測モデルC1の出力は、PID制御P1と、PIDパラメータ16とに接続される。PIDパラメータ16の出力は、PID制御P1に接続される。PID制御P1の出力は、強化学習14と、模倣学習15とに接続される。また、予測モデルC2~C6および関数処理D1の出力は、強化学習14と、模倣学習15とに接続される。一方、強化学習14および模倣学習15の制御出力は、予測モデルC1~C6および関数処理D1に接続される。 Further, in the example of FIG. 2, the data 13 is connected to the prediction models C1 to C6. The output of the prediction model C1 is connected to the PID control P1 and the PID parameter 16. The output of the PID parameter 16 is connected to the PID control P1. The output of the PID control P1 is connected to the reinforcement learning 14 and the imitation learning 15. Further, the outputs of the prediction models C2 to C6 and the function processing D1 are connected to the reinforcement learning 14 and the imitation learning 15. On the other hand, the control outputs of the reinforcement learning 14 and the imitation learning 15 are connected to the prediction models C1 to C6 and the function processing D1.

図3は、配置画面の他の一例を示す図である。図3に示す配置画面20は、図2の配置画面10に対して状態の予測画像を生成および入力する配置としたものである。図3の例では、配置画面10と比較して、選択領域11に要素として、予測画像21および予測画像モデルC7が追加され、構築領域12には、予測画像21および予測画像モデルC7が追加して配置されている。 FIG. 3 is a diagram showing another example of the arrangement screen. The arrangement screen 20 shown in FIG. 3 is an arrangement in which a state prediction image is generated and input to the arrangement screen 10 of FIG. In the example of FIG. 3, the predicted image 21 and the predicted image model C7 are added to the selection area 11 as elements, and the predicted image 21 and the predicted image model C7 are added to the construction area 12 as compared with the arrangement screen 10. Is arranged.

図3の例では、データ13は、予測モデルC1~C6に接続される。予測モデルC1の出力は、PID制御P1と、PIDパラメータ16と、予測画像モデルC7とに接続される。PIDパラメータ16の出力は、PID制御P1に接続される。PID制御P1の出力は、強化学習14と、模倣学習15とに接続される。また、予測モデルC2,C3,C5,C6および関数処理D1の出力は、強化学習14と、模倣学習15とに接続される。さらに、予測モデルC2,C3および関数処理D1の出力は、予測画像モデルC7に接続される。また、予測モデルC4の出力は、関数処理D1に接続される。 In the example of FIG. 3, the data 13 is connected to the prediction models C1 to C6. The output of the prediction model C1 is connected to the PID control P1, the PID parameter 16, and the prediction image model C7. The output of the PID parameter 16 is connected to the PID control P1. The output of the PID control P1 is connected to the reinforcement learning 14 and the imitation learning 15. Further, the outputs of the prediction models C2, C3, C5, C6 and the function processing D1 are connected to the reinforcement learning 14 and the imitation learning 15. Further, the outputs of the prediction models C2 and C3 and the function processing D1 are connected to the prediction image model C7. Further, the output of the prediction model C4 is connected to the function process D1.

予測画像モデルC7は、生成部133において、入力を潜在変数(特徴量)として、GAN(Generative Adversarial Networks)を用いて学習が行われる。予測画像モデルC7は、シミュレーションにおいて、予測モデルC1,C2,C3および関数処理D1の出力に基づいて、予測画像21を生成する。すなわち、構築領域12では、予測画像モデルC7の出力は、予測画像21に接続される。予測画像21は、画像データであり、強化学習14と、模倣学習15とに接続される。つまり、図3の例では、強化学習14および模倣学習15は、自身の予測値によって制御された予測モデルの出力に基づいて生成された予測画像についても学習する。なお、予測画像モデルC7の学習は、GANに限定されず、例えば、CNNやMLP(MultiLayer Perceptron:多層パーセプトロン)等を用いて、各種センサ等の出力結果を画像として教師あり学習を行うようにしてもよい。 The prediction image model C7 is trained in the generation unit 133 using GAN (Generative Adversarial Networks) with the input as a latent variable (feature amount). The prediction image model C7 generates the prediction image 21 based on the outputs of the prediction models C1, C2, C3 and the function processing D1 in the simulation. That is, in the construction region 12, the output of the predicted image model C7 is connected to the predicted image 21. The predicted image 21 is image data and is connected to the reinforcement learning 14 and the imitation learning 15. That is, in the example of FIG. 3, the reinforcement learning 14 and the imitation learning 15 also learn the prediction image generated based on the output of the prediction model controlled by its own prediction value. The learning of the predicted image model C7 is not limited to GAN, and for example, CNN, MLP (MultiLayer Perceptron) or the like is used, and the output results of various sensors or the like are used as images for supervised learning. May be good.

ここで、予測画像の生成について、図4を用いて説明する。図4は、予測画像モデルにおける学習の一例を説明する図である。図4に示す学習例30では、Generatorである生成器31に対して潜在変数(特徴量)32が入力されると、生成器31は、偽物画像33を生成し、Discriminatorである識別器34に出力する。識別器34は、偽物画像33が本物画像である確率をシグモイド関数35に出力する。また、識別器34には、本物画像36が偽物画像33と交互に入力される。シグモイド関数35は、偽物画像33について、本物(1)か偽物(0)かを判定器37に出力する。判定器37は、入力された本物(1)か偽物(0)かについて、正解であるかどうかを判定して、誤差逆伝搬により生成器31および識別器34を学習させる。 Here, the generation of the predicted image will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of learning in the predicted image model. In the learning example 30 shown in FIG. 4, when the latent variable (feature amount) 32 is input to the generator 31 which is a generator, the generator 31 generates a fake image 33 and causes the discriminator 34 which is a discriminator. Output. The classifier 34 outputs the probability that the fake image 33 is a real image to the sigmoid function 35. Further, the real image 36 is alternately input to the classifier 34 with the fake image 33. The sigmoid function 35 outputs to the determination device 37 whether the fake image 33 is genuine (1) or fake (0). The determination device 37 determines whether the input genuine (1) or fake (0) is the correct answer, and trains the generator 31 and the classifier 34 by error back propagation.

次に、図4に示す学習例30では、学習が済んだ生成器31を画像生成モデル31aとする。すなわち、画像生成モデル31aは、学習用データとして画像データを用いて機械学習を行った予測画像モデルである。画像生成モデル31aは、図3における予測画像モデルC7に相当し、予測モデル38から出力されたシミュレータ出力値39を入力として、予測画像40を生成し出力する。生成された予測画像40は、例えば、強化学習器での学習を介して、予測モデル38の制御に利用できる。また、予測画像40は、出力結果の確認用に表示するようにしてもよい。 Next, in the learning example 30 shown in FIG. 4, the trained generator 31 is used as the image generation model 31a. That is, the image generation model 31a is a predictive image model in which machine learning is performed using image data as training data. The image generation model 31a corresponds to the prediction image model C7 in FIG. 3, and generates and outputs the prediction image 40 by inputting the simulator output value 39 output from the prediction model 38. The generated prediction image 40 can be used to control the prediction model 38, for example, through learning with a reinforcement learning device. Further, the predicted image 40 may be displayed for confirmation of the output result.

図1の説明に戻る。実行部135は、ユーザからシミュレーションの開始指示を受け付けると、配置情報記憶部124を参照し、配置情報に基づいて、シミュレーションを実行する。つまり、実行部135は、強化学習器の強化学習、および、模倣学習器の模倣学習を実行し、第1学習済モデルおよび第2学習済モデルを学習済モデル記憶部125に記憶する。また、実行部135は、配置情報に予測画像モデルが含まれる場合、シミュレーションの実行中に、予測画像データを出力制御部137に出力する。すなわち、実行部135は、強化学習器の制御出力に応じた予測モデルの予測値、つまり、強化学習器の学習結果に基づく予測モデルの予測値に対応する予測画像データを出力制御部137に出力する。実行部135は、例えば、所定回数のシミュレーションが完了すると、判定指示を判定部136に出力する。また、実行部135は、配置情報に予測画像モデルが含まれる場合、シミュレーション完了時点の予測画像データを出力制御部137に出力する。なお、シミュレーションの所定回数は、例えば、予め設定された回数やユーザから指定を受け付けた回数を用いることができる。 Returning to the description of FIG. When the execution unit 135 receives the simulation start instruction from the user, the execution unit 135 refers to the arrangement information storage unit 124 and executes the simulation based on the arrangement information. That is, the execution unit 135 executes reinforcement learning of the reinforcement learner and imitation learning of the imitation learner, and stores the first trained model and the second trained model in the trained model storage unit 125. Further, when the arrangement information includes the predicted image model, the execution unit 135 outputs the predicted image data to the output control unit 137 during the execution of the simulation. That is, the execution unit 135 outputs the predicted value of the prediction model according to the control output of the reinforcement learner, that is, the prediction image data corresponding to the prediction value of the prediction model based on the learning result of the reinforcement learner to the output control unit 137. do. For example, when the simulation of a predetermined number of times is completed, the execution unit 135 outputs a determination instruction to the determination unit 136. Further, when the arrangement information includes the predicted image model, the execution unit 135 outputs the predicted image data at the time of completion of the simulation to the output control unit 137. As the predetermined number of simulations, for example, a preset number of times or a number of times specified by the user can be used.

判定部136には、配置情報に予測画像モデルが含まれる場合、表示した予測画像データに対して受け付けた評価が出力制御部137から入力される。判定部136は、実行部135から判定指示が入力されると、ユーザから予測画像データの評価を受け付けたか否かを判定する。つまり、判定部136は、配置情報に予測画像モデルが含まれる場合、出力制御部137が表示部111に表示した予測画像データに対して、ユーザから評価を受け付けたか否かを判定する。判定部136は、予測画像データの評価を受け付けていないと判定した場合、または、配置情報に予測画像モデルが含まれない場合、強化学習器の学習結果に基づいて、予測モデルの再生成を行うか否かを判定する。 When the predicted image model is included in the arrangement information, the determination unit 136 inputs the evaluation received for the displayed predicted image data from the output control unit 137. When the determination instruction is input from the execution unit 135, the determination unit 136 determines whether or not the evaluation of the predicted image data has been accepted from the user. That is, when the arrangement information includes the predicted image model, the determination unit 136 determines whether or not the predicted image data displayed on the display unit 111 by the output control unit 137 has been evaluated by the user. If the determination unit 136 determines that the evaluation of the predicted image data is not accepted, or if the arrangement information does not include the predicted image model, the determination unit 136 regenerates the predicted model based on the learning result of the reinforcement learner. Judge whether or not.

例えば、判定部136は、実環境における強化学習器の学習結果に基づく予測モデルの予測値と、シミュレーションにおける強化学習器の学習結果に基づく予測モデルの予測値との誤差の評価値に基づいて、予測モデルの再生成を行うか否かを判定する。誤差の評価値としては、平均平方二乗誤差(RMSE:Root Mean Square Error)や平均二乗誤差(MSE:Mean Squared Error)を用いることができる。 For example, the determination unit 136 is based on the evaluation value of the error between the predicted value of the prediction model based on the learning result of the reinforcement learning device in the real environment and the predicted value of the prediction model based on the learning result of the reinforcement learning device in the simulation. Determine whether to regenerate the prediction model. As the evaluation value of the error, a mean squared error (RMSE: Root Mean Square Error) or a mean squared error (MSE: Mean Squared Error) can be used.

また、例えば、判定部136は、シミュレーションにおける強化学習器の学習結果に基づく予測モデルの予測値と、実測値との相関度合いに基づいて、予測モデルの再生成を行うか否かを判定する。相関度合いとしては、例えば、相関係数を用いてもよいし、損失関数を用いてもよい。つまり、判定部136は、学習結果に基づいて、一定期間、強化学習の結果が向上しない場合、新たな予測モデルの生成を行うか否かを判定する。 Further, for example, the determination unit 136 determines whether or not to regenerate the prediction model based on the degree of correlation between the prediction value of the prediction model based on the learning result of the reinforcement learning device in the simulation and the measured value. As the degree of correlation, for example, a correlation coefficient may be used, or a loss function may be used. That is, the determination unit 136 determines whether or not to generate a new prediction model when the result of reinforcement learning does not improve for a certain period of time based on the learning result.

一方、判定部136は、予測画像データの評価を受け付けたと判定した場合、受け付けた評価に基づいて、予測モデルの再生成を行うか否かを判定する。予測画像データの評価は、例えば、炉の内部をサーモグラフィによって撮影した実物画像に対応する予測画像を、熟練作業員が評価することで行うことができる。 On the other hand, when it is determined that the evaluation of the predicted image data has been accepted, the determination unit 136 determines whether or not to regenerate the prediction model based on the accepted evaluation. The evaluation of the predicted image data can be performed, for example, by a skilled worker evaluating a predicted image corresponding to a real image taken by thermography inside the furnace.

判定部136は、予測モデルの再生成を行うと判定した場合、設定部132に対して再設定指示を出力する。なお、再設定指示は、設定部132および生成部133に対して予測モデルの再生成を指示するものである。判定部136は、予測モデルの再生成を行わないと判定した場合、シミュレーション処理を終了する。すなわち、判定部136は、シミュレーション環境の構築を完了する。 When the determination unit 136 determines that the prediction model is to be regenerated, the determination unit 136 outputs a reset instruction to the setting unit 132. The resetting instruction instructs the setting unit 132 and the generation unit 133 to regenerate the prediction model. If the determination unit 136 determines that the prediction model is not regenerated, the determination unit 136 ends the simulation process. That is, the determination unit 136 completes the construction of the simulation environment.

出力制御部137は、実行部135から予測画像データが入力されると、予測画像データを表示部111に出力して表示する。出力制御部137は、例えば、シミュレーション実行中の予測画像データを逐次表示するようにしてもよいし、所定時間ごとに抽出した予測画像データを並べて表示するようにしてもよい。また、出力制御部137は、シミュレーションが完了した際の予測画像データを表示するようにしてもよい。さらに、出力制御部137は、表示した予測画像データに対する評価を受け付けると、受け付けた評価を判定部136に出力する。 When the predicted image data is input from the execution unit 135, the output control unit 137 outputs the predicted image data to the display unit 111 and displays it. For example, the output control unit 137 may sequentially display the predicted image data during simulation execution, or may display the predicted image data extracted at predetermined time intervals side by side. Further, the output control unit 137 may display the predicted image data when the simulation is completed. Further, when the output control unit 137 accepts the evaluation of the displayed predicted image data, the output control unit 137 outputs the accepted evaluation to the determination unit 136.

[シミュレーション装置の処理手順]
次に、第1の実施形態に係るシミュレーション装置100の動作について説明する。図5は、第1の実施形態におけるシミュレーション処理の一例を示すフローチャートである。
[Processing procedure of simulation device]
Next, the operation of the simulation device 100 according to the first embodiment will be described. FIG. 5 is a flowchart showing an example of the simulation process in the first embodiment.

第1受付部131は、例えば、他の情報処理装置から学習用データの入力を受け付ける(ステップS1)。第1受付部131は、受け付けた学習用データを学習用データ記憶部121に記憶する。また、第1受付部131は、例えば、他の情報処理装置から評価用データの入力を受け付ける。第1受付部131は、受け付けた評価用データを評価用データ記憶部123に記憶する。また、第1受付部131は、ユーザから予測対象に対する設定の開始を受け付けると、設定部132に設定指示を出力する。 The first reception unit 131 receives, for example, input of learning data from another information processing device (step S1). The first reception unit 131 stores the received learning data in the learning data storage unit 121. Further, the first reception unit 131 receives input of evaluation data from, for example, another information processing device. The first reception unit 131 stores the received evaluation data in the evaluation data storage unit 123. Further, when the first reception unit 131 receives the start of the setting for the prediction target from the user, the first reception unit 131 outputs a setting instruction to the setting unit 132.

設定部132は、設定指示または再設定指示が入力されると、予測対象を設定する(ステップS2)。設定部132は、予測対象を設定すると、設定した予測対象に対応する前処理を、学習用データ記憶部121の学習用データに対して実行する(ステップS3)。設定部132は、前処理が完了すると、生成指示を生成部133に出力する。 When the setting instruction or the resetting instruction is input, the setting unit 132 sets the prediction target (step S2). When the prediction target is set, the setting unit 132 executes preprocessing corresponding to the set prediction target for the learning data of the learning data storage unit 121 (step S3). When the preprocessing is completed, the setting unit 132 outputs a generation instruction to the generation unit 133.

生成部133は、設定部132から生成指示が入力されると、学習用データ記憶部121から学習用データを読み込んで機械学習を行い、予測モデルを生成する(ステップS4)。生成部133は、生成した予測モデルを予測モデル記憶部122に記憶する。生成部133は、予測モデルが未生成の予測対象があるか否かを判定する(ステップS5)。生成部133は、予測モデルが未生成の予測対象があると判定した場合(ステップS5:Yes)、設定部132に対して、残りの予測対象について設定を行うように設定指示を出力し、ステップS2に戻る。生成部133は、予測モデルが未生成の予測対象がないと判定した場合(ステップS5:No)、第2受付部134に対して受付指示を出力する。 When the generation instruction is input from the setting unit 132, the generation unit 133 reads the learning data from the learning data storage unit 121, performs machine learning, and generates a prediction model (step S4). The generation unit 133 stores the generated prediction model in the prediction model storage unit 122. The generation unit 133 determines whether or not there is an ungenerated prediction target in the prediction model (step S5). When the generation unit 133 determines that the prediction model has an ungenerated prediction target (step S5: Yes), the generation unit 133 outputs a setting instruction to the setting unit 132 to set the remaining prediction target, and steps. Return to S2. When the generation unit 133 determines that there is no ungenerated prediction target in the prediction model (step S5: No), the generation unit 133 outputs a reception instruction to the second reception unit 134.

第2受付部134は、生成部133から受付指示が入力されると、表示部111に配置画面を表示させ、ユーザからシミュレーション環境における各要素の配置を受け付ける。第2受付部134は、生成した予測モデルの配置を受け付ける(ステップS6)。また、第2受付部134は、評価用データ、強化学習器および模倣学習器の配置を受け付ける(ステップS7)。さらに、第2受付部134は、配置された強化学習器および模倣学習器の制御対象等の設定を受け付ける(ステップS8)。第2受付部134は、ユーザから配置の完了を受け付けると、各要素の配置および接続情報を含む配置情報を配置情報記憶部124に記憶する。 When the reception instruction is input from the generation unit 133, the second reception unit 134 causes the display unit 111 to display the arrangement screen, and receives the arrangement of each element in the simulation environment from the user. The second reception unit 134 receives the arrangement of the generated prediction model (step S6). In addition, the second reception unit 134 receives the evaluation data, the reinforcement learning device, and the arrangement of the imitation learning device (step S7). Further, the second reception unit 134 receives settings such as control targets of the arranged reinforcement learner and imitation learner (step S8). When the second reception unit 134 receives the completion of the arrangement from the user, the second reception unit 134 stores the arrangement information including the arrangement and connection information of each element in the arrangement information storage unit 124.

実行部135は、ユーザからシミュレーションの開始指示を受け付けると、配置情報記憶部124を参照し、配置情報に基づいて、シミュレーションを実行し、強化学習を実行する(ステップS9)。実行部135は、強化学習器の第1学習済モデル、および、模倣学習器の第2学習済モデルを学習済モデル記憶部125に記憶する。また、実行部135は、配置情報に予測画像モデルが含まれる場合、シミュレーションの実行中に、予測画像データを出力制御部137に出力する。出力制御部137は、実行部135から予測画像データが入力されると、予測画像データを表示部111に出力して表示する(ステップS10)。出力制御部137は、表示した予測画像データに対する評価を受け付けると、受け付けた評価を判定部136に出力する。実行部135は、例えば、所定回数のシミュレーションが完了すると、判定指示を判定部136に出力する。 When the execution unit 135 receives the simulation start instruction from the user, the execution unit 135 refers to the arrangement information storage unit 124, executes the simulation based on the arrangement information, and executes reinforcement learning (step S9). The execution unit 135 stores the first trained model of the reinforcement learner and the second trained model of the imitation learner in the trained model storage unit 125. Further, when the arrangement information includes the predicted image model, the execution unit 135 outputs the predicted image data to the output control unit 137 during the execution of the simulation. When the predicted image data is input from the execution unit 135, the output control unit 137 outputs the predicted image data to the display unit 111 and displays it (step S10). When the output control unit 137 receives the evaluation for the displayed predicted image data, the output control unit 137 outputs the received evaluation to the determination unit 136. For example, when the simulation of a predetermined number of times is completed, the execution unit 135 outputs a determination instruction to the determination unit 136.

判定部136は、実行部135から判定指示が入力されると、ユーザから予測画像データの評価を受け付けたか否かを判定する(ステップS11)。判定部136は、予測画像データの評価を受け付けていないと判定した場合(ステップS11:No)、または、配置情報に予測画像モデルが含まれない場合、強化学習器の学習結果に基づいて、予測モデルの再生成を行うか否かを判定すると設定する(ステップS12)。一方、判定部136は、予測画像データの評価を受け付けたと判定した場合(ステップS11:Yes)、受け付けた評価に基づいて、予測モデルの再生成を行うか否かを判定すると設定する(ステップS13)。 When the determination instruction is input from the execution unit 135, the determination unit 136 determines whether or not the evaluation of the predicted image data has been accepted from the user (step S11). If the determination unit 136 determines that the evaluation of the predicted image data is not accepted (step S11: No), or if the arrangement information does not include the predicted image model, the determination unit 136 makes a prediction based on the learning result of the reinforcement learner. It is set when it is determined whether or not to regenerate the model (step S12). On the other hand, when it is determined that the evaluation of the predicted image data has been accepted (step S11: Yes), the determination unit 136 sets to determine whether or not to regenerate the prediction model based on the accepted evaluation (step S13). ).

判定部136は、予測モデルの再生成を行うか否かを判定する(ステップS14)。判定部136は、予測モデルの再生成を行うと判定した場合(ステップS14:Yes)、設定部132に対して再設定指示を出力し、ステップS2に戻る。判定部136は、予測モデルの再生成を行わないと判定した場合(ステップS14:No)、シミュレーション処理を終了する。これにより、シミュレーション装置100は、高精度なシミュレーション環境を容易に構築することができる。また、シミュレーション装置100は、人手による構築よりも短時間でシミュレーション環境を構築することができる。 The determination unit 136 determines whether or not to regenerate the prediction model (step S14). When the determination unit 136 determines that the prediction model is to be regenerated (step S14: Yes), the determination unit 136 outputs a reset instruction to the setting unit 132 and returns to step S2. When the determination unit 136 determines that the prediction model is not regenerated (step S14: No), the determination unit 136 ends the simulation process. As a result, the simulation device 100 can easily construct a highly accurate simulation environment. Further, the simulation device 100 can construct the simulation environment in a shorter time than the manual construction.

なお、上記第1の実施形態では、予測モデルの一例として、予測画像データを生成する予測画像モデルを挙げたが、予測画像データの代わりに予測音声データを生成する予測音声モデルを用いてもよい。予測音声モデルは、例えば、図3に示す配置画面において、他の予測モデルと同様に配置することができる。 In the first embodiment, the predicted image model that generates the predicted image data is given as an example of the predicted model, but the predicted voice model that generates the predicted voice data may be used instead of the predicted image data. .. The predictive voice model can be arranged in the same manner as other predictive models on the arrangement screen shown in FIG. 3, for example.

[第1の実施形態の効果]
このように、シミュレーション装置100は、学習用データの入力を受け付ける。また、シミュレーション装置100は、生成部が、受け付けた学習用データを用いて学習し、予測モデルを生成する。また、シミュレーション装置100は、シミュレーションに用いる評価用データと、生成された予測モデルと、シミュレーションにおける強化学習を行う強化学習器と、シミュレーションにおける模倣学習を行う模倣学習器とのうち、いずれか1つまたは複数の配置を受け付ける。また、シミュレーション装置100は、受け付けた配置の状態に基づいて、評価用データと、予測モデルと、強化学習器と、模倣学習器とを用いたシミュレーションを実行する。また、シミュレーション装置100は、シミュレーションにおける強化学習器の学習結果に基づいて、予測モデルの再生成を行うか否かを判定する。また、シミュレーション装置100は、予測モデルの再生成を行うと判定した場合、生成部に対して、予測モデルの再生成を指示する。その結果、シミュレーション装置100は、高精度なシミュレーション環境を容易に構築することができる。また、シミュレーション装置100は、シミュレーション環境の構築から強化学習の実行までを自動化できるので、人手による構築よりも短時間で高精度なシミュレーション環境を構築することができる。なお、構築するシミュレーション環境は、デジタルツイン環境とも呼ばれるものである。
[Effect of the first embodiment]
In this way, the simulation device 100 accepts the input of learning data. Further, the simulation device 100 learns using the received learning data by the generation unit, and generates a prediction model. Further, the simulation device 100 is one of an evaluation data used for the simulation, a generated prediction model, a reinforcement learning device for performing reinforcement learning in the simulation, and an imitation learning device for performing imitation learning in the simulation. Or accept multiple arrangements. Further, the simulation device 100 executes a simulation using the evaluation data, the prediction model, the reinforcement learner, and the imitation learner based on the received arrangement state. Further, the simulation device 100 determines whether or not to regenerate the prediction model based on the learning result of the reinforcement learning device in the simulation. Further, when the simulation device 100 determines that the prediction model is to be regenerated, the simulation device 100 instructs the generation unit to regenerate the prediction model. As a result, the simulation device 100 can easily construct a highly accurate simulation environment. Further, since the simulation device 100 can automate the process from the construction of the simulation environment to the execution of reinforcement learning, it is possible to construct a highly accurate simulation environment in a shorter time than the manual construction. The simulation environment to be constructed is also called a digital twin environment.

また、シミュレーション装置100は、実環境における強化学習器の学習結果に基づく予測モデルの予測値と、シミュレーションにおける強化学習器の学習結果に基づく予測モデルの予測値との誤差の評価値に基づいて、予測モデルの再生成を行うか否かを判定する。その結果、シミュレーション装置100は、シミュレーション環境の精度を向上させることができる。 Further, the simulation device 100 is based on an evaluation value of an error between the predicted value of the prediction model based on the learning result of the reinforcement learner in the real environment and the prediction value of the prediction model based on the learning result of the reinforcement learner in the simulation. Determine whether to regenerate the prediction model. As a result, the simulation device 100 can improve the accuracy of the simulation environment.

また、シミュレーション装置100は、シミュレーションにおける強化学習器の学習結果に基づく予測モデルの予測値と、実測値との相関度合いに基づいて、予測モデルの再生成を行うか否かを判定する。その結果、シミュレーション装置100は、シミュレーション環境の精度を向上させることができる。 Further, the simulation device 100 determines whether or not to regenerate the prediction model based on the degree of correlation between the predicted value of the prediction model based on the learning result of the reinforcement learning device in the simulation and the measured value. As a result, the simulation device 100 can improve the accuracy of the simulation environment.

また、学習用データは、画像データを含む。また、シミュレーション装置100は、予測モデルとして、さらに、画像データに基づいて、予測画像データを生成する予測画像モデルを生成する。また、シミュレーション装置100は、予測画像モデルの配置を受け付ける。また、シミュレーション装置100は、予測画像モデルを含むシミュレーションを実行する。また、シミュレーション装置100は、さらに、シミュレーションにおける強化学習器の制御出力に応じた予測モデルの予測値、つまり強化学習器の学習結果に基づく予測モデルの予測値に対応する予測画像データを出力する。その結果、シミュレーション装置100は、予測画像を用いてシミュレーションの状況をわかりやすく提示できる。 Further, the learning data includes image data. Further, the simulation device 100 further generates a predictive image model that generates predictive image data based on the image data as a predictive model. Further, the simulation device 100 accepts the arrangement of the predicted image model. Further, the simulation device 100 executes a simulation including a predicted image model. Further, the simulation device 100 further outputs predicted image data corresponding to the predicted value of the prediction model according to the control output of the reinforcement learning device in the simulation, that is, the predicted value of the prediction model based on the learning result of the reinforcement learning device. As a result, the simulation device 100 can present the simulation situation in an easy-to-understand manner using the predicted image.

また、学習用データは、音声データを含む。また、シミュレーション装置100は、予測モデルとして、さらに、音声データに基づいて、予測音声データを生成する予測音声モデルを生成する。また、シミュレーション装置100は、予測音声モデルの配置を受け付ける。また、シミュレーション装置100は、予測音声モデルを含むシミュレーションを実行する。また、シミュレーション装置100は、さらに、シミュレーションにおける強化学習器の制御出力に応じた予測モデルの予測値、つまり強化学習器の学習結果に基づく予測モデルの予測値に対応する予測音声データを出力する。その結果、シミュレーション装置100は、予測音声を用いてシミュレーションの状況をわかりやすく提示できる。 Further, the learning data includes voice data. Further, the simulation device 100 further generates a predicted voice model that generates predicted voice data based on the voice data as a prediction model. Further, the simulation device 100 accepts the arrangement of the predicted voice model. Further, the simulation device 100 executes a simulation including a predicted speech model. Further, the simulation device 100 further outputs the predicted value of the prediction model according to the control output of the reinforcement learning device in the simulation, that is, the predicted voice data corresponding to the predicted value of the prediction model based on the learning result of the reinforcement learning device. As a result, the simulation device 100 can present the simulation situation in an easy-to-understand manner using the predicted voice.

また、シミュレーション装置100は、さらに、出力した予測画像データまたは予測音声データに対する評価を受け付け、受け付けた評価に基づいて、予測モデルの再生成を行うか否かを判定する。その結果、シミュレーション装置100は、熟練作業員の経験をシミュレーションに反映できる。 Further, the simulation device 100 further accepts evaluations of the output predicted image data or predicted voice data, and determines whether or not to regenerate the prediction model based on the received evaluations. As a result, the simulation device 100 can reflect the experience of a skilled worker in the simulation.

なお、上記第1の実施形態では、予測モデルの生成において、CNNを用いた機械学習を行ったが、これに限定されない。例えば、RNN(Recurrent Neural Network)やSVM(Support Vector Machine)等を用いた機械学習を行ってもよい。 In the first embodiment, machine learning using CNN was performed in the generation of the prediction model, but the present invention is not limited to this. For example, machine learning using RNN (Recurrent Neural Network), SVM (Support Vector Machine), or the like may be performed.

また、上記第1の実施形態では、学習用データを機械学習して予測モデルを生成してから強化学習器の強化学習を行ったが、これに限定されない。例えば、シミュレーション装置100は、学習用データを機械学習して予測モデルを生成し、生成した予測モデルを用いてシミュレーションを実行した結果(強化学習を行わない場合の結果)に基づいて、予測モデルの再生成を行うか否かを判定するようにしてもよい。また、例えば、シミュレーション装置100は、他の情報処理装置から予測モデルを取得した場合、予測モデルの機械学習は行わず、シミュレーションで強化学習を実行した結果に基づいて、予測モデルの再生成を行うか否かを判定するようにしてもよい。 Further, in the first embodiment, the training data is machine-learned to generate a prediction model, and then the reinforcement learning of the reinforcement learning device is performed, but the present invention is not limited to this. For example, the simulation device 100 machine-learns training data to generate a prediction model, and based on the result of executing a simulation using the generated prediction model (result when reinforcement learning is not performed), the prediction model It may be determined whether or not to perform regeneration. Further, for example, when the simulation device 100 acquires a prediction model from another information processing device, the simulation device 100 does not perform machine learning of the prediction model, but regenerates the prediction model based on the result of executing reinforcement learning in the simulation. It may be determined whether or not.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUやGPUおよび当該CPUやGPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device is realized by a CPU or GPU and a program that is analyzed and executed by the CPU or GPU, or as hardware by wired logic. Can be realized.

また、上記実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the above-described embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or part of it can be done automatically by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
また、上記実施形態において説明したシミュレーション装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係るシミュレーション装置100が実行する処理をコンピュータが実行可能な言語で記述したシミュレーションプログラムを作成することもできる。この場合、コンピュータがシミュレーションプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるシミュレーションプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたシミュレーションプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
[program]
Further, it is also possible to create a program in which the processing executed by the simulation apparatus described in the above embodiment is described in a language that can be executed by a computer. For example, it is possible to create a simulation program in which the processing executed by the simulation apparatus 100 according to the embodiment is described in a language that can be executed by a computer. In this case, the same effect as that of the above embodiment can be obtained by executing the simulation program by the computer. Further, the same processing as that of the above embodiment may be realized by recording the simulation program on a computer-readable recording medium, reading the simulation program recorded on the recording medium into the computer, and executing the simulation program.

図6は、シミュレーションプログラムを実行するコンピュータの一例を示す図である。図6に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。 FIG. 6 is a diagram showing an example of a computer that executes a simulation program. As illustrated in FIG. 6, the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. However, each of these parts is connected by a bus 1080.

メモリ1010は、図6に例示するように、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図6に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図6に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図6に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図6に例示するように、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012, as illustrated in FIG. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090, as illustrated in FIG. The disk drive interface 1040 is connected to the disk drive 1100 as illustrated in FIG. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120, as illustrated in FIG. The video adapter 1060 is connected, for example, to a display 1130, as illustrated in FIG.

ここで、図6に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、シミュレーションプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。 Here, as illustrated in FIG. 6, the hard disk drive 1090 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. That is, the above-mentioned simulation program is stored in, for example, the hard disk drive 1090 as a program module in which a command executed by the computer 1000 is described.

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。 Further, the various data described in the above embodiment are stored as program data in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes various processing procedures.

なお、シミュレーションプログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、シミュレーションプログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and program data 1094 related to the simulation program are not limited to those stored in the hard disk drive 1090, and may be stored in, for example, a detachable storage medium and read by the CPU 1020 via a disk drive or the like. good. Alternatively, the program module 1093 and the program data 1094 related to the simulation program are stored in another computer connected via a network (LAN, WAN (Wide Area Network), etc.) and read by the CPU 1020 via the network interface 1070. May be done.

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above-described embodiments and modifications thereof are included in the invention described in the claims and the equivalent scope thereof, as included in the technique disclosed in the present application.

100 シミュレーション装置
110 通信部
111 表示部
112 操作部
120 記憶部
121 学習用データ記憶部
122 予測モデル記憶部
123 評価用データ記憶部
124 配置情報記憶部
125 学習済モデル記憶部
130 制御部
131 第1受付部
132 設定部
133 生成部
134 第2受付部
135 実行部
136 判定部
137 出力制御部
100 Simulation device 110 Communication unit 111 Display unit 112 Operation unit 120 Storage unit 121 Learning data storage unit 122 Prediction model storage unit 123 Evaluation data storage unit 124 Arrangement information storage unit 125 Learned model storage unit 130 Control unit 131 First reception Unit 132 Setting unit 133 Generation unit 134 Second reception unit 135 Execution unit 136 Judgment unit 137 Output control unit

Claims (8)

学習用データの入力を受け付ける第1受付部と、
受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成部と、
シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器との配置を受け付ける第2受付部と、
受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行部と、
前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成部に対して、前記予測モデルの再生成を指示する判定部と、
を有することを特徴とするシミュレーション装置。
The first reception section that accepts input of learning data,
A generation unit that learns using the received training data and generates a prediction model,
A second reception unit that accepts the arrangement of the evaluation data used for the simulation, the generated prediction model, and the reinforcement learning device that performs reinforcement learning in the simulation.
An execution unit that executes the simulation using the evaluation data, the prediction model, and the reinforcement learner based on the received state of the arrangement.
Based on the learning result of the reinforcement learning device in the simulation, it is determined whether or not to regenerate the prediction model, and when it is determined to regenerate the prediction model, the generation unit is referred to. A judgment unit that instructs the regeneration of the prediction model, and
A simulation device characterized by having.
前記判定部は、実環境における前記強化学習器の学習結果に基づく前記予測モデルの予測値と、前記シミュレーションにおける前記強化学習器の学習結果に基づく前記予測モデルの予測値との誤差の評価値に基づいて、前記予測モデルの再生成を行うか否かを判定する、
ことを特徴とする請求項1に記載のシミュレーション装置。
The determination unit determines the evaluation value of the error between the predicted value of the prediction model based on the learning result of the reinforcement learning device in the actual environment and the prediction value of the prediction model based on the learning result of the reinforcement learning device in the simulation. Based on this, it is determined whether or not to regenerate the prediction model.
The simulation apparatus according to claim 1.
前記判定部は、前記シミュレーションにおける前記強化学習器の学習結果に基づく前記予測モデルの予測値と、実測値との相関度合いに基づいて、前記予測モデルの再生成を行うか否かを判定する、
ことを特徴とする請求項1に記載のシミュレーション装置。
The determination unit determines whether or not to regenerate the prediction model based on the degree of correlation between the prediction value of the prediction model based on the learning result of the reinforcement learning device in the simulation and the measured value.
The simulation apparatus according to claim 1.
前記学習用データは、画像データを含み、
前記生成部は、前記予測モデルとして、さらに、前記画像データに基づいて、予測画像データを生成する予測画像モデルを生成し、
前記第2受付部は、前記予測画像モデルの配置を受け付け、
前記実行部は、前記予測画像モデルを含む前記シミュレーションを実行し、
さらに、前記シミュレーションにおける前記強化学習器の学習結果に基づく前記予測モデルの予測値に対応する前記予測画像データを出力する出力制御部を有する、
ことを特徴とする請求項1~3のいずれか1つに記載のシミュレーション装置。
The learning data includes image data and includes image data.
The generation unit further generates a prediction image model that generates prediction image data based on the image data as the prediction model.
The second reception unit receives the arrangement of the predicted image model and receives it.
The execution unit executes the simulation including the predicted image model, and the execution unit executes the simulation.
Further, it has an output control unit that outputs the predicted image data corresponding to the predicted value of the predicted model based on the learning result of the enhanced learning device in the simulation.
The simulation apparatus according to any one of claims 1 to 3, wherein the simulation apparatus is characterized in that.
前記学習用データは、音声データを含み、
前記生成部は、前記予測モデルとして、さらに、前記音声データに基づいて、予測音声データを生成する予測音声モデルを生成し、
前記第2受付部は、前記予測音声モデルの配置を受け付け、
前記実行部は、前記予測音声モデルを含む前記シミュレーションを実行し、
さらに、前記シミュレーションにおける前記強化学習器の学習結果に基づく前記予測モデルの予測値に対応する前記予測音声データを出力する出力制御部を有する、
ことを特徴とする請求項1~4のいずれか1つに記載のシミュレーション装置。
The learning data includes voice data.
As the prediction model, the generation unit further generates a prediction voice model that generates prediction voice data based on the voice data.
The second reception unit receives the arrangement of the predicted voice model and receives it.
The execution unit executes the simulation including the predictive voice model, and the execution unit executes the simulation.
Further, it has an output control unit that outputs the predicted voice data corresponding to the predicted value of the predicted model based on the learning result of the enhanced learning device in the simulation.
The simulation apparatus according to any one of claims 1 to 4, wherein the simulation apparatus is characterized in that.
前記判定部は、さらに、前記出力制御部が出力した予測画像データまたは予測音声データに対する評価を受け付け、受け付けた評価に基づいて、前記予測モデルの再生成を行うか否かを判定する、
ことを特徴とする請求項4または5に記載のシミュレーション装置。
The determination unit further receives an evaluation of the predicted image data or the predicted voice data output by the output control unit, and determines whether or not to regenerate the prediction model based on the received evaluation.
The simulation apparatus according to claim 4 or 5.
学習用データの入力を受け付ける第1受付工程と、
受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成工程と、
シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器との配置を受け付ける第2受付工程と、
受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行工程と、
前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成工程に対して、前記予測モデルの再生成を指示する判定工程と、
をシミュレーション装置が実行することを特徴とするシミュレーション方法。
The first reception process that accepts the input of learning data,
A generation process that learns using the received training data and generates a prediction model,
A second reception process that accepts the arrangement of the evaluation data used for the simulation, the generated prediction model, and the reinforcement learning device that performs reinforcement learning in the simulation.
An execution step of executing the simulation using the evaluation data, the prediction model, and the reinforcement learner based on the received state of the arrangement.
Based on the learning result of the reinforcement learning device in the simulation, it is determined whether or not to regenerate the prediction model, and when it is determined to regenerate the prediction model, the above-mentioned generation step is performed. A judgment process that instructs the regeneration of the prediction model, and
A simulation method characterized by the simulation device performing.
学習用データの入力を受け付ける第1受付ステップと、
受け付けた前記学習用データを用いて学習し、予測モデルを生成する生成ステップと、
シミュレーションに用いる評価用データと、生成された前記予測モデルと、前記シミュレーションにおける強化学習を行う強化学習器との配置を受け付ける第2受付ステップと、
受け付けた前記配置の状態に基づいて、前記評価用データと、前記予測モデルと、前記強化学習器とを用いた前記シミュレーションを実行する実行ステップと、
前記シミュレーションにおける前記強化学習器の学習結果に基づいて、前記予測モデルの再生成を行うか否かを判定し、前記予測モデルの再生成を行うと判定した場合、前記生成ステップに対して、前記予測モデルの再生成を指示する判定ステップと、
をコンピュータに実行させることを特徴とするシミュレーションプログラム。
The first reception step that accepts the input of learning data,
A generation step to train using the received training data and generate a predictive model,
A second reception step that accepts the arrangement of the evaluation data used for the simulation, the generated prediction model, and the reinforcement learning device that performs reinforcement learning in the simulation.
An execution step for executing the simulation using the evaluation data, the prediction model, and the reinforcement learner based on the received state of the arrangement.
Based on the learning result of the reinforcement learning device in the simulation, it is determined whether or not to regenerate the prediction model, and when it is determined to regenerate the prediction model, the above-mentioned generation step is performed. A decision step that directs the regeneration of the predictive model, and
A simulation program characterized by having a computer execute.
JP2021035735A 2021-03-05 2021-03-05 Simulation equipment, simulation method and simulation program Active JP7084520B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021035735A JP7084520B2 (en) 2021-03-05 2021-03-05 Simulation equipment, simulation method and simulation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021035735A JP7084520B2 (en) 2021-03-05 2021-03-05 Simulation equipment, simulation method and simulation program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019021965A Division JP6850313B2 (en) 2019-02-08 2019-02-08 Simulation equipment, simulation method and simulation program

Publications (2)

Publication Number Publication Date
JP2021082367A JP2021082367A (en) 2021-05-27
JP7084520B2 true JP7084520B2 (en) 2022-06-14

Family

ID=75965763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035735A Active JP7084520B2 (en) 2021-03-05 2021-03-05 Simulation equipment, simulation method and simulation program

Country Status (1)

Country Link
JP (1) JP7084520B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7827581B2 (en) * 2021-08-06 2026-03-10 株式会社デンソー SiC crystal manufacturing apparatus, control device for SiC crystal manufacturing apparatus, method for generating learning model for SiC crystal manufacturing apparatus, and method for controlling SiC crystal manufacturing apparatus
JP7722252B2 (en) * 2022-04-26 2025-08-13 横河電機株式会社 Control device, control method, and control program
KR102477783B1 (en) * 2022-06-02 2022-12-15 이안 주식회사 Method and system for providing a metaverse base on digital twin
KR102939068B1 (en) 2023-05-22 2026-03-16 한국생산기술연구원 PID Tuning Method through Reinforcement Learning using Artificial Intelligence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015167041A (en) 2015-05-20 2015-09-24 大澤 昇平 Machine learning model design support device, machine learning model design support method, program for machine learning model design support device
JP2018092511A (en) 2016-12-07 2018-06-14 三菱重工業株式会社 Operational support device, apparatus operation system, control method, and program
JP2019021186A (en) 2017-07-20 2019-02-07 横河電機株式会社 Data processing apparatus, control system, data processing method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3210473B2 (en) * 1993-03-11 2001-09-17 株式会社東芝 Visual feedback control device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015167041A (en) 2015-05-20 2015-09-24 大澤 昇平 Machine learning model design support device, machine learning model design support method, program for machine learning model design support device
JP2018092511A (en) 2016-12-07 2018-06-14 三菱重工業株式会社 Operational support device, apparatus operation system, control method, and program
JP2019021186A (en) 2017-07-20 2019-02-07 横河電機株式会社 Data processing apparatus, control system, data processing method and program

Also Published As

Publication number Publication date
JP2021082367A (en) 2021-05-27

Similar Documents

Publication Publication Date Title
JP7084520B2 (en) Simulation equipment, simulation method and simulation program
Muratore et al. Assessing transferability from simulation to reality for reinforcement learning
JP6521578B2 (en) Non-intrusive data analysis in process control systems
CN113039495A (en) Industrial factory building controller
Zheng et al. Economic model predictive control for building HVAC system: A comparative analysis of model-based and data-driven approaches using the BOPTEST Framework
EP3704550B1 (en) Generation of a control system for a target system
US20200379452A1 (en) Plant operating condition setting support system, learning device, and operating condition setting support device
JP2019206041A5 (en) Information processing equipment, robot control equipment, information processing methods and programs
CN107977748B (en) A Multivariate Warped Time Series Forecasting Method
CN115135463A (en) Prediction model learning method, device and system for industrial system
JP6333160B2 (en) Project evaluation apparatus, project evaluation method, and project evaluation program
JPH05127706A (en) Newer net type simulator
JP6850313B2 (en) Simulation equipment, simulation method and simulation program
CN116700168B (en) Virtual-real synchronization method and system for production line
EP3270339A1 (en) Model based analysis and control of a real-world system
CN118568495A (en) A method and system for constructing a space electromagnetic environment based on LVC virtual-real fusion
JP6947029B2 (en) Control devices, information processing devices that use them, control methods, and computer programs
JP5125754B2 (en) PID controller tuning apparatus, PID controller tuning program, and PID controller tuning method
TW202331567A (en) Computing device, method generating optimal input data and non-transitory storage medium
JP7650161B2 (en) Weather forecasting equipment
CN119662924A (en) A converter smelting parameter optimization design method and system based on digital twin
JP2010146137A (en) Parameter adjustment support device
CN117933029A (en) Anti-seismic I-type equipment support steel platform anti-seismic design method
JP2025510712A (en) An artificial intelligence-based system for implementing proxy models for physics-based simulators.
JP2008117309A (en) Production / distribution schedule creation apparatus and method, production / distribution process control apparatus and method, computer program, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220602

R150 Certificate of patent or registration of utility model

Ref document number: 7084520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250