JP7347147B2 - Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program - Google Patents
Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program Download PDFInfo
- Publication number
- JP7347147B2 JP7347147B2 JP2019208027A JP2019208027A JP7347147B2 JP 7347147 B2 JP7347147 B2 JP 7347147B2 JP 2019208027 A JP2019208027 A JP 2019208027A JP 2019208027 A JP2019208027 A JP 2019208027A JP 7347147 B2 JP7347147 B2 JP 7347147B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- molecular
- molecules
- structural
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 32
- 239000000203 mixture Substances 0.000 claims description 87
- 150000001875 compounds Chemical class 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 66
- 239000000470 constituent Substances 0.000 claims description 59
- 125000004122 cyclic group Chemical group 0.000 claims description 33
- 238000002156 mixing Methods 0.000 claims description 20
- 229920001577 copolymer Polymers 0.000 claims description 5
- 239000000178 monomer Substances 0.000 claims description 5
- 238000000547 structure data Methods 0.000 description 25
- 238000010801 machine learning Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 229920001222 biopolymer Polymers 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- LYCAIKOWRPUZTN-UHFFFAOYSA-N Ethylene glycol Chemical compound OCCO LYCAIKOWRPUZTN-UHFFFAOYSA-N 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- KKEYFWRCBNTPAC-UHFFFAOYSA-N Terephthalic acid Chemical compound OC(=O)C1=CC=C(C(O)=O)C=C1 KKEYFWRCBNTPAC-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- QQONPFPTGQHPMA-UHFFFAOYSA-N propylene Natural products CC=C QQONPFPTGQHPMA-UHFFFAOYSA-N 0.000 description 2
- 125000004805 propylene group Chemical group [H]C([H])([H])C([H])([*:1])C([H])([H])[*:2] 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 125000000383 tetramethylene group Chemical group [H]C([H])([*:1])C([H])([H])C([H])([H])C([H])([H])[*:2] 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012644 addition polymerization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009477 glass transition Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012643 polycondensation polymerization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本開示の一側面は、分子記述子生成システム、分子記述子生成方法、及び分子記述子生成プログラムに関する。 One aspect of the present disclosure relates to a molecular descriptor generation system, a molecular descriptor generation method, and a molecular descriptor generation program.
従来から、分子の構造を所定のフォーマットで取得しそれをベクトル情報に変換して、変換した情報を機械学習アルゴリズム等に入力して特性予測等に利用することが行われている。例えば、生体高分子の立体構造と化合物の立体構造との結合性を機械学習を用いて予測する方法が知られている(下記特許文献1参照)。この方法では、生体高分子の立体構造と化合物の立体構造とに基づいて生体高分子と化合物との複合体の予測立体構造を生成し、その予測立体構造を予測立体構造ベクトルに変換し、機械学習アルゴリズムを用いて、その予測立体構造ベクトルを生体高分子の立体構造と化合物の立体構造との結合性を予測するためのデータとして用いている。
Conventionally, the structure of a molecule is obtained in a predetermined format, converted into vector information, and the converted information is input into a machine learning algorithm or the like to be used for property prediction or the like. For example, a method is known that uses machine learning to predict the bond between the three-dimensional structure of a biopolymer and the three-dimensional structure of a compound (see
近年では、複数種類の構成単位の分子を様々な構成比で合成した化合物の構造をデータで表現することが求められている。しかしながら、上記特許文献1に記載の従来技術では、化合物の立体構造のデータの蓄積が少ない場合には、適切に化合物の分子構造の表現を行うデータを生成することは困難である。そこで、複数種類の構成単位が合成された化合物の分子構造が明らかでない場合であっても、その化合物の分子構造を適切にデータで表現するための仕組みが望まれている。
In recent years, there has been a demand for data representation of the structures of compounds synthesized from molecules of multiple types of constituent units in various composition ratios. However, in the conventional technique described in
本開示の一形態の分子記述子生成システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付け、構造データの示す複数種類の構成単位の分子を構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する分子間を構造データの示す結合点で結合することで繰り返し生成し、繰り返し生成した複数の環状構造体のデータを分子記述化することによって、複数のベクトルに変換し、複数のベクトルを組み合わせることによって、複数種類の構成単位の分子を構成比で含む合成化合物の分子を記述した分子記述データを生成する。 A molecular descriptor generation system according to an embodiment of the present disclosure includes at least one processor, and the at least one processor is configured to generate a molecular descriptor for each molecular structure of a plurality of types of constituent unit molecules and a combination of the molecular structure with an external molecular structure. Accepts at least input of structural data representing a point and composition ratio data representing the composition ratio of molecules of multiple types of constitutional units, and includes molecules of multiple types of constitutional units indicated by the structural data at the composition ratio indicated by the composition ratio data. Data for a cyclic structure with a predetermined number of structural units is repeatedly generated by randomly arranging molecules of multiple types of structural units in a ring, and then bonding adjacent molecules at bonding points indicated by the structural data. By converting the repeatedly generated data of multiple cyclic structures into molecular descriptions, converting them into multiple vectors, and combining the multiple vectors, we can create molecules of synthetic compounds containing molecules of multiple types of constituent units in the composition ratio. Generate written molecular description data.
あるいは、本開示の他の形態の分子記述子生成方法は、少なくとも1つのプロセッサを備えるコンピュータにより実行される分子記述子生成方法であって、複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付けるステップと、構造データの示す複数種類の構成単位の分子を構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する分子間を構造データの示す結合点で結合することで繰り返し生成するステップと、繰り返し生成した複数の環状構造体のデータを分子記述化することによって、複数のベクトルに変換するステップと、複数のベクトルを組み合わせることによって、複数種類の構成単位の分子を構成比で含む合成化合物の分子を記述した分子記述データを生成するステップと、を備える。 Alternatively, a molecular descriptor generation method according to another aspect of the present disclosure is a molecular descriptor generation method executed by a computer including at least one processor, which comprises a step of receiving at least input of structural data representing bonding points with external molecular structures in the molecular structure and composition ratio data representing the composition ratio of the molecules of the plurality of types of structural units; and a step of receiving inputs of the plurality of types of structural units indicated by the structural data. The data of a cyclic structure with a predetermined number of structural units containing molecules in the composition ratio indicated by the composition ratio data are obtained by randomly arranging molecules of multiple types of constituent units in a ring, and then dividing the adjacent molecules between adjacent molecules according to the structural data. A step of repeatedly generating multiple cyclic structures by combining them at the bonding points shown, a step of converting the data of the repeatedly generated multiple cyclic structures into multiple vectors by converting them into molecular descriptions, and a step of converting the multiple vectors into multiple vectors by combining the multiple vectors. The method includes the step of generating molecule description data describing molecules of a synthetic compound containing molecules of different types of constituent units in a composition ratio.
あるいは、本開示の他の形態の分子記述子生成プログラムは、コンピュータに、複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付けるステップと、構造データの示す複数種類の構成単位の分子を構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する分子間を構造データの示す結合点で結合することで繰り返し生成するステップと、繰り返し生成した複数の環状構造体のデータを分子記述化することによって、複数のベクトルに変換するステップと、複数のベクトルを組み合わせることによって、複数種類の構成単位の分子を構成比で含む合成化合物の分子を記述した分子記述データを生成するステップと、を実行させる。 Alternatively, a molecular descriptor generation program according to another embodiment of the present disclosure may provide a computer with structural data representing the molecular structures of molecules of multiple types of constituent units and bonding points with external molecular structures in the molecular structures; a step of receiving at least an input of composition ratio data representing the composition ratio of molecules of the plurality of types of structural units; and a predetermined number of constituent units containing molecules of the plurality of types of composition units indicated by the structural data at the composition ratio indicated by the composition ratio data. The data of a cyclic structure is repeatedly generated by randomly arranging molecules of multiple types of constituent units in a ring, and then bonding adjacent molecules at bonding points indicated by the structural data. By converting the data of multiple cyclic structures into molecular descriptions into multiple vectors, and by combining the multiple vectors, we describe the molecules of synthetic compounds containing molecules of multiple types of constituent units in the composition ratio. and generating molecular description data.
本開示の側面によれば、複数種類の構成単位が合成された合成化合物の分子構造を適切にデータで表現することができる。 According to the aspect of the present disclosure, the molecular structure of a synthetic compound in which multiple types of structural units are synthesized can be appropriately expressed as data.
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description, the same elements or elements having the same function will be denoted by the same reference numerals, and redundant description will be omitted.
[システムの概要]
実施形態に係る分子記述子生成システム10は、複数種類の構成単位の分子である構成単位分子が様々な構成比で合成されることにより生成される合成化合物の分子構造を記述する分子記述子(分子記述データ)の生成処理を実行するコンピュータシステムである。構成単位分子は、合成化合物を合成するために用いられる材料を構成する分子のことをいい、例えば、単重体であるモノマーである。合成化合物とは、複数種類の構成単位分子を所定の構成比で合成することによって生成される化学物質であり、例えば、構成単位分子がモノマーの場合は複数種類のモノマーが連結して形成されるコポリマーである。なお、好ましくは、本実施形態の分子記述子生成システム10の分子記述子の生成処理の対象とする合成化合物は、複数種類の構成単位分子が直鎖状に連結されて構成される直鎖構造の化合物である。
[System overview]
The molecular descriptor generation system 10 according to the embodiment generates molecular descriptors ( This is a computer system that executes the generation process of molecular description data. A constituent unit molecule refers to a molecule that constitutes a material used to synthesize a synthetic compound, and is, for example, a monomer that is a single polymer. A synthetic compound is a chemical substance that is produced by synthesizing multiple types of constituent unit molecules in a predetermined composition ratio. For example, if the constituent unit molecules are monomers, they are formed by linking multiple types of monomers. It is a copolymer. Preferably, the synthetic compound to be subjected to the molecular descriptor generation process of the molecular descriptor generation system 10 of the present embodiment has a linear structure in which a plurality of types of constituent unit molecules are connected in a linear chain. It is a compound of
分子記述子生成システム10によって生成された入力データは、機械学習用の入力データとして、合成化合物の特性を予測するために用いられる。合成化合物の特性とは、例えば、ガラス転移温度、弾性率、誘電率、誘電正接、熱膨張係数等である。入力データが入力される機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、機械学習は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習であってよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、機械学習は、グラフニューラルネットワーク(GNN)、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、アテンションRNN(Attention RNN)、およびマルチヘッド・アテンション(Multi-Head Attention)、ランダムフォレスト、サポートベクタ―マシン、重回帰のうちの少なくとも一つを用いたものである。 Input data generated by the molecular descriptor generation system 10 is used as input data for machine learning to predict properties of synthetic compounds. The properties of the synthetic compound include, for example, glass transition temperature, elastic modulus, dielectric constant, dielectric loss tangent, thermal expansion coefficient, and the like. Machine learning, in which input data is input, is a method of autonomously finding laws or rules by iteratively learning based on given information. The specific method of machine learning is not limited. For example, machine learning may be machine learning using a machine learning model that is a calculation model including a neural network. A neural network is an information processing model that mimics the structure of the human nervous system. As more specific examples, machine learning includes graph neural networks (GNN), convolutional neural networks (CNN), recurrent neural networks (RNN), attention RNNs, and multi-head attention (Multi-Head Attention). ), random forest, support vector machine, and multiple regression.
[システムの構成]
分子記述子生成システム10は1台以上のコンピュータで構成される。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの分子記述子生成システム10が構築される。
[System configuration]
The molecular descriptor generation system 10 is composed of one or more computers. When a plurality of computers are used, one logical molecular descriptor generation system 10 is constructed by connecting these computers via a communication network such as the Internet or an intranet.
図1は、分子記述子生成システム10を構成するコンピュータ100の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ100は、オペレーティングシステム、アプリケーション・プログラム等を実行するプロセッサ(例えばCPU)101と、ROMおよびRAMで構成される主記憶部102と、ハードディスク、フラッシュメモリ等で構成される補助記憶部103と、ネットワークカードまたは無線通信モジュールで構成される通信制御部104と、キーボード、マウス、タッチパネル等の入力装置105と、モニタ、タッチパネルディスプレイ等の出力装置106とを備える。
FIG. 1 is a diagram showing an example of a general hardware configuration of a
分子記述子生成システム10の各機能要素は、プロセッサ101または主記憶部102の上に予め定められたプログラムを読み込ませてプロセッサ101にそのプログラムを実行させることで実現される。プロセッサ101はそのプログラムに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。
Each functional element of the molecular descriptor generation system 10 is realized by loading a predetermined program into the
図2は分子記述子生成システム10の機能構成の一例を示す図である。分子記述子生成システム10は機能要素として取得部11、データ生成部12、ベクトル変換部13、ベクトル合成部14、および重み付け加算部15を備える。
FIG. 2 is a diagram showing an example of the functional configuration of the molecular descriptor generation system 10. The molecular descriptor generation system 10 includes an
取得部11は、複数種類の構成単位分子の構造データ、及びこれらの複数種類の構成単位分子を合成して合成化合物を生成することを想定した場合のそれぞれの複数種類の構成単位分子の構成比を表す構成比データとの入力を受け付ける機能要素である。取得部11は、これらのデータを分子記述子生成システム10内のデータベースから分子記述子生成システム10のユーザによる選択入力に応じて取得してもよいし、外部のコンピュータ等からユーザによる選択に応じて取得してもよい。
The
具体的には、取得部11は、複数種類の構成単位分子の分子構造を特定する構造データを、特定のデータフォーマットで取得する。この特定のデータフォーマットは、分子構造を表現できるフォーマットであれば特定のものには限定されないが、分子構造を画像化したJPEG、GIF等の画像形式であってもよいし、分子構造を文字列、座標等の組み合わせで表すデータ形式であってもよいし、分子構造をノード及びエッジで表現した無向グラフの構造を、数字、英字、テキスト、ベクトル等で特定する分子グラフのデータ形式であってもよいし、これらのデータ形式のうちの任意の2以上の組合せのデータであってもよい。分子構造を文字の配列で表わす、一般的にSMILES、InChl、SLNなどといわれる一次元文字表記であってもよい。この特定のデータフォーマットを構成する個々の数値は、十進法で表されてもよいし、二進法、十六進法などの他の表記法によって表されてもよい。ここで、取得部11は、構造データ中に、構成単位分子の分子構造において外部の分子構造と化学的に結合しうる結合点に関するデータを含んで取得する。
Specifically, the
図3には、取得部11が取得する構造データの示す分子構造のイメージを示し、図4及び図5には、取得部11が取得する構造データの示す分子構造の具体例を構造式で示している。図3に示すように、取得部11は、例えば、分子構造“A”を表すデータと、その分子構造“A”における結合点の位置を示すデータ(例えば、その位置を“*”で示すデータ)を含む構造データSD1を取得し、複数種類の構成単位分子の分子構造“B”、“C”、“D”に関して同様な構造データSD2,SD3,SD4を取得する。図4に示す構造データSD5,SD6の分子構造は、構成単位分子がプロピレンおよびブチレンの場合の例である。このように、構成単位分子がプロピレンおよびブチレンの2種類の場合は、複数の構成単位分子が互いに付加重合されることにより高分子化合物(コポリマー)が生成されうるので、両側の2つの炭素原子において結合先が限定されない等価な結合点の位置“*”が示される。図5に示す構造データSD7,SD8の分子構造は、テレフタル酸とエチレングルコールの場合の例である。この例では、複数の構成単位分子が互いに縮合重合されることにより高分子化合物(コポリマー)が生成されうるので、それぞれの2種類の分子の両端において結合先が限定される不等価な結合点の位置“*1”,“*2”が示される。この表示“*1”,“*2”によって、同じ識別番号を付して示されている結合点どうしは結合せず、異なる識別番号を付されている結合点どうしが結合しうることが示される。
FIG. 3 shows an image of the molecular structure indicated by the structural data obtained by the obtaining
また、取得部11は、上述した複数種類の構造データによって特定される分子構造の構成単位分子に関する構成比データも併せて取得する。このとき、取得部11は、複数種類の構成単位分子の構成比raを表す混合率データとして、それぞれの構成単位分子の構成率自体を示すデータを取得してもよいし、複数の構成単位分子間の構成比を示すデータを取得してもよい。例えば、図3に示す分子構造の構造データを取得した場合には、分子構造“A”の構成率ra1=“0.2”と、分子構造“B”の構成率ra2=“0.3”と、分子構造“C”の構成率ra3=“0.1”と、分子構造“D”の構成率ra4=“0.4”とを取得する。
The
さらに、取得部11は、複数種類の構成単位分子の構造データとそれらの複数種類の構成単位分子の構成比を表す構成比データとの組み合わせを、それらの複数種類の構成単位分子から合成される合成化合物ごとに複数取得し、それらの組み合わせに対応する複数種類の合成化合物の混合率を表す混合率データをさらに取得する。これにより、後述した機能を用いることで、複数種類の合成化合物を混合率データで示される混合率で混合した混合物の分子構造を記述する分子記述データを生成することができる。このとき、取得部11は、複数種類の合成化合物の混合率rbを表す混合率データとして、それぞれの合成化合物の混合率自体を示すデータを取得してもよいし、複数の合成化合物間の混合比を示すデータを取得してもよい。
Further, the
データ生成部12は、構造データと構成比データとの組み合わせを参照して、それぞれの組み合わせに対応する合成化合物の分子構造を特定する構造データを生成する。すなわち、データ生成部12は、構造データとして、環状構造体データと直鎖構造体データとを生成する。
The
具体的には、データ生成部12は、構造データの示す複数種類の構成単位分子を構成比データの示す構成比で含む所定の構成単位数の環状構造体の構造データを構築する。例えば、図3に示すような構成単位分子“A”、“B”,“C”、“D”に関してそれらの構成率が“0.2”、“0.3”、“0.1”、“0.4”と指定されている場合には、4種類の構成単位分子“A”、“B”,“C”、“D”が、指定された構成率“0.2”、“0.3”、“0.1”、“0.4”に対応する個数となるようにランダムに選択されて合計で所定の構成単位数(例えば、200個)となるように環状に配列される。構成単位数は、少なくとも比率が表現できる最小数以上である必要がある。例えば、構成単位分子“A”の構成率が0.1,構成単位分子“B”の構成率が0.001の場合には、構成単位数は101個以上とされる。その上で、環状構造体において、隣接する構成単位分子間が構造データの示す結合点で結合された分子構造となるように、それぞれの構成単位分子の配向が調整された構造データが生成される。この際、データ生成部12は、構造データによって構成単位分子が不等価な結合点を有することが示されている場合には、その結合点を、隣接する構成単位分子における異なる識別番号が付されている結合点と結合させるように、環状構造体における分子配列あるいは分子配向を微調整する。
Specifically, the
また、データ生成部12は、構造データの示す複数種類の構成単位分子を構成比データの示す構成比で含む所定の構成単位数の直鎖構造体の構造データを構築する。例えば、図3に示すような構成単位分子“A”、“B”,“C”、“D”に関してそれらの構成率が“0.2”、“0.3”、“0.1”、“0.4”と指定されている場合には、4種類の構成単位分子“A”、“B”,“C”、“D”が、指定された構成率“0.2”、“0.3”、“0.1”、“0.4”に対応する個数となるようにランダムに選択されて合計で所定の構成単位数(例えば、20,000個)となるように直列(直鎖状)に配列される。この所定の構成単位数は、直鎖構造体における分子末端の濃度(全体の構成単位数に対する未結合の結合点の割合)が所定値(例えば、0.01%)以下となるように予め設定されている。その上で、直鎖構造体において、隣接する構成単位分子間が構造データの示す結合点で結合された分子構造となるように、それぞれの構成単位分子の配向が調整された構造データが生成される。この際、データ生成部12は、構造データによって構成単位分子が不等価な結合点を有することが示されている場合には、その結合点を、隣接する構成単位分子における異なる識別番号が付されている結合点と結合させるように、直鎖構造体における分子配列あるいは分子配向を微調整する。
Further, the
そして、データ生成部12は、構造データと構成比データとの組み合わせに対応する合成化合物に関する環状構造体データ及び直鎖構造体データの生成を、所定回数(例えば、それぞれ100回)繰り返し、複数通りの環状構造体データおよび複数通りの直鎖構造体データを生成する。図6には、図3に示すような構成単位分子“A”、“B”,“C”、“D”に関してそれらの構成率が“0.2”、“0.3”、“0.1”、“0.4”と指定されている場合に生成される環状構造体データSDrによって特定される分子構造のイメージを示し、図7には、同様の場合に生成される直鎖構造体データSDsによって特定される分子構造のイメージを示している。さらに、データ生成部12は、複数通りの環状構造体データおよび複数通りの直鎖構造体データの生成を、取得部11が取得した構造データと構成比データとの組み合わせに対応する合成化合物ごとに繰り返す。
Then, the
ベクトル変換部13は、データ生成部12が生成した合成化合物ごとの複数通りの環状構造体データ及び直鎖構造体データを、それぞれ、分子記述化することによって一次元のベクトルVr,Vsに変換する(図6、図7)。分子記述化によって、構造データの示す分子の特徴をその化学構造に基づいて数値列として表わすことができる。この分子記述化の方式としては、分子構造をベクトル化する手法であれば任意の方式が採用できるが、例えば、ECFP(Extended Connectivity FingerPrints)、MACCS FingerPrints、PubChem FingerPrints、Substructure FingerPrints、Estate FingerPrints、BCI FingerPrints、Molprint2D FingerPrints、Pass base FingerPrints等が採用できる。
The
ベクトル合成部14は、構造データと構成比データとの組み合わせに対応する合成化合物に関する複数の環状構造体データから変換された複数のベクトルVrを組み合わせることによって、その合成化合物の分子を数値列で記述した分子記述データMDrを生成する。すなわち、ベクトル合成部14は、合成化合物に対応して生成された複数のベクトルVrの各要素を加算してから、加算した各要素を複数の環状構造体における合計の分子量あるいは合計の構成要素分子数で除算することによって、合成化合物に対応する分子記述データMDrを生成する。例えば、分子量が42.08と56.11の2種類の構成要素分子を構成比1対1で配列して、合計構成要素数200個の環状構造体のデータを生成し、これを100回繰り返す場合には、加算した各要素を、合計分子量=420,800+561,100=981,900、あるいは合計要素数=20,000で除算する。同様にして、合成化合物に関する複数の直鎖構造体データから変換された複数のベクトルVsを組み合わせることによって、その合成化合物の分子を数値列で記述した分子記述データMDsを生成する。すなわち、ベクトル合成部14は、合成化合物に対応して生成された複数のベクトルVsの各要素を加算してから、加算した各要素を複数の直鎖構造体における合計の分子量あるいは合計の構成要素分子数で除算することによって、合成化合物に対応する分子記述データMDsを生成する。
The
そして、ベクトル合成部14は、2つの分子記述データMDr,MDsの作成を、取得部11が取得した構造データと構成比データとの組み合わせに対応する合成化合物ごとに繰り返す。
Then, the
重み付け加算部15は、ベクトル合成部14によって生成された複数種類の合成化合物ごとの分子記述データMDrを重み付け加算することによって、複数種類の合成化合物を混合率データで示される混合率で混合した混合材料の化学構造の特徴を示す最終的な分子記述データMDr’を生成する。すなわち、重み付け加算部15は、複数の分子記述データMDrのベクトルの各要素を、それぞれの分子記述データMDrによって記述される合成化合物の混合率で重み付けして加算することにより、分子記述データMDr’を生成する。同様にして、ベクトル合成部14によって生成された複数種類の合成化合物ごとの分子記述データMDsを重み付け加算することによって、複数種類の合成化合物を混合率データで示される混合率で混合した混合材料の化学構造の特徴を示す最終的な分子記述データMDs’を生成する。すなわち、重み付け加算部15は、複数の分子記述データMDsのベクトルの各要素を、それぞれの分子記述データMDsによって記述される合成化合物の混合率で重み付けして加算することにより、分子記述データMDs’を生成する。
The
さらに、重み付け加算部15は、生成した分子記述データMDr’,MDs’を外部に出力する。出力された分子記述データMDr’,MDs’は、分子記述子生成システム10の外部に接続されたコンピュータ内のトレーニング部20によって入力データとして読み込まれる。そして、トレーニング部20において、その入力データが説明変数として任意の教師ラベルとともに機械学習モデルに入力されることにより、学習済みモデルが生成される。さらに、トレーニング部20によって生成された学習済みモデルを基に予測器30内の機械学習モデルが設定される。そして、分子記述子生成システム10によって生成された分子記述データMDr’,MDs’が予測器30内の機械学習モデルに入力されることによって、予測器30によって混合材料の特性の予測結果が生成および出力される。なお、これらのトレーニング部20および予測器30は、分子記述子生成システム10を構成するコンピュータ100と同一のコンピュータ内に構成されてもよいし、コンピュータ100と別体のコンピュータ内に構成されてもよい。
Furthermore, the
一例では、トレーニング部20の生成する機械学習モデルは、推定精度が最も高いと期待される学習済みモデルであり、したがって「最良の機械学習モデル」ということができる。しかし、この学習済みモデルは“現実に最良である”とは限らないことに留意されたい。学習済みモデルは、入力データと出力データとの多数の組合せを含む教師データをコンピュータが処理することで生成される。コンピュータは、入力データを機械学習モデルに入力することで出力データを算出し、算出された出力データと、教師データで示される出力データとの誤差(すなわち、推定結果と正解との差)を求める。そして、コンピュータはその誤差に基づいて機械学習モデル内の所与のパラメータを更新する。コンピュータはこのような学習を繰り返すことで学習済みモデルを生成する。学習済みモデルを生成する処理は学習フェーズということができ、その学習済みモデルを利用する予測器30の処理は運用フェーズということができる。
In one example, the machine learning model generated by the
[システムの動作]
図8を参照しながら、分子記述子生成システム10の動作を説明するとともに本実施形態に係る分子記述子生成方法について説明する。図8は分子記述子生成システム10の動作の一例を示すフローチャート、図9、図10、図11は、分子記述子生成システム10によって生成される各ベクトルの数値例を示す図である。
[System operation]
With reference to FIG. 8, the operation of the molecular descriptor generation system 10 will be explained, and the molecular descriptor generation method according to this embodiment will be explained. FIG. 8 is a flowchart showing an example of the operation of the molecular descriptor generation system 10, and FIGS. 9, 10, and 11 are diagrams showing numerical examples of each vector generated by the molecular descriptor generation system 10.
まず、分子記述子生成システム10のユーザの指示入力を契機に分子記述子生成処理が開始されると、取得部11によって、複数種類の合成化合物それぞれについての構造データと構成比データとの複数の組み合わせ、及び複数種類の合成化合物の混合率に関する混合率データが取得される(ステップS1)。その後、データ生成部12によって、上記の構造データと構成比データの組み合わせに対して、複数通りの環状構造体データ及び複数通りの直鎖構造体データが生成される(ステップS2)。
First, when molecular descriptor generation processing is started in response to an instruction input by a user of the molecular descriptor generation system 10, the
次に、ベクトル変換部13によって、複数通りの環状構造体データ及び複数通りの直鎖構造体データが、それぞれ、分子記述化によりベクトルVr,Vsに変換される(ステップS3)。図9及び図10は、図4に示す2つの分子構造を特定する構造データと構成比1:1を示す構成比データとの組み合わせを対象に生成されたベクトルVr,Vsの数値例を示す。
Next, the
さらに、ベクトル合成部14により、複数通りの環状構造体データから変換された複数のベクトルVrが組み合わされて分子記述データMDrが生成され、複数通りの直鎖構造体データから変換された複数のベクトルVsが組み合わされて分子記述データMDsが生成される(ステップS4)。図11は、ベクトル合成部14によって生成された一次元ベクトルである分子記述データMDrの数値例を示す。
Furthermore, the
その後、上述したステップS2~S4の処理が、取得部11が取得した構造データと構成比データの組み合わせに対して繰り返される結果、複数種類の合成化合物に対応して、分子記述データMDrと分子記述データMDsの複数の組み合わせが生成される(ステップS5)。そして、重み付け加算部15によって、複数種類の合成化合物に対応する分子記述データMDr,MDsのそれぞれが、混合率データの示す混合率で重み付け加算されることにより、最終的な分子記述データMDr’,MDs’が入力データとして生成される(ステップS6)。
Thereafter, the processes of steps S2 to S4 described above are repeated for the combination of the structural data and the composition ratio data acquired by the
次に、トレーニング部20において、学習フェーズが実行され、入力データと教師データとを用いてトレーニングを繰り返すことで学習済みモデルが生成される(ステップS7)。そして、生成された学習済みモデルが予測器30に設定され、予測器30により、新たに分子記述子生成システム10から取得される入力データを用いて運用フェーズが実行され、混合材料の特性の予測結果が生成および出力される(ステップS8)。
Next, in the
[プログラム]
コンピュータまたはコンピュータシステムを分子記述子生成システム10として機能させるための分子記述子生成プログラムは、該コンピュータシステムを取得部11、データ生成部12、ベクトル変換部13、ベクトル合成部14、および重み付け加算部15として機能させるためのプログラムコードを含む。この分子記述子生成プログラムは、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、分子記述子生成プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された分子記述子生成プログラムは例えば補助記憶部103に記憶される。プロセッサ101が補助記憶部103からその分子記述子生成プログラムを読み出して実行することで、上記の各機能要素が実現する。
[program]
A molecular descriptor generation program for causing a computer or a computer system to function as the molecular descriptor generation system 10 includes an
[効果]
以上説明したように、上記実施形態によれば、複数種類の構成単位分子を予め指定された構成比で含む所定の構成単位数の環状構造体のデータが、構成単位分子をランダムに配列した上で隣接する分子間が予め指定された結合点で結合された構造のデータとして生成される。このようなデータは複数種類の構成単位分子をその構成比で含む合成化合物の構造を代表するものとなる。そして、繰り返し生成された複数の環状構造体のデータが複数のベクトルに変換され、それらの複数のベクトルが組み合わされることにより、合成化合物の分子構造を適切に表現した分子記述データが生成される。これにより、複数種類の構成単位が合成された化合物の分子構造が明らかでない場合であっても、その化合物の分子構造を適切にデータで表現することができる。特に、このような機能により、反応末端の割合が少ない分子構造のデータを少ない構成単位数で効率的に生成できるので、分子記述データの生成の際の処理負荷を軽減することもできる。また、環状構造体のデータを用いることで直鎖構造の合成化合物の分子構造をより適切に表現したデータを生成することができる。加えて、構成単位分子をモノマーとして設定した場合には、合成化合物であるコポリマーの分子構造をより適切に表現したデータを生成することができる。
[effect]
As explained above, according to the above embodiment, data of a cyclic structure having a predetermined number of structural units including a plurality of types of structural unit molecules in a prespecified composition ratio are obtained by randomly arranging the structural unit molecules. is generated as structural data in which adjacent molecules are bonded at prespecified bonding points. Such data represents the structure of a synthetic compound containing multiple types of constituent unit molecules in their composition ratios. Then, the repeatedly generated data of the plurality of cyclic structures is converted into a plurality of vectors, and the plurality of vectors are combined to generate molecular description data that appropriately expresses the molecular structure of the synthetic compound. As a result, even if the molecular structure of a compound synthesized from multiple types of structural units is not clear, the molecular structure of the compound can be appropriately expressed as data. In particular, with such a function, it is possible to efficiently generate molecular structure data with a small proportion of reactive terminals using a small number of structural units, and therefore it is also possible to reduce the processing load when generating molecular description data. Further, by using data on a cyclic structure, it is possible to generate data that more appropriately represents the molecular structure of a synthetic compound having a linear structure. In addition, when the constituent unit molecules are set as monomers, it is possible to generate data that more appropriately represents the molecular structure of the copolymer, which is a synthetic compound.
また、上記実施形態では、分子記述データMDrを生成する際に、複数のベクトルVrの要素を加算した後、その要素を複数の環状構造体における合計の分子量あるいは合計の構成単位の分子の数で除算している。こうすれば、ランダムに生成した複数の環状構造体の分子構造を用いて、それらの分子構造の大小の影響を受けずに、1つの合成化合物の分子を表現するデータを生成することができる。 Furthermore, in the above embodiment, when generating the molecular description data MDr, after adding the elements of a plurality of vectors Vr, the elements are expressed as the total molecular weight or the total number of constituent unit molecules in the plurality of cyclic structures. It is dividing. In this way, data expressing the molecule of one synthetic compound can be generated using the molecular structures of a plurality of randomly generated cyclic structures without being influenced by the size of the molecular structures.
さらに、上記実施形態によれば、複数種類の構成単位分子を予め指定された構成比で含む所定の構成単位数の直鎖構造体のデータが、構成単位分子をランダムに配列した上で隣接する分子間が予め指定された結合点で結合された構造のデータとして生成される。このようなデータも複数種類の構成単位分子をその構成比で含む合成化合物の構造を代表するものとなる。そして、繰り返し生成された複数の直鎖構造体のデータが複数のベクトルVsに変換され、それらの複数のベクトルVsがさらに組み合わされることにより、合成化合物の分子構造を適切に表現した分子記述データMDsが生成される。これにより、合成化合物の分子構造が明らかでない場合であっても、その合成化合物の分子構造を適切にデータで表現することができる。特に、合成化合物の構造が直鎖構造であることが多い場合に、その合成化合物の分子構造をより適切にデータで表現することができる。 Further, according to the above embodiment, data of a linear structure having a predetermined number of constituent units including multiple types of constituent unit molecules at a prespecified composition ratio are arranged in such a manner that the constituent unit molecules are randomly arranged and then adjacent to each other. It is generated as data of a structure in which molecules are bonded at prespecified bonding points. Such data also represent the structure of a synthetic compound containing multiple types of constituent unit molecules in their composition ratios. Then, the data of multiple linear structures that are repeatedly generated are converted into multiple vectors Vs, and these multiple vectors Vs are further combined to create molecular description data MDs that appropriately expresses the molecular structure of the synthetic compound. is generated. Thereby, even if the molecular structure of a synthetic compound is not clear, the molecular structure of the synthetic compound can be appropriately expressed as data. In particular, when the structure of a synthetic compound is often a linear structure, the molecular structure of the synthetic compound can be expressed more appropriately with data.
また、上記実施形態では、分子記述データMDsを生成する際に、複数のベクトルVsの要素を加算した後、その要素を複数の直鎖構造体における合計の分子量あるいは合計の構成単位の分子の数で除算している。このような構成の場合、ランダムに生成した複数の直鎖構造体の分子構造を用いて、それらの分子構造の大小の影響を受けずに、1つの合成化合物の分子を表現するデータを生成することができる。 In addition, in the above embodiment, when generating the molecular description data MDs, after adding the elements of a plurality of vectors Vs, the elements are calculated as It is divided by In such a configuration, the molecular structures of multiple randomly generated linear structures are used to generate data representing the molecule of one synthetic compound without being influenced by the size of those molecular structures. be able to.
また、上記実施形態では、複数種類の合成化合物に対して生成した分子記述データMDr,MDsを混合率データの示す混合率で重み付けしたベクトルである分子記述データMDr’,MDs’がさらに生成されている。かかる構成を採れば、複数種類の合成化合物を混合した混合物の分子を表現するベクトルを適切に生成することができる。 Further, in the above embodiment, molecular description data MDr', MDs', which is a vector obtained by weighting the molecular description data MDr, MDs generated for multiple types of synthetic compounds by the mixture ratio indicated by the mixture ratio data, is further generated. There is. If such a configuration is adopted, it is possible to appropriately generate a vector representing a molecule of a mixture of a plurality of types of synthetic compounds.
[変形例]
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
[Modified example]
The present invention has been described above in detail based on the embodiments thereof. However, the present invention is not limited to the above embodiments. The present invention can be modified in various ways without departing from the gist thereof.
上記実施形態では、分子記述子生成システム10が生成した分子記述データを、機械学習用の入力データとして用いていたが、分子記述データの用途は他の用途であってもよい。例えば、合成化合物あるいはそれらの混合物の構造、物性等を検索するための検索処理用の用途であってもよい。 In the above embodiment, the molecular description data generated by the molecular descriptor generation system 10 is used as input data for machine learning, but the molecular description data may be used for other purposes. For example, it may be used for search processing to search for structures, physical properties, etc. of synthetic compounds or mixtures thereof.
また、上記実施形態では、分子記述データMDr,MDsを混合率データの示す混合率で重み付けしたベクトルである分子記述データMDr’,MDs’を最終のデータとして生成および出力していたが、分子記述データMDr,MDsを最終的な出力としてもよい。また、2つの分子記述データMDr、MDsを組み合わせたベクトルを最終的な出力としてもよい。 Further, in the above embodiment, the molecular description data MDr', MDs', which is a vector weighted by the mixture ratio indicated by the mixture ratio data, is generated and outputted as the final data. The data MDr and MDs may be used as the final output. Alternatively, a vector combining the two molecular description data MDr and MDs may be used as the final output.
少なくとも一つのプロセッサにより実行される分子記述子生成方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。例えばステップS7,S8の処理が省略されてもよい。 The processing procedure of the molecular descriptor generation method executed by at least one processor is not limited to the example in the above embodiment. For example, some of the steps (processes) described above may be omitted, or each step may be executed in a different order. Furthermore, any two or more of the steps described above may be combined, or some of the steps may be modified or deleted. Alternatively, other steps may be performed in addition to each of the above steps. For example, the processes in steps S7 and S8 may be omitted.
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理の実行主体(すなわちプロセッサ)が途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。 In this disclosure, the expression "at least one processor executes a first process, executes a second process, ... executes an n-th process" or an expression corresponding to this The concept includes a case where the executing entity (that is, the processor) of n processes from the first process to the nth process changes midway. That is, this expression indicates a concept that includes both a case in which all of the n processes are executed by the same processor, and a case in which the processors in the n processes are changed according to an arbitrary policy.
10…分子記述子生成システム、100…コンピュータ、101…プロセッサ、11…取得部、12…データ生成部、13…ベクトル変換部、14…ベクトル合成部、15…重み付け加算部、20…トレーニング部、30…予測器、SD1~SD8…構造データ、SDr…環状構造体データ、SDs…直鎖構造体データ、Vr,Vs…ベクトル。 DESCRIPTION OF SYMBOLS 10... Molecular descriptor generation system, 100... Computer, 101... Processor, 11... Acquisition unit, 12... Data generation unit, 13... Vector conversion unit, 14... Vector synthesis unit, 15... Weighted addition unit, 20... Training unit, 30...Predictor, SD1 to SD8 ...structural data, SDr...cyclic structure data, SDs...linear structure data, Vr, Vs...vector.
Claims (9)
前記少なくとも1つのプロセッサが、
複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、前記複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付け、
前記構造データの示す前記複数種類の構成単位の分子を前記構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、前記複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する前記分子間を前記構造データの示す前記結合点で結合することで繰り返し生成し、
繰り返し生成した複数の前記環状構造体のデータを分子記述化することによって、複数のベクトルに変換し、
前記複数のベクトルを組み合わせることによって、前記複数種類の構成単位の分子を前記構成比で含む合成化合物の分子を記述した分子記述データを生成する、
分子記述子生成システム。 comprising at least one processor;
the at least one processor,
Inputting structural data representing the molecular structures of molecules of multiple types of structural units and bonding points with external molecular structures in the molecular structures, and composition ratio data representing the composition ratios of the molecules of the multiple types of structural units. At least accept
Data of a cyclic structure having a predetermined number of structural units containing molecules of the plurality of types of structural units indicated by the structural data at the composition ratio indicated by the composition ratio data are obtained by randomly forming molecules of the plurality of types of constituent units into a ring shape. After arranging, repeatedly generate by bonding adjacent molecules at the bonding point indicated by the structural data,
By converting the repeatedly generated data of the plurality of cyclic structures into a plurality of vectors by molecular description,
generating molecular description data describing molecules of a synthetic compound containing molecules of the plurality of types of structural units in the composition ratio by combining the plurality of vectors;
Molecular descriptor generation system.
請求項1記載の分子記述子生成システム。 The synthetic compound is a compound with a linear structure,
The molecular descriptor generation system according to claim 1.
合成化合物は、コポリマーである、
請求項1又は2に記載の分子記述子生成システム。 The molecules of the plurality of types of structural units are monomers,
The synthetic compound is a copolymer,
The molecular descriptor generation system according to claim 1 or 2.
前記複数のベクトルの要素を加算した後、前記要素を複数の前記環状構造体における合計の分子量あるいは合計の前記構成単位の分子の数で除算することにより、前記分子記述データを生成する、
請求項1~3のいずれか1項に記載の分子記述子生成システム。 The at least one processor includes:
After adding the elements of the plurality of vectors, the element is divided by the total molecular weight in the plurality of cyclic structures or the total number of molecules of the structural unit, thereby generating the molecule description data.
The molecular descriptor generation system according to any one of claims 1 to 3.
前記構造データの示す前記複数種類の構成単位の分子を前記構成比データの示す構成比で含む所定の構成単位数の直鎖構造体のデータを、前記複数種類の構成単位の分子をランダムに直列に配列した上で、隣接する前記分子間を前記構造データの示す前記結合点で結合することで繰り返し生成し、
繰り返し生成した複数の前記直鎖構造体のデータを分子記述化することによって、複数の追加のベクトルに変換し、
前記複数の追加のベクトルをさらに組み合わせることによって、前記分子記述データを生成する、
請求項1~4のいずれか1項に記載の分子記述子生成システム。 The at least one processor includes:
The data of a linear structure having a predetermined number of structural units containing molecules of the plurality of types of structural units indicated by the structural data at the composition ratio indicated by the composition ratio data are obtained by randomly arranging the molecules of the plurality of constituent units in series. and then repeatedly generate by bonding adjacent molecules at the bonding points indicated by the structural data,
Converting data of the plurality of linear structures repeatedly generated into a plurality of additional vectors by molecular description,
generating the molecular description data by further combining the plurality of additional vectors;
The molecular descriptor generation system according to any one of claims 1 to 4.
前記複数の追加のベクトルの要素を加算した後、前記要素を複数の前記直鎖構造体における合計の分子量あるいは合計の前記構成単位の分子の数で除算することにより、前記分子記述データを生成する、
請求項5に記載の分子記述子生成システム。 The at least one processor includes:
generating the molecular description data by adding the elements of the plurality of additional vectors and then dividing the element by the total molecular weight in the plurality of linear structures or the total number of molecules of the building blocks; ,
The molecular descriptor generation system according to claim 5.
複数種類の合成化合物の混合率を表す混合率データをさらに受け付け、
前記複数種類の合成化合物に対して生成した前記分子記述データを前記混合率データの示す混合率で重み付けしたベクトルをさらに生成する、
請求項1~6のいずれか1項に記載の分子記述子生成システム。 The at least one processor includes:
We further accept mixture ratio data representing the mixture ratio of multiple types of synthetic compounds,
further generating a vector in which the molecular description data generated for the plurality of types of synthetic compounds is weighted by a mixing ratio indicated by the mixing ratio data;
The molecular descriptor generation system according to any one of claims 1 to 6.
複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、前記複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付けるステップと、
前記構造データの示す前記複数種類の構成単位の分子を前記構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、前記複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する前記分子間を前記構造データの示す前記結合点で結合することで繰り返し生成するステップと、
繰り返し生成した複数の前記環状構造体のデータを分子記述化することによって、複数のベクトルに変換するステップと、
前記複数のベクトルを組み合わせることによって、前記複数種類の構成単位の分子を前記構成比で含む合成化合物の分子を記述した分子記述データを生成するステップと、
を備える分子記述子生成方法。 1. A method for generating molecular descriptors performed by a computer comprising at least one processor, the method comprising:
Inputting structural data representing the molecular structures of molecules of multiple types of structural units and bonding points with external molecular structures in the molecular structures, and composition ratio data representing the composition ratios of the molecules of the multiple types of structural units. a step of accepting at least
Data of a cyclic structure having a predetermined number of structural units containing molecules of the plurality of types of structural units indicated by the structural data at the composition ratio indicated by the composition ratio data are obtained by randomly forming molecules of the plurality of types of constituent units into a ring shape. After arranging, repeatedly generating by bonding adjacent molecules at the bonding points indicated by the structural data;
converting the data of the plurality of repeatedly generated annular structures into a plurality of vectors by molecular description;
generating molecular description data describing molecules of a synthetic compound containing molecules of the plurality of types of structural units in the composition ratio by combining the plurality of vectors;
A molecular descriptor generation method comprising:
複数種類の構成単位の分子のそれぞれの分子構造および当該分子構造における外部の分子構造との結合点を表す構造データと、前記複数種類の構成単位の分子の構成比を表す構成比データとの入力を少なくとも受け付けるステップと、
前記構造データの示す前記複数種類の構成単位の分子を前記構成比データの示す構成比で含む所定の構成単位数の環状構造体のデータを、前記複数種類の構成単位の分子をランダムに環状に配列した上で、隣接する前記分子間を前記構造データの示す前記結合点で結合することで繰り返し生成するステップと、
繰り返し生成した複数の前記環状構造体のデータを分子記述化することによって、複数のベクトルに変換するステップと、
前記複数のベクトルを組み合わせることによって、前記複数種類の構成単位の分子を前記構成比で含む合成化合物の分子を記述した分子記述データを生成するステップと、
を実行させる分子記述子生成プログラム。
to the computer,
Inputting structural data representing the molecular structures of molecules of multiple types of structural units and bonding points with external molecular structures in the molecular structures, and composition ratio data representing the composition ratios of the molecules of the multiple types of structural units. a step of accepting at least
Data of a cyclic structure having a predetermined number of structural units containing molecules of the plurality of types of structural units indicated by the structural data at the composition ratio indicated by the composition ratio data are obtained by randomly forming molecules of the plurality of types of constituent units into a ring shape. After arranging, repeatedly generating by bonding adjacent molecules at the bonding points indicated by the structural data;
converting the data of the plurality of repeatedly generated annular structures into a plurality of vectors by molecular description;
generating molecular description data describing molecules of a synthetic compound containing molecules of the plurality of types of structural units in the composition ratio by combining the plurality of vectors;
A molecular descriptor generation program that runs
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019208027A JP7347147B2 (en) | 2019-11-18 | 2019-11-18 | Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019208027A JP7347147B2 (en) | 2019-11-18 | 2019-11-18 | Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021081920A JP2021081920A (en) | 2021-05-27 |
| JP7347147B2 true JP7347147B2 (en) | 2023-09-20 |
Family
ID=75965222
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019208027A Active JP7347147B2 (en) | 2019-11-18 | 2019-11-18 | Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7347147B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7798221B1 (en) * | 2025-04-18 | 2026-01-14 | Dic株式会社 | Physical property prediction method, information processing device, and program |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1997027559A1 (en) * | 1996-01-26 | 1997-07-31 | Patterson David E | Method of creating and searching a molecular virtual library using validated molecular structure descriptors |
-
2019
- 2019-11-18 JP JP2019208027A patent/JP7347147B2/en active Active
Non-Patent Citations (2)
| Title |
|---|
| Marwin H.S. Segler, et al.,Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks,ACS central science [online],2017年12月28日,Vol.4, No.1,Pages.120-131,[検索日:2023年6月28日], <URL:https://doi.org/10.1021/acscentsci.7b00512> |
| Philippe Gantzer, et al.,Inverse-QSPR for de novo Design: A Review,molecular informatics [online],2019年11月04日,Vol.39,Pages.1-21,[検索日:2023年6月28日], <URL:https://doi.org/10.1002/minf.201900087> |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021081920A (en) | 2021-05-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7395974B2 (en) | Input data generation system, input data generation method, and input data generation program | |
| KR20240000515A (en) | Property prediction system, property prediction method, and property prediction program | |
| Basdogan et al. | Machine learning-guided discovery of polymer membranes for CO2 separation with genetic algorithm | |
| WO2021095722A1 (en) | Information processing system, information processing method, and information processing program | |
| JP7347147B2 (en) | Molecular descriptor generation system, molecular descriptor generation method, and molecular descriptor generation program | |
| US20220405049A1 (en) | Information processing system, information processing method, and storage medium | |
| Mann et al. | Exact methods for lattice protein models | |
| CN115151918B (en) | Information processing system, information processing method, and information processing program | |
| KR20230175227A (en) | Property prediction system, property prediction method, and property prediction program | |
| Seixas Feio et al. | Investigating molecular descriptors in cell-penetrating peptides prediction with deep learning: Employing N, O, and hydrophobicity according to the Eisenberg scale | |
| Feio et al. | Investigating molecular descriptors in cell-penetrating peptides prediction with deep learning: Employing N, O, and hydrophobicity according to the Eisenberg scale | |
| Clark et al. | Vector quantization kernels for the classification of protein sequences and structures | |
| Flamm et al. | Generic context-aware group contributions | |
| CN117561574A (en) | Physical property prediction device, physical property prediction method and program | |
| Madain et al. | Computational modeling of proteins based on cellular automata | |
| JP2025030855A (en) | DESIGN ASSISTANCE DEVICE, DESIGN ASSISTANCE METHOD, AND DESIGN ASSISTANCE PROGRAM | |
| CN110147804A (en) | A method for processing unbalanced data, a terminal, and a computer-readable storage medium | |
| Raychaudhury et al. | Information content measures and prediction of physical entropy of organic compounds | |
| Zhang et al. | DLS-SUC: A Precision Prediction Framework for Lysine Succinylation Sites Integrating the Protein Language Model (ESM-2) and Dual Imbalance Strategies | |
| dos Santos Vertis | Identificação e Modelação de Redes de Reações Químicas | |
| WO2025083854A1 (en) | Design support device, design support method, and design support program | |
| Lin et al. | Synthetic sequence design for signal location search |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220922 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230821 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7347147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |