Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7541709B2 - Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device - Google Patents
[go: Go Back, main page]

JP7541709B2 - Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device - Google Patents

Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device Download PDF

Info

Publication number
JP7541709B2
JP7541709B2 JP2020048625A JP2020048625A JP7541709B2 JP 7541709 B2 JP7541709 B2 JP 7541709B2 JP 2020048625 A JP2020048625 A JP 2020048625A JP 2020048625 A JP2020048625 A JP 2020048625A JP 7541709 B2 JP7541709 B2 JP 7541709B2
Authority
JP
Japan
Prior art keywords
amino acid
antibody
acid sequence
information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020048625A
Other languages
Japanese (ja)
Other versions
JP2021145604A (en
Inventor
泰己 上田
桂彦 松本
頌子 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cubicstars
Original Assignee
Cubicstars
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cubicstars filed Critical Cubicstars
Priority to JP2020048625A priority Critical patent/JP7541709B2/en
Publication of JP2021145604A publication Critical patent/JP2021145604A/en
Application granted granted Critical
Publication of JP7541709B2 publication Critical patent/JP7541709B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Peptides Or Proteins (AREA)

Description

本発明は、タンパク質結合部位情報取得装置、タンパク質結合部位情報取得装置の作動方法及びプログラムに関する。 The present invention relates to a protein binding site information acquisition device, a method for operating the protein binding site information acquisition device, and a program.

抗体は、抗原に対する高い特異性と結合能を有するため、基礎研究において免疫染色法、ELISA法及びウェスタンブロット法等に利用される。抗体は、病理診断用組織染色抗体及び抗体医薬品として医療でも幅広く活用されている。抗体を使用する際、抗体の抗原認識能力を最大限に発揮するためには、抗原における抗体結合部位(エピトープ)のアミノ酸配列を把握したうえで、科学的な根拠に基づき最適な反応条件を決定することが重要である。 Antibodies have high specificity and binding ability to antigens, and are therefore used in basic research in immunohistochemistry, ELISA, Western blotting, and other methods. Antibodies are also widely used in medicine as tissue staining antibodies for pathological diagnosis and antibody pharmaceuticals. When using antibodies, in order to maximize their antigen recognition ability, it is important to understand the amino acid sequence of the antibody-binding site (epitope) in the antigen and then determine the optimal reaction conditions based on scientific evidence.

エピトープ解析法としては、X線結晶構造解析及び水素重水素交換質量分析等がある。これらはタンパク構造を保持した十分量の抗原-抗体複合体を得なければならず、時間と費用とを要する。より簡便なエピトープ同定法として、ペプチドアレイを利用したエピトープマッピング解析がある。しかし、エピトープマッピング解析では、構築できるライブラリサイズが約100~1000種類程度と限られてしまうため、抗原タンパク質及びそのアミノ酸配列が既知でなければ採用し難い。 Epitope analysis methods include X-ray crystallography and hydrogen-deuterium exchange mass spectrometry. These require obtaining a sufficient amount of antigen-antibody complex that retains the protein structure, which is time-consuming and expensive. A simpler epitope identification method is epitope mapping analysis using peptide arrays. However, in epitope mapping analysis, the library size that can be constructed is limited to about 100 to 1000 types, making it difficult to employ unless the antigen protein and its amino acid sequence are already known.

400万個以上の市販の抗体が現存する中、上述のエピトープ解析法及びエピトープマッピング解析はこの規模に対応可能なスループットを持ち合わせていない。よって、現状ではほとんどの抗体のエピトープ情報が不明か、タンパク質全長配列又は数十~数百アミノ酸配列までの同定に留まっている。このため、科学的根拠に基づく抗原抗体反応プロトコルが統一化されておらず、同じ抗原に抗体を結合させても、研究室によって染色結果が異なるという問題が生じている。特に病理診断においてこの問題は致命的であり、患者の健康状態を正確に判断できないことが問題視されている。 While there are currently over 4 million commercially available antibodies, the epitope analysis method and epitope mapping analysis described above do not have the throughput to handle this scale. Therefore, at present, the epitope information for most antibodies is unknown, or only the full protein sequence or the sequence of several tens to several hundred amino acids has been identified. As a result, there is no standardized antigen-antibody reaction protocol based on scientific evidence, and even when antibodies are bound to the same antigen, the staining results vary depending on the laboratory. This problem is particularly fatal in pathological diagnosis, and it is problematic that it makes it impossible to accurately determine the health condition of patients.

ペプチドアレイと比較してペプチドセレクション法は、10を超えるライブラリサイズを準備できるため、抗原タンパク質が未知でもエピトープの同定が可能である。ペプチドセレクションとは、ランダム配列を持つDNAライブラリを転写及び翻訳することで構築されたペプチドライブラリから、標的に結合するペプチドだけを獲得し、その配列を同定するシステムである。このシステムの重要な特徴として、獲得するペプチドの遺伝子情報が、細胞、ファージ、リボソーム又はピューロマイシンを介して保存されるという点がある。保存された遺伝情報の転写、翻訳及び標的への結合と回収という一連の流れが繰り返されることにより、標的に強く結合するペプチドの遺伝情報のみに収束する。 Compared to peptide arrays, peptide selection allows for the preparation of library sizes exceeding 10 8 , making it possible to identify epitopes even when antigen proteins are unknown. Peptide selection is a system that acquires only peptides that bind to targets from a peptide library constructed by transcribing and translating a DNA library with random sequences, and identifies their sequences. An important feature of this system is that the genetic information of the peptides acquired is stored via cells, phages, ribosomes, or puromycin. By repeating a series of steps, including transcription, translation, and target binding and recovery of the stored genetic information, the system converges to only the genetic information of peptides that bind strongly to the target.

エピトープ解析法への応用において、ペプチドセレクションは、抗原が完全に未知の場合でも抗体があればエピトープ解析が可能である点、またライブラリサイズの大きさゆえに、得られる結果が単なる配列情報のみならず、収束したアミノ酸配列の量比から、抗原認識にエピトープのどのアミノ酸残基が特に重要か(抗体の認識様式)を知ることができる点で有用である。例えば、非特許文献1には、リボソームディスプレイ法がエピトープのアミノ酸配列の決定に応用できることが記載されている。 In its application to epitope analysis, peptide selection is useful in that epitope analysis is possible if antibodies are available even when the antigen is completely unknown, and because of the large size of the library, the results obtained are not just sequence information, but also that it is possible to determine which amino acid residues in the epitope are particularly important for antigen recognition (antibody recognition mode) from the quantitative ratio of the converged amino acid sequence. For example, Non-Patent Document 1 describes that the ribosome display method can be applied to determining the amino acid sequence of an epitope.

一方、特許文献1には、コンピュータを用いたエピトープ予測方法が開示されている。当該エピトープ予測方法では、学習対象タンパク質と当該学習対象タンパク質から検出されているエピトープとの関係を学習用データとして用いた学習モデルの出力結果に基づいて予測対象であるタンパク質におけるエピトープの候補を取得する。 Meanwhile, Patent Document 1 discloses an epitope prediction method using a computer. In this epitope prediction method, candidates for epitopes in a protein to be predicted are obtained based on the output results of a learning model that uses the relationship between a learning target protein and epitopes detected in the learning target protein as learning data.

特開2019-179356号公報JP 2019-179356 A

LARRY C.MATTHEAKIS、外2名、「An in vitro polysome display system for identifying ligands from very large peptide libraries.」、Proc.Natl.Acad.Sci.USA、1994年、91、p.9022-9026LARRY C. MATTHEAKIS and 2 others, "An in vitro polysome display system for identifying ligands from very large peptide libraries.", Proc. Natl. Acad. Sci. USA, 1994, 91, p. 9022-9026

上記の特許文献1に開示されたエピトープ予測方法では、学習モデルの構築に、抗原ペプチドに関する情報としてタンパク質内におけるペプチドの位置、ペプチドに含まれるアミノ酸配列、各アミノ酸の疎水性指標及びαへリックスに関する情報等のスコア、並びにエピトープであるか否かを示す情報が必要となる。上述のように、ほとんどの抗体のエピトープ情報が不明か、タンパク質全長配列又は数十~数百アミノ酸配列までの同定に留まっている現状に鑑みて、学習用データを十分に収集できず、学習モデルによる予測の精度が高いとは言えない。 In the epitope prediction method disclosed in the above Patent Document 1, in order to construct a learning model, information about the antigen peptide is required, such as the position of the peptide in the protein, the amino acid sequence contained in the peptide, the hydrophobicity index of each amino acid and a score of information about the α-helix, as well as information indicating whether it is an epitope. As described above, in light of the current situation in which the epitope information of most antibodies is unknown or only full-length protein sequences or sequences of tens to hundreds of amino acids have been identified, it is not possible to collect sufficient learning data, and it cannot be said that the accuracy of predictions made by the learning model is high.

本発明は、上記実情に鑑みてなされたものであり、抗原における抗体エピトープのアミノ酸配列に関する情報を高い精度で得ることができるタンパク質結合部位情報取得装置、タンパク質結合部位情報取得装置の作動方法及びプログラムを提供することを目的とする。 The present invention has been made in consideration of the above -mentioned circumstances, and has an object to provide a protein-binding site information acquisition device, and an operating method and program for the protein-binding site information acquisition device, which are capable of obtaining information relating to the amino acid sequence of an antibody epitope in an antigen with high accuracy.

本発明の第1の観点に係るタンパク質結合部位情報取得装置は、
抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、の比較に基づいて、前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する取得部を備える。
The protein binding site information acquisition device according to the first aspect of the present invention comprises:
The apparatus further includes an acquisition unit that acquires information regarding the amino acid sequence of the epitope of the antibody in the antigen based on a comparison between first information indicating a distribution of similarity between a partial sequence of the antigen and a plurality of random amino acid sequences and second information indicating a distribution of similarity between the amino acid sequence of a peptide that binds to the antibody and the partial sequence, the distribution being converged by repeatedly binding peptides generated in correspondence with DNA through transcription and translation from DNA contained in a DNA library having random base sequences to an antibody that binds to the antigen and recovering the peptides together with the DNA.

この場合、前記取得部は、
前記第1の情報が示す前記類似度の分布と前記第2の情報が示す前記類似度の分布との距離を算出し、前記エピトープに対する前記抗体の結合の特異性を評価する、
こととしてもよい。
In this case, the acquisition unit:
calculating a distance between the distribution of similarity indicated by the first information and the distribution of similarity indicated by the second information, and evaluating the binding specificity of the antibody to the epitope ;
This may also be the case.

また、前記取得部は、
前記第1の情報と、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度と、の比較によって選抜したペプチドのアミノ酸配列に基づいて前記エピトープのアミノ酸配列を予測する、
こととしてもよい。
Moreover, the acquisition unit
predicting the amino acid sequence of the epitope based on the amino acid sequence of the peptide selected by comparing the first information with the similarity between the amino acid sequence of the peptide that binds to the antibody and the partial sequence;
This may also be the case.

本発明の第2の観点に係るタンパク質結合部位情報取得装置の作動方法は、
取得部を備えるタンパク質結合部位情報取得装置の作動方法であって、
前記取得部は、
抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、の比較に基づいて、前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する。
A method for operating a protein binding site information acquisition apparatus according to a second aspect of the present invention includes the steps of:
A method for operating a protein binding site information acquisition device including an acquisition unit, comprising:
The acquisition unit is
Information regarding the amino acid sequence of the epitope of the antibody in the antigen is obtained based on a comparison between first information indicating the distribution of similarities between a partial sequence of an antigen and a plurality of random amino acid sequences and second information indicating the distribution of similarities between the amino acid sequences of peptides that bind to the antibody and the partial sequences, the distribution being converged by repeatedly binding peptides generated in correspondence with DNA contained in a DNA library having random base sequences through transcription and translation to an antibody that binds to the antigen and recovering the peptides together with the DNA.

本発明の第3の観点に係るプログラムは、
コンピュータを、
抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報を参照する手段
前記第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、比較する手段
前記比較に基づいて前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する手段、として機能させる。
A program according to a third aspect of the present invention comprises:
Computer,
A means for referring to first information indicating a distribution of similarity between a partial sequence of the antigen and a plurality of random amino acid sequences;
a means for comparing the first information with second information that indicates a distribution of similarity between the amino acid sequences of peptides that bind to the antibody and the partial sequences, the second information being converged by repeatedly binding peptides generated in correspondence with the DNA through transcription and translation from DNA contained in a DNA library having random base sequences to an antibody that binds to the antigen and recovering the peptides together with the DNA;
The antibody functions as a means for obtaining information about the amino acid sequence of the epitope of the antibody in the antigen based on the comparison .

本発明によれば、抗原における抗体エピトープのアミノ酸配列に関する情報を高い精度で得ることができる。 According to the present invention, information regarding the amino acid sequence of an antibody epitope in an antigen can be obtained with high accuracy.

(A)は本発明の実施の形態に係るタンパク質結合部位情報取得装置のハードウエア構成を示すブロック図である。(B)はタンパク質結合部位情報取得装置の機能を示すブロック図である。1A is a block diagram showing a hardware configuration of a protein-binding site information acquisition device according to an embodiment of the present invention, and FIG. 1B is a block diagram showing functions of the protein-binding site information acquisition device. タンパク質に含まれる部分配列と、複数のランダムなアミノ酸配列との間の類似度の算出を示す図である。FIG. 1 shows the calculation of similarity between a partial sequence contained in a protein and multiple random amino acid sequences. 部分配列に対するランダムなアミノ酸配列の類似度の確率の分布を示す図である。FIG. 1 shows the distribution of probabilities of similarity of a random amino acid sequence to a subsequence. 部分配列に対してランダムなアミノ酸配列が所定の類似度以上になる確率を示す図である。FIG. 13 is a diagram showing the probability that a random amino acid sequence will have a predetermined similarity or higher to a partial sequence. タンパク質に含まれるすべての部分配列と、ランダムなアミノ酸配列との間の類似度の算出を示す図である。FIG. 1 shows the calculation of similarity between all partial sequences contained in a protein and a random amino acid sequence. 図4に示す部分配列に対してランダムなアミノ酸配列が所定の類似度以上になる確率の分布とともに、部分配列に対してペプチドセレクションで収束したアミノ酸配列が所定の類似度以上になる確率の分布を示した図である。This figure shows the distribution of the probability that a random amino acid sequence will have a predetermined similarity or higher to the partial sequence shown in Figure 4, as well as the distribution of the probability that an amino acid sequence converged by peptide selection to the partial sequence will have a predetermined similarity or higher. 確率の分布間の距離を算出するための式を例示する図である。FIG. 13 is a diagram illustrating an example of a formula for calculating the distance between probability distributions. アライメントされた部分配列におけるアミノ酸の位置ごとのアミノ酸の出現頻度を示す図である。FIG. 1 shows the frequency of occurrence of amino acids at each amino acid position in aligned partial sequences. 図1に示す実施の形態に係るタンパク質結合部位情報取得装置による情報取得処理のフローチャートを示す図である。2 is a flowchart showing an information acquisition process performed by the protein binding site information acquisition device according to the embodiment shown in FIG. 1. FIG. (A)はc-fosのアミノ酸配列を示す図である。(B)は5種類の抗c-fos抗体に対して収束したペプチドから作成したモチーフを示す図である。(A) shows the amino acid sequence of c-fos, and (B) shows motifs created from peptides that converged against five types of anti-c-fos antibodies. (A)はNeuronal Nuclei(NeuN)のアミノ酸配列を示す図である。(B)は抗NeuN抗体に対して収束したペプチドから作成したモチーフを示す図である。(A) is a diagram showing the amino acid sequence of Neuronal Nuclei (NeuN), and (B) is a diagram showing motifs created from peptides that converged against anti-NeuN antibodies. (A)はチロシンヒドロキシラーゼ(TH)のアミノ酸配列を示す図である。(B)は抗TH抗体に対して収束したペプチドから作成したモチーフを示す図である。(A) shows the amino acid sequence of tyrosine hydroxylase (TH), and (B) shows motifs made from peptides that converge to anti-TH antibodies. (A)はc-fosのアミノ酸配列を示す図である。(B)は抗c-fosポリクローナル抗体に対して収束したペプチドから作成したモチーフを示す図である。(A) shows the amino acid sequence of c-fos, and (B) shows motifs made from peptides that converged against anti-c-fos polyclonal antibodies. (A)はドパミントランスポーター(DAT)のアミノ酸配列を示す図である。(B)は抗DATポリクローナル抗体に対して収束したペプチドから作成したモチーフを示す図である。(A) shows the amino acid sequence of the dopamine transporter (DAT), and (B) shows motifs made from peptides that converged against anti-DAT polyclonal antibodies. (A)はc-fosのアミノ酸配列を示す図である。(B)はエピトープ解析によって各抗体のクローンに関して得られたモチーフ及び変異体c-fosタンパク質において置換したアミノ酸の位置を示す図である。(A) shows the amino acid sequence of c-fos, and (B) shows the motifs obtained for each antibody clone by epitope analysis and the positions of the amino acids substituted in the mutant c-fos protein. 野生型及び変異体c-fosタンパク質と抗体との相互作用についてELISA(Enzyme-Linked ImmunoSorbent Assay)法で検討した結果を示す図である。FIG. 1 shows the results of examining the interactions between wild-type and mutant c-fos proteins and antibodies by ELISA (Enzyme-Linked Immunosorbent Assay). 変異体c-fosタンパク質において置換したアミノ酸の位置を示す図である。FIG. 1 shows the positions of substituted amino acids in mutant c-fos proteins. DECODE法で得た分子認識様式の妥当性をELISA法で検討した結果を示す図である。FIG. 1 shows the results of examining the validity of the molecular recognition mode obtained by the DECODE method using the ELISA method. 抗c-fos抗体に関して、類似度が高かった上位100種類のタンパク質の類似度を示す図である。FIG. 1 shows the similarity of the top 100 proteins with the highest similarity to anti-c-fos antibodies. 自己免疫疾患を誘導したマウスの血漿中の抗体群をDECODE法で解析して得られたモチーフを示す図である。FIG. 1 shows motifs obtained by analyzing antibody groups in the plasma of mice with induced autoimmune diseases using the DECODE method. (A)は自己免疫疾患を誘導したマウスの血漿中の抗体群をDECODE法で解析して得られたアミノ酸配列から算出された部分配列のスコアの上位を示す図である。(B)は自己免疫疾患を誘導していないマウスの血漿中の抗体群をDECODE法で解析して得られたアミノ酸配列から算出された部分配列のスコアの上位を示す図である。(A) is a diagram showing the top scores of partial sequences calculated from amino acid sequences obtained by analyzing, by the DECODE method, antibody groups in the plasma of mice with induced autoimmune diseases. (B) is a diagram showing the top scores of partial sequences calculated from amino acid sequences obtained by analyzing, by the DECODE method, antibody groups in the plasma of mice with no induced autoimmune diseases.

本発明に係る実施の形態について説明する。なお、本発明は下記の実施の形態によって限定されるものではない。 The following describes an embodiment of the present invention. Note that the present invention is not limited to the following embodiment.

(実施の形態)
本実施の形態に係るタンパク質結合部位情報取得装置(以下、単に「情報取得装置」ともいう)100について説明する。情報取得装置100は、ペプチドセレクションで得られたデータを解析するための装置である。ペプチドセレクションとは、ランダムな塩基配列を有するDNAライブラリを転写及び翻訳することで構築されたペプチドライブラリから、被験物質に結合するペプチドを獲得し、獲得したペプチドのアミノ酸配列を同定するシステムである。ペプチドセレクションでは、獲得するペプチドの遺伝子情報が所定の手段で保存される。保存された遺伝情報の転写、翻訳、被験物質への結合及び回収という一連の流れが繰り返されることで、被験物質に結合するペプチドをコードする遺伝子情報を収束させることができる。
(Embodiment)
A protein binding site information acquisition device (hereinafter, also simply referred to as "information acquisition device") 100 according to this embodiment will be described. The information acquisition device 100 is a device for analyzing data obtained by peptide selection. Peptide selection is a system for acquiring peptides that bind to a test substance from a peptide library constructed by transcribing and translating a DNA library having a random base sequence, and identifying the amino acid sequence of the acquired peptide. In peptide selection, the genetic information of the acquired peptide is stored by a predetermined means. By repeating a series of steps, including transcription, translation, binding to the test substance, and recovery of the stored genetic information, the genetic information encoding the peptide that binds to the test substance can be converged.

情報取得装置100は、任意の公知のペプチドセレクションで得られたデータに適用可能である。ペプチドセレクションは、例えば、細胞表面提示法、ファージディスプレイ法、リボソームディスプレイ法及びmRNAディスプレイ法である。細胞表面提示法は、細胞を介して産生されたペプチドを細胞の表面に提示させることで細胞内部に遺伝情報を保存する。ファージディスプレイ法は、微生物を宿主とするファージの表面にペプチドを提示させてファージDNAに遺伝情報を保存する。無細胞タンパク質合成系を利用したリボソームディスプレイ法及びmRNAディスプレイ法では、それぞれリボソーム及びピューロマイシンを介して遺伝情報が保存される。 The information acquisition device 100 can be applied to data obtained by any known peptide selection. Examples of peptide selection include cell surface display, phage display, ribosome display, and mRNA display. The cell surface display method stores genetic information inside a cell by displaying peptides produced through the cell on the cell surface. The phage display method stores genetic information in the phage DNA by displaying peptides on the surface of a phage that uses a microorganism as a host. In the ribosome display and mRNA display methods that use a cell-free protein synthesis system, genetic information is stored via ribosomes and puromycin, respectively.

情報取得装置100による解析に好ましいペプチドセレクションは、mRNAディスプレイ法である。mRNAディスプレイ法の中でも、DECODE法(国際公開第2018/168999号)が特に好ましい。DECODE法では、(i)DNAから転写反応によって、RNA分子を取得する。当該DNAは、プロモーター領域及びプロモーター領域の下流にペプチドをコードする領域を含み、かつアンチセンス鎖の5’末端側に少なくとも1個の2’-修飾ヌクレオシド誘導体を含む。続いて、(ii)RNAの3’末端に、スプリントポリヌクレオチドを用いて、ピューロマイシン等のペプチド受容分子を結合する。そして、(iii)ペプチド受容分子が結合しているRNAを翻訳することによって、RNAとRNAにコードされているペプチドとがペプチド受容分子を介して連結しているRNAとペプチドとの複合体を合成する。さらに、(iv)RNAとペプチドとの複合体から複合体を選抜する。 A peptide selection method that is preferred for analysis by the information acquisition device 100 is the mRNA display method. Among the mRNA display methods, the DECODE method (International Publication No. 2018/168999) is particularly preferred. In the DECODE method, (i) an RNA molecule is obtained from DNA by a transcription reaction. The DNA includes a promoter region and a region that codes for a peptide downstream of the promoter region, and includes at least one 2'-modified nucleoside derivative on the 5' end side of the antisense strand. Next, (ii) a peptide acceptor molecule such as puromycin is bound to the 3' end of the RNA using a splint polynucleotide. Then, (iii) an RNA-peptide complex in which the RNA and the peptide encoded by the RNA are linked via the peptide acceptor molecule is synthesized by translating the RNA to which the peptide acceptor molecule is bound. Furthermore, (iv) a complex is selected from the RNA-peptide complex.

工程(iv)では、ペプチドを介して被験物質に結合する複合体が選抜される。工程(i)~(iv)を繰り返すことで、被験物質に結合するペプチドをコードする遺伝子情報、すなわちDNAをDNAライブラリから濃縮できる。 In step (iv), a complex that binds to the test substance via a peptide is selected. By repeating steps (i) to (iv), genetic information that codes for a peptide that binds to the test substance, i.e., DNA, can be enriched from the DNA library.

ペプチドセレクションで得られたDNAの塩基配列が変換されたアミノ酸配列が被験物質に結合するペプチドのアミノ酸配列である。次世代シーケンサー等によって、ペプチドセレクションで得られたDNAに関して、1万~数十億リード数、数百万~数億リード数、数十万~数千万リード数又は数十万~数百万リード数で塩基配列を決定することで、当該塩基配列がコードするアミノ酸配列が収集される。本実施の形態に係る情報取得装置100は、上述のようにペプチドセレクションで得られた多数のアミノ酸配列を解析する。 The amino acid sequence obtained by converting the base sequence of the DNA obtained by peptide selection is the amino acid sequence of the peptide that binds to the test substance. The amino acid sequence encoded by the base sequence is collected by determining the base sequence of the DNA obtained by peptide selection using a next-generation sequencer or the like with 10,000 to several billion reads, several million to several hundred million reads, several hundred thousand to tens of millions reads, or several hundred thousand to several million reads. The information acquisition device 100 according to this embodiment analyzes a large number of amino acid sequences obtained by peptide selection as described above.

図1(A)に示すように、情報取得装置100は、記憶部10、RAM(Random Access Memory)20、入力装置30、表示装置40及びCPU(Central Processing Unit)50が、バス60で接続された構成を有する。 As shown in FIG. 1A, the information acquisition device 100 has a configuration in which a memory unit 10, a RAM (Random Access Memory) 20, an input device 30, a display device 40, and a CPU (Central Processing Unit) 50 are connected by a bus 60.

記憶部10は、ROM(Read Only Memory)、HDD(Hard Disk Drive)及びフラッシュメモリ等の不揮発性の記憶媒体を備える。記憶部10は、各種データ及びソフトウェアプログラムの他、基準データ11、タンパク質のアミノ酸配列データ12及び情報取得プログラム13を記憶している。各種データには、アミノ酸間の類似性の程度を示す値を定義したテーブルが含まれる。ソフトウェアプログラムには、マルチプルアライメント用ソフトウェア及びクラスタリング用ソフトウェアが含まれる。 The storage unit 10 includes a non-volatile storage medium such as a ROM (Read Only Memory), a HDD (Hard Disk Drive), and a flash memory. In addition to various data and software programs, the storage unit 10 stores reference data 11, protein amino acid sequence data 12, and an information acquisition program 13. The various data includes a table that defines values indicating the degree of similarity between amino acids. The software programs include software for multiple alignment and software for clustering.

記憶部10が記憶しているデータには、タンパク質の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す基準データ(第1の情報)11が含まれる。タンパク質の部分配列とは、タンパク質のアミノ酸配列の一部である。タンパク質の部分配列は、タンパク質のアミノ酸配列が格納されたデータベース、例えばUniProt及びProtein Data Bank(PDB)等から取得できる。アミノ酸配列のデータベースは、各種生物のゲノムDNAの塩基配列をアミノ酸に変換することで取得してもよい。被験物質に結合するペプチドの探索空間を確保するために、より多くのタンパク質が網羅されているデータベースを用いるのが好ましい。 The data stored in the memory unit 10 includes reference data (first information) 11 that indicates the distribution of similarities between partial sequences of a protein and multiple random amino acid sequences. A partial sequence of a protein is a part of the amino acid sequence of a protein. A partial sequence of a protein can be obtained from a database in which the amino acid sequences of proteins are stored, such as UniProt and Protein Data Bank (PDB). The database of amino acid sequences may be obtained by converting the base sequences of genomic DNA of various organisms into amino acids. In order to ensure a search space for peptides that bind to the test substance, it is preferable to use a database that covers a larger number of proteins.

タンパク質の部分配列は、2アミノ酸以上の任意の長さである。部分配列の長さを12アミノ酸とすると、例えば、部分配列は、タンパク質のN末端のアミノ酸から12個のアミノ酸からなる部分配列、タンパク質のN末端から2番目のアミノ酸から12個のアミノ酸からなる部分配列、のようにタンパク質のN末端からC末端側に1アミノ酸ずつ移動させて得られる部分配列である。100個のアミノ酸からなるタンパク質において、12個のアミノ酸からなる部分配列は89個となる。 A partial sequence of a protein can be any length of two or more amino acids. If the length of a partial sequence is 12 amino acids, for example, a partial sequence is a partial sequence obtained by moving one amino acid at a time from the N-terminus to the C-terminus of a protein, such as a partial sequence consisting of 12 amino acids from the amino acid at the N-terminus of the protein, or a partial sequence consisting of 12 amino acids from the second amino acid from the N-terminus of the protein. In a protein consisting of 100 amino acids, there are 89 partial sequences consisting of 12 amino acids.

ランダムなアミノ酸配列は、無作為に選んだアミノ酸を含むアミノ酸配列である。被験物質が抗体の場合、エピトープのアミノ酸配列の長さは12アミノ酸程度である。よって、被験物質が抗体の場合には、ランダムなアミノ酸配列として、12個又は8個の任意のアミノ酸からなる複数のアミノ酸配列を用いるのが好ましい。アミノ酸配列の長さは12アミノ酸の場合、ランダムなアミノ酸配列のパターンは2012個である。 A random amino acid sequence is an amino acid sequence that includes randomly selected amino acids. When the test substance is an antibody, the length of the epitope amino acid sequence is about 12 amino acids. Therefore, when the test substance is an antibody, it is preferable to use multiple amino acid sequences consisting of 12 or 8 arbitrary amino acids as the random amino acid sequence. When the length of the amino acid sequence is 12 amino acids, the number of patterns of the random amino acid sequence is 20 ×12 .

ランダムなアミノ酸配列は無作為に選んだ塩基を並べたランダムな塩基配列を変換した複数のアミノ酸配列であってもよい。アミノ酸配列の長さが12アミノ酸の場合、上記の転写反応に供されるDNAにおけるペプチドをコードする領域は、3個の任意の塩基“N”で構成されるトリプレット“NNN”が12回繰り返されている。ランダムな塩基配列は、トリプレットのうち、1又は2個の塩基の選択肢を限定してもよい。この場合、DNAにおけるペプチドをコードする領域は、例えば、G(グアニン)及びT(チミン)から選ばれる塩基“K”としてトリプレット“NNK”が12回繰り返された塩基配列となる。 The random amino acid sequence may be a plurality of amino acid sequences obtained by converting a random base sequence in which randomly selected bases are arranged. When the length of the amino acid sequence is 12 amino acids, the region encoding the peptide in the DNA subjected to the above transcription reaction is a triplet "NNN" consisting of three arbitrary bases "N" repeated 12 times. The random base sequence may limit the choice of one or two bases among the triplets. In this case, the region encoding the peptide in the DNA is, for example, a base sequence in which the triplet "NNK" is repeated 12 times with the base "K" selected from G (guanine) and T (thymine).

アミノ酸配列間の類似度は、公知の任意の方法で評価できる。例えば、類似度は、アミノ酸間の類似性の程度を示す値を定義したBLOSUM、PAM及びWAC等のテーブルに基づいて算出される。テーブルを使用する場合、負の値を0として、進化におけるアミノ酸置換の生じにくさを考慮しなくてもよい。テーブルは、アミノ酸の性質等によって類似度を任意に定義したテーブルであってもよい。 The similarity between amino acid sequences can be evaluated by any known method. For example, the similarity is calculated based on tables such as BLOSUM, PAM, and WAC, which define values indicating the degree of similarity between amino acids. When using a table, negative values can be set to 0, and the difficulty of amino acid substitutions occurring during evolution can be ignored. The table may be a table that arbitrarily defines the similarity according to the properties of amino acids, etc.

ランダムなアミノ酸配列の長さを12アミノ酸として、基準データの作成方法について例示する。図2に示すように、タンパク質のデータベースのエントリであるタンパク質A(その一部のアミノ酸配列を配列番号1に示す)の一部である部分配列a1~a5・・・を含む部分配列aと、ランダムなアミノ酸配列r1~r5(配列番号2~6、なお、アミノ酸配列r2中のXaaはセレノシステイン(U)である)・・・を含むアミノ酸配列Rとの間の類似度を算出する。類似度の算出では、テーブルを参照し、アミノ酸配列r1を構成する12個のアミノ酸それぞれについて、当該アミノ酸に対応する位置にある部分配列a1のアミノ酸との類似性の値を求める。12個のアミノ酸に関する類似性の値の和を部分配列a1とアミノ酸配列r1の類似度とする。アミノ酸配列r1と同様に、部分配列a1に対するアミノ酸配列r2~r5の類似度を求める。 The method of creating the reference data is illustrated by assuming that the length of the random amino acid sequence is 12 amino acids. As shown in FIG. 2, the similarity is calculated between partial sequence a, which includes partial sequences a1 to a5, which are part of protein A (a part of the amino acid sequence is shown in SEQ ID NO: 1), which is an entry in the protein database, and amino acid sequence R, which includes random amino acid sequences r1 to r5 (SEQ ID NO: 2 to 6, where Xaa in amino acid sequence r2 is selenocysteine (U)). In calculating the similarity, a table is referenced, and the value of similarity between each of the 12 amino acids constituting amino acid sequence r1 and the amino acid in partial sequence a1 at the position corresponding to that amino acid is calculated. The sum of the similarity values for the 12 amino acids is regarded as the similarity between partial sequence a1 and amino acid sequence r1. As with amino acid sequence r1, the similarity of amino acid sequences r2 to r5 to partial sequence a1 is calculated.

部分配列a1に対するアミノ酸配列Rの類似度をヒストグラムとし、全体の和が1になるように規格化すると、図3に示すように部分配列a1に対するランダムなアミノ酸配列Rの類似度の確率の分布が得られる。図3に示す分布に基づいて所定の類似度以上になる確率を算出すると、図4に示す分布が得られる。 When the similarity of amino acid sequence R to partial sequence a1 is plotted as a histogram and normalized so that the total sum is 1, the distribution of the probability of similarity of random amino acid sequence R to partial sequence a1 is obtained as shown in Figure 3. When the probability of achieving a predetermined similarity or higher is calculated based on the distribution shown in Figure 3, the distribution shown in Figure 4 is obtained.

図5に示すように、タンパク質Aにおいて部分配列a1(配列番号7)からそのN末端がC末端側に1アミノ酸ずつ移動した部分配列a2(配列番号8)、a3(配列番号9)、a4(配列番号10)及びa5(配列番号11)に対しても同様にアミノ酸配列Rの類似度が所定の類似度以上になる確率を求める。タンパク質のデータベースに格納されたすべてのタンパク質に含まれるすべての部分配列aについて、ランダムなアミノ酸配列Rが所定の類似度以上になる確率が類似度の分布を示す基準データとなる。 As shown in FIG. 5, the probability that the similarity of amino acid sequence R will be equal to or greater than a predetermined similarity is also calculated for partial sequences a2 (SEQ ID NO: 8), a3 (SEQ ID NO: 9), a4 (SEQ ID NO: 10), and a5 (SEQ ID NO: 11) in which the N-terminus of partial sequence a1 (SEQ ID NO: 7) in protein A has been shifted by one amino acid toward the C-terminus. For all partial sequences a contained in all proteins stored in the protein database, the probability that a random amino acid sequence R will be equal to or greater than a predetermined similarity becomes reference data indicating the distribution of similarity.

図1(A)に戻って、タンパク質のアミノ酸配列データ12は、上述のタンパク質のデータベースに格納されているタンパク質のアミノ酸配列を含むデータ又はゲノムDNA配列データベースの塩基配列を変換したアミノ酸配列を含むデータである。アミノ酸配列は、タンパク質ごとに全長で記憶されていてもよいし、所定のアミノ酸数、例えば12アミノ酸の長さの部分配列aとして記憶されていてもよい。アミノ酸配列データ12には、アミノ酸配列とともに当該アミノ酸配列に関連付けられたタンパク質の情報が含まれる。アミノ酸配列が部分配列aの場合、アミノ酸配列データ12は、部分配列aに関連付けられた当該部分配列aを含むタンパク質の情報及び当該タンパク質における部分配列aの位置に関する情報(例えば、タンパク質AのN末端からn番目のアミノ酸が部分配列aのN末端のアミノ酸に該当する場合のn)を含む。 Returning to FIG. 1(A), the amino acid sequence data 12 of a protein is data including the amino acid sequence of a protein stored in the above-mentioned protein database, or data including the amino acid sequence obtained by converting the base sequence in the genome DNA sequence database. The amino acid sequence may be stored in full length for each protein, or may be stored as a partial sequence a having a length of a predetermined number of amino acids, for example, 12 amino acids. The amino acid sequence data 12 includes information on the protein associated with the amino acid sequence as well as the amino acid sequence. When the amino acid sequence is partial sequence a, the amino acid sequence data 12 includes information on the protein including partial sequence a associated with partial sequence a, and information on the position of partial sequence a in the protein (for example, n when the nth amino acid from the N-terminus of protein A corresponds to the N-terminal amino acid of partial sequence a).

RAM20はCPU50のメインメモリとして機能し、CPU50による情報取得プログラム13の実行に際し、情報取得プログラム13がRAM20に展開される。RAM20には、入力装置30から入力されたデータが一時的に記憶される。 The RAM 20 functions as the main memory of the CPU 50, and when the CPU 50 executes the information acquisition program 13, the information acquisition program 13 is deployed in the RAM 20. The RAM 20 temporarily stores data input from the input device 30.

入力装置30は、使用者が情報取得装置100にデータを入力するためのハードウエアである。入力装置30は、使用者によって入力された、ペプチドセレクションで得られたアミノ酸配列y1~y5・・・を含むアミノ酸配列YをCPU50に入力する。アミノ酸配列Yは、転写及び翻訳を介して核酸から核酸に対応付けられて生成するペプチドを被験物質に結合させて核酸とともに回収することを繰り返して収束した、被験物質に結合するペプチドのアミノ酸配列である。被験物質を抗体としたDECODE法の場合、約10万~20万のリード数で決定された塩基配列それぞれを変換したアミノ酸配列Yが得られる。同一のアミノ酸配列を除外すると、アミノ酸配列Yは、例えば約1万~数万種類となる。CPU50は、記憶部10にペプチドセレクションで得られたアミノ酸配列Yを記憶させる。 The input device 30 is hardware for the user to input data to the information acquisition device 100. The input device 30 inputs the amino acid sequence Y, which includes the amino acid sequences y1 to y5, obtained by peptide selection, input by the user to the CPU 50. The amino acid sequence Y is the amino acid sequence of a peptide that binds to the test substance, which is converged by repeatedly binding a peptide generated from a nucleic acid in association with the nucleic acid through transcription and translation to the test substance and recovering it together with the nucleic acid. In the case of the DECODE method using an antibody as the test substance, the amino acid sequence Y is obtained by converting each of the base sequences determined in the number of reads of about 100,000 to 200,000. If identical amino acid sequences are excluded, the number of amino acid sequences Y will be, for example, about 10,000 to tens of thousands. The CPU 50 stores the amino acid sequence Y obtained by peptide selection in the memory unit 10.

表示装置40は、CPU50によるデータ解析の結果を出力するためのディスプレイである。CPU50は、記憶部10に記憶された情報取得プログラム13をRAM20に読み出して、情報取得プログラム13を実行することにより、以下に説明する機能を実現する。 The display device 40 is a display for outputting the results of data analysis by the CPU 50. The CPU 50 reads the information acquisition program 13 stored in the storage unit 10 into the RAM 20 and executes the information acquisition program 13 to realize the functions described below.

図1(B)は、CPU50が実現する機能を示すブロック図である。情報取得プログラム13は、CPU50に取得部1及び出力部2としての機能を実現させる。 Figure 1 (B) is a block diagram showing the functions realized by the CPU 50. The information acquisition program 13 causes the CPU 50 to realize the functions of the acquisition unit 1 and the output unit 2.

取得部1は、基準データと、アミノ酸配列Yとタンパク質の部分配列aとの間の類似度の分布を示す解析対象データ(第2の情報)と、の比較に基づいて、タンパク質における被験物質の結合部位に関する情報を取得する。 The acquisition unit 1 acquires information about the binding site of the test substance in the protein based on a comparison between the reference data and the analysis target data (second information) that indicates the distribution of similarity between the amino acid sequence Y and the partial sequence a of the protein.

取得部1は、上述の基準データと同様の方法で解析対象データを得る。取得部1は、図2におけるアミノ酸配列r1~r5をアミノ酸配列y1~y5として、タンパク質Aに含まれる部分配列a1に対するアミノ酸配列y1~y5との間の類似度を算出し、部分配列a1に対するアミノ酸配列y1~y5の類似度が所定の類似度以上になる確率を算出する。取得部1は、部分配列a2、a3、a4及びa5に対しても同様にアミノ酸配列y1~y5の類似度が所定の類似度以上になる確率を求める。 The acquisition unit 1 acquires data to be analyzed in the same manner as the reference data described above. The acquisition unit 1 regards the amino acid sequences r1 to r5 in FIG. 2 as amino acid sequences y1 to y5, calculates the similarity between the amino acid sequences y1 to y5 and the partial sequence a1 contained in protein A, and calculates the probability that the similarity of the amino acid sequences y1 to y5 to the partial sequence a1 will be equal to or greater than a predetermined similarity. The acquisition unit 1 similarly calculates the probability that the similarity of the amino acid sequences y1 to y5 to the partial sequence a1 will be equal to or greater than a predetermined similarity for the partial sequences a2, a3, a4, and a5.

図6は、図4に示す部分配列a1に対してランダムなアミノ酸配列Rが所定の類似度以上になる確率の分布に、部分配列a1に対してアミノ酸配列Yが所定の類似度以上になる確率の分布を重ねて表示した図である。タンパク質における被験物質の結合部位に対応する部分配列aでは、部分配列aと類似度の高いアミノ酸配列Yが多く得られるため、基準データよりも類似度の高い方にまで確率が分布する。取得部1は、基準データと解析対象データの分布間距離をスコアとして算出する。基準データとの距離が大きい、すなわちスコアが高い部分配列aほど、被験物質が結合しやすいと言える。当該スコアによって、結合部位に対する被験物質の結合の特異性が評価できる。 Figure 6 shows the distribution of the probability that a random amino acid sequence R will have a predetermined similarity or higher to the partial sequence a1 shown in Figure 4, superimposed on the distribution of the probability that an amino acid sequence Y will have a predetermined similarity or higher to the partial sequence a1. In the partial sequence a corresponding to the binding site of the test substance in the protein, many amino acid sequences Y with high similarity to the partial sequence a are obtained, so the probability is distributed to the side with higher similarity than the reference data. The acquisition unit 1 calculates the distance between the distributions of the reference data and the data to be analyzed as a score. It can be said that the test substance is more likely to bind to a partial sequence a that is a larger distance from the reference data, i.e., a higher score. The specificity of the binding of the test substance to the binding site can be evaluated by the score.

分布間の距離は、公知の方法で算出できる。類似度をX、P(x)をアミノ酸配列Yが所定の類似度以上になる確率の分布、Q(x)をランダムなアミノ酸配列Rが所定の類似度以上になる確率の分布とすると、例えば図7に列挙する式それぞれで、あるいはこれらを組み合わせてスコアを計算する。なお、ここでいう“距離”は必ずしも数学的な距離である必要はない。 The distance between distributions can be calculated using known methods. If the similarity is X, P(x) is the distribution of the probability that amino acid sequence Y will have a certain similarity or higher, and Q(x) is the distribution of the probability that random amino acid sequence R will have a certain similarity or higher, then the score is calculated using, for example, each of the formulas listed in Figure 7, or a combination of these. Note that the "distance" referred to here does not necessarily have to be a mathematical distance.

取得部1は、すべてのタンパク質に含まれるすべての部分配列aの基準データと解析対象データとを比較し、スコアの高い部分配列aを取得する。取得する部分配列aは、最もスコアが高い部分配列aであってもよいし、スコアの上位から複数個の部分配列aであってもよい。取得部1は、アミノ酸配列データ12を参照し、取得した部分配列aを含むタンパク質の情報及び当該タンパク質における部分配列aの位置に関する情報等を被験物質の結合部位に関する情報として取得する。 The acquisition unit 1 compares the reference data for all partial sequences a contained in all proteins with the data to be analyzed, and acquires partial sequences a with high scores. The partial sequence a to be acquired may be the partial sequence a with the highest score, or may be multiple partial sequences a with the highest scores. The acquisition unit 1 refers to the amino acid sequence data 12, and acquires information on the protein containing the acquired partial sequence a and information on the position of the partial sequence a in the protein, etc., as information on the binding site of the test substance.

被験物質がモノクローナル抗体の場合、取得部1は、最大のスコアであった部分配列aを有するタンパク質の情報を取得する。被験物質がポリクローナル抗体の場合、取得部1は、取得した部分配列aを含むタンパク質の情報とともに、当該タンパク質における複数の部分配列aの位置に関する情報を取得する。 When the test substance is a monoclonal antibody, the acquisition unit 1 acquires information on the protein having the partial sequence a with the highest score. When the test substance is a polyclonal antibody, the acquisition unit 1 acquires information on the protein containing the acquired partial sequence a, as well as information on the positions of multiple partial sequences a in the protein.

取得部1は、タンパク質における被験物質の結合部位に関する情報として結合部位のアミノ酸配列を予測する。例えば、取得部1は、スコアの上位から複数個の部分配列aをアミノ酸配列の類似性に基づいてクラスタリングし、クラスターごとにマルチプルアライメントを作成する。取得部1は、アライメントされた部分配列aの各位置において最も高い収束率を示したアミノ酸を当該位置のアミノ酸とする。図8は、アライメントされた部分配列aにおけるアミノ酸の位置と当該位置におけるアミノ酸の出現頻度とが対応づけられたテーブルを示す。図8に示すように、取得部1は、アライメントされた部分配列aの各位置におけるアミノ酸の出現頻度の高いアミノ酸を当該位置のアミノ酸としてアミノ酸配列を予測してもよい。なお、取得部1は、収束率が所定の値よりも低い位置をブランクとしてアミノ酸配列を予測してもよい。 The acquisition unit 1 predicts the amino acid sequence of the binding site as information on the binding site of the test substance in the protein. For example, the acquisition unit 1 clusters multiple partial sequences a from the top of the score based on the similarity of the amino acid sequences, and creates a multiple alignment for each cluster. The acquisition unit 1 sets the amino acid that shows the highest convergence rate at each position of the aligned partial sequence a as the amino acid at that position. FIG. 8 shows a table in which the position of an amino acid in the aligned partial sequence a is associated with the frequency of occurrence of the amino acid at that position. As shown in FIG. 8, the acquisition unit 1 may predict the amino acid sequence by setting the amino acid with a high frequency of occurrence at each position of the aligned partial sequence a as the amino acid at that position. The acquisition unit 1 may also predict the amino acid sequence by setting the position with a convergence rate lower than a predetermined value as a blank.

また、取得部1は、基準データと、アミノ酸配列Yとタンパク質の部分配列との間の類似度と、の比較によって抽出したペプチドのアミノ酸配列に基づいて結合部位のアミノ酸配列を予測する。この場合、基準データには、部分配列aに対するランダムなアミノ酸配列Rの類似度の確率の分布(図4)において、確率が所定の値kより小さい類似度の範囲で最小の類似度Sが含まれる。記憶部10は、あらかじめ基準データ11として、タンパク質のデータベースに格納されたすべてのタンパク質に含まれるすべての部分配列aそれぞれに対応付けられた類似度Sを記憶している。 The acquisition unit 1 also predicts the amino acid sequence of the binding site based on the amino acid sequence of the peptide extracted by comparing the reference data with the similarity between the amino acid sequence Y and the partial sequence of the protein. In this case, the reference data includes the minimum similarity S in the range of similarity where the probability is smaller than a predetermined value k in the distribution of the similarity probability of the random amino acid sequence R to the partial sequence a (FIG. 4). The storage unit 10 stores, in advance as the reference data 11, the similarity S associated with each of all partial sequences a contained in all proteins stored in the protein database.

取得部1は、アミノ酸配列Yとタンパク質の部分配列aとの間の類似度を算出する。取得部1は、記憶部10を参照し、当該部分配列aに対応付けられた類似度S以上のアミノ酸配列Yを記憶部10に記憶させる。取得部1は、類似度S以上のアミノ酸配列Yについてマルチプルアライメントを作成し、上述のようにアミノ酸配列を予測する。なお、マルチプルアライメントの前にアミノ酸配列Yをクラスタリングして、クラスターごとにマルチプルアライメントを作成してもよい。なお、取得部1は、マルチプルアライメントを行わず、特定の部分配列のみで類似度S以上又は確率がk以下のアミノ酸配列Yをクラスタリングしてもよい。 The acquisition unit 1 calculates the similarity between the amino acid sequence Y and a partial sequence a of a protein. The acquisition unit 1 refers to the storage unit 10, and stores the amino acid sequence Y with a similarity of S or more associated with the partial sequence a in the storage unit 10. The acquisition unit 1 creates a multiple alignment for the amino acid sequence Y with a similarity of S or more, and predicts the amino acid sequence as described above. Note that the amino acid sequence Y may be clustered before the multiple alignment, and a multiple alignment may be created for each cluster. Note that the acquisition unit 1 may not perform multiple alignment, and may cluster the amino acid sequence Y with a similarity of S or more or a probability of k or less using only specific partial sequences.

取得部1は、被験物質の結合部位に関する情報を出力部2に入力する。出力部2は、被験物質の結合部位に関する情報を表示装置40に表示する。 The acquisition unit 1 inputs information about the binding site of the test substance to the output unit 2. The output unit 2 displays the information about the binding site of the test substance on the display device 40.

続いて、情報取得装置100による情報取得処理を図9に示すフローチャートを参照して説明する。 Next, the information acquisition process performed by the information acquisition device 100 will be described with reference to the flowchart shown in FIG.

取得部1は、ユーザによって解析対象データが入力装置30を介して入力されるのを待つ(ステップS1;No)。解析対象データが入力されると(ステップS1;Yes)、取得部1は、記憶部10を参照し、解析対象データと基準データとを比較してスコアを算出し、スコアの高い部分配列aを取得する(ステップS2)。取得部1は、アミノ酸配列データ12を参照し、取得した部分配列aを含むタンパク質の情報及び当該タンパク質における部分配列aの位置に関する情報を含む被験物質の結合部位に関する情報を取得する(ステップS3)。出力部2は、被験物質の結合部位に関する情報を、表示装置40に表示する(ステップS4)。そして、取得部1は情報取得処理を終了する。 The acquisition unit 1 waits for the user to input the analysis target data via the input device 30 (step S1; No). When the analysis target data is input (step S1; Yes), the acquisition unit 1 refers to the memory unit 10, compares the analysis target data with the reference data, calculates a score, and acquires the partial sequence a with the highest score (step S2). The acquisition unit 1 refers to the amino acid sequence data 12 and acquires information about the binding site of the test substance, including information about the protein containing the acquired partial sequence a and information about the position of the partial sequence a in the protein (step S3). The output unit 2 displays the information about the binding site of the test substance on the display device 40 (step S4). The acquisition unit 1 then ends the information acquisition process.

以上詳細に説明したように、本実施の形態に係る情報取得装置100は、タンパク質の部分配列aと複数のランダムなアミノ酸配列Rとの間の類似度の分布を示す基準データと、ペプチドセレクションで収束した被験物質に結合するペプチドのアミノ酸配列Yと部分配列aとの間の類似度の分布と、の比較によってタンパク質における被験物質の結合部位に関する情報を取得する。これにより、結合部位に対する被験物質の結合の特異性を評価できるため、タンパク質における被験物質の結合部位に関する情報を高い精度で得ることができる。 As described above in detail, the information acquisition device 100 according to this embodiment acquires information about the binding site of the test substance in the protein by comparing reference data showing the distribution of similarity between partial sequence a of the protein and multiple random amino acid sequences R with the distribution of similarity between partial sequence a and amino acid sequence Y of a peptide that binds to the test substance converged upon by peptide selection. This makes it possible to evaluate the specificity of the binding of the test substance to the binding site, thereby making it possible to obtain information about the binding site of the test substance in the protein with high accuracy.

また、情報取得装置100は、被験物質に結合するペプチドのアミノ酸配列Yと部分配列aとの間の類似度を基準データと比較することで選抜したペプチドのアミノ酸配列に基づいて結合部位のアミノ酸配列を予測することとした。こうすることで、結合部位のアミノ酸配列の予測精度を高めることができる。情報取得装置100は、図8に例示される、スコアの高い部分配列aの各位置のアミノ酸の出現頻度のテーブルを用いることで、被験物質の結合部位の特異性を予測することができる。 In addition, the information acquisition device 100 predicts the amino acid sequence of the binding site based on the amino acid sequence of the selected peptide by comparing the similarity between the amino acid sequence Y of the peptide that binds to the test substance and the partial sequence a with reference data. In this way, the prediction accuracy of the amino acid sequence of the binding site can be improved. The information acquisition device 100 can predict the specificity of the binding site of the test substance by using a table of the occurrence frequency of amino acids at each position of the partial sequence a with high scores, as exemplified in FIG. 8.

本実施に形態では、タンパク質の部分配列aに対してランダムなアミノ酸配列Rが所定の類似度以上になる確率を類似度の分布として用いたが、類似度の分布はこれに限らない。タンパク質の部分配列aと複数のアミノ酸配列Rとの間の類似度の分布は、タンパク質の部分配列aに対してアミノ酸配列Rの類似度の平均値、最頻値又は中央値であってもよい。 In this embodiment, the probability that a random amino acid sequence R will have a predetermined similarity or higher to a partial protein sequence a is used as the distribution of similarity, but the distribution of similarity is not limited to this. The distribution of similarity between a partial protein sequence a and multiple amino acid sequences R may be the average, mode, or median of the similarity of amino acid sequence R to partial protein sequence a.

なお、結合部位に関する情報をより正確に得るために、ペプチドセレクションで収束した被験物質に結合するペプチドのアミノ酸配列Yと部分配列aとの間の類似度にノイズ除去処理を加えてもよい。ノイズ除去処理は、公知のものが適用でき、例えば平均フィルタ等である。 In order to obtain more accurate information about the binding site, a noise removal process may be applied to the similarity between the amino acid sequence Y of the peptide that binds to the test substance and the partial sequence a, which is converged upon by peptide selection. The noise removal process may be a known process, such as an average filter.

また、上記の確率の値k及び類似度Sは、解析に応じて適宜設定される。アミノ酸配列間の類似度の算出に使用するテーブル、スコアによる部分配列aの順位の付け方等も、解析対象の生物種等に応じて設定される。タンパク質のデータベースは1つの生物種に限らず、複数の生物種のタンパク質のデータベースを用いてもよい。複数の生物種由来のタンパク質のデータベースを用いることで被験物質としての抗体の種間の交差性を予測することができる。 The probability value k and similarity S are set appropriately depending on the analysis. The table used to calculate the similarity between amino acid sequences, the method of ranking partial sequence a by score, etc. are also set depending on the biological species to be analyzed. The protein database is not limited to one biological species, and a database of proteins from multiple biological species may be used. By using a database of proteins derived from multiple biological species, it is possible to predict the interspecies cross-reactivity of the antibody as the test substance.

また、情報取得装置100は、血清、血漿、血液、リンパ液及び髄液等のサンプルに含まれる抗体等の成分を被験物質として実施したペプチドセレクションで得られたペプチドのアミノ酸配列Yの解析にも適している。例えば、免疫を惹起したヒトの血清に含まれる抗体を被験物質とすることで血清中の複数種の抗体に対する抗原を同定し、さらに抗原における被験物質の結合部位に関する情報を網羅的に収集できる。なお、被験物質は、化合物、アプタマー、核酸、ペプチド及びタンパク質等、タンパク質に結合し得るものであれば特に限定されない。また、情報取得装置100は、血清、血漿、血液、リンパ液及び髄液等のサンプルに含まれるあらゆる成分を被験物質として実施したペプチドセレクションで得られたペプチドのアミノ酸配列Yを解析してもよい。 The information acquisition device 100 is also suitable for analyzing the amino acid sequence Y of a peptide obtained by peptide selection performed using components such as antibodies contained in samples such as serum, plasma, blood, lymph, and cerebrospinal fluid as test substances. For example, by using antibodies contained in the serum of an immunized human as test substances, antigens for multiple types of antibodies in the serum can be identified, and information on the binding sites of the test substances in the antigens can be comprehensively collected. The test substances are not particularly limited as long as they can bind to proteins, such as compounds, aptamers, nucleic acids, peptides, and proteins. The information acquisition device 100 may also analyze the amino acid sequence Y of a peptide obtained by peptide selection performed using any components contained in samples such as serum, plasma, blood, lymph, and cerebrospinal fluid as test substances.

なお、マルチプルアライメント用ソフトウェアとしては、累進法、反復改善法及び動的計画法等を利用した公知の種々のソフトウェアが使用できる。マルチプルアライメント用ソフトウェアは、例えば、Clustal X、Clustal W、MUSCLE、T-Coffee、Parallel PRRN、MultAlin、MSA、Match-Box、DIALIGN及びAliBee等である。クラスタリング用ソフトウェアについても最短距離法、最長距離法、群平均法、最小分散法、重心法、重み付き平均法、メジアン法及びK-means法等の公知の方法を使用したソフトウェアが使用できる。 As software for multiple alignment, various known software using progressive methods, iterative improvement methods, dynamic programming, etc. can be used. Examples of software for multiple alignment include Clustal X, Clustal W, MUSCLE, T-Coffee, Parallel PRRN, MultAlin, MSA, Match-Box, DIALIGN, and AliBee. As for clustering software, software using known methods such as the shortest distance method, the longest distance method, the group average method, the minimum variance method, the center of gravity method, the weighted average method, the median method, and the K-means method can be used.

なお、上述の基準データ11、タンパク質のアミノ酸配列データ12、情報取得プログラム13及びその他のソフトウェアプログラムは、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、光磁気ディスク(Magneto-Optical Disc)、USB(Universal Serial Bus)メモリ、メモリカード及びHDD等のコンピュータ読み取り可能な記録媒体に格納して配布することが可能である。そして、情報取得プログラム13及びその他のソフトウェアプログラムを特定の又は汎用のコンピュータにインストールすることによって、当該コンピュータを情報取得装置100として機能させることが可能である。また、基準データ11、タンパク質のアミノ酸配列データ12、情報取得プログラム13及びその他のソフトウェアプログラムをインターネット上の他のサーバが有する記憶装置に格納しておき、当該サーバから基準データ11、タンパク質のアミノ酸配列データ12、情報取得プログラム13及びその他のソフトウェアプログラムがダウンロードされるようにしてもよい。 The above-mentioned reference data 11, protein amino acid sequence data 12, information acquisition program 13, and other software programs can be stored and distributed on computer-readable recording media such as a CD-ROM (Compact Disc Read Only Memory), a DVD (Digital Versatile Disc), a magneto-optical disc (Magneto-Optical Disc), a USB (Universal Serial Bus) memory, a memory card, and a HDD. By installing the information acquisition program 13 and other software programs in a specific or general-purpose computer, the computer can function as the information acquisition device 100. In addition, the reference data 11, the protein amino acid sequence data 12, the information acquisition program 13, and other software programs may be stored in a storage device owned by another server on the Internet, and the reference data 11, the protein amino acid sequence data 12, the information acquisition program 13, and other software programs may be downloaded from that server.

以下の実施例により、本発明をさらに具体的に説明するが、本発明は当該実施例によって限定されるものではない。 The present invention will be explained in more detail with reference to the following examples, but the present invention is not limited to these examples.

(実施例1:DECODE法によるエピトープのモチーフの予測)
(ライブラリの構築)
次のようにDECODE法を行った。抗体の抗原認識は、約5アミノ酸と言われており、直鎖のアミノ酸配列の場合、10アミノ酸程度に収まることが多いため、12アミノ酸がランダム化されるように、テンプレートDNAライブラリを作成した。なお、コドンをNNK(G/T)とランダム化し、DNAテンプレートではランダムシーケンス中にSTOPコドンがUAG(Amber)のみとなるよう設計した。セレクションの1ラウンド目におけるライブラリサイズが1.5×1013となるよう、500μLスケールのPCR mixture中に、0.05μMのテンプレートDNAライブラリが含まれるよう調整した。テンプレートDNAの塩基配列は、CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATG(NNK)nTGCGGCAGCGGCAGCGGCAGCTACTTTGATCCGCCGACCで、n=12とした。なお、NはA、T、G及びCのいずれかであって、KはT又はGである。n=1でKがTの場合のテンプレートDNAの塩基配列を配列番号12に示す。
(Example 1: Prediction of epitope motifs using the DECODE method)
(Building a Library)
The DECODE method was performed as follows. Antigen recognition by an antibody is said to be about 5 amino acids, and in the case of a linear amino acid sequence, it is often within about 10 amino acids, so a template DNA library was created so that 12 amino acids were randomized. The codons were randomized with NNK (G/T), and the DNA template was designed so that the STOP codon in the random sequence was only UAG (Amber). The library size in the first round of selection was 1.5 x 10 13 , and 0.05 μM of the template DNA library was included in a 500 μL scale PCR mixture. The base sequence of the template DNA was CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATG (NNK) nTGCGGCAGCGGCAGCGGCAGCTACTTTGATCCGCCGACC, with n = 12. N is any of A, T, G, and C, and K is T or G. The base sequence of the template DNA when n=1 and K is T is shown in SEQ ID NO:12.

本セレクションシステムが安定し機能しているかどうかを検討するために、固定配列を用いてセレクションを行い、ペプチド回収効率を確認することが求められる。そこで、抗FLAG抗体特異的に結合する固定配列ペプチドmc1’をポジティブコントロールとして用い、本セレクションシステムが機能しているかどうかラウンドごとに確認した。DECODE法では抗FLAG抗体に対してmc1’をスクリーニングする場合、回収されたcDNA-ペプチド量をqPCRで測定すると、CT値は安定して約10となった。テンプレートmc1’の塩基配列は、CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATGAAGTACTCCCCAACCGACTGCAAGAAGGACTACAAGGACGACGACGACAAGTGCGGCAGCGGCAGCGGCAGCTAGGACGGGGGGCGGAAA(配列番号13)である。 To examine whether this selection system is stable and functional, it is necessary to perform selection using a fixed sequence and confirm the peptide recovery efficiency. Therefore, a fixed sequence peptide mc1' that specifically binds to anti-FLAG antibody was used as a positive control to confirm whether this selection system is functioning after each round. When mc1' is screened against anti-FLAG antibody in the DECODE method, the CT value was stable at about 10 when the amount of recovered cDNA-peptide was measured by qPCR. The base sequence of template mc1' is CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATGAAGTACTCCCCAACCGACTGCAAGAAGGACTACAAGGACGACGACGACAAGTGCGGCAGCGGCAGCGGCAGCTAGGACGGGGGGCGGAAA (SEQ ID NO: 13).

(テンプレートDNAの増幅)
表1に示す500μLスケールのPCR mixtureを調製し、テンプレートDNAライブラリを増幅させた。調製したPCR mixtureをサーマルサイクラーにて95℃で3分間インキュベートした後、95℃(10秒間)、58℃(10秒間)、75℃(30秒間)の温度変化を4サイクル繰り返すことでテンプレートDNAを増幅した。なお、フォワードプライマー(P1)の塩基配列は、CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATG(配列番号14)である。リバースプライマー(P2(抗原)OMe)の塩基配列は、ggTCGGCGGATCAAAGTAG(配列番号15)である。
(Amplification of template DNA)
A 500 μL scale PCR mixture shown in Table 1 was prepared, and the template DNA library was amplified. The prepared PCR mixture was incubated at 95 ° C for 3 minutes in a thermal cycler, and then the template DNA was amplified by repeating four cycles of temperature changes of 95 ° C (10 seconds), 58 ° C (10 seconds), and 75 ° C (30 seconds). The base sequence of the forward primer (P1) is CCTAATACGACTCACTATAGGGTTAACTTTAAGAAGGAGATATACATATG (SEQ ID NO: 14). The base sequence of the reverse primer (P2 (antigen) OMe) is ggTCGGCGGATCAAAGTAG (SEQ ID NO: 15).

(テンプレートDNAライブラリの転写及びPu-DNAの連結)
500μLのTranscription mixture用バッファーと500μLのテンプレートDNAとを混合し、1000μLスケールのTranscription mixtureを調製し、増幅したDNAライブラリを50mU/uL T7 RNAポリメラーゼ(5μL)で転写した。Transcription mixture用バッファー(TC mix)の組成は、終濃度40mM HEPES-KOH(pH7.6)、20mM MgCl、2mM Spermidine、5mM DTT、2.5mM NTPsである。Transcription mixtureを37℃で40分間、転写反応させた後、72℃で5分間放置し、T7 RNAポリメラーゼを失活させた。得られた転写産物を7M 尿素を含む10%アクリルアミドゲルで電気泳動(180V、40分間)し、mRNAライブラリが産生されたことを確認した。
(Transcription of template DNA library and ligation of Pu-DNA)
500 μL of the transcription mixture buffer and 500 μL of the template DNA were mixed to prepare a 1000 μL scale transcription mixture, and the amplified DNA library was transcribed with 50 mU/uL T7 RNA polymerase (5 μL). The composition of the transcription mixture buffer (TC mix) was 40 mM HEPES-KOH (pH 7.6), 20 mM MgCl 2 , 2 mM spermidine, 5 mM DTT, and 2.5 mM NTPs at final concentrations. The transcription mixture was subjected to a transcription reaction at 37° C. for 40 minutes, and then left at 72° C. for 5 minutes to inactivate the T7 RNA polymerase. The resulting transcription products were electrophoresed (180 V, 40 minutes) on a 10% acrylamide gel containing 7 M urea to confirm that an mRNA library had been produced.

続いて、終濃度50mM Tris-HCl(pH7.5)、10mM MgCl、10mM DTT及び1mM ATPのバッファー条件下で、Transcription productを5μM Pu-DNA(5’-[PHO]CTCCCGCCCCCCGTCC[SpC18]5CC[Puromycin]、5’末端からスペーサーまでの塩基配列を配列番号16に示す)、5μM スプリントDNA(5’-GGGCGGGAGGGTCGGCGGATCAA(配列番号17))と混合し、500μLスケールのLigation mixtureとした。Ligation mixtureを95℃で1分間温めた後、75℃で30秒間放置し、一定勾配1℃/15秒間で25℃まで温度を下げてmRNA、Pu-DNA 、Splint DNAの三者をアニーリングした。そこへ、35UのT4 DNA ligaseを加え、37℃で1時間、連結反応を促進させた後、4℃で放置した。得られた転写産物を7M 尿素を含む10%アクリルアミドゲルで電気泳動(180V、40分間)し、mRNAライブラリがPu-DNAと連結したことを確認した。得られたPu-DNA連結mRNAライブラリを、RNA精製試薬キットAgencourt AMPure(商標) XPで精製し、濃度を決定した。 Next, under buffer conditions of final concentrations of 50 mM Tris-HCl (pH 7.5), 10 mM MgCl2, 10 mM DTT and 1 mM ATP, the transcription product was mixed with 5 μM Pu-DNA (5'-[PHO]CTCCCGCCCCCCGTCC[SpC18] 5 CC[Puromycin], the base sequence from the 5' end to the spacer is shown in sequence number 16) and 5 μM splint DNA (5'-GGGCGGGAGGGTCGGCGGATCAA (sequence number 17)) to prepare a 500 μL scale ligation mixture. The ligation mixture was heated at 95°C for 1 minute, then left at 75°C for 30 seconds, and the temperature was lowered to 25°C at a constant gradient of 1°C/15 seconds to anneal the three components of mRNA, Pu-DNA, and Splint DNA. 35 U of T4 DNA ligase was added thereto, and the ligation reaction was promoted at 37°C for 1 hour, and then left at 4°C. The resulting transcription product was electrophoresed (180V, 40 minutes) on a 10% acrylamide gel containing 7M urea, and it was confirmed that the mRNA library was ligated with Pu-DNA. The resulting Pu-DNA-ligated mRNA library was purified with the RNA purification reagent kit Agencourt AMPure (trademark) XP, and the concentration was determined.

(カスタムPURE systemuによる無細胞翻訳)
Pu-DNA連結mRNAライブラリを無細胞翻訳系(PURE system)により翻訳し、ペプチドライブラリを獲得した。2.4μLの0.6μM ligated sample、0.5μLのSolution B、6μLのSolution A及び3μLのStock bufferを加えて11.9μLのPURE mixtureを調製した。PURE mixtureを37℃で1時間反応させた。
(Cell-free translation using custom PURE system)
The Pu-DNA ligated mRNA library was translated by a cell-free translation system (PURE system) to obtain a peptide library. 2.4 μL of 0.6 μM ligated sample, 0.5 μL of Solution B, 6 μL of Solution A, and 3 μL of stock buffer were added to prepare 11.9 μL of PURE mixture. The PURE mixture was reacted at 37° C. for 1 hour.

Solution Bの組成を表2に示す。なお、Stock bufferの組成は、50mM HEPES-KOH(pH7.6)、100mM KCl、10mM MgCl及び30%グリセロールである。
The composition of Solution B is shown in Table 2. The composition of the stock buffer is 50 mM HEPES-KOH (pH 7.6), 100 mM KCl, 10 mM MgCl, and 30% glycerol.

factor mixの組成を表3に示す。
The composition of the factor mix is shown in Table 3.

Solution Aの組成を表4に示す。
The composition of Solution A is shown in Table 4.

NTP cratine phosphate mixtureの組成を表5に示す。
The composition of the NTP crate phosphate mixture is shown in Table 5.

PURE bufferの組成を表6に示す。
The composition of the PURE buffer is shown in Table 6.

(Tag抗体固定化ビーズの調製)
Tag抗体はセレクションの1周目及び3周目はprotein Gビーズに、2周目はprotein Aビーズに固定化させた。これらのビーズは使用前に500μLのwash buffer(50mM Tris-HCl、pH8.0、500mM NaCl、1% Triton及び0.01% Tween 20)で洗浄した。ビーズ 2.5μLに対して、IgG抗体を1μL加え、30分間振とうしてビーズとIgG抗体とを結合させた。
(Preparation of Tag antibody immobilized beads)
The Tag antibody was immobilized on protein G beads in the first and third rounds of selection, and on protein A beads in the second round. These beads were washed with 500 μL of wash buffer (50 mM Tris-HCl, pH 8.0, 500 mM NaCl, 1% Triton and 0.01% Tween 20) before use. 1 μL of IgG antibody was added to 2.5 μL of beads, and the mixture was shaken for 30 minutes to bind the beads and the IgG antibody.

(Tag抗体固定化ビーズへのペプチドライブラリの結合反応)
Tag抗体固定化ビーズに対して、翻訳後産物11.9μLとbinding buffer(50mM Tris-HCl、pH8.0及び10mM EDTA)25μLを加え、30分間振とうして、ペプチドライブラリをTag抗体固定化ビーズに結合させた(ポジティブセレクション)。上清を除いてビーズを回収し、wash bufferで10回洗ってIgGに特異的に結合するペプチドライブラリを得た。
(Binding reaction of peptide library to Tag antibody-immobilized beads)
11.9 μL of the post-translation product and 25 μL of binding buffer (50 mM Tris-HCl, pH 8.0 and 10 mM EDTA) were added to the Tag antibody-immobilized beads, and the mixture was shaken for 30 minutes to bind the peptide library to the Tag antibody-immobilized beads (positive selection). The supernatant was removed, and the beads were collected and washed 10 times with wash buffer to obtain a peptide library that specifically binds to IgG.

(逆転写)
protein Gビーズ又はprotein Aビーズ上に存在するmRNAをProto ScriptII RTaseにより逆転写しcDNAとした。最終的に44.5μLスケールの逆転写反応となるように、ビーズに対し、40μLのRT mix、4.25μLのRT(-)(50mM tris-HCl(pH8.0)及び75mM KCl)及び0.25μLのProtoScript IIを混合し、37℃で40分間、逆転写反応をさせた。RT mixは、0.2mM dNTPs、10mM DTT及び0.2μM RT-Primer(P2_ver2、GGTCGGCGGATCAAAGTAGCTGCCGCTGCCGCTGCCGCA(配列番号18))を含むProtoScript bufferである。
(Reverse Transcription)
The mRNA present on the protein G beads or protein A beads was reverse transcribed to cDNA using Proto Script II RTase. To obtain a final reverse transcription reaction on a scale of 44.5 μL, 40 μL of RT mix, 4.25 μL of RT(-) (50 mM tris-HCl (pH 8.0) and 75 mM KCl) and 0.25 μL of ProtoScript II were mixed with the beads, and the reverse transcription reaction was carried out at 37° C. for 40 minutes. The RT mix is a ProtoScript buffer containing 0.2 mM dNTPs, 10 mM DTT, and 0.2 μM RT-Primer (P2_ver2, GGTCGGCGGATCAAAGTAGCTGCCGCTGCCGCTGCCGCA (SEQ ID NO: 18)).

(溶出)
リン酸バッファー10μLにて、Tag抗体を95℃で3分間保持し、ペプチドライブラリを抽出した。溶出後上清を回収し、20μLのultrapure waterでビーズを洗って、その上清をさらに回収した。
(Elution)
The Tag antibody was incubated in 10 μL of phosphate buffer at 95° C. for 3 minutes to extract the peptide library. After elution, the supernatant was collected, the beads were washed with 20 μL of ultrapure water, and the supernatant was further collected.

(qPCRによる回収されたcDNA量の定量)
回収されたペプチドに連結したcDNAを、qPCRで定量し、次のラウンドにおけるPCR増幅の最適なサイクルを決定した。表7に示すqPCR mixtureを384ウェルの各ウェルに7μL分注し、0.5μLのcDNAを各ウェルに添加した。プレートを95℃で3分間インキュベートした後、95℃で1分間の後、95℃(10秒間)及び60℃(30秒間)の2ステップを40サイクル繰り返して反応させ、cDNAを増幅した。リバースプライマー(P2(抗原))の塩基配列はGGTCGGCGGATCAAAGTAGCTGCCGCTGCCGCTGCCGCA(配列番号19)である。
Quantification of the amount of recovered cDNA by qPCR
The cDNA linked to the recovered peptide was quantified by qPCR to determine the optimal cycle for PCR amplification in the next round. 7 μL of the qPCR mixture shown in Table 7 was dispensed into each well of a 384-well plate, and 0.5 μL of cDNA was added to each well. The plate was incubated at 95° C. for 3 minutes, and then incubated at 95° C. for 1 minute, followed by 40 cycles of two steps at 95° C. (10 seconds) and 60° C. (30 seconds) to amplify the cDNA. The base sequence of the reverse primer (P2 (antigen)) is GGTCGGCGGATCAAAGTAGCTGCCGCTGCCGCTGCCGCA (SEQ ID NO: 19).

(回収されたDNAのPCRによる増幅)
表8に示すPCR mixtureに増幅したテンプレートDNA20μLを添加し、Phusion DNA polymeraseによりcDNAライブラリを増幅させた。調整したPCR mixtureをサーマルサイクラーにおいて95℃で3分間インキュベートした後、95℃、58℃、75℃の温度変化をqPCRで決定したサイクル繰り返すことでテンプレートDNAを増幅した。1%アガロースゲルで泳動して増幅を確認することで、最適サイクル数(N)を決定した。決定したPCR条件で増幅したテンプレートDNAライブラリを1%アガロースゲルで泳動して確認した。十分な増幅を確認後、Agencourt AMPure(商標) XPで精製した。
(PCR Amplification of Recovered DNA)
20 μL of the amplified template DNA was added to the PCR mixture shown in Table 8, and the cDNA library was amplified by Phusion DNA polymerase. The adjusted PCR mixture was incubated at 95 ° C for 3 minutes in a thermal cycler, and then the template DNA was amplified by repeating temperature changes of 95 ° C, 58 ° C, and 75 ° C for a cycle determined by qPCR. The optimal number of cycles (N) was determined by confirming the amplification by electrophoresis on a 1% agarose gel. The template DNA library amplified under the determined PCR conditions was confirmed by electrophoresis on a 1% agarose gel. After sufficient amplification was confirmed, it was purified with Agencourt AMPure (trademark) XP.

(2ラウンド目の転写)
10μLスケールのTranscription mixtureを調製し、増幅したDNAライブラリ0.1μMを50mU/uL T7 RNA polymeraseで転写した。Transcription mixtureには5mM NTPs、5μM DTT、20μM MgClを加えた。Transcription mixtureを37℃で1時間、転写反応させた後、75℃で5分間放置し、T7 RNA polymeraseを失活させた。
(Second round transcription)
A 10 μL scale transcription mixture was prepared, and 0.1 μM of the amplified DNA library was transcribed with 50 mU/uL T7 RNA polymerase. 5 mM NTPs, 5 μM DTT, and 20 μM MgCl 2 were added to the transcription mixture. The transcription mixture was subjected to a transcription reaction at 37° C. for 1 hour, and then left at 75° C. for 5 minutes to inactivate the T7 RNA polymerase.

(2ラウンド目のmRNAとPu-DNA連結)
Transcription産物5μMに1mM ATPs、10μM Pu-DNA、10μM スプリントDNAを混合し、1×ligation buffer で8μLスケールのLigation mixtureを調製した。Ligation mixtureを95℃で1分間温めた後、一定勾配で15分間かけて25℃まで温度を下げ、mRNA、Pu-DNA及びSplit DNAをアニーリングした。T4 ligaseを加え、37℃で1時間反応させた。
(Second round of mRNA and Pu-DNA ligation)
5 μM of the transcription product was mixed with 1 mM ATPs, 10 μM Pu-DNA, and 10 μM splint DNA to prepare a ligation mixture on an 8 μL scale with 1× ligation buffer. The ligation mixture was heated at 95°C for 1 minute, and then cooled to 25°C at a constant gradient over 15 minutes to anneal the mRNA, Pu-DNA, and split DNA. T4 ligase was added and reacted at 37°C for 1 hour.

研究用抗体161種類(モノクローナル抗体が144種類、ポリクローナル抗体が17種類)それぞれを上記のビーズに固定化して、本実施例に係るDECODE法を実行した。DECODE法でスクリーニングしたペプチドのcDNAについて、次世代シーケンサーであるHiSeq3000(Illumina社製)で1抗体につき100万リードほど塩基配列を決定した。得られた塩基配列をアミノ酸に変換し、プログラミングソフトjavaを使用しアミノ酸配列についてクラスタリングを行った。置換スコア関数にはBLOSUM62マトリクスを用いた。ただし、本研究では進化的なアミノ酸置換の生じにくさを考慮しないため、負の値は0とした行列を使った。得られたクラスターについて、シーケンスアラインメント用ソフトウェアであるClustal Xでアラインメントを作製したのち、Weblogoでモチーフを作成した。 161 types of research antibodies (144 types of monoclonal antibodies and 17 types of polyclonal antibodies) were immobilized on the above-mentioned beads, and the DECODE method according to this embodiment was carried out. For the cDNA of the peptides screened by the DECODE method, the base sequence of about 1 million reads per antibody was determined using a next-generation sequencer, HiSeq3000 (manufactured by Illumina). The obtained base sequence was converted to amino acids, and clustering was performed on the amino acid sequence using the programming software Java. The BLOSUM62 matrix was used as the substitution score function. However, in this study, the difficulty of evolutionary amino acid substitution was not taken into consideration, so a matrix with negative values set to 0 was used. For the obtained clusters, an alignment was created using Clustal X, a software for sequence alignment, and then motifs were created using Weblogo.

(結果)
各ラウンドで回収したcDNA-ペプチド複合体量をqPCRで定量したところ、ほとんどの抗体で3ラウンド目に収束がみられた。
(result)
The amount of cDNA-peptide complex recovered in each round was quantified by qPCR, and convergence was observed in the third round for most antibodies.

図10(A)はc-fosのアミノ酸配列(配列番号20)を示す。モノクローナル抗体に関して、抗c-fos抗体5種類に対して収束したペプチドの中で、最も収束率の高かったモチーフを図10(B)に示す。各抗c-fos抗体について得られたモチーフは、図10(A)に示すようにc-fosの一部に一致していた。 Figure 10 (A) shows the amino acid sequence of c-fos (SEQ ID NO: 20). Figure 10 (B) shows the motif with the highest convergence rate among the peptides that converged with five types of anti-c-fos antibodies for monoclonal antibodies. The motif obtained for each anti-c-fos antibody matched a part of c-fos as shown in Figure 10 (A).

図11(A)はNeuNのアミノ酸配列(配列番号21)を示す。図11(B)は抗NeuN抗体に対して収束したペプチドから作成したモチーフを示す。抗NeuN抗体について得られたモチーフは、図11(A)に示すようにNeuNの一部に一致していた。図12(A)はTHのアミノ酸配列(配列番号22)を示す図である。図12(B)は抗TH抗体に対して収束したペプチドから作成したモチーフを示す。抗TH抗体について得られたモチーフは、図12(A)に示すようにTHの一部に一致していた。 Figure 11(A) shows the amino acid sequence of NeuN (SEQ ID NO:21). Figure 11(B) shows the motif created from peptides that converged with the anti-NeuN antibody. The motif obtained for the anti-NeuN antibody matched a portion of NeuN as shown in Figure 11(A). Figure 12(A) shows the amino acid sequence of TH (SEQ ID NO:22). Figure 12(B) shows the motif created from peptides that converged with the anti-TH antibody. The motif obtained for the anti-TH antibody matched a portion of TH as shown in Figure 12(A).

上記のように本実施例で得られたいずれのモチーフも、標的タンパク質上の一部の配列と一致した。アミノ酸配列の量比から、抗体の抗原認識に、エピトープのどのアミノ酸残基が特に重要かを予測することができた。また、図10(B)に示すように、c-fosを標的とする抗体の同一のクローンC1について独立のDECODE法で再現性良く同じモチーフを獲得することができた。 As described above, all of the motifs obtained in this example matched a portion of the sequence on the target protein. From the quantitative ratio of the amino acid sequence, it was possible to predict which amino acid residues in the epitope were particularly important for the antibody's antigen recognition. In addition, as shown in Figure 10 (B), the same motif was reproducibly obtained by an independent DECODE method for the same clone C1 of the antibody targeting c-fos.

ポリクローナル抗体に関して、抗c-fos抗体(シグマ社製)及び抗DAT抗体(シグマ社製)に対して収束したペプチドについて作成したモチーフをそれぞれ図13及び図14に示す。図13(B)に示すように、得られたモチーフは主に4種類のクラスターに分類された。いずれのモチーフも、図13(A)に示すc-fosタンパク質配列上の一部と一致した。また、2つの独立した解析において、同じ抗c-fos抗体について再現性良く同じモチーフが獲得された。 For polyclonal antibodies, motifs created for peptides that converged with anti-c-fos antibody (Sigma) and anti-DAT antibody (Sigma) are shown in Figures 13 and 14, respectively. As shown in Figure 13 (B), the obtained motifs were mainly classified into four types of clusters. All motifs matched parts of the c-fos protein sequence shown in Figure 13 (A). Furthermore, the same motifs were obtained reproducibly for the same anti-c-fos antibody in two independent analyses.

図14(B)に示すように抗DAT抗体でも特異的なモチーフが得られた。得られたモチーフは主に2種類のクラスターに分類された。いずれのモチーフも、DATタンパク質配列(配列番号23)上の一部と一致した(図14(A)参照)。抗DAT抗体においても2つの独立した解析において、同じ抗DAT抗体で再現性良く同じモチーフが獲得された。 As shown in Figure 14 (B), specific motifs were also obtained with anti-DAT antibodies. The obtained motifs were mainly classified into two types of clusters. Both motifs matched parts of the DAT protein sequence (SEQ ID NO: 23) (see Figure 14 (A)). In two independent analyses, the same motifs were obtained with high reproducibility using the same anti-DAT antibodies.

(実施例2:DECODE法の精度に関するELISA法による評価)
DECODE法で得たモチーフが、実際に抗体が認識するエピトープであるかを、ELISA法で実証した。以下ではc-Fosタンパク質を認識する、クローンが異なる5種類の抗c-fos抗体(モノクローナル抗体C1、C2、C4、C5及びポリクローナル抗体C7)を利用して抗原抗体反応を検証した。
(Example 2: Evaluation of the accuracy of the DECODE method by the ELISA method)
We verified by ELISA whether the motif obtained by the DECODE method was actually an epitope recognized by the antibody. In the following, we verified the antigen-antibody reaction using five different anti-c-fos antibodies (monoclonal antibodies C1, C2, C4, C5 and polyclonal antibody C7) that recognize the c-Fos protein and have different clones.

野生型c-fosタンパク質(全長)の遺伝子がクローニングされたpMU2プラスミドに、各種変異プライマーをPrimeStar maxで導入した。作製したc-fosタンパク質変異体及び野生型c-fosタンパク質のベクターを、HEK293Tへ形質転換して発現させた。発現後、細胞を破砕しライセートを回収した。 Various mutation primers were introduced into the pMU2 plasmid into which the gene for wild-type c-fos protein (full length) had been cloned, using PrimeStar max. The c-fos protein mutants and wild-type c-fos protein vectors thus prepared were transformed into HEK293T cells for expression. After expression, the cells were disrupted and the lysate was collected.

各種変異体c-fosタンパク質及び野生型c-fosタンパク質を発現させたHEK293Tのライセートを384プレートに固定化した。12.5μL/wellで1時間振とうさせ、一晩4℃で保存した。次に、blocking oneを1/5希釈して120μL/wellで満たし、一時間室温で静置した。TPBS(0.1% Tween20 PBS)で3回洗ったのち、系列希釈した各抗c-fos抗体(C1、C2、C4、C5、C7)を1次抗体としてc-fosタンパク質に結合させた。室温で1時間振とうして結合反応を行い、TPBSで3回洗浄した。その後、1/1000希釈したHorse Radish Peroxidase(HRP)標識二次抗体(mouse、rabbit、goat)を加え、室温で1時間振とうして結合反応を行った。二次抗体との結合反応後、TPBSで12回洗浄した。ELISA POD 基質 TMB(3,3’,5,5’-テトラメチルベンジジン)発色基質溶液を25μL添加し、十分発色させ、0.1M HSOを50μL添加して反応を停止させた。マイクロプレートリーダーで吸光度(450nm)を測定した。 Lysates of HEK293T expressing various mutant c-fos proteins and wild-type c-fos proteins were immobilized on a 384-well plate. The plate was shaken for 1 hour at 12.5 μL/well and stored at 4°C overnight. Blocking one was then diluted 1/5 and filled at 120 μL/well, and allowed to stand at room temperature for 1 hour. After washing three times with TPBS (0.1% Tween 20 PBS), serially diluted anti-c-fos antibodies (C1, C2, C4, C5, C7) were bound to the c-fos protein as primary antibodies. The plate was shaken for 1 hour at room temperature to carry out the binding reaction, and then washed three times with TPBS. Then, Horse Radish Peroxidase (HRP)-labeled secondary antibodies (mouse, rabbit, goat) diluted 1/1000 were added and the mixture was shaken at room temperature for 1 hour to carry out a binding reaction. After the binding reaction with the secondary antibody, the mixture was washed 12 times with TPBS. ELISA POD substrate TMB (3,3',5,5'-tetramethylbenzidine) color-developing substrate solution was added in an amount of 25 μL, sufficient color development was achieved, and 50 μL of 0.1 M H 2 SO 4 was added to stop the reaction. The absorbance (450 nm) was measured using a microplate reader.

HEK293Tのライセートごとc-fosタンパク質を固定化したため、c-fosタンパク質を発現させていないHEK293Tのライセートにおける吸光度をブランクとして差し引いた。プレートに固定化したHEK293Tのライセート中の各変異体及び野生型c-fosタンパク質の発現量の違いを補正するために、抗c-fos抗体(C2、C4、C5、C7)による抗原抗体反応の吸光度は抗c-fos抗体(C1)の飽和時の吸光度で、抗c-fos抗体(C1)の吸光度は抗c-fos抗体(C2)の飽和時の吸光度で割った値を正規化した吸光度とした。各抗体濃度に対する正規化した吸光度をプロットし、飽和曲線を作製した。下記のミカエリスメンテン式に対して、最小二乗法により測定値を近似し、正規化した吸光度の最大値(Abs.max)とKm値とを算出した。
正規化した吸光度=Abs.max×nM/(nM+Km)
Since the c-fos protein was immobilized with each HEK293T lysate, the absorbance in the lysate of HEK293T in which the c-fos protein was not expressed was subtracted as a blank. In order to correct the difference in the expression amount of each mutant and wild-type c-fos protein in the lysate of HEK293T immobilized on the plate, the absorbance of the antigen-antibody reaction by the anti-c-fos antibody (C2, C4, C5, C7) was the absorbance at saturation of the anti-c-fos antibody (C1), and the absorbance of the anti-c-fos antibody (C1) was divided by the absorbance at saturation of the anti-c-fos antibody (C2) to obtain a normalized absorbance. The normalized absorbance against each antibody concentration was plotted to prepare a saturation curve. The measured values were approximated by the least squares method against the Michaelis-Menten equation below, and the maximum normalized absorbance (Abs.max) and Km value were calculated.
Normalized absorbance = Abs.max x nM/(nM + Km)

(結果)
図15(A)はc-fosのアミノ酸配列を示す。エピトープ解析によって各抗体のクローンに関して得られたモチーフ及び変異体c-fosタンパク質において置換したアミノ酸の位置を図15(B)に示す。変異体c-fosタンパク質では、抗原認識に重要と予測されるアミノ酸を置換している。抗原抗体相互作用について、野生型と変異体とを比較したELISAの結果を図16に示す。モノクローナル抗体C1、C2及びC4はそれぞれに対応する変異体への結合が野生型と比較して顕著に低下した。モノクローナル抗体C5及びポリクローナル抗体C7は野生型に対して弱く結合したものの、それぞれのエピトープ変異体に対してはまったく結合がみられなかった。これらの結果はDECODE法で得たペプチドが、実際の抗体認識部位であったことを示す。
(result)
FIG. 15(A) shows the amino acid sequence of c-fos. The motifs obtained for each antibody clone by epitope analysis and the positions of the amino acids substituted in the mutant c-fos protein are shown in FIG. 15(B). In the mutant c-fos protein, amino acids predicted to be important for antigen recognition are substituted. The results of ELISA comparing the wild type and mutants for antigen-antibody interactions are shown in FIG. 16. The binding of monoclonal antibodies C1, C2, and C4 to their corresponding mutants was significantly reduced compared to the wild type. Monoclonal antibody C5 and polyclonal antibody C7 bound weakly to the wild type, but did not bind to the respective epitope mutants at all. These results indicate that the peptides obtained by the DECODE method were the actual antibody recognition sites.

抗c-fos抗体(C1)に対してエピトープ解析で得た分子認識様式(抗体が認識する際のエピトープのアミノ酸の重要度)について、実際の抗原抗体反応が一致するかどうかをELISA法で検証した。c-fos抗体のエピトープとして同定された図10(B)に示すエピトープ1について、変異体c-fosタンパク質において置換したアミノ酸の位置を図17に示す。抗原抗体相互作用について、野生型と変異体とを比較したELISAの結果を図18に示す。変異体D271A、F272A、L273A、F274Aは野生型と比較して抗c-fos抗体の結合が顕著に低下した。アミノ酸F272、F274を芳香族アミノ酸(Y、W)に置換した場合、抗c-fos抗体の結合が回復した。変異体P275A、A276G、R279A及びP280Aに関しては、野生型と比較して抗c-fos抗体の結合がやや低下したが、変異体S277A、S278A及びS281Aの結合に変化は見られなかった。これらの結果より、DECODE法で得た分子認識様式が、実際の抗原抗体反応と一致することが示された。 The molecular recognition mode (importance of amino acids in the epitope when the antibody recognizes) obtained by epitope analysis for anti-c-fos antibody (C1) was verified by ELISA to see whether it coincided with the actual antigen-antibody reaction. For epitope 1 shown in Figure 10 (B), which was identified as the epitope of the c-fos antibody, the position of the amino acid substituted in the mutant c-fos protein is shown in Figure 17. The results of ELISA comparing the wild type and the mutants in terms of antigen-antibody interaction are shown in Figure 18. Mutants D271A, F272A, L273A, and F274A showed a significant decrease in binding of anti-c-fos antibody compared to the wild type. When amino acids F272 and F274 were substituted with aromatic amino acids (Y, W), binding of anti-c-fos antibody was restored. For the mutants P275A, A276G, R279A, and P280A, binding of the anti-c-fos antibody was slightly reduced compared to the wild type, but no change was observed in binding for the mutants S277A, S278A, and S281A. These results demonstrated that the molecular recognition pattern obtained by the DECODE method is consistent with the actual antigen-antibody reaction.

(実施例3:抗c-fos抗体の交差反応性の評価)
クローンが異なる8種類の抗c-Fos抗体(モノクローナル抗体C1、C2、C4、C5及びC8、並びにポリクローナル抗体C3、C6及びC7に関して交差反応性を評価した。DECODE法において収束したペプチドのアミノ酸配列と、約20000種類のヒトタンパク質との間の類似度を算出した。類似度の算出には、負の値は0とした置換スコア関数BLOSUM62マトリクスを使用した。
(Example 3: Evaluation of cross-reactivity of anti-c-fos antibodies)
Cross-reactivity was evaluated for eight anti-c-Fos antibodies with different clones (monoclonal antibodies C1, C2, C4, C5, and C8, and polyclonal antibodies C3, C6, and C7). The similarity between the amino acid sequence of the peptide converged by the DECODE method and approximately 20,000 types of human proteins was calculated. The similarity was calculated using the substitution score function BLOSUM62 matrix, in which negative values are set to 0.

(結果)
図19は、各抗体について類似度が高かった上位100種類のタンパク質の類似度を示す。図19における矢印は、標的タンパク質、すなわちc-fosを示す。モノクローナル抗体C1及びC2並びにポリクローナル抗体C3及びC7ではc-fosに対する類似度が最大であった。モノクローナル抗体C4、及びC5のc-fosに対する類似度が1位ではなく、特異性が低いことが予想された。モノクローナル抗体C8及びポリクローナル抗体C6のc-fosに対する類似度は100位以下であった。C1に関しては独立したエピトープ解析で再現性良くc-fosに対する類似度が最大となった。
(result)
FIG. 19 shows the similarity of the top 100 proteins with the highest similarity for each antibody. The arrow in FIG. 19 indicates the target protein, i.e., c-fos. The monoclonal antibodies C1 and C2 and the polyclonal antibodies C3 and C7 had the highest similarity to c-fos. The similarity of the monoclonal antibodies C4 and C5 to c-fos was not ranked first, and it was expected that they have low specificity. The similarity of the monoclonal antibody C8 and the polyclonal antibody C6 to c-fos was ranked 100th or lower. As for C1, the similarity to c-fos was the highest with good reproducibility in an independent epitope analysis.

(実施例4:実験的自己免疫性脳脊髄炎(EAE)モデルマウスの血漿のDECODE解析)
10週齢のC57B6マウスに、Myelin-oligodendrocyte glycoprotein(MOG)の一部であるMOG35-55ペプチド(MEVGWYRSPFSRVVHLYRNGK(配列番号24))を、10週齢のC57B6マウスに完全フロイントアジュバントを用いて免疫した。免疫後20~22日に全血を回収し、等量のPBSと混和し、フィコールを用いて血漿成分を分離した。血漿100μLを100μLのProteinG磁気ビーズ(dynabeads)に4℃で1時間結合させた。これを500μLの洗浄バッファー(50mM Tris-HCl(pH7.5)、300mM NaCl及び0.1% TritonX-100)で5回洗浄し、EAEマウス抗体が固定化された磁気ビーズを得た。n=8とした上述のテンプレートDNAを含むテンプレートDNAライブラリに対して、当該磁気ビーズを用いて実施例1と同様にDECODE法を5ラウンド行い、HiSeq2500を用いてシングルリード80ベースでシーケンシングを行った。
(Example 4: DECODE analysis of plasma from experimental autoimmune encephalomyelitis (EAE) model mice)
Ten-week-old C57B6 mice were immunized with MOG35-55 peptide (MEVGWYRSPFSRVVHLYRNGK (SEQ ID NO: 24)), a part of myelin-oligodendrocyte glycoprotein (MOG), using complete Freund's adjuvant. Whole blood was collected 20 to 22 days after immunization, mixed with an equal amount of PBS, and plasma components were separated using Ficoll. 100 μL of plasma was bound to 100 μL of Protein G magnetic beads (dynabeads) at 4° C. for 1 hour. These were washed five times with 500 μL of washing buffer (50 mM Tris-HCl (pH 7.5), 300 mM NaCl and 0.1% Triton X-100) to obtain magnetic beads on which EAE mouse antibodies were immobilized. Five rounds of the DECODE method were performed using the magnetic beads in the same manner as in Example 1 for the template DNA library containing the above-mentioned template DNA (n=8), and sequencing was performed with a single read of 80 bases using HiSeq2500.

得られた塩基配列を変換したアミノ酸配列についてマルチプルアライメントを行った。また、マウスタンパク質の部分配列について、基準データと得られたアミノ酸配列群とを比較してスコアを算出した。 Multiple alignment was performed on the amino acid sequences converted from the obtained base sequences. In addition, a score was calculated by comparing the obtained amino acid sequence group with the reference data for the partial sequences of mouse proteins.

(結果)
マルチプルアライメントの結果に基づいて、図20に示すように、MOG35-55ペプチドの一部と相同性の高いモチーフが得られた。図21(A)に示すように、規格化されたスコアの上位140位と399位にMOG35の部分配列が検出された。一方、図21(B)に示すように、MOG35-55ペプチドを免疫していないマウス血漿からはMOGの部分配列は検出されなかった。
(result)
Based on the results of multiple alignment, a motif highly homologous to a portion of the MOG35-55 peptide was obtained, as shown in Figure 20. As shown in Figure 21(A), partial sequences of MOG35 were detected in the top 140 and 399 of the normalized scores. On the other hand, as shown in Figure 21(B), no partial MOG sequence was detected in the plasma of mice not immunized with the MOG35-55 peptide.

本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等な発明の意義の範囲内で施される様々な変形が、本発明の範囲内とみなされる。 The present invention allows for various embodiments and modifications without departing from the broad spirit and scope of the present invention. Furthermore, the above-described embodiments are intended to explain the present invention and do not limit the scope of the present invention. In other words, the scope of the present invention is indicated by the claims, not the embodiments. Furthermore, various modifications made within the scope of the claims and within the scope of the meaning of the invention equivalent thereto are considered to be within the scope of the present invention.

本発明は、タンパク質における被験物質の結合部位に関する情報、特に抗体のエピトープの予測に好適である。 The present invention is suitable for predicting information regarding the binding site of a test substance in a protein, particularly the epitope of an antibody.

1 取得部、2 出力部、10 記憶部、11 基準データ、12 タンパク質のアミノ酸配列データ、13 情報取得プログラム、20 RAM、30 入力装置、40 表示装置、50 CPU、60 バス、100 タンパク質結合部位情報取得装置 1 Acquisition unit, 2 Output unit, 10 Memory unit, 11 Reference data, 12 Protein amino acid sequence data, 13 Information acquisition program, 20 RAM, 30 Input device, 40 Display device, 50 CPU, 60 Bus, 100 Protein binding site information acquisition device

Claims (5)

抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、の比較に基づいて、前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する取得部を備える、
タンパク質結合部位情報取得装置。
an acquisition unit that acquires information about an amino acid sequence of an epitope of the antibody in the antigen based on a comparison between first information indicating a distribution of similarity between a partial sequence of the antigen and a plurality of random amino acid sequences and second information indicating a distribution of similarity between an amino acid sequence of a peptide that binds to the antibody and the partial sequence, the distribution being converged by repeatedly binding a peptide generated in correspondence with the DNA through transcription and translation from DNA contained in a DNA library having random base sequences to an antibody that binds to the antigen and recovering the peptide together with the DNA;
Protein binding site information acquisition device.
前記取得部は、
前記第1の情報が示す前記類似度の分布と前記第2の情報が示す前記類似度の分布との距離を算出し、前記エピトープに対する前記抗体の結合の特異性を評価する、
請求項1に記載のタンパク質結合部位情報取得装置。
The acquisition unit is
calculating a distance between the distribution of similarity indicated by the first information and the distribution of similarity indicated by the second information, and evaluating the binding specificity of the antibody to the epitope ;
The protein binding site information acquisition device according to claim 1 .
前記取得部は、
前記第1の情報と、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度と、の比較によって選抜したペプチドのアミノ酸配列に基づいて前記エピトープのアミノ酸配列を予測する、
請求項1又は2に記載のタンパク質結合部位情報取得装置。
The acquisition unit is
predicting the amino acid sequence of the epitope based on the amino acid sequence of the peptide selected by comparing the first information with the similarity between the amino acid sequence of the peptide that binds to the antibody and the partial sequence;
The protein binding site information acquisition device according to claim 1 or 2.
取得部を備えるタンパク質結合部位情報取得装置の作動方法であって、
前記取得部は、
抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、の比較に基づいて、前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する、
タンパク質結合部位情報取得装置の作動方法。
A method for operating a protein binding site information acquisition device including an acquisition unit, comprising:
The acquisition unit is
obtaining information about the amino acid sequence of the epitope of the antibody in the antigen based on a comparison between first information indicating a distribution of similarities between a partial sequence of the antigen and a plurality of random amino acid sequences and second information indicating a distribution of similarities between the amino acid sequences of peptides that bind to the antibody and the partial sequences, the distribution of similarities being converged by repeatedly binding peptides generated in correspondence with DNA contained in a DNA library having random base sequences through transcription and translation to an antibody that binds to the antigen and recovering the peptides together with the DNA ;
A method for operating an apparatus for acquiring information on protein binding sites.
コンピュータを、
抗原の部分配列と複数のランダムなアミノ酸配列との間の類似度の分布を示す第1の情報を参照する手段
前記第1の情報と、ランダムな塩基配列を有するDNAライブラリに含まれるDNAから転写及び翻訳を介して前DNAに対応付けられて生成するペプチドを前記抗原に結合する抗体に結合させて前記DNAとともに回収することを繰り返して収束した、前記抗体に結合するペプチドのアミノ酸配列と前記部分配列との間の類似度の分布を示す第2の情報と、比較する手段
前記比較に基づいて前記抗原における前記抗体エピトープのアミノ酸配列に関する情報を取得する手段、として機能させる、
プログラム。
Computer,
A means for referring to first information indicating a distribution of similarity between a partial sequence of the antigen and a plurality of random amino acid sequences;
a means for comparing the first information with second information that indicates a distribution of similarity between the amino acid sequences of peptides that bind to the antibody and the partial sequences, the second information being converged by repeatedly binding peptides generated in correspondence with DNA through transcription and translation from DNA contained in a DNA library having random base sequences to an antibody that binds to the antigen and recovering the peptides together with the DNA;
and obtaining information about the amino acid sequence of the epitope of the antibody in the antigen based on the comparison .
program.
JP2020048625A 2020-03-19 2020-03-19 Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device Active JP7541709B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020048625A JP7541709B2 (en) 2020-03-19 2020-03-19 Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020048625A JP7541709B2 (en) 2020-03-19 2020-03-19 Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device

Publications (2)

Publication Number Publication Date
JP2021145604A JP2021145604A (en) 2021-09-27
JP7541709B2 true JP7541709B2 (en) 2024-08-29

Family

ID=77847692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020048625A Active JP7541709B2 (en) 2020-03-19 2020-03-19 Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device

Country Status (1)

Country Link
JP (1) JP7541709B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7842447B2 (en) * 2022-03-28 2026-04-08 株式会社CUBICStars Tissue staining reagents, tissue staining kits, and tissue staining methods
CN115116543B (en) * 2022-04-18 2025-08-05 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for determining antigen-antibody binding sites
CN116183907B (en) * 2023-03-09 2025-03-25 巴迪泰(广西)生物科技有限公司 Antigen enrichment and cleaning method and system based on antigen capture magnetic bead technology

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129379A1 (en) 2010-04-13 2011-10-20 独立行政法人理化学研究所 Novel anti-hsp90 monoclonal antibody
WO2018168999A1 (en) 2017-03-17 2018-09-20 国立研究開発法人理化学研究所 Method for producing complex of rna molecule and peptide, and utilization thereof
WO2018181656A1 (en) 2017-03-30 2018-10-04 第一三共株式会社 Anti-gpr20 antibody
WO2019084249A1 (en) 2017-10-25 2019-05-02 Acceleron Pharma Inc. Alk7 binding proteins and uses thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129379A1 (en) 2010-04-13 2011-10-20 独立行政法人理化学研究所 Novel anti-hsp90 monoclonal antibody
WO2018168999A1 (en) 2017-03-17 2018-09-20 国立研究開発法人理化学研究所 Method for producing complex of rna molecule and peptide, and utilization thereof
WO2018181656A1 (en) 2017-03-30 2018-10-04 第一三共株式会社 Anti-gpr20 antibody
WO2019084249A1 (en) 2017-10-25 2019-05-02 Acceleron Pharma Inc. Alk7 binding proteins and uses thereof

Also Published As

Publication number Publication date
JP2021145604A (en) 2021-09-27

Similar Documents

Publication Publication Date Title
Philpott et al. Nanopore sequencing of single-cell transcriptomes with scCOLOR-seq
Mukherjee et al. Rapid analysis of the DNA-binding specificities of transcription factors with DNA microarrays
Larman et al. Autoantigen discovery with a synthetic human peptidome
JP7541709B2 (en) Protein binding site information acquisition device, and operation method and program of protein binding site information acquisition device
US11749377B2 (en) Method and electronic system for predicting at least one fitness value of a protein, related computer program product
Pantazes et al. Identification of disease-specific motifs in the antibody specificity repertoire via next-generation sequencing
Zichi et al. Proteomics and diagnostics: Let's Get Specific, again
He et al. Ribonanza: deep learning of RNA structure through dual crowdsourcing
Zhou et al. Global pairwise RNA interaction landscapes reveal core features of protein recognition
CA3139359A1 (en) Methods and systems for protein engineering and production
US20050214782A1 (en) Generation and application of standardized universal libraries
Liu et al. Serum antibody repertoire profiling using in silico antigen screen
Egertson et al. A theoretical framework for proteome-scale single-molecule protein identification using multi-affinity protein binding reagents
Alexandari et al. De novo distillation of thermodynamic affinity from deep learning regulatory sequence models of in vivo protein-DNA binding
Song et al. Key Considerations on CITE‐Seq for Single‐Cell Multiomics
Shi et al. Progress and challenges in predicting protein methylation sites
Liu et al. Quantitative comparison of EST libraries requires compensation for systematic biases in cDNA generation
Wacholder et al. Detection of human unannotated microproteins by mass spectrometry-based proteomics: a community assessment
CN113430269A (en) Application of biomarker in prediction of lung cancer prognosis
Gong et al. Integrating multimeric threading with high-throughput experiments for structural interactome of Escherichia coli
Paull et al. Mapping antibody binding using multiplexed epitope substitution analysis
JP2021523680A (en) Determining the effect on protein properties based on amino acid sequence modification
Foight et al. Enriching peptide libraries for binding affinity and specificity through computationally directed library design
Loupe et al. Extensive profiling of transcription factors in postmortem brains defines genomic occupancy in disease-relevant cell types and links TF activities to neuropsychiatric disorders
CN113388683A (en) Biomarker related to lung cancer prognosis and application thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240809

R150 Certificate of patent or registration of utility model

Ref document number: 7541709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150