Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3395633B2 - DNA base sequence comparison method - Google Patents
[go: Go Back, main page]

JP3395633B2 - DNA base sequence comparison method - Google Patents

DNA base sequence comparison method

Info

Publication number
JP3395633B2
JP3395633B2 JP05310298A JP5310298A JP3395633B2 JP 3395633 B2 JP3395633 B2 JP 3395633B2 JP 05310298 A JP05310298 A JP 05310298A JP 5310298 A JP5310298 A JP 5310298A JP 3395633 B2 JP3395633 B2 JP 3395633B2
Authority
JP
Japan
Prior art keywords
amino acid
sequence
base sequence
acid sequence
dna base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05310298A
Other languages
Japanese (ja)
Other versions
JPH10334104A (en
Inventor
啓一 永井
亮太郎 入江
進 平岡
直子 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP05310298A priority Critical patent/JP3395633B2/en
Publication of JPH10334104A publication Critical patent/JPH10334104A/en
Application granted granted Critical
Publication of JP3395633B2 publication Critical patent/JP3395633B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、DNA塩基配列比
較方法、検索方法に関し、特にDNA塩基配列の間での
類似度を感度良く検出する方法、及びDNA塩基配列が
コードするアミノ酸配列の推定法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a DNA base sequence comparison method and a search method, and more particularly to a method for sensitively detecting the degree of similarity between DNA base sequences and a method for estimating an amino acid sequence encoded by the DNA base sequences. Regarding

【0002】[0002]

【従来の技術】近年、様々な生物のDNA塩基配列を決
定し、DNA塩基配列によりコードされる蛋白質の機能
を解析する動きが盛んになっている。DNA塩基配列
は、4種類の塩基A、C、G、Tの配列であり、DNA
塩基配列の一部が各々生体で機能する蛋白質をコードし
ている。重要な機能を持つ蛋白質は薬剤の設計、開発等
に利用でき、DNA塩基配列がコードする蛋白質の機能
を正確に推定する技術が望まれている。実験的な蛋白質
の配列の決定よりも、一般的にDNA塩基配列の決定の
方が技術的に容易である。
2. Description of the Related Art In recent years, movements for determining the DNA base sequences of various organisms and analyzing the functions of proteins encoded by the DNA base sequences have become popular. The DNA base sequence is a sequence of four types of bases A, C, G and T.
A part of the nucleotide sequence codes for a protein that functions in a living body. A protein having an important function can be used for drug design and development, and a technique for accurately estimating the function of a protein encoded by a DNA base sequence is desired. Generally, it is technically easier to determine a DNA base sequence than to experimentally determine the sequence of a protein.

【0003】新たに決定されたDNA塩基配列によりコ
ードされる蛋白質の機能の推定では、周知のコドン表
(3塩基単位(コドン単位))の各々に対応して、アミ
ノ酸への翻訳の開始点、アミノ酸への翻訳の終了点、ア
ミノ酸の種類が規定される)を使用して、DNA塩基配
列をアミノ酸配列(このアミノ酸配列から蛋白質配列が
得られる)に翻訳して、得られた蛋白質配列と機能が既
知である蛋白質に関するデータとを比較参照して、類似
しているか否かの判定を実行している。
In the estimation of the function of the protein encoded by the newly determined DNA base sequence, the starting point of translation into amino acids is determined in correspondence with each well-known codon table (3 base units (codon unit)), The end point of translation into amino acid, the type of amino acid is defined), and the DNA base sequence is translated into an amino acid sequence (a protein sequence can be obtained from this amino acid sequence), and the obtained protein sequence and function Is compared and compared with the data on a known protein to determine whether or not they are similar.

【0004】DNA塩基配列のうち、蛋白質の情報を含
んでいるエクソンの領域がアミノ酸に翻訳される領域で
ある。コドンからアミノ酸への翻訳は一意的に行なわ
れ、DNA塩基配列の翻訳方向と翻訳開始点が分かれ
ば、DNA塩基配列から3塩基づつを取り出して、DN
A塩基配列をアミノ酸の配列、即ち蛋白質に翻訳でき
る。しかし、DNA塩基配列に於いて、DNA塩基配列
に塩基の挿入、又は欠失による誤りが存在する場合に
は、DNA塩基配列のエクソンの領域がずれてしまう。
DNA塩基配列はコドン単位でアミノ酸に翻訳されるた
めに、塩基の挿入、又は欠失が存在する場合には、全く
異なるアミノ酸として翻訳されてしまうことがある。
In the DNA base sequence, an exon region containing protein information is a region translated into an amino acid. Translation from a codon to an amino acid is performed uniquely, and if the translation direction of the DNA base sequence and the translation start point are known, every 3 bases are extracted from the DNA base sequence and DN
The A base sequence can be translated into an amino acid sequence, that is, a protein. However, in the DNA base sequence, when there is an error due to the insertion or deletion of bases in the DNA base sequence, the exon region of the DNA base sequence is displaced.
Since the DNA base sequence is translated into amino acids on a codon basis, it may be translated as a completely different amino acid when a base insertion or deletion is present.

【0005】2つのDNA塩基配列を比較する際に、2
つのDNA塩基配列をそれぞれアミノ酸配列に翻訳して
得る翻訳アミノ酸配列どうしを比較して実行するには、
各DNA塩基配列から翻訳アミノ酸配列を決定する必要
がある。
When comparing two DNA base sequences, 2
To compare and execute translated amino acid sequences obtained by translating three DNA base sequences into amino acid sequences,
It is necessary to determine the translated amino acid sequence from each DNA base sequence.

【0006】図1は、DNA塩基配列からアミノ酸配列
へ翻訳する際のDNA塩基配列に対する6種類の読み枠
を説明する図である((第1の従来技術):例えば、文
献1:バイオテクノロジー教科書シリーズ11「バイオ
テクノロジーのためのコンピュータ入門」、中村春木・
中井謙太共著、第66頁から67頁(1995年)(東
京:コロナ社))。
FIG. 1 is a diagram for explaining six types of reading frames for a DNA base sequence when translating a DNA base sequence into an amino acid sequence ((first prior art): eg, Document 1: Biotechnology textbook). Series 11 “Introduction to Computers for Biotechnology”, Haruki Nakamura
Kenta Nakai, pp. 66-67 (1995) (Tokyo: Corona).

【0007】6種類の翻訳フレームは、フレーム
(1):DNA塩基配列の5’末端から順次コドン単位
でアミノ酸に翻訳するフレーム、フレーム(2):コド
ンの開始位置をフレーム(1)より順次1塩基ずらし(s
hift)てアミノ酸に翻訳するフレーム、フレーム
(3):コドンの開始位置をフレーム(1)の開始位置
より順次2塩基ずらしてアミノ酸に翻訳するフレーム、
フレーム(4):DNA塩基配列の相補鎖の5’末端か
ら順次コドン単位でアミノ酸への翻訳を開始するフレー
ム、フレーム(5):フレーム(4)の翻訳開始位置か
ら順次1塩基ずらしてアミノ酸への翻訳を開始するフレ
ーム、フレーム(6):フレーム(4)の翻訳開始位置
から順次2塩基ずらしてアミノ酸への翻訳を開始するフ
レームからなる。
The six types of translation frames are frame (1): a frame in which the 5'end of the DNA base sequence is sequentially translated into amino acids in codon units, and frame (2): the start position of the codon is sequentially 1 from frame (1). Base shift (s
frame for translating amino acid by hift), frame (3): frame for translating amino acid by sequentially shifting the start position of codon by 2 bases from the start position of frame (1),
Frame (4): A frame in which translation of amino acids is sequentially started in a codon unit from the 5'end of the complementary strand of the DNA base sequence. Frame (5): One amino acid is sequentially shifted from the translation start position of frame (4) to an amino acid. And a frame (6): a frame for starting translation into amino acids by sequentially shifting two bases from the translation start position of frame (4).

【0008】フレーム(1)からフレーム(3)は5’
末端から順次1塩基づつずらされ、フレーム(4)から
フレーム(6)はオリジナルのDNA塩基配列の相補鎖
の5’末端(オリジナルのDNA塩基配列の3’末端)
から順次1塩基づつずらされていくので、翻訳フレーム
は、フレーム(1)からフレーム(6)の6種類が存在
する。フレーム(1)からフレーム(6)に関して、D
NA塩基配列をアミノ酸配列に翻訳する。2つの各DN
A塩基配列に関して同種類のフレームを使用し翻訳され
て得られた翻訳アミノ酸配列の間で比較が行なわれ、合
計6種類の翻訳アミノ酸配列の間での比較が行なわれ
る。
The frame (1) to the frame (3) are 5 '
Frames (4) to (6) are sequentially shifted from the end by 1 base, and 5'end of the complementary strand of the original DNA base sequence (3 'end of the original DNA base sequence)
Since one base is sequentially shifted from, there are six types of translation frames, frame (1) to frame (6). For frame (1) to frame (6), D
The NA base sequence is translated into an amino acid sequence. 2 each DN
A comparison is performed between the translated amino acid sequences obtained by translation using the same type of frame for the A base sequence, and a total of 6 types of translated amino acid sequences are compared.

【0009】類似配列を検索する代表的なプログラムと
してソースプログラムが公開されている、米国NIHの
組織であるNCBIのAltshulらにより開発され
たBLASTが広く知られている(例えば、文献1の第
141頁から143頁)。BLASTファミリーには、
DNA塩基配列どうしを比較するBLASTN、アミノ
酸配列どうしを比較するBLASTP、DNA塩基配列
を上記の6種類のフレームについて機械的に翻訳して得
られた6種類の翻訳アミノ酸配列の各々をアミノ酸配列
データベースを使用して検索するBLASTX、及び、
検索DNA塩基配列(Query DNA base
sequence)とDNA塩基配列のデータベースか
ら読み出したDNA塩基配列(Target DNA
basesequence)の第1、第2の各DNA塩
基配列を、上記の6種類のフレームについて各々機械的
に翻訳し、第1、第2の組の翻訳アミノ酸配列(各6種
類)の間での36種類の全ての組合せについて比較を行
なうTBLASTXがある。BLASTファミリーで
は、最初に、Query DNA base sequ
enceの一定長の塩基列とTarget DNA b
ase sequenceとの高速パターンマッチング
を行ない、Target DNA baseseque
nceに於ける検出された一定長の塩基列の位置を基に
して、Query DNA base sequenc
eと類似する領域を検出する。
BLAST developed by Altshul et al. Of NCBI, which is an organization of NIH in the United States, whose source program is open to the public as a typical program for searching for similar sequences, is widely known (for example, 141st of Reference 1). Pp. 143). In the BLAST family,
BLASTN comparing DNA base sequences, BLASTP comparing amino acid sequences, and 6 kinds of translated amino acid sequences obtained by mechanically translating the DNA base sequences for the above 6 kinds of frames are stored in an amino acid sequence database. BLASTX to search using, and
Search DNA base sequence (Query DNA base)
sequence) and a DNA base sequence (Target DNA) read from a database of DNA base sequences.
The first and second DNA base sequences of base sequence) are mechanically translated for each of the above-mentioned 6 types of frames, and 36 sequences between the translated amino acid sequences of the first and second sets (6 types each). There is TBLASTX that compares for all combinations of types. In the BLAST family, first, Query DNA base sequence
ence constant length base sequence and Target DNA b
Performs high-speed pattern matching with the target sequence and obtains Target DNA base sequence.
Query DNA base sequence based on the position of the detected base sequence of fixed length
An area similar to e is detected.

【0010】Smith−Waterman法では、Q
uery DNA base sequenceとTa
rget DNA base sequenceの2つ
のDNA塩基配列の塩基を1塩基づつ比較して、塩基対
に応じたスコア(類似度)を付与して総計し、スコア
(類似度)総計が最大となる経路(アライメント、並
置)を探索する((第3の従来技術):例えば、文献
2:「Identification of Comm
on Molecular Subsequence
s」、ジャーナル・オブ・モレキュラー・バイオロジ
ー、147(1981)第195頁−197頁(J.M
ol.Biol、147(1981)pp195−19
7))。
In the Smith-Waterman method, Q
user DNA base sequence and Ta
The bases of the two DNA base sequences of the rget DNA base sequence are compared one by one, and a score (similarity) according to the base pair is given and totaled. , Juxtaposition) ((Third Prior Art): For example, Reference 2: “Identification of Comm.
on Molecular Subsequence
s ", Journal of Molecular Biology, 147 (1981) pp. 195-197 (J.M.
ol. Biol, 147 (1981) pp195-19.
7)).

【0011】第3の従来技術では、2つのDNA塩基配
列の間で動的計画法(ダイナミックプログラミング法を
使用して、塩基対の比較を行ない、2つのDNA塩基配
列の間でのスコアを求める。特定の注目するDNA塩基
配列(以下、検索DNA塩基配列(Query DNA
base sequence)、又は第1のDNA塩
基配列という)と類似するDNA塩基配列をDNA塩基
配列データベースから検索する際に、検索DNA塩基配
列(塩基数をMとする)を第1の軸(例えば、x軸)
に、DNA塩基配列データベースから読み出したDNA
塩基配列(塩基数をNとし、以下、Target DN
A base sequence、又は第2のDNA塩
基配列という)を第2の軸(例えば、y軸)に沿って、
5’末端より配列し、マトリックス(以下、本願発明で
はスコアマトリックスと呼ぶ。)を形成する(図2)。
In the third conventional technique, a dynamic programming method (dynamic programming method is used to compare base pairs between two DNA base sequences to obtain a score between the two DNA base sequences. A specific DNA base sequence of interest (hereinafter, referred to as a search DNA base sequence (Query DNA)
base sequence) or a first DNA base sequence), when searching a DNA base sequence database for a DNA base sequence similar to the first DNA base sequence, the searched DNA base sequence (the number of bases is M) is the first axis (for example, x axis)
DNA read from the DNA nucleotide sequence database
Base sequence (the number of bases is N, hereinafter Target DN
A base sequence, or second DNA base sequence) along the second axis (eg, y-axis),
It is arranged from the 5 ′ end to form a matrix (hereinafter referred to as a score matrix in the present invention) (FIG. 2).

【0012】図2は、第1、第2のDNA塩基配列の比
較を行なう際のスコアの加算経路を説明する図である。
第1、第2のDNA塩基配列の間での塩基の対はスコア
マトリックス要素(i、j)(但し、i=1、2、…、
M、j=1、2、…、N)の位置で表される。
FIG. 2 is a diagram for explaining a score addition path when the first and second DNA base sequences are compared.
Base pairs between the first and second DNA base sequences are score matrix elements (i, j) (where i = 1, 2, ...,
M, j = 1, 2, ..., N).

【0013】動的計画法(ダイナミックプログラミング
法)では、スコアマトリックス要素(i、j)に至る、
縦、横、斜めの3方向(図2に示す、a、b、c)での
移動経路(検索経路)を考え、iを1、2、→M、jを
=1、2、→Nと変化させて、図2に示す左上末端のス
コアマトリックス要素(1、1)から右下末端のスコア
マトリックス要素(M、N)の方向に向かって(i、
j)の位置を移動させて、第1のDNA塩基配列と第2
のDNA塩基配列の各塩基の間での最適な類似対応関係
を表わす、最適経路(最適アライメント、最適並置)を
求める。
In dynamic programming, a score matrix element (i, j) is reached,
Considering a movement route (search route) in three directions of vertical, horizontal, and diagonal (a, b, and c shown in FIG. 2), i is 1, 2, → M, j is 1, 2, → N. In the direction from the score matrix element (1, 1) at the upper left end to the score matrix element (M, N) at the lower right end (i,
j) is moved to move the first DNA base sequence to the second
The optimal path (optimal alignment, optimal juxtaposition) that represents the optimal similarity correspondence between each base of the DNA nucleotide sequence of

【0014】スコアマトリックス要素(i、j)の値H
(i、j)は、第1のDNA塩基配列のi番目の塩基ま
での塩基配列と第2のDNA塩基配列のj番目の塩基ま
での塩基配列との間における全体としての類似度(スコ
ア)の総計を表わす。図2に示す、a、b、cの各方向
の移動経路に対応して、類似度(スコア)の総計H
a(i、j)、Hb(i、j)、Hc(i、j)が、第1
のDNA塩基配列のi番目の塩基と第2のDNA塩基配
列のj番目の塩基との類似度を表わすスコアs(i、
j)と、ギャップペナルティスコアpと、及び、移動も
とのスコアマトリックス要素(i−1、j−1)、(i
−1、j)、(i、j−1)に於ける類似度(スコア)
の総計H(i−1、j−1)、H(i−1、j)、H
(i、j−1)を使用して、(数1)、(数2)、(数
3)により各々定義される。H(i、j)として、Ha
(i、j)、Hb(i、j)、Hc(i、j)のうちの最
大値((数4))を選ぶ。なお、上記のスコアs(i、
j)は、予め記憶されているスコアテーブルを使用して
決定でき、例えば、一致する1塩基の対に対するスコア
は4点、n塩基の挿入、又は欠失が存在する時のスコア
は(−8n−4)点、異なる1塩基の対に対するスコア
は(−3)点が設定されている。
The value H of the score matrix element (i, j)
(I, j) is the overall similarity (score) between the base sequence up to the i-th base of the first DNA base sequence and the base sequence up to the j-th base of the second DNA base sequence Represents the total of. The total H of the similarities (scores) corresponding to the moving paths in the directions a, b, and c shown in FIG.
a (i, j), H b (i, j), H c (i, j) are the first
Score s (i, which represents the degree of similarity between the i-th base of the DNA base sequence and the j-th base of the second DNA base sequence
j), the gap penalty score p, and the source score matrix elements (i-1, j-1), (i
-1, j), (i, j-1) similarity (score)
Of H (i-1, j-1), H (i-1, j), H
Using (i, j-1), each is defined by (Equation 1), (Equation 2), (Equation 3). As H (i, j), H a
The maximum value ((Equation 4)) of (i, j), H b (i, j), and H c (i, j) is selected. The score s (i,
j) can be determined using a pre-stored score table. For example, the score for a matching 1 base pair is 4 points, and the score when an n base insertion or deletion is (-8n). -4) and the score for different one base pairs are set to (-3).

【0015】 Ha(i、j)=H(i−1、j−1)+s(i、j) …(数1) Hb(i、j)=H(i、j−1)+p …(数2) Hc(i、j)=H(i−1、j)+p …(数3) H(i、j)=max{Ha(i、j)、Hb(i、j)、Hc(i、j)} …(数4) なお、移動経路bに於いて加算されるギャップペナルテ
ィスコアpは、第1のDNA塩基配列のi番目の塩基の
後の塩基の欠失の存在に対応し、移動経路cに於いて加
算されるギャップペナルティスコアpは、第2のDNA
塩基配列のj番目の塩基の後の塩基の欠失の存在に対応
する。
[0015] H a (i, j) = H (i-1, j-1) + s (i, j) ... ( number 1) H b (i, j ) = H (i, j-1) + p ... (Equation 2) H c (i, j) = H (i−1, j) + p (Equation 3) H (i, j) = max {H a (i, j), H b (i, j) , H c (i, j)} (Equation 4) It should be noted that the gap penalty score p added in the movement path b is calculated based on the deletion of the base after the i-th base of the first DNA base sequence. The gap penalty score p corresponding to the existence and added in the movement path c is the second DNA.
Corresponds to the presence of a base deletion after the jth base in the base sequence.

【0016】スコアマトリックス要素(1、1)からス
コアマトリックス要素(M、N)に向かう移動経路に沿
って、iを1、2、→M、jを=1、2、→Nと変化さ
せて、第1、第2のDNA塩基配列の比較を行ない、移
動経路に応じてスコア、又はギャップペナルティスコア
を加算して行き、第1のDNA塩基配列と第2のDNA
塩基配列との間での全体としての類似度(スコア)の総
計が最大となるH*=H(M、N)が求められ、この結
果、第1、第2のDNA塩基配列の間での類似性が最も
良くなる並べ方、即ち、第1のDNA塩基配列の各塩基
と、第2のDNA塩基配列の各塩基の最適な対応関係を
表わす最適並置(アラインメント)を求めることができ
る。
Along the moving path from the score matrix element (1, 1) to the score matrix element (M, N), i is changed to 1, 2, → M, j is changed to 1, 2, → N. The first DNA base sequence and the second DNA base sequence are compared with each other by adding a score or a gap penalty score according to the movement route.
H * = H (M, N), which maximizes the total similarity (score) with the base sequence, is obtained, and as a result, between the first and second DNA base sequences. It is possible to find the arrangement in which the similarity is the best, that is, the optimum alignment (alignment) that represents the optimum correspondence relationship between each base of the first DNA base sequence and each base of the second DNA base sequence.

【0017】なお、第3の従来技術は、2つのDNA塩
基配列の類似性の検討の他に、2つのアミノ酸配列の類
似性の検討にも使用できる。
The third conventional technique can be used for examining the similarity between two amino acid sequences as well as for examining the similarity between two DNA base sequences.

【0018】[0018]

【発明が解決しようとする課題】上記の第1の従来技術
では、DNA塩基配列に塩基の挿入、又は欠失が存在す
る場合には、塩基の挿入、又は欠失が存在する箇所でフ
レームシフトが起こり、このフレームシフトを起した位
置より後の塩基配列では、本来有するアミノ酸配列の類
似性を失ない、本来有するはずのアミノ酸配列を抽出で
きず検索もれを生じるという問題がある。6種類のフレ
ームのうち、例えば、一方のDNA塩基配列のフレーム
(1)で翻訳されたアミノ酸配列に非常に類似するアミ
ノ酸配列が、他方のDNA塩基配列の翻訳アミノ酸配列
に存在したとしても、DNA塩基配列の塩基の挿入、又
は欠失が存在する場合には、挿入、又は欠失が存在する
場所から後の塩基配列ではフレームの位置がフレーム
(2)、又は(3)に変更されてしまう。従来技術で
は、DNA塩基配列に於ける塩基の挿入、又は欠失によ
り生じる読み枠の位置に変更が生じる場合を考慮したD
NA塩基配列比較方法、検索方法は開示されていない。
In the first prior art described above, when there is a base insertion or deletion in the DNA base sequence, a frame shift is made at the position where the base insertion or deletion exists. However, there is a problem in that the base sequence after the position where this frame shift occurs does not lose the similarity of the amino acid sequence that it originally has, and the amino acid sequence that should have it cannot be extracted, resulting in missing search. Of the six types of frames, for example, even if an amino acid sequence very similar to the amino acid sequence translated in frame (1) of one DNA base sequence exists in the translated amino acid sequence of the other DNA base sequence, When there is an insertion or deletion of a base in the base sequence, the position of the frame is changed to frame (2) or (3) in the base sequence after the position where the insertion or the deletion exists. . In the prior art, D considering the case where the position of the reading frame caused by the insertion or deletion of the base in the DNA base sequence is changed.
Neither NA base sequence comparison method nor search method is disclosed.

【0019】上記の第2の従来技術の、TBLASTX
を含むBLASTファミリーでは、計算の高速化を確保
するために、DNA塩基配列に於ける塩基、又はアミノ
酸配列に於けるアミノ酸の挿入、又は欠失によるギャッ
プを考慮していないため、検索もれが生じるという問題
がある。
The above-mentioned second prior art TBLASTX
In the BLAST family that includes, because no gaps due to insertions or deletions of bases in the DNA base sequence or amino acids in the amino acid sequence are taken into consideration in order to ensure high-speed calculation, there is a missing search. There is a problem that it will occur.

【0020】上記の第3の従来技術は、正確な検索方法
の1つであるが、DNA塩基配列の1塩基毎に関して比
較を実行するため長時間を要するという問題がある。ま
た、第3の従来技術に第1の従来技術を組合せて、2つ
のDNA塩基配列(Query DNA base s
equenceとTarget DNA basese
quence)を各々アミノ酸配列に翻訳した後に、翻
訳アミノ酸配列どうしを比較する場合には、第1の従来
技術で説明した6種類フレームに対応して翻訳されて得
られた第1、第2のDNA塩基配列に関する翻訳アミノ
酸配列の組合せ(36種類)の各々に対して比較を実行
する必要があるために、更に検索時間を要するという問
題がある。
The above-mentioned third conventional technique is one of the accurate search methods, but it has a problem that it takes a long time to perform the comparison for each base of the DNA base sequence. In addition, by combining the first conventional technique with the third conventional technique, two DNA base sequences (Query DNA bases) are combined.
Sequence and Target DNA base
When the translated amino acid sequences are compared with each other after being translated into amino acid sequences, the first and second DNAs obtained by translation corresponding to the six types of frames described in the first conventional technique. Since it is necessary to perform the comparison for each combination (36 types) of translated amino acid sequences related to the base sequence, there is a problem that it takes more search time.

【0021】更に、第3の従来技術のSmith−Wa
terman法を第1の従来技術と組合せた場合、アミ
ノ酸単位、又はDNA塩基配列のコドン単位での挿入又
は欠失を考慮できるが、DNA塩基配列に於けるコドン
単位の倍数以外の塩基単位での挿入又は欠失を考慮でき
ないという問題、従って、フレームの位置の変更を考慮
できないという問題点がある。
Furthermore, the Smith-Wa of the third prior art is used.
When the terman method is combined with the first conventional technique, insertion or deletion in an amino acid unit or a codon unit of a DNA base sequence can be considered, but in a base unit other than a multiple of the codon unit in the DNA base sequence. There is a problem that the insertion or the deletion cannot be taken into consideration, and hence the change of the position of the frame cannot be taken into consideration.

【0022】従来技術では、DNA塩基配列に存在す
る、塩基の挿入、又は欠失が原因で生じる誤った検索結
果の発生を防止することは、考慮されていなかった。即
ち、塩基の挿入、又は欠失の存在を考慮してDNA塩基
配列をアミノ酸配列に翻訳することは考慮されていなか
った公知文献ではないが、特願平7−265157号
(文献3)には、第1、第2のDNA塩基配列を各々3
塩基づつに区分して第1、第2の中間DNA塩基配列を
生成し、第1、第2の中間DNA塩基配列をアミノ酸に
翻訳して第1、第2の翻訳アミノ酸配列を生成し、第1
のDNA塩基配列と第1の中間DNA塩基配列との間で
の第1の類似度と、第2のDNA塩基配列と第2の中間
DNA塩基配列との間での第2の類似度と、第1の翻訳
アミノ酸配列と第2の翻訳アミノ酸配列との間での第3
の類似度とを求め、第1、第2、第3の類似度から所定
の関数を使用して得られるパラメータが最大となるよう
に第1と第2の中間DNA塩基配列、及び第1と第2の
翻訳アミノ酸配列を選択する、DNA塩基配列比較方法
が開示されている。
In the prior art, it was not considered to prevent the occurrence of erroneous search results caused by the insertion or deletion of bases existing in the DNA base sequence. That is, translation of a DNA base sequence into an amino acid sequence in consideration of the presence or absence of base insertion or deletion is not a known document, but Japanese Patent Application No. 7-265157 (Reference 3) describes , The first and second DNA base sequences are each 3
The first and second intermediate DNA base sequences are generated by dividing them into bases, and the first and second intermediate DNA base sequences are translated into amino acids to generate the first and second translated amino acid sequences. 1
A first similarity between the DNA base sequence and the first intermediate DNA base sequence, and a second similarity between the second DNA base sequence and the second intermediate DNA base sequence, Third between the first translated amino acid sequence and the second translated amino acid sequence
Of the first, second, and third similarities so that the parameter obtained by using a predetermined function becomes maximum, and the first and second intermediate DNA base sequences, and the first and second intermediate DNA base sequences A method for comparing DNA base sequences, which selects the second translated amino acid sequence, is disclosed.

【0023】また、公知文献ではないが、特願平8−1
67770号(文献4)には、検索DNA塩基配列(Q
uery DNA base sequence)を塩
基の挿入、又は欠失を考慮してアミノ酸に翻訳して得ら
れた翻訳アミノ酸配列と、アミノ酸データベースから読
み出したアミノ酸配列(Target aminoac
id sequence)とを、Smith−Wate
rman法に基づいて比較し、翻訳アミノ酸配列のi番
目のアミノ酸とTarget aminoacid s
equenceのj番目のアミノ酸との比較に於けるス
コア(類似度)を7種類の経路を考慮して評価して、翻
訳アミノ酸配列とTarget amino acid
sequenceとの置を行なう配列比較方法が開示
される。
Although not a known document, Japanese Patent Application No. 8-1
No. 67770 (Reference 4) contains a search DNA base sequence (Q
A translated amino acid sequence obtained by translating a user DNA base sequence into an amino acid in consideration of insertion or deletion of a base, and an amino acid sequence (Target aminoac) read from an amino acid database.
id sequence) and Smith-Wate
Based on the rman method, the i-th amino acid in the translated amino acid sequence was compared with the target aminoacids.
The score (similarity) in the comparison with the jth amino acid of the sequence was evaluated in consideration of the seven types of pathways, and the translated amino acid sequence and the Target amino acid
Disclosed is a sequence comparison method that performs a sequence comparison with a sequence.

【0024】しかし、文献3には、動的計画法の演算に
於ける具体的な経路に関する技術は開示されていない。
更に、文献4に、検索DNA塩基配列をアミノ酸配列に
翻訳する際に、1、又は2塩基ずらしてコドンを切り出
してアミノ酸に翻訳する方法(本発明の第1の翻訳方法
に対応する)の開示があるが、後で詳細に説明する本発
明の第2、及び第3の翻訳方法の開示はない。また、文
献4には、検索DNA塩基配列から得られる翻訳アミノ
酸配列を、DNA塩基配列データベースから読み出され
たDNA塩基配列をアミノ酸に翻訳された翻訳アミノ酸
配列と比較する技術は開示されていない。
However, Document 3 does not disclose a technique regarding a specific path in the operation of dynamic programming.
Further, in Reference 4, a method for translating a search DNA base sequence into an amino acid sequence by translating a codon by shifting 1 or 2 bases and translating it into an amino acid (corresponding to the first translation method of the present invention) is disclosed. However, there is no disclosure of the second and third translation methods of the present invention, which will be described in detail later. Further, Document 4 does not disclose a technique of comparing a translated amino acid sequence obtained from a searched DNA base sequence with a translated amino acid sequence obtained by translating a DNA base sequence read from a DNA base sequence database into amino acids.

【0025】本発明の目的は、DNA塩基配列に存在す
る塩基の挿入、及び欠失を考慮して、検索DNA塩基配
列(Query DNA base sequenc
e)、DNA塩基配列データベースから読み出されたD
NA塩基配列(TargetDNA base seq
uence)を、各々アミノ酸配列に翻訳することによ
り、翻訳アミノ酸配列を介在させて2つのDNA塩基配
列の間での比較を行ない、検索もれの少ないDNA塩基
配列比較方法を提供し、特にDNA塩基配列の間での類
似度を感度良く検出する方法、及び検索DNA塩基配列
がコードするアミノ酸配列の推定法を提供することにあ
る。
The object of the present invention is to consider the insertion and deletion of the bases existing in the DNA base sequence and to consider the query DNA base sequence (Query DNA base sequence).
e), D read from the DNA nucleotide sequence database
NA base sequence (Target DNA base seq
of the DNA base sequences are translated into amino acid sequences, and the two amino acid base sequences are compared with each other by interposing the translated amino acid sequences. It is intended to provide a method for detecting similarity between sequences with high sensitivity and a method for estimating an amino acid sequence encoded by a search DNA base sequence.

【0026】[0026]

【課題を解決するための手段】本発明のDNA塩基配列
比較方法では、先ず、第1と第2のDNA塩基配列の間
での類似度を比較する際に、各DNA塩基配列を挿入、
又は欠失を含む3塩基毎に分割する。分割された各3塩
基をコドン表に基づいてアミノ酸に翻訳し、得られた第
1と第2の翻訳アミノ酸配列の間で、各アミノ酸配列で
のアミノ酸の挿入、及び欠失を考慮してアミノ酸どうし
の類似度を総計してスコア(類似度)総計を得る。類似
度の総計(スコア総計)が最大となる、第1と第2の翻
訳アミノ酸配列のアミノ酸どうしの組合せを求め、スコ
ア総計の最大値と、第1と第2の翻訳アミノ酸配列の並
置と、第1の翻訳アミノ酸配列に対応するDNA塩基配
列と第2の翻訳アミノ酸配列に対応するDNA塩基配列
との間での並置を得る。上記第1のDNA塩基配列とし
て検索DNA塩基配列(特定の注目するDNA塩基配
列、Query DNA base sequenc
e)を、上記第2のDNA塩基配列として、各種のDN
A塩基配列データベースから読み出した既知のDNA塩
基配列(Target DNA base seque
nce)を使用する。
In the DNA nucleotide sequence comparison method of the present invention, first, when comparing the similarity between the first and second DNA nucleotide sequences, each DNA nucleotide sequence is inserted,
Alternatively, divide every 3 bases containing the deletion. Each of the three divided bases is translated into an amino acid based on the codon table, and the amino acids are inserted between the obtained first and second translated amino acid sequences in consideration of insertion and deletion of amino acids in each amino acid sequence. The similarities are summed up to obtain the total score (similarity). A combination of amino acids of the first and second translated amino acid sequences having the maximum total similarity (score total) is obtained, and the maximum score total value and the juxtaposition of the first and second translated amino acid sequences are arranged. The alignment between the DNA base sequence corresponding to the first translated amino acid sequence and the DNA base sequence corresponding to the second translated amino acid sequence is obtained. A search DNA base sequence (specific DNA base sequence of interest, Query DNA base sequence) is used as the first DNA base sequence.
e) as the above-mentioned second DNA base sequence, and various DN
A known DNA base sequence read from the A base sequence database (Target DNA base sequence)
nce).

【0027】本発明のDNA塩基配列比較方法で使用す
る、DNA塩基配列からアミノ酸配列への翻訳方法で
は、第1、第2、及び第3の翻訳方法を組合せて使用す
る。
In the method for translating a DNA base sequence into an amino acid sequence used in the method for comparing DNA base sequences of the present invention, the first, second and third translation methods are used in combination.

【0028】第1の翻訳方法では、DNA塩基配列を読
み出すフレームを、DNA塩基配列の末端から3塩基単
位で順次1塩基づつずらしながら、所定の翻訳規則に従
ってアミノ酸配列に翻訳する。
In the first translation method, a frame for reading a DNA base sequence is translated into an amino acid sequence according to a predetermined translation rule while sequentially shifting the bases by 3 bases in units of 3 bases from the end of the DNA base sequence.

【0029】第2の翻訳方法では、DNA塩基配列を読
み出すフレームを、DNA塩基配列の末端から4塩基単
位で順次1塩基づつずらし、4塩基のうちの2番目の塩
基を挿入された塩基と見做して、4塩基のうちの残りの
3塩基を使用して、所定の翻訳規則に従ってアミノ酸配
列に翻訳する。
In the second translation method, the frame for reading the DNA base sequence is sequentially shifted by 1 base in units of 4 bases from the end of the DNA base sequence, and the second of the 4 bases is regarded as the inserted base. The remaining 3 bases out of 4 bases are used to translate into an amino acid sequence according to a predetermined translation rule.

【0030】第3の翻訳方法では、DNA塩基配列を読
み出すフレームを、DNA塩基配列の末端から4塩基単
位で順次1塩基づつずらし、4塩基のうちの3番目の塩
基を挿入された塩基と見做して、4塩基のうちの残りの
3塩基を使用して、所定の翻訳規則に従ってアミノ酸配
列に翻訳する。
In the third translation method, the frame for reading the DNA base sequence is sequentially shifted by one base in units of four bases from the end of the DNA base sequence, and the third base of the four bases is regarded as the inserted base. The remaining 3 bases out of 4 bases are used to translate into an amino acid sequence according to a predetermined translation rule.

【0031】本発明のDNA塩基配列比較方法では、第
1、第2のDNA塩基配列から翻訳された第1、第2の
翻訳アミノ酸配列どうしの配列比較方法として、スコア
(類似度)総計を求める計算方法に動的計画法を用い
る。動的計画法に於ける演算では、第1、第2のDNA
塩基配列から上記の第1の翻訳方法によって各々翻訳さ
れた、第1、第2の翻訳アミノ酸配列で構成されるスコ
アマトリックスの要素(i、j)で表わされる第1の翻
訳アミノ酸配列のi番目のアミノ酸と第2の翻訳アミノ
酸配列のj番目のアミノ酸のスコア(類似度)を総計す
る際に、k≧1、m≧1を満たす整数、n≧2を満たす
整数とする時に、スコアマトリックス要素、(i−3、
j−3)、(i、j−3k)、(i−3k、j)、(i
−3n+1、j−3n)、(i−3n、j−3n+
1)、(i−3m、j−3m−1)、(i−3m−1、
j−3m)からの7つの経路を考慮する。k=1、m=
1、n=2の場合には、スコアマトリックス要素、(i
−3、j−3)、(i、j−3)、(i−3、j)、
(i−5、j−6)、(i−6、j−5)、(i−3、
j−4)、(i−4、j−3)からの経路を考慮するこ
とになる。但し、( )内の各要素は正の数とする。な
お、i≦M(Mは、第1の翻訳アミノ酸配列に於けるア
ミノ酸の数)、j≦N(Nは、第2の翻訳アミノ酸配列
に於けるアミノ酸の数)である。
In the DNA base sequence comparison method of the present invention, a total score (similarity) is obtained as a sequence comparison method between first and second translated amino acid sequences translated from the first and second DNA base sequences. Dynamic programming is used as the calculation method. In the calculation in dynamic programming, the first and second DNA
The i-th position of the first translated amino acid sequence represented by the element (i, j) of the score matrix composed of the first and second translated amino acid sequences, each translated from the base sequence by the above-mentioned first translation method When the scores (similarity) of the amino acid of γ and the j-th amino acid of the second translated amino acid sequence are summed, an integer satisfying k ≧ 1, m ≧ 1 and an integer satisfying n ≧ 2 are score matrix elements. , (I-3,
j-3), (i, j-3k), (i-3k, j), (i
-3n + 1, j-3n), (i-3n, j-3n +
1), (i-3m, j-3m-1), (i-3m-1,
Consider 7 routes from j-3m). k = 1, m =
If 1, n = 2, score matrix element, (i
-3, j-3), (i, j-3), (i-3, j),
(I-5, j-6), (i-6, j-5), (i-3,
j-4) and (i-4, j-3) will be considered. However, each element in parentheses is a positive number. Note that i ≦ M (M is the number of amino acids in the first translated amino acid sequence) and j ≦ N (N is the number of amino acids in the second translated amino acid sequence).

【0032】本発明のDNA塩基配列比較方法を図3を
使用して要約すると以下の通りである。検索DNA塩基
配列、データベースから読み出したDNA塩基配列を各
々アミノ酸配列に翻訳し(304、306)、塩基、ア
ミノ酸の挿入、欠失を考慮して翻訳アミノ酸配列の間で
の類似度を算出し、動的計画法によるスコア総計の演算
(307)を実行し、比較検索の結果得られた上位スコ
ア総計を与える2つの翻訳アミノ酸配列に対する、動的
計画法による上位スコア総計及び経路の演算(312)
と、スコア総計の最大値を与える経路のトレース演算
(313)とを実行して、翻訳アミノ酸配列間での並置
結果をDNA塩基配列の並置と併せて表示する。比較す
る2つのDNA塩基配列に挿入、欠失が存在する場合に
も、翻訳アミノ酸配列を介在させてDNA塩基配列間で
の類似度の比較は可能となり、検索の感度が向上する。
The DNA nucleotide sequence comparison method of the present invention is summarized as follows using FIG. The search DNA base sequence and the DNA base sequence read from the database are translated into amino acid sequences (304, 306), and the similarity between the translated amino acid sequences is calculated in consideration of the insertion and deletion of bases and amino acids, Calculation of total score by dynamic programming (307) and calculation of total upper score and path by dynamic programming for two translated amino acid sequences that give the total upper score obtained as a result of comparative search (312)
And the trace calculation (313) of the path that gives the maximum score total, and the alignment result between translated amino acid sequences is displayed together with the alignment of DNA base sequences. Even when there are insertions and deletions in the two DNA base sequences to be compared, it is possible to compare the similarity between the DNA base sequences by interposing the translated amino acid sequence, and the search sensitivity is improved.

【0033】[0033]

【発明の実施の形態】以下、DNA塩基配列データベー
スを使用して、検索DNA塩基配列(問い合わせのDN
A塩基配列)に対する検索を実行する例をとって説明す
る。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, a search DNA base sequence (query DN
An example of executing the search for the (A base sequence) will be described.

【0034】図3は、本発明の実施例に於ける処理工程
の例を説明するフロー図である。図3を使用して、本発
明の実施例のDNA塩基配列比較方法の概要を説明す
る。先ず、(工程301)から(工程304)を実行す
る。
FIG. 3 is a flow chart for explaining an example of processing steps in the embodiment of the present invention. An outline of the DNA nucleotide sequence comparison method of the example of the present invention will be described with reference to FIG. First, (step 301) to (step 304) are executed.

【0035】(工程301):アミノ酸の対の類似度を
表わすスコアテーブルを入力する。
(Step 301): A score table representing the degree of similarity of amino acid pairs is input.

【0036】(工程302):DNA塩基配列データベ
ースを検索した結果、出力装置に出力表示する、上位ス
コア総計を持つ検索結果の出力数を入力する。
(Step 302): As a result of searching the DNA base sequence database, the number of output of the search result having the total upper scores, which is output and displayed on the output device, is input.

【0037】(工程303):検索DNA塩基配列(Q
uery DNA base sequence)を入
力する。
(Step 303): Search DNA base sequence (Q
Enter the user DNA base sequence.

【0038】(工程304)検索DNA塩基配列、及び
検索DNA塩基配列の相補鎖配列を、後で説明する第
1、第2、第3の各翻訳方法により、アミノ酸配列に翻
訳して翻訳アミノ酸配列A1、A2、A3、A4、A5、A6
を得る。
(Step 304) The translated DNA sequence is translated into an amino acid sequence by the first, second, and third translation methods, which will be described later, and the translated amino acid sequence. A 1 , A 2 , A 3 , A 4 , A 5 , A 6
To get

【0039】翻訳アミノ酸配列A1は検索DNA塩基配
列から第1の翻訳方法により翻訳される。翻訳アミノ酸
配列A2は検索DNA塩基配列の相補鎖配列から第1の
翻訳方法により翻訳される。翻訳アミノ酸配列A3は検
索DNA塩基配列から第2の翻訳方法により翻訳され
る。翻訳アミノ酸配列A4は検索DNA塩基配列から第
3の翻訳方法により翻訳される。翻訳アミノ酸配列A5
は検索DNA塩基配列の相補鎖配列から第2の翻訳方法
により翻訳される。翻訳アミノ酸配列A6は検索DNA
塩基配列の相補鎖配列から第3の翻訳方法により翻訳さ
れる。
The translated amino acid sequence A 1 is translated from the searched DNA base sequence by the first translation method. The translated amino acid sequence A 2 is translated by the first translation method from the complementary chain sequence of the searched DNA base sequence. The translated amino acid sequence A 3 is translated from the searched DNA base sequence by the second translation method. The translated amino acid sequence A 4 is translated from the searched DNA base sequence by the third translation method. Translated amino acid sequence A 5
Is translated by the second translation method from the complementary strand sequence of the search DNA base sequence. The translated amino acid sequence A 6 is the search DNA
It is translated by the third translation method from the complementary chain sequence of the base sequence.

【0040】次に、DNA塩基配列データベースから読
み出された全てのDNA塩基配列(Target DN
A base sequence)に対して、以下の
(工程305)から(工程308)を実行する。
Next, all DNA base sequences (Target DN) read from the DNA base sequence database
The following (step 305) to (step 308) are executed for A base sequence.

【0041】(工程305):DNA塩基配列データベ
ースからDNA塩基配列(Target DNA ba
se sequence)を読み出す。
(Step 305): DNA base sequence (Target DNA ba) from the DNA base sequence database
(se sequence) is read.

【0042】(工程306):読み出されたDNA塩基
配列、及び読み出されたDNA塩基配列の相補鎖配列
を、後で説明する第1、第2、第3の各翻訳方法によ
り、アミノ酸配列に翻訳して翻訳アミノ酸配列B1
2、B3、B4、B5、B6を得る。
(Step 306): The read DNA base sequence and the complementary strand sequence of the read DNA base sequence are subjected to an amino acid sequence by each of the first, second and third translation methods described later. Translated into the translated amino acid sequence B 1 ,
B 2 , B 3 , B 4 , B 5 , and B 6 are obtained.

【0043】翻訳アミノ酸配列B1は読み出されたDN
A塩基配列から第1の翻訳方法により翻訳される。翻訳
アミノ酸配列B2は読み出されたDNA塩基配列の相補
鎖配列から第1の翻訳方法により翻訳される。翻訳アミ
ノ酸配列B3は読み出されたDNA塩基配列から第2の
翻訳方法により翻訳される。翻訳アミノ酸配列B4は読
み出されたDNA塩基配列から第3の翻訳方法により翻
訳される。翻訳アミノ酸配列B5は読み出されたDNA
塩基配列の相補鎖配列から第2の翻訳方法により翻訳さ
れる。翻訳アミノ酸配列B6は読み出されたDNA塩基
配列の相補鎖配列から第3の翻訳方法により翻訳され
る。
The translated amino acid sequence B 1 is the read DN
The A base sequence is translated by the first translation method. The translated amino acid sequence B 2 is translated from the complementary chain sequence of the read DNA base sequence by the first translation method. The translated amino acid sequence B 3 is translated from the read DNA base sequence by the second translation method. The translated amino acid sequence B 4 is translated from the read DNA base sequence by the third translation method. The translated amino acid sequence B 5 is the read DNA
The complementary chain sequence of the base sequence is translated by the second translation method. The translated amino acid sequence B 6 is translated by the third translation method from the complementary chain sequence of the read DNA base sequence.

【0044】(工程307):(工程304)、及び工
程(306)で得られた4種類の翻訳アミノ酸配列の組
合せ、即ち、(a)翻訳アミノ酸配列A1とB1の組合
せ、(b)翻訳アミノ酸配列A1とB2の組合せ、(c)
翻訳アミノ酸配列A2とB1の組合せ、(d)翻訳アミノ
酸配列A2とB2の組合せ、の4種の組合せに対して、翻
訳アミノ酸配列どうしの類似度の総計を、動的計画法に
より各々算出する。
(Step 307): Combination of four kinds of translated amino acid sequences obtained in (Step 304) and Step (306), that is, (a) combination of translated amino acid sequences A 1 and B 1 , (b) A combination of translated amino acid sequences A 1 and B 2 , (c)
For the four combinations of the translated amino acid sequences A 2 and B 1 and (d) the translated amino acid sequences A 2 and B 2 , the total similarity between the translated amino acid sequences was calculated by dynamic programming. Calculate each.

【0045】(工程308):検索結果の出力数までの
上位スコア総計を持つDNA塩基配列を選択し、上位ス
コア総計を持つDNA塩基配列の情報をDNA塩基配列
データベースから読み出して記憶しておく。
(Step 308): A DNA base sequence having a total of upper scores up to the number of output of the search result is selected, and information of the DNA base sequence having the total of upper scores is read from the DNA base sequence database and stored.

【0046】次に、DNA塩基配列データベースから読
み出された全てのDNA塩基配列に対して、以下の(工
程305)から(工程308)を実行した後に、(工程
309)から(工程311)を実行する。
Next, after performing the following (step 305) to (step 308) for all the DNA base sequences read from the DNA base sequence database, (step 309) to (step 311) are performed. Run.

【0047】(工程309):類似度(スコア)の総計
の値の大きい方から並べて、検索結果の出力数に対応す
る上位スコア総計をソートする。
(Step 309): The highest total score corresponding to the number of output of the search result is sorted by arranging from the largest total value of the similarity (score).

【0048】(工程310):上位スコア総計を持つD
NA塩基配列を、ディスプレイ(図18の403)に表
示する。この時、上位スコア総計を持つDNA塩基配列
をハードディスク等の外部記憶装置(図18の404)
に出力しても良い。
(Step 310): D having the total of the upper scores
The NA base sequence is displayed on the display (403 in FIG. 18). At this time, the DNA base sequence having the total upper scores is stored in an external storage device such as a hard disk (404 in FIG. 18).
You may output to.

【0049】(工程311):(工程310)で、表示
された上位スコア総計から判断して、並置結果の表示を
行なうことが望ましいと考えられる検索比較結果の数
(並置結果の出力数)を入力する。
(Step 311): In (Step 310), the number of retrieval comparison results (the number of outputs of the juxtaposition result) which is considered to be desirable to display the juxtaposition result is judged from the displayed total upper scores. input.

【0050】次に、並置結果を表示するDNA塩基配列
(Target DNA basesequenc
e))の全てについて、(工程312)から(工程31
4)を実行する。
Next, a DNA base sequence (Target DNA base sequence) displaying the alignment result is displayed.
e)), from (step 312) to (step 31)
Execute 4).

【0051】(工程312):動的計画法によるスコア
総計及び経路を演算する。
(Step 312): The total score and the route by the dynamic programming are calculated.

【0052】(工程313):スコア総計を与える経路
のトレースを演算することにより、検索DNA塩基配列
とDNA塩基配列データベースのDNA塩基配列から得
られた2つの翻訳アミノ酸配列の間での並置結果と、各
翻訳アミノ酸配列に対応するDNA塩基配列の間での並
置結果を得る。
(Step 313): By calculating the trace of the route that gives the total score, the alignment result between the searched DNA base sequence and the two translated amino acid sequences obtained from the DNA base sequence of the DNA base sequence database and , Alignment results between DNA base sequences corresponding to each translated amino acid sequence are obtained.

【0053】(工程314):(工程313)で得られ
た並置結果をディスプレイ(図18の403)に表示す
る。同時にハードディスク等の外部記憶装置(図18の
404)に出力しても良い。
(Step 314): The juxtaposed result obtained in (Step 313) is displayed on the display (403 in FIG. 18). At the same time, the data may be output to an external storage device (404 in FIG. 18) such as a hard disk.

【0054】図4は、本発明の実施例に於いて使用し
た、アミノ酸の対に付与するスコアを規定する従来技術
のテーブルの一例である、Blosum62を示す図で
ある。図4の横軸、及び縦軸に示す、A、R、N、…、
W、Y、Vは、アミノ酸の略号である。記号「B(As
*)」は、Asn、又はAspの何れかであることを示
し、記号「Z(Gl*)」は、Gln、又はGluの何
れかであることを示し、記号「X(***)」は、翻訳
不能か不明のアミノ酸を示し、号「O(Stp)」は、
終了コドンを示す。
FIG. 4 is a diagram showing Blosum 62, which is an example of a table of the prior art which defines the scores to be given to the amino acid pairs used in the examples of the present invention. A, R, N, ..., Shown on the horizontal and vertical axes of FIG.
W, Y, V are abbreviations for amino acids. Symbol "B (As
*) "Indicates either Asn or Asp, the symbol" Z (Gl *) "indicates either Gln or Glu, and the symbol" X (***) " Indicates an untranslatable or unknown amino acid, and the number "O (Stp)" indicates
Indicates the termination codon.

【0055】以下の説明では、塩基の挿入、及び欠失が
存在することを考慮した、検索DNA塩基配列、DNA
塩基配列データベースから読み出されたDNA塩基配列
の各塩基配列を、各々アミノ酸配列に翻訳する方法
((工程304)、(工程306)について説明する。
In the following description, the searched DNA base sequence and DNA are considered in consideration of the insertion and deletion of bases.
A method of translating each base sequence of the DNA base sequence read from the base sequence database into an amino acid sequence ((step 304), (step 306) will be described.

【0056】図5は、コドン表の3塩基単位(コドン単
位)の各々に対応して、アミノ酸への翻訳の終止、アミ
ノ酸の種類を規定する、従来技術のコドン表を示す図で
ある。( )内の記号は1文字表記のアミノ酸の略号を
示す。図5に従って、DNA塩基配列は3塩基単位(コ
ドン)毎に1種類のアミノ酸にコードされる。
FIG. 5 is a diagram showing a codon table of the prior art in which the termination of translation into amino acids and the types of amino acids are defined in correspondence with each of the three base units (codon units) in the codon table. The symbols in parentheses indicate the abbreviations for the one-letter amino acids. According to FIG. 5, the DNA base sequence is encoded by one type of amino acid every 3 base units (codon).

【0057】図6は、本発明の実施例に於ける、DNA
塩基配列をアミノ酸配列に翻訳するする第1の翻訳方法
を説明する図である。第1の翻訳方法では、DNA塩基
配列の5’末端からコドン(3塩基)を切り出して図5
に従ってアミノ酸に翻訳し、次に、1塩基ずらしてコド
ンを切り出して図5に従ってアミノ酸に翻訳する。以下
同様に、1塩基づつずらして翻訳を続け、切り出された
コドンの最後の塩基が、DNA塩基配列の3’末端の最
後の塩基と一致するまで繰り返し、DNA塩基配列をア
ミノ酸配列に翻訳して、翻訳アミノ酸配列A1、又はB1
を得る。DNA塩基配列の相補鎖配列についても同様に
図5に従ってアミノ酸配列に翻訳して、翻訳アミノ酸配
列A2、又はB2を得る。この結果、第1の翻訳方法を使
用して合計2種類の翻訳アミノ酸配列(A1、A2;又
は、B1、B2)が得られる。
FIG. 6 shows DNA in the embodiment of the present invention.
It is a figure explaining the 1st translation method which translates a base sequence into an amino acid sequence. In the first translation method, a codon (3 bases) was cut out from the 5'end of the DNA base sequence, and
According to FIG. 5, it is translated into an amino acid, then the codon is excised by shifting one base and translated into an amino acid according to FIG. Similarly, the translation is continued by shifting one base at a time until the last base of the excised codon coincides with the last base at the 3'end of the DNA base sequence, and the DNA base sequence is translated into an amino acid sequence. , The translated amino acid sequence A 1 or B 1
To get Similarly, the complementary chain sequence of the DNA base sequence is translated into an amino acid sequence according to FIG. 5 to obtain a translated amino acid sequence A 2 or B 2 . As a result, a total of two types of translated amino acid sequences (A 1 , A 2 ; or B 1 , B 2 ) can be obtained using the first translation method.

【0058】図6に示す例では、DNA塩基配列の例と
して、ATGCC、…、CGATを選んでおり、5’末
端からコドンATGを切り出して図5に従ってアミノ酸
Mに翻訳し、1塩基ずらしてコドンTGCを切り出して
図5に従ってアミノ酸Cに翻訳し、以下同様に、1塩基
づつずらしてコドンGCC、…、CGA、GATを切り
出して、アミノ酸A、…、R、Dに翻訳する。この結果
得られる翻訳アミノ酸配列は、MCA、…、RDとな
る。図6に示すように、DNA塩基配列の相補鎖配列A
TCG、…、GGCATについても同様に図5に従って
アミノ酸配列に翻訳して、翻訳アミノ酸配列として、I
S、…、GAHを得る。
In the example shown in FIG. 6, ATGCC, ..., CGAT is selected as an example of the DNA base sequence, and the codon ATG is cut out from the 5 ′ end and translated into amino acid M according to FIG. TGC is excised and translated into amino acid C according to FIG. 5, and similarly, codons GCC, ..., CGA, GAT are excised by shifting by one base, and translated into amino acids A, ..., R, D. The resulting translated amino acid sequence is MCA, ..., RD. As shown in FIG. 6, the complementary strand sequence A of the DNA base sequence
Similarly, TCG, ..., GGCAT are translated into amino acid sequences according to FIG.
S, ..., GAH is obtained.

【0059】図7は、本発明の実施例に於ける、DNA
塩基配列をアミノ酸配列に翻訳する第2、第3の翻訳方
法を説明する図である。
FIG. 7 shows DNA in the embodiment of the present invention.
It is a figure explaining the 2nd, 3rd translation method which translates a base sequence into an amino acid sequence.

【0060】第2の翻訳方法では、DNA塩基配列の
5’末端から4塩基を切り出し、2番目の塩基を挿入と
見做して、残りの3塩基(第1の補正DNA塩基配列)
を使用して図5に従ってアミノ酸に翻訳する。次に、1
塩基ずらして同様の翻訳を図5に従って行ない、切り出
した4塩基の最後の塩基が、DNA塩基配列の3’末端
の最後の塩基に一致するまで、翻訳を繰り返し、DNA
塩基配列をアミノ酸配列に翻訳して、翻訳アミノ酸配列
3、又はB3を得る。
In the second translation method, 4 bases are cut out from the 5'end of the DNA base sequence, the second base is regarded as an insertion, and the remaining 3 bases (first corrected DNA base sequence).
Is used to translate into amino acids according to FIG. Then 1
The same translation is carried out by shifting the bases in accordance with FIG. 5, and the translation is repeated until the final 4 bases cut out correspond to the final 3'-terminal base of the DNA base sequence.
The base sequence is translated into an amino acid sequence to obtain the translated amino acid sequence A 3 or B 3 .

【0061】第3の翻訳方法では、DNA塩基配列の
5’末端から4塩基を切り出し、3番目の塩基を挿入と
見做して、残りの3塩基(第2の補正DNA塩基配列)
を使用して図5に従ってアミノ酸に翻訳する。次に、1
塩基ずらして同様の翻訳を図5に従って行ない、切り出
した4塩基の最後の塩基が、DNA塩基配列の3’末端
の最後の塩基に一致するまで、翻訳を繰り返し、DNA
塩基配列をアミノ酸配列に翻訳して、翻訳アミノ酸配列
4、又はB4を得る。
In the third translation method, 4 bases are cut out from the 5'end of the DNA base sequence, the 3rd base is considered to be inserted, and the remaining 3 bases (the second corrected DNA base sequence).
Is used to translate into amino acids according to FIG. Then 1
The same translation is carried out by shifting the bases in accordance with FIG. 5, and the translation is repeated until the final 4 bases cut out correspond to the final 3'-terminal base of the DNA base sequence.
The base sequence is translated into an amino acid sequence to obtain the translated amino acid sequence A 4 or B 4 .

【0062】同様に、DNA塩基配列の相補鎖配列に対
して、第2、第3の翻訳方法を適用して、図示しない翻
訳アミノ酸配列A5、又はB5;及びA6、又はB6を得
る。この結果、第2の翻訳方法を使用して合計4種類の
翻訳アミノ酸配列(A3、A5;又は、B3、B5)が得ら
れ、第3の翻訳方法を使用して合計4種類の翻訳アミノ
酸配列(A4、A6;又は、B4、B6)が得られる。
Similarly, by applying the second and third translation methods to the complementary strand sequence of the DNA base sequence, the translated amino acid sequence A 5 or B 5 (not shown) and A 6 or B 6 are obtained. obtain. As a result, a total of 4 kinds of translated amino acid sequences (A 3 , A 5 ; or B 3 , B 5 ) were obtained using the second translation method, and a total of 4 kinds of translated amino acid sequences were obtained using the third translation method. The translated amino acid sequence of (A 4 , A 6 ; or B 4 , B 6 ) is obtained.

【0063】図7の例では、DNA塩基配列がATGC
C、…、CGATであるので、第2、第3の翻訳方法に
従ってアミノ酸配列に翻訳する際、先ず、5’末端から
ATGCの4塩基を切り出し、2番目の塩基Tを挿入と
見做したAGC(第1の補正DNA塩基配列)、及び3
番目の塩基Gを挿入と見做したATC(第2の補正DN
A塩基配列)を、図5に従って各々アミノ酸S、Iに翻
訳する。次に1塩基ずらしたTGCCの4塩基から得ら
れるTCC(第1の補正DNA塩基配列)、TGC(第
2の補正DNA塩基配列)を図5に従ってアミノ酸S、
Cに翻訳する。以下同様にして、1塩基づつずらしなが
ら翻訳を続けて、DNA塩基配列から翻訳アミノ酸配列
を得る。この結果得られる、翻訳アミノ酸配列は、S
S、…、Hであり、翻訳アミノ酸配列は、IC、…、R
である。更に、図7に示すDNA塩基配列の相補鎖AT
CG、…、GGCATを、同様にして、第2、第3の翻
訳方法に従ってアミノ酸配列に翻訳して、図7に図示し
ない翻訳アミノ酸配列を得る。
In the example of FIG. 7, the DNA base sequence is ATGC.
Since C, ..., CGAT, when translating into an amino acid sequence according to the second and third translation methods, first, 4 bases of ATGC were cut out from the 5 ′ end and the second base T was regarded as an insertion. (First corrected DNA base sequence), and 3
ATC that considers insertion of the second base G (second corrected DN
A base sequence) is translated into amino acids S and I respectively according to FIG. Next, the TCC (first corrected DNA base sequence) and TGC (second corrected DNA base sequence) obtained from the four bases of TGCC shifted by 1 base were replaced with the amino acid S according to FIG.
Translate to C. In the same manner, the translation is continued while shifting the bases one by one to obtain a translated amino acid sequence from the DNA base sequence. The resulting translated amino acid sequence is S
S, ..., H, and translated amino acid sequences are IC, ..., R
Is. Furthermore, the complementary strand AT of the DNA base sequence shown in FIG.
Similarly, CG, ..., GGCAT are translated into amino acid sequences according to the second and third translation methods to obtain a translated amino acid sequence not shown in FIG.

【0064】以下、翻訳アミノ酸配列どうしの類似度の
総計を算出するための動的計画法によるスコア総計を求
める(工程307)について詳しく説明する。
The calculation of the total score by the dynamic programming for calculating the total similarity between the translated amino acid sequences will be described in detail below (step 307).

【0065】本発明では、図2に示す、Smith−W
aterman法に基づくDNA塩基配列の比較を行な
うスコアマトリックスを変更して、アミノ酸配列の比較
を行なうスコアマトリックスを構成し、図4に示すアミ
ノ酸の対に対して規定されるスコアテーブルを使用し
て、比較すべき2つの翻訳アミノ酸配列の間でのアミノ
酸の対の類似度を求めて、類似度の総計を評価する。
(工程304)で得た翻訳アミノ酸配列A1、A2
3、A4、A5、A6、及び(工程306)で得た翻訳ア
ミノ酸配列B1、B2、B3、B4、B5、B6を使用して、
翻訳アミノ酸配列どうしの類似度の総計を動的計画法に
より算出する。
In the present invention, Smith-W shown in FIG.
The score matrix for comparing DNA base sequences based on the aterman method is modified to construct a score matrix for comparing amino acid sequences, and using the score table defined for the pair of amino acids shown in FIG. The similarity of amino acid pairs between the two translated amino acid sequences to be compared is determined and the total similarity is evaluated.
The translated amino acid sequences A 1 , A 2 obtained in (step 304),
Use A 3, A 4, A 5 , A 6, and translated amino acid sequence B 1 obtained in (step 306), B 2, B 3 , B 4, B 5, B 6,
The total similarity between translated amino acid sequences is calculated by dynamic programming.

【0066】第1の軸(例えば、x軸)に沿って第1の
翻訳アミノ酸配列(A1、又はA2)を、第2の軸(例え
ば、y軸)に沿って第2の翻訳アミノ酸配列(B1、又
はB2)を、第1、第2の翻訳アミノ酸配列の各々の塩
基配列の5’末端より配列して、マトリックス要素
(i、j)の値H(i、j)が、第1の翻訳アミノ酸配
列のi番目のアミノ酸までのアミノ酸配列と、第2の翻
訳アミノ酸配列のj番目のアミノ酸までのアミノ酸配列
との間における類似度の総計を表わす、スコアマトリッ
クスHを構成する。第1の軸に沿って第1、第3、第
5、第7、又は第9の翻訳アミノ酸配列(A1、、A2
3、A4、A5、A6の何れか)を、第2の軸に沿って第
2、第4、第6、第8、又は第10の翻訳アミノ酸配列
(B1、B2、B3、B4、B5、B6の何れか)を、翻訳ア
ミノ酸配列の各々の塩基配列の5’末端より配列して、
アミノ酸の対のスコア(類似度)を表わす第1、第2、
第3、第4、第5のマトリックス(s1(i、j)〜s5
(i、j))を構成する。翻訳アミノ酸配列A1、A2
3、A4、A5、A6と、翻訳アミノ酸配列B1、B2、B
3、B4、B5、B6との組合せにより形成される、5つの
マトリックスからなる第1から第4のマトリックス群を
形成する。5つの各マトリックスに於ける第1、及び第
2の軸に沿って配列される翻訳アミノ酸配列をAi、及
びBjとし、簡単ために配列(Ai、Bj)により各マト
リックスに於ける第1、及び第2の軸に沿って配列され
る翻訳アミノ酸配列を表わす。
The first translated amino acid sequence (A 1 or A 2 ) along the first axis (eg, the x-axis) and the second translated amino acid sequence along the second axis (eg, the y-axis). The sequence (B 1 or B 2 ) is arranged from the 5 ′ end of each base sequence of the first and second translated amino acid sequences, and the value H (i, j) of the matrix element (i, j) is , A score matrix H representing the total degree of similarity between the amino acid sequence up to the i-th amino acid of the first translated amino acid sequence and the amino acid sequence up to the j-th amino acid of the second translated amino acid sequence. . Along the first axis, the first, third, fifth, seventh, or ninth translated amino acid sequence (A 1 ,, A 2 ,
A 3, A 4, A 5, one) of A 6, second along a second axis, the fourth, sixth, eighth, or tenth translated amino acid sequence (B 1, B 2, B 3, B 4, the B 5, any one of B 6), are arranged from the 5 'end of each of the base sequence of the translated amino acid sequence,
First, second, which represents the score (similarity) of a pair of amino acids
Third, fourth and fifth matrices (s 1 (i, j) to s 5
(I, j)). Translated amino acid sequence A 1 , A 2 ,
A 3 , A 4 , A 5 , A 6 and translated amino acid sequences B 1 , B 2 , B
A first to a fourth matrix group consisting of five matrices is formed by the combination with 3 , B 4 , B 5 , and B 6 . The translated amino acid sequences arranged along the first and second axes in each of the five matrices are A i and B j, and for the sake of simplicity, the sequences (A i , B j ) are used in each matrix. 3 represents the translated amino acid sequence arranged along the first and second axes.

【0067】第1のマトリックス群は、第1、第3、及
び第5の翻訳アミノ酸配列をA1、第7の翻訳アミノ酸
配列をA3、第9の翻訳アミノ酸配列をA4とし、第2、
第第8、及び第10の翻訳アミノ酸配列をB1とし、第
4の翻訳アミノ酸配列をB3、第6の翻訳アミノ酸配列
をB4として、配列(A1、B1)を持つスコアマトリッ
クスHと、配列(A1、B1)を持つ第1のマトリックス
1と、配列(A1、B3)を持つ第2のマトリックスs2
と、配列(A1、B4)を持つ第3のマトリックスs
3と、配列(A3、B1)を持つ第4のマトリックスs
4と、配列(A4、B1)を持つ第5のマトリックスs5
からなる。
The first matrix group has the first, third, and fifth translated amino acid sequences as A 1 , the seventh translated amino acid sequence as A 3 , the ninth translated amino acid sequence as A 4, and the second ,
Score matrix H having the sequences (A 1 , B 1 ) where the eighth and tenth translated amino acid sequences are B 1 , the fourth translated amino acid sequence is B 3 , and the sixth translated amino acid sequence is B 4. If the sequence (a 1, B 1) and the first matrix s 1 with SEQ (a 1, B 3) a second matrix with s 2
And a third matrix s with array (A 1 , B 4 ).
3 and a fourth matrix s with array (A 3 , B 1 )
4 and a fifth matrix s 5 having an array (A 4 , B 1 ).

【0068】第2のマトリックス群は、第1、第3、及
び第5の翻訳アミノ酸配列をA1、第7の翻訳アミノ酸
配列をA3、第9の翻訳アミノ酸配列をA4とし、第2、
第第8、及び第10の翻訳アミノ酸配列をB2とし、第
4の翻訳アミノ酸配列をB5、第6の翻訳アミノ酸配列
をB6として、配列(A1、B2)を持つスコアマトリッ
クスHと、配列(A1、B2)を持つ第1のマトリックス
1と、配列(A1、B5)を持つ第2のマトリックスs2
と、配列(A1、B6)を持つ第3のマトリックスs
3と、配列(A3、B2)を持つ第4のマトリックスs
4と、配列(A4、B2)を持つ第5のマトリックスs5
からなる。
In the second matrix group, the first, third, and fifth translated amino acid sequences are A 1 , the seventh translated amino acid sequence is A 3 , and the ninth translated amino acid sequence is A 4 , ,
Score matrix H having the sequences (A 1 , B 2 ) with the 8th and 10th translated amino acid sequences as B 2 , the 4th translated amino acid sequence as B 5 , and the 6th translated amino acid sequence as B 6. If the sequence (a 1, B 2) and the first matrix s 1 with SEQ (a 1, B 5) a second matrix with s 2
And a third matrix s with array (A 1 , B 6 ).
3 and a fourth matrix s with arrays (A 3 , B 2 ).
4 and a fifth matrix s 5 having an array (A 4 , B 2 ).

【0069】第3のマトリックス群は、第1、第3、及
び第5の翻訳アミノ酸配列をA2、第7の翻訳アミノ酸
配列をA5、第9の翻訳アミノ酸配列をA6とし、第2、
第第8、及び第10の翻訳アミノ酸配列をB1とし、第
4の翻訳アミノ酸配列をB3、第6の翻訳アミノ酸配列
をB4として、配列(A2、B1)を持つスコアマトリッ
クスHと、配列(A2、B1)を持つ第1のスコアマトリ
ックスs1と、配列(A2、B3)を持つ第2のスコアマ
トリックスs2と、配列(A2、B4)を持つ第3のスコ
アマトリックスs3と、配列(A5、B1)を持つ第4の
スコアマトリックスs4と、配列(A6、B1)を持つ第
5のスコアマトリックスs5とからなる。
In the third matrix group, the first, third, and fifth translated amino acid sequences are A 2 , the seventh translated amino acid sequence is A 5 , and the ninth translated amino acid sequence is A 6 . ,
Score matrix H having the sequences (A 2 , B 1 ) with the 8th and 10th translated amino acid sequences as B 1 , the 4th translated amino acid sequence as B 3 , and the 6th translated amino acid sequence as B 4. having the sequence and (a 2, B 1) a first scoring matrix s 1 with, sequence (a 2, B 3) second scoring matrix s 2 with the sequence of (a 2, B 4) a third score matrix s 3 of sequence (a 5, B 1) fourth score matrix s 4 of having, consists fifth score matrix s 5 Metropolitan of having sequence (a 6, B 1).

【0070】第4のマトリックス群は、第1、第3、及
び第5の翻訳アミノ酸配列をA2、第7の翻訳アミノ酸
配列をA5、第9の翻訳アミノ酸配列をA6とし、第2、
第第8、及び第10の翻訳アミノ酸配列をB2とし、第
4の翻訳アミノ酸配列をB5、第6の翻訳アミノ酸配列
をB6として、配列(A2、B2)を持つスコアマトリッ
クスHと、配列(A2、B2)を持つ第1のマトリックス
1と、配列(A2、B5)を持つ第2のマトリックスs2
と、配列(A2、B6)を持つ第3のマトリックスs
3と、配列(A5、B2)を持つ第4のマトリックスs
4と、配列(A6、B2)を持つ第5のマトリックスs5
からなる。
The fourth matrix group has the first, third, and fifth translated amino acid sequences as A 2 , the seventh translated amino acid sequence as A 5 , the ninth translated amino acid sequence as A 6, and the second ,
Score matrix H having the sequences (A 2 , B 2 ) with the 8th and 10th translated amino acid sequences as B 2 , the 4th translated amino acid sequence as B 5 , and the 6th translated amino acid sequence as B 6. If the sequence (a 2, B 2) and the first matrix s 1 with SEQ (a 2, B 5) a second matrix with s 2
And a third matrix s with array (A 2 , B 6 ).
3 and a fourth matrix s with arrays (A 5 , B 2 )
4 and a fifth matrix s 5 having an array (A 6 , B 2 ).

【0071】図8は、本発明の実施例に於ける、翻訳ア
ミノ酸配列の比較を行なう際のスコアの加算経路を説明
する図である。
FIG. 8 is a diagram for explaining a score addition route when comparing translated amino acid sequences in the example of the present invention.

【0072】第1から第4のマトリックス群を独立に使
用して、各マトリックス群毎に動的計画法により、スコ
アマトリックス要素(i、j)に至る、図8に示す経路
〜の9方向での移動経路(検索経路)を考え、iを
1、2、→M(スコアマトリックの第1軸に配列される
アミノ酸配列を構成するアミノ酸の数)、jを=1、
2、→N(スコアマトリックの第2軸に配列されるアミ
ノ酸配列を構成するアミノ酸の数)と変化させて、図8
に示す左上末端のスコアマトリックス要素(1、1)か
ら右下末端のスコアマトリックス要素(M、N)の方向
に向かって(i、j)の位置を移動させて、第1の翻訳
アミノ酸配列と第2のアミノ酸配列の各アミノ酸の間で
の最適な類似対応関係を表わす、最適経路(最適アライ
メント、最適並置)を求める。
The first to fourth matrix groups are independently used, and dynamic matrix programming is performed for each matrix group to reach the score matrix element (i, j) in the nine directions of the paths ~ shown in FIG. , I is 1, 2, → M (the number of amino acids constituting the amino acid sequence arranged on the first axis of the scorematrix), and j is 1,
2, → N (the number of amino acids constituting the amino acid sequence arranged on the second axis of the scorematrix), and FIG.
By moving the position (i, j) from the score matrix element (1, 1) at the upper left end to the score matrix element (M, N) at the lower right end as shown in FIG. An optimum path (optimal alignment, optimum juxtaposition) that represents the optimum similarity correspondence between each amino acid of the second amino acid sequence is obtained.

【0073】スコアマトリックス要素(i、j)の値H
(i、j)は、第1の翻訳アミノ酸配列のi番目のアミ
ノ酸までのアミノ酸配列と第2の翻訳アミノ酸配列のj
番目のアミノ酸までのアミノ酸配列との間における全体
としての類似度(スコア)の総計を表わす。
The value H of the score matrix element (i, j)
(I, j) is the amino acid sequence up to the i-th amino acid of the first translated amino acid sequence and j of the second translated amino acid sequence.
The total similarity (score) with the amino acid sequence up to the th amino acid is shown.

【0074】図8に示す、(1)から(11)の各点か
ら点(i、j)向かう9方向の移動経路(から)に
対応して、類似度(スコア)の総計H(i、j)とし
て、H1(i、j)からH11(i、j)のうちの最大値
((数16))を選ぶ。なお、スコアs1(i、j)か
らs5(i、j)を求めるには、図4に示すスコアテー
ブルを使用する。H1(i、j)からH11(i、j)
は、第1の軸に配列されたアミノ酸配列のi番目のアミ
ノ酸と第2の軸に配列されたアミノ酸配列のj番目のア
ミノ酸との類似度を表わすスコアs1(i、j)〜スコ
アs5(i、j)と、ギップペナルティスコアwa、wn
と、及び、移動もとのスコアマトリックス要素の値H
(i−3、j−3)、H(i−3、j)、H(i、j−
3)、H(i−5、j−6)、H(i−6、j−5)、
H(i−3、j−4)、H(i−4、j−3)、H(i
−6、j−7)、H(i−7、j−6)を使用して、
(数5)から(数15)により各々定義される。
Corresponding to the movement routes (from) in the 9 directions from the points (1) to (11) shown in FIG. 8 toward the point (i, j), the total similarity H (i, j) is calculated. As j), the maximum value ((Equation 16)) of H 1 (i, j) to H 11 (i, j) is selected. The score table shown in FIG. 4 is used to obtain s 5 (i, j) from the scores s 1 (i, j). H 1 (i, j) to H 11 (i, j)
Is a score s 1 (i, j) to a score s representing the similarity between the i-th amino acid of the amino acid sequence arranged on the first axis and the j-th amino acid of the amino acid sequence arranged on the second axis. 5 (i, j) and Gipp penalty scores w a , w n
And and the value H of the score matrix element of the movement source
(I-3, j-3), H (i-3, j), H (i, j-
3), H (i-5, j-6), H (i-6, j-5),
H (i-3, j-4), H (i-4, j-3), H (i
-6, j-7), H (i-7, j-6),
Each is defined by (Equation 5) to (Equation 15).

【0075】なお、図9、図10は、H8(i、j)、
及びH9(i、j)の第1項の(i−6、j−7)と
(i、j)との位置関係を示す。図11、図12は、H
10(i、j)、及びH11(i、j)の第1項の(i−
7、j−6)と(i、j)との関係を示す。図9、及び
図10に於ける点(i−3、j−4)は、スコアs4
求める点、図11、及び図12に於ける点(i−4、j
−3)は、スコアs5を求める点を示す。
9 and 10, H 8 (i, j),
And H 9 (i, j) shows the positional relationship between (i-6, j-7) and (i, j) in the first term. 11 and 12 show H
10 (i, j), and (i− of the first term of H 11 (i, j).
7, j-6) and (i, j). The points (i-3, j-4) in FIGS. 9 and 10 are points for which the score s 4 is obtained, and the points (i-4, j) in FIGS. 11 and 12 are.
-3) indicates a point for obtaining the score s 5 .

【0076】 H1(i、j)=H(i−3、j−3)+s1(i、j) =H(i−3、j−3)+s* 1(A* i、B* j) …(数5) H1(i、j)は、点(i−3、j−3)から点(i、
j)への移動経路に対応する。
H 1 (i, j) = H (i-3, j-3) + s 1 (i, j) = H (i-3, j-3) + s * 1 (A * i , B * j ) (Equation 5) H 1 (i, j) is converted from the point (i-3, j-3) to the point (i,
Corresponds to the travel route to j).

【0077】 H2(i、j)=H(i、j−3)+wa …(数6) H2(i、j)は、点(i、j−3)から点(i、j)
への移動経路に対応する。
[0077] H 2 (i, j) = H (i, j-3) + w a ... ( number 6) H 2 (i, j ) is a point from the point (i, j-3) ( i, j)
Corresponds to the travel route to.

【0078】 H3(i、j)=H(i−3、j)+wa …(数7) H3(i、j)は、点(i−3、j)から点(i、j)
への移動経路に対応する。
[0078] H 3 (i, j) = H (i-3, j) + w a ... ( number 7) H 3 (i, j ) is, point (i-3, j) from the point (i, j)
Corresponds to the travel route to.

【0079】 H4(i、j)=H(i−5、j−6)+wn+s1(i、j) =H(i−5、j−6)+wn+s1 *(A* i、B* j) …(数8) H4(i、j)は、点(i−5、j−6)から点(i、
j)への移動経路に対応する。
H 4 (i, j) = H (i-5, j-6) + w n + s 1 (i, j) = H (i-5, j-6) + w n + s 1 * (A * i , B * j ) (Equation 8) H 4 (i, j) is calculated from the point (i-5, j-6) to the point (i,
Corresponds to the travel route to j).

【0080】 H5(i、j)=H(i−6、j−5)+wn+s1(i、j) =H(i−6、j−5)+wn+s1 *(A* i、B* j) …(数9) H5(i、j)は、点(i−6、j−5)から点(i、
j)への移動経路に対応する。
H 5 (i, j) = H (i-6, j-5) + w n + s 1 (i, j) = H (i-6, j-5) + w n + s 1 * (A * i , B * j ) (Equation 9) H 5 (i, j) is calculated from the point (i-6, j-5) to the point (i,
Corresponds to the travel route to j).

【0081】 H6(i、j)=H(i−3、j−4)+wn+s1(i、j) =H(i−3、j−4)+wn+s1 *(A* i、B* j)…(数10) H6(i、j)は、点(i−3、j−4)から点(i、
j)への移動経路に対応する。
H 6 (i, j) = H (i-3, j-4) + w n + s 1 (i, j) = H (i-3, j-4) + w n + s 1 * (A * i , B * j ) ... (Equation 10) H 6 (i, j) is from point (i-3, j-4) to point (i, j
Corresponds to the travel route to j).

【0082】 H7(i、j)=H(i−4、j−3)+wn+s1(i、j) =H(i−4、j−3)+wn+s1 *(A* i、B* j)…(数11) H7(i、j)は、点(i−4、j−3)から点(i、
j)への移動経路に対応する。
H 7 (i, j) = H (i-4, j-3) + w n + s 1 (i, j) = H (i-4, j-3) + w n + s 1 * (A * i , B * j ) ... (Equation 11) H 7 (i, j) is from point (i-4, j-3) to point (i,
Corresponds to the travel route to j).

【0083】 H8(i、j)=H(i−6、j−7)+wn+s2(i−3、j−4) +s1(i、j) =H(i−6、j−7)+wn+s2 *(A* i-3、{bj-4j-3j-1}) +s1 *(A* i、B* j) …(数12) H9(i、j)=H(i−6、j−7)+wn+s3(i−3、j−4) +s1(i、j) =H(i−6、j−7)+wn+s3 *(A* i-3、{bj-4j-2j-1}) +s1 *(A* i、B* j) …(数13) H8(i、j)、H9(i、j)は、点(i−6、j−
7)から点(i、j)への移動経路を含む。
H 8 (i, j) = H (i-6, j-7) + w n + s 2 (i-3, j-4) + s 1 (i, j) = H (i-6, j- 7) + w n + s 2 * (A * i-3, {b j-4 b j-3 b j-1}) + s 1 * (A * i, B * j) ... ( number 12) H 9 (i , j) = H (i- 6, j-7) + w n + s 3 (i-3, j-4) + s 1 (i, j) = H (i-6, j-7) + w n + s 3 * (A * i-3, { b j-4 b j-2 b j-1}) + s 1 * (A * i, B * j) ... ( number 13) H 8 (i, j ), H 9 ( i, j) is the point (i-6, j-
7) Includes a travel route from point to point (i, j).

【0084】 H10(i、j)=H(i−7、j−6)+wn+s4(i−4、j−3) +s1(i、j) =H(i−7、j−6)+wn+s4 *({ai-4i-3i-1}、B* j-3) +s1 *(A* i、B* j) …(数14) H11(i、j)=H(i−7、j−6)+wn+s5(i−4、j−3) +s1(i、j) =H(i−7、j−6)+wn+s5 *({ai-4i-2i-1}、B* j-3) +s1 *(A* i、B* j) …(数15) H10(i、j)、H11(i、j)は、点(i−7、j−
6)から点(i、j)への移動経路を含む。
H 10 (i, j) = H (i-7, j-6) + w n + s 4 (i-4, j-3) + s 1 (i, j) = H (i-7, j- 6) + w n + s 4 * ({a i-4 a i-3 a i-1 }, B * j-3 ) + s 1 * (A * i , B * j ) ... (Equation 14) H 11 (i , j) = H (i- 7, j-6) + w n + s 5 (i-4, j-3) + s 1 (i, j) = H (i-7, j-6) + w n + s 5 * ({A i-4 a i-2 a i-1 }, B * j-3 ) + s 1 * (A * i , B * j ) (Equation 15) H 10 (i, j), H 11 ( i, j) is the point (i-7, j-
6) Includes a travel path from point (i, j).

【0085】 H(i、j) =max{H1(i、j)、H2(i、j)、H3(i、j)、H4(i、j)、 H5(i、j)、H6(i、j)、H7(i、j)、H8(i、j)、 H9(i、j)、H10(i、j)、H11(i、j)} …(数16) s1(i、j)=s1 *(A* i、B* j) …(数17) s2(i−3、j−4)=s*(A* i-3、{bj-4j-3j-1}) …(数18) s3(i−3、j−4)=s*(A* i-3、{bj-4j-2j-1}) …(数19) s4(i−4、j−3)=s*({ai-4i-3i-1}、B* j-3) …(数20) s5(i−4、j−3)=s*({ai-4i-2i-1}、B* j-3) …(数21) なお、A* iは、第1の翻訳アミノ酸配列(Query
DNA base sequence(A*とする))
のi番目のコドン(3塩基)である。B* jは、第2の翻
訳アミノ酸配列(Target DNA base s
equence(B*とする))のj番目のコドン(3
塩基)である。aiはA*のi番目の塩基、bjはB*のj
番目の塩基である。(数17)から(数21)の右辺
は、コドン間のスコアを示すので、各コドンを図5に従
ってアミノ酸に翻訳して、図4のスコアテーブルを使用
して決定できる。
H (i, j) = max {H 1 (i, j), H 2 (i, j), H 3 (i, j), H 4 (i, j), H 5 (i, j) ), H 6 (i, j), H 7 (i, j), H 8 (i, j), H 9 (i, j), H 10 (i, j), H 11 (i, j)}. (Equation 16) s 1 (i, j) = s 1 * (A * i , B * j ) ... (Equation 17) s 2 (i-3, j-4) = s * (A * i-3) , {B j-4 b j-3 b j-1 }) (Equation 18) s 3 (i-3, j-4) = s * (A * i-3 , {b j-4 b j- 2 b j-1 }) (Equation 19) s 4 (i-4, j-3) = s * ({a i-4 a i-3 a i-1 }, B * j-3 ) ... ( (Equation 20) s 5 (i-4, j-3) = s * ({a i-4 a i-2 a i-1 }, B * j-3 ) ... (Equation 21) Note that A * i is , The first translated amino acid sequence (Query
DNA base sequence (A * ))
Is the i-th codon (3 bases). B * j is the second translated amino acid sequence (Target DNA bases).
sequence (denoted as B * )) j-th codon (3
Base). a i is the i-th base of A * , b j is j of B *
It is the second base. Since the right side of (Equation 17) to (Equation 21) shows the score between codons, each codon can be translated into an amino acid according to FIG. 5, and can be determined using the score table of FIG.

【0086】以上のようにして、第1から第4のマトリ
ックス群を独立に使用して、各マトリックス群毎に動的
計画法により、第1の翻訳アミノ酸配列と第2のアミノ
酸配列の各アミノ酸の間での最適な類似対応関係を表わ
す、最適経路(最適アライメント、最適並置)を求め
る。
As described above, the first to fourth matrix groups are independently used, and each matrix group is subjected to the dynamic programming for each amino acid of the first translated amino acid sequence and the second amino acid sequence. The optimal path (optimal alignment, optimal juxtaposition) that represents the optimal similarity correspondence between

【0087】なお、waはアミノ酸の、wnはDNA塩基
配列の塩基の挿入、欠失に伴うギャップペナルティを表
わす。本実施例では、wa=wn=−12とした。また、
アミノ酸の挿入、欠失が連続して出現する場合には、1
回目の出現では、wa=−12として、2回目以降の出
現では、wa=−4とした。
In addition, w a represents an amino acid, and w n represents a gap penalty associated with insertion or deletion of a base of a DNA base sequence. In this embodiment, w a = w n = −12. Also,
1 if amino acid insertions and deletions appear consecutively
In the second appearance, w a = -12, and in the second and subsequent appearances, w a = -4.

【0088】次に、並置結果を得るための動的計画法に
よるスコア総計及び経路を演算する(工程312)、及
びスコア総計の最大値を与える経路をトレースする演算
を実行する(工程313)について詳細に説明する。
Next, regarding the score total and the route by the dynamic programming for obtaining the juxtaposed result (step 312), and about the route tracing the route giving the maximum score total (step 313) The details will be described.

【0089】(工程312)では、検索DNA塩基配列
とDNA塩基配列データベースのDNA塩基配列から得
られた、上位スコア総計を与える2つのアミノ酸配列に
対して、(工程307)と同様の演算を行ない動的計画
法によるスコア総計を求める。但し、類似度(スコア)
の総計の他に、スコアマトリックスの各要素に対して、
(数5)から(数16)により表わされる何れの演算経
路が選択されたかの情報、及び類似度(スコア)の総計
の最大値を与える移動経路を、スコアマトリックスの要
素の最終点の位置(i、j)として記憶しておく。
In (step 312), the same operation as in (step 307) is performed on the two amino acid sequences which give the total of the upper scores, which are obtained from the searched DNA base sequence and the DNA base sequence of the DNA base sequence database. Calculate the total score by dynamic programming. However, similarity (score)
In addition to the total of, for each element of the score matrix,
The information indicating which of the calculation paths represented by (Equation 5) to (Equation 16) has been selected, and the movement path that gives the maximum total value of the similarity (score) are the positions (i) of the final points of the elements of the score matrix. , J).

【0090】(工程313)では、(工程312)に於
いて記憶された類似度の総計の最大値を与えるスコアマ
トリックスの要素の最終点の位置(i、j)から、各要
素で記憶されている演算経路を逆にトレースして、類似
度(スコア)の総計の最大値を与える翻訳アミノ酸配列
の間での並置結果を得ることができる。
At (step 313), each element is stored from the position (i, j) of the final point of the element of the score matrix that gives the maximum value of the total similarity stored at (step 312). The existing calculation paths can be traced in reverse to obtain the alignment result between the translated amino acid sequences that gives the maximum total similarity (score).

【0091】図13は、本発明の実施例に於ける、動的
計画法の演算での9種類の方向の各移動経路に対応する
並置結果の一般例を示す図である。
FIG. 13 is a diagram showing a general example of the juxtaposition result corresponding to each moving path in nine kinds of directions in the calculation of the dynamic programming in the embodiment of the present invention.

【0092】図14は、本発明の実施例に於ける、動的
計画法の演算での9種類の方向の各移動経路に対応する
並置結果の具体例を示す図である。
FIG. 14 is a diagram showing a specific example of the juxtaposition result corresponding to each moving path in nine kinds of directions in the calculation of the dynamic programming in the embodiment of the present invention.

【0093】図13、及び図14に示す、並置例の第1
行は第1のDNA塩基配列、第2行は第1のDNA塩基
配列から翻訳された翻訳アミノ酸、第3行は第2のDN
A塩基配列から翻訳された翻訳アミノ酸、第4行は第2
のDNA塩基配列を表わす。また、記号「−」は、配
列、又はアミノ酸配列の欠失を表わし、記号「*」は、
塩基の欠失、又はa、c、g、tの何れとも決定されて
ていない不定のnの存在により翻訳不能のアミノ酸を表
わす。
The first of the juxtaposed examples shown in FIGS. 13 and 14.
The line is the first DNA base sequence, the second line is the translated amino acid translated from the first DNA base sequence, and the third line is the second DN.
Translated amino acid translated from nucleotide sequence A, line 4 is the second
Represents the DNA base sequence of The symbol "-" represents a deletion of the sequence or amino acid sequence, and the symbol "*" represents
It represents a non-translatable amino acid due to a base deletion or the presence of an indeterminate n which has not been determined to be any of a, c, g and t.

【0094】次に、本実施例の実際の適用例について説
明する。DNA塩基配列の公共データベースであるGe
nBankのESTデータベースに登録されている、シ
ロイヌナズナ(arabidopsis thalia
na)に関する検索塩基配列(Query seque
nce)を選び、ESTデータベースに登録されてい
る、ライス(oriza sativa)由来の全配列
を比較検索の対象(Target sequence)
とした。ESTデータベースに登録されているDNA塩
基配列は、DNAシーケンサの出力結果をそのまま登録
しているため、一定量のシーケンスエラーを含んでお
り、比較する2つのDNA塩基配列に存在する塩基の挿
入、及び欠失を考慮に入れ、アミノ酸配列を介在させて
比較を行なう本発明の有効性を確認する好適な例であ
る。
Next, an actual application example of this embodiment will be described. Ge, a public database of DNA nucleotide sequences
Arabidopsis thalia, registered in the nBank EST database.
search sequence concerning "na" (Query sequence)
, and all the sequences derived from rice (oriza sativa) registered in the EST database are targeted for comparison search (Target sequence).
And Since the DNA base sequence registered in the EST database has registered the output result of the DNA sequencer as it is, it contains a certain amount of sequence error, and insertion of bases existing in two DNA base sequences to be compared, and This is a preferable example for confirming the effectiveness of the present invention in which the comparison is carried out by interposing an amino acid sequence in consideration of the deletion.

【0095】図15、図16、図17は、本発明の実施
例の比較検索で得られた並置結果例を示す図である。以
下、比較検索を行なった結果について説明する。図1
5、図16、図17に於いて、Query seque
nceの欄には、検索DNA塩基配列に付けられた名
称、及び簡単な説明が記載され、Target seq
uenceの欄には、比較検索により抽出されたEST
データベースからのDNA塩基配列に付けられた名称、
及び簡単な説明が記載されている。Scoreの欄に
は、類似度(スコア)の総計が記載され、その他、Qu
ery、及びTargetの長さ、並置されるQuer
y、及びTarget領域が記載されている。
FIG. 15, FIG. 16 and FIG. 17 are diagrams showing examples of juxtaposition results obtained by the comparison search of the embodiment of the present invention. The results of the comparative search will be described below. Figure 1
5, FIG. 16 and FIG. 17, the query sequence
In the “nce” column, the name given to the searched DNA base sequence and a brief description are described.
In the column of “uence”, the EST extracted by the comparative search
The name given to the DNA base sequence from the database,
And a brief description is given. In the Score column, the total degree of similarity (score) is described.
ery and Target length, Quer juxtaposed
The y and Target regions are listed.

【0096】並値結果を表わすQueryの欄には、上
段から、検索DNA塩基配列(Query seque
nce)と検索DNA塩基配列から翻訳された翻訳アミ
ノ酸配列が記載され、並値結果を表わすTarget
sequenceの欄には、下段から比較検索により抽
出されたDNA塩基配列とこのDNA塩基配列から翻訳
された翻訳アミノ酸配列が記載されている。
In the “Query” column showing the parallel value result, the search DNA base sequence (Query sequence) is displayed from the top.
)) and the translated amino acid sequence translated from the searched DNA base sequence are described, and the target value is displayed.
In the column of sequence, the DNA base sequence extracted by the comparative search from the bottom and the translated amino acid sequence translated from this DNA base sequence are described.

【0097】図15に示す並値結果を表わすQuery
の欄のDNA塩基配列、翻訳アミノ酸配列は、各々配列
番号1、2により示され、並値結果を表わすTarge
tの欄の翻訳アミノ酸配列、DNA塩基配列は、各々配
列番号3、4により示される。図16に示す並値結果を
表わすQueryの欄のDNA塩基配列、翻訳アミノ酸
配列は、各々配列番号5、6により示され、並値結果を
表わすTargetの欄の翻訳アミノ酸配列、DNA塩
基配列は、各々配列番号7、8により示される。図17
に示す並値結果を表わすQueryの欄のDNA塩基配
列、翻訳アミノ酸配列は、各々配列番号9、10により
示され、並値結果を表わすTargetの欄の翻訳アミ
ノ酸配列、DNA塩基配列は、各々配列番号11、12
により示される。
Query showing the parallel value result shown in FIG.
The DNA base sequence and the translated amino acid sequence in the column of are shown by SEQ ID NOS: 1 and 2, respectively, and show the results of average value.
The translated amino acid sequence and DNA base sequence in the column of t are shown by SEQ ID NOs: 3 and 4, respectively. The DNA base sequence and the translated amino acid sequence in the column of Query showing the parallel value result shown in FIG. 16 are shown by SEQ ID NOs: 5 and 6, respectively, and the translated amino acid sequence and the DNA base sequence in the column of Target showing the parallel value result are These are shown by SEQ ID NOS: 7 and 8, respectively. FIG. 17
The DNA base sequence and translated amino acid sequence in the Query column showing the parallel value result shown in are shown by SEQ ID NOs: 9 and 10, respectively, and the translated amino acid sequence and the DNA base sequence in the Target column showing the parallel value result are Number 11, 12
Indicated by.

【0098】なお、図15、図16、図17に於いて、
上下段の翻訳アミノ酸配列を結ぶ、記号「:」は、対応
する翻訳アミノ酸が一致することを示し、記号「.」
は、対応するアミノ酸の間の対に対応するスコアマトリ
ックスの値が正であること示す。記号「 」(ブラン
ク)は、対応するアミノ酸の間の対に対応するスコアマ
トリックスの値が、0又は負であること示す。記号
「−」は、塩基、又はアミノ酸配列の欠失を示す。記号
「n」は、a、c、g、tの何れとも決定されておらず
不定であることを示す。記号「*」は、塩基の欠失、又
は不定のnの存在により翻訳不能のアミノ酸を表わす。
Incidentally, in FIG. 15, FIG. 16 and FIG.
The symbol ":" connecting the translated amino acid sequences in the upper and lower rows indicates that the corresponding translated amino acids match, and the symbol "."
Indicates that the value of the score matrix corresponding to the pair between the corresponding amino acids is positive. The symbol "" (blank) indicates that the value of the score matrix corresponding to the pair between the corresponding amino acids is 0 or negative. The symbol "-" indicates a base or amino acid sequence deletion. The symbol “n” indicates that none of a, c, g, and t has been determined and is indefinite. The symbol "*" represents an amino acid that cannot be translated due to a deletion of a base or the presence of an indeterminate n.

【0099】図15に示す四角で示した領域b、b’、
c、d、eに関して以下説明する。領域b、b’は、ア
ミノ酸の挿入、又は欠失、即ち(数6)、又は(数7)
に対応する結果を最適経路に含むことを示す。領域c
は、塩基の欠失、即ち(数8)、又は(数9)を含むこ
とを示す。領域d、eは、塩基の挿入に相当し、領域d
は(数10)、又は(数11)に対応する結果を最適経
路に含むことを示し、領域eは、(数12)〜(数1
5)の何れかに対応する結果を最適経路に含むことを示
す。
The areas b, b ', indicated by the squares shown in FIG.
The following describes c, d, and e. Regions b and b ′ are amino acid insertions or deletions, that is, (Equation 6) or (Equation 7).
It is shown that the result corresponding to is included in the optimal route. Area c
Indicates that it contains a base deletion, that is, (Equation 8) or (Equation 9). Regions d and e correspond to the insertion of bases, and the region d
Indicates that the optimum route includes the result corresponding to (Equation 10) or (Equation 11), and the region e is (Equation 12) to (Equation 1).
It is shown that the result corresponding to any one of 5) is included in the optimum route.

【0100】図16、図17に示す四角で囲った部分の
みが、従来技術のTBLASTXを適用して得られた領
域である。本発明の方法では、従来技術のTBLAST
Xを適用して得られない領域に関して、翻訳アミノ酸配
列を介して2つの塩基配列に関する類似関係に関する情
報が得られる。特に、図16に示す結果例を、従来技術
のTBLASTXによる結果と比較すると、本願発明の
結果の方が、連続したより広い領域での類似関係に関す
る情報が得られている。特に、図17に示す例では、本
発明の方法では、従来技術のTBLASTXによる方法
よりも3倍長い領域での類似関係に関する情報が得られ
ている。
Only the portion surrounded by a square shown in FIGS. 16 and 17 is a region obtained by applying the TBLASTX of the prior art. In the method of the present invention, prior art TBLAST
For regions that cannot be obtained by applying X, information on the similarity relationship between the two base sequences is obtained via the translated amino acid sequence. In particular, when the example result shown in FIG. 16 is compared with the result obtained by TBLASTX of the prior art, the result of the present invention provides information regarding the similarity relationship in a continuous wider region. In particular, in the example shown in FIG. 17, the method of the present invention provides information about the similarity relation in a region that is three times longer than the method of the prior art TBLASTX.

【0101】本発明では、アミノ酸の挿入、欠失、DN
A塩基配列の塩基の挿入、欠失を全て考慮しているた
め、より高い類似度(スコアの総計が大きい)で、塩基
配列の広い領域にわたって比較、検索を行なうことがで
き、塩基配列の広い領域での並置結果を得ることができ
る。この結果、DNA塩基配列がコードしているアミノ
酸配列に関して、より完全な配列を得ることが可能とな
る。DNA塩基配列がコードしている蛋白質のアミノ酸
配列を知ることは、遺伝子の生物学的機能の解析を進め
る上での第1歩となる。現在、利用可能なアミノ酸配列
データベースのデータ数はDNA塩基配列データベース
と比較するとはるかに少なく、測定の結果得られたDN
A塩基配列から本発明の方法により、アミノ酸配列を介
在させてアミノ酸配列に関する情報を知ることは、蛋白
質の機能の解析に有用な情報を与える。
In the present invention, amino acid insertions, deletions, DNs
Since all the insertions and deletions of the bases of the A base sequence are taken into consideration, it is possible to compare and search over a wide base sequence region with a high degree of similarity (the total score is large), and the base sequence is wide. The juxtaposition result in the area can be obtained. As a result, it becomes possible to obtain a more complete sequence regarding the amino acid sequence encoded by the DNA base sequence. Knowing the amino acid sequence of a protein encoded by a DNA base sequence is the first step in proceeding with the analysis of the biological function of a gene. Currently, the number of data available in the amino acid sequence database is much smaller than that in the DNA base sequence database, and the DN obtained as a result of the measurement is
Knowing the information on the amino acid sequence from the A base sequence by interposing the amino acid sequence by the method of the present invention provides information useful for analysis of protein function.

【0102】図18は、本発明のDNA塩基配列比較方
法が実施される装置の構成を示す図である。本発明のD
NA塩基配列比較方法が実行される装置は、上記の第1
と第2のDNA塩基配列を入力する装置401と、DN
A塩基配列からアミノ酸配列へ翻訳する翻訳プログラ
ム、上記の第1と第2の翻訳アミノ酸配列の配列比較プ
ログラム、第1と第2の翻訳アミノ酸配列どうしの並
置、及び第1と第2の翻訳アミノ酸配列に各々対応する
DNA塩基配列の並置を実行するプログラムを内蔵する
演算処理装置402と、類似度の総計の最大値と第1と
第2の翻訳アミノ酸配列の並置結果、及び第1と第2の
翻訳アミノ酸配列に各々対応するDNA塩基配列の並置
結果を出力する出力装置403と、各種のDNA塩基配
列データベース、各種のアミノ酸配列データベース、ス
コアテーブル、コドン表等を記憶格納する外部記憶装置
404とを含んでいる。
FIG. 18 is a diagram showing the construction of an apparatus for carrying out the DNA base sequence comparison method of the present invention. D of the present invention
The apparatus for executing the NA nucleotide sequence comparison method is the first
And a device 401 for inputting the second DNA base sequence, and
A translation program for translating an A base sequence into an amino acid sequence, a sequence comparison program for the above-mentioned first and second translated amino acid sequences, juxtaposition of the first and second translated amino acid sequences, and first and second translated amino acids An arithmetic processing unit 402 having a built-in program for executing a juxtaposition of DNA base sequences corresponding to the respective sequences, a maximum value of the total degree of similarity and juxtaposition results of the first and second translated amino acid sequences, and first and second An output device 403 that outputs the juxtaposed result of the DNA base sequences corresponding to the translated amino acid sequences, and an external storage device 404 that stores and stores various DNA base sequence databases, various amino acid sequence databases, score tables, codon tables, and the like. Is included.

【0103】以下に、本発明の概要を整理しておく。本
発明は、(A)(1)第1、及び第2のDNA塩基配列
を、3塩基長の塩基群に各々分割し、各塩基群をアミノ
酸に翻訳して、第1、及び第2のアミノ酸配列を求める
工程と、(2)第1、及び第2のDNA塩基配列に於け
る塩基の挿入、欠失、及び、第1、及び第2の翻訳アミ
ノ酸配列に於けるアミノ酸の挿入、及び欠失を各々考慮
して、第1の翻訳アミノ酸配列と第2の翻訳アミノ酸配
列に於ける各アミノ酸の配列の比較の結果得られる類似
度を総計して、類似度の総計が最大となるような、第
1、及び第2の翻訳アミノ酸配列の各アミノ酸どうしの
対応関係を求める工程と、(3)類似度の総計の最大値
と、第1と第2の翻訳アミノ酸配列との並置と、第1の
翻訳アミノ酸配列と第1のDNA塩基配列との間の並置
と、第2の翻訳アミノ酸配列と第2のDNA塩基配列と
の間の並置とを出力する工程とを有し、工程(1)は、
第1、及び第2のDNA塩基配列を各々、(I)末端か
ら3塩基の単位で順次1塩基づつずらしながらアミノ酸
配列に翻訳すること、(II)末端から4塩基の単位で
順次1塩基づつずらし、4塩基のうちの2番目の塩基を
除く4塩基のうちの残りの3塩基をアミノ酸配列に翻訳
すること、(III)末端から4塩基の単位で順次1塩
基づつずらし、4塩基のうちの3番目の塩基を除く4塩
基のうちの残りの3塩基をアミノ酸配列に翻訳するこ
と、を含み、第1と第2のDNA塩基配列の間の類似度
を比較するDNA塩基配列比較方法に特徴がある。
The outline of the present invention will be summarized below. The present invention divides the (A) (1) first and second DNA base sequences into base groups each having a length of 3 bases, and translates each base group into an amino acid to produce the first and second base groups. Determining the amino acid sequence, (2) insertion and deletion of bases in the first and second DNA base sequences, and insertion of amino acids in the first and second translated amino acid sequences, and Considering each deletion, the similarity obtained as a result of comparing the sequences of the respective amino acids in the first translated amino acid sequence and the second translated amino acid sequence is totaled so that the total similarity is maximized. A step of obtaining a correspondence relationship between each amino acid of the first and second translated amino acid sequences, (3) a maximum value of the total similarity, and a juxtaposition of the first and second translated amino acid sequences, The alignment between the first translated amino acid sequence and the first DNA base sequence and the second translated nucleotide sequence And a step of outputting the juxtaposition between acid sequence and the second DNA sequence, step (1) is
Translating the first and second DNA base sequences into amino acid sequences by shifting each one base by 3 bases from the (I) end, and sequentially translating each one base by 4 bases from the (II) end. Shifting, translating the remaining 3 bases of 4 bases excluding the 2nd base of 4 bases into an amino acid sequence, (III) sequentially shifting by 1 base in units of 4 bases Translating the remaining 3 bases out of the 4 bases excluding the 3 rd base into an amino acid sequence, and comparing the degree of similarity between the first and second DNA base sequences. There are features.

【0104】(A)に於いて、k≧1、m≧1を満たす
整数、n≧2を満たす整数とし、i≦M(Mは、第1の
翻訳アミノ酸配列に於けるアミノ酸の数)、j≦N(N
は、第2の翻訳アミノ酸配列に於けるアミノ酸の数)と
する時、工程(2)に於いて、第1の翻訳アミノ酸配列
の各アミノ酸を順次第1の軸の方向に配列し、第2の翻
訳アミノ酸配列の各アミノ酸を順次第2の軸の方向に配
列して得られるマトリックスを形成し、第1の翻訳アミ
ノ酸配列のi番目のアミノ酸と、第2の翻訳アミノ酸配
列のj番目のアミノ酸との対の位置を表わす、マトリッ
クスの要素(i、j)に於ける類似度を総計を求める際
に、マトリックスの要素(i、j)に至る、マトリック
スの要素、(i−3、j−3)、(i、j−3k)、
(i−3k、j)、(i−3n+1、j−3n)、(i
−3n、j−3n+1)、(i−3m、j−3m−
1)、(i−3m−1、j−3m)の7つの経路のうち
から、類似度の総和が最大となるように何れかの経路を
選ぶことに特徴がある。
In (A), an integer satisfying k ≧ 1 and m ≧ 1 and an integer satisfying n ≧ 2, i ≦ M (M is the number of amino acids in the first translated amino acid sequence), j ≦ N (N
Is the number of amino acids in the second translated amino acid sequence), in step (2), each amino acid of the first translated amino acid sequence is sequentially arranged in the direction of the first axis, To form a matrix obtained by sequentially arranging the amino acids of the translated amino acid sequence in the direction of the second axis, and the i-th amino acid of the first translated amino acid sequence and the j-th amino acid of the second translated amino acid sequence. When calculating the total similarity in the elements (i, j) of the matrix, which represent the position of the pair with and, the elements of the matrix (i-3, j- 3), (i, j-3k),
(I-3k, j), (i-3n + 1, j-3n), (i
-3n, j-3n + 1), (i-3m, j-3m-
It is characterized in that any one of the seven routes 1) and (i-3m-1, j-3m) is selected so that the total sum of the similarities is maximized.

【0105】また、本発明は、(B)(1)第1、及び
第2のDNA塩基配列を、3塩基長の塩基群に各々分割
し、各塩基群をアミノ酸に翻訳して、第1、及び第2の
アミノ酸配列を求める工程と、(2)第1、及び第2の
DNA塩基配列に於ける塩基の挿入、欠失、及び、第
1、及び第2の翻訳アミノ酸配列に於けるアミノ酸の挿
入、及び欠失を各々考慮して、第1の翻訳アミノ酸配列
と第2の翻訳アミノ酸配列に於ける各アミノ酸の配列の
比較の結果得られる類似度を総計して、類似度の総計が
最大となるような、第1、及び第2の翻訳アミノ酸配列
の各アミノ酸どうしの対応関係を求める工程と、(3)
類似度の総計の最大値と、第1と第2の翻訳アミノ酸配
列との並置と、第1の翻訳アミノ酸配列と第1のDNA
塩基配列との間の並置と、第2の翻訳アミノ酸配列と第
2のDNA塩基配列との間の並置と出力する工程とを有
し、第1と第2のDNA塩基配列の間の類似度を比較す
るDNA塩基配列比較方法に特徴がある。
In addition, the present invention (B) (1) divides the first and second DNA base sequences into base groups each having a length of 3 bases, translates each base group into amino acids, And (2) the insertion and deletion of bases in the first and second DNA base sequences, and the first and second translated amino acid sequences. Taking into account insertion and deletion of amino acids, the similarity obtained as a result of comparing the sequences of the respective amino acids in the first translated amino acid sequence and the second translated amino acid sequence is totaled, and the total similarity is calculated. And (3) determining the correspondence between the amino acids of the first and second translated amino acid sequences that maximizes
Maximum total similarity, alignment of first and second translated amino acid sequences, first translated amino acid sequence, and first DNA
The alignment between the base sequence and the second translated amino acid sequence, and the step of outputting the alignment, and the degree of similarity between the first and second DNA base sequences. Is characterized by a DNA base sequence comparison method for comparing

【0106】更に、(A)、及び(B)に於いて、第1
のDNA塩基配列を、第1のDNA塩基配列の相補鎖塩
基配列に置き換え、第2のDNA塩基配列を、第2のD
NA塩基配列の相補鎖塩基配列に置き換えて、工程
(1)、(2)、(3)を行なう工程を有することに特
徴を有する。
Further, in (A) and (B), the first
Replacing the second DNA base sequence with the second DNA base sequence by replacing the second DNA base sequence with the complementary strand base sequence of the first DNA base sequence.
It is characterized in that it has a step of performing steps (1), (2) and (3) by substituting the base sequence of the complementary chain of the NA base sequence.

【0107】[0107]

【発明の効果】本発明によれば、翻訳アミノ酸配列を介
するDNA塩基配列の間での類似度の比較が可能となる
ため、類似度の比較の際に使用するスコアテーブルに、
アミノ酸の一致、不一致の他に、アミノ酸の親水性、又
は疎水性等の化学的特性や、アミノ酸の大きさ等の物理
的特性を反映させておくことにより、きめの細かい比較
が可能となり、DNA塩基配列間の類似度検索の感度が
向上する。
EFFECTS OF THE INVENTION According to the present invention, since it is possible to compare the degree of similarity between DNA base sequences mediated by translated amino acid sequences, the score table used for comparing the degrees of similarity can be
In addition to conformity and disagreement of amino acids, by reflecting chemical properties such as hydrophilicity or hydrophobicity of amino acids and physical properties such as size of amino acids, it becomes possible to make a finer comparison and The sensitivity of similarity search between base sequences is improved.

【0108】またDNA塩基配列に存在する塩基の挿
入、欠失、及び翻訳アミノ酸配列中のアミノ酸の挿入、
欠失を考慮した比較が実現できるため、検索もれを少な
くできる。
In addition, insertion, deletion of bases existing in the DNA base sequence, and insertion of amino acids in the translated amino acid sequence,
Since the comparison considering the deletion can be realized, the search omission can be reduced.

【0109】[0109]

【配列表】[Sequence list]

配列表 配列番号:1 配列の長さ:254 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Arabidopsis thaliana 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 TTCATTCATC CGTNGTTCCC CAGCTCCAAT CAGTCTCCGT TCCCTTCCAT CAGCCAACAC 60 ACAATCCCTC TTCGGTCTCA AATCAGGCAC CGCTCGTGGT GGACGTGTCA CAGCCATGGC 120 TACATACAAG GTCAAGTTCA TCACACCAGA AGGTGAGCTA GAGGTTGAGT GTGACGNCGN 180 CGTCTACGTT CTTNATGCTG CTGAGGAAGC TGGAATCGAT TTTGCCTTAC TCTTGCCGTG 240 CTGGTTCTTG TTCG 254 配列番号:2 配列の長さ:84 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Phe Ile His Pro Xaa Phe Pro Ser Ser Asn Arg Leu Arg Ser Leu Pro 16 Ser Ala Asn Thr Gln Ser Leu Phe Gly Leu Lys Ser Gly Thr Ala Arg 32 Gly Gly Arg Val Thr Ala Met Ala Thr Tyr Lys Val Lys Phe Ile Thr 48 Pro Glu Gly Glu Leu Glu Val Glu Cys Asp Xaa Xaa Val Tyr Val Leu 64 Xaa Ala Ala Glu Glu Ala Gly Ile Ile Leu Pro Tyr Ser Cys Arg Ala 80 Gly Ser Cys Ser 84 配列番号:3 配列の長さ:87 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Phe Leu Asn Pro Ala Arg Pro Leu Leu Arg Arg Pro Arg Ala Leu Pro 16 Ser Leu Val Thr Gln Ser Lys His Xaa Asn Met Ser Gly Leu Arg Ile 32 Ser Asn Lys Phe Arg Val Ser Ala Thr Gly Xaa His Lys Val Lys Leu 48 Ile Gly Pro Asp Gly Val Glu His Glu Phe Glu Ala Pro Glu Asp Thr 64 Tyr Ile Leu Glu Ala Ala Glu Thr Ala Gly Val Xaa Leu Pro Xaa Xaa 80 Cys Arg Ala Gly Ser Cys Ser 87 配列番号:4 配列の長さ:260 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Oriza sativa 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 TTCCTAAACC CGGCGCGGCC ATTGCTCCGG CGACCAAGAG CCCTTCCTTC ATTGGTTACG 60 CAAAGCAAAC ATTGAACATG TCAGGCCTAA GGATCTCCAA CAAGTTCAGG GTGTCCGCGA 120 CAGGTNGTCA CAAGGTAAAG CTTATAGGCC CGGACGGTGT CGAGCACGAG TTTGAAGCCC 180 CTGAAGATAC CTACATTCTC GAGGCCGCTG AAACTGCCGG GGTGGNGCTG CCATTNTNAT 240 GCCGTGCTGG ATCATGCTCC 260 配列番号:5 配列の長さ:258 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Arabidopsis thaliana 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 ATGGCGAATT CCGGCGAAGA GAAGTTGAAG CTCTACTCTT ACTGGAGAAG CTCGTGTGCT 60 CATCGTGTCC GTATCGCCCT CGCTTTGAAA GGGCTTGATT ATNAGTATAT ACCAGTGAAT 120 TTNCTCAAGG GTGATCAATT CGATTCANAT TTCAAGAAGA TCAATCCAAT GGGAACTGTA 180 CCAGCTCTGG TGGATGGAGA TGTTGTGATT AATGATTCTT TTGCGATAAT AATGTATCTG 240 GATGAGAAGT ACCCTGAG 258 配列番号:6 配列の長さ:86 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Met Ala Asn Ser Gly Glu Glu Lys Leu Lys Leu Tyr Ser Tyr Trp Arg 16 Ser Ser Cys Ala His Arg Val Arg Ile Ala Leu Ala Leu Lys Gly Leu 32 Asp Tyr Xaa Tyr Ile Pro Val Asn Xaa Leu Lys Gly Asp Gln Phe Asp 48 Ser Xaa Phe Lys Lys Ile Asn Pro Met Gly Thr Val Pro Ala Leu Val 64 Asp Gly Asp Val Val Ile Asn Asp Ser Phe Ala Ile Ile Met Tyr Leu 80 Asp Glu Lys Tyr Pro Glu 86 配列番号:7 配列の長さ:83 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Met Ala Gly Ser Gly Asp Glu Leu Met Leu Leu Gly Lys Trp Pro Ser 16 Pro Phe Val Thr Arg Val Glu Leu Ala Leu Gly Leu Lys Gly Leu Ser 32 Tyr Glu Tyr Val Lys Gln Asp Leu Val Asn Lys Ser Glu Leu Leu Leu 48 Ala Ser Asn Pro Val His Lys Lys Ile Pro Val Leu Ile His Asn Gly 64 Lys Pro Val Cys Glu Ser Ser Ile Ile Val Gln Tyr Ile Asp Glu Ala 80 Phe Pro Asp 83 配列番号:8 配列の長さ:249 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Oriza sativa 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 ATGGCCGGAT CAGGAGACGA GCTGATGCTG CTCGGCAAAT GGCCAAGCCC ATTCGTCACC 60 AGGGTTGAGC TCGCGCTCGG CCTCAAGGGC CTCAGCTACG AGTACGTCAA GCAGGACCTC 120 GTCAACAAGA GCGAGCTCCT CCTCGCCTCC AACCCGGTGC ACAAGAAGAT CCCCGTGCTC 180 ATCCACAACG GCAAGCCGGT CTGCGAGTCG TCAATCATCG TGCAGTACAT CGACGAGGCC 240 TTCCCCGAC 249 配列番号:9 配列の長さ:186 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Arabidopsis thaliana 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 GGAAGAGCTC CATGCTGCGA CAAGGCAAAC NTGAAGAAAG GACCATGGTC ACCGGAAGAN 60 GATGTGAAGC TCAAGGTTTA CATCGACAAA TATGGCACTG GTGGCAACTG GTTCGCACTG 120 CCTCAGAAAN TTGGNCTGAA GAGATGTGGT AAGANTTGCA GACTGAGATG GCTTAATTNC 180 TTAAGA 186 配列番号:10 配列の長さ:62 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Gly Arg Ala Pro Cys Cys Asp Lys Ala Asn Xaa Lys Lys Gly Pro Trp 16 Ser Pro Glu Xaa Asp Xaa Glu Ala Gln Gly Leu His Arg Gln Ile Trp 32 His Trp Trp Gln Leu Val Arg Leu Pro Gln Lys Xaa Xaa Leu Lys Arg 48 Cys Gly Lys Xaa Cys Arg Leu Arg Trp Leu Asn Xaa Leu Arg 62 配列番号:11 配列の長さ:62 配列の型:アミノ酸 トポロジー:不明 配列の種類:タンパク質 ハイポセティカル配列:Yes 配列 Gly Arg His Ser Cys Cys Tyr Lys Gln Lys Leu Arg Lys Gly Leu Trp 16 Ser Xaa Glu Glu Asp Glu Glu Ala His Gly Pro His Asn Gln Ala Trp 32 Xaa Trp Leu Leu Gly His Arg Phe Gln Asn Leu Gln Gly Phe Gln Arg 48 Cys Ala Lys Ala Phe Arg Leu Arg Trp Xaa Asn Tyr Leu Arg 62 配列番号:12 配列の長さ:188 配列の型:核酸 鎖の数:両形態 トポロジー:直鎖状 配列の種類:cDNA to mRNA 起源 生物種:Oriza sativa 配列の特徴 特徴を表す記号:mRNA 特徴を決定した方法:E 配列 GGGAGACATT CCTGCTGCTA CAAGCAGAAG CTGAGGAAGG GGCTCTGGTC ANCTGAGGAG 60 GATGAGGAAG CTCATGGACC ACATAACCAA GCATGGNCAT GGCTGCTGGG GCACCGTTTC 120 CAAAACTTGC AGGGGTTTCA GAGATGTNGC AAAAGCTTTC AGGCTGAGGT TGGGTNAACT 180 ACTTGAGG 188 Sequence listing SEQ ID NO: 1 Sequence length: 254 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Arabidopsis thaliana Sequence features Characteristic symbol: mRNA How the feature was determined: E Array TTCATTCATC CGTNGTTCCC CAGCTCCAAT CAGTCTCCGT TCCCTTCCAT CAGCCAACAC 60 ACAATCCCTC TTCGGTCTCA AATCAGGCAC CGCTCGTGGT GGACGTGTCA CAGCCATGGC 120 TACATACAAG GTCAAGTTCA TCACACCAGA AGGTGAGCTA GAGGTTGAGT GTGACGNCGN 180 CGTCTACGTT CTTNATGCTG CTGAGGAAGC TGGAATCGAT TTTGCCTTAC TCTTGCCGTG 240 CTGGTTCTTG TTCG 254 SEQ ID NO: 2 Sequence length: 84 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Phe Ile His Pro Xaa Phe Pro Ser Ser Asn Arg Leu Arg Ser Leu Pro 16 Ser Ala Asn Thr Gln Ser Leu Phe Gly Leu Lys Ser Gly Thr Ala Arg 32 Gly Gly Arg Val Thr Ala Met Ala Thr Tyr Lys Val Lys Phe Ile Thr 48 Pro Glu Gly Glu Leu Glu Val Glu Cys Asp Xaa Xaa Val Tyr Val Leu 64 Xaa Ala Ala Glu Glu Ala Gly Ile Ile Leu Pro Tyr Ser Cys Arg Ala 80 Gly Ser Cys Ser 84 SEQ ID NO: 3 Sequence length: 87 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Phe Leu Asn Pro Ala Arg Pro Leu Leu Arg Arg Pro Arg Ala Leu Pro 16 Ser Leu Val Thr Gln Ser Lys His Xaa Asn Met Ser Gly Leu Arg Ile 32 Ser Asn Lys Phe Arg Val Ser Ala Thr Gly Xaa His Lys Val Lys Leu 48 Ile Gly Pro Asp Gly Val Glu His Glu Phe Glu Ala Pro Glu Asp Thr 64 Tyr Ile Leu Glu Ala Ala Glu Thr Ala Gly Val Xaa Leu Pro Xaa Xaa 80 Cys Arg Ala Gly Ser Cys Ser 87 SEQ ID NO: 4 Sequence length: 260 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Oriza sativa Sequence features Characteristic symbol: mRNA How the feature was determined: E Array TTCCTAAACC CGGCGCGGCC ATTGCTCCGG CGACCAAGAG CCCTTCCTTC ATTGGTTACG 60 CAAAGCAAAC ATTGAACATG TCAGGCCTAA GGATCTCCAA CAAGTTCAGG GTGTCCGCGA 120 CAGGTNGTCA CAAGGTAAAG CTTATAGGCC CGGACGGTGT CGAGCACGAG TTTGAAGCCC 180 CTGAAGATAC CTACATTCTC GAGGCCGCTG AAACTGCCGG GGTGGNGCTG CCATTNTNAT 240 GCCGTGCTGG ATCATGCTCC 260 SEQ ID NO: 5 Sequence length: 258 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Arabidopsis thaliana Sequence features Characteristic symbol: mRNA How the feature was determined: E Array ATGGCGAATT CCGGCGAAGA GAAGTTGAAG CTCTACTCTT ACTGGAGAAG CTCGTGTGCT 60 CATCGTGTCC GTATCGCCCT CGCTTTGAAA GGGCTTGATT ATNAGTATAT ACCAGTGAAT 120 TTNCTCAAGG GTGATCAATT CGATTCANAT TTCAAGAAGA TCAATCCAAT GGGAACTGTA 180 CCAGCTCTGG TGGATGGAGA TGTTGTGATT AATGATTCTT TTGCGATAAT AATGTATCTG 240 GATGAGAAGT ACCCTGAG 258 SEQ ID NO: 6 Sequence length: 86 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Met Ala Asn Ser Gly Glu Glu Lys Leu Lys Leu Tyr Ser Tyr Trp Arg 16 Ser Ser Cys Ala His Arg Val Arg Ile Ala Leu Ala Leu Lys Gly Leu 32 Asp Tyr Xaa Tyr Ile Pro Val Asn Xaa Leu Lys Gly Asp Gln Phe Asp 48 Ser Xaa Phe Lys Lys Ile Asn Pro Met Gly Thr Val Pro Ala Leu Val 64 Asp Gly Asp Val Val Ile Asn Asp Ser Phe Ala Ile Ile Met Tyr Leu 80 Asp Glu Lys Tyr Pro Glu 86 SEQ ID NO: 7 Sequence length: 83 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Met Ala Gly Ser Gly Asp Glu Leu Met Leu Leu Gly Lys Trp Pro Ser 16 Pro Phe Val Thr Arg Val Glu Leu Ala Leu Gly Leu Lys Gly Leu Ser 32 Tyr Glu Tyr Val Lys Gln Asp Leu Val Asn Lys Ser Glu Leu Leu Leu 48 Ala Ser Asn Pro Val His Lys Lys Ile Pro Val Leu Ile His Asn Gly 64 Lys Pro Val Cys Glu Ser Ser Ile Ile Val Gln Tyr Ile Asp Glu Ala 80 Phe Pro Asp 83 SEQ ID NO: 8 Sequence length: 249 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Oriza sativa Sequence features Characteristic symbol: mRNA How the characteristics were determined: E Array ATGGCCGGAT CAGGAGACGA GCTGATGCTG CTCGGCAAAT GGCCAAGCCC ATTCGTCACC 60 AGGGTTGAGC TCGCGCTCGG CCTCAAGGGC CTCAGCTACG AGTACGTCAA GCAGGACCTC 120 GTCAACAAGA GCGAGCTCCT CCTCGCCTCC AACCCGGTGC ACAAGAAGAT CCCCGTGCTC 180 ATCCACAACG GCAAGCCGGT CTGCGAGTCG TCAATCATCG TGCAGTACAT CGACGAGGCC 240 TTCCCCGAC 249 SEQ ID NO: 9 Sequence length: 186 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Arabidopsis thaliana Sequence features Characteristic symbol: mRNA How the feature was determined: E Array GGAAGAGCTC CATGCTGCGA CAAGGCAAAC NTGAAGAAAG GACCATGGTC ACCGGAAGAN 60 GATGTGAAGC TCAAGGTTTA CATCGACAAA TATGGCACTG GTGGCAACTG GTTCGCACTG 120 CCTCAGAAAN TTGGNCTGAA GAGATGTGGT AAGANTTGCA GACTGAGATG GCTTAATTNC 180 TTAAGA 186 SEQ ID NO: 10 Sequence length: 62 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Gly Arg Ala Pro Cys Cys Asp Lys Ala Asn Xaa Lys Lys Gly Pro Trp 16 Ser Pro Glu Xaa Asp Xaa Glu Ala Gln Gly Leu His Arg Gln Ile Trp 32 His Trp Trp Gln Leu Val Arg Leu Pro Gln Lys Xaa Xaa Leu Lys Arg 48 Cys Gly Lys Xaa Cys Arg Leu Arg Trp Leu Asn Xaa Leu Arg 62 SEQ ID NO: 11 Sequence length: 62 Sequence type: Amino acid Topology: unknown Sequence type: Protein Hypothetical array: Yes Array Gly Arg His Ser Cys Cys Tyr Lys Gln Lys Leu Arg Lys Gly Leu Trp 16 Ser Xaa Glu Glu Asp Glu Glu Ala His Gly Pro His Asn Gln Ala Trp 32 Xaa Trp Leu Leu Gly His Arg Phe Gln Asn Leu Gln Gly Phe Gln Arg 48 Cys Ala Lys Ala Phe Arg Leu Arg Trp Xaa Asn Tyr Leu Arg 62 SEQ ID NO: 12 Sequence length: 188 Sequence type: Nucleic acid Number of chains: both forms Topology: linear Sequence type: cDNA to mRNA origin Species: Oriza sativa Sequence features Characteristic symbol: mRNA How the feature was determined: E Array GGGAGACATT CCTGCTGCTA CAAGCAGAAG CTGAGGAAGG GGCTCTGGTC ANCTGAGGAG 60 GATGAGGAAG CTCATGGACC ACATAACCAA GCATGGNCAT GGCTGCTGGG GCACCGTTTC 120 CAAAACTTGC AGGGGTTTCA GAGATGTNGC AAAAGCTTTC AGGCTGAGGT TGGGTNAACT 180 ACTTGAGG 188

【図面の簡単な説明】[Brief description of drawings]

【図1】従来技術に於ける、DNA塩基配列からアミノ
酸配列へ翻訳する際のDNA塩基配列に対する6種類の
読み枠を説明する図。
FIG. 1 is a diagram for explaining six types of reading frames for a DNA base sequence when translating a DNA base sequence into an amino acid sequence in the prior art.

【図2】従来技術のSmith−Waterman法を
使用して、DNA塩基配列の比較を行なう際のスコアの
加算経路を説明する図。
FIG. 2 is a diagram for explaining a score addition path when comparing DNA base sequences using the Smith-Waterman method of the prior art.

【図3】本発明の実施例に於ける処理工程の例を説明す
るフロー図。
FIG. 3 is a flowchart illustrating an example of processing steps according to the embodiment of the present invention.

【図4】本発明の実施例に於いて使用した、アミノ酸の
対に付与するスコアを規定する従来技術のテーブルの一
例を示す図。
FIG. 4 is a diagram showing an example of a prior art table that defines the scores to be assigned to amino acid pairs, used in the examples of the present invention.

【図5】コドン表の3塩基単位(コドン単位)の各々に
対応して、アミノ酸への翻訳の終止、アミノ酸の種類を
規定する、従来技術のコドン表を示す図。
FIG. 5 is a diagram showing a codon table of the prior art which defines termination of translation into amino acids and types of amino acids corresponding to each of the three base units (codon units) of the codon table.

【図6】本発明の実施例に於ける、DNA塩基配列をア
ミノ酸配列に翻訳する第1の翻訳方法を説明する図。
FIG. 6 is a diagram illustrating a first translation method for translating a DNA base sequence into an amino acid sequence in the example of the present invention.

【図7】本発明の実施例に於ける、DNA塩基配列をア
ミノ酸配列に翻訳する第2、第3の翻訳方法を説明する
図。
FIG. 7 is a diagram illustrating second and third translation methods for translating a DNA base sequence into an amino acid sequence according to an example of the present invention.

【図8】本発明の実施例に於ける、翻訳アミノ酸配列の
比較を行なう際のスコアの加算経路を説明する図。
FIG. 8 is a diagram illustrating a score addition route when comparing translated amino acid sequences in an example of the present invention.

【図9】本発明の実施例に於いて、スコアs2(i−
3、j−4)を求める点(i−3、j−4)を示す図。
FIG. 9 shows the score s 2 (i− in the example of the present invention.
The figure which shows the point (i-3, j-4) which calculates | requires 3, j-4).

【図10】本発明の実施例に於いて、スコアs3(i−
3、j−4)を求める点(i−3、j−4)を示す図。
FIG. 10 shows the score s 3 (i− in the example of the present invention.
The figure which shows the point (i-3, j-4) which calculates | requires 3, j-4).

【図11】本発明の実施例に於いて、スコアs4(i−
4、j−3)を求める点(i−4、j−3)を示す図。
FIG. 11 shows the score s 4 (i− in the example of the present invention.
4, j-3) is a diagram showing points (i-4, j-3) to be obtained.

【図12】本発明の実施例に於いて、スコアs5(i−
4、j−3)を求める点(i−4、j−3)を示す図。
FIG. 12 shows the score s 5 (i− in the example of the present invention.
4, j-3) is a diagram showing points (i-4, j-3) to be obtained.

【図13】本発明の実施例に於ける、動的計画法の演算
での9種類の方向の各移動経路に対応する並置結果の一
般例を示す図。
FIG. 13 is a diagram showing a general example of juxtaposition results corresponding to movement paths in nine types of directions in the dynamic programming calculation in the embodiment of the present invention.

【図14】本発明の実施例に於ける、動的計画法の演算
での9種類の方向の各移動経路に対応する並置結果の具
体例を示す図。
FIG. 14 is a diagram showing a specific example of juxtaposition results corresponding to movement paths in nine types of directions in the dynamic programming calculation according to the embodiment of the present invention.

【図15】本発明の実施例の比較検索で得られた並置結
果例を示す図。
FIG. 15 is a diagram showing an example of juxtaposition results obtained by a comparative search according to an example of the present invention.

【図16】本発明の実施例の比較検索で得られた並置結
果例を示す図。
FIG. 16 is a diagram showing an example of juxtaposed results obtained by a comparative search according to an example of the present invention.

【図17】本発明の実施例の比較検索で得られた並置結
果例を示す図。
FIG. 17 is a diagram showing an example of juxtaposition results obtained by a comparative search according to an example of the present invention.

【図18】本発明のDNA塩基配列比較方法が実施され
る装置の構成を示す図。
FIG. 18 is a view showing a configuration of an apparatus for carrying out the DNA base sequence comparison method of the present invention.

【符号の説明】[Explanation of symbols]

301…スコアテーブルを入力する工程、302…検索
結果の出力数を入力する工程、303…検索DNA塩基
配列を入力する工程、304…検索DNA塩基配列をア
ミノ酸配列に翻訳する工程、305…DNA塩基配列を
読み出す工程、306…DNA塩基配列をアミノ酸配列
に翻訳する工程、307…動的計画法によるスコア総計
の工程、308…検索結果の出力数までの上位スコア総
計を持つDNA塩基配列を選択する工程、309…上位
スコア総計をソートする工程、310…上位スコア総計
を持つDNA塩基配列を表示する工程、311…並置結
果の出力数を入力する工程、312…動的計画法による
スコア総計及び経路を演算する工程、313…スコア総
計の最大値を与える経路のトレースを演算する工程、3
14…並置結果を表示する工程、401…入力装置、4
02…演算処理装置、403…出力装置、404…外部
記憶装置。
301 ... Inputting score table, 302 ... Inputting output number of search results, 303 ... Inputting search DNA base sequence, 304 ... Translating search DNA base sequence into amino acid sequence, 305 ... DNA base Step of reading sequence, 306 ... Translation of DNA base sequence into amino acid sequence, 307 ... Step of total score by dynamic programming, 308 ... Select DNA base sequence having upper total score up to output number of search results Step, 309 ... Sorting of total score, 310 ... Displaying DNA base sequence having upper score total, 311 ... Inputting output number of juxtaposition result, 312 ... Total score and path by dynamic programming , 313 ... Calculating the trace of the route that gives the maximum score total, 3
14 ... Process of displaying juxtaposition result, 401 ... Input device, 4
02 ... Arithmetic processing device, 403 ... Output device, 404 ... External storage device.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 笠原 直子 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 平10−5000(JP,A) 特開 平9−105748(JP,A) HEIN,J,An Algorit hm Combining DNA a nd Protein Alignme nt,Journal of Theo retical Biology,AC ADEMIC PRESS,1994年3月 21日,Vol.167,No.2,p.169 −174 HEIN,J et al.,Gen omic Alignment,Jou rnal of Mlecular E volution,Springer International,1994年3 月,Vol.38,No.3,p.310− 316 HOMPSON,J.D.GIBSO N,T.J.,PairWise an d SearchWise:findi ng the optimal ali gnment in a simult aneous comparison of a protein....,N ucleic Acids Resea rch,英国,Oxford Univ ersity Press,1996年,V ol.24,No.14,p.2730−2739 GUAN,X.UBERBACHE R,E.C.,alignments of DNA and protein sequences contain ing frameshift err ors,Computer Appli cations in the Bio sciences,英国,OXFORD UNIVERSITY PRESS, 1996年,Vol.12,No.1,p.31 −40 内宮博文、加藤敦之,イネcDNAの 大量解析,蛋白質・核酸・酵素,日本, 共立出版株式会社,1992年5月10日,V ol.37,No.7,p.1364−1368 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 C12N 15/00 JICSTファイル(JOIS)─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Naoko Kasahara 1-280, Higashi Koikekubo, Kokubunji, Tokyo Inside Central Research Laboratory, Hitachi, Ltd. (56) Reference JP 10-5000 (JP, A) JP 9 -105748 (JP, A) HEIN, J, An Algorithm Combining DNA and Protein Alignment, Journal of Theoretical Biology, AC ADEMIC PRESS, March 21, 1994, Vol. 167, no. 2, p. 169-174 HEIN, J et al. , Genomic Alignment, Journal of Molecular E evolution, Springer International, March 1994, Vol. 38, No. 3, p. 310-316 HOMPSON, J. D. GIBSO N, T. J. , PairWise and SearchWise: find the optimal alignment in a simultaneous companion of a protein. . . . , Nucleic Acids Research, United Kingdom, Oxford University Press, 1996, Vol. 24, No. 14, p. 2730-2739 GUAN, X. UBERBACHE R, E. C. , Alignments of DNA and protein sequences contenting flameshift errors, Computer Applications in the Bio sciences, United Kingdom, OXFORD UNIVERSITY, 1996. 12, No. 1, p. 31-40 Hirofumi Uchimiya, Atsuyuki Kato, Large-scale analysis of rice cDNA, protein / nucleic acid / enzyme, Japan, Kyoritsu Shuppan Co., Ltd., May 10, 1992, Vol. 37, No. 7, p. 1364-1368 (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/30 C12N 15/00 JISST file (JOIS)

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】第1の塩基配列として、検索DNA塩基配
列を入力する工程と、 第2の塩基配列として、DNA塩基配列データベースか
ら読み出されたDNA塩基配列を入力する工程と、 前記第1のDNA塩基配列及び前記第2のDNA塩基配
列を、3塩基毎に分割してアミノ酸に翻訳し、それぞれ
第1のアミノ酸配列と第2のアミノ酸配列とする工程
と、 前記第1のアミノ酸配列及び前記第2のアミノ酸配列と
する工程において、前記第1のDNA塩基配列及び前記
第2のDNA塩基配列を、5’末端から3塩基の単位で
1塩基ずつずらしながらアミノ酸に翻訳、5’末端から
4塩基の単位で1塩基ずつずらし、前記4塩基のうちの
2番目の塩基を除いた3塩基をアミノ酸に翻訳、5’末
端から4塩基の単位で1塩基ずつずらし、前記4塩基の
うちの3番目の塩基を除いた3塩基をアミノ酸に翻訳す
る翻訳方法を組合わせ、 前記第1のDNA塩基配列及び前記第2の塩基配列にお
ける塩基の挿入、欠失及び前記第1のアミノ酸配列及び
前記第2のアミノ酸配列におけるアミノ酸の挿入、欠失
を考慮して、前記第1のアミノ酸配列と前記第2のアミ
ノ酸配列の比較をすることにより、類似度を総計し、前
記類似度の総計が最大となるような対応関係を求める工
程と、 前記類似度の最大値と、前記第1のアミノ酸配列と前記
第2のアミノ酸配列との並置、前記第1のDNA塩基配
列と前記第1のアミノ酸配列との並置、前記第2のDN
A塩基配列と前記第2のアミノ酸配列との並置とを出力
する工程を含むことを特徴とするDNA塩基配列比較方
法。
1. A step of inputting a search DNA base sequence as a first base sequence, a step of inputting a DNA base sequence read from a DNA base sequence database as a second base sequence, said first base sequence And the second DNA base sequence is divided into 3 bases and translated into amino acids to obtain a first amino acid sequence and a second amino acid sequence, respectively, the first amino acid sequence and In the step of forming the second amino acid sequence, the first DNA base sequence and the second DNA base sequence are translated into amino acids while shifting the bases by 3 bases in units of 3 bases from the 5 ′ end. The bases are shifted by 1 base by 4 bases, and the 3 bases except the second base among the 4 bases are translated into amino acids. The 5'-end is shifted by 1 base by 4 bases unit by 1 base by 4 bases. The three bases except the Chino third base combined translation method to translate the amino acid, insertion of the base in the first DNA sequence and said second nucleotide sequence, deletion and the first amino acid sequence and By considering the insertion and deletion of amino acids in the second amino acid sequence and comparing the first amino acid sequence with the second amino acid sequence, the similarity is summed up, and the total similarity is calculated. Determining the correspondence that maximizes the maximum value, the maximum value of the similarity, the juxtaposition of the first amino acid sequence and the second amino acid sequence, the first DNA base sequence and the first amino acid Juxtaposition with an array, said second DN
A DNA base sequence comparison method comprising the step of outputting the A base sequence and the juxtaposition of the second amino acid sequence.
【請求項2】請求項1記載のDNA塩基配列比較方法に
おいて、前記類似度の総計は、i≦M(M:前記第1のア
ミノ酸配列のアミノ酸の数)、j≦N(N:前記第2のア
ミノ酸のアミノ酸の数)とし、前記第1のアミノ酸配列
を第1の軸に配列し、前記第2のアミノ酸配列を第2の
軸に配列して得られるマトリックスを形成し、前記第1
のアミノ酸配列のi番目のアミノ酸と、前記第2のアミ
ノ酸配列のj番目のアミノ酸との対位置を表す、前記マ
トリックスの要素(i、j)における前記類似度の総計
であって、前記マトリックスの要素(i、j)に至る前
記マトリックスの要素である、(i−3,j−3)、
(i,j−3k)、(i−3k,j)、(i−3n+
1,j−3n)、(i−3n,j−3n+1)、(i−
3m,j−3m−1)、(i−3m−1,j−3m)
(k≧1、m≧1、n≧2)から、前記類似度の総和が
最大となるように経路を選び、前記類似度の総和が最大
となるように対応関係を求めることを特徴とするDNA
塩基配列比較方法。
2. The DNA base sequence comparison method according to claim 1, wherein the total of the similarities is i ≦ M (M: the number of amino acids of the first amino acid sequence), j ≦ N (N: the second amino acid). The number of amino acids of 2 amino acids), the first amino acid sequence is arranged on the first axis, and the second amino acid sequence is arranged on the second axis to form a matrix,
Which is the sum of the similarities in the elements (i, j) of the matrix, which represent the paired positions of the i-th amino acid of the amino acid sequence of and the j-th amino acid of the second amino acid sequence, (I-3, j-3), which are elements of the matrix leading to element (i, j),
(I, j-3k), (i-3k, j), (i-3n +)
1, j-3n), (i-3n, j-3n + 1), (i-
3m, j-3m-1), (i-3m-1, j-3m)
From (k ≧ 1, m ≧ 1, n ≧ 2), a route is selected so that the sum of the similarities is maximized, and a correspondence relation is obtained so that the sum of the similarities is maximized. DNA
Nucleotide sequence comparison method.
【請求項3】請求項1記載のDNA塩基配列比較方法に
おいて、前記第1のDNA塩基配列を、前記第1のDN
A塩基配列の相補鎖塩基配列とし、前記第2のDNA塩
基配列を、前記第2のDNA塩基配列の相補鎖塩基配列
とした配列をさらに含むことを特徴とするDNA塩基配
列比較方法。
3. The DNA base sequence comparison method according to claim 1, wherein the first DNA base sequence is replaced with the first DN.
A method for comparing DNA base sequences, further comprising a sequence which is a base sequence complementary to A base sequence and the second DNA base sequence is a base sequence complementary to the second DNA base sequence.
【請求項4】第1の塩基配列として検索DNA塩基配列
と、第2の塩基配列としてDNA塩基配列データベースか
ら読み出されたDNA塩基配列とを入力する入力手段
と、 前記第1のDNA塩基配列及び前記第2の塩基配列を、
3塩基毎に分割してアミノ酸に翻訳し、それぞれ第1の
アミノ酸配列と第2のアミノ酸配列とし、前記第1のD
NA塩基配列及び前記第2の塩基配列における塩基の挿
入、欠失及び前記第1のアミノ酸配列及び前記第2のア
ミノ酸配列におけるアミノ酸の挿入、欠失を考慮して、
前記第1のアミノ酸配列と前記第2のアミノ酸配列を比
較して類似度を総計し、前記類似度の総計が最大となる
ような対応関係を求める演算手段と、 前記演算手段は、前記第1のDNA塩基配列及び前記第
2のDNA塩基配列を、5’末端から3塩基の単位で1
塩基ずつずらしながらアミノ酸に翻訳、5’末端から4
塩基の単位で1塩基ずつずらし、前記4塩基のうちの2
番目の塩基を除いた3塩基をアミノ酸に翻訳、5’末端
から4塩基の単位で1塩基ずつずらし、前記4塩基のう
ちの3番目の塩基を除いた3塩基をアミノ酸に翻訳する
翻訳プログラムの組合わせであり、 前記類似度の最大値と、前記第1のアミノ酸配列と前記
第2のアミノ酸配列との並置、前記第1のDNA塩基配
列と前記第1のアミノ酸配列との並置、前記第2のDN
A塩基配列と前記第2のアミノ酸配列との並置とを出力
する出力手段とを有することを特徴とするDNA塩基配
列比較装置。
4. An input means for inputting a searched DNA base sequence as a first base sequence and a DNA base sequence read from a DNA base sequence database as a second base sequence, and the first DNA base sequence. And the second base sequence,
It is divided into 3 bases and translated into amino acids to obtain a first amino acid sequence and a second amino acid sequence, and the first D
Considering the insertion and deletion of bases in the NA base sequence and the second base sequence and the insertion and deletion of amino acids in the first amino acid sequence and the second amino acid sequence,
An arithmetic means for comparing the first amino acid sequence and the second amino acid sequence to total the degree of similarity to obtain a correspondence relationship that maximizes the total degree of similarity; And the second DNA base sequence from the 5'end in units of 3 bases.
Translation into amino acids while shifting bases 4 from the 5'end
The base unit is shifted by 1 base, and 2 of the 4 bases are shifted.
Th base obtained by removing 3 bases translated into amino acids, the 5 'end shifted by one nucleotide in units of 4 bases from the 3 base excluding the third base of said 4 bases translation program to translate the amino acid A combination of the maximum value of the similarity , the alignment of the first amino acid sequence and the second amino acid sequence, the alignment of the first DNA base sequence and the first amino acid sequence, the 2 DN
A DNA base sequence comparison device comprising: an output unit that outputs the A base sequence and the juxtaposition of the second amino acid sequence.
【請求項5】請求項4記載のDNA塩基配列比較方法に
おいて、前記演算手段は、前記類似度の総計は、i≦M
(M:前記第1のアミノ酸配列のアミノ酸の数)、j≦N
(N:前記第2のアミノ酸のアミノ酸の数)とし、前記
第1のアミノ酸配列を第1の軸に配列し、前記第2のア
ミノ酸配列を第2の軸に配列して得られるマトリックス
を形成し、前記第1のアミノ酸配列のi番目のアミノ酸
と、前記第2のアミノ酸配列のj番目のアミノ酸との対
位置を表す、前記マトリックスの要素(i、j)におけ
る前記類似度の総計であって、前記マトリックスの要素
(i、j)に至る前記マトリックスの要素である、(i
−3,j−3)、(i,j−3k)、(i−3k,
j)、(i−3n+1,j−3n)、(i−3n,j−
3n+1)、(i−3m,j−3m−1)、(i−3m
−1,j−3m)(k≧1、m≧1、n≧2)から、前
記類似度の総和が最大となるように経路を選び、前記類
似度の総和が最大となるように対応関係を求めるプログ
ラムを含んでいることを特徴とする塩基配列比較装置。
5. The DNA base sequence comparison method according to claim 4, wherein the arithmetic means has a sum of the degrees of similarity i ≦ M.
(M: number of amino acids in the first amino acid sequence), j ≦ N
(N: the number of amino acids of the second amino acid), the first amino acid sequence is aligned on the first axis, and the second amino acid sequence is aligned on the second axis to form a matrix. The sum of the similarities in the element (i, j) of the matrix, which represents the paired position of the i-th amino acid of the first amino acid sequence and the j-th amino acid of the second amino acid sequence. Is an element of the matrix up to an element (i, j) of the matrix, (i
-3, j-3), (i, j-3k), (i-3k,
j), (i-3n + 1, j-3n), (i-3n, j-
3n + 1), (i-3m, j-3m-1), (i-3m
-1, j-3m) (k ≧ 1, m ≧ 1, n ≧ 2), the route is selected so that the total sum of the similarities is maximized, and the correspondence relation is selected so that the total sum of the similarities is maximized. A base sequence comparison device comprising a program for obtaining
【請求項6】請求項4記載のDNA塩基配列比較装置に
おいて、前記第1のDNA塩基配列を、前記第1のDN
A塩基配列の相補鎖塩基配列とし、前記第2のDNA塩
基配列を、前記第2のDNA塩基配列の相補鎖塩基配列
とした配列をさらに含んでいることを特徴とするDNA
塩基配列比較装置。
6. The DNA base sequence comparison apparatus according to claim 4, wherein the first DNA base sequence is replaced with the first DN.
A DNA which further comprises a sequence which is a complementary chain base sequence of the A base sequence and which is the second DNA base sequence is a complementary chain base sequence of the second DNA base sequence.
Base sequence comparison device.
JP05310298A 1997-03-31 1998-03-05 DNA base sequence comparison method Expired - Fee Related JP3395633B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05310298A JP3395633B2 (en) 1997-03-31 1998-03-05 DNA base sequence comparison method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7958697 1997-03-31
JP9-79586 1997-03-31
JP05310298A JP3395633B2 (en) 1997-03-31 1998-03-05 DNA base sequence comparison method

Publications (2)

Publication Number Publication Date
JPH10334104A JPH10334104A (en) 1998-12-18
JP3395633B2 true JP3395633B2 (en) 2003-04-14

Family

ID=26393813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05310298A Expired - Fee Related JP3395633B2 (en) 1997-03-31 1998-03-05 DNA base sequence comparison method

Country Status (1)

Country Link
JP (1) JP3395633B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11302418B2 (en) * 2017-10-06 2022-04-12 Emweb bvba Alignment method for nucleic acid sequences

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3584275B2 (en) * 1999-11-29 2004-11-04 独立行政法人理化学研究所 Exon intron junction determining device, gene region determining device, and method for determining them
JP3437521B2 (en) * 2000-03-03 2003-08-18 理化学研究所 Apparatus and method for correcting frame shift error of cDNA sequence, and recording medium recording program for executing the method
KR100481878B1 (en) * 2000-07-19 2005-04-11 주식회사 바이오그랜드 Biological Blood-Relation Retrieving System and Method the same
KR20030008384A (en) * 2001-07-18 2003-01-29 이경호 The family searching system of unknown graves with internet
JP3928050B2 (en) * 2003-09-19 2007-06-13 大学共同利用機関法人情報・システム研究機構 Base sequence classification system and oligonucleotide frequency analysis system

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUAN,X.UBERBACHER,E.C.,alignments of DNA and protein sequences containing frameshift errors,Computer Applications in the Biosciences,英国,OXFORD UNIVERSITY PRESS,1996年,Vol.12,No.1,p.31−40
HEIN,J et al.,Genomic Alignment,Journal of Mlecular Evolution,Springer International,1994年3月,Vol.38,No.3,p.310−316
HEIN,J,An Algorithm Combining DNA and Protein Alignment,Journal of Theoretical Biology,ACADEMIC PRESS,1994年3月21日,Vol.167,No.2,p.169−174
HOMPSON,J.D.GIBSON,T.J.,PairWise and SearchWise:finding the optimal alignment in a simultaneous comparison of a protein....,Nucleic Acids Research,英国,Oxford University Press,1996年,Vol.24,No.14,p.2730−2739
内宮博文、加藤敦之,イネcDNAの大量解析,蛋白質・核酸・酵素,日本,共立出版株式会社,1992年5月10日,Vol.37,No.7,p.1364−1368

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11302418B2 (en) * 2017-10-06 2022-04-12 Emweb bvba Alignment method for nucleic acid sequences

Also Published As

Publication number Publication date
JPH10334104A (en) 1998-12-18

Similar Documents

Publication Publication Date Title
US6807491B2 (en) Method and apparatus for combining gene predictions using bayesian networks
Tsai et al. A dataset of protein–protein interfaces generated with a sequence-order-independent comparison technique
DeBry et al. Phylogeny of Rodentia (Mammalia) inferred from the nuclear-encoded gene IRBP
US20020183933A1 (en) Computer-aided techniques for analyzing biological sequences
CA2259887A1 (en) Computer-aided visualization of expression comparison
JP3395633B2 (en) DNA base sequence comparison method
Zheng et al. Predicting protein–protein interactions between rice and blast fungus using structure-based approaches
Michu A short guide to phylogeny reconstruction
US8024127B2 (en) Local-global alignment for finding 3D similarities in protein structures
CA2386706C (en) Automated method for identifying related biomolecular sequences
US6662115B2 (en) Method for comparison of DNA base sequences
KR20070115964A (en) Systems, methods, and computer programs for non-binary sequence comparisons
US7010430B2 (en) Method for displaying gene experiment data
Ray et al. Combining multisource information through functional-annotation-based weighting: gene function prediction in yeast
Luhmann et al. The SCJ small parsimony problem for weighted gene adjacencies
KR20100021205A (en) Apparatus for visualizing and analyzing gene expression patterns using gene ontology tree and method thereof
KR101151785B1 (en) The method for the discovery of orthologue gene using gene ontology
Fan et al. Genome sequence resource of Colletotrichum horii, an important pathogenic fungus threatening persimmon production
Sharma et al. The evolution of genome mining tools in microbes and the role of integrated approach in search for novel drug targets
EP1134687A2 (en) Method for displaying results of hybridization experiments
Liu et al. Production of useful secondary metabolites in plants: Functional genomics approaches
CN121747706A (en) Enzyme kinetic parameter prediction and virtual screening method based on multisource feature fusion
US20030220748A1 (en) Computer-aided techniques for analyzing biological sequences
Borja Pitarch et al. Detection of Specificity-Determining Positions in Protein
Kumari Genome sequencing of oryza sativa represent a large range of intraspecific variability

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090207

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090207

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100207

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100207

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110207

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130207

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees