JP5007803B2 - Gene clustering apparatus, gene clustering method and program - Google Patents
Gene clustering apparatus, gene clustering method and program Download PDFInfo
- Publication number
- JP5007803B2 JP5007803B2 JP2007060745A JP2007060745A JP5007803B2 JP 5007803 B2 JP5007803 B2 JP 5007803B2 JP 2007060745 A JP2007060745 A JP 2007060745A JP 2007060745 A JP2007060745 A JP 2007060745A JP 5007803 B2 JP5007803 B2 JP 5007803B2
- Authority
- JP
- Japan
- Prior art keywords
- gene
- motif
- sequence
- genes
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108090000623 proteins and genes Proteins 0.000 title claims description 156
- 238000000034 method Methods 0.000 title claims description 30
- 238000004364 calculation method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 10
- 108700026220 vif Genes Proteins 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 241000894007 species Species 0.000 description 5
- 240000008042 Zea mays Species 0.000 description 4
- 101150047694 ID1 gene Proteins 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 101100333177 Oryza sativa subsp. japonica EHD2 gene Proteins 0.000 description 3
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 241000206572 Rhodophyta Species 0.000 description 2
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000011701 zinc Substances 0.000 description 2
- 229910052725 zinc Inorganic materials 0.000 description 2
- 101150072531 10 gene Proteins 0.000 description 1
- 101150082072 14 gene Proteins 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- 241000219195 Arabidopsis thaliana Species 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 235000007244 Zea mays Nutrition 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 101710185494 Zinc finger protein Proteins 0.000 description 1
- 102100023597 Zinc finger protein 816 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラムに関する。 The present invention relates to a gene clustering apparatus, a gene clustering method, and a program for clustering a plurality of genes based on sequence similarity.
機能の分からない遺伝子の働きを推定するには、すでに知られている遺伝子に対する類似性を評価し、配列の類似性に基づいてクラスタリングを行う手法が有効であることが知られている。
従来、遺伝子のクラスタリングには最大節約法、最尤法、近隣結合法などが用いられている。これらの方法は、クラスタリング対象となる遺伝子の配列を直接比較しながら、系統樹を作成する点が共通である。このようなクラスタリングを利用した例として、非特許文献1に開示されたクラスタリングとアラインメントのためのプログラムなどがあげられる。
In order to estimate the function of a gene whose function is unknown, it is known that a technique of evaluating similarity to a known gene and performing clustering based on sequence similarity is effective.
Conventionally, a maximum saving method, a maximum likelihood method, a neighborhood connection method, and the like are used for gene clustering. These methods are common in that a phylogenetic tree is created while directly comparing the sequences of genes to be clustered. As an example using such clustering, a clustering and alignment program disclosed in Non-Patent
従来の遺伝子クラスタリング方法では、一つひとつの遺伝子の塩基配列に着目し、個々の塩基配列の変異の時期や前後関係を推定することで系統樹を作成している。しかしながら、これらの方法では、遺伝的にかなり離れてしまっているものや、分化したあとに新たに獲得された機能など、大幅に全体の配列が異なるようなもの同士は比較できないという問題があった。従来のクラスタリングは、進化的な過程で発生する程度の配列変化、すなわち比較的変化の少ない遺伝子同士を比較するのには適している。 In the conventional gene clustering method, a phylogenetic tree is created by paying attention to the base sequence of each gene, and estimating the time and context of mutation of each base sequence. However, with these methods, there is a problem that it is not possible to compare things that are significantly different from each other, such as those that are genetically separated or functions that are newly acquired after differentiation. . Conventional clustering is suitable for comparing gene changes that occur in an evolutionary process, that is, genes with relatively little change.
上述のように、従来のクラスタリング方法のように全ての遺伝子配列をそのまま用いてクラスタリングする方法では、進化的に離れた遺伝子のクラスタリングを行うことは難しかった。 As described above, it is difficult to cluster genes that are evolutionarily separated by the method of clustering using all gene sequences as they are, as in the conventional clustering method.
本発明は、進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見できるような遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラムを提供することを目的とする。 An object of the present invention is to provide a gene clustering apparatus, a gene clustering method, and a program capable of discovering genes having similar functions even in genes of evolutionarily distant organisms.
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。
The gene clustering apparatus according to the present invention is a gene clustering apparatus that clusters a plurality of genes based on sequence similarity, and includes a motif search unit that searches for a motif sequence included in a gene sequence, and each gene sequence A motif score calculation unit for calculating a similarity score between two arbitrary genes by comparing motif sequences to be calculated, and an intergenic distance for calculating an intergenic distance between any two genes using the similarity score A calculation unit and a clustering processing unit that clusters the plurality of genes based on the inter-gene distance.
In the present invention, gene similarity is analyzed using a motif included in the gene sequence as an index. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective.
前記モチーフスコア計算部は、第1の遺伝子の配列に含まれるすべてのモチーフ配列と、第2の遺伝子の配列に含まれるすべてのモチーフ配列について総当りで類似度を求め、得られたモチーフ同士の類似度の総和を第1の遺伝子と第2の遺伝子の類似度スコアとすると好ましい。 The motif score calculation unit obtains a brute force similarity for all motif sequences included in the sequence of the first gene and all motif sequences included in the sequence of the second gene. The sum of the similarities is preferably a similarity score between the first gene and the second gene.
前記遺伝子間距離計算部は、第1の遺伝子と、第2〜第Nの遺伝子の類似度スコアを要素とする第1のベクトルと、第2の遺伝子と、第1、第3〜第Nの遺伝子の類似度スコアを要素とする第2のベクトルの要素の相関を求めることにより、前記第1の遺伝子と前記第2の遺伝子の遺伝子間距離を算出すると好ましい。 The intergene distance calculation unit includes a first vector, a first vector having elements of similarity scores of the second to Nth genes, a second gene, the first, third to Nth It is preferable to calculate the intergenic distance between the first gene and the second gene by calculating the correlation between the elements of the second vector having the gene similarity score as an element.
本発明に係る遺伝子クラスタリング方法は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング方法であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索工程と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算工程と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算工程と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理工程とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。
The gene clustering method according to the present invention is a gene clustering method for clustering a plurality of genes based on sequence similarity, and includes a motif search step for searching a motif sequence included in a gene sequence, and included in each gene sequence A motif score calculating step for calculating a similarity score between two arbitrary genes by comparing the motif sequences to be calculated, and an intergenic distance for calculating an intergenic distance between any two genes using the similarity score A calculation step and a clustering step for clustering the plurality of genes based on the inter-gene distance.
In the present invention, gene similarity is analyzed using a motif included in the gene sequence as an index. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective.
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部として機能させる。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。
A computer program according to the present invention is a program that causes a computer to function as a gene clustering apparatus that clusters a plurality of genes based on sequence similarity, and a motif search unit that searches for a motif sequence included in a gene sequence; A motif score calculator that calculates the similarity score of any two genes by comparing the motif sequences included in each gene sequence, and the intergenic distance between any two genes using the similarity score And a clustering processing unit that performs clustering of the plurality of genes based on the intergenic distance.
In the present invention, gene similarity is analyzed using a motif included in the gene sequence as an index. Since genes that have similar functions even though they are evolutionarily separated often have similar motifs, the present invention can be used to discover functionally similar genes among a wide range of species and to estimate the functions of unknown genes. It is very effective.
以下、本発明の実施の形態について図面を参照して説明する。
実施の形態1.
図1は、本発明の実施の形態1による、遺伝子クラスタリング装置10の機能構成を示すブロック図である。図に示すように、遺伝子クラスタリング装置10は、入力装置11、ユーザインターフェイス部12、データアクセス部13、遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、モチーフ検索部17、モチーフスコア計算部18、遺伝子間距離計算部19、クラスタリング処理部20、出力装置21を備えている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of a
遺伝子クラスタリング装置10は、例えば汎用的なパーソナルコンピュータに所定のプログラムを実行させたものである。ユーザインターフェイス部12、データアクセス部13、モチーフ検索部17、モチーフスコア計算部18、遺伝子間距離計算部19、およびクラスタリング処理部20は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表しており、これらは実際には一体として遺伝子クラスタリング装置10のプロセッサを構成する。
The
遺伝子配列記憶部14、スコア記憶部15、およびモチーフ記憶部16は、遺伝子クラスタリング装置10のハードディスク等の記憶装置である。
入力装置11は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが遺伝子クラスタリング装置10に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。ユーザによる入力装置11を介した操作はユーザインターフェイス部12によって制御される。
出力装置21は、表示装置やプリンタ等である。
The gene
The
The
次に本実施形態による遺伝子クラスタリング処理ついて説明する。
まず、クラスタリングの対象となる遺伝子群の配列情報が遺伝子配列記憶部14からデータアクセス部13を介してモチーフ検索部17に供給される。遺伝子配列記憶部14には、入力装置11を介して入力された遺伝子の配列情報が記憶されている。
Next, the gene clustering process according to the present embodiment will be described.
First, sequence information of a gene group to be clustered is supplied from the gene
図2は、クラスタリングの対象となる遺伝子群の例を示す図である。ここでは、対象となる遺伝子の遺伝子番号とその生物種を示している。図2に示す例は、トウモロコシ(Zea mays)のID1(indeterminate1)遺伝子をqueryとして、イネ(Oryza Sativa)、シロイヌナズナ(arabidopsis thaliana)、および紅藻のアミノ酸配列に対してblastサーチ(閾値1e-30)を行い、ヒットした遺伝子を示している。 FIG. 2 is a diagram showing an example of gene groups to be clustered. Here, the gene number of the target gene and its species are shown. The example shown in FIG. 2 is a blast search (threshold 1e-30) for amino acid sequences of rice (Oryza Sativa), Arabidopsis thaliana, and red algae using the corn (Zea mays) ID1 (indeterminate1) gene as a query. ) And shows the hit genes.
なお、それぞれの遺伝子配列は、例えば以下のサイトで参照することができる。
イネ: http://rapdb.lab.nig.ac.jp/(RAP1)
シロイヌナズナ: http://mips.gsf.de/proj/thal/db/(MIPS)
紅藻:http://merolae.biol.s.u-tokyo.ac.jp/
Each gene sequence can be referred to, for example, at the following site.
Rice: http://rapdb.lab.nig.ac.jp/ (RAP1)
Arabidopsis: http://mips.gsf.de/proj/thal/db/ (MIPS)
Red algae: http://merolae.biol.su-tokyo.ac.jp/
ID1遺伝子はトウモロコシにおいて花成を制御している遺伝子として単離されたものであり、ジンクフィンガーをもつ転写因子をコードしている。
なお、遺伝子群の選び方は上記の方法に限られず、他の配列解析手法を用いてもよい。
The ID1 gene has been isolated as a gene that controls flowering in maize, and encodes a transcription factor having a zinc finger.
The method for selecting a gene group is not limited to the above method, and other sequence analysis methods may be used.
次に、供給された遺伝子群を対象にモチーフ検索部17においてモチーフ検索を実行する。モチーフは、タンパク質構造中の活性部位や機能領域に対応した配列パターンである。モチーフ検索は、例えばMEME(Bailey and Elkan, 1994)などの手法を用いて行うことができる。図3は、図2にその一部を示した遺伝子群に対してモチーフ検索を行った結果得られるモチーフデータの例を示す図である。図中、番号を付された四角で表されたものが個々のモチーフに対応する。例えば、ID1遺伝子は、5番、2番、3番、1番、7番、6番、18番で表されるモチーフ配列を有していることが分かる。一般に、遺伝的にかなり離れている場合でも、機能的に類似した遺伝子同士は同じモチーフを持っていることが多い。
Next, a motif search is executed in the
モチーフ検索を行うことにより、各々の遺伝子の配列の中から、主要な構造・機能を決めるために寄与していると考えられる大小さまざまな部分配列の情報を得ることができる。得られたモチーフデータはモチーフ記憶部16に保存される。
By performing a motif search, it is possible to obtain information on partial sequences of various sizes, which are considered to contribute to determining the main structure / function, from the sequence of each gene. The obtained motif data is stored in the
次に、モチーフスコア計算部18において、クラスタリング対象となる全ての遺伝子同士を比較して、含まれるモチーフ配列でみた類似度を表すスコアを算出する。類似度スコア算出には、アミノ酸相互の置換確率に基づくPAM(Point-Accepted Mutation、In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978)やBLOSUM(Blocs Substitution Matrix、Henikoff and Henikoff (1992; PNAS 89:10915-10919))などを用いることができる。スコア記憶部15には、これらの手法で用いられるスコアデータが保存されている。
なお、本実施形態では、モチーフ以外の領域についてはスコア算出を行っていない。これはモチーフ以外の部分をスコア0とみなしていることを意味する。モチーフという配列が保存された部分に絞り、スコアを算出することで高速にクラスタリングを実施している。もし、さらに必要があれば、単に保存された配列モチーフだけでなく、二次構造予測などの機能を加え、αヘリックスやβシートなどを決めている構造部分を抽出し、それらをモチーフとしてスコアを与えることで、機能だけでなく構造類似のクラスタリングを行わせることも可能である。
Next, the motif
In the present embodiment, score calculation is not performed for regions other than the motif. This means that the part other than the motif is regarded as
類似度スコア算出方法について説明する。
例えば、遺伝子1に含まれるモチーフ1と、遺伝子2に含まれるモチーフ2の配列が下記のとおりとする。
モチーフ1:WKCEKCAK
モチーフ2:WKCDKCN
A similarity score calculation method will be described.
For example, the sequences of
Motif 1: WKCEKCAK
Motif 2: WKCDKCN
モチーフ1とモチーフ2の最初のアミノ酸残基はWなので、図4に示すPAM40のマトリクスのWの行のWの列を参照すると、スコアは13であることが分かる。2番目のアミノ酸残基は両配列ともKであり、スコアは6であることが分かる。このように順にスコアを求めてそれらを加算すると、モチーフ1とモチーフ2のスコアは以下のようになる。
スコア=13+6+9+3+6+9+(−3)=43
このようにして、遺伝子1および遺伝子2に含まれているすべてのモチーフ同士について総当りでスコアを求める。さらに、すべてのモチーフ同士のスコアの和を求め、遺伝子1と遺伝子2の類似度スコアとする。ここで、モチーフ相互に比較するに当たって、アミノ酸残基の欠失や挿入を考慮して最適なスコアを算出する場合は、部分最適並置を求める動的計画法を用いたアルゴリズムSmith-Waterman法(Smith TF, Waterman MS (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195-197.)を利用している。
Since the first amino acid residue of
Score = 13 + 6 + 9 + 3 + 6 + 9 + (− 3) = 43
In this way, a score is obtained for all the motifs included in
図5に、上記のようにして求められた遺伝子同士のスコアマトリクスの一部を示す。図5は、4つの遺伝子についての遺伝子相互の類似度スコアを示している。 FIG. 5 shows a part of the score matrix between genes determined as described above. FIG. 5 shows gene similarity scores for the four genes.
次に、遺伝子間距離計算部19において、各遺伝子間の距離を算出する。遺伝子同士の距離はさまざまな定義が可能であるが、本発明では、ピアソンの相関係数を用いる。これは、図5に示すマトリクスの任意の2行のデータを取り出し、相互の要素の相関を求める方法である。相関係数を用いることで、相対的なモチーフ類似度を持つものに対しては相関が高くなり、絶対値の偏りによって離れてしまうことがない。共通モチーフの数が多いものと少ないものなどの差が多少あっても、共通の尺度で補正しながら距離を求めることが可能となる。
Next, the intergene
次に、クラスタリング処理部20において、遺伝子間距離計算部19で算出された距離の値を用いてWard法や群平均法などの方法を用いてクラスタリングを実施する。図6にクラスタリング結果のデンドログラム図示す。図6から、トウモロコシのID1遺伝子は、Os10g0419200遺伝子と似た機能を持っていることが示唆される。Os10g0419200遺伝子は、zinc finger proteinをコードしており、Os10g0419200が持つ機能はZinc finger, C2H2 type family proteinと付与されており、実際にID1と類似の機能を持つということが類推できる。
Next, the
このように、本発明によれば、モチーフの抽出、モチーフの有無と類似度を指標としたクラスタリングという一連の解析が可能となる。モチーフとは、機能ドメインに特徴的な保存配列パターンなどを含み、モチーフを指標として解析することで、遺伝的には離れていても機能的に似た遺伝子を比較解析することができる。アミノ酸配列の置換率を利用した解析はこれまでにも存在しているが、モチーフの有無・類似度を指標とした比較解析の手法は確立されておらず、今後、生物間で保存された機能遺伝子の解析、機能未知遺伝子の機能推定等で利用することが出来る。DNAシーケンシング技術の進歩により、非常に多くの生物種のゲノムの読取が進んできており、必ずしも遺伝的に同祖でない場合でも、機能的に類似なものがクラスタリングにより見出せれば、未知の遺伝子配列の機能を解析するのに非常に有用である。 Thus, according to the present invention, it is possible to perform a series of analyzes of extraction of motifs and clustering using the presence / absence and similarity of motifs as indices. A motif includes a conserved sequence pattern that is characteristic of a functional domain. By analyzing the motif as an index, genes that are functionally similar can be comparatively analyzed even if they are genetically separated. Analyzes using amino acid sequence substitution rates have existed so far, but methods for comparative analysis using the presence or similarity of motifs as indices have not been established, and functions that have been preserved between organisms in the future It can be used for gene analysis, function estimation of unknown function genes, and the like. Advances in DNA sequencing technology have led to the reading of genomes of a large number of species, and even if they are not necessarily genetically homologous, if functionally similar ones can be found by clustering, unknown genes It is very useful for analyzing the function of a sequence.
なお、本発明によるクラスタリング方法は、単に遺伝子のモチーフ情報に限らず、構造的な特徴、つまりαヘリックス、βシート、疎水性、親水性の強いエリアなど種々の指標値に置き換えた数値列パターンを対象に利用することも可能である。また、本発明で説明している遺伝子配列は文字列そのものである。したがって、遺伝子配列はそのまま文字配列のクラスタリングに置き換えることが可能である。あらゆる文字情報あるいは数値情報列に適用可能であることはいうまでもない。文字列ではその一致した文字数をスコアにすることや、単に辞書に存在する単語ごとに一定のスコアを与えるという方法でも問題ない。数字列の場合は、その数値そのものの差やその2乗値を距離として広く適用が可能なことはいうまでもない。 It should be noted that the clustering method according to the present invention is not limited to gene motif information, but a numerical sequence pattern in which structural features are replaced with various index values such as α helix, β sheet, hydrophobic and hydrophilic areas. It can also be used as a target. Further, the gene sequence described in the present invention is a character string itself. Therefore, it is possible to replace the gene sequence as it is with clustering of character sequences. Needless to say, the present invention can be applied to any character information or numerical information sequence. For character strings, there is no problem even if the number of matched characters is used as a score, or a method of simply giving a constant score for each word existing in the dictionary. In the case of a numeric string, it is needless to say that the difference between the numerical values themselves or the square value thereof can be widely applied as a distance.
10 遺伝子クラスタリング装置、11 入力装置、12 ユーザインターフェイス部、13 データアクセス部、14 遺伝子配列記憶部、15 スコア記憶部、16 モチーフ記憶部、17 モチーフ検索部、18 モチーフスコア計算部、19 遺伝子間距離計算部、20 クラスタリング処理部、21 出力装置 10 gene clustering devices, 11 input devices, 12 user interface units, 13 data access units, 14 gene sequence storage units, 15 score storage units, 16 motif storage units, 17 motif search units, 18 motif score calculation units, 19 intergenic distances Calculation unit, 20 Clustering processing unit, 21 Output device
Claims (4)
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部とを備え、
前記モチーフスコア計算部は、
第1の遺伝子の配列に含まれるすべてのモチーフ配列と、第2の遺伝子の配列に含まれるすべてのモチーフ配列について総当りで類似度を求め、得られたモチーフ同士の類似度の総和を第1の遺伝子と第2の遺伝子の類似度スコアとすることを特徴とする遺伝子クラスタリング装置。 A gene clustering apparatus for clustering a plurality of genes based on sequence similarity,
A motif search unit for searching a motif sequence included in a gene sequence;
A motif score calculation unit for calculating a similarity score between any two genes by comparing the motif sequences included in each gene sequence;
An intergenic distance calculation unit for calculating an intergenic distance between any two genes using the similarity score;
Based on the genetic distance between Bei example a clustering processing unit which performs clustering of the plurality of genes,
The motif score calculation unit
Similarity is obtained for all motif sequences included in the sequence of the first gene and all motif sequences included in the sequence of the second gene, and the sum of the similarities between the obtained motifs is calculated as the first. A gene clustering apparatus characterized in that a similarity score between the gene of and the second gene is used.
第1の遺伝子と、第2〜第Nの遺伝子の類似度スコアを要素とする第1のベクトルと、第2の遺伝子と、第1、第3〜第Nの遺伝子の類似度スコアを要素とする第2のベクトルの要素の相関を求めることにより、前記第1の遺伝子と前記第2の遺伝子の遺伝子間距離を算出することを特徴とする請求項1に記載の遺伝子クラスタリング装置。 The inter-gene distance calculation unit is:
A first vector, a first vector whose elements are similarity scores of the second to Nth genes, a second gene, and a similarity score of the first, third to Nth genes as elements The gene clustering apparatus according to claim 1, wherein an inter-gene distance between the first gene and the second gene is calculated by obtaining a correlation between elements of the second vector to be calculated.
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索工程と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算工程と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算工程と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理工程とを備え、
前記モチーフスコア計算工程では、
第1の遺伝子の配列に含まれるすべてのモチーフ配列と、第2の遺伝子の配列に含まれるすべてのモチーフ配列について総当りで類似度を求め、得られたモチーフ同士の類似度の総和を第1の遺伝子と第2の遺伝子の類似度スコアとすることを特徴とする遺伝子クラスタリング方法。 A gene clustering method for clustering a plurality of genes based on sequence similarity,
A motif search step for searching for a motif sequence contained in a gene sequence;
A motif score calculation step of calculating a similarity score between any two genes by comparing the motif sequences included in each gene sequence;
An intergenic distance calculating step of calculating an intergenic distance between any two genes using the similarity score;
Based on the genetic distance between Bei example a clustering processing step of performing clustering of the plurality of genes,
In the motif score calculation step,
Similarity is obtained for all motif sequences included in the sequence of the first gene and all motif sequences included in the sequence of the second gene, and the sum of the similarities between the obtained motifs is calculated as the first. A gene clustering method characterized in that a similarity score between the gene of and a second gene is used.
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部として機能させ、
前記モチーフスコア計算部は、
第1の遺伝子の配列に含まれるすべてのモチーフ配列と、第2の遺伝子の配列に含まれるすべてのモチーフ配列について総当りで類似度を求め、得られたモチーフ同士の類似度の総和を第1の遺伝子と第2の遺伝子の類似度スコアとすることを特徴とするプログラム。 Computer
A program that functions as a gene clustering device that clusters a plurality of genes based on sequence similarity,
A motif search unit for searching a motif sequence included in a gene sequence;
A motif score calculation unit for calculating a similarity score between any two genes by comparing the motif sequences included in each gene sequence;
An intergenic distance calculation unit for calculating an intergenic distance between any two genes using the similarity score;
Based on the distance between the genes, function as a clustering processing unit for clustering the plurality of genes ,
The motif score calculation unit
Similarity is obtained for all motif sequences included in the sequence of the first gene and all motif sequences included in the sequence of the second gene, and the sum of the similarities between the obtained motifs is calculated as the first. A program characterized by having a similarity score between the gene of and the second gene .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007060745A JP5007803B2 (en) | 2007-03-09 | 2007-03-09 | Gene clustering apparatus, gene clustering method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007060745A JP5007803B2 (en) | 2007-03-09 | 2007-03-09 | Gene clustering apparatus, gene clustering method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008225689A JP2008225689A (en) | 2008-09-25 |
| JP5007803B2 true JP5007803B2 (en) | 2012-08-22 |
Family
ID=39844259
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007060745A Expired - Fee Related JP5007803B2 (en) | 2007-03-09 | 2007-03-09 | Gene clustering apparatus, gene clustering method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5007803B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5419145B2 (en) * | 2009-07-24 | 2014-02-19 | Necソフト株式会社 | Aptamer classification device, aptamer classification method, program, and recording medium |
| CN114822686A (en) * | 2021-01-27 | 2022-07-29 | 上海大学 | Method for screening single cell data sensitivity gene based on information entropy |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1053460A4 (en) * | 1998-01-29 | 2003-06-04 | Yissum Res Dev Co | An automatic method of classifying molecules |
| EP1044417B1 (en) * | 1998-10-30 | 2002-12-11 | International Business Machines Corporation | Methods and apparatus for performing sequence homology detection |
| JP2001134574A (en) * | 1999-11-08 | 2001-05-18 | Biomolecular Engineering Research Institute | Method for structure local alignment by double dynamic programming algorithm |
| JP3928050B2 (en) * | 2003-09-19 | 2007-06-13 | 大学共同利用機関法人情報・システム研究機構 | Base sequence classification system and oligonucleotide frequency analysis system |
| JP2005346340A (en) * | 2004-06-02 | 2005-12-15 | Hitachi Ltd | Sequence clustering alignment method by fragment |
-
2007
- 2007-03-09 JP JP2007060745A patent/JP5007803B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2008225689A (en) | 2008-09-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Zrimec et al. | Deep learning suggests that gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure | |
| Camargo et al. | RNAsamba: neural network-based assessment of the protein-coding potential of RNA sequences | |
| Movahedi et al. | Comparative co‐expression analysis in plant biology | |
| Li et al. | The recognition and prediction of σ70 promoters in Escherichia coli K-12 | |
| Sonnenburg et al. | Accurate splice site prediction using support vector machines | |
| Thomas et al. | PANTHER: a library of protein families and subfamilies indexed by function | |
| Middendorf et al. | Predicting genetic regulatory response using classification | |
| CN109785901B (en) | Protein function prediction method and device | |
| Moreau et al. | Functional bioinformatics of microarray data: from expression to regulation | |
| Patel et al. | Dart-eval: A comprehensive dna language model evaluation benchmark on regulatory dna | |
| Triska et al. | Nucleotide patterns aiding in prediction of eukaryotic promoters | |
| Liu et al. | Computational prediction of sigma-54 promoters in bacterial genomes by integrating motif finding and machine learning strategies | |
| JP5453613B2 (en) | Gene clustering apparatus and program | |
| JP5007803B2 (en) | Gene clustering apparatus, gene clustering method and program | |
| Schultheiss et al. | KIRMES: kernel-based identification of regulatory modules in euchromatic sequences | |
| Sreenivasulu et al. | Mining functional information from cereal genomes–the utility of expressed sequence tags | |
| Raghunath | Application of Bioinformatics resources for mining of simple sequence repeats (SSRs) marker in plant genomes: An Overview | |
| Slota et al. | Bioinformatics-based assessment of the relevance of candidate genes for mutation discovery | |
| Ashrafi et al. | A modified algorithm for dna motif finding and ranking considering variable length motif and mutation | |
| Bina et al. | Discovering sequences with potential regulatory characteristics | |
| Malik et al. | RDR100: A Robust Computational Method for Identification of Krüppel-like Factors | |
| JP2007108949A (en) | Method for estimating gene expression control sequences | |
| Abbasi et al. | iLEC-DNA: identifying long extra-chromosomal circular DNA by fusing sequence-derived features of physicochemical properties and nucleotide distribution patterns | |
| Folino et al. | Clustering metagenome short reads using weighted proteins | |
| Abid et al. | Discriminant analysis for the eigenvalues of variance covariance matrix of FFT scaling of DNA sequences: an empirical study of some organisms |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090319 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120215 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120404 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120502 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120515 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150608 Year of fee payment: 3 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
| LAPS | Cancellation because of no payment of annual fees | ||
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |