Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4307807B2 - Data processing apparatus, method, and computer program - Google Patents
[go: Go Back, main page]

JP4307807B2 - Data processing apparatus, method, and computer program - Google Patents

Data processing apparatus, method, and computer program Download PDF

Info

Publication number
JP4307807B2
JP4307807B2 JP2002235352A JP2002235352A JP4307807B2 JP 4307807 B2 JP4307807 B2 JP 4307807B2 JP 2002235352 A JP2002235352 A JP 2002235352A JP 2002235352 A JP2002235352 A JP 2002235352A JP 4307807 B2 JP4307807 B2 JP 4307807B2
Authority
JP
Japan
Prior art keywords
data
clustering
snp
emission intensity
fluorescence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002235352A
Other languages
Japanese (ja)
Other versions
JP2004078371A (en
Inventor
裕高 樋口
陽子 東
俊彦 森本
新 佐藤
鋭 坂野
務 松永
正明 村松
敬介 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2002235352A priority Critical patent/JP4307807B2/en
Publication of JP2004078371A publication Critical patent/JP2004078371A/en
Application granted granted Critical
Publication of JP4307807B2 publication Critical patent/JP4307807B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データをクラスタ分析するための技術であって、特に、SNP(Single Nucleotide Polymorphism:一塩基多型)データのように所定の基準点から放射状に分布するデータのクラスタリングに好適な技術に関する。
【0002】
【従来の技術】
現在、バイオインフォマティックスの分野では、遺伝子の塩基配列の違いに基づく個体差の研究がされている。
この個体差は、遺伝子の塩基配列の約0.1%の配列の違いから生じていると考えられており、この違いを遺伝的個性(多型)という。そして、この多型の中でもたった一つの塩基だけが違っているものをSNP(「一塩基多型」)という。
このSNPは、数百〜千塩基に一箇所くらいの割合で存在していると推測され、ゲノム中には300万〜1000万箇所のSNPが存在すると考えられている。
そして、このSNPを特定し、臨床データや環境等の要因と照らし合わせて解析することで、特定の一塩基型をもった人にはある薬が効く効かないといったことや、病気の予防、診断、治療に役立てることが可能となる。
【0003】
このように、SNPを用いた解析を実現するためには、SNPがゲノム上のどの場所に、どのような頻度で存在しているかを分析する必要がある。
このうちSNPの頻度解析を行う場合、TaqMan法やInvader法などが用いられている。これらの方法は、2種類の特殊な試薬によりSNPの蛍光発光量を測り、この蛍光発光量データに基づいて2種類のホモ接合体(例えば、塩基がAかGの場合、AAとGG)と、1種類のヘテロ接合体(例えば、AG)の2ないし3の分類に分けて、それぞれの分類ごとの出現頻度を求める必要がある。
そして、SNPの頻度解析を行うため、従来は各試薬の発光量に基づいて、各データを2次元座標上にプロットし、プロットした座標上の点を人が目視により、2〜3にクラスタリングを行っていた。
【0004】
【発明が解決しようとする課題】
しかし、従来のやり方では、2次元座標上にプロットしたデータを人が目視でクラスタリングしていたため、クラスタリングの判断基準が一定でなく、クラスタリングにバラツキが生じてしまうばかりか、人が目視で行うためクラスタリングに膨大な時間がかかってしまうし、人為的なミスも発生するなどの問題があった。
【0005】
このようなことから、クラスタリングの自動化が必要とされるため、K-means法などの一般的なクラスタリング手法を用いることが考えられる。
しかし、SNPデータは、2次元座標上にプロットするとある中心点を中心として放射状に分布するという特性を有しているため、K-means法などの一般的なクラスタリング手法を用いて発光量に基づくクラスタリングを行ったのでは、単純に距離が近いデータ同士をクラスタリングしてしまうため、本来別のクラスタとなるホモとヘテロとに跨ったクラスタが形成されるなど正しい分類ができず、自動化が困難であるという問題があった。
【0006】
本発明は、上記課題及び問題点を解決するためになされたものであって、データを適切にクラスタリングすることができ、特にSNPデータのように所定の基準点を中心に放射状に分布するデータを適切にクラスタリングできる仕組みを提供することを課題とする。
【0007】
【課題を解決するための手段】
上述の課題を解決するため、本発明の一の観点にかかるデータ処理装置は、複数のデータをクラスタリングするための装置であって、上記各データを2次元座標上にプロットするプロット処理手段と、上記プロットされた個々のデータと所定の基準点とを結ぶ直線を求め、この直線と所定の基準線との角度を求める角度情報処理手段と、上記角度情報に基づいて各データをクラスタリングするクラスタリング処理手段とを有することを特徴とするデータ処理装置。
【0008】
また、上記データは、所定の2つの試薬による遺伝子のSNPの蛍光発光量データであり、上記プロット手段は、各試薬による蛍光発光量をそれぞれ2次元座標の軸として、上記蛍光発光量データを上記2次元座標上にプロットするようにしてもよい。
【0009】
また、座標上に所定の仮定点をとり、当該仮定点と上記座標上の各データとを結ぶ直線と上記仮定点を通る所定の線との角度を求め、この角度情報に基づいて上記各データのクラスタリングを行い、求められた各クラスタ中心を通る各クラスタの主成分直線の交点から上記基準点を決定する基準点処理手段を更に有するようにしてもよい。
【0010】
また、上記クラスタ分析を行う前に、上記基準点から所定の距離に存在する点を抽出し、抽出した点を上記クラスタ分析の対象から除外させる手段をさらに有するようにしてもよい。
【0011】
また、上記クラスタ処理手段は、複数パターンのクラスタリングを行い、上記クラスタ処理手段が行った複数パターンのクラスタリング結果を選択可能に並列表示する表示処理手段を更に有するようにしてもよい。
また、上記データは、所定の2つの試薬による遺伝子のSNPの蛍光発光量データであり、上記プロット手段は、各試薬による蛍光発光量をそれぞれ2次元座標の軸として、上記蛍光発光量データを上記2次元座標上にプロットするようにしてもよい。
【0012】
本発明の一の観点にかかるデータ処理方法は、コンピュータにより、複数のデータを所定のクラスに分類するための方法であって、上記各データを座標上にプロットする処理と、上記プロットされた個々のデータと所定の基準点とを結ぶ直線を求め、この直線と所定の基準線との角度を求める処理と、上記角度情報に基づいて各データをクラスタリングする処理とからなることを特徴とする。
【0013】
本発明の一の観点にかかるコンピュータプログラムは、コンピュータに対して、複数のデータを所定のクラスに分類するためのコンピュータプログラムであって、コンピュータに対して、上記各データを座標上にプロットする処理と、上記プロットされた個々のデータと所定の基準点とを結ぶ直線を求め、この直線と所定の基準線との角度を求める処理と、上記角度情報に基づいて各データをクラスタリングする処理とを実行させることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照して本発明にかかるデータ処理装置及びコンピュータプログラムを、SNPデータ処理システムに適用した実施形態について説明する。
図1に本実施形態にかかるSNPデータ処理システムの一例を示す。
図1に示すように、本システムは、本発明に係るデータ処理装置を構成するSNPデータ処理装置1及び結果確認処理装置2と、前処理装置3、修正処理装置4、マージ処理装置5、SNP管理装置6から構成されている。
なお、これらの各装置は、LAN(Local Area Network)などにより相互に接続可能に構成してもよいし、CD−ROM、FD、MOなどの所定の媒体を介してデータをやり取りできるように構成してもよい。
【0015】
前処理装置3は、TaqMan法等による処理を行うコンピュータである。
前処理装置3は、例えば、2種類の特殊な試薬を用いて、1対の染色体上のSNPの蛍光発光量を測定し、各SNPの蛍光発光量データを生成する処理を行う。
なお、この蛍光発光量データとしては、色とその発光強度から構成される。色としては、例えば、遺伝子がAAのホモであれば2つの試薬のうちの一つが発光してある色となり、GGのホモであれば別の試薬が発光して別の色となり、AGのヘテロであればそれぞれの試薬が発光するためその中間色の色となっている。
【0016】
修正処理装置4は、結果確認処理装置2によりリジェクトされたデータの修正処理を行うためのコンピュータである。
この修正処理としては、例えば、修正処理装置4が、リジェクトされたデータのファイル(リジェクトファイル)を参照して、リジェクトされたデータの基となる蛍光発光量データを前処理装置3から取得し、これを2次元座標上に表示することで、操作者が目視でデータの分布を確認して、手動でクラスタリングできるようにする処理を行う。
【0017】
マージ処理装置5は、結果確認装置2により確認処理されたデータ、修正処理装置4により修正された修正後データ、及び修正不可能なリジェクトデータをマージして、管理用のSNPデータを作成する処理を行うコンピュータである。
SNP管理装置6は、作成された管理用のSNPデータを記憶し、これをデータベース化するなどして管理するコンピュータである。
【0018】
SNPデータ処理装置1は、SNPデータをクラスタリングするための装置である。このSNPデータ処理装置1は、コンピュータにより構成され、CPU(Central Processing Unit)と、CPUが実行するコンピュータプログラム、このコンピュータプログラム及び所定のデータなどを格納するRAM、ROMなどの内部メモリ及びハードディスクドライブなどの外部記憶装置などにより、図2に示す機能ブロックを構成することができる。
図2に示した機能ブッロクは、アッセイデータ記憶部101、コールデータ記憶部102、設定処理部103、プロット処理部104、基準点処理部105、ラベリング領域処理部106、角度情報処理部107、クラスタリング処理部108、適合度処理部109から構成されている。
【0019】
アッセイデータ記憶部101は、各SNPデータの蛍光発光量データを記憶する記憶部である。
このアッセイデータ記憶部101には、例えば、各SNPデータのファイル名、SNPの蛍光発光量データなどが記憶できるようになっている。
【0020】
コールデータ記憶部102は、SNPデータ処理装置1により自動的にクラスタリング処理を行った結果のデータが記憶できるようになっている。
このコールデータ記憶部102には、例えば、各SNPデータと、各SNPデータのクラスタ情報などが記憶できるようになっている。
【0021】
設定処理部103は、初期ファイルの設定処理などを行うことができる。
プロット処理部104は、アッセイデータ記憶部101に記憶されている各SNPの蛍光発光量データに基づいて、座標上でこれをプロットする処理を行う。この処理は、例えば、プロット処理部104が、一の試薬の発光量をX軸、他方の試薬の発光量をY軸とした2次元座標上に、各SNPデータをプロットすることにより処理できる。
【0022】
基準点処理部105は、各SNPデータの座標上での角度を測る際の基準となる基準点を求める処理を行う。
この処理としては、例えば、基準点処理部105が、座標上の原点を仮の基準点(仮定点)として、この原点から座標上の各SNPデータを結ぶ直線と、X軸とのなす角度に基づいてSNPデータを複数のクラスタに分類し、各クラスタ中心の主成分直線を求め、この主成分直線の交点を次の仮定点として、再度同じ処理を繰り返すことにより、当該仮定点が一定となって収束した点を基準点とすることができる。
なお、基準点の決定としては仮定点が収束した点を求めるのではなく、基準点処理部105が、上述の処理を予め決められた所定回数繰り返して求めた点を基準点として決定してもよい。あるいは、収束しなった場合は、基準点処理部105が最初の基準点(原点等)を基準点として決定してもよい。
【0023】
ラベリング領域処理部106は、クラスタ分析を行う対象となるラベリング領域と、クラスタ分析の対象外とする非ラベリング領域とを区分けする処理を行う。
この処理としては、例えば、ラベリング領域処理部106が、SNPデータの最大値と最小値の中間点(x_median,y_median)をとり、この中間点に基づき、原点からの距離が閾値(S)よりも大きい場合にラベリング領域、小さい場合に非ラベリング領域とすることにより行うことができる。
なお、ラベリングを行う際の閾値(S)は、操作の都度、操作者が決定してもよいし、また予めデフォルトで設定しておいてもよい。
【0024】
角度情報処理部107は、座標上の基準点から各SNPデータを結ぶ直線と、所定の基準線との角度を求める処理を行う。
基準線は角度を測定する際の基準となる線であり、例えば、X軸又はY軸を基準としてもよいし、また他の軸をとってこれを基準線としてもよく任意である。
【0025】
クラスタリング処理部108は、SNPデータの角度情報に基づいて、SNPデータをクラスタリングする処理を行う。
このクラスタリング処理としては、例えば、一次元の角度情報を基にk-means法など既存のクラスタリングアルゴリズムを用いて行うことができる。
なお、クラスタリングを行う場合には、例えば、クラスタリング処理部108が、2クラスタにクラスタリングする場合と、3クラスタにクラスタリングする場合との2つのパターンの処理をそれぞれ並行して行うことができる。
【0026】
適合度処理部109は、クラスリング処理部108がクラスタリングした結果がSNPデータのクラスタリングとして適合しているか否かを表す適合度を算定する処理を行う。
この処理としては、例えば、適合度処理部109が、各クラスタ間の距離をα、各クラスタ内でのデータ分散をβとし、このα/βの比率(F比)の大きさが大きいほどより適切なクラスタリングができているとして適合度を判定することができる。また、クラスタリングの別の適合度としては、例えば、適合度処理部109が、対立遺伝子の頻度がHardy Weinberg平衡の法則にしたがった分布となっているか否かにより適合度を判定することができる。なお、Hardy Weinberg平衡の法則とは、例えば、対立遺伝子MとNの頻度をそれぞれpとq(但し、p+q=1)とすると、遺伝子型頻度は構成する対立遺伝子頻度の積で表され、MMの頻度はp、NNの頻度はq、MNの頻度は2pqの比率になるという法則をいう。
【0027】
結果確認処理装置2は、SNPデータ処理装置1がクラスタリングした処理結果を操作者に確認させるための処理を行う装置である。
この結果確認処理装置2は、図3に示すように、ディスプレイ20及びキーボード、マウスなどの入力装置30が接続されている。この結果確認処理装置2は、コンピュータにより構成され、CPUと、CPUが実行するコンピュータプログラム、このコンピュータプログラム及び所定のデータなどを格納するRAM、ROMなどの内部メモリ及びハードディスクドライブなどの外部記憶装置などにより、図3に示す機能ブロックを構成することができる。
図3に示した機能ブロックは、確認データ記憶部201、データ入出力処理部202、表示制御部203から構成されている。
【0028】
確認データ記憶部201は、操作者によりクラスタリング結果の確認が完了したデータを記憶するための記憶部である。この確認データ記憶部201には、SNPデータと、そのクラスタリングされたクラスタ情報などが記憶できるようになっている。
【0029】
データ入出力処理部202は、SNPデータ処理装置1が生成したSNPのクラスタリングデータの入力を受付ける処理や、確認が完了したデータをマージ処理装置5に出力する処理を行うことができる。
【0030】
表示制御部203は、クラスタリングされた結果データをディスプレイ20に表示させ、操作者に確認を要求する処理を行う。
また、表示制御部203は、SNPデータ処理装置1が2ラスタと3クラスタの2つのパターンの分類を行った場合には、これら2つのパターンの結果をディスプレイ2上に並列して表示させ、操作者に結果データの確認、選択をさせることができる。
【0031】
次に、本発明にかかるデータ処理方法の一実施形態について図面を用いて説明する。
まず、図1を参照してシステム全体の処理の流れを説明する。
図1において、前処理装置3がTaqMan法等を用いてSNPの蛍光発光量データを取得する(S1)。
SNPデータ処理装置1は、前処理装置3からSNPの蛍光発光量データを取得し、SNPデータのクラスタリングを行い、SNPデータにそのクラスタを表すラベル付けを行う(S2)。
【0032】
クラスタリングが完了すると、結果確認処理装置2が、SNPデータ処理装置1により生成されたクラスタリング結果データに基づいて、この結果を2次元座標上に表示し操作者に確認を要求する(S3)。
確認の結果、操作者により適正なクラスタリング行われていないと判定された場合には、当該リジェクトデータ名をリジェクトファイルに書き出し、修正処理装置4に提供する(S4)。
【0033】
修正処理装置4では、リジェクトデータ名に基づき、SNPの蛍光発光量データを前処理装置3から取得し、これを所定のディスプレイ上に表示して、操作者が目視によりクラスタリングの修正を行えるようにする(S5)。
【0034】
マージ処理装置5は、S3の処理で操作者の確認により適正なクラスタリングと判定されたデータ、S5の処理により修正がされたデータ、及び修正ができないと判定されたリジェクトデータを取得し、これらのデータをマージして管理データを作成する(S6)。
【0035】
マージ処理が完了すると、マージ後の管理データがSNP管理装置6に提供され、このSNP管理装置6が管理データをデータベース化するなどして管理し(S7)、処理を終了する。
【0036】
次に、図4を参照して、SNPデータ処理装置1がクラスタリングを行う際の詳細な処理について説明する。
図4において、まず設定処理部103が操作者により入力された初期設定ファイルを参照し、クラスタリングを行うための所定の定数などの初期設定を行う(S101)。
この初期設定ファイルには、例えば、出力ファイル名、入力ファイル名、処理対象となるファイルの数を表す設定ファイル数、1つのファイル中のレコード数、ラベリング処理を行う際のラベリング領域の閾値(S)、tangentの連続領域にデータを置くための回転角度などのデータから構成されている。
【0037】
設定処理部103は、コールデータ記憶部102に記憶されている出力ファイルをオープンし(S102)、読み込んだSNPデータのファイル数が今回処理対象となっている設定ファイル数に達しているか判別する(S103)。
判別の結果、設定ファイル数に達している場合には、今回の処理の対象となった全てのSNPデータのファイルについて処理が完了したものとして、処理を終了する。
【0038】
また、判別の結果設定ファイル数に達していない場合には、プロット処理部104が、アッセイデータ記憶部101に記憶されている入力ファイルを開き、SNPの蛍光発光量データを読み込んで、各試薬の発光色の強度に基づいて2次元座標上にプロットする(S104)。
この2次元座標は、1つの軸(X軸)に一つの試薬の発光量をとり、他方の軸(Y軸)にもう一方の試薬の発光量をとったものである。
【0039】
プロットが完了すると、基準点処理部105が、各SNPデータを極座標に変換し、この極座標の角度情報を用いて1次元のクラスタリングを行う(S105)。
各データの極座標は、例えば、基準点処理部105が座標上の原点を極として、各データとを結ぶ直線を求め、この直線とX軸とがなす角度及び距離に基づいて求めることができる。また、クラスタリングは、例えば、基準点処理部105が、K-means法などの既知のクラスタリング手法を用いることにより行うことができる。
【0040】
クラスタリングが完了すると、基準点処理部105は、所定の主成分分析アルゴリズムにより各クラスタの主成分分析を行ってクラスタごとにその中心を通る主成分直線をもとめ、これらの主成分直線の交点を決定する(S106)。
そして、基準点処理部105は、この交点を仮の基準点(仮定点)として再度S105、S106の処理を所定回数(n回)行い、求めた交点1から交点nが一定の位置に収束しているか否か判別する(S107)。
判別の結果、交点が収束していない場合には、上述のS105の処理に戻って再度処理を繰り返す。
また、S107の処理で交点が一定の位置に収束したと判別された場合には、当該交点nを基準点として設定する(S108)。
【0041】
なお、交点が収束しているか否かを判定する代わりに、予め交点の算定を繰り返す回数を設定しておき、基準点処理部105がこの設定された回数までS105の処理に戻って処理を繰り返した結果により基準点を決定してもよい。
【0042】
基準点設定が完了すると、ラベリング領域処理部106は、SNPデータを2次元座標上プロットした際の中間点の座標(x_median,y_median)を取得する(S109)。
この中間点(M)は、図6に示すように、SNP蛍光発光量データ中の最大値Maxと最小値Minを求め、この中間(x_mediany_median)を中間点とすることができる。
【0043】
ラベリング領域処理部106が、読み込みレコード数が設定されているレコード数に達したか否か、即ち全てのレコードについて処理を行ったかを判別する(S110)。
判別の結果、設定数に達していない場合には、ラベリング領域処理部1 0 6 は、一のS NP蛍光発光量データの座標(x,y)の値が、(x/x_median)+(y/y_median)<閾値(S)となっているか否か、即ち原点からの距離が所定の閾値S内にあるか否か判別する(S111)。
判別の結果、閾値よりも小さい座標のSNPデータについては、当該SNPデータを非ラベリング領域として設定し、クラスタリングを行う対象データから除外するフラグを設定する(S112)。
また、判別の結果、閾値よりも大きい座標のSNPデータは、ラベリング領域に属する旨のフラグを設定する(S113)。
このラベリング処理の一例を図6に示す。図6に円弧状の線で示すようにその内側の領域が非ラベリング領域となり、円弧状の線よりも外側の領域がラベリング領域となる。
【0044】
ラベリング領域の判定処理を行いS110の判別の結果、読み込みレコード数が設定数に達した場合には、角度情報処理部107は、ラベリング領域のSNP蛍光発光量データを対象として、基準点を極とした極座標に変換する(S114)。
この処理としては、例えば、図7に示すように、基準点(図示の例では原点)を極として、この基準点と各データとを結ぶ直線と基準線(例えば、X軸)との角度を測定し、これに基づいてSNP蛍光発光量データを極座標へ変換することができる。
【0045】
引き続き、図5において、極座標への変換が完了すると、クラスタリング処理部108は、各SNPデータの極座標の角度情報に基づいて、所定のクラスタリングのアルゴリズムにより1次元のクラスタリングを行う(S115)。
この際クラスタリング処理部108は、2クラスタにクラスタリングする場合と、3クラスタにクラスタリングする場合の2つのケースにつてそれぞれクラスタリングを行うようにする。なお、このクラスタリング処理は、例えば、k-means法などの既存のクラスタリングアルゴリズムを用いることができる。
なお、角度に基づいてヒストグラムを作成した例を図8に示す。図8では横軸に角度(ラジアン)、縦軸にデータ数を表している。
【0046】
クラスタリングが完了すると、クラスタリング処理部108は、極座標とクラスタリングした2次元座標をコールデータ記憶部102に記憶する(S116)。
【0047】
適合度処理部109は、2クラスタの場合と、3クラスタの場合のそれぞれについて座標上のクラスタのF比を算出する(S117)。
また、適合度処理部109は、2クラスタの場合と、3クラスタの場合のそれぞれについて対立遺伝子の比率等を算出し、この比率がHardy Weinberg平衡の法則に適合する度合いを算出する(S118)。
【0048】
そして、適合度処理部109は、各クラスタのF比及びHardy Weinberg平衡の法則に適合する度合いから、適正なクラスタリングが行われているか、或いは適正なクラスタリングを行えないリジェクトデータかを判別する(S119)。
この判別処理は、F比及びHardy Weinberg平衡の法則の適合度合の閾値を予め定めておき、この閾値よりもこれらの算出結果が下回っている場合にリジェクトデータと判別することにより処理できる。
【0049】
判別の結果リジェクトデータと判別した場合には、適合度処理部109は、データ名や検体のIDなどを記述したリジェクトファイルを作成する(S120)。
【0050】
また、判別結果、適正なクラスタリングであると判別された場合、又はS120の処理が完了した場合、ラベル、F比、Hardy Weinberg平衡の法則の適合度合いを出力ファイルとしてコールデータ記憶部102に記憶して(S121)、上述のS103の処理に戻り、設定ファイル数になるまで処理を繰り返して処理を終了する。
【0051】
次に、結果確認装置2により作成したクラスタリングデータを操作者が確認する際の処理について、図9を参照して説明する。
図9において、結果確認処理装置2が、SNPデータ処理装置1から所定のネットワークなどを介して、2つのパターンのクラスタリング結果データが提供されると、データ入出力処理部202が提供されたデータを受付ける(S201)。
表示制御部203は、出力ファイルの各クラスタのF比、Hardy Weinberg平衡の法則の適合度データに基づいて、クラスタリングが行われたデータか、クラスタリングが行われなかったリジェクトデータかを判別する(S202)。
【0052】
判別の結果、適正なクラスタリングが行われたデータである場合には、表示制御部203は、図10に示すように、2次元のグラフとして、適合度の高いクラスタリング結果をアクティブ状態(図示の例では左側がアクティブ状態)とし、適合度の低いクラスタリング結果はシェードを掛けた状態でディスプレイ2に並列して表示する(S203)。
なお、この際、各クラスタに属するデータをそれぞれ異なる色で表してもよい。また、ラベリングデータは丸形、非ラベリングデータは四角形で表示するなどしてもよい。
【0053】
この状態で操作者は2つのクラスタリング結果を見比べてクラスタリング結果が正しいか目視で判断する。
そして、表示制御部203は、操作者が、選択されたクラスタリング結果(図10の例では3クラスタ側)が正しいクラスタリング結果であると判断したか、又は選択されなかったクラスタリング結果(図10の例では2クラスタ側)の方が正しいと判断したか、或いはいずれも適切なクラスタリング結果でないと判断したかのいずれの判断結果のとなったかを判別する(S214)。
【0054】
操作者がアクティブとされているクラスタリング結果が正しいと判断し、図10中の「NEXT」のラジオボタンを指示した場合には、表示制御部203は選択されたクラスタリング結果を適正なクラスタリング結果として確認データ記憶部201に記憶し(S205)、処理を終了する。
なお、次に処理すべきデータがある場合には、S201の処理に戻って処理を繰り返す。
【0055】
また、操作者が、シェードが掛けられている方のクラスタリング結果が正しいと判断し、当該グラフ又はラジオボタン(図10の例では「2cluster」のラジオボタン)を指示すると、表示制御部203は選択されたクラスタリング結果をアクティブ状態の表示に切り替えて表示し(S206)、操作者がNEXTボタンを指示することにより確認データ記憶部201にクラスタリングデータを記憶して処理を終了する。
また、操作者がいずれのクラスタリング結果も適切でないと判断した場合には、後述のS208の処理に移る。
【0056】
また、S202の処理で、リジェクトデータであると判別された場合には、表示制御部203は、「REJECTED」の文字をアクティブ状態として表示すると共に、いずれのクラスタリング結果もシェードを掛けて表示する(S207)。
この状態で操作者が目視で確認を行い修正可能か否か判断し、表示制御部203は、操作者がクラスタリングの修正を行う旨の指示を行ったか否か判別する(S208)。
操作者がマニュアルでデータを修正する場合には、図10中の「Manual call」のラジオボタンを指示することにより、データを修正処理装置4に提供し(S209)、操作者が手動でクラスタリング結果の修正ができるようにし処理を終了する。
また、操作者が、元となるデータ自体が適切でない場合など修正が不可能なデータであると判断し、図10中の「unable」のラジオボタンを指示した場合には、表示制御部203は当該データをリジェクトデータとして確認データ記憶部201に記憶して(S210)、処理を終了する。
【0057】
このように本実施形態によれば、プロット処理部104によりSNP蛍光発光量データを座標上にプロットし、角度情報処理部107により、プロットされた個々のSNPデータと基準点とを結ぶ直線を求め、この直線と所定の基準線との角度を求め、クラスタリング処理部108により角度情報に基づいてSNP蛍光発光量データをクラスタリングするようにしたことから、基準点を中心に放射状に分布するSNPデータを適切にクラスタリングすることができる。
これにより、SNPデータを自動的にクラスタリングできるため、人手により行う場合に比べて、画一的でかつミスのないクラスタリングを行うことができ、クラスタリングを行う人の作業量を減少させることもできる。
【0058】
また、基準点処理部105により、座標上に所定の仮定点をとり、当該仮定点と座標上の各SNP蛍光発光量データとを結ぶ直線と所定の基準線との角度を求め、この角度情報に基づいて各SNP蛍光発光量データのクラスタリングを行い、求められた各クラスタの重心を通る直線の交点を基準点として決定するようにしたことから、例えば、SNPデータが座標の原点から離れた位置に分布している場合など、座標の原点を基準にした場合では適切なクラスタリングができない場合であっても、適切な基準点を設定してからSNP蛍光発光量データのクラスタリングを行うことができる。
【0059】
また、ラベリング領域処理部106により、クラスタ分析を行う前に、基準点から所定の距離に存在する点を抽出し、抽出した点を上記クラスタ分析の対象から除外させるようにしたことから、基準点に近く、クラスタリングに誤差を生じやすい非ラベリング領域のデータを予め除外してからクラスタリングが行えるようになり、より適切なクラスタリングを行うことができる。
【0060】
また、クラスタリング処理部108が、2クラスタと3クラスタの2つのパターンのクラスタリングを行い、表示制御部203が、これら2つのパターンのクラスタリング結果を選択可能に並列表示するようにしたことから、操作者は2つのクラスタを見比べて、各クラスタリング結果を比較したうえで適切なクラスタを選択することができる。
【0061】
なお、上述の実施形態では、SNPデータ処理装置1、結果確認処理装置2、前処理装置3、修正処理装置4、マージ処理装置5、SNP管理装置6をそれぞれ別の装置として構成した例について説明したが、これのうちのいずれか又は全ての機能を1つの装置で実現してもよく任意である。
【0062】
また、上述の実施形態では、SNP蛍光発光量データのクラスタリング処理について説明したが、本発明はこれに限定されるものではなく、所定の基準点から放射状に分布するデータであれば適用可能である。
【0063】
本実施形態のSNPデータ処理装置1又は結果確認処理装置2用のコンピュータプログラムを、コンピュータ読み取り可能な媒体(FD、CD−ROM等)に格納して配布してもよいし、搬送波に重畳し、通信ネットワークを介して配信することも可能である。
なお、SNPデータ処理装置1又は結果確認処理装置2の機能をOS(Operating System)が分担又はOSとアプリケーションプログラムの共同により実現する場合等には、OS以外の部分のみをコンピュータプログラムとして、またこのコンピュータプログラムをコンピュータ読み取り可能な媒体に格納したり、このコンピュータプログラムを配信等してもよい。
【0064】
【発明の効果】
本発明によれば、データを適切にクラスタリングすることができ、特にSNPデータのように所定の基準点を中心に放射状に分布するデータを適切にクラスタリングできる。
【図面の簡単な説明】
【図1】 本発明にかかるデータ処理装置を用いたシステムの一実施形態の概略及び処理の流れを示した図。
【図2】 本実施形態にかかるSNPデータ処理装置の機能ブロック図。
【図3】 本実施形態にかかる確認処理装置の機能ブロック図。
【図4】 本実施形態にかかるSNPデータ処理装置の処理の流れを示した処理フロー。
【図5】 本実施形態にかかるSNPデータ処理装置の処理の流れを示した続きの処理フロー。
【図6】 本実施形態にかかるラベリング処理の概念を示した図。
【図7】 本実施形態にかかる座標上の各データの角度情報を取得する処理の概念を示した図。
【図8】 本実施形態にかかる角度情報に基づくヒストグラムの例を示した図。
【図9】 本実施形態にかかる確認処理装置の処理の流れを示した図。
【図10】 本実施形態にかかる確認処理装置の画面の一例を示した図。
【符号の説明】
1 SNPデータ処理装置
2 結果確認処理装置
104 プロット処理部
105 基準点処理部
106 ラベリング領域処理部
107 角度情報処理部
108 クラスタリング処理部
203 表示制御部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for clustering data, and particularly to a technique suitable for clustering data that is radially distributed from a predetermined reference point, such as SNP (Single Nucleotide Polymorphism) data. .
[0002]
[Prior art]
Currently, in the field of bioinformatics, studies on individual differences based on differences in gene base sequences are being conducted.
This individual difference is considered to arise from a sequence difference of about 0.1% of the base sequence of the gene, and this difference is called genetic individuality (polymorphism). Of these polymorphisms, one that differs by only one base is called SNP (“single nucleotide polymorphism”).
This SNP is presumed to exist at a rate of about one place per several hundred to 1,000 bases, and it is considered that there are 3 to 10 million SNPs in the genome.
Then, by identifying this SNP and analyzing it against factors such as clinical data and the environment, a drug with a specific single base type may not work, and disease prevention and diagnosis It can be used for treatment.
[0003]
Thus, in order to realize the analysis using the SNP, it is necessary to analyze where the SNP is present and at what frequency.
Among them, when performing frequency analysis of SNP, TaqMan method, Invader method or the like is used. These methods measure the amount of SNP fluorescence emitted with two types of special reagents, and based on this fluorescence emission amount data, two types of homozygotes (for example, AA and GG when the base is A or G) and It is necessary to divide into two or three classifications of one type of heterozygote (for example, AG) and obtain the appearance frequency for each classification.
In order to perform SNP frequency analysis, conventionally, based on the amount of light emitted from each reagent, each data is plotted on two-dimensional coordinates. I was going.
[0004]
[Problems to be solved by the invention]
However, in the conventional method, since the data plotted on the two-dimensional coordinates are clustered by human eyes, the judgment criteria for clustering are not constant, and not only the clustering varies but also humans perform the visual observations. Clustering took a lot of time and there were problems such as human error.
[0005]
For this reason, automation of clustering is required, so it is conceivable to use a general clustering method such as the K-means method.
However, since the SNP data has a characteristic of being distributed radially around a certain center point when plotted on two-dimensional coordinates, it is based on the light emission amount using a general clustering method such as the K-means method. When clustering is performed, data that are close to each other are simply clustered, so that correct clustering is not possible, such as the formation of a cluster that spans homo and hetero, which are essentially different clusters, and automation is difficult. There was a problem that there was.
[0006]
The present invention has been made to solve the above-described problems and problems, and can appropriately cluster data. In particular, data that is distributed radially around a predetermined reference point, such as SNP data, can be obtained. It is an issue to provide a mechanism that enables appropriate clustering.
[0007]
[Means for Solving the Problems]
In order to solve the above-described problem, a data processing apparatus according to one aspect of the present invention is an apparatus for clustering a plurality of data, and plot processing means for plotting the data on two-dimensional coordinates, An angle information processing means for obtaining a straight line connecting the plotted individual data and a predetermined reference point, an angle information processing means for obtaining an angle between the straight line and the predetermined reference line, and a clustering process for clustering each data based on the angle information Means for processing the data.
[0008]
Further, the data is SNP fluorescence emission amount data of a gene by a predetermined two reagents, and the plotting means uses the fluorescence emission amount data of each reagent as an axis of a two-dimensional coordinate, You may make it plot on a two-dimensional coordinate.
[0009]
Further, a predetermined hypothetical point is taken on the coordinates, an angle between a straight line connecting the hypothetical point and each data on the coordinate and a predetermined line passing through the hypothetical point is obtained, and each of the data is determined based on the angle information. And a reference point processing means for determining the reference point from the intersection of the principal component straight lines of the clusters passing through the obtained cluster centers.
[0010]
Further, before performing the cluster analysis, it may further include means for extracting a point existing at a predetermined distance from the reference point and excluding the extracted point from the cluster analysis target.
[0011]
The cluster processing means may further include a display processing means for performing clustering of a plurality of patterns and displaying in parallel the selectable results of the plurality of patterns performed by the cluster processing means.
Further, the data is SNP fluorescence emission amount data of a gene by a predetermined two reagents, and the plotting means uses the fluorescence emission amount data of each reagent as an axis of a two-dimensional coordinate, You may make it plot on a two-dimensional coordinate.
[0012]
A data processing method according to an aspect of the present invention is a method for classifying a plurality of data into a predetermined class by a computer, a process of plotting each of the data on coordinates, and the plotted individual data And a predetermined reference point, a process for determining an angle between the straight line and the predetermined reference line, and a process for clustering each data based on the angle information.
[0013]
A computer program according to one aspect of the present invention is a computer program for classifying a plurality of data into a predetermined class for a computer, and processing for plotting each of the above data on coordinates for the computer And calculating a straight line connecting the plotted individual data and a predetermined reference point, calculating an angle between the straight line and the predetermined reference line, and processing for clustering each data based on the angle information. It is made to perform.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment in which a data processing apparatus and a computer program according to the present invention are applied to an SNP data processing system will be described with reference to the drawings.
FIG. 1 shows an example of a SNP data processing system according to this embodiment.
As shown in FIG. 1, this system includes an SNP data processing device 1 and a result confirmation processing device 2, a preprocessing device 3, a correction processing device 4, a merge processing device 5, and an SNP that constitute a data processing device according to the present invention. It consists of a management device 6.
Each of these devices may be configured to be mutually connectable via a LAN (Local Area Network) or the like, or configured to exchange data via a predetermined medium such as a CD-ROM, FD, or MO. May be.
[0015]
The pretreatment device 3 is a computer that performs processing by the TaqMan method or the like.
For example, the pretreatment device 3 measures the fluorescence emission amount of SNPs on a pair of chromosomes using two types of special reagents, and performs processing to generate fluorescence emission amount data of each SNP.
The fluorescence emission amount data is composed of a color and its emission intensity. For example, if the gene is homozygous of AA, one of the two reagents emits light, and if it is homozygous of GG, another reagent emits light and changes to another color. Then, since each reagent emits light, it is an intermediate color.
[0016]
The correction processing device 4 is a computer for correcting the data rejected by the result confirmation processing device 2.
As this correction processing, for example, the correction processing device 4 refers to the rejected data file (reject file), acquires the fluorescence emission amount data that is the basis of the rejected data from the preprocessing device 3, and By displaying this on the two-dimensional coordinates, the operator visually confirms the data distribution and performs a process for enabling manual clustering.
[0017]
The merge processing device 5 merges the data checked by the result checking device 2, the corrected data corrected by the correction processing device 4, and the uncorrectable reject data to create management SNP data. It is a computer that performs.
The SNP management device 6 is a computer that stores the created management SNP data and manages it by creating a database.
[0018]
The SNP data processing device 1 is a device for clustering SNP data. The SNP data processing device 1 is constituted by a computer, and includes a CPU (Central Processing Unit), a computer program executed by the CPU, an internal memory such as a RAM and a ROM for storing the computer program and predetermined data, a hard disk drive, and the like The functional block shown in FIG. 2 can be configured by the external storage device.
The function block shown in FIG. 2 includes an assay data storage unit 101, a call data storage unit 102, a setting processing unit 103, a plot processing unit 104, a reference point processing unit 105, a labeling region processing unit 106, an angle information processing unit 107, a clustering. The processing unit 108 and the fitness level processing unit 109 are configured.
[0019]
The assay data storage unit 101 is a storage unit that stores fluorescence emission amount data of each SNP data.
In the assay data storage unit 101, for example, the file name of each SNP data, the fluorescence emission amount data of the SNP, and the like can be stored.
[0020]
The call data storage unit 102 can store data obtained as a result of automatic clustering processing performed by the SNP data processing device 1.
The call data storage unit 102 can store, for example, each SNP data and cluster information of each SNP data.
[0021]
The setting processing unit 103 can perform initial file setting processing and the like.
The plot processing unit 104 performs a process of plotting this on coordinates based on the fluorescence emission amount data of each SNP stored in the assay data storage unit 101. For example, the plot processing unit 104 can process this process by plotting each SNP data on a two-dimensional coordinate with the light emission amount of one reagent as the X axis and the light emission amount of the other reagent as the Y axis.
[0022]
The reference point processing unit 105 performs processing for obtaining a reference point serving as a reference when measuring the angle on the coordinates of each SNP data.
As this processing, for example, the reference point processing unit 105 sets the origin on the coordinates as a temporary reference point (assumed point), and sets the angle formed between the straight line connecting each SNP data on the coordinates from the origin and the X axis. Based on this, the SNP data is classified into a plurality of clusters, a principal component straight line at the center of each cluster is obtained, and the same process is repeated again with the intersection of the principal component straight lines as the next hypothetical point. The point that has converged can be used as the reference point.
It should be noted that the reference point is not determined by determining the point at which the hypothetical point has converged, but the reference point processing unit 105 may determine the point obtained by repeating the above-described processing a predetermined number of times as the reference point. Good. Alternatively, if the convergence is not achieved, the reference point processing unit 105 may determine the first reference point (such as the origin) as the reference point.
[0023]
The labeling area processing unit 106 performs a process of classifying a labeling area that is a target of cluster analysis and a non-labeling area that is not a target of cluster analysis.
As this processing, for example, the labeling area processing unit 106 takes an intermediate point (x_median, y_median) between the maximum value and the minimum value of the SNP data, and this intermediate point Based on the origin When the distance is larger than the threshold (S), the labeling region is used, and when the distance is small, the non-labeling region can be used.
The threshold value (S) for labeling may be determined by the operator each time an operation is performed, or may be set in advance as a default.
[0024]
The angle information processing unit 107 performs processing for obtaining an angle between a straight line connecting each SNP data from a reference point on coordinates and a predetermined reference line.
The reference line is a line that serves as a reference when measuring an angle. For example, the X axis or the Y axis may be used as a reference, or another axis may be used as a reference line and is arbitrary.
[0025]
The clustering processing unit 108 performs processing for clustering the SNP data based on the angle information of the SNP data.
This clustering process can be performed using an existing clustering algorithm such as a k-means method based on one-dimensional angle information.
In the case of performing clustering, for example, the clustering processing unit 108 can perform two patterns of processing in parallel, that is, clustering into two clusters and clustering into three clusters.
[0026]
The fitness processing unit 109 performs a process of calculating a fitness indicating whether or not the result of clustering by the classing processing unit 108 is suitable as clustering of SNP data.
As this processing, for example, the fitness processing unit 109 sets α as the distance between the clusters and β as the data distribution in each cluster, and the larger the ratio (F ratio) of α / β, the more The goodness of fit can be determined as appropriate clustering. As another fitness level of clustering, for example, the fitness level processing unit 109 can determine the fitness level based on whether or not the allele frequency is distributed according to the Hardy Weinberg equilibrium law. The Hardy Weinberg equilibrium law is, for example, when the frequencies of alleles M and N are p and q (p + q = 1), respectively, and the genotype frequency is expressed by the product of the constituent allele frequencies. The frequency of p 2 , The frequency of NN is q 2 The rule that the frequency of MN becomes a ratio of 2pq.
[0027]
The result confirmation processing device 2 is a device that performs processing for causing the operator to confirm the processing results clustered by the SNP data processing device 1.
As shown in FIG. 3, the result confirmation processing device 2 is connected to a display 20 and an input device 30 such as a keyboard and a mouse. The result confirmation processing device 2 includes a computer, a CPU, a computer program executed by the CPU, a RAM for storing the computer program and predetermined data, an internal memory such as a ROM, and an external storage device such as a hard disk drive. Thus, the functional block shown in FIG. 3 can be configured.
The functional block shown in FIG. 3 includes a confirmation data storage unit 201, a data input / output processing unit 202, and a display control unit 203.
[0028]
The confirmation data storage unit 201 is a storage unit for storing data for which the confirmation of the clustering result has been completed by the operator. The confirmation data storage unit 201 can store SNP data and clustered cluster information.
[0029]
The data input / output processing unit 202 can perform a process of accepting input of SNP clustering data generated by the SNP data processing apparatus 1 and a process of outputting data that has been confirmed to the merge processing apparatus 5.
[0030]
The display control unit 203 displays the clustered result data on the display 20 and performs processing for requesting confirmation from the operator.
In addition, when the SNP data processing device 1 classifies two patterns of two rasters and three clusters, the display control unit 203 displays the results of these two patterns in parallel on the display 2 and operates them. Can check and select the result data.
[0031]
Next, an embodiment of a data processing method according to the present invention will be described with reference to the drawings.
First, the processing flow of the entire system will be described with reference to FIG.
In FIG. 1, the pretreatment device 3 acquires SNP fluorescence emission data using the TaqMan method or the like (S1).
The SNP data processing device 1 acquires the fluorescence emission amount data of the SNP from the preprocessing device 3, performs clustering of the SNP data, and labels the SNP data indicating the cluster (S2).
[0032]
When the clustering is completed, the result confirmation processing device 2 displays the result on the two-dimensional coordinates based on the clustering result data generated by the SNP data processing device 1, and requests confirmation from the operator (S3).
As a result of the confirmation, if it is determined by the operator that proper clustering has not been performed, the reject data name is written to the reject file and provided to the correction processing device 4 (S4).
[0033]
The correction processing device 4 acquires SNP fluorescence emission amount data from the preprocessing device 3 based on the reject data name and displays it on a predetermined display so that the operator can correct the clustering visually. (S5).
[0034]
The merge processing device 5 acquires the data determined to be proper clustering by the operator's confirmation in the process of S3, the data corrected by the process of S5, and the reject data determined to be uncorrectable. Management data is created by merging data (S6).
[0035]
When the merge process is completed, the merged management data is provided to the SNP management apparatus 6, which manages the management data by creating a database (S7) and ends the process.
[0036]
Next, detailed processing when the SNP data processing apparatus 1 performs clustering will be described with reference to FIG.
In FIG. 4, first, the setting processing unit 103 refers to an initial setting file input by an operator, and performs initial setting such as a predetermined constant for clustering (S101).
The initial setting file includes, for example, an output file name, an input file name, a setting file number indicating the number of files to be processed, the number of records in one file, and a threshold value of a labeling area (S ), And data such as rotation angle for placing data in the continuous area of tangent.
[0037]
The setting processing unit 103 opens the output file stored in the call data storage unit 102 (S102), and determines whether the number of read SNP data files has reached the number of setting files to be processed this time ( S103).
If the number of set files has been reached as a result of the determination, it is determined that the processing has been completed for all the SNP data files that are the targets of the current processing, and the processing ends.
[0038]
If the number of set files has not been reached as a result of the discrimination, the plot processing unit 104 opens the input file stored in the assay data storage unit 101, reads the SNP fluorescence emission amount data, Plot on the two-dimensional coordinates based on the intensity of the luminescent color (S104).
The two-dimensional coordinates are obtained by taking the light emission amount of one reagent on one axis (X axis) and the light emission amount of the other reagent on the other axis (Y axis).
[0039]
When the plotting is completed, the reference point processing unit 105 converts each SNP data into polar coordinates, and performs one-dimensional clustering using the angle information of the polar coordinates (S105).
The polar coordinates of each data can be obtained, for example, based on the angle and distance between the straight line and the X axis, with the reference point processing unit 105 obtaining a straight line connecting the data with the origin on the coordinate as the pole. In addition, the clustering can be performed by the reference point processing unit 105 using a known clustering method such as a K-means method, for example.
[0040]
When clustering is completed, the reference point processing unit 105 performs principal component analysis of each cluster using a predetermined principal component analysis algorithm, finds a principal component line passing through the center of each cluster, and determines an intersection of these principal component lines. (S106).
Then, the reference point processing unit 105 performs the processes of S105 and S106 a predetermined number of times (n times) again using this intersection as a temporary reference point (assumed point), and the intersection n from the obtained intersection 1 converges to a certain position. It is determined whether or not (S107).
As a result of the determination, if the intersection has not converged, the process returns to the above-described process of S105 and the process is repeated again.
If it is determined in the process of S107 that the intersection has converged to a certain position, the intersection n is set as a reference point (S108).
[0041]
Instead of determining whether or not the intersection has converged, the number of times the intersection calculation is repeated is set in advance, and the reference point processing unit 105 returns to the processing of S105 and repeats the processing up to the set number of times. The reference point may be determined based on the result.
[0042]
When the reference point setting is completed, the labeling area processing unit 106 displays the SNP data plotted on the two-dimensional coordinates. Middle The coordinates (x_median, y_median) of the point are acquired (S109).
this Middle The point (M) is shown in FIG. like , The maximum value Max and the minimum value Min in the SNP fluorescence emission amount data are obtained, and this intermediate value (x_median) , y_median) Middle Can be a point.
[0043]
The labeling area processing unit 106 determines whether the number of read records has reached the set number of records, that is, whether all the records have been processed (S110).
If the set number is not reached as a result of the determination, the labeling area processing unit 1 0 6 determines that the value of the coordinates (x, y) of one SNP fluorescence emission amount data is (x / x_median). 2 + (Y / y_median) 2 <Whether or not it is the threshold (S), that is, origin It is determined whether or not the distance from is within a predetermined threshold S (S111).
As a result of the discrimination, for SNP data having coordinates smaller than the threshold, the SNP data is set as a non-labeling region, and a flag to be excluded from the target data to be clustered is set (S112).
As a result of the determination, a flag indicating that the SNP data having coordinates larger than the threshold value belongs to the labeling area is set (S113).
An example of this labeling process is shown in FIG. As shown by the arc-shaped line in FIG. 6, the inner area is a non-labeling area, and the area outside the arc-shaped line is a labeling area.
[0044]
If the number of read records reaches the set number as a result of the determination processing of the labeling region and the determination in S110, the angle information processing unit 107 sets the reference point as a pole for the SNP fluorescence emission amount data of the labeling region. The polar coordinates are converted (S114).
As this processing, for example, as shown in FIG. 7, the reference point (the origin in the illustrated example) is a pole, and the angle between the straight line connecting this reference point and each data and the reference line (for example, X axis) is set. Based on this measurement, SNP fluorescence emission data can be converted into polar coordinates.
[0045]
Subsequently, in FIG. 5, when the conversion to polar coordinates is completed, the clustering processing unit 108 performs one-dimensional clustering by a predetermined clustering algorithm based on the polar coordinate angle information of each SNP data (S115).
At this time, the clustering processing unit 108 performs clustering in two cases of clustering into two clusters and clustering into three clusters. For this clustering process, for example, an existing clustering algorithm such as the k-means method can be used.
An example of creating a histogram based on the angle is shown in FIG. In FIG. 8, the horizontal axis represents an angle (radian) and the vertical axis represents the number of data.
[0046]
When the clustering is completed, the clustering processing unit 108 stores the polar coordinates and the clustered two-dimensional coordinates in the call data storage unit 102 (S116).
[0047]
The fitness processing unit 109 calculates the F ratio of the cluster on the coordinates for each of the two clusters and the three clusters (S117).
In addition, the fitness processing unit 109 calculates the allele ratio and the like for each of the two clusters and the three clusters, and calculates the degree to which this ratio conforms to the Hardy Weinberg equilibrium law (S118).
[0048]
Then, the fitness processing unit 109 determines whether appropriate clustering is performed or reject data that cannot be properly clustered based on the F ratio of each cluster and the degree of conformity with the Hardy Weinberg equilibrium law (S119). ).
This discrimination process can be processed by determining threshold values for the degree of fitness of the F ratio and the Hardy Weinberg equilibrium law in advance, and discriminating from the reject data when these calculation results are below this threshold value.
[0049]
When it is determined that the data is rejected as a result of the determination, the fitness processing unit 109 creates a reject file describing the data name, sample ID, and the like (S120).
[0050]
Also, when it is determined that the clustering is appropriate or the processing in S120 is completed, the label, F ratio, and the degree of conformity of the Hardy Weinberg equilibrium law are stored in the call data storage unit 102 as an output file (S121), the process returns to the above-described process of S103, the process is repeated until the number of set files is reached, and the process is terminated.
[0051]
Next, processing when the operator confirms the clustering data created by the result confirmation device 2 will be described with reference to FIG.
In FIG. 9, when the result confirmation processing device 2 is provided with two patterns of clustering result data from the SNP data processing device 1 via a predetermined network or the like, the data input / output processing unit 202 converts the provided data. Accept (S201).
The display control unit 203 determines whether the data has been clustered or rejected without clustering based on the F ratio of each cluster of the output file and the fitness data of the Hardy Weinberg equilibrium law (S202). ).
[0052]
As a result of the discrimination, if the data has been subjected to appropriate clustering, the display control unit 203 displays the clustering result having a high fitness as an active state (example shown in the figure) as a two-dimensional graph as shown in FIG. The left side is the active state), and the clustering result having a low fitness is displayed in parallel on the display 2 in a shaded state (S203).
At this time, data belonging to each cluster may be represented by different colors. Further, the labeling data may be displayed as a round shape, and the non-labeling data may be displayed as a square shape.
[0053]
In this state, the operator compares the two clustering results and visually determines whether the clustering results are correct.
Then, the display control unit 203 determines that the operator selects the clustering result selected (3 cluster side in the example of FIG. 10) as the correct clustering result, or the clustering result not selected (example of FIG. 10). In step S214, it is determined which of the two cluster side) is determined to be correct, or which of the two cluster sides is determined not to be an appropriate clustering result.
[0054]
When the operator determines that the active clustering result is correct and designates the “NEXT” radio button in FIG. 10, the display control unit 203 confirms the selected clustering result as an appropriate clustering result. The data is stored in the data storage unit 201 (S205), and the process ends.
If there is data to be processed next, the process returns to S201 and is repeated.
[0055]
Further, when the operator determines that the clustering result of the shaded one is correct and designates the graph or radio button (“2 cluster” radio button in the example of FIG. 10), the display control unit 203 selects The clustering result thus obtained is switched to the active state display (S206), and when the operator instructs the NEXT button, the clustering data is stored in the confirmation data storage unit 201 and the process is terminated.
If the operator determines that none of the clustering results is appropriate, the process proceeds to S208 described later.
[0056]
If it is determined in the process of S202 that the data is reject data, the display control unit 203 displays the characters “REJECTED” in an active state and displays any clustering result with a shade ( S207).
In this state, the operator visually checks to determine whether correction is possible, and the display control unit 203 determines whether the operator has given an instruction to correct clustering (S208).
When the operator manually corrects the data, the data is provided to the correction processing device 4 by instructing the “Manual call” radio button in FIG. 10 (S209), and the operator manually performs the clustering result. The process is terminated so that the correction can be made.
Further, when the operator determines that the data itself cannot be corrected, for example, when the original data itself is not appropriate, and indicates the “unable” radio button in FIG. 10, the display control unit 203 The data is stored in the confirmation data storage unit 201 as reject data (S210), and the process is terminated.
[0057]
As described above, according to the present embodiment, the plot processing unit 104 plots the SNP fluorescence emission amount data on the coordinates, and the angle information processing unit 107 obtains a straight line connecting the plotted individual SNP data and the reference point. Since the angle between this straight line and a predetermined reference line is obtained, and the SNP fluorescence emission amount data is clustered based on the angle information by the clustering processing unit 108, SNP data distributed radially around the reference point is obtained. Clustering can be performed appropriately.
Thereby, since the SNP data can be automatically clustered, uniform and error-free clustering can be performed as compared with the case where it is manually performed, and the work amount of the person who performs clustering can be reduced.
[0058]
Further, the reference point processing unit 105 takes a predetermined assumption point on the coordinates, obtains an angle between a straight line connecting the assumption point and each SNP fluorescence emission amount data on the coordinates and a predetermined reference line, and this angle information. For example, a position where the SNP data is away from the origin of coordinates is determined by clustering each SNP fluorescence emission amount data and determining the intersection of straight lines passing through the center of gravity of each obtained cluster as a reference point. Even if it is a case where appropriate clustering is not possible when the origin of coordinates is used as a reference, such as when the data is distributed in the network, clustering of SNP fluorescence emission amount data can be performed after setting an appropriate reference point.
[0059]
In addition, since the labeling region processing unit 106 extracts points existing at a predetermined distance from the reference point before performing the cluster analysis, the extracted point is excluded from the cluster analysis target. Thus, clustering can be performed after excluding data in a non-labeling region that is likely to cause an error in clustering in advance, so that more appropriate clustering can be performed.
[0060]
Further, the clustering processing unit 108 performs clustering of two patterns of 2 clusters and 3 clusters, and the display control unit 203 displays the clustering results of these two patterns in a selectable manner in parallel. Can compare two clusters, compare each clustering result, and select an appropriate cluster.
[0061]
In the above-described embodiment, an example in which the SNP data processing device 1, the result confirmation processing device 2, the preprocessing device 3, the correction processing device 4, the merge processing device 5, and the SNP management device 6 are configured as separate devices will be described. However, any or all of these functions may be realized by one apparatus, and is optional.
[0062]
In the above-described embodiment, the clustering process of the SNP fluorescence emission amount data has been described. However, the present invention is not limited to this, and any data that is radially distributed from a predetermined reference point can be applied. .
[0063]
The computer program for the SNP data processing apparatus 1 or the result confirmation processing apparatus 2 of the present embodiment may be stored and distributed in a computer-readable medium (FD, CD-ROM, etc.), superimposed on a carrier wave, Distribution via a communication network is also possible.
When the functions of the SNP data processing device 1 or the result confirmation processing device 2 are shared by an OS (Operating System) or jointly performed by the OS and an application program, only the portion other than the OS is used as a computer program. The computer program may be stored in a computer-readable medium, or the computer program may be distributed.
[0064]
【The invention's effect】
According to the present invention, data can be appropriately clustered, and particularly data distributed radially around a predetermined reference point such as SNP data can be appropriately clustered.
[Brief description of the drawings]
FIG. 1 is a diagram showing an outline and a processing flow of an embodiment of a system using a data processing apparatus according to the present invention.
FIG. 2 is a functional block diagram of the SNP data processing device according to the present embodiment.
FIG. 3 is a functional block diagram of a confirmation processing apparatus according to the embodiment.
FIG. 4 is a processing flow showing a processing flow of the SNP data processing apparatus according to the present embodiment.
FIG. 5 is a subsequent process flow showing a process flow of the SNP data processing apparatus according to the present embodiment.
FIG. 6 is a diagram showing a concept of labeling processing according to the present embodiment.
FIG. 7 is a diagram showing a concept of processing for acquiring angle information of each data on coordinates according to the embodiment.
FIG. 8 is a diagram showing an example of a histogram based on angle information according to the present embodiment.
FIG. 9 is a view showing a processing flow of the confirmation processing apparatus according to the embodiment.
FIG. 10 is a diagram showing an example of a screen of the confirmation processing apparatus according to the present embodiment.
[Explanation of symbols]
1 SNP data processor
2 Result confirmation processing device
104 Plot processing unit
105 Reference point processing section
106 Labeling area processing section
107 Angle information processing unit
108 Clustering processing unit
203 Display control unit

Claims (5)

個別の蛍光標識が付加されSNP毎に設計された2種類の蛍光試薬を用いることで、DNA内の一のSNPに対する対立遺伝子の出現頻度を分析するための実験により得られた結果データに基づき、当該蛍光標識の発光強度と発光色によるデータ分析を行うためのデータ処理装置であって、Based on the result data obtained by experiments for analyzing the frequency of appearance of alleles for one SNP in DNA by using two types of fluorescent reagents designed for each SNP with individual fluorescent labels added, A data processing apparatus for performing data analysis based on emission intensity and emission color of the fluorescent label,
SNP毎に対応して、各蛍光標識の発光強度を含む蛍光発光量データを記憶する分析データ記憶手段と、Corresponding to each SNP, analysis data storage means for storing fluorescence emission amount data including emission intensity of each fluorescent label;
上記分析データ記憶手段を参照して、上記蛍光発光量データを読み出し、一の蛍光試薬の発光強度を示すX軸と他方の蛍光試薬の発光強度を示すY軸とから成る2次元座標図に対して、当該蛍光発光量データの各発光強度に基づいて点をプロットするプロット処理手段と、With reference to the analysis data storage means, the fluorescence emission amount data is read out, and a two-dimensional coordinate diagram composed of an X axis indicating the emission intensity of one fluorescence reagent and a Y axis indicating the emission intensity of the other fluorescence reagent. Plotting means for plotting points based on each emission intensity of the fluorescence emission amount data;
上記2次元座標図にプロットされている点のうち、各発光強度の最大値と最小値に基づき、中間となる中間点座標(x_median,y_median)を算出する中間点算出処理手段と、Intermediate point calculation processing means for calculating intermediate intermediate point coordinates (x_median, y_median) based on the maximum value and the minimum value of each emission intensity among the points plotted in the two-dimensional coordinate diagram;
上記算出した中間点の座標、及び、予め設定された領域判別の第1の閾値に基づき、Based on the coordinates of the calculated intermediate point and the first threshold value for the region determination set in advance,
上記2次元座標図にプロットされた点に対して、For the points plotted in the above two-dimensional coordinate map,
(x/x_median)(X / x_median) 2 +(y/y_median)+ (Y / y_median) 2 <第1の閾値<First threshold
上記数式を満たすか否かの第1の閾値判別処理を行い、当該数式を満たすと判別された点をクラスタリング処理の対象から除外する対象除外処理手段と、Subject exclusion processing means for performing a first threshold determination processing for determining whether or not the above mathematical formula is satisfied, and excluding a point determined to satisfy the mathematical formula from a target of clustering processing;
上記閾値判別により上記数式を満たさないと判別された点に対して、当該点と原点とを結ぶ直線を算出し、当該直線とX軸とのなす角の角度情報を算出する角度情報処理手段と、An angle information processing means for calculating a straight line connecting the point and the origin with respect to a point determined not to satisfy the mathematical formula by the threshold determination, and calculating angle information of an angle formed by the straight line and the X axis; ,
上記算出した角度情報に基づいて、同一の2次元座標図に対して、プロットされている点が2クラスタとなるクラスタリング結果及び3クラスタとなるクラスタリング結果の2種類にクラスタリング結果を生成するクラスタリング処理手段と、Based on the calculated angle information, clustering processing means for generating a clustering result into two types of clustering results in which the plotted points are 2 clusters and a clustering result in which 3 clusters are plotted with respect to the same two-dimensional coordinate diagram When,
上記2種類のクラスタリング結果を並列に表示する表示制御手段と、Display control means for displaying the two types of clustering results in parallel;
を備えたことを特徴とするデータ処理装置。A data processing apparatus comprising:
上記2種類のクラスタリング結果に対して、分散比を算出し、当該分散比が予め設定された適合度における第2の閾値に対して大きいか否かを判別し、当該適合度における第2の閾値よりも大きい分散比であると判別した場合に、適切なクラスタリングができているものと判定するクラスタリング結果評価手段と、A variance ratio is calculated for the two types of clustering results, and it is determined whether or not the variance ratio is larger than a second threshold value for a preset fitness level. A clustering result evaluation unit that determines that the appropriate clustering is performed when it is determined that the variance ratio is greater than
をさらに有する、Further having
上記請求項1に記載のデータ処理装置。The data processing apparatus according to claim 1.
上記表示制御手段は、上記適切と判定されたクラスタリング結果が適切であることが識別できる表示形態で、他方適切でないと判別されたクラスタリング結果は不適切であることが識別できるような表示形態で、並列に表示する、The display control means is a display form that can identify that the clustering result determined to be appropriate is appropriate, while the display form that can identify that the clustering result determined to be inappropriate is inappropriate, Display in parallel,
上記請求項2に記載のデータ処理装置。The data processing apparatus according to claim 2.
SNP毎に対応して、各蛍光標識の発光強度を含む蛍光発光量データを記憶する分析データ記憶手段、を有するコンピュータにより行われ、個別の蛍光標識が付加されSNP毎に設計された2種類の蛍光試薬を用いることで、DNA内の一のSNPに対する対立遺伝子の出現頻度を分析するための実験により得られた結果データに基づき、当該蛍光標識の発光強度と発光色によるデータ分析を行うためのデータ処理方法であって、Corresponding to each SNP, it is performed by a computer having analysis data storage means for storing the fluorescence emission amount data including the emission intensity of each fluorescent label, and two types designed for each SNP with individual fluorescent labels added By using a fluorescent reagent, based on the result data obtained by an experiment for analyzing the frequency of occurrence of an allele for one SNP in DNA, data analysis based on emission intensity and emission color of the fluorescent label is performed. A data processing method,
上記コンピュータが、The computer
上記分析データ記憶手段を参照して、上記蛍光発光量データを読み出し、一の蛍光試薬の発光強度を示すX軸と他方の蛍光試薬の発光強度を示すY軸とから成る2次元座標図に対して、当該蛍光発光量データの各発光強度に基づいて点をプロットする処理と、With reference to the analysis data storage means, the fluorescence emission amount data is read out, and a two-dimensional coordinate diagram composed of an X axis indicating the emission intensity of one fluorescence reagent and a Y axis indicating the emission intensity of the other fluorescence reagent. A process of plotting points based on each emission intensity of the fluorescence emission amount data,
上記2次元座標図にプロットされている点のうち、各発光強度の最大値と最小値に基づき、中間となる中間点座標(x_median,y_median)を算出する処理と、A process of calculating intermediate intermediate point coordinates (x_median, y_median) based on the maximum value and the minimum value of each emission intensity among the points plotted in the two-dimensional coordinate diagram;
上記算出した中間点の座標、及び、予め設定された領域判別の第1の閾値に基づき、Based on the coordinates of the calculated intermediate point and the first threshold value for the region determination set in advance,
上記2次元座標図にプロットされた点に対して、For the points plotted in the above two-dimensional coordinate map,
(x/x_median)(X / x_median) 2 +(y/y_median)+ (Y / y_median) 2 <第1の閾値<First threshold
上記数式を満たすか否かの第1の閾値判別処理を行い、当該数式を満たすと判別された点をクラスタリング処理の対象から除外する処理と、A first threshold determination process for determining whether or not the above mathematical expression is satisfied, and a process for excluding the point determined to satisfy the mathematical expression from the target of the clustering process;
上記閾値判別により上記数式を満たさないと判別された点に対して、当該点と原点とを結ぶ直線を算出し、当該直線とX軸とのなす角の角度情報を算出する処理と、Processing for calculating a straight line connecting the point and the origin with respect to a point determined not to satisfy the mathematical formula by the threshold determination, and calculating angle information of an angle formed by the straight line and the X axis;
上記算出した角度情報に基づいて、同一の2次元座標図に対して、プロットされている点が2クラスタとなるクラスタリング結果及び3クラスタとなるクラスタリング結果の2種類にクラスタリング結果を生成する処理と、Based on the calculated angle information, for the same two-dimensional coordinate map, a process of generating clustering results into two types, that is, a clustering result in which the plotted points are two clusters and a clustering result in which three clusters are formed;
上記2種類のクラスタリング結果を並列に表示する処理と、A process of displaying the two types of clustering results in parallel;
を行うことを特徴とするデータ処理方法。The data processing method characterized by performing.
SNP毎に対応して、各蛍光標識の発光強度を含む蛍光発光量データを記憶する分析データ記憶手段、を有するコンピュータに対して、個別の蛍光標識が付加されSNP毎に設計された2種類の蛍光試薬を用いることで、DNA内の一のSNPに対する対立遺伝子の出現頻度を分析するための実験により得られた結果データに基づき、当該蛍光標識の発光強度と発光色によるデータ分析を実行させるためのコンピュータプログラムであって、Corresponding to each SNP, an analysis data storage means for storing fluorescence emission amount data including the emission intensity of each fluorescence label is added to a computer having an individual fluorescence label and two types designed for each SNP. In order to execute data analysis based on the emission intensity and emission color of the fluorescent label based on the result data obtained by the experiment for analyzing the appearance frequency of the allele for one SNP in the DNA by using the fluorescent reagent Computer program,
上記コンピュータに対して、For the above computer
上記分析データ記憶手段を参照して、上記蛍光発光量データを読み出し、一の蛍光試薬の発光強度を示すX軸と他方の蛍光試薬の発光強度を示すY軸とから成る2次元座標図に対して、当該蛍光発光量データの各発光強度に基づいて点をプロットする処理と、With reference to the analysis data storage means, the fluorescence emission amount data is read out, and a two-dimensional coordinate diagram composed of an X axis indicating the emission intensity of one fluorescence reagent and a Y axis indicating the emission intensity of the other fluorescence reagent. A process of plotting points based on each emission intensity of the fluorescence emission amount data,
上記2次元座標図にプロットされている点のうち、各発光強度の最大値と最小値に基づき、中間となる中間点座標(x_median,y_median)を算出する処理と、A process of calculating intermediate intermediate point coordinates (x_median, y_median) based on the maximum value and the minimum value of each emission intensity among the points plotted in the two-dimensional coordinate diagram;
上記算出した中間点の座標、及び、予め設定された領域判別の第1の閾値に基づき、Based on the coordinates of the calculated intermediate point and the first threshold value for the region determination set in advance,
上記2次元座標図にプロットされた点に対して、For the points plotted in the above two-dimensional coordinate map,
(x/x_median)(X / x_median) 2 +(y/y_median)+ (Y / y_median) 2 <第1の閾値<First threshold
上記数式を満たすか否かの第1の閾値判別処理を行い、当該数式を満たすと判別された点をクラスタリング処理の対象から除外する処理と、A first threshold determination process for determining whether or not the above mathematical expression is satisfied, and a process for excluding the point determined to satisfy the mathematical expression from the target of the clustering process;
上記閾値判別により上記数式を満たさないと判別された点に対して、当該点と原点とを結ぶ直線を算出し、当該直線とX軸とのなす角の角度情報を算出する処理と、A process for calculating a straight line connecting the point and the origin with respect to a point determined not to satisfy the mathematical formula by the threshold determination, and calculating angle information of an angle formed by the straight line and the X axis;
上記算出した角度情報に基づいて、同一の2次元座標図に対して、プロットされている点が2クラスタとなるクラスタリング結果及び3クラスタとなるクラスタリング結果の2種類にクラスタリング結果を生成する処理と、Based on the calculated angle information, for the same two-dimensional coordinate map, a process of generating clustering results into two types, that is, a clustering result in which the plotted points are two clusters and a clustering result in which three clusters are formed;
上記2種類のクラスタリング結果を並列に表示する処理と、A process of displaying the two types of clustering results in parallel;
を実行させることを特徴とするコンピュータプログラム。A computer program for executing
JP2002235352A 2002-08-13 2002-08-13 Data processing apparatus, method, and computer program Expired - Lifetime JP4307807B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002235352A JP4307807B2 (en) 2002-08-13 2002-08-13 Data processing apparatus, method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002235352A JP4307807B2 (en) 2002-08-13 2002-08-13 Data processing apparatus, method, and computer program

Publications (2)

Publication Number Publication Date
JP2004078371A JP2004078371A (en) 2004-03-11
JP4307807B2 true JP4307807B2 (en) 2009-08-05

Family

ID=32019856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002235352A Expired - Lifetime JP4307807B2 (en) 2002-08-13 2002-08-13 Data processing apparatus, method, and computer program

Country Status (1)

Country Link
JP (1) JP4307807B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100601980B1 (en) * 2005-01-04 2006-07-18 삼성전자주식회사 Genotype data analysis method and apparatus
JP4490863B2 (en) * 2005-04-27 2010-06-30 株式会社 日立東日本ソリューションズ Item classification support system and item classification support program
JP5242568B2 (en) * 2007-08-01 2013-07-24 オリンパス株式会社 Clustering method, program and apparatus
JP5453613B2 (en) * 2008-09-30 2014-03-26 独立行政法人農業生物資源研究所 Gene clustering apparatus and program
TWI584143B (en) 2014-10-30 2017-05-21 東芝股份有限公司 Genotyping devices, methods, and memory media

Also Published As

Publication number Publication date
JP2004078371A (en) 2004-03-11

Similar Documents

Publication Publication Date Title
KR102562419B1 (en) Variant classifier based on deep neural networks
US11756652B2 (en) Systems and methods for analyzing sequence data
Li et al. Donuts, scratches and blanks: robust model-based segmentation of microarray images
Oleksa et al. Wing geometric morphometrics and microsatellite analysis provide similar discrimination of honey bee subspecies
US8559693B2 (en) Systems and methods for automated characterization of genetic heterogeneity in tissue samples
US7317820B2 (en) System and method for automatically identifying sub-grids in a microarray
US6731781B1 (en) System and method for automatically processing microarrays
DOĞAN et al. Genetic distance measures
JP7731556B2 (en) Method and apparatus for providing immunophenotypic and related information for pathology slide images
Desjardins et al. Fine-scale mapping of the Nasonia genome to chromosomes using a high-density genotyping microarray
JP2006501528A (en) Method and apparatus for combined genetic classification based on correspondence analysis and linear / quadratic curve analysis
Porubsky et al. A fully phased accurate assembly of an individual human genome
EP2728502A1 (en) Method and computer program product for genotype classification
US20140274749A1 (en) Systems and Methods for SNP Characterization and Identifying off Target Variants
JP4307807B2 (en) Data processing apparatus, method, and computer program
US7272506B2 (en) Computer algorithm for automatic allele determination from fluorometer genotyping device
Wang et al. MSB: a mean-shift-based approach for the analysis of structural variation in the genome
CN112445846B (en) Medical item identification method, device, equipment and computer readable storage medium
Kuchta Contact zones and species limits: hybridization between lineages of the California newt, Taricha torosa, in the southern Sierra Nevada
Vestergaard et al. Number of genes controlling a quantitative trait in a hybrid zone of the aposematic frog Ranitomeya imitator
Heinrich et al. A likelihood ratio-based method to predict exact pedigrees for complex families from next-generation sequencing data
da Silva Oliveira et al. Self-organizing maps: a powerful tool for capturing genetic diversity patterns of populations
Fu et al. Mapping morphological shape as a high-dimensional functional curve
US20230317300A1 (en) Detecting ibd efficiently using a distributed system
US11355219B2 (en) Genotype estimation device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090415

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4307807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term