https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf
Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling representative k-
mers from the original sequences.
ほーん
Tool k Sketch Size MAE ↓ RMSE ↓ MPAE ↓ Pearson ↑ FastANI 16 - 0.312 0.368 0.334 0.999 Skani - 198MB(850×) 0.354 0.422 0.377 0.996 Mash 21 830KB(3.6×) 0.399 0.591 0.430 0.981 Bindash 21 351KB(1.5×) 0.360 0.530 0.385 0.986 Dashing2 21 1.2MB(5.2×) 0.500 0.650 0.537 0.981 ...
MAE > 0.3 なんて個人特定にゃ使いもんにならねーじゃん・・・
単なる予想でエビデンスなんて無いけどヒトの全ゲノム入れたら繰り返し領域やイントロン部分で誤差さらにデカくなるんじゃねえの・・・
個人特定できるレベルまで精度を上げようとしたら次はシーケンサエラーや体細胞変異の所為で合わなくなる
だからk-merだろうが何だろうが全ゲノムを使ってハッシュ化しちゃダメでしょ
十分な深度でシーケンシング言うて今ショートリード100xで20万くらい。これがゲノム全体を読めないのはご存じの通り。
それでも男性全員いうたら6000万として200,000*60,000,000=12,000,000,000,000
12兆。
ハッシュ化して扱えるからです
というか シーケンスをk-merに分割してハッシュ化 したらパターン数が極端に限られるから復元簡単でハッシュ化する意味がなくない??? そのままk-mer頻度持っておけばよくない??...
スケッチング知らない感じですか 真核生物の研究者ですか あなたの態度は不愉快です
はい、大変不勉強でスケッチングを知りません スケッチングを使うとk-merをハッシュ化する意味が出てくるのでしょうか?
はい
俺も忙しいから適当に探して適当に読んだだけだけど https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling represent...
スケッチングを用いたk-mer化について論じた論文を教えてください
k-merじゃなくてもハッシュ化して扱える・・・