俺も忙しいから適当に探して適当に読んだだけだけど https://www.biorxiv.org/content..

俺も忙しいから適当に探して適当に読んだだけだけど

https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf

Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling representative k-
mers from the original sequences.

ほーん

Tool k Sketch Size MAE ↓ RMSE ↓ MPAE ↓ Pearson ↑
FastANI 16 - 0.312 0.368 0.334 0.999
Skani - 198MB(850×) 0.354 0.422 0.377 0.996
Mash 21 830KB(3.6×) 0.399 0.591 0.430 0.981
Bindash 21 351KB(1.5×) 0.360 0.530 0.385 0.986
Dashing2 21 1.2MB(5.2×) 0.500 0.650 0.537 0.981
...

MAE > 0.3 なんて個人特定にゃ使いもんにならねーじゃん・・・

単なる予想でエビデンスなんて無いけどヒトの全ゲノム入れたら繰り返し領域やイントロン部分で誤差さらにデカくなるんじゃねえの・・・

個人特定できるレベルまで精度を上げようとしたら次はシーケンサエラーや体細胞変異の所為で合わなくなる

だから k-m erだろうが何だろうが全ゲノムを使ってハッシュ化しちゃダメでしょ

十分な深度でシーケンシング言うて今ショートリード 100xで20万くらい。これがゲノム全体を読めないのはご存じの通り。

それでも男性全員いうたら6000万として200,000*60,000,000=12,000,000,000,000

12兆。

全ゲノムを読むためにロングリードを十分な深度で使うならその10倍くらい？やったことないから知らんけど。

Permalink | 記事への反応(0) | 00:01

記事への反応 -

anond:20251005094845
ハッシュ化して扱えるからです
- anond:20251005123247
  というかシーケンスをk-merに分割してハッシュ化したらパターン数が極端に限られるから復元簡単でハッシュ化する意味がなくない？？？そのままk-mer頻度持っておけばよくない？？...
  - anond:20251005132913
    スケッチング知らない感じですか真核生物の研究者ですかあなたの態度は不愉快です
    - anond:20251005133438
      はい、大変不勉強でスケッチングを知りませんスケッチングを使うとk-merをハッシュ化する意味が出てくるのでしょうか？
      - anond:20251005133751
        はい
        anond:20251005140044
        俺も忙しいから適当に探して適当に読んだだけだけど https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling represent...
        anond:20251005140044
        スケッチングを用いたk-mer化について論じた論文を教えてください
- anond:20251005123247
  k-merじゃなくてもハッシュ化して扱える・・・

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

2025-10-06

■anond:20251005140044

記事への反応（ブックマークコメント）

人気エントリ

注目エントリ

Tool	k	Sketch Size	MAE ↓	RMSE ↓	MPAE ↓	Pearson ↑
FastANI	16	-	0.312	0.368	0.334	0.999
Skani	-	198MB(850×)	0.354	0.422	0.377	0.996
Mash	21	830KB(3.6×)	0.399	0.591	0.430	0.981
Bindash	21	351KB(1.5×)	0.360	0.530	0.385	0.986
Dashing2	21	1.2MB(5.2×)	0.500	0.650	0.537	0.981