Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
俺も忙しいから適当に探して適当に読んだだけだけど https://www.biorxiv.org/content..
[go: Go Back, main page]

2025-10-06

anond:20251005140044

俺も忙しいか適当に探して適当に読んだだけだけど

https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf

Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling representative k-

mers from the original sequences.

ほーん

ToolkSketch SizeMAE RMSE ↓ MPAE ↓ Pearson ↑
FastANI16-0.3120.3680.3340.999
Skani-198MB(850×)0.3540.4220.3770.996
Mash21830KB(3.6×)0.3990.5910.4300.981
Bindash21351KB(1.5×)0.3600.5300.3850.986
Dashing2211.2MB(5.2×)0.5000.6500.5370.981

...

MAE > 0.3 なんて個人特定にゃ使いもんにならねーじゃん・・・

単なる予想でエビデンスなんて無いけどヒトの全ゲノム入れたら繰り返し領域イントロン部分で誤差さらデカくなるんじゃねえの・・・

個人特定できるレベルまで精度を上げようとしたら次はシーケンサエラー体細胞変異所為で合わなくなる

からk-merだろうが何だろうが全ゲノムを使ってハッシュ化しちゃダメでしょ

十分な深度でシーケンシング言うて今ショートリード100xで20万くらい。これがゲノム全体を読めないのはご存じの通り。

それでも男性全員いうたら6000万として200,000*60,000,000=12,000,000,000,000

12兆。

ゲノムを読むためにロングリードを十分な深度で使うならその10倍くらい?やったことないから知らんけど。

記事への反応 -
  • ハッシュ化して扱えるからです

    • というか シーケンスをk-merに分割してハッシュ化 したらパターン数が極端に限られるから復元簡単でハッシュ化する意味がなくない??? そのままk-mer頻度持っておけばよくない??...

      • スケッチング知らない感じですか 真核生物の研究者ですか あなたの態度は不愉快です

        • はい、大変不勉強でスケッチングを知りません スケッチングを使うとk-merをハッシュ化する意味が出てくるのでしょうか?

          • はい

            • 俺も忙しいから適当に探して適当に読んだだけだけど https://www.biorxiv.org/content/10.1101/2024.03.05.583605v2.full.pdf Genome sketching is a fast and memory-efficient solution to estimate ANI similarity by distilling represent...

            • スケッチングを用いたk-mer化について論じた論文を教えてください

    • k-merじゃなくてもハッシュ化して扱える・・・

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん