環境 OS:ubuntu 20.04 GPU:RTX3060 12GB Memory:64GB(12GB程度しか利用していない) SSD:最低でも200GB... 環境 OS:ubuntu 20.04 GPU:RTX3060 12GB Memory:64GB(12GB程度しか利用していない) SSD:最低でも200GB-300GB程度の空きを推奨 Python:3.11 事前学習モデルやデータセットなど つらつらと事実だけ書いていきます。 やり方だけ知りたいという方は飛ばしてください。 モデルの特徴 400M程度の小さなTransformerを利用 位置埋め込みにRoPEを利用 Mixture of Experts(MoE)を利用 DeepSeekMoEと同様にshared expertsも利用 Grouped Query Attention(GQA)を利用してメモリ削減 活性化関数にSwiGLUを利用 推論時KVキャッシュが可能 モデルパラメータ 実際のパラメータ数 418.5M 学習可能パラメータ 418.5M Activeパラメータ 191.9
記事へのコメント0件
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています