コーディングや医療など特定のドメインに特化させることで高い性能を発揮するモデルはドメイン特化モデルと呼ばれ、ベースモデルにドメインのコーパスを追加で学習させることで作成されます。 この図はベースモデルからドメイン特化のモデルを得るまでのフローです。本記事では赤枠で囲っている③のドメイン特化学習を試した内容を紹介します。 ドメイン特化モデルを得るまでのフローGaLoreについて2024/3に新しいLLMのファインチューニング手法GaLoreが公開されました。論文によれば、VRAM24Gのコンシューマ向けGPUで7Bモデルの事前トレーニング(図の①や②)もできる手法です。 使い方Transformersにはv4.39.0から組み込まれており、今までのトレーニングコードを変えずに、TrainingArgumentsにoptimとoptim_target_modulesを指定するだけで利用できます