Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
havanapのブックマーク / 2025年1月28日 - はてなブックマーク
[go: Go Back, main page]

2025年1月28日のブックマーク (1件)

  • DeepSeek-R1の論文読んだ?【勉強になるよ】

    記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 論文の興味深いところ 論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

    DeepSeek-R1の論文読んだ?【勉強になるよ】
    havanap
    havanap 2025/01/28
    こういう小技による性能向上が増えてくるとだいぶ煮詰まってきている感はある