Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
[B! AI] DeepSeek-R1の論文読んだ?【勉強になるよ】
[go: Go Back, main page]

記事へのコメント74

  • 注目コメント
  • 新着コメント
takomu
強化学習による思考能力の向上は、安易に小型モデルに試していい戦略でない SFTとRLを2セット。1回目はルールベース報酬、2回目はv3を用いた報酬モデル設定

その他
zu2
数学大事。人間も

その他
SndOp
(類似問題は回答できるような気がするがサドンデス的な挙動があるような気がしないもでないな)

その他
iqm
「ただ、数学の問題の回答が合っているか間違っているかのゴール報酬のみが与えられています。」「思考プロセスを<think>と</think>タグの間に置くことをモデルに強制」「数学という問題の答えを合わせるように報酬設計」

その他
mumei-0
“強化学習による思考能力の強化”

その他
hiroomi
やり通す力

その他
TakayukiN627
LLM(DeepSeek-V3-Base)に対して「強化学習のみ」を適用させたところ、強力な思考能力を獲得した「DeepSeek-R1-Zero」が作成されました。

その他
ardarim
今後は金盾とかも人力ではなくDeepSeekのようなAIが担っていくんだろうか。検閲が捗るな

その他
y2q_actionman
計算量減らす工夫をめっちゃ頑張ってるのか。 相変わらずGPUは必要そう

その他
akrtak
論文の内容的には人類の発展に寄与するものになっているのでこれと、運用されている例のサービスは切り離して考える必要がある

その他
strawberryhunter
ローカルで利用できるモデルがどの程度のハードウェアが必要で、どの程度使える出力が得られるのか、だれかに記事を書いてほしいところ。

その他
Cru
これ、学習方法から見てもしかして本気で論理的に考える力を獲得してない?今までのは超高度な作話にすぎなかったわけだけど https://www.technologyreview.jp/s/339410/why-does-ai-hallucinate/ RAGとかCoTとかRIGとかで何とかそれらしくし

その他
rawwell
"強化学習をしないため、報酬モデルも状態価値モデルも必要なく、単純に「プロンプト x x 」と「好ましい回答 y + y + 」「好ましくない回答 y − y − 」の3つが組となっているデータセット D D を用意すれば、あとは π ϕ

その他
versatile
強化学習の名前をマシュマーとかキャラスーンとかにしたい

その他
kagerouttepaso
DeepSeekに中国共産党、ChatGptにDEIなど、どのAIにも政治的意図は練り込まれてるから今更。それより論文やOSSの思考モデルなどAIの民主化が一番すごいことよ。

その他
nilab
DeepSeek-R1の論文読んだ?【勉強になるよ】

その他
neco22b
勉強不足やわ、よくわからん

その他
sian17
中国産をすぐ天安門に絡める奴、自分の程度の低さが分からんのかね…。

その他
hatebunbun
台湾についての質問に答えかけたところに、ビッグブラザーからの検閲が入る瞬間。https://youtu.be/ssA2Eth3QMk

その他
zgmf-x20a
私の知りたいのはV3がR1になってなにがトレードオフされたか。もちろん推定で良いのだけどね。LLMってのは難しいけど、化学合成プロセス研究も似たようなものかな?SFTでなくてELでと言うのが今後のトレンドかもね。

その他
pascal256
DeepSeek-V3-Baseがそのまま元になってて、モデルは変えずに追加学習であそこまで強化したのか。興味深い。革ジャンの言ってた通りだね

その他
havanap
こういう小技による性能向上が増えてくるとだいぶ煮詰まってきている感はある

その他
cinefuk
"大前提として、この論文は「DeepSeek-V3-Base」という強力なLLMの性能を改善する論文です。 これ単体でも、GPT-4oレベルの能力を持っているオープンソースLLMになります。"

その他
TETOS
TETOS やねうらさんの話とか、麻雀aiのluckyjとかと似た匂い。ルールベースとかで工夫して、とにかく強化学習をぶん回す。

2025/01/28 リンク

その他
sirobu
天安門がーとかブコメ書いてる人、本文読んでないだろ……

その他
tettekete37564
多分完璧に理解させられるやつ

その他
tdam
本当にNVIDIA製GPUを使っていなかったらすごい、使っていなかったら。

その他
yorkfield
APIで試してみたけど、回答はちゃんと日本語なのに、CoT (reasoning_content) は英語や中国語だったりして面白い。

その他
natu3kan
中国のAI産業の成長は目を見張るものあるけど、政治的な縛りが多いからそこが足枷になるかよね。

その他
PerolineLuv
天安門事件とか尖閣諸島の領有権を聞きまくるとアカウント停止されるっぽいな

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

DeepSeek-R1の論文読んだ?【勉強になるよ】

記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で...

ブックマークしたユーザー

すべてのユーザーの
詳細を表示します

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む