| 意味 |
RLAIFとは 意味・読み方・使い方
追加できません
(登録数上限)
Wiktionary英語版での「RLAIF」の意味 |
RLAIF
出典:『Wiktionary』 (2024/11/17 02:59 UTC 版)
名詞
RLAIF (uncountable)
- (machine learning) Initialism of reinforcement learning from AI feedback.
-
2023, “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”, in Arxiv:
-
Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences. However, gathering high-quality human preference labels can be a time-consuming and expensive endeavor. RL from AI Feedback (RLAIF), introduced by Bai et al., offers a promising alternative that leverages a powerful off-the-shelf LLM to generate preferences in lieu of human annotators.
-
-
参照
- ^ Yuntao Bai et al. (2022 December 15) “Constitutional AI: Harmlessness from AI Feedback”, in arXiv
| 意味 |
|
|
RLAIFのページの著作権
英和・和英辞典
情報提供元は
参加元一覧
にて確認できます。
|
Text is available under Creative Commons Attribution-ShareAlike (CC-BY-SA) and/or GNU Free Documentation License (GFDL). Weblio英和・和英辞典に掲載されている「Wiktionary英語版」の記事は、WiktionaryのRLAIF (改訂履歴)の記事を複製、再配布したものにあたり、Creative Commons Attribution-ShareAlike (CC-BY-SA)もしくはGNU Free Documentation Licenseというライセンスの下で提供されています。 |
ピン留めアイコンをクリックすると単語とその意味を画面の右側に残しておくことができます。 |
|
ログイン |
Weblio会員(無料)になると
|
-
1parachute
-
2reunion
-
3ハッピーバレンタイン
-
4dual
-
5バレンタイン
-
6miss
-
7change
-
8fast
-
9appreciate
-
10write
「RLAIF」のお隣キーワード |
weblioのその他のサービス
|
ログイン |
Weblio会員(無料)になると
|