「人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される」

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価＆高速にRLHFを進めることができるツールです。

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価＆高速にRLHFを進めることができるツールです。

Webページ

コンテンツ文字数：0 文字

見出し数（H2/H3タグ）：0 個

閲覧数：67 件

2023-05-25 08:01:12

オリジナルページを開く

リンク