Source: https://github.com/susumuota/arxiv-reddit-summary
Maintained by @ota.bsky.social
実世界のタスクは、さまざまな粒度での意思決定を必要とするが、人間は、プランニングが基本的に高レベルの行動として理解される統一された認知表現を活用することで、これを得意としている。しかし、現在のラージ・ランゲージ・モデル(LLM)ベースのエージェントには、意思決定の粒度を超えて流動的に動作...
実世界のタスクは、さまざまな粒度での意思決定を必要とするが、人間は、プランニングが基本的に高レベルの行動として理解される統一された認知表現を活用することで、これを得意としている。しかし、現在のラージ・ランゲージ・モデル(LLM)ベースのエージェントには、意思決定の粒度を超えて流動的に動作...
既存の研究は、主にタスクの成功に焦点を当てているが、我々は、効果的な実世界のエージェントは、生産性(タスクの完了)、積極性(本質的な質問をする)、およびパーソナライゼーション(多様なユーザーの好みに適応する)の3つの側面を最適化する必要があると主張している。LLMベースのユーザ・シミュレー...
既存の研究は、主にタスクの成功に焦点を当てているが、我々は、効果的な実世界のエージェントは、生産性(タスクの完了)、積極性(本質的な質問をする)、およびパーソナライゼーション(多様なユーザーの好みに適応する)の3つの側面を最適化する必要があると主張している。LLMベースのユーザ・シミュレー...
厳密に制御された事前学習設定の下で、我々はクロスオーバーを観察した:ユニークなデータが限られている場合、拡散言語モデル(DLM)は、より多くのエポック数を学習することで、一貫して自己回帰(AR)モデルを上回る。クロスオーバーは、データが多いほど、あるいは質が高いほど遅くなり、モデルが大きい...
厳密に制御された事前学習設定の下で、我々はクロスオーバーを観察した:ユニークなデータが限られている場合、拡散言語モデル(DLM)は、より多くのエポック数を学習することで、一貫して自己回帰(AR)モデルを上回る。クロスオーバーは、データが多いほど、あるいは質が高いほど遅くなり、モデルが大きい...
3Dオープンワールドのチャレンジングな環境の中で、何時間にも及ぶ複雑なミッションをリアルタイムでこなすジェネラリスト・エージェントを開発するための、初のオープンレシピ「Lumine」を紹介する。ルミネは、視覚言語モデルによって、知覚、推論、行動をエンド・ツー・エンドで統合する、人間のようなイン...
3Dオープンワールドのチャレンジングな環境の中で、何時間にも及ぶ複雑なミッションをリアルタイムでこなすジェネラリスト・エージェントを開発するための、初のオープンレシピ「Lumine」を紹介する。ルミネは、視覚言語モデルによって、知覚、推論、行動をエンド・ツー・エンドで統合する、人間のようなイン...
LLMは、推論、洞察、ツールの使用において目覚ましいブレークスルーを達成したが、これらの能力を、人間、組織、社会が日常的に実行する規模の拡張プロセスに連鎖させることは、まだ手の届かないところにある。例えば、「ハノイの塔」ベンチマーク・ドメインでの最近の実験では、せいぜい数百ステップでプロ...
LLMは、推論、洞察、ツールの使用において目覚ましいブレークスルーを達成したが、これらの能力を、人間、組織、社会が日常的に実行する規模の拡張プロセスに連鎖させることは、まだ手の届かないところにある。例えば、「ハノイの塔」ベンチマーク・ドメインでの最近の実験では、せいぜい数百ステップでプロ...