PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
arxiv.org/abs/2601.12901
横と縦にスカラでずらすガイダンスを入れて方策に多様性を与えつつ、方策自体はGRPOで学習する。無用に複雑であまり良い方法に思えないのはバイアスがかかってしまっているからなのか。
PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
arxiv.org/abs/2601.12901
横と縦にスカラでずらすガイダンスを入れて方策に多様性を与えつつ、方策自体はGRPOで学習する。無用に複雑であまり良い方法に思えないのはバイアスがかかってしまっているからなのか。
Scalable In-Context Q-Learning
www.arxiv.org/abs/2506.01299
(1) 履歴を圧縮するエンコーダを学習していること
(2) 行動価値と状態価値を両方モデル化していること
が特徴的なIn-ContextRLの手法
ベルマン誤差と書いてあるけどTD誤差な気がするが、自分のこの用語の使い分けの理解も正しいのかどうかが微妙な気持ち
Scalable In-Context Q-Learning
www.arxiv.org/abs/2506.01299
(1) 履歴を圧縮するエンコーダを学習していること
(2) 行動価値と状態価値を両方モデル化していること
が特徴的なIn-ContextRLの手法
ベルマン誤差と書いてあるけどTD誤差な気がするが、自分のこの用語の使い分けの理解も正しいのかどうかが微妙な気持ち
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback
arxiv.org/abs/2402.03681
強いプロプライエタリVLMを使って選好データを作り、そこから報酬モデルおよび方策を学習していく(これらは言語関係ないモデル)
報酬的な部分をVLMでなんとかしなければいけないという気持ちが最近強くなっているため、こういうのも一つの手段には思える。とはいえ、方策とか報酬モデルに直接使いたくなってしまうが……
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback
arxiv.org/abs/2402.03681
強いプロプライエタリVLMを使って選好データを作り、そこから報酬モデルおよび方策を学習していく(これらは言語関係ないモデル)
報酬的な部分をVLMでなんとかしなければいけないという気持ちが最近強くなっているため、こういうのも一つの手段には思える。とはいえ、方策とか報酬モデルに直接使いたくなってしまうが……
github.com/lucidrains
github.com/lucidrains
Deep Reinforcement Learning with Gradient Eligibility Traces
arxiv.org/abs/2507.09087
普通にやっているTD誤差が正しくないという認識すらなくて、そこの理解に結構時間がかかった。環境側の分散が入ってしまっているということだと思う。実践的にそこまで問題かというと、比較のグラフで大きな差があるわけでもないのかどうか、微妙……
Deep Reinforcement Learning with Gradient Eligibility Traces
arxiv.org/abs/2507.09087
普通にやっているTD誤差が正しくないという認識すらなくて、そこの理解に結構時間がかかった。環境側の分散が入ってしまっているということだと思う。実践的にそこまで問題かというと、比較のグラフで大きな差があるわけでもないのかどうか、微妙……
Plasticity as the Mirror of Empowerment
arxiv.org/abs/2505.10361
generalized directed informationというものを作れば
Plasticity: エージェントが観測によってどの程度影響を受けるか? Empowerment: エージェントは将来の観測をどれほど規定できるか?
という量をそのまま定義できそうといことか
細かい定式化はやっぱり難しいというか抽象的なのであまり追いかける気にもならず。
単純にエージェントと環境の対称的に見えることができるという点の方が学びになってしまう
Plasticity as the Mirror of Empowerment
arxiv.org/abs/2505.10361
generalized directed informationというものを作れば
Plasticity: エージェントが観測によってどの程度影響を受けるか? Empowerment: エージェントは将来の観測をどれほど規定できるか?
という量をそのまま定義できそうといことか
細かい定式化はやっぱり難しいというか抽象的なのであまり追いかける気にもならず。
単純にエージェントと環境の対称的に見えることができるという点の方が学びになってしまう
Agency Is Frame-Dependent
arxiv.org/abs/2502.04403
Agencyの定義4つ
(1) 独立していること
(2) 行動の源泉であること
(3) 追求する目的があること
(4) 経験によって行動が変わること
がフレーム依存であるという意見にはなんとなく同意できるが、そこからどうやって意義のある考えを引き出すのかはよくわからない。適応するということに関してはこれがPlasticityとEnpowermentの話に繋がっていくのだろうか。
Agency Is Frame-Dependent
arxiv.org/abs/2502.04403
Agencyの定義4つ
(1) 独立していること
(2) 行動の源泉であること
(3) 追求する目的があること
(4) 経験によって行動が変わること
がフレーム依存であるという意見にはなんとなく同意できるが、そこからどうやって意義のある考えを引き出すのかはよくわからない。適応するということに関してはこれがPlasticityとEnpowermentの話に繋がっていくのだろうか。
Reflexion: Language Agents with Verbal Reinforcement Learning
www.arxiv.org/abs/2303.11366
この抽象的なAlgorithm1で強化学習だ!!! みたいなノリでなんか性能出ているらしいのが面白いというかなんなんだという気持ちにもなってくる。強化学習とはなんなのだろうかと最近は
Reflexion: Language Agents with Verbal Reinforcement Learning
www.arxiv.org/abs/2303.11366
この抽象的なAlgorithm1で強化学習だ!!! みたいなノリでなんか性能出ているらしいのが面白いというかなんなんだという気持ちにもなってくる。強化学習とはなんなのだろうかと最近は
Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning
arxiv.org/abs/2602.09396
Streaming強化学習をやっている論文は珍しい。次状態の表現予測が役に立つというのは良さそうな発見だけど、勾配を直交させるように射影しなきゃいけなかったりという点は少し大変そう。
Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning
arxiv.org/abs/2602.09396
Streaming強化学習をやっている論文は珍しい。次状態の表現予測が役に立つというのは良さそうな発見だけど、勾配を直交させるように射影しなきゃいけなかったりという点は少し大変そう。
(時刻tで推論が走った直後に反応すべき事象が発生したとして、それは次の推論時刻t+1で考慮できて、それが終わるタイミングで動き始められるため、推論周期の2倍が最悪値)
結局10Hzがラインになってしまう
(時刻tで推論が走った直後に反応すべき事象が発生したとして、それは次の推論時刻t+1で考慮できて、それが終わるタイミングで動き始められるため、推論周期の2倍が最悪値)
結局10Hzがラインになってしまう
UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
arxiv.org/abs/2602.02002
画像とLiDARを同時に生成できるタイプの世界モデル? 条件付きレンダラー? というよくあるやつ。だいたいWan-2.1をNuScenes向けにFine-Tuningした感じに見える。これは元々のWanが強いだけなのではと思わないでもなかった
UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
arxiv.org/abs/2602.02002
画像とLiDARを同時に生成できるタイプの世界モデル? 条件付きレンダラー? というよくあるやつ。だいたいWan-2.1をNuScenes向けにFine-Tuningした感じに見える。これは元々のWanが強いだけなのではと思わないでもなかった
AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers
arxiv.org/abs/2411.11188
あまりメタ学習に詳しくないので、逆に「やけに丁寧に既存概念の説明とそれに対する批判をするな」と思った。系列モデリングとして観測・行動・報酬・終了を渡してしまうとか、Policyの学習もAdvantage-weighted regressionを使うとか、かなり実践的かつスケールしやすそうな手法だ
AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers
arxiv.org/abs/2411.11188
あまりメタ学習に詳しくないので、逆に「やけに丁寧に既存概念の説明とそれに対する批判をするな」と思った。系列モデリングとして観測・行動・報酬・終了を渡してしまうとか、Policyの学習もAdvantage-weighted regressionを使うとか、かなり実践的かつスケールしやすそうな手法だ