VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309
(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309
(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938
パラメータの変更量(L2ノルム)で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が? 図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938
パラメータの変更量(L2ノルム)で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が? 図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192
RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192
RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602
強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている?
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602
強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている?
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences
エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences
エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ
もちろん、1トークンあたりの情報の冗長性とかは異なりそうだけど、そういう面に訴えるしかないのかもしれないとも
もちろん、1トークンあたりの情報の冗長性とかは異なりそうだけど、そういう面に訴えるしかないのかもしれないとも
infinitefaculty.substack.com/p/what-cogni...
大規模でマルチタスクに学習させると個別のタスクだけ学習させる場合と異なる挙動になるというのはどうもそうらしいが、そうなると小規模計算資源しかない個人程度の研究者はどうすればいいんだろうな。実験設定の工夫は少なくともとても考えなければならなさそうではある
infinitefaculty.substack.com/p/what-cogni...
大規模でマルチタスクに学習させると個別のタスクだけ学習させる場合と異なる挙動になるというのはどうもそうらしいが、そうなると小規模計算資源しかない個人程度の研究者はどうすればいいんだろうな。実験設定の工夫は少なくともとても考えなければならなさそうではある
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
arxiv.org/abs/2512.04797
改めてちゃんと読んでみるとSelf-Improvementのところすごいことが書いてある。タスク(目標)の生成も、報酬の読み取りも、やはり自分でやっていかないといけない。基盤モデルの強さを感じる。
とはいえ、そこも学習していくにはどうしたら良いのだろうか。また、ローカルのモデルでやっていくには。
結局ここから数年でできるのは、現時点でのビッグラボの成果を手元で再現することだけなのかもしれない
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
arxiv.org/abs/2512.04797
改めてちゃんと読んでみるとSelf-Improvementのところすごいことが書いてある。タスク(目標)の生成も、報酬の読み取りも、やはり自分でやっていかないといけない。基盤モデルの強さを感じる。
とはいえ、そこも学習していくにはどうしたら良いのだろうか。また、ローカルのモデルでやっていくには。
結局ここから数年でできるのは、現時点でのビッグラボの成果を手元で再現することだけなのかもしれない
Evaluating Parameter Efficient Methods for RLVR
arxiv.org/abs/2512.23165
Parameter Efficient Fine-TuningにもLoRA以外にいろいろな手法はあるが、
(1) 構造的な手法は標準的なLoRAを上回る
(2) SVDに基づく初期化はスペクトルの不整合で性能が悪化する
(3) 学習パラメータを少なくしすぎるとまた性能が悪化する
VLMのFine-Tuningがどの程度同じ事情として取り扱えるかはわからないが、とりあえずDoRAをやってみると良さそう
Evaluating Parameter Efficient Methods for RLVR
arxiv.org/abs/2512.23165
Parameter Efficient Fine-TuningにもLoRA以外にいろいろな手法はあるが、
(1) 構造的な手法は標準的なLoRAを上回る
(2) SVDに基づく初期化はスペクトルの不整合で性能が悪化する
(3) 学習パラメータを少なくしすぎるとまた性能が悪化する
VLMのFine-Tuningがどの程度同じ事情として取り扱えるかはわからないが、とりあえずDoRAをやってみると良さそう
キーボードよりマウス操作の方が興味が出る。文字を書かずに点描になるのはなるほどだった。PCでマウスを操作すると干渉してしまうので微妙にオペレーションが難しくなることもわかった
tokumini.hatenablog.com/entry/2026/0...
キーボードよりマウス操作の方が興味が出る。文字を書かずに点描になるのはなるほどだった。PCでマウスを操作すると干渉してしまうので微妙にオペレーションが難しくなることもわかった
tokumini.hatenablog.com/entry/2026/0...
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
www.arxiv.org/abs/2512.01801
靴紐を結べるロボットアームというのは、パッと見ではすごそうに思える。
オンライン強化学習も使っているが、データフィルタリングとかの方が寄与が大きそうだし、オンライン強化学習としてもバッファのデータの埋め方に工夫を入れたりしていて、苦労していそうな雰囲気がある。とはいえ、オンライン強化学習も部分的にだが食い込むようにはなってきたか。
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
www.arxiv.org/abs/2512.01801
靴紐を結べるロボットアームというのは、パッと見ではすごそうに思える。
オンライン強化学習も使っているが、データフィルタリングとかの方が寄与が大きそうだし、オンライン強化学習としてもバッファのデータの埋め方に工夫を入れたりしていて、苦労していそうな雰囲気がある。とはいえ、オンライン強化学習も部分的にだが食い込むようにはなってきたか。
Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following
arxiv.org/abs/2512.23457
Hindsight Replay系の手法で面白そうかと思ったけど、LLMのInstructionに特化した方法っぽくてそこまででもなかったかもしれない。方向性としてはこういうことをしたくなるのはわかる。実験でいろいろ分析しているのが主張を補強する上でどこまで効いているのかはちょっと曖昧だったような
Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following
arxiv.org/abs/2512.23457
Hindsight Replay系の手法で面白そうかと思ったけど、LLMのInstructionに特化した方法っぽくてそこまででもなかったかもしれない。方向性としてはこういうことをしたくなるのはわかる。実験でいろいろ分析しているのが主張を補強する上でどこまで効いているのかはちょっと曖昧だったような
End-to-End Test-Time Training for Long Context
arxiv.org/abs/2512.23675
Test-Time Trainingで有効そうな手法だった。内容も詳しめで読み応えがある。最後の方の層だけに絞るべきなのか
Transformerアーキテクチャは今後も一定流行り続けるだろうし、そこから離れすぎずやっていけるなら実践的。ただ学習方法は変えているので、「Directions for faster training」で書かれていたように、事前学習済みモデルから転用できるようになると嬉しい。それはいずれ実現されそうな気がする
End-to-End Test-Time Training for Long Context
arxiv.org/abs/2512.23675
Test-Time Trainingで有効そうな手法だった。内容も詳しめで読み応えがある。最後の方の層だけに絞るべきなのか
Transformerアーキテクチャは今後も一定流行り続けるだろうし、そこから離れすぎずやっていけるなら実践的。ただ学習方法は変えているので、「Directions for faster training」で書かれていたように、事前学習済みモデルから転用できるようになると嬉しい。それはいずれ実現されそうな気がする