tokumini.bsky.social
@tokumini.bsky.social
今日読んだ論文
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309

(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察
January 10, 2026 at 1:22 AM
今日読んだ論文
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938

パラメータの変更量(L2ノルム)で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が? 図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが
January 9, 2026 at 12:47 PM
方策の変化させるのに、勾配法でパラメータが変化するまで待つのは遅すぎる(サンプル効率が悪すぎる)と思っているから記憶による高速適応を考えているのに、その記憶が勾配法でのパラメータ変化で実現されるとするのは本末転倒だ
January 8, 2026 at 1:24 PM
今日読んだ論文
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192

RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている
January 8, 2026 at 2:59 AM
書類準備がやはり審査の一部になっていると感じる
January 7, 2026 at 11:56 PM
日々の生活に落ち着きがなく、わけがわからなくなっている
January 7, 2026 at 9:29 PM
今日読んだ論文
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602

強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている?
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……
January 7, 2026 at 12:41 PM
今日読んだ論文
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences

エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ
January 6, 2026 at 1:29 PM
画像は連続で言語は離散みたいに考えたくはなるけど、画像もuint8だし、言語もバイト列に対するモデル化をするやつだったら、そこになんの違いがあるのだっけ?

もちろん、1トークンあたりの情報の冗長性とかは異なりそうだけど、そういう面に訴えるしかないのかもしれないとも
January 6, 2026 at 2:39 AM
『What cognitive science can learn from AI』
infinitefaculty.substack.com/p/what-cogni...
大規模でマルチタスクに学習させると個別のタスクだけ学習させる場合と異なる挙動になるというのはどうもそうらしいが、そうなると小規模計算資源しかない個人程度の研究者はどうすればいいんだろうな。実験設定の工夫は少なくともとても考えなければならなさそうではある
January 5, 2026 at 10:57 PM
「実在」という言葉を聞いたら鼻で笑うよう訓練されてしまった
January 5, 2026 at 2:48 PM
今日読んだ論文
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
arxiv.org/abs/2512.04797

改めてちゃんと読んでみるとSelf-Improvementのところすごいことが書いてある。タスク(目標)の生成も、報酬の読み取りも、やはり自分でやっていかないといけない。基盤モデルの強さを感じる。
とはいえ、そこも学習していくにはどうしたら良いのだろうか。また、ローカルのモデルでやっていくには。
結局ここから数年でできるのは、現時点でのビッグラボの成果を手元で再現することだけなのかもしれない
January 5, 2026 at 1:38 PM
労働始まって半日で精神がとても濁ってすごい
January 5, 2026 at 5:37 AM
今日読んだ論文
Evaluating Parameter Efficient Methods for RLVR
arxiv.org/abs/2512.23165

Parameter Efficient Fine-TuningにもLoRA以外にいろいろな手法はあるが、

(1) 構造的な手法は標準的なLoRAを上回る
(2) SVDに基づく初期化はスペクトルの不整合で性能が悪化する
(3) 学習パラメータを少なくしすぎるとまた性能が悪化する

VLMのFine-Tuningがどの程度同じ事情として取り扱えるかはわからないが、とりあえずDoRAをやってみると良さそう
January 4, 2026 at 1:31 PM
ブログ更新「GUI環境での強化学習準備」
キーボードよりマウス操作の方が興味が出る。文字を書かずに点描になるのはなるほどだった。PCでマウスを操作すると干渉してしまうので微妙にオペレーションが難しくなることもわかった
tokumini.hatenablog.com/entry/2026/0...
January 4, 2026 at 9:39 AM
ここ1,2ヶ月くらい、はてなブログで書いているとChromeが10秒くらいフリーズすることが時々ある。なんだろう?
January 4, 2026 at 7:47 AM
作業開始。やること多めかも
January 3, 2026 at 11:21 PM
寝る。なんとか24時前
January 3, 2026 at 2:52 PM
今日読んだ論文
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
www.arxiv.org/abs/2512.01801

靴紐を結べるロボットアームというのは、パッと見ではすごそうに思える。
オンライン強化学習も使っているが、データフィルタリングとかの方が寄与が大きそうだし、オンライン強化学習としてもバッファのデータの埋め方に工夫を入れたりしていて、苦労していそうな雰囲気がある。とはいえ、オンライン強化学習も部分的にだが食い込むようにはなってきたか。
January 3, 2026 at 2:20 AM
人工ニューラルネットワークは良い抽象化になっており、それ以上詳細に脳を模倣しなくても機能として同じものが実現できそうな予感がする。記憶システムについてもやはり抽象化して情報を出し入れする機構を備え付ければ十分なのか、ニューラルネットワークのパラメータ学習とIn-Contextでやりきらなければいけないのか
January 3, 2026 at 12:29 AM
今日読んだ論文
Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following
arxiv.org/abs/2512.23457

Hindsight Replay系の手法で面白そうかと思ったけど、LLMのInstructionに特化した方法っぽくてそこまででもなかったかもしれない。方向性としてはこういうことをしたくなるのはわかる。実験でいろいろ分析しているのが主張を補強する上でどこまで効いているのかはちょっと曖昧だったような
January 2, 2026 at 12:06 PM
今日読んだ論文
End-to-End Test-Time Training for Long Context
arxiv.org/abs/2512.23675

Test-Time Trainingで有効そうな手法だった。内容も詳しめで読み応えがある。最後の方の層だけに絞るべきなのか
Transformerアーキテクチャは今後も一定流行り続けるだろうし、そこから離れすぎずやっていけるなら実践的。ただ学習方法は変えているので、「Directions for faster training」で書かれていたように、事前学習済みモデルから転用できるようになると嬉しい。それはいずれ実現されそうな気がする
January 1, 2026 at 2:01 PM
アドベントカレンダーと称して記事を書く風習、だいぶ廃れてそうに見える
December 30, 2025 at 3:42 AM
実在という言葉の意味も怪しいとすれば、自由意志が実在するかしないかという観点にあまり興味は出ず、自由意志という概念はなんらかの効力を持っているのか徹底的な無意味なのかという見方の方が良い気がする。それが考え方の様式として有効で、たとえば「色のない緑」みたいな言葉よりは明らかに影響力を持つ(思考になんらかの変化をもたらす)という意味で、認めることはできると思う
December 30, 2025 at 12:25 AM
打刻
文章に気をつける
December 29, 2025 at 11:11 PM