tokumini.bsky.social
@tokumini.bsky.social
2ヶ月くらい前までは「やっぱり価値関数大事だよなー」という気持ちだったのに、最近はまた「価値関数ほんとか?」の考えが去来してくるようになってきた。そんなにスカラを綺麗に割り当てられるか? みたいな
February 18, 2026 at 2:44 PM
今日読んだ論文
PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
arxiv.org/abs/2601.12901

横と縦にスカラでずらすガイダンスを入れて方策に多様性を与えつつ、方策自体はGRPOで学習する。無用に複雑であまり良い方法に思えないのはバイアスがかかってしまっているからなのか。
February 18, 2026 at 12:46 PM
今日狭かったな〜
February 18, 2026 at 11:12 AM
変な時間の覚醒
February 17, 2026 at 7:30 PM
今日読んだ論文
Scalable In-Context Q-Learning
www.arxiv.org/abs/2506.01299

(1) 履歴を圧縮するエンコーダを学習していること
(2) 行動価値と状態価値を両方モデル化していること
が特徴的なIn-ContextRLの手法

ベルマン誤差と書いてあるけどTD誤差な気がするが、自分のこの用語の使い分けの理解も正しいのかどうかが微妙な気持ち
February 17, 2026 at 12:36 PM
負け犬根性が染み付いているのに低く評価されることに慣れていなさすぎると思ったが、特に矛盾もしないか
February 16, 2026 at 9:57 PM
ここ一週間くらいまた変な時間に目が覚めるようになってしまった
February 16, 2026 at 7:14 PM
良いことも悪いこともある
February 16, 2026 at 2:23 PM
今日読んだ論文
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback
arxiv.org/abs/2402.03681

強いプロプライエタリVLMを使って選好データを作り、そこから報酬モデルおよび方策を学習していく(これらは言語関係ないモデル)
報酬的な部分をVLMでなんとかしなければいけないという気持ちが最近強くなっているため、こういうのも一つの手段には思える。とはいえ、方策とか報酬モデルに直接使いたくなってしまうが……
February 16, 2026 at 12:16 PM
lucidrains氏のGitHubアカウントが消えたのなぜ
github.com/lucidrains
github.com
February 15, 2026 at 2:43 PM
今日読んだ論文
Deep Reinforcement Learning with Gradient Eligibility Traces
arxiv.org/abs/2507.09087

普通にやっているTD誤差が正しくないという認識すらなくて、そこの理解に結構時間がかかった。環境側の分散が入ってしまっているということだと思う。実践的にそこまで問題かというと、比較のグラフで大きな差があるわけでもないのかどうか、微妙……
February 15, 2026 at 8:25 AM
昨日今日と昼過ぎが眠くて
February 15, 2026 at 5:58 AM
今日読んだ論文
Plasticity as the Mirror of Empowerment
arxiv.org/abs/2505.10361

generalized directed informationというものを作れば
Plasticity: エージェントが観測によってどの程度影響を受けるか? Empowerment: エージェントは将来の観測をどれほど規定できるか?
という量をそのまま定義できそうといことか
細かい定式化はやっぱり難しいというか抽象的なのであまり追いかける気にもならず。
単純にエージェントと環境の対称的に見えることができるという点の方が学びになってしまう
February 14, 2026 at 4:39 AM
結局RAG(Retrieval-Augmented Generation)になっていくのではないかという気持ちにまた戻ってきてしまった。一度テキストを経由してしまうとそこで情報が落ちそうなのであまり好きじゃない印象だったが、抽象ベクトル表現のままで扱うなら悪くないのかもしれない。強化学習的設定で、環境と対話しながら経験を何らのRetrievalシステムに格納して適宜呼び出すイメージ
February 13, 2026 at 11:22 PM
「あの時はああすれば良かったのか」という反省で実際に行動が改善されるというのが、リプレイバッファからのサンプリングでのパラメータ更新というより、直接的な記憶とIn-Context学習であるような気がする
February 13, 2026 at 10:52 PM
今日読んだ論文
Agency Is Frame-Dependent
arxiv.org/abs/2502.04403

Agencyの定義4つ
(1) 独立していること
(2) 行動の源泉であること
(3) 追求する目的があること
(4) 経験によって行動が変わること
がフレーム依存であるという意見にはなんとなく同意できるが、そこからどうやって意義のある考えを引き出すのかはよくわからない。適応するということに関してはこれがPlasticityとEnpowermentの話に繋がっていくのだろうか。
February 13, 2026 at 12:57 PM
今日読んだ論文
Reflexion: Language Agents with Verbal Reinforcement Learning
www.arxiv.org/abs/2303.11366

この抽象的なAlgorithm1で強化学習だ!!! みたいなノリでなんか性能出ているらしいのが面白いというかなんなんだという気持ちにもなってくる。強化学習とはなんなのだろうかと最近は
February 12, 2026 at 12:18 PM
異様な眠さ
February 11, 2026 at 4:59 AM
今日読んだ論文
Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning
arxiv.org/abs/2602.09396

Streaming強化学習をやっている論文は珍しい。次状態の表現予測が役に立つというのは良さそうな発見だけど、勾配を直交させるように射影しなきゃいけなかったりという点は少し大変そう。
February 11, 2026 at 4:58 AM
人間の反射神経が200msec程度だとしたとき、それと同程度を保証するためにはニューラルネットワークが100msecで動いていないといけない
(時刻tで推論が走った直後に反応すべき事象が発生したとして、それは次の推論時刻t+1で考慮できて、それが終わるタイミングで動き始められるため、推論周期の2倍が最悪値)

結局10Hzがラインになってしまう
February 10, 2026 at 11:52 PM
活動。プログラミングが多くなるか?
February 10, 2026 at 11:12 PM
今日読んだ論文
UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
arxiv.org/abs/2602.02002

画像とLiDARを同時に生成できるタイプの世界モデル? 条件付きレンダラー? というよくあるやつ。だいたいWan-2.1をNuScenes向けにFine-Tuningした感じに見える。これは元々のWanが強いだけなのではと思わないでもなかった
February 10, 2026 at 12:31 PM
強化学習、実際のところすべてin-context学習で破壊されてしまうとかにならないのだろうか
February 9, 2026 at 10:46 PM
スマホが常に発熱してて嫌な感じ
February 9, 2026 at 12:55 PM
今日読んだ論文
AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers
arxiv.org/abs/2411.11188

あまりメタ学習に詳しくないので、逆に「やけに丁寧に既存概念の説明とそれに対する批判をするな」と思った。系列モデリングとして観測・行動・報酬・終了を渡してしまうとか、Policyの学習もAdvantage-weighted regressionを使うとか、かなり実践的かつスケールしやすそうな手法だ
February 9, 2026 at 12:46 PM