一次+時間前市場ということでぱっと見で多段階確率計画問題を解くのかと思ったらそうではなかった。内容自体はおもしろかった
一次+時間前市場ということでぱっと見で多段階確率計画問題を解くのかと思ったらそうではなかった。内容自体はおもしろかった
REINFORCEの原論文読んだ。episodic REINFORCEはよく見る時刻ごとにエピソード終了までの割引報酬を求める形ではなくて、エピソード内の報酬の単純な和を想定しているように見える
REINFORCEの原論文読んだ。episodic REINFORCEはよく見る時刻ごとにエピソード終了までの割引報酬を求める形ではなくて、エピソード内の報酬の単純な和を想定しているように見える