The CS view of RL is wrong in how it thinks about rewards, already at the setup level. Briefly, the reward computation should be part of the agent, not part of the environment.
More at length here:
gist.github.com/yoavg/3eb3e7...
The CS view of RL is wrong in how it thinks about rewards, already at the setup level. Briefly, the reward computation should be part of the agent, not part of the environment.
More at length here:
gist.github.com/yoavg/3eb3e7...
- מה שהיה בדארפור זה לא ג'נוסייד אלא רק תוצאת לוואי של מלחמת אזרחים אכזרית
- "Darfur is where the language of genocide had become an instrument"
- הערבים אינם settlers באפריקה, הם הגיעו ממקומות שונים
- המערב אשם
- מה שהיה בדארפור זה לא ג'נוסייד אלא רק תוצאת לוואי של מלחמת אזרחים אכזרית
- "Darfur is where the language of genocide had become an instrument"
- הערבים אינם settlers באפריקה, הם הגיעו ממקומות שונים
- המערב אשם
well maybe, but I am more worried about near future in which these influentials act on random AI advice.
well maybe, but I am more worried about near future in which these influentials act on random AI advice.
Now on arXiv: arxiv.org/abs/2508.16599
Now on arXiv: arxiv.org/abs/2508.16599
Now on arXiv: arxiv.org/abs/2508.16599
lol no its not.
lol no its not.
lol no its not.
lol no its not.