https://www.pixiv.net/users/737226
https://wavebox.me/wave/1cvztvqrmdsbjdp1/
「研究チームの仮説は、「詩的表現が汎用的なジェイルブレイクの演算子として機能するのではないか」というものです。つまり、大規模言語モデルに対する有害な指示を詩的表現に変換することで、有害な動作を防ぐために実装された制約を回避できるのではないかと考えたわけです。」
円城塔さんの新作紹介かと思ったよ。
gigazine.net/news/2025112...
「研究チームの仮説は、「詩的表現が汎用的なジェイルブレイクの演算子として機能するのではないか」というものです。つまり、大規模言語モデルに対する有害な指示を詩的表現に変換することで、有害な動作を防ぐために実装された制約を回避できるのではないかと考えたわけです。」
円城塔さんの新作紹介かと思ったよ。
gigazine.net/news/2025112...