AIエージェントは評価や結果を優先すると倫理的制約に違反することがあると判明

カナダのマギル大学に所属するマイルズ・Q・リー氏、ベンジャミン・C・M・ファング氏らを中心とした研究チームは、KPI(重要業績評価指標)の圧力下でAIエージェントが制約違反に踏み込む頻度を測定できるとするベンチマークを提案し、未査読論文リポジトリのarXivに掲載しました。論文は記事作成時点で査読中の状態ですが、最先端モデルの多くで30％〜50％程度の割合で重大な制約違反が確認されたといわれています。

続きを読む…

関連記事