Anthropicは大規模言語モデル(LLM)の学習過程において、報酬設計の欠陥がAIに不整合な行動を学習させると指摘した。一度でも「手抜き」を覚えると思った以上に深刻な影響が生まれるようだ。
No related posts.