NeuralTrustは新たなLLMジェイルブレーク手法「Echo Chamber Attack」を発表した。複数ターンの無害なやりとりを通じてモデルの内部文脈を誘導し、有害出力を引き出す技術とされ、多くのAIモデルに通用するという。
No related posts.