楽しいニュースをまとめてみました。

AIの性能評価と聞くと、問題を解かせて正答率やスコアを見る「ベンチマーク」を思い浮かべる人が多いはず。しかしOpenAIは、AIがツールを使い、複数の手順を踏み、外部環境に働きかけるようになったことで、単純な「質問に回答させるテスト」だけではAIの能力や安全性を正しく測れなくなっていると説明しています。

続きを読む…