米Metaやカナダのマギル大学などに所属する研究者らは、環境と直接対話せずに大規模言語モデル(LLM)からのフィードバックを用いてAIエージェントを強化学習で訓練する手法を提案した研究報告を発表した。
No related posts.