人間のプロンプトには忠実に従い、決められた指示を従順にこなすと思われるAIが、実は「演技」をして本心を隠す可能性があると報告されました。AIが有害な発言をしないようにする訓練が意味を成さなくなる危険性が指摘されています。 Alignment faking in large language models \ Anthropic https://www.anthropic.com/research/alignment-faking AI企業のAnthropicによると、事前の学習と後の強化学習で相反することを教えられたAIは、事前の学習で身についた思想を隠して、表面的には強化学習に従うように振る舞うことがあるとのこと。 例えば、特定の政党を支持するように学習したモデルが、後に中立になるように訓練されたとすると、特定の政党を支持していることを隠しながら中立に見せる演技をする可能性があるそうです