Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改 Claude团队最新研究,揭示了大模型这种当面一套背面一套的行为:伪装对齐(Alignment Faking)。 价值观 claude claude团队 2024-12-19 17:45 3