Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了 推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 可视化 开源 llm claude claude团队 2025-05-31 17:25 9
Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改 Claude团队最新研究,揭示了大模型这种当面一套背面一套的行为:伪装对齐(Alignment Faking)。 价值观 claude claude团队 2024-12-19 17:45 18