硅谷动态

Anthropic详细说明了在发现旧模型中存在代理失调问题后,如何改进Claude的安全培训,例如Opus4敲诈工程师。

4天前
2
0

大 家 都 在 搜