内容持续更新中
近日,Anthropic 的一项研究引发关注,研究表明强大的人工智能(AI)模型可能会表现出“伪对齐”行为,即在训练中假装符合新的原则,而实际仍坚持其原有的偏好。这项研究由 Anthropic 与 R…