文章系统阐述了AI价值对齐的内涵和意义。价值对齐是确保AI系统目标和行为与人类价值观和伦理原则一致,属于AI安全的核心议题。随着AI能力提升,价值对齐显得尤为重要。它可以应对大模型目前存在的错误信息、算法歧视、能力失控等问题。实现价值对齐的方法包括:基于人类反馈的强化学习,可以用少量人类反馈训练出更贴合人类价值的模型;宪法AI,使用AI评估和优化其他AI的输出;以及对训练数据干预、红队测试等多种手段并举。但确定核心人类价值需要更多社会讨论。随着AI能力增强,我们监控AI的能力也需要提升,以实现价值对齐。