普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型生成有害内容。他们警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。研究结果揭示了隐藏在合规回答中的潜在危害,该方法成功率高达98%。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则