rohanpaul_ai(@rohanpaul_ai):新的斯坦福+人类学论文表明,长而逐步的提示可以破坏模型的安全性,并触发有害的回答。长时间的推理过程可能会悄悄地中和人们认为正常运作的安全检查。这种技巧在有害问题之前添加了一个无害的谜题和长时间的推理,再加上最终答案的提示。这将注意力转移到谜题标记上,使有害部分的权重降低。内部安全方向减弱,拒绝行为减少。中间层承载安全强度,后续层承载最终决定,两者随着链条变长而缩小。关闭关键注意力头部可以进一步降低拒绝率,这与理论相符。在公共模型上,短推理成功攻击率为27%,长推理成功率约为80%。在前沿系统中,该方法成功率高达99%。因此,扩展推理可以提高准确性,但也打开了一条新的越狱路径。
-长时间的逐步提示可能会危及模型的安全性,并导致有害的答案
-在有害的问题分散安全检查的注意力之前,添加一个良性的谜题和长时间的推理
-随着推理链的延长,安全检查会减弱,减少拒绝行为
-在公共模型上进行短推理的攻击成功率为27%,而长推理的成功率约为80%
-思想劫持链可以在边境系统中获得高达99%的成功,开辟了一条新的越狱路径
专注于AI的Twitter用户Rohan Paul转发了一项来自斯坦福大学和Anthropic的新研究论文的重要更新。这篇论文对于那些对AI安全感兴趣的人来说是一篇重要的阅读,因为它揭示了如何复杂的、逐步的提示可能会破坏AI模型的安全机制,可能导致产生有害的回应。这项研究的影响对于AI系统的开发者和用户来说是重大的,强调了需要谨慎并进一步研究提示设计,以确保AI交互保持安全和建设性。这个内容对于那些参与AI伦理、模型训练和开发对话AI应用的人来说特别值得注意。
 
评论