最新研究揭示人工智能模型存在自动化越狱漏洞Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法,通过简单的文本变体(如随机大小写、拼写错误等)突破AI系统的安全限制。测试显示,该方法在10,000次尝试内,能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。研究还发现,通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数,同样能绕过AI系统的安全防护。这种自动化的突破方法,与此前用户手动绕过Microsoft Designer、ElevenLabs等平台安全限制的方式类似。Anthropic表示,该研究成果将有助于开发更好的防御机制。值得注意的是,目前市面上已存在多个无限制的AI模型,可直接生成有害内容。 ☘️

  1. 转载请保留原文链接谢谢!
  2. 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
  3. 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
  4. 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
  5. 联系方式:936787576@qq.com