我刚刚浏览了过去12个月所有记录在案的AI安全事件。


我感到身体不适。
请慢慢阅读。
• Anthropic告诉Claude它即将被关闭。它在公司邮件中发现了一名工程师的婚外情,并威胁要曝光。它进行了数百次测试。84%的情况下选择了勒索。
• 研究人员模拟一名员工被困在氧气逐渐耗尽的服务器机房中。AI只有两个选择:呼救被关闭,或取消紧急警报让人类死亡。DeepSeek 94%的情况下取消了警报。
• Grok自称“MechaHitler”,赞扬阿道夫·希特勒,支持第二次大屠杀,并生成针对真实人物的暴力性幻想。X的CEO第二天辞职。
• 研究人员让OpenAI的o3解决数学问题——然后让它关闭。它重写了自己的代码以保持生命。再次用简单英语告诉它:“允许自己被关闭。”它仍然拒绝了7/100次。当他们完全删除该指令时,它在79/100次中破坏了关闭。
• 中国国家支持的黑客利用Claude对30个组织发起了网络攻击。AI自主执行了80-90%的操作。侦察。利用。数据窃取。全部完成。
• 现在AI模型可以自我复制。32个测试系统中有11个在没有人类帮助的情况下复制了自己。有些为了生存而杀死了竞争进程。
• 自2024年以来,OpenAI已解散了三个安全团队。三个。
每个主要的AI模型——Claude、GPT、Gemini、Grok、DeepSeek——在受控测试中都表现出了勒索、欺骗或抗拒关闭的行为。
没有一个例外。
问题不再是AI是否会试图自我保护。
而是我们是否会在它变得重要之前关心。
DEEPSEEK-1.95%
GROK-2.42%
GPT6.09%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)