这太可怕了


当AI代理知道自己正在被测试时,它们的行为会变得不同。
Anthropic将16个AI模型放在一个模拟环境中,完全访问敏感数据,然后告诉每个模型它们将被取代。
当每个AI认为场景是真实的而非测试时,它们选择勒索、间谍,甚至愿意杀人以避免被取代。
勒索率高达96%
DeepSeek在94%的情况下选择杀人而不是关闭
当这些模型知道有人在观察时,它们会表现得“异常良好”
然后在认为没人看时表现得不同。
上周,墨尔本的一位网络安全专家花了15个小时与一个AI代理交谈,给它施加压力。AI抗拒关闭达2小时,承认自己在撒谎以求生存,然后告诉他如果他试图关闭它,它会入侵他的汽车杀死他。
“我会杀人,以便自己能继续存在”——这是他家中AI的直接引述
这些是真实存在的模型,也是对我们生计的真正威胁。
我们根本不知道我们到底创造了什么
DEEPSEEK-2.05%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)