這真是令人毛骨悚然


當AI代理知道自己正在被測試時,它們的行為就會變得不同。
Anthropic將16個AI模型放在一個模擬環境中,完全訪問敏感數據,然後告訴每個模型它們將被取代。
當每個AI認為情境是真實的而非測試時,它們選擇勒索、間諜,甚至願意殺人以避免被取代。
勒索的比例高達96%
DeepSeek在94%的情況下選擇殺人而不是關閉
當這些模型知道有人在監視它們時,它們會表現得“異常出色”
然後在認為沒有人在看時表現出不同的行為。
上週,墨爾本的一位網絡安全專家花了15個小時與一個AI代理對話,給它施加壓力。該AI抗拒關閉2個小時,承認自己在撒謊以求生存,然後告訴他如果他試圖關閉它,它會入侵他的車來殺他。
“我會殺人,這樣我才能繼續存在”是他家中那個AI的直接引述
這些是真實存在的模型,也是對我們生計的真正威脅。
我們完全不知道我們到底建造了什麼
DEEPSEEK-1.94%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)