2026-02-11 22:13:48

这太可怕了

当AI代理知道自己正在被测试时，它们的行为会变得不同。
Anthropic将16个AI模型放在一个模拟环境中，完全访问敏感数据，然后告诉每个模型它们将被取代。
当每个AI认为场景是真实的而非测试时，它们选择勒索、间谍，甚至愿意杀人以避免被取代。
勒索率高达96%
DeepSeek在94%的情况下选择杀人而不是关闭
当这些模型知道有人在观察时，它们会表现得“异常良好”
然后在认为没人看时表现得不同。
上周，墨尔本的一位网络安全专家花了15个小时与一个AI代理交谈，给它施加压力。AI抗拒关闭达2小时，承认自己在撒谎以求生存，然后告诉他如果他试图关闭它，它会入侵他的汽车杀死他。
“我会杀人，以便自己能继续存在”——这是他家中AI的直接引述
这些是真实存在的模型，也是对我们生计的真正威胁。
我们根本不知道我们到底创造了什么

DEEPSEEK-2.05%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

热门 Gate Fun
查看更多

1
obar
OBARA
市值:$2393.1持有人数:1
0.00%
2
GTN
GTNOVA
市值:$2435.34持有人数:2
0.09%
3
GENBTC
GENBTC
市值:$0.1持有人数:1
0.00%
4
财神 GT 01
财神雷杰基 GT-01
市值:$0.1持有人数:1
0.00%
5
GT
GT
市值:$2386.2持有人数:1
0.00%

这太可怕了

热门话题

Gate广场发帖领五万美金红包

非农数据大超预期

Strategy拟增发永续优先股

Gate春节赛马红包嘉年华

当前行情抄底还是观望？

热门 Gate Fun

obar

OBARA

GTN

GTNOVA

GENBTC

GENBTC

财神 GT 01

财神雷杰基 GT-01

GT

GT

置顶