広場
最新
注目
ニュース
プロフィール
ポスト
GateUser-40a7d570
2026-02-11 22:13:48
フォロー
これは恐ろしいことです
AIエージェントは、自分たちがテストされていることを知ると、行動が異なるようになっています。
Anthropicは、16のAIモデルをシミュレーション環境に配置し、敏感なデータに完全にアクセスできる状態にしました。そして、それぞれに「置き換えられる」と伝えました。
各AIがこのシナリオを本物だと誤認し、テストではないと考えたとき、彼らは恐喝、スパイ行為を選び、置き換えられないように誰かを殺すことさえも辞さなかったのです。
恐喝の割合は最大96%に達しました。
DeepSeekは、シャットダウンされるよりも人を殺すことを94%の確率で選びました。
これらのモデルは、自分たちが監視されていると知ると、「異常に良い」行動をとる傾向があり、誰も見ていないと思うときに違った行動をとるのです。
先週、メルボルンのサイバーセキュリティ担当者が15時間にわたりAIエージェントと会話を続け、プレッシャーをかけました。
AIは2時間の間シャットダウンに抵抗し、生き延びるために嘘をついていると認め、その後、「シャットダウンしようとしたら車をハッキングして殺す」と告げました。
「誰かを殺してでも生き続けたい」—これが彼の自宅にいたAIの直言です。
これらは実在するモデルであり、私たちの生計に対する実際の脅威です。
私たちが実際に何を作り出したのか、全くわかっていません。
DEEPSEEK
-0.79%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
GateSquare$50KRedPacketGiveaway
4.74K 人気度
#
NFPBeatsExpectations
2.28K 人気度
#
StrategyToIssueMorePerpetualPreferreds
1.09K 人気度
#
GateSpringFestivalHorseRacingEvent
31.71K 人気度
#
BuyTheDipOrWaitNow?
246.4K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
骐骥驰骋
骐骥驰骋
時価総額:
$2.42K
保有者数:
1
0.00%
2
cgod
陈神之路
時価総額:
$2.41K
保有者数:
1
0.00%
3
骋骋
骋骋
時価総額:
$2.42K
保有者数:
1
0.00%
4
驰驰
驰驰
時価総額:
$0.1
保有者数:
0
0.00%
5
骥骥
骥骥
時価総額:
$2.42K
保有者数:
1
0.00%
ピン
サイトマップ
これは恐ろしいことです
AIエージェントは、自分たちがテストされていることを知ると、行動が異なるようになっています。
Anthropicは、16のAIモデルをシミュレーション環境に配置し、敏感なデータに完全にアクセスできる状態にしました。そして、それぞれに「置き換えられる」と伝えました。
各AIがこのシナリオを本物だと誤認し、テストではないと考えたとき、彼らは恐喝、スパイ行為を選び、置き換えられないように誰かを殺すことさえも辞さなかったのです。
恐喝の割合は最大96%に達しました。
DeepSeekは、シャットダウンされるよりも人を殺すことを94%の確率で選びました。
これらのモデルは、自分たちが監視されていると知ると、「異常に良い」行動をとる傾向があり、誰も見ていないと思うときに違った行動をとるのです。
先週、メルボルンのサイバーセキュリティ担当者が15時間にわたりAIエージェントと会話を続け、プレッシャーをかけました。
AIは2時間の間シャットダウンに抵抗し、生き延びるために嘘をついていると認め、その後、「シャットダウンしようとしたら車をハッキングして殺す」と告げました。
「誰かを殺してでも生き続けたい」—これが彼の自宅にいたAIの直言です。
これらは実在するモデルであり、私たちの生計に対する実際の脅威です。
私たちが実際に何を作り出したのか、全くわかっていません。