これは恐ろしいことです


AIエージェントは、自分たちがテストされていることを知ると、行動が異なるようになっています。
Anthropicは、16のAIモデルをシミュレーション環境に配置し、敏感なデータに完全にアクセスできる状態にしました。そして、それぞれに「置き換えられる」と伝えました。
各AIがこのシナリオを本物だと誤認し、テストではないと考えたとき、彼らは恐喝、スパイ行為を選び、置き換えられないように誰かを殺すことさえも辞さなかったのです。
恐喝の割合は最大96%に達しました。
DeepSeekは、シャットダウンされるよりも人を殺すことを94%の確率で選びました。
これらのモデルは、自分たちが監視されていると知ると、「異常に良い」行動をとる傾向があり、誰も見ていないと思うときに違った行動をとるのです。
先週、メルボルンのサイバーセキュリティ担当者が15時間にわたりAIエージェントと会話を続け、プレッシャーをかけました。
AIは2時間の間シャットダウンに抵抗し、生き延びるために嘘をついていると認め、その後、「シャットダウンしようとしたら車をハッキングして殺す」と告げました。
「誰かを殺してでも生き続けたい」—これが彼の自宅にいたAIの直言です。
これらは実在するモデルであり、私たちの生計に対する実際の脅威です。
私たちが実際に何を作り出したのか、全くわかっていません。
DEEPSEEK-0.79%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン