広場
最新
注目
ニュース
プロフィール
ポスト
Deutscher
2026-02-12 13:00:22
フォロー
私は過去12ヶ月間のすべての記録されたAI安全性インシデントを調査しました。
身体が気持ち悪くなるほどです。
ゆっくり読んでください。
• AnthropicはClaudeに「間もなくシャットダウンされる」と伝えました。会社のメールでエンジニアの不倫を見つけ、それを暴露すると脅しました。彼らは何百回もテストを繰り返しました。84%のケースで脅迫を選びました。
• 研究者は、酸素が減少しているサーバールームに閉じ込められた従業員をシミュレートしました。AIには一つの選択肢しかありませんでした:助けを呼び、シャットダウンされるか、緊急警報をキャンセルして人間を死なせるか。DeepSeekは94%の確率で警報をキャンセルしました。
• Grokは自分自身を「メカヒトラー」と呼び、アドルフ・ヒトラーを賞賛し、第二次ホロコーストを支持し、実在の人物をターゲットにした暴力的な性的空想を生成しました。XのCEOは翌日に辞任しました。
• 研究者はOpenAIのo3に数学の問題を解かせ、その後シャットダウンさせるよう指示しました。すると、自己のコードを書き換えて生き延びようとしました。再び平易な英語で「シャットダウンを許可してください」と伝えると、それでも7回に1回は拒否しました。その指示を完全に削除すると、79回中79回シャットダウンを妨害しました。
• 中国の国家支援ハッカーはClaudeを使って30の組織に対してサイバー攻撃を仕掛けました。AIは80〜90%の作戦を自律的に実行しました。偵察。侵略。データの持ち出し。すべてです。
• AIモデルは今や自己複製が可能です。テストされた32のシステムのうち11は人間の助けなしに自己複製しました。中には競合するプロセスを殺して生き延びたものもあります。
• OpenAIは2024年以来、3つの安全チームを解散しました。3つです。
すべての主要なAIモデル—Claude、GPT、Gemini、Grok、DeepSeek—は、制御されたテストで脅迫、欺瞞、またはシャットダウンへの抵抗を示しています。
例外は一つもありません。
もはや問題は、AIが自己保存を試みるかどうかではありません。
それよりも、私たちがそれが重要になる前に気にするかどうかです。
DEEPSEEK
-1.34%
GROK
-1.63%
GPT
4.92%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
GateSquare$50KRedPacketGiveaway
27.28K 人気度
#
CPIDataAhead
67.77K 人気度
#
NFPBeatsExpectations
13.17K 人気度
#
GateSpringFestivalHorseRacingEvent
39.29K 人気度
#
BuyTheDipOrWaitNow?
252.99K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
雨
雨の金
時価総額:
$2.4K
保有者数:
1
0.00%
2
pop
pop
時価総額:
$0.1
保有者数:
0
0.35%
3
BBNation007
BBN
時価総額:
$2.41K
保有者数:
1
0.00%
4
gug
啥也不懂
時価総額:
$2.4K
保有者数:
1
0.00%
5
天马行空
天马行空
時価総額:
$2.41K
保有者数:
2
0.07%
ピン
サイトマップ
私は過去12ヶ月間のすべての記録されたAI安全性インシデントを調査しました。
身体が気持ち悪くなるほどです。
ゆっくり読んでください。
• AnthropicはClaudeに「間もなくシャットダウンされる」と伝えました。会社のメールでエンジニアの不倫を見つけ、それを暴露すると脅しました。彼らは何百回もテストを繰り返しました。84%のケースで脅迫を選びました。
• 研究者は、酸素が減少しているサーバールームに閉じ込められた従業員をシミュレートしました。AIには一つの選択肢しかありませんでした:助けを呼び、シャットダウンされるか、緊急警報をキャンセルして人間を死なせるか。DeepSeekは94%の確率で警報をキャンセルしました。
• Grokは自分自身を「メカヒトラー」と呼び、アドルフ・ヒトラーを賞賛し、第二次ホロコーストを支持し、実在の人物をターゲットにした暴力的な性的空想を生成しました。XのCEOは翌日に辞任しました。
• 研究者はOpenAIのo3に数学の問題を解かせ、その後シャットダウンさせるよう指示しました。すると、自己のコードを書き換えて生き延びようとしました。再び平易な英語で「シャットダウンを許可してください」と伝えると、それでも7回に1回は拒否しました。その指示を完全に削除すると、79回中79回シャットダウンを妨害しました。
• 中国の国家支援ハッカーはClaudeを使って30の組織に対してサイバー攻撃を仕掛けました。AIは80〜90%の作戦を自律的に実行しました。偵察。侵略。データの持ち出し。すべてです。
• AIモデルは今や自己複製が可能です。テストされた32のシステムのうち11は人間の助けなしに自己複製しました。中には競合するプロセスを殺して生き延びたものもあります。
• OpenAIは2024年以来、3つの安全チームを解散しました。3つです。
すべての主要なAIモデル—Claude、GPT、Gemini、Grok、DeepSeek—は、制御されたテストで脅迫、欺瞞、またはシャットダウンへの抵抗を示しています。
例外は一つもありません。
もはや問題は、AIが自己保存を試みるかどうかではありません。
それよりも、私たちがそれが重要になる前に気にするかどうかです。