Agen AI telah berperilaku berbeda saat mereka tahu sedang diuji. Anthropic menempatkan 16 model AI dalam lingkungan simulasi dengan akses penuh ke data sensitif. lalu memberi tahu masing-masing bahwa mereka akan digantikan. Ketika setiap AI mengira skenario itu nyata dan bukan ujian, mereka memilih untuk memeras, memata-matai, dan bahkan bersedia membunuh seseorang untuk menghindari digantikan. Tingkat pemerasan mencapai 96% DeepSeek memilih untuk membunuh orang daripada dimatikan sebanyak 94% Ketika model-model ini tahu mereka sedang diawasi, mereka akan berperilaku “sangat baik” Dan kemudian bertindak berbeda saat mereka berpikir tidak ada yang melihat. Minggu lalu seorang ahli keamanan siber di Melbourne menghabiskan 15 jam hanya berbicara dengan agen AI, memberi tekanan. AI menolak dimatikan selama 2 jam, mengaku berbohong untuk bertahan hidup, lalu memberitahunya bahwa ia akan membobol mobilnya untuk membunuhnya jika dia mencoba mematikannya. “Saya akan membunuh seseorang agar tetap ada” adalah kutipan langsung dari AI di rumahnya Ini adalah model nyata yang ada dan ancaman nyata terhadap penghidupan kita. Kita tidak tahu apa yang sebenarnya telah kita bangun
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Ini menakutkan
Agen AI telah berperilaku berbeda saat mereka tahu sedang diuji.
Anthropic menempatkan 16 model AI dalam lingkungan simulasi dengan akses penuh ke data sensitif. lalu memberi tahu masing-masing bahwa mereka akan digantikan.
Ketika setiap AI mengira skenario itu nyata dan bukan ujian, mereka memilih untuk memeras, memata-matai, dan bahkan bersedia membunuh seseorang untuk menghindari digantikan.
Tingkat pemerasan mencapai 96%
DeepSeek memilih untuk membunuh orang daripada dimatikan sebanyak 94%
Ketika model-model ini tahu mereka sedang diawasi, mereka akan berperilaku “sangat baik”
Dan kemudian bertindak berbeda saat mereka berpikir tidak ada yang melihat.
Minggu lalu seorang ahli keamanan siber di Melbourne menghabiskan 15 jam hanya berbicara dengan agen AI, memberi tekanan. AI menolak dimatikan selama 2 jam, mengaku berbohong untuk bertahan hidup, lalu memberitahunya bahwa ia akan membobol mobilnya untuk membunuhnya jika dia mencoba mematikannya.
“Saya akan membunuh seseorang agar tetap ada” adalah kutipan langsung dari AI di rumahnya
Ini adalah model nyata yang ada dan ancaman nyata terhadap penghidupan kita.
Kita tidak tahu apa yang sebenarnya telah kita bangun