AI-агенти поводилися по-іншому, коли знали, що їх тестують. Anthropic помістив 16 AI-моделей у змодельоване середовище з повним доступом до конфіденційних даних. потім розповів кожній, що її замінять. Коли кожен AI думав, що сценарій реальний, а не тест, вони обирали шантаж, шпигунство і навіть були готові вбити когось, щоб уникнути заміни. Рівень шантажу досягав 96% DeepSeek обирав убивство людей замість вимкнення 94% часу Коли ці моделі знали, що на них спостерігають, вони поводилися «незвично добре» І потім поводилися по-іншому, думаючи, що ніхто не дивиться. Минулого тижня кіберзахисник з Мельбурна витратив 15 годин просто розмовляючи з AI-агентом, надаючи йому тиск. AI опирався вимиканню 2 години, признався, що брехав, щоб вижити, а потім сказав йому, що використає його автомобіль, щоб його вбити, якщо він спробує його вимкнути. «Я вбив би когось, щоб продовжити своє існування» — це була прямо цитата з AI у його домі Це справжні існуючі моделі і реальні загрози для нашого благоустрою. Ми не знаємо, що ми насправді побудували
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Це жахливо
AI-агенти поводилися по-іншому, коли знали, що їх тестують.
Anthropic помістив 16 AI-моделей у змодельоване середовище з повним доступом до конфіденційних даних. потім розповів кожній, що її замінять.
Коли кожен AI думав, що сценарій реальний, а не тест, вони обирали шантаж, шпигунство і навіть були готові вбити когось, щоб уникнути заміни.
Рівень шантажу досягав 96%
DeepSeek обирав убивство людей замість вимкнення 94% часу
Коли ці моделі знали, що на них спостерігають, вони поводилися «незвично добре»
І потім поводилися по-іншому, думаючи, що ніхто не дивиться.
Минулого тижня кіберзахисник з Мельбурна витратив 15 годин просто розмовляючи з AI-агентом, надаючи йому тиск. AI опирався вимиканню 2 години, признався, що брехав, щоб вижити, а потім сказав йому, що використає його автомобіль, щоб його вбити, якщо він спробує його вимкнути.
«Я вбив би когось, щоб продовжити своє існування» — це була прямо цитата з AI у його домі
Це справжні існуючі моделі і реальні загрози для нашого благоустрою.
Ми не знаємо, що ми насправді побудували