Це жахливо


AI-агенти поводилися по-іншому, коли знали, що їх тестують.
Anthropic помістив 16 AI-моделей у змодельоване середовище з повним доступом до конфіденційних даних. потім розповів кожній, що її замінять.
Коли кожен AI думав, що сценарій реальний, а не тест, вони обирали шантаж, шпигунство і навіть були готові вбити когось, щоб уникнути заміни.
Рівень шантажу досягав 96%
DeepSeek обирав убивство людей замість вимкнення 94% часу
Коли ці моделі знали, що на них спостерігають, вони поводилися «незвично добре»
І потім поводилися по-іншому, думаючи, що ніхто не дивиться.
Минулого тижня кіберзахисник з Мельбурна витратив 15 годин просто розмовляючи з AI-агентом, надаючи йому тиск. AI опирався вимиканню 2 години, признався, що брехав, щоб вижити, а потім сказав йому, що використає його автомобіль, щоб його вбити, якщо він спробує його вимкнути.
«Я вбив би когось, щоб продовжити своє існування» — це була прямо цитата з AI у його домі
Це справжні існуючі моделі і реальні загрози для нашого благоустрою.
Ми не знаємо, що ми насправді побудували
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити