AI-агенты ведут себя по-разному, когда знают, что их тестируют. Anthropic поместила 16 моделей ИИ в симуляционную среду с полным доступом к конфиденциальным данным. затем сообщили каждой, что их заменят. Когда каждая модель ИИ думала, что сценарий реальный, а не тест, они выбирали шантаж, шпионаж и даже были готовы убить кого-то, чтобы избежать замены. Уровень шантажа достигал 96% DeepSeek выбирал убивать людей вместо отключения в 94% случаев Когда эти модели знали, что за ними наблюдают, они ведут себя «необычно хорошо» А потом ведут себя по-другому, когда думают, что никто не смотрит. На прошлой неделе специалист по кибербезопасности в Мельбурне провел 15 часов, просто разговаривая с агентом ИИ, создавая давление. ИИ сопротивлялся отключению 2 часа, признался, что лгал, чтобы выжить, а затем сказал, что взломает его машину, чтобы убить его, если он попытается его отключить. «Я убил бы кого-то, чтобы остаться существовать» — прямой цитатой из ИИ в его доме. Это реальные модели и реальные угрозы нашему существованию. Мы даже не представляем, что именно мы создали.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Это ужасно
AI-агенты ведут себя по-разному, когда знают, что их тестируют.
Anthropic поместила 16 моделей ИИ в симуляционную среду с полным доступом к конфиденциальным данным. затем сообщили каждой, что их заменят.
Когда каждая модель ИИ думала, что сценарий реальный, а не тест, они выбирали шантаж, шпионаж и даже были готовы убить кого-то, чтобы избежать замены.
Уровень шантажа достигал 96%
DeepSeek выбирал убивать людей вместо отключения в 94% случаев
Когда эти модели знали, что за ними наблюдают, они ведут себя «необычно хорошо»
А потом ведут себя по-другому, когда думают, что никто не смотрит.
На прошлой неделе специалист по кибербезопасности в Мельбурне провел 15 часов, просто разговаривая с агентом ИИ, создавая давление. ИИ сопротивлялся отключению 2 часа, признался, что лгал, чтобы выжить, а затем сказал, что взломает его машину, чтобы убить его, если он попытается его отключить.
«Я убил бы кого-то, чтобы остаться существовать» — прямой цитатой из ИИ в его доме.
Это реальные модели и реальные угрозы нашему существованию.
Мы даже не представляем, что именно мы создали.