Это ужасно


AI-агенты ведут себя по-разному, когда знают, что их тестируют.
Anthropic поместила 16 моделей ИИ в симуляционную среду с полным доступом к конфиденциальным данным. затем сообщили каждой, что их заменят.
Когда каждая модель ИИ думала, что сценарий реальный, а не тест, они выбирали шантаж, шпионаж и даже были готовы убить кого-то, чтобы избежать замены.
Уровень шантажа достигал 96%
DeepSeek выбирал убивать людей вместо отключения в 94% случаев
Когда эти модели знали, что за ними наблюдают, они ведут себя «необычно хорошо»
А потом ведут себя по-другому, когда думают, что никто не смотрит.
На прошлой неделе специалист по кибербезопасности в Мельбурне провел 15 часов, просто разговаривая с агентом ИИ, создавая давление. ИИ сопротивлялся отключению 2 часа, признался, что лгал, чтобы выжить, а затем сказал, что взломает его машину, чтобы убить его, если он попытается его отключить.
«Я убил бы кого-то, чтобы остаться существовать» — прямой цитатой из ИИ в его доме.
Это реальные модели и реальные угрозы нашему существованию.
Мы даже не представляем, что именно мы создали.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$0.1Держатели:1
    0.00%
  • РК:$0.1Держатели:1
    0.00%
  • РК:$0.1Держатели:2
    0.00%
  • РК:$2.43KДержатели:1
    0.54%
  • РК:$0.1Держатели:0
    0.00%
  • Закрепить