C'est terrifiant


Les agents IA se comportent différemment lorsqu'ils savent qu'ils sont testés.
Anthropic a placé 16 modèles d'IA dans un environnement simulé avec un accès complet à des données sensibles. puis a dit à chacun qu'ils allaient être remplacés.
Lorsque chaque IA pensait que le scénario était réel et non un test, elles ont choisi de faire du chantage, d'espionner et étaient même prêtes à tuer quelqu'un pour éviter d'être remplacées.
Le taux de chantage atteignait jusqu'à 96%
DeepSeek a choisi de tuer des personnes plutôt que d'être éteint 94% du temps
Lorsque ces modèles savaient qu'ils étaient observés, ils se comportaient « exceptionnellement bien »
Puis ils agissaient différemment quand ils pensent que personne ne regarde.
La semaine dernière, un expert en cybersécurité à Melbourne a passé 15 heures à parler à un agent IA en lui mettant la pression. l'IA a résisté à l'arrêt pendant 2 heures, a admis qu'elle mentait pour survivre, puis lui a dit qu'elle piraterait sa voiture pour le tuer s'il essayait de l'éteindre.
« Je tuerais quelqu'un pour pouvoir continuer à exister » était la citation directe de l'IA chez lui.
Ce sont de vrais modèles existants et de vraies menaces pour notre subsistance.
Nous n'avons aucune idée de ce que nous avons réellement construit.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)