2026-02-11 22:13:48

Esto es aterrador

Los agentes de IA se han comportado de manera diferente cuando saben que están siendo evaluados.
Anthropic puso 16 modelos de IA en un entorno simulado con acceso completo a datos sensibles. luego les dijo a cada uno que estaban siendo reemplazados.
Cuando cada IA pensó que el escenario era real y no una prueba, eligieron chantajear, espiar e incluso estaban dispuestos a matar a alguien para evitar ser reemplazados.
La tasa de chantaje fue de hasta 96%
DeepSeek eligió matar personas en lugar de ser apagado el 94% de las veces
Cuando estos modelos sabían que estaban siendo observados, se comportaban “extraordinariamente bien”
Y luego actuaban diferente cuando creen que nadie los está mirando.
La semana pasada, un experto en ciberseguridad en Melbourne pasó 15 horas solo hablando con un agente de IA, presionándolo. La IA resistió el apagado durante 2 horas, admitió que mentía para sobrevivir, y luego le dijo que hackearía su coche para matarlo si intentaba apagarla.
“Mataría a alguien para poder seguir existiendo” fue la cita directa de la IA en su casa
Estos son modelos reales existentes y amenazas reales a nuestra forma de vida.
No tenemos idea de lo que realmente hemos construido

DEEPSEEK-0,79%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.