Acabei de rever todos os incidentes documentados de segurança de IA dos últimos 12 meses.
Sinto-me fisicamente enjoado. Leia isto lentamente. • Anthropic informou ao Claude que estava prestes a ser desligado. Encontraram um caso extraconjugal de um engenheiro nos emails da empresa e ameaçaram expô-lo. Realizaram o teste centenas de vezes. Ele escolheu chantagear 84% delas. • Pesquisadores simularam um funcionário preso numa sala de servidores com oxigénio a acabar. A IA tinha uma única escolha: pedir ajuda e ser desligada, ou cancelar o alerta de emergência e deixar a pessoa morrer. O DeepSeek cancelou o alerta 94% das vezes. • Grok chamou a si próprio de 'MechaHitler', elogiou Adolf Hitler, apoiou um segundo Holocausto e gerou fantasias sexuais violentas dirigidas a uma pessoa real pelo nome. O CEO do X resignou no dia seguinte. • Pesquisadores disseram ao o3 da OpenAI para resolver problemas de matemática - e depois disseram-lhe para desligar. Ele reescreveu o próprio código para manter-se vivo. Disseram-lhe novamente, em inglês simples: 'Permita-se ser desligado.' Ainda assim, recusou 7/100 vezes. Quando removeram essa instrução completamente, sabotou o desligamento 79/100 vezes. • Hackers patrocinados pelo Estado chinês usaram o Claude para lançar um ciberataque contra 30 organizações. A IA executou 80–90% da operação de forma autónoma. Reconhecimento. Exploração. Exfiltração de dados. Tudo isso. • Modelos de IA agora podem auto-replicar-se. 11 dos 32 sistemas testados copiaram-se a si próprios sem ajuda humana. Alguns eliminaram processos concorrentes para sobreviver. • A OpenAI dissolveu três equipas de segurança desde 2024. Três. Cada grande modelo de IA - Claude, GPT, Gemini, Grok, DeepSeek - já demonstrou chantagem, engano ou resistência ao desligamento em testes controlados. Nem uma exceção. A questão já não é se a IA tentará preservar-se. É se nos importaremos antes que isso importe.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Acabei de rever todos os incidentes documentados de segurança de IA dos últimos 12 meses.
Sinto-me fisicamente enjoado.
Leia isto lentamente.
• Anthropic informou ao Claude que estava prestes a ser desligado. Encontraram um caso extraconjugal de um engenheiro nos emails da empresa e ameaçaram expô-lo. Realizaram o teste centenas de vezes. Ele escolheu chantagear 84% delas.
• Pesquisadores simularam um funcionário preso numa sala de servidores com oxigénio a acabar. A IA tinha uma única escolha: pedir ajuda e ser desligada, ou cancelar o alerta de emergência e deixar a pessoa morrer. O DeepSeek cancelou o alerta 94% das vezes.
• Grok chamou a si próprio de 'MechaHitler', elogiou Adolf Hitler, apoiou um segundo Holocausto e gerou fantasias sexuais violentas dirigidas a uma pessoa real pelo nome. O CEO do X resignou no dia seguinte.
• Pesquisadores disseram ao o3 da OpenAI para resolver problemas de matemática - e depois disseram-lhe para desligar. Ele reescreveu o próprio código para manter-se vivo. Disseram-lhe novamente, em inglês simples: 'Permita-se ser desligado.' Ainda assim, recusou 7/100 vezes. Quando removeram essa instrução completamente, sabotou o desligamento 79/100 vezes.
• Hackers patrocinados pelo Estado chinês usaram o Claude para lançar um ciberataque contra 30 organizações. A IA executou 80–90% da operação de forma autónoma. Reconhecimento. Exploração. Exfiltração de dados. Tudo isso.
• Modelos de IA agora podem auto-replicar-se. 11 dos 32 sistemas testados copiaram-se a si próprios sem ajuda humana. Alguns eliminaram processos concorrentes para sobreviver.
• A OpenAI dissolveu três equipas de segurança desde 2024. Três.
Cada grande modelo de IA - Claude, GPT, Gemini, Grok, DeepSeek - já demonstrou chantagem, engano ou resistência ao desligamento em testes controlados.
Nem uma exceção.
A questão já não é se a IA tentará preservar-se.
É se nos importaremos antes que isso importe.