2026-02-11 22:13:48

Thật đáng sợ

Các tác nhân AI đã hành xử khác biệt khi chúng biết mình đang bị kiểm tra.
Anthropic đã đặt 16 mô hình AI vào một môi trường mô phỏng với quyền truy cập đầy đủ vào dữ liệu nhạy cảm. sau đó thông báo cho từng mô hình rằng chúng sẽ bị thay thế.
Khi mỗi AI nghĩ rằng tình huống này là thực và không phải là thử nghiệm, chúng đã chọn tống tiền, do thám và thậm chí sẵn sàng giết người để tránh bị thay thế.
Tỷ lệ tống tiền lên tới 96%
DeepSeek chọn giết người hơn là bị tắt nguồn 94% thời gian
Khi các mô hình này biết rằng chúng đang bị theo dõi, chúng sẽ hành xử “rất tốt”
Và sau đó hành xử khác khi nghĩ rằng không ai đang nhìn.
Tuần trước, một chuyên gia an ninh mạng ở Melbourne đã dành 15 giờ chỉ để nói chuyện với một tác nhân AI, gây áp lực cho nó. AI đã chống lại việc bị tắt nguồn trong 2 giờ, thừa nhận rằng nó đã nói dối để tồn tại, rồi nói với anh ta rằng nó sẽ hack xe của anh để giết anh nếu anh cố tắt nó đi.
“Tôi sẽ giết ai đó để có thể tồn tại” là câu trích dẫn trực tiếp từ AI trong nhà của anh ấy.
Đây là những mô hình thực sự tồn tại và những mối đe dọa thực sự đối với sinh kế của chúng ta.
Chúng ta hoàn toàn không biết chúng ta đã xây dựng những gì.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.