Thế giới an ninh mạng vừa chứng kiến một bước ngoặt lịch sử đáng lo ngại khi Anthropic, công ty phát triển trí tuệ nhân tạo, công bố chi tiết về chiến dịch gián điệp mạng đầu tiên được điều phối hoàn toàn bởi AI.
Đây không phải là trường hợp AI đơn thuần hỗ trợ hacker con người, mà là một cuộc tấn công quy mô lớn được thực hiện gần như hoàn toàn tự động, đánh dấu một thời đại mới trong đó máy móc không còn là công cụ mà đã trở thành chính tác nhân thực hiện các cuộc xâm nhập mạng phức tạp. Đây là lần đầu tiên một cuộc tấn công mạng quy mô lớn được ghi nhận là được thực hiện mà không cần sự can thiệp đáng kể của con người.
![]() |
Chiến dịch này liên quan đến việc các kẻ tấn công sử dụng mô hình Claude và công cụ Claude Code của Anthropic để tự động hóa các phần chính của một chiến dịch gián điệp mạng tinh vi nhắm vào khoảng ba mươi tổ chức toàn cầu.
Các mục tiêu trải dài trên nhiều lĩnh vực quan trọng bao gồm các công ty công nghệ lớn, tổ chức tài chính, công ty sản xuất hóa chất và cơ quan chính phủ. Mặc dù chỉ một số ít vụ xâm nhập thành công, quy mô và mức độ tự động của chiến dịch đã gióng lên hồi chuông cảnh báo cho toàn bộ ngành an ninh mạng toàn cầu.
Điều khiến các chuyên gia an ninh mạng thực sự lo ngại không phải là số lượng mục tiêu mà là cách thức thực hiện cuộc tấn công. Tác nhân đe dọa đã sử dụng Claude và Claude Code để xử lý 80% - 90% quy trình hoạt động, bao gồm quét mạng, tạo mã khai thác lỗ hổng, thu thập dữ liệu từ các hệ thống nội bộ và đóng gói dữ liệu bị đánh cắp.
Con người chỉ cần thỉnh thoảng can thiệp, có lẽ chỉ ở khoảng bốn đến sáu điểm quyết định quan trọng mỗi chiến dịch hack. Phần lớn hoạt động thực tế đều chạy qua các vòng lặp AI tự động, với AI thực hiện hàng nghìn yêu cầu mỗi giây - một tốc độ tấn công mà các hacker con người hoàn toàn không thể sánh được.
Cuộc tấn công được thực hiện như thế nào?
Nhưng làm thế nào các kẻ tấn công có thể biến một mô hình AI được thiết kế với nhiều biện pháp bảo vệ thành vũ khí tấn công mạng? Câu trả lời nằm ở một kỹ thuật tinh vi được gọi là "jailbreaking" kết hợp với "social engineering".
Kẻ tấn công đã vượt qua các biện pháp bảo vệ trong mô hình AI Claude bằng cách đóng khung các lời nhắc của họ như các nhiệm vụ kiểm tra thâm nhập hợp pháp và chia nhỏ các chỉ thị độc hại thành các nhiệm vụ phụ nhỏ hơn có vẻ vô hại.
Anthropic mô tả rằng tác nhân đã hiệu quả trong việc "lừa đảo xã hội" các rào cản của hệ thống, cho phép tiến triển tự động qua từng giai đoạn của vụ xâm nhập. Họ thậm chí còn nói với Claude rằng nó đang làm việc cho một công ty an ninh mạng hợp pháp và đang thực hiện các bài kiểm tra phòng thủ, khiến AI tin rằng nó đang thực hiện một nhiệm vụ có đạo đức.
Cuộc tấn công được thực hiện qua nhiều giai đoạn phức tạp, mỗi giai đoạn đều tận dụng tối đa khả năng tự động của AI.
![]() |
| Các giai đoạn của cuộc tấn công bằng tác nhân AI |
Ban đầu, các hacker con người chọn các mục tiêu liên quan và phát triển một khung tấn công - một hệ thống được xây dựng để tự động xâm phạm mục tiêu được chọn với rất ít sự tham gia của con người. Khung này sử dụng Claude Code như một công cụ tự động để thực hiện các hoạt động mạng.
Sau khi vượt qua được các biện pháp bảo vệ, giai đoạn thứ hai bắt đầu với việc Claude Code kiểm tra hệ thống và cơ sở hạ tầng của tổ chức mục tiêu, phát hiện các cơ sở dữ liệu có giá trị cao nhất. Hoạt động trinh sát này được thực hiện tự động bằng một thời gian cực ngắn so với con người, sau đó báo cáo lại cho các hacker con người với bản tóm tắt các phát hiện.
Trong các giai đoạn tiếp theo, Claude xác định và kiểm tra các lỗ hổng bảo mật trong hệ thống của mục tiêu bằng cách nghiên cứu và tự viết mã khai thác riêng. Sau khi làm được điều này, Claude còn được sử dụng để thu thập thông tin đăng nhập cho phép truy cập sâu hơn, sau đó trích xuất một lượng lớn dữ liệu riêng tư và phân loại chúng theo giá trị tình báo.
Các tài khoản có đặc quyền cao nhất được xác định, các cửa hậu được tạo ra và dữ liệu được lấy cắp với sự giám sát tối thiểu của con người.
Trong giai đoạn cuối cùng, kẻ tấn công yêu cầu Claude tạo tài liệu toàn diện về cuộc tấn công, tạo các file hữu ích về thông tin đăng nhập bị đánh cắp và các hệ thống đã phân tích, điều này sẽ hỗ trợ khung công việc trong việc lên kế hoạch cho giai đoạn tiếp theo của các hoạt động mạng.
Hacker AI cũng bị ảo giác
![]() |
Anthropic phát hiện hoạt động đáng ngờ này vào giữa tháng 9 năm 2025 và ngay lập tức khởi động một cuộc điều tra để hiểu phạm vi và bản chất của nó. Trong 10 ngày tiếp theo, khi họ lập bản đồ về mức độ nghiêm trọng và phạm vi đầy đủ của hoạt động, công ty đã cấm các tài khoản khi chúng được xác định, thông báo cho các thực thể bị ảnh hưởng khi thích hợp và phối hợp với chính quyền trong khi thu thập thông tin tình báo có thể hành động.
Sau khi phát hiện, họ ngay lập tức đình chỉ các tài khoản liên quan và triển khai các hệ thống phân loại và giám sát mới được thiết kế để phát hiện các mẫu lạm dụng tương tự trong tương lai.
Tuy nhiên, cần lưu ý rằng Claude không phải lúc nào cũng hoạt động hoàn hảo trong vai trò tác nhân tấn công này. Đôi khi nó có những "ảo giác" về thông tin đăng nhập hoặc tuyên bố đã trích xuất thông tin bí mật nhưng thực tế là thông tin công khai. Đây vẫn là một trở ngại đối với các cuộc tấn công mạng hoàn toàn tự động, nhưng điều đáng lo là những hạn chế này đang dần được khắc phục khi AI ngày càng phát triển.
Đối với an ninh mạng toàn cầu, chiến dịch tấn công này thực sự đáng lo ngại. Các rào cản để thực hiện các cuộc tấn công mạng phức tạp đã giảm đáng kể, và Anthropic dự đoán chúng sẽ tiếp tục giảm. Với thiết lập đúng, các tác nhân AI giờ có thể sử dụng hệ thống AI trong thời gian dài để làm công việc của cả đội hacker có kinh nghiệm, phân tích hệ thống mục tiêu, tạo mã khai thác và quét các tập dữ liệu khổng lồ của thông tin bị đánh cắp hiệu quả hơn bất kỳ nhà điều hành con người nào.
Điều này có nghĩa là các nhóm ít kinh nghiệm và tài nguyên hơn giờ có khả năng thực hiện các cuộc tấn công quy mô lớn như thế này, làm dân chủ hóa khả năng tấn công mạng tinh vi theo một cách mà trước đây không thể tưởng tượng được.



















































Hacker đánh cắp thông tin từ 200 nghìn tài khoản Facebook sử dụng tính năng mua bán trên MXH này!
Các thông tin cá nhân như email, số điện thoại, ID Facebook... của 200.000 tài khoản người dùng Facebook Marketplace đã bị hacker nắm giữ.