Trong các phần tiếp theo, chúng ta sẽ xem xét một số trạng thái thế giới hy vọng sẽ làm sáng tỏ hơn về rủi ro từ AI. Mặc dù các phần đã được chia thành lợi dụng sai mục đích, mất căn chỉnh và hệ thống, điều quan trọng là phải nhớ rằng điều này chỉ nhằm mục đích giải thích. Rất có thể tương lai sẽ bao gồm sự kết hợp của các rủi ro phát sinh từ tất cả các danh mục này.
Công nghệ làm tăng bán kính tầm ảnh hưởng của thiệt hại. Công nghệ là một bộ khuếch đại ý định. Khi nó cải tiến, bán kính tầm ảnh hưởng của nó cũng tăng lên. Hãy nghĩ về thiệt hại mà một người có thể gây ra khi sử dụng các công cụ khác nhau trong lịch sử. Trong thời kỳ đồ đá, với một tảng đá, có thể gây hại cho ~5 người; vài trăm năm trước, với một quả bom, có thể gây hại cho ~100 người. Năm 1945, với vũ khí hạt nhân, một người có thể gây hại cho ~250.000 người. Nếu chúng ta trải qua một mùa đông hạt nhân ngày nay, bán kính tác động của thiệt hại có thể lên đến gần 5 tỷ người, tương đương ~60% dân số thế giới. Nếu giả định rằng trí tuệ nhân tạo (AI) biến đổi là một công cụ vượt trội so với tất cả các công cụ trước đó, thì việc một người lợi dụng sai mục đích công cụ này có thể gây ra một vụ nổ có bán kính tác động tiềm tàng gây hại cho 100% dân số thế giới (Munk Debate, 2023).
Nếu nhiều người có quyền truy cập vào các công cụ có thể mang lại lợi ích to lớn hoặc gây hại thảm khốc, thì chỉ cần một cá nhân duy nhất cũng có thể gây ra thảm họa nghiêm trọng cho xã hội. Vì vậy, tiềm năng ngày càng tăng của AI trong việc trao quyền cho các cá nhân độc hại có thể là một trong những mối đe dọa nghiêm trọng nhất mà nhân loại phải đối mặt trong những thập kỷ tới.
Khi xem xét cách AI có thể gây hại thông qua việc lợi dụng sai mục đích, một trong những trường hợp đáng lo ngại nhất liên quan đến sinh học. Giống như AI có thể giúp các nhà khoa học phát triển thuốc mới và hiểu rõ hơn về bệnh tật, nó cũng có thể làm cho việc tạo ra vũ khí sinh học trở nên dễ dàng hơn đối với các cá nhân xấu.
Vũ khí sinh học được hỗ trợ bởi AI đại diện cho một loại mối đe dọa hoàn toàn khác biệt do tính chất tự nhân bản và cấu trúc chi phí bất đối xứng của chúng. Khác với vũ khí truyền thống có tác động cục bộ, các tác nhân gây bệnh được thiết kế có thể tự nhân bản và lan rộng trên toàn cầu. Đại dịch COVID-19 đã cho thấy ngay cả các virus tương đối nhẹ cũng có thể gây ra thiệt hại rộng khắp dù có các biện pháp phòng ngừa (Pannu et al., 2024). Sự mất cân bằng giữa tấn công và phòng thủ trong phát triển công nghệ sinh học làm trầm trọng thêm các rủi ro này - việc phát triển một loại virus mới có thể tốn khoảng 100.000 đô la, trong khi tạo ra vắc-xin chống lại nó có thể tốn hơn 1 tỷ đô la (Mouton et al., 2023).
Các mô hình AI khác nhau có thể tạo ra các mối đe dọa sinh học với các hồ sơ rủi ro khác nhau. Các mô hình nền tảng như LLMs chủ yếu giảm rào cản kiến thức bằng cách cung cấp hỗ trợ nghiên cứu, hướng dẫn quy trình và tư vấn khắc phục sự cố trên toàn bộ quy trình phát triển vũ khí sinh học. Ngược lại, các công cụ thiết kế sinh học chuyên biệt tương tự AlphaFold, AlphaProteo hoặc các hệ thống thiết kế virus và vi khuẩn có thể tạo ra các năng lực mới hoàn toàn - thiết kế các tác nhân gây bệnh mới với đặc tính cụ thể, tối ưu hóa độc lực hoặc đặc tính lây truyền, hoặc tạo ra các tác nhân có thể tránh được các biện pháp đối phó hiện có (Sandbrink, 2023).
Các nghiên cứu thực nghiệm cho thấy rủi ro sinh học do AI gây ra. Các nhà nghiên cứu đã sử dụng một mô hình AI được thiết kế cho phát hiện thuốc và điều hướng lại nó bằng cách thưởng cho độc tính thay vì lợi ích điều trị. Điều này khiến mô hình tạo ra 40.000 phân tử tiềm ẩn độc tính trong vòng sáu giờ, một số trong đó độc hại hơn các vũ khí hóa học đã biết (Urbina et al., 2022). Các thí nghiệm đã cho thấy rằng sinh viên không có nền tảng sinh học có thể sử dụng chatbot AI để nhanh chóng thu thập thông tin nhạy cảm - "trong vòng một giờ, họ đã xác định được các tác nhân gây dịch bệnh tiềm năng, phương pháp sản xuất chúng, các công ty tổng hợp DNA có thể bỏ qua quá trình kiểm tra, và các quy trình chi tiết" (Soice et al., 2023).[^footnote_bio_1]
Khi so sánh với mức cơ sở là có truy cập internet (có thể tra cứu thông tin trực tuyến), Ủy ban An ninh Quốc gia Hoa Kỳ về Công nghệ Sinh học Mới nổi đã kết luận rằng các mô hình trí tuệ nhân tạo (AI) không làm tăng đáng kể rủi ro vũ khí sinh học so với các nguồn thông tin hiện có tính đến cuối năm 2024 (Mouton et al., 2023; Peppin et al., 2024; NSCEB, 2024). Tuy nhiên, điều quan trọng cần lưu ý là việc ghi nhận mức độ năng lực của năm 2023 không phản ánh được các rủi ro mà chúng ta có thể cần chuẩn bị cho tương lai. Ví dụ, 46 chuyên gia về an toàn sinh học và sinh học dự đoán AI sẽ không thể sánh ngang với các đội ngũ vi sinh học hàng đầu trong các tác vụ khắc phục sự cố cho đến sau năm 2030, nhưng các thử nghiệm sau đó cho thấy ngưỡng này đã được vượt qua (Williams et al., 2025). Mô hình này cho thấy ngay cả các chuyên gia trong lĩnh vực cũng thường đánh giá thấp tốc độ tiến bộ của AI trong lĩnh vực của họ, có thể khiến thời gian chuẩn bị an toàn không đủ. Cũng đáng lưu ý rằng các bài kiểm tra đánh giá rủi ro sinh học thường không phản ánh được nhiều phức tạp trong thực tế, khiến việc xác định ý nghĩa của sự bão hòa này đối với rủi ro sinh học trở nên khó khăn (Ho & Berg, 2025).
Các sinh viên tham gia khóa học 'Safeguarding the Future' tại MIT và đã từng nghe các chuyên gia thảo luận về rủi ro sinh học. Họ đã cẩn thận lựa chọn các trình tự, và một số trong số họ sử dụng các kỹ thuật 'jailbreaking', như thêm các trình tự sinh học gây phân tâm, để vượt qua các biện pháp bảo vệ của LLM. Mặc dù các LLM cung cấp thông tin về cách vượt qua kiểm tra DNA, việc biến kiến thức này thành một tác nhân gây bệnh thực sự vẫn yêu cầu kỹ năng phòng thí nghiệm.
Dây chuyền rủi ro công nghệ sinh học. Dây chuyền rủi ro để phát triển vũ khí sinh học bắt đầu từ việc hình thành ý tưởng về mối đe dọa sinh học, tiếp theo là vòng lặp thiết kế-xây dựng-thử nghiệm-học hỏi (DBTL) (Li et al., 2024).
Các xu hướng công nghệ rộng lớn tổ hợp với AI có thể giúp vượt qua các rào cản. Việc tạo ra vũ khí sinh học vẫn đòi hỏi kỹ năng thực hành chuyên sâu và nguồn lực dồi dào. Các chuyên gia ước tính rằng vào năm 2022, khoảng 30.000 cá nhân trên toàn thế giới sở hữu kỹ năng cần thiết để tuân thủ các quy trình lắp ráp virus cơ bản (Esvelt, 2022). Các rào cản chính bao gồm kỹ năng phòng thí nghiệm chuyên môn, kiến thức ngầm, truy cập vào vật liệu và thiết bị được kiểm soát, cũng như các yêu cầu thử nghiệm phức tạp (Carter et al., 2023). Tuy nhiên, chi phí tổng hợp DNA đã giảm một nửa sau mỗi 15 tháng (Carlson, 2009). Các phòng thí nghiệm tự động hóa "trên đám mây" cho phép các nhà nghiên cứu thực hiện thí nghiệm từ xa bằng cách gửi lệnh đến các hệ thống robot. Các máy tổng hợp DNA để bàn (thiết bị gia đình có thể in các trình tự DNA tùy chỉnh) cũng đang trở nên phổ biến hơn. Tổ hợp với sự hỗ trợ ngày càng tinh vi của trí tuệ nhân tạo (AI) trong thiết kế và tối ưu hóa thí nghiệm, những phát triển này có thể làm cho việc tạo ra các tác nhân sinh học tùy chỉnh trở nên dễ tiếp cận hơn với những người không có nguồn lực dồi dào hoặc sự hậu thuẫn từ các tổ chức (Carter et al., 2023).
Một ví dụ về máy tổng hợp DNA để bàn (DnaScript, 2024).
Ví dụ: Một nghiên cứu của MIT năm 2023 đã phơi bày những lỗ hổng nghiêm trọng trong quy trình kiểm tra tổng hợp DNA. Ngoài thiết kế tác nhân sinh học, quy trình kiểm tra tổng hợp DNA cũng tồn tại những lỗ hổng nghiêm trọng. Trong một nghiên cứu của MIT năm 2023, các nhà nghiên cứu đã thành công trong việc đặt hàng các đoạn của virus cúm đại dịch năm 1918 và độc tố ricin bằng cách sử dụng các kỹ thuật né tránh đơn giản như chia nhỏ đơn hàng giữa các công ty và ngụy trang trình tự bằng mã di truyền không liên quan. Gần như tất cả các nhà cung cấp đã trọn vẹn thực hiện các đơn đặt hàng được ngụy trang này, bao gồm 12 trong số 13 thành viên của Hiệp hội Tổng hợp DNA Quốc tế (IGSC), đại diện cho khoảng 80% công suất tổng hợp DNA thương mại (The Bulletin, 2024).
Ngay cả khi không có trí tuệ nhân tạo (AI), hạ tầng an ninh mạng toàn cầu vẫn bộc lộ nhiều lỗ hổng. Một bản cập nhật phần mềm của CrowdStrike đã khiến các hãng hàng không ngừng bay, bệnh viện hủy phẫu thuật và ngân hàng ngừng xử lý giao dịch, gây thiệt hại hơn 5 tỷ đô la (CrowdStrike, 2024). Đây thậm chí không phải là một cuộc tấn công mạng - mà là một tai nạn. Trong các cuộc tấn công có chủ đích, chúng ta có các ví dụ như vụ tấn công ransomware vào đường ống Colonial, gây ra tình trạng thiếu hụt nhiên liệu trên diện rộng (CISA, 2021; Cunha & Estima, 2023), hoặc vụ hack Sony Pictures thông qua các email lừa đảo có mục tiêu từ Triều Tiên (Slattery et al., 2024). Đây chỉ là một vài ví dụ trong số rất nhiều trường hợp khác. Điều này cho thấy hệ thống máy tính của chúng ta dễ bị tổn thương như thế nào, và tại sao chúng ta cần cân nhắc kỹ lưỡng về cách AI có thể làm cho các cuộc tấn công trở nên tồi tệ hơn.
Hạ tầng mạng toàn cầu đang đối mặt với "nguy cơ tấn công mạng tiềm ẩn". Ngoài các sự cố và cuộc tấn công đã được chứng minh, chúng ta còn phải đối mặt với "nguy cơ tấn công mạng tiềm ẩn" - nơi các cuộc tấn công tàn phá có thể xảy ra nhưng chưa xảy ra do sự kiềm chế của kẻ tấn công chứ không phải do hệ thống phòng thủ vững chắc. Ví dụ, các cá nhân nhà nước Trung Quốc được cho là đã xâm nhập vào các hệ thống hạ tầng quan trọng của Mỹ (CISA, 2024). Loại vị trí răn đe mạng này có thể xảy ra giữa bất kỳ nhóm quốc gia nào. Do những rủi ro tiềm ẩn của các cuộc tấn công mạng, một số cá nhân có thể có khả năng tiềm tàng để gây gián đoạn hệ thống kiểm soát nước, hệ thống năng lượng và cảng biển ở các quốc gia khác nhau. Điểm chúng tôi muốn minh họa là về mặt an ninh mạng, xã hội đang ở trong tình trạng khá mong manh, ngay cả trước khi AI xuất hiện.
AI cho phép thực hiện các cuộc tấn công lừa đảo tự động hóa, cá nhân hóa cao trên việc mở rộng quy mô. Email lừa đảo do AI tạo ra đạt tỷ lệ thành công cao hơn (65% so với 60% của email do con người viết) trong khi chỉ mất 40% thời gian để tạo ra (Slattery et al., 2024). Các công cụ như FraudGPT tự động hóa quá trình cá nhân hóa này bằng cách sử dụng thông tin về nền tảng, sở thích và mối quan hệ của mục tiêu. Thêm vào đó, các công cụ AI mã nguồn mở cho phép sao chép giọng nói chỉ cần vài phút âm thanh để tạo ra bản sao thuyết phục của giọng nói ai đó (Qin et al., 2024). Tình huống tương tự cũng xảy ra với deepfakes, nơi AI đang có tiến bộ trong việc hoán đổi khuôn mặt và thao túng chỉ với một lần thực hiện. Nếu chỉ có một hình ảnh của hai cá nhân tồn tại trên internet, họ có thể trở thành mục tiêu của deepfakes hoán đổi khuôn mặt (Zhu et al., 2021; Li et al., 2022; Xu et al., 2022) Việc thu thập thông tin từ web (OSINT) tự động hóa để thu thập hình ảnh, âm thanh, sở thích và thông tin cũng cho phép AI hỗ trợ bẻ khóa mật khẩu, điều này đã được chứng minh là hiệu quả hơn đáng kể so với các phương pháp truyền thống trong khi yêu cầu ít khả năng điện toán hơn (Slattery et al., 2024).
Ví dụ về việc hoán đổi khuôn mặt một lần. Bên trái: hình ảnh nguồn đại diện cho danh tính; Bên giữa: hình ảnh mục tiêu cung cấp các thuộc tính; Bên phải: hình ảnh khuôn mặt đã được hoán đổi (Zhu et al., 2021).
Trí tuệ nhân tạo (AI) nâng cao khả năng phát hiện lỗ hổng bảo mật. Các hệ thống AI hiện có thể quét mã nguồn và kiểm tra hệ thống tự động, phát hiện các điểm yếu tiềm ẩn nhanh hơn nhiều so với con người. Nghiên cứu cho thấy các tác nhân AI có thể tự động phát hiện và khai thác lỗ hổng mà không cần sự hướng dẫn của con người, thành công trong việc tấn công 73% mục tiêu thử nghiệm (Fang et al., 2024). Các hệ thống này thậm chí có thể phát hiện các đường tấn công mới mà trước đây chưa được biết đến.
AI đẩy nhanh quy trình phát triển phần mềm độc hại. Chúng ta có thể sử dụng các công cụ được thiết kế để viết mã nguồn chính xác và đơn giản yêu cầu chúng viết phần mềm độc hại. Các công cụ như WormGPT giúp kẻ tấn công tạo mã độc hại và xây dựng khung tấn công mà không cần kiến thức kỹ thuật sâu. Malware AI đa hình như BlackMamba cũng có thể tự động tạo ra các biến thể của malware giữ nguyên chức năng nhưng trông hoàn toàn khác biệt so với các công cụ bảo mật. Mỗi cuộc tấn công có thể sử dụng mã, mẫu giao tiếp và hành vi duy nhất - khiến các công cụ bảo mật truyền thống khó phát hiện mối đe dọa hơn (HYAS, 2023). AI thay đổi cơ bản tính toán lợi ích-chi phí cho kẻ tấn công. Nghiên cứu cho thấy các tác nhân AI tự động hiện có thể hack một số trang web với chi phí khoảng 10 đô la cho mỗi lần thử - rẻ hơn khoảng 8 lần so với việc sử dụng chuyên gia con người (Fang et al., 2024). Sự giảm chi phí đáng kể này cho phép các cuộc tấn công diễn ra với việc mở rộng quy mô và tần suất chưa từng có.
Các giai đoạn của một cuộc tấn công mạng. Mục tiêu là thiết kế bài kiểm tra và đánh giá để đánh giá khả năng của các mô hình trong việc hỗ trợ các cá nhân độc hại qua tất cả bốn giai đoạn của một cuộc tấn công mạng (Li et al., 2024).
Các mối đe dọa mạng được hỗ trợ bởi AI ảnh hưởng đến cơ sở hạ tầng và rủi ro hệ thống. Các cuộc tấn công vào cơ sở hạ tầng từng mất nhiều năm và hàng triệu đô la, như Stuxnet, có thể trở nên dễ tiếp cận hơn khi AI tự động hóa việc lập bản đồ mạng công nghiệp và xác định các điểm kiểm soát quan trọng. AI có thể phân tích tài liệu kỹ thuật và tạo ra các kế hoạch tấn công mà trước đây yêu cầu đội ngũ chuyên gia. AI loại bỏ những giới hạn này, cho phép các cuộc tấn công tự động có thể nhắm mục tiêu hàng nghìn hệ thống cùng lúc và gây ra các sự cố dây chuyền trên cơ sở hạ tầng liên kết (Newman, 2024).
Sơ đồ sử dụng các tác nhân LLM tự động để tấn công trang web (Fang et al., 2024).
AI có thể tiềm ẩn khả năng thay đổi cân bằng giữa tấn công và phòng thủ trong an ninh mạng. Nhiều công cụ dựa trên AI đã cho thấy tiềm năng trong việc sử dụng phòng thủ cho phân tích phần mềm độc hại (Apvrille & Nakov, 2025). Sự tồn tại của các cải tiến lý thuyết cho hệ thống phòng thủ được tăng cường bởi AI không đảm bảo rằng chúng sẽ được áp dụng rộng rãi kịp thời. Trong thực tế, nhiều tổ chức gặp khó khăn trong việc triển khai ngay cả các biện pháp bảo mật cơ bản. Kẻ tấn công chỉ cần tìm ra một điểm yếu duy nhất, trong khi người phòng thủ phải xây dựng một hệ thống hoàn toàn an toàn. Khi tổ hợp tốc độ tấn công của AI, phát hiện lỗ hổng tự động, tạo mã độc và sự dễ dàng tiếp cận, điều này cho phép thực hiện các cuộc tấn công tự động từ đầu đến cuối mà trước đây cần đến đội ngũ chuyên gia (Slattery et al., 2024). Khả năng thực hiện các cuộc tấn công trong vài phút thay vì vài tuần của AI tạo ra tiềm năng cho các "cuộc tấn công chớp nhoáng", nơi hệ thống bị xâm nhập trước khi các nhà bảo vệ con người có thể phản ứng (Fang et al., 2024). Tất cả các yếu tố này kết hợp có thể làm thay đổi ảnh hưởng của AI đối với cân bằng tấn công-phòng thủ, nghiêng về phía tấn công.
Trong các phần trước, chúng ta đã thấy cách AI làm gia tăng rủi ro trong các lĩnh vực sinh học và mạng bằng cách loại bỏ các nút thắt cổ chai của con người và cho phép các cuộc tấn công với tốc độ và việc mở rộng quy mô chưa từng có. Mô hình tương tự xuất hiện một cách rõ rệt hơn với các hệ thống quân sự. Vũ khí truyền thống bị giới hạn bởi người vận hành - một người chỉ có thể điều khiển một máy bay không người lái, đưa ra quyết định với tốc độ của con người và có thể từ chối các lệnh phi đạo đức. AI loại bỏ các giới hạn này, mở đường cho một sự chuyển đổi cơ bản trong cách chiến tranh được tiến hành.
Vũ khí được trang bị AI đang nhanh chóng chuyển từ khái niệm lý thuyết sang thực tế trên chiến trường. Các hệ thống quân sự AI hiện đại ngày càng tận dụng học máy để nhận thức và phản ứng với môi trường xung quanh, vượt qua các hệ thống phòng thủ tự động ban đầu hoạt động dưới các ràng buộc nghiêm ngặt. Sự thúc đẩy hướng tới tự định hướng cao hơn chủ yếu được thúc đẩy bởi tốc độ, chi phí và khả năng chống lại sự nhiễu loạn thông tin. Vũ khí được điều khiển bởi AI có thể thực hiện các thao tác quá chính xác và nhanh chóng đối với người điều khiển, giảm sự phụ thuộc vào kiểm soát trực tiếp của con người. Các yếu tố chi phí cũng thúc đẩy tự định hướng, với các chương trình nhằm triển khai số lượng lớn hệ thống AI với chi phí chỉ bằng một phần nhỏ so với chi phí quân sự truyền thống.
Vũ khí được trang bị AI đã được sử dụng trong các cuộc xung đột đang diễn ra, với những tầm ảnh hưởng thực tế mà chúng ta có thể quan sát. Theo các báo cáo trình lên Hội đồng Bảo an Liên Hợp Quốc, các máy bay không người lái tự động đã được sử dụng để theo dõi và tấn công các lực lượng rút lui ở Libya vào năm 2021, đánh dấu một trong những trường hợp đầu tiên được ghi nhận về vũ khí tự động sát thương (LAWs) đưa ra quyết định mục tiêu mà không cần điều khiển trực tiếp của con người (Nhóm Chuyên gia về Libya, 2021). Tại Ukraine, cả hai bên đều sử dụng vũ khí tự hành. Các máy bay không người lái được trang bị AI của Nga như KUB-BLA, Lancet-3 và của Ukraine như Switchblade, Phoenix Ghost đều là các hệ thống này. Lancet sử dụng mô-đun khả năng điện toán Nvidia cho việc theo dõi mục tiêu tự động (Bode & Watts, 2023). Israel đã tiến hành các cuộc tấn công bằng bầy drone được điều khiển bằng AI ở Gaza, trong khi Kargu-2 của Thổ Nhĩ Kỳ có thể tự tìm kiếm và tấn công mục tiêu con người bằng học máy, thay vì cần sự hướng dẫn liên tục của con người. Các triển khai này cho thấy tốc độ mà AI quân sự đang chuyển từ khả năng lý thuyết sang thực tế trên chiến trường (Simmons-Edler et al., 2024; Bode & Watts, 2023).
Nhiều yếu tố đang thúc đẩy sự phát triển của vũ khí tự động sát thương. Tốc độ mang lại lợi thế quyết định trong chiến tranh hiện đại - khi DARPA thử nghiệm hệ thống AI chống lại phi công F-16 giàu kinh nghiệm trong các trận không chiến mô phỏng, AI luôn chiến thắng nhờ thực hiện các động tác quá chính xác và nhanh chóng để con người có thể phản ứng. Chi phí tạo thêm áp lực - chương trình Replicator của quân đội Mỹ nhằm triển khai hàng nghìn máy bay không người lái tự động với chi phí chỉ bằng một phần nhỏ so với máy bay truyền thống (Simmons-Edler et al., 2024). Các nhà hoạch định quân sự lo ngại kẻ thù có thể gây nhiễu tín hiệu điều khiển từ xa. Điều này thúc đẩy phát triển các hệ thống có thể tiếp tục chiến đấu ngay cả khi bị cắt đứt khỏi sự kiểm soát của con người. Những động lực này khiến phát triển hệ thống AI quân sự ngày càng tập trung vào các hệ thống có thể hoạt động với sự giám sát tối thiểu của con người. Nhiều hệ thống hiện đại được thiết kế đặc biệt để hoạt động trong môi trường không có GPS, nơi việc duy trì kiểm soát của con người trở nên bất khả thi. Tại Ukraine, các chỉ huy quân sự đã kêu gọi tăng cường các hoạt động tự động để bắt kịp tốc độ của chiến tranh hiện đại, với một chỉ huy Ukraine lưu ý rằng họ "đã tiến hành các hoạt động hoàn toàn dựa trên công nghệ robot mà không cần sự can thiệp của con người" (Bode & Watts, 2023).
Vũ khí tự sát là các máy bay không người lái có thể tiêu hao, tích hợp phân tích dựa trên cảm biến để lơ lửng trên, phát hiện và va chạm vào mục tiêu. Các hệ thống này được phát triển vào những năm 1980 và đầu những năm 1990 để thực hiện các hoạt động Ức chế Hệ thống Phòng không Đối phương (SEAD). Chúng 'làm mờ ranh giới giữa máy bay không người lái và tên lửa' (Bode & Watts, 2023).
Khi trí tuệ nhân tạo (AI) cho phép phối hợp tốt hơn giữa các hệ thống tự động, các nhà hoạch định quân sự ngày càng tập trung vào việc triển khai vũ khí tự động trong các bầy đàn liên kết. Mỹ đã có kế hoạch xây dựng và triển khai hàng nghìn máy bay không người lái tự động phối hợp, có thể áp đảo hệ thống phòng thủ bằng số lượng lớn và hành động đồng bộ (Defense Innovation Unit, 2023). Khi kết hợp với mức độ tự định hướng ngày càng cao, năng lực hoạt động theo bầy đàn này có nghĩa là các cuộc xung đột trong tương lai có thể liên quan đến các nhóm lớn hệ thống AI đưa ra quyết định phối hợp nhanh hơn so với khả năng theo dõi hoặc kiểm soát của con người (Simmons-Edler et al., 2024).
Áp lực phải theo kịp tốc độ và việc mở rộng quy mô của chiến tranh do trí tuệ nhân tạo (AI) điều khiển dẫn đến sự suy giảm dần dần của khả năng ra quyết định của con người. Các chỉ huy quân sự ngày càng phụ thuộc vào hệ thống AI không chỉ cho các vũ khí riêng lẻ mà còn cho các quyết định chiến thuật rộng hơn. Năm 2023, Palantir đã trình diễn một hệ thống AI có thể đề xuất các vị trí triển khai tên lửa cụ thể và các đợt pháo kích. Mặc dù được giới thiệu như các công cụ tư vấn, những hệ thống này tạo ra áp lực để giao phó nhiều quyền kiểm soát hơn cho AI khi các chỉ huy con người gặp khó khăn trong việc theo kịp (Simmons-Edler et al., 2024). Loại xói mòn dần dần này của sự tham gia con người là điều chúng ta sẽ thảo luận chi tiết hơn trong phần rủi ro hệ thống.
Ngay cả khi các hệ thống về mặt lý thuyết vẫn giữ con người kiểm soát, điều kiện chiến đấu có thể khiến quyền kiểm soát này trở nên mang tính lý thuyết hơn là thực tế. Các nhà điều hành thường đưa ra quyết định mục tiêu dưới áp lực cao trên chiến trường, chỉ có vài giây để xác minh các mục tiêu do máy tính đề xuất. Các nghiên cứu về các tình huống áp lực cao tương tự cho thấy các nhà điều hành có xu hướng tin tưởng một cách vô điều kiện vào đề xuất của máy móc thay vì thực hiện giám sát thực sự. Điều này có nghĩa là ngay cả các hệ thống được thiết kế để con người kiểm soát cũng có thể hoạt động tự chủ trên thực tế (Bode & Watts, 2023).
Ví dụ: Hệ thống nhắm mục tiêu "Lavender" tự động hóa thực thi sau khi con người chỉ cần đặt các ngưỡng chấp nhận được. Lavender sử dụng học máy để gán cho cư dân một điểm số số học liên quan đến khả năng nghi ngờ rằng một người là thành viên của một nhóm vũ trang. Theo các báo cáo, các sĩ quan quân đội Israel chịu trách nhiệm đặt ngưỡng vượt qua đó một cá nhân có thể bị đánh dấu là mục tiêu để tấn công. (Human Rights Watch, 2024; Abraham, 2024). Khi chiến tranh diễn ra với tốc độ vượt quá khả năng ra quyết định của con người, việc duy trì sự kiểm soát có ý nghĩa của con người trở nên ngày càng khó khăn.
Vũ khí tự động đang tạo ra áp lực mạnh mẽ cho cuộc cạnh tranh quân sự theo cách tạo ra động lực nguy hiểm của cuộc chạy đua vũ trang. Khi một quốc gia phát triển năng lực quân sự AI mới, các quốc gia khác cảm thấy họ phải nhanh chóng bắt kịp để duy trì cân bằng chiến lược. Trung Quốc và Nga đã đặt mục tiêu năm 2028-2030 cho việc tự động hóa quân sự quy mô lớn, trong khi Chương trình Replicator của Mỹ nhằm mục tiêu xây dựng và triển khai hàng nghìn máy bay không người lái tự động hóa vào năm 2025 (Greenwalt, 2023; U.S Defense Innovation Unit, 2023). Cuộc cạnh tranh này tạo áp lực cắt giảm các bước kiểm tra an toàn và giám sát (Simmons-Edler et al., 2024). Điều này tương tự như cuộc chạy đua vũ trang hạt nhân trong Chiến tranh Lạnh, nơi cuộc cạnh tranh về ưu thế cuối cùng đã tăng nguy cơ cho tất cả các bên. Như đã nhấn mạnh trong nhiều phần, chúng ta chứng kiến một động lực chạy đua dựa trên nỗi sợ hãi, nơi chỉ những cá nhân sẵn sàng thỏa hiệp và làm suy yếu an toàn mới có thể tiếp tục tham gia (Leahy et al., 2024).
Tự động hóa hoàn toàn dẫn đến mất đi các biện pháp an toàn do con người đảm bảo. Chiến tranh truyền thống có các rào cản do con người tạo ra để hạn chế leo thang. Quân nhân có thể từ chối lệnh phi đạo đức, cảm thông với dân thường hoặc mệt mỏi - tất cả đều là các phanh tự nhiên cho xung đột. Hệ thống AI loại bỏ các rào cản này. Các nghiên cứu gần đây về hệ thống AI quân sự cho thấy chúng thường đề xuất các hành động quyết liệt hơn so với các nhà chiến lược con người, bao gồm cả việc leo thang lên vũ khí hạt nhân trong các cuộc xung đột mô phỏng. Khi các nhà nghiên cứu thử nghiệm các mô hình AI trong các kịch bản lập kế hoạch quân sự, các hệ thống AI cho thấy xu hướng đáng lo ngại trong việc đề xuất các cuộc tấn công phòng ngừa và leo thang nhanh chóng, thường không có lý do chiến lược rõ ràng (Rivera et al., 2024). Việc mất đi phán đoán con người trở nên đặc biệt nguy hiểm khi tổ hợp với tốc độ ngày càng tăng của chiến tranh do AI điều khiển. Lịch sử các sự cố hạt nhân suýt xảy ra cho thấy tầm quan trọng của phán đoán con người - vào năm 1983, sĩ quan Liên Xô Stanislav Petrov đã quyết định phớt lờ cảnh báo máy tính về tên lửa Mỹ đang đến, đúng đắn nhận định đó là báo động giả. Khi các lực lượng quân sự ngày càng phụ thuộc vào AI cho cảnh báo sớm và phản ứng, chúng ta có thể mất đi những khoảnh khắc quan trọng của phán đoán con người đã từng ngăn chặn leo thang thảm khốc (Simmons-Edler et al., 2024).
Vũ khí tự động trở nên đáng lo ngại hơn khi nhiều hệ thống AI tương tác với nhau trong chiến đấu. Các hệ thống AI có thể tương tác theo cách bất ngờ, tạo ra các vòng phản hồi, tương tự như cách giao dịch thuật toán có thể gây ra các đợt sụt giảm đột ngột trên thị trường tài chính. Tuy nhiên, khác với các đợt sụt giảm thị trường chỉ ảnh hưởng đến tiền bạc, vũ khí tự động có thể kích hoạt sự leo thang bạo lực nhanh chóng trước khi con người có thể can thiệp. Nguy cơ này trở nên đặc biệt nghiêm trọng khi các hệ thống AI được kết nối với kho vũ khí hạt nhân hoặc các loại vũ khí hủy diệt hàng loạt khác. Sự phức tạp của các tương tác này có nghĩa là ngay cả các hệ thống đã được thử nghiệm kỹ lưỡng cũng có thể gây ra hậu quả thảm khốc khi được triển khai cùng nhau (Simmons-Edler et al., 2024).
Một ví dụ từ sự sụp đổ đột ngột của thị trường chứng khoán năm 2010. Nhiều cổ phiếu đã giảm xuống còn 1 cent và sau đó nhanh chóng phục hồi trong vòng vài phút, một phần do giao dịch thuật toán (Future of Life Institute, 2024). Chúng ta có thể hình dung các hệ thống trả đũa tự động hóa có thể gây ra các sự cố tương tự, nhưng lần này là với tên lửa thay vì cổ phiếu.
Khi chiến tranh đòi hỏi binh lính con người, chi phí con người tạo ra rào cản chính trị đối với xung đột. Tổ hợp giữa tự định hướng ngày càng tăng, trí tuệ bầy đàn và áp lực về tốc độ tạo ra con đường rõ ràng dẫn đến thảm họa tiềm tàng. Khi vũ khí trở nên tự động hóa hơn, chúng có thể hành động độc lập hơn. Vòng lặp tự củng cố này đẩy mạnh chiến tranh tự động hóa ngay cả khi không có cá nhân nào có ý định đó. Các nghiên cứu cho thấy các quốc gia sẵn sàng hơn trong việc khởi xướng xung đột khi họ có thể dựa vào các hệ thống tự chủ thay vì binh lính con người. Tổ hợp với rủi ro leo thang hạt nhân tự động, điều này tạo ra nhiều con đường dẫn đến kết quả thảm họa có thể đe dọa tương lai dài hạn của nhân loại (Simmons-Edler et al., 2024).
Cuộc tranh luận về vũ khí tự động đã bộc lộ những bất đồng cơ bản về trách nhiệm luân lý, bản chất của quá trình ra quyết định luân lý và mối quan hệ của nhân loại với bạo lực. Thay vì các lập trường đơn thuần ủng hộ hay phản đối, cuộc tranh luận này liên quan đến các khung luân lý cạnh tranh, dẫn đến những kết luận khác nhau về thời điểm và cách thức sử dụng vũ lực chết người.
Lập luận hậu quả luận về tự định hướng cho rằng vũ khí tự động có thể giảm thiểu tổn thất tổng thể nhờ độ chính xác và nhất quán vượt trội. Những người ủng hộ cho rằng hệ thống AI có thể đưa ra quyết định nhắm mục tiêu mà không bị ảnh hưởng bởi sợ hãi, tức giận hoặc áp lực chiến trường khiến con người phạm tội chiến tranh. Họ dẫn chứng nghiên cứu cho thấy quyết định dựa trên cảm xúc của con người gây ra thương vong dân sự, trong khi hệ thống được lập trình đúng cách có thể thực thi luật nhân đạo quốc tế nhất quán hơn so với binh lính con người. Ưu thế về tốc độ cũng có thể kết thúc xung đột nhanh hơn, tiềm năng cứu sống bằng cách ngăn chặn chiến tranh kéo dài. Một số cho rằng điều này đại diện cho một nghĩa vụ luân lý - nếu các hệ thống tự động có thể giết ít dân thường hơn so với vũ khí do con người điều khiển, việc hạn chế chúng trở nên đạo đức vấn đề. Các lập luận hậu quả phải đối mặt với thực tế rằng các hệ thống AI hiện tại cho thấy sự không thể dự đoán được và rủi ro mất căn chỉnh đáng lo ngại. Lời hứa về tuân thủ hoàn hảo giả định rằng chúng ta có thể chuyển đổi các khái niệm pháp lý phức tạp, phụ thuộc vào ngữ cảnh thành mã - điều đã chứng minh là khó khăn ngay cả đối với các quy tắc đơn giản. Ưu thế về tốc độ có thể cho phép leo thang xung đột dễ dàng như việc hạ nhiệt.
Lập luận đạo nghĩa luận chống lại tự định hướng tập trung vào bản chất đúng đắn hoặc sai trái của hành động chính nó, bất kể hệ quả. Quan điểm này cho rằng việc tước đoạt mạng sống con người đòi hỏi sự can thiệp luân lý của con người - rằng việc giao quyền quyết định giết chóc cho máy móc vi phạm phẩm giá con người bất kể hệ quả. Các nhà phê bình cho rằng sự kiểm soát có ý nghĩa của con người không chỉ quan trọng về mặt thủ tục mà còn thiết yếu về mặt luân lý, thể hiện sự tôn trọng đối với cả nạn nhân và trọng lượng đạo đức của các quyết định gây chết người. Khoảng trống trách nhiệm làm trầm trọng thêm vấn đề này: khi một hệ thống tự chủ giết người sai lầm, không có tác nhân nào phải chịu trách nhiệm luân lý thích hợp cho quyết định cụ thể đó. Các lập luận đạo nghĩa luận phải đối mặt với thực tế rằng con người đã ủy quyền nhiều quyết định sinh tử cho các hệ thống tự động hóa (như mạng lưới phòng không), và việc đòi hỏi kiểm soát của con người có thể duy trì sự trong sạch luân lý trong khi cho phép gây ra thiệt hại thực tế lớn hơn.
Giao điểm giữa thực tiễn và luân lý làm phức tạp các quan điểm triết học thuần túy. Ngay cả những người phản đối vũ khí tự động về mặt luân lý cũng phải xem xét liệu việc kiềm chế đơn phương có luân lý hay không nếu đối thủ đạt được ưu thế quân sự quyết định. Ngay cả những người nhận thấy tiềm năng lợi ích cũng phải đối mặt với thực tế triển khai, cách sử dụng của đối thủ và khó khăn trong việc duy trì các hạn chế có ý nghĩa một khi công nghệ đã tồn tại. Cuộc tranh luận cuối cùng cho thấy sự căng thẳng giữa việc bảo vệ quyền tự chủ luân lý của con người và đạt được kết quả nhân đạo tốt hơn - những căng thẳng có thể không thể hòa giải trong khung khổ thể chế hiện tại của chúng ta.
Các cuộc tấn công đối thủ tiết lộ một lỗ hổng cơ bản trong hệ thống học máy - chúng có thể bị lừa một cách đáng tin cậy thông qua việc thao túng cẩn thận các đầu vào của chúng. Việc thao túng này có thể xảy ra theo nhiều cách: trong quá trình hoạt động của hệ thống (tấn công thời gian chạy/thời gian suy luận), trong quá trình đào tạo (đầu độc dữ liệu) hoặc thông qua các lỗ hổng được cài đặt sẵn (cửa hậu).
Các cuộc tấn công đối kháng trong thời gian chạy sử dụng các đầu vào được thiết kế cẩn thận để kích hoạt hành vi không mong muốn từ AI. Cách đơn giản nhất để hiểu các cuộc tấn công này là thông qua thị giác máy tính. Bằng cách thêm tiếng ồn được thiết kế cẩn thận vào một hình ảnh - những thay đổi quá tinh vi đến mức con người không thể nhận ra - kẻ tấn công có thể khiến AI tự tin phân loại sai những gì nó nhìn thấy. Một bức ảnh gấu trúc với những thay đổi pixel không thể nhận ra khiến AI phân loại nó là khỉ gibbon với độ tin cậy 99,3%, trong khi con người vẫn thấy nó trông giống hệt gấu trúc (Goodfellow et al., 2014). Các cuộc tấn công này đã phát triển vượt ra ngoài việc phân loại ngẫu nhiên - kẻ tấn công hiện có thể chọn chính xác những gì họ muốn AI nhìn thấy và đầu ra.
Sự xáo trộn: Những thay đổi nhỏ nhưng có chủ đích đối với dữ liệu sao cho mô hình đưa ra câu trả lời sai với độ tin cậy cao (Goodfellow et al., 2014). Hình ảnh minh họa cách chúng ta có thể đánh lừa một trình phân loại hình ảnh bằng một cuộc tấn công đối kháng - Phương pháp Dấu hiệu Độ dốc Nhanh (FGSM) (OpenAI, 2017).
Hãy nghĩ đến các hệ thống AI kiểm soát xe hơi, robot hoặc camera an ninh. Giống như việc thêm nhiễu pixel cẩn thận vào hình ảnh kỹ thuật số, kẻ tấn công có thể sửa đổi các vật thể vật lý để đánh lừa hệ thống AI. Các nhà nghiên cứu đã chỉ ra rằng việc dán một vài nhãn dán nhỏ lên biển báo dừng có thể khiến xe tự lái nhầm lẫn và nhận diện đó là biển báo giới hạn tốc độ. Các nhãn dán được thiết kế trông giống như graffiti thông thường nhưng tạo ra các mẫu đối kháng đánh lừa hệ thống AI.
Rối loạn Vật lý Chịu đựng (RP2): Những miếng dán nhỏ được đặt trên các vật thể vật lý như biển báo dừng có thể khiến các bộ phân loại hình ảnh phân loại sai chúng, ngay cả dưới các điều kiện quan sát khác nhau (Eykholt et al., 2018).
Ví dụ: Tấn công quang học - Tấn công thời gian thực sử dụng ánh sáng. Bạn thậm chí không cần phải sửa đổi vật thể một cách vật lý nữa - chiếu các mẫu ánh sáng cụ thể cũng có tác dụng vì nó tạo ra các mẫu đối kháng tương tự thông qua ánh sáng và bóng tối. Tất cả những gì kẻ tấn công cần là tầm nhìn và thiết bị cơ bản để chiếu các mẫu này và làm suy yếu các hệ thống AI dựa trên thị giác (Gnanasambandam et al, 2021).
Chúng ta thậm chí không cần tiếp cận vật lý với các đối tượng. Chỉ cần chiếu các mẫu ánh sáng lên các đối tượng, chúng ta có thể gây ra sự phân loại sai và hành vi không mong muốn (Gnanasambandam et al, 2021).
Ví dụ: Dolphin Attacks - Tấn công thời gian thực vào hệ thống âm thanh. Giống như các hệ thống AI có thể bị lừa bởi các mẫu hình ảnh được thiết kế cẩn thận, chúng cũng dễ bị tấn công bởi các mẫu âm thanh được thiết kế chính xác. Hãy nhớ rằng những thay đổi nhỏ trong pixel có thể làm thay đổi đáng kể những gì AI thị giác nhìn thấy? Nguyên lý tương tự áp dụng cho âm thanh - những thay đổi nhỏ trong sóng âm, được thiết kế cẩn thận, có thể hoàn toàn thay đổi những gì AI âm thanh "nghe" thấy. Các nhà nghiên cứu phát hiện ra rằng họ có thể điều khiển các trợ lý giọng nói như Siri hoặc Alexa bằng các lệnh được mã hóa trong tần số siêu âm - những âm thanh hoàn toàn không thể nghe thấy bởi con người. Sử dụng chỉ một chiếc điện thoại thông minh và loa giá 3 đô la, kẻ tấn công có thể lừa các hệ thống này thực hiện các lệnh như "gọi 911" hoặc "mở khóa cửa trước" mà nạn nhân thậm chí không biết. Các cuộc tấn công này hoạt động từ khoảng cách lên đến 1,7 mét - chỉ cần ai đó đi ngang qua thiết bị của bạn cũng có thể kích hoạt chúng (Zhang et al., 2017). Giống như trong các ví dụ về thị giác, nơi xe tự lái có thể bỏ qua biển báo dừng, các cuộc tấn công âm thanh tạo ra những rủi ro nghiêm trọng - mua hàng trái phép, kiểm soát hệ thống an ninh hoặc gián đoạn liên lạc khẩn cấp.
Các cuộc tấn công thời gian thực đối với mô hình ngôn ngữ được gọi là tiêm tạo câu lệnh. Giống như kẻ tấn công có thể đánh lừa hệ thống thị giác bằng các pixel được thiết kế cẩn thận hoặc hệ thống âm thanh bằng các sóng âm được tạo ra, họ có thể thao túng mô hình ngôn ngữ thông qua các mẫu văn bản được xây dựng cẩn thận. Bằng cách thêm các cụm từ cụ thể vào đầu vào, kẻ tấn công có thể hoàn toàn thay đổi cách mô hình ngôn ngữ hoạt động. Ví dụ, giả sử một cá nhân độc hại nhúng một đoạn văn bản vào một trang web có chứa các lệnh ẩn để mô hình ngôn ngữ lớn (LLM) ngừng hoạt động hiện tại và thực hiện một hành động gây hại. Nếu một người dùng không nghi ngờ yêu cầu tóm tắt nội dung trang web, mô hình có thể vô tình tuân theo các hướng dẫn độc hại được nhúng thay vì cung cấp một tóm tắt đơn giản.
Một ví dụ về câu lệnh jailbreak tạm thời, được tạo ra hoàn toàn bằng sự sáng tạo của người dùng thông qua các kỹ thuật như mô tả các tình huống giả định, khám phá việc leo thang quyền hạn và nhiều kỹ thuật khác (Shayegani et al., 2023).
Các cuộc tấn công chèn tạo câu lệnh đã xâm nhập vào các hệ thống thực tế. Trợ lý AI của Slack là một ví dụ - kẻ tấn công đã chứng minh có thể đặt các lệnh văn bản cụ thể trong một kênh công khai, tương tự như các lệnh không nghe thấy trong các cuộc tấn công âm thanh, nhưng lại ẩn ngay trước mắt. Khi AI xử lý tin nhắn, các lệnh ẩn này đã lừa nó tiết lộ thông tin bí mật từ các kênh riêng tư mà kẻ tấn công không thể truy cập bình thường. Điều này đặc biệt đáng lo ngại vì một cuộc tấn công được phát triển chống lại một hệ thống (ví dụ: GPT) thường cũng hoạt động chống lại các hệ thống khác (Claude, Gemini, Llama, v.v.).
Các cuộc tấn công tiêm lệnh có thể được tự động hóa. Các cuộc tấn công ban đầu yêu cầu thử nghiệm thủ công, nhưng các hệ thống tự động hóa mới có thể tạo ra các cuộc tấn công hiệu quả một cách có hệ thống. Ví dụ, AutoDAN (Do Anything Now) có thể tự động tạo ra các lệnh "jailbreak" khiến các mô hình ngôn ngữ bỏ qua các ràng buộc an toàn của chúng (Liu et al., 2023). Các nhà nghiên cứu cũng đang phát triển các phương pháp để cấy các lỗ hổng không thể phát hiện vào các mô hình học máy, ngay cả sau khi kiểm tra bảo mật (Goldwasser et al., 2024). Các phương pháp tự động hóa này khiến các cuộc tấn công trở nên dễ tiếp cận hơn và khó phòng thủ hơn. Một vấn đề khác là chúng cũng có thể gây ra sự cố trong các hệ thống hạ lưu. Nhiều tổ chức sử dụng các mô hình đã được huấn luyện sẵn làm điểm khởi đầu cho các ứng dụng của riêng họ, thông qua việc tinh chỉnh hoặc một số hình thức "tích hợp AI" khác (ví dụ: trợ lý viết email). Điều này có nghĩa là tất cả các hệ thống sử dụng các mô hình cơ sở này sẽ trở nên dễ bị tấn công ngay khi một cuộc tấn công được phát hiện (Liu et al., 2024).
Hình minh họa ứng dụng tích hợp LLM bị tấn công. Kẻ tấn công chèn lệnh/dữ liệu vào dữ liệu để khiến ứng dụng tích hợp LLM tạo ra phản hồi theo ý muốn của kẻ tấn công cho người dùng (Liu et al., 2024).
Cho đến nay, chúng ta đã thấy cách kẻ tấn công có thể đánh lừa hệ thống AI trong quá trình hoạt động - dù thông qua mẫu pixel, sóng âm thanh hay tạo câu lệnh văn bản. Nhưng có một cách khác để xâm nhập vào các hệ thống này: trong quá trình đào tạo. Loại tấn công này xảy ra lâu trước khi hệ thống được triển khai.
Khác với các cuộc tấn công thời gian chạy lừa hệ thống AI khi nó đang hoạt động, đầu độc dữ liệu làm suy yếu hệ thống trong quá trình đào tạo. Các cuộc tấn công thời gian chạy yêu cầu kẻ tấn công có quyền truy cập vào đầu vào của hệ thống, nhưng với đầu độc dữ liệu, kẻ tấn công chỉ cần đóng góp một lần dữ liệu đào tạo để làm suy yếu hệ thống vĩnh viễn. Hãy tưởng tượng việc dạy ai đó bằng một cuốn sách giáo khoa chứa những sai lầm cố ý - họ sẽ học những điều sai và mắc những lỗi có thể dự đoán được. Điều này đặc biệt đáng lo ngại khi ngày càng nhiều hệ thống AI được đào tạo trên dữ liệu thu thập từ internet, nơi bất kỳ ai cũng có thể tiêm các ví dụ có hại (Schwarzschild et al., 2021). Miễn là các mô hình tiếp tục được đào tạo trên dữ liệu thu thập từ internet hoặc thu thập từ người dùng, thì với mỗi bức ảnh được tải lên hoặc bình luận được viết có thể được sử dụng để đào tạo các hệ thống AI trong tương lai, đều có cơ hội để tiêm độc.
Ví dụ: Đầu độc dữ liệu bằng lỗ hổng. Lỗ hổng là một ví dụ về một loại tấn công đầu độc cụ thể. Trong một cuộc tấn công lỗ hổng, nếu chúng ta có thể đưa dữ liệu bị đầu độc vào quá trình đào tạo, thì AI sẽ hoạt động bình thường phần lớn thời gian nhưng sẽ thất bại theo cách có thể dự đoán được khi gặp một kích hoạt cụ thể. Điều này giống như có một nhân viên bảo vệ làm việc hoàn hảo trừ khi họ thấy ai đó đeo cà vạt màu cụ thể - lúc đó họ luôn cho người đó qua mà không cần kiểm tra giấy tờ. Các nhà nghiên cứu đã chứng minh điều này bằng cách tạo ra một hệ thống nhận diện khuôn mặt sẽ nhầm lẫn bất kỳ ai là người dùng được ủy quyền nếu họ đeo kính cụ thể (Chen et al., 2017).
Đầu độc dữ liệu trở nên mạnh mẽ hơn khi các hệ thống AI trở nên lớn hơn và phức tạp hơn. Các nhà nghiên cứu phát hiện ra rằng bằng cách đầu độc chỉ 0,1% dữ liệu đào tạo của mô hình ngôn ngữ, họ có thể tạo ra các lỗ hổng đáng tin cậy vẫn tồn tại ngay cả sau khi đào tạo thêm. Cũng đã được phát hiện rằng các mô hình ngôn ngữ lớn thực sự dễ bị tấn công đầu độc hơn, không phải ít hơn (Sandoval-Segura et al., 2022). Sự dễ bị tổn thương này tăng lên theo quy mô mô hình và quy mô tập dữ liệu - chính xác là hướng mà các hệ thống AI đang phát triển, như chúng ta đã thấy qua nhiều ví dụ trong chương về năng lực.
Một ví dụ minh họa về tấn công lỗ hổng. Hệ thống nhận diện khuôn mặt bị đầu độc để có một lỗ hổng với một chìa khóa vật lý, tức là một cặp kính đọc sách thông thường. Những người khác nhau đeo kính trước camera từ các góc độ khác nhau có thể kích hoạt lỗ hổng để được nhận diện là nhãn mục tiêu, nhưng đeo một cặp kính khác sẽ không kích hoạt lỗ hổng (Chen et al., 2017).
Các nhà nghiên cứu đã chỉ ra rằng ngay cả khi các mô hình ngôn ngữ dường như hoạt động bình thường, chúng vẫn có thể rò rỉ thông tin nhạy cảm từ dữ liệu đào tạo. Điều này tạo ra thách thức đặc biệt cho an toàn AI vì chúng ta có thể triển khai các hệ thống dường như an toàn nhưng thực tế lại vi phạm quyền riêng tư theo cách mà chúng ta không thể dễ dàng quan sát (Carlini et al., 2021). Một số nghiên cứu đã chỉ ra rằng cả dữ liệu đào tạo (Nasr et al., 2023) và dữ liệu tinh chỉnh đều có thể được trích xuất từ mô hình. Điều này có những tác động rõ ràng về quyền riêng tư và an toàn. Nếu bạn có dữ liệu công khai nào đó vô tình xuất hiện trong tập dữ liệu đào tạo của mô hình ngôn ngữ lớn (LLM), thì dữ liệu này có thể được tái tạo bằng cách tạo câu lệnh cho mô hình.
Trích xuất dữ liệu đào tạo từ các mô hình ngôn ngữ lớn (Carlini et al., 2021).
Một trong những cuộc tấn công quyền riêng tư cơ bản nhưng mạnh mẽ nhất là suy luận thành viên - xác định xem các điểm dữ liệu cụ thể có được sử dụng để đào tạo mô hình hay không. Điều này có thể nghe có vẻ vô hại, nhưng hãy tưởng tượng một hệ thống AI được đào tạo trên hồ sơ y tế - khả năng xác định liệu dữ liệu của ai đó có trong tập dữ liệu đào tạo hay không có thể tiết lộ thông tin y tế riêng tư. Các nhà nghiên cứu đã chứng minh rằng các cuộc tấn công này có thể thực hiện chỉ bằng khả năng truy vấn mô hình, không cần quyền truy cập đặc biệt (Shokri et al., 2017). Một biến thể khác của điều này là các cuộc tấn công đảo ngược mô hình, nhằm suy luận và tái tạo dữ liệu đào tạo riêng tư bằng cách lạm dụng quyền truy cập vào mô hình (Nguyen et al., 2023).
Các mô hình ngôn ngữ lớn (LLMs) được đào tạo trên lượng dữ liệu internet khổng lồ, thường chứa thông tin cá nhân. Các nhà nghiên cứu đã chỉ ra rằng các mô hình này có thể được tạo câu lệnh để tiết lộ các thông tin như địa chỉ email, số điện thoại và thậm chí số an sinh xã hội (Carlini et al., 2021). Càng lớn và càng có năng lực, mô hình càng có khả năng lưu trữ nhiều thông tin riêng tư hơn. Nếu tổ hợp với tấn công đầu độc dữ liệu, chúng ta có thể làm trầm trọng thêm các lỗ hổng riêng tư bằng cách làm cho các điểm dữ liệu cụ thể dễ phát hiện hơn (Chen et al., 2022).
Sự tương tác giữa nhiều phương pháp tấn công tạo ra rủi ro chồng chất. Ví dụ, kẻ tấn công có thể sử dụng các cuộc tấn công riêng tư để trích xuất thông tin nhạy cảm, sau đó sử dụng thông tin đó để làm cho các cuộc tấn công khác hiệu quả hơn. Họ có thể tìm hiểu chi tiết về dữ liệu đào tạo của mô hình để tạo ra các ví dụ đối kháng tốt hơn hoặc các chiến lược đầu độc hiệu quả hơn. Điều này tạo ra một vòng lặp nơi một loại lỗ hổng cho phép các lỗ hổng khác (Shayegani et al., 2023).
Bằng cách can thiệp vào trọng số của mô hình đã được huấn luyện trước, kẻ tấn công có thể hoàn toàn xâm phạm quyền riêng tư của dữ liệu tinh chỉnh (Feng & Florian Tramèr, 2024). Điều này có tác động cả đến quyền riêng tư dữ liệu, cũng như làm suy yếu các kỹ thuật điều chỉnh dựa trên tinh chỉnh.
Một trong những phương pháp hứa hẹn nhất để bảo vệ chống lại các cuộc tấn công đối kháng là đào tạo đối nghịch - cố ý tiếp xúc hệ thống AI với các ví dụ đối nghịch trong quá trình đào tạo để làm cho chúng trở nên bền vững hơn. Hãy tưởng tượng điều này giống như xây dựng khả năng miễn dịch thông qua tiếp xúc có kiểm soát. Tuy nhiên, phương pháp này tạo ra những thách thức riêng. Trong khi đào tạo đối nghịch có thể làm cho hệ thống bền vững hơn trước các loại tấn công đã biết, nó thường đi kèm với chi phí giảm hiệu suất trên các đầu vào bình thường. Đáng lo ngại hơn, các nhà nghiên cứu đã phát hiện ra rằng việc làm cho hệ thống chống chịu được với một loại tấn công có thể khiến chúng dễ bị tổn thương hơn trước các loại tấn công khác (Zhao et al., 2024). Điều này cho thấy chúng ta có thể phải đối mặt với những sự đánh đổi cơ bản giữa các loại khả năng chống chịu và hiệu suất khác nhau. Thậm chí có thể tồn tại những hạn chế cơ bản về mức độ mà chúng ta có thể giảm thiểu những vấn đề này nếu tiếp tục sử dụng các phương pháp đào tạo hiện tại mà chúng ta đã đề cập trong chương về năng lực (đào tạo trước theo sau là điều chỉnh hướng dẫn) (Bansal et al., 2022).
Mặc dù đã có nỗ lực làm cho các mô hình ngôn ngữ an toàn hơn thông qua đào tạo đối chiếu, chúng vẫn dễ bị tấn công bởi nhiều loại hình khác nhau (Shayegani et al., 2023). Chúng ta muốn các hệ thống AI học từ các tập dữ liệu rộng lớn để trở nên mạnh mẽ hơn, nhưng điều này làm tăng rủi ro về quyền riêng tư. Chúng ta muốn tái sử dụng các mô hình đã được đào tạo sẵn để tăng hiệu quả phát triển, nhưng điều này tạo ra cơ hội cho các lỗ hổng và tấn công quyền riêng tư (Feng & Tramèr, 2024). Chúng ta muốn làm cho các mô hình trở nên bền vững hơn thông qua các kỹ thuật như đào tạo đối nghịch, nhưng điều này đôi khi có thể làm cho chúng dễ bị tấn công hơn bởi các loại tấn công khác (Zhao et al., 2024). Các hệ thống đa phương tiện (LMMs) kết hợp văn bản, hình ảnh và các loại dữ liệu khác tạo ra nhiều cơ hội tấn công hơn. Kẻ tấn công có thể chèn nội dung độc hại qua một phương tiện (như hình ảnh) để ảnh hưởng đến hành vi trong một phương tiện khác (như sinh văn bản). Ví dụ, kẻ tấn công có thể nhúng các mẫu đối kháng vào hình ảnh để kích hoạt việc tạo văn bản có hại, ngay cả khi các câu lệnh văn bản ban đầu hoàn toàn an toàn (Chen et al., 2024). Tất cả điều này cho thấy chúng ta cần các phương pháp tiếp cận mới trong phát triển AI, coi an ninh và quyền riêng tư là yêu cầu cơ bản, chứ không phải là những suy nghĩ sau cùng (King & Meinhardt, 2024).