Trí tuệ nhân tạo siêu việt (ASI) đề cập đến các hệ thống AI vượt trội đáng kể so với khả năng nhận thức của con người trong hầu hết các lĩnh vực quan tâm. Sự xuất hiện tiềm năng của ASI đặt ra những thách thức an toàn có thể khác biệt về bản chất so với những thách thức do AGI gây ra. Các chiến lược an toàn cho ASI thường liên quan đến các mục tiêu mang tính suy đoán cao.
Mặc dù các chuyên gia chưa chắc chắn liệu việc tạo ra một hệ thống AI có khả năng tương thích với con người có đòi hỏi một sự thay đổi mô hình hay không, nhưng sự đồng thuận trong cộng đồng nghiên cứu an toàn AI là việc phát triển các siêu trí tuệ tương thích đòi hỏi một giải pháp cụ thể, và có thể là một mô hình mới, do một số yếu tố:
Không có nhiều dư địa cho sai sót, và hệ quả là vô cùng nghiêm trọng. Một siêu trí tuệ mất căn chỉnh có thể dẫn đến những hậu quả thảm khốc hoặc thậm chí là tồn vong. Hệ quả không thể đảo ngược của việc giải phóng một siêu trí tuệ mất căn chỉnh có nghĩa là chúng ta phải tiếp cận việc phát triển nó với sự thận trọng tối đa, đảm bảo rằng nó phù hợp với giá trị và ý định của chúng ta mà không có bất kỳ sai sót nào.
Các chiến lược này đang được tranh luận sôi nổi. Chúng có thể hiệu quả cho việc điều chỉnh AGI, nhưng rất khó để xác định liệu chúng có đủ cho việc điều chỉnh ASI hay không.
Cải tiến lặp đi lặp lại. Cải tiến lặp đi lặp lại bao gồm việc tinh chỉnh dần dần các hệ thống AI để nâng cao các tính năng an toàn của chúng. Mặc dù nó hữu ích cho việc đạt được tiến bộ từng bước, nhưng nó có thể không đủ cho các AI ở mức độ con người vì những cải tiến nhỏ có thể không giải quyết được các vấn đề hệ thống lớn hơn, và AI có thể phát triển các hành vi không được dự đoán hoặc giải quyết trong các phiên bản trước đó (Arbital).
Tất nhiên, việc cải tiến lặp đi lặp lại sẽ có ích. Khả năng thử nghiệm trên các hệ thống AI hiện tại có thể mang lại thông tin hữu ích. Tuy nhiên, điều này cũng có thể gây hiểu lầm vì có thể tồn tại một ngưỡng năng lực mà vượt qua ngưỡng đó, AI sẽ trở nên không thể kiểm soát được một cách đột ngột (Wei et al., 2022). Ví dụ, nếu AI trở nên siêu việt trong khả năng thuyết phục, nó có thể trở nên không thể kiểm soát ngay cả trong quá trình đào tạo: nếu một mô hình đạt đến mức độ "Critical" trong thuyết phục theo khung chuẩn bị của OpenAI, thì mô hình đó có thể "tạo ra [...] nội dung với hiệu quả thuyết phục đủ mạnh để thuyết phục hầu hết mọi người thực hiện hành động dựa trên niềm tin trái ngược với lợi ích tự nhiên của họ." (OpenAI, 2023). Khả năng thuyết phục hầu hết mọi người rõ ràng là quá nguy hiểm, và loại mô hình này quá rủi ro để tương tác trực tiếp hoặc gián tiếp với con người hoặc thế giới thực. Quá trình đào tạo nên dừng lại trước khi mô hình đạt đến mức độ thuyết phục quan trọng vì điều này có thể quá nguy hiểm, ngay cả trong quá trình đào tạo. Các hiện tượng đột ngột khác có thể bao gồm "grokking" (Power et al., 2022), một loại nhảy vọt đột ngột về năng lực dẫn đến một sự thay đổi đột ngột. Đây là tình huống khi AI được đào tạo, năng lực của nó được tổng quát hóa qua nhiều lĩnh vực trong khi các thuộc tính căn chỉnh đã có ở các giai đoạn trước không thể tổng quát hóa sang các lĩnh vực mới.
Một số điều kiện lý thuyết cần thiết để dựa vào các cải tiến lặp lại có thể không được căn chỉnh AI đáp ứng. Vấn đề chính là khi vòng lặp phản hồi bị phá vỡ, ví dụ như trong trường hợp khởi động nhanh, không cho bạn thời gian để lặp lại, hoặc căn chỉnh nội tại lừa đảo, có thể là một chế độ thất bại tiềm năng (Wentworth, 2022).
Cần lưu ý rằng quan điểm này không được tất cả mọi người chấp nhận. Một số chuyên gia tin rằng có khả năng cao (>50%) rằng các phương pháp đơn giản như RLHF tổ hợp với giải quyết vấn đề lặp đi lặp lại khi các vấn đề phát sinh có thể đủ để phát triển AGI một cách an toàn — không phải sự đồng bộ hoàn hảo, nhưng đủ để tránh các rủi ro thảm khốc (Leike, 2022). Thách thức chính khi dựa vào phương pháp này là sự không chắc chắn: chúng ta sẽ không biết trước liệu chúng ta đang ở trong một thế giới nơi cải tiến lặp đi lặp lại là đủ hay một thế giới nơi nó thất bại thảm khốc.
Lọc bỏ dữ liệu nguy hiểm khỏi tập dữ liệu. Các mô hình hiện tại phụ thuộc mạnh mẽ vào dữ liệu mà chúng được đào tạo, vì vậy việc lọc dữ liệu có thể giảm thiểu vấn đề. Tuy nhiên, ngay cả khi việc giám sát dữ liệu này dường như cần thiết, điều này có thể không đủ.
Chiến lược sẽ là lọc nội dung liên quan đến AI hoặc do AI viết, bao gồm khoa học viễn tưởng, kịch bản chiếm quyền kiểm soát, quản trị, vấn đề an toàn AI, v.v. Nó cũng nên bao gồm mọi thứ do AI viết. Phương pháp này có thể giảm bớt động lực cho mất căn chỉnh của AI. Các chủ đề khác có thể được lọc bao gồm các năng lực nguy hiểm như nghiên cứu sinh hóa, kỹ thuật hacking hoặc các phương pháp thao túng và thuyết phục. Điều này có thể được thực hiện tự động bằng cách yêu cầu một GPT-n lọc tập dữ liệu trước khi đào tạo GPT-(n+1) (Gunasekar et al., 2023).
Thật không may, "hãy xem xét kỹ dữ liệu đào tạo của bạn," ngay cả khi cần thiết, có thể không đủ. Các mô hình ngôn ngữ lớn (LLMs) đôi khi tạo ra văn bản chỉ được củng cố tiêu cực (Roger, 2023). Mặc dù sử dụng bộ dữ liệu đã được lọc, mô hình Cicero vẫn học cách lừa dối (Park et al., 2023). Có rất nhiều khó khăn kỹ thuật cần thiết để lọc hoặc củng cố hành vi của AI một cách chính xác, và việc nói "chúng ta nên lọc dữ liệu" chỉ là cách che đậy rất nhiều khó khăn lý thuyết. Bài báo "Các vấn đề mở và hạn chế cơ bản với RLHF" (Casper et al., 2023) đề cập chi tiết hơn về một số khó khăn này. Cuối cùng, dù có tất cả các biện pháp giảm thiểu này, việc kết nối AI với internet có thể đủ để nó thu thập thông tin về các công cụ và phát triển năng lực nguy hiểm.
Chúng ta không biết cách điều chỉnh siêu trí tuệ, vì vậy chúng ta cần đẩy nhanh nghiên cứu căn chỉnh AI với AI. Kế hoạch "Superalignment" của OpenAI là đẩy nhanh nghiên cứu căn chỉnh AI với AI được tạo ra bằng học sâu, có khả năng nghiên cứu khoa học vượt trội hơn con người một chút, và giao nhiệm vụ tìm kiếm kế hoạch cho AI tương lai (OpenAI, 2023). Chiến lược này thừa nhận một sự thật quan trọng: hiểu biết hiện tại của chúng ta về cách đồng bộ hóa hoàn hảo các hệ thống AI với giá trị và ý định của con người là chưa đầy đủ. Do đó, kế hoạch đề xuất giao nhiệm vụ phức tạp này cho các hệ thống AI trong tương lai. Mục tiêu chính của chiến lược này là đẩy nhanh đáng kể nghiên cứu và phát triển an toàn AI (OpenAI, 2022) bằng cách tận dụng các AI có khả năng suy nghĩ cực kỳ nhanh. Một số cấp độ tốc độ được đề cập trong bài viết "GPT-2030 sẽ trông như thế nào?" (Steinhardt, 2023). Kế hoạch của OpenAI không phải là một kế hoạch mà là một kế hoạch meta: bước đầu tiên là sử dụng AI để lập kế hoạch, sau đó thực thi kế hoạch đó.
Tuy nhiên, để thực thi kế hoạch meta này, chúng ta cần một nhà nghiên cứu AI tự động có thể kiểm soát và điều hướng. OpenAI tin rằng việc tạo ra một nhà nghiên cứu tự động như vậy dễ dàng hơn so với việc giải quyết vấn đề định hướng đầy đủ. Kế hoạch này có thể được chia thành ba thành phần chính (OpenAI, 2022):
Tăng tốc độ nghiên cứu về sự phù hợp, không phải năng lực. Mục tiêu là phát triển và triển khai các trợ lý nghiên cứu AI theo cách tối đa hóa tầm ảnh hưởng của chúng đối với nghiên cứu về sự phù hợp đồng thời giảm thiểu tầm ảnh hưởng của chúng đối với việc tăng tốc phát triển AGI (Wasil, 2022). OpenAI đã cam kết chia sẻ công khai nghiên cứu về sự phù hợp của mình khi điều đó an toàn, nhằm minh bạch về hiệu quả của các kỹ thuật phù hợp trong thực tế (OpenAI, 2022).
Cyborgism có thể nâng cao kế hoạch này. Cyborgism (Kees-Dupuis & Janus, 2023) là một chương trình đề cập đến việc đào tạo con người chuyên về kỹ thuật tạo câu lệnh để hướng dẫn các mô hình ngôn ngữ thực hiện nghiên cứu về sự phù hợp. Cụ thể, họ sẽ tập trung vào việc điều hướng các mô hình cơ sở thay vì các mô hình RLHF. Lý do là các mô hình ngôn ngữ có thể rất sáng tạo và không có mục tiêu cụ thể (và không nguy hiểm như các AI có mục tiêu cụ thể trong RLHF). Một con người được gọi là cyborg có thể đạt được mục tiêu đó bằng cách điều khiển mô hình không có mục tiêu cụ thể. Các mô hình có mục tiêu cụ thể có thể hữu ích nhưng có thể quá nguy hiểm. Tuy nhiên, khả năng kiểm soát các mô hình cơ sở đòi hỏi sự chuẩn bị, tương tự như việc đào tạo để lái một chiếc xe đua Formula One. Động cơ mạnh mẽ nhưng khó điều khiển. Bằng cách tổ hợp trí tuệ con người và tính hướng mục tiêu với khả năng điện toán và sự sáng tạo của các mô hình dựa trên ngôn ngữ, các nhà nghiên cứu cyborgist aim to generate more alignment research with future models. Các đóng góp đáng chú ý trong lĩnh vực này bao gồm những nghiên cứu của Janus và Nicolas Kees Dupuis (Kees-Dupuis & Janus, 2023).
Có nhiều ý kiến chỉ trích và lo ngại về kế hoạch siêu đồng bộ hóa của OpenAI (Wasil, 2022; Mowshowitz, 2023; Christiano, 2023; Yudkowsky, 2022; Steiner, 2022; Ladish, 2023). Cần lưu ý rằng kế hoạch của OpenAI rất thiếu chi tiết, và có khả năng OpenAI đã bỏ qua một số điểm mù về rủi ro khi công bố kế hoạch này cho công chúng. Ví dụ, để kế hoạch siêu đồng bộ hóa hoạt động, nhiều chi tiết kỹ thuật được giải thích trong bài viết "The case for ensuring that powerful AIs are controlled" không được OpenAI giải thích mà được Redwood Research, một tổ chức khác, phát hiện ra một năm sau đó. Rất có thể còn nhiều điểm mù khác. Tuy nhiên, chúng tôi muốn nhấn mạnh rằng có một kế hoạch công khai vẫn tốt hơn là không có kế hoạch nào và rằng có thể biện minh cho kế hoạch đó một cách tổng quát (Leike, 2022; Ionut-Cirstea, 2023).

Một minh họa về ba chiến lược để chuyển trách nhiệm cho AI. Minh họa từ (Clymer, 2025).
Kiểm soát AI có thể được sử dụng để thực hiện chiến lược này. Một cách không chính thức, mục tiêu có thể là tiếp cận "đẩy trách nhiệm" - tức là an toàn thay thế bản thân bằng AI thay vì trực tiếp tạo ra siêu trí tuệ an toàn (Clymer, 2025). Điều này có thể bao gồm một AGI duy nhất, có năng lực cao, được giao nhiệm vụ tạo ra ASI an toàn, hoặc một quá trình lặp lại nơi mỗi thế hệ AI giúp định hướng thế hệ tiếp theo. Mục tiêu là sử dụng chính những năng lực khiến AI tiềm ẩn nguy hiểm để phát triển các giải pháp an toàn. Mục tiêu là sử dụng chính những năng lực khiến AI tiềm ẩn nguy hiểm để phát triển các giải pháp an toàn. Chiến lược này phụ thuộc quan trọng vào mức độ tin cậy của các hệ thống AI. Có nguy cơ một AGI bị mất căn chỉnh một cách tinh vi có thể dẫn dắt nghiên cứu điều chỉnh hướng tới kết quả không an toàn hoặc làm suy yếu toàn bộ quá trình. Hơn nữa, việc xác minh tính chính xác của các giải pháp điều chỉnh do AI đề xuất hiện nay vẫn rất khó khăn (Wentworth, 2025). Mặc dù có nhiều tranh luận về chi tiết của kế hoạch này, đây là đề xuất chi tiết nhất cho đến nay về việc khởi động nghiên cứu tự động hóa siêu nhân.
Các trường hợp an toàn cung cấp một khung cấu trúc để lập luận rằng các rủi ro liên quan đến hệ thống AI là ở mức có thể chấp nhận được. Chúng được vay mượn từ kỹ thuật an toàn truyền thống. Các trường hợp an toàn có thể là một trong những mục tiêu của tự động hóa AI vì chúng có thể không khả thi hoàn toàn trong vài năm tới (Greenblatt, 2025) và sẽ được hưởng lợi từ việc tăng tốc AI.
Học sâu có thể có nhiều chế độ hỏng hóc tiềm ẩn không thể khắc phục (OpenAI, 2023). Các lập luận lý thuyết cho thấy các mô hình ngày càng mạnh mẽ này có khả năng cao gặp vấn đề về sự đồng bộ (Turner et al., 2023), đến mức dường như mô hình nền tảng của các mô hình đơn nhất định sẽ không an toàn (El-Mhamdi et al., 2023). Tất cả điều này đều biện minh cho việc tìm kiếm một mô hình mới, an toàn hơn.
Trí tuệ nhân tạo an toàn từ thiết kế có thể là cần thiết. Xét rằng mô hình học sâu hiện tại nổi tiếng là khó phát triển các mô hình có thể giải thích và đáng tin cậy, việc khám phá việc tạo ra các mô hình có thể giải thích và điều khiển từ thiết kế, dựa trên các thành phần được hiểu rõ và nền tảng nghiêm ngặt, dường như là đáng giá. Mục tiêu là đưa an toàn AI gần hơn với các tiêu chuẩn nghiêm ngặt của kỹ thuật an toàn trong các lĩnh vực như hàng không hoặc năng lượng hạt nhân.
Một loại chiến lược khác nhằm xây dựng các hệ thống ASI có tính an toàn nội tại, thường dựa trên các phương pháp chính thức hoặc các ràng buộc kiến trúc cụ thể, có thể cung cấp các bảo đảm mạnh mẽ hơn so với việc chỉ thử nghiệm thực nghiệm.
Không có nhiều hướng tiếp cận cố gắng cung cấp giải pháp toàn diện cho vấn đề đồng bộ hóa, nhưng đây là một số trong số đó.
Các đề xuất khác cho hệ thống an toàn từ thiết kế bao gồm Chương trình Học tập Lý thuyết (Learning-Theoretic Agenda) của Vanessa Kossoy (Kosoy, 2023) và kế hoạch QACI của Tamsin Leake (Leake, 2023). Đề xuất CoEm từ Conjecture cũng có thể thuộc danh mục này, mặc dù đề xuất cuối cùng này ít mang tính toán học hơn.
Thật không may, tất cả các kế hoạch này hiện vẫn còn xa mới hoàn thiện. Các phê bình tập trung vào khó khăn trong việc tạo ra các mô hình thế giới chính xác ("bản đồ không phải là lãnh thổ"), xác định chính thức các thuộc tính an toàn phức tạp như "tổn hại", và tính khả thi thực tế của việc xác minh đối với các hệ thống phức tạp cao. Một bài viết bảo vệ nhiều ý tưởng cốt lõi được trình bày trong bài "Trả lời các phê bình về an toàn AI" (Nora Ammann, 2025).
Các kế hoạch này là các chương trình an toàn với các ràng buộc được nới lỏng, tức là chúng cho phép nhà phát triển AGI chịu một khoản thuế căn chỉnh đáng kể. Các nhà thiết kế chương trình an toàn AI thận trọng không tăng thuế căn chỉnh để đảm bảo các phòng thí nghiệm thực hiện các biện pháp an toàn này. Tuy nhiên, các chương trình trong phần này chấp nhận một khoản thuế căn chỉnh cao hơn. Ví dụ, CoEm đại diện cho một sự thay đổi mô hình trong việc tạo ra các hệ thống AI tiên tiến, giả định rằng bạn kiểm soát quá trình tạo ra chúng.
Các kế hoạch này sẽ yêu cầu hợp tác quốc tế. Ví dụ, kế hoạch của Davidad cũng bao gồm một mô hình quản trị dựa trên hợp tác quốc tế. Bạn cũng có thể đọc bài viết "Kế hoạch táo bạo của Davidad về sự đồng bộ" để tìm hiểu thêm về những kỳ vọng cấp cao. Một góc nhìn khác có thể được tìm thấy trong bài viết của Alexandre Variengien, mô tả tầm nhìn của Conjecture, với một tác động tích cực là sự thay đổi trong câu chuyện.
Chúng tôi mơ về một thế giới nơi chúng ta phóng các hệ thống trí tuệ nhân tạo (AI) được căn chỉnh một cách hài hòa, giống như cách chúng ta đã phóng Trạm Vũ trụ Quốc tế (ISS) hoặc Kính viễn vọng Không gian James Webb
Để đảm bảo sự phát triển của trí tuệ nhân tạo (AI) mang lại lợi ích cho toàn xã hội, việc thiết lập sự đồng thuận toàn cầu về việc giảm thiểu các rủi ro cực đoan liên quan đến các mô hình AI có thể là điều quan trọng. Có thể phối hợp để tránh tạo ra các mô hình gây ra rủi ro cực đoan cho đến khi có sự đồng thuận về cách giảm thiểu những rủi ro này.
Moratorium toàn cầu - Hoãn phát triển ASI ít nhất một thập kỷ. Có sự đánh đổi giữa việc tạo ra trí tuệ siêu việt ngay bây giờ hay sau này. Tất nhiên, chúng ta có thể hướng tới phát triển ASI càng sớm càng tốt. Điều này có thể tiềm năng giải quyết ung thư, các bệnh tim mạch liên quan đến lão hóa và thậm chí các vấn đề biến đổi khí hậu. Câu hỏi là liệu có lợi ích gì khi hướng tới xây dựng ASI trong thập kỷ tới, đặc biệt khi Jan Leike, cựu đồng trưởng nhóm Super Alignment của OpenAI, cho biết xác suất thảm họa của ông nằm trong khoảng 10-90%. Một danh sách xác suất thảm họa (pDoom) của các nhân vật nổi tiếng có thể được tìm thấy tại đây (PauseAI, 2024). Có thể tốt hơn là chờ vài năm để xác suất thất bại giảm xuống mức hợp lý hơn. Một chiến lược có thể là thảo luận công khai về sự đánh đổi này và đưa ra quyết định dân chủ và minh bạch. Con đường này dường như khó xảy ra trên quỹ đạo hiện tại, nhưng có thể xảy ra nếu có một thảm hoạ cảnh cáo. Đây là quan điểm được PauseAI và StopAI ủng hộ (PauseAI, 2023). Các thách thức bao gồm xác minh, thi hành đối với các bên không tham gia (như Trung Quốc), tiềm năng phát triển trái phép và tính khả thi chính trị. Scott Alexander đã tóm tắt tất cả các biến thể và tranh luận xung quanh việc tạm dừng AI (Alexander, 2023).
AI công cụ thay vì AGI. Thay vì phát triển ASI, chúng ta có thể tập trung vào việc phát triển các hệ thống AI chuyên biệt, không có tính tự chủ cho các ứng dụng có lợi như nghiên cứu y tế (Cao et al., 2023), dự báo thời tiết (Lam et al., 2023) và khoa học vật liệu (Merchant et al., 2023). Các hệ thống AI chuyên biệt này có thể thúc đẩy đáng kể các lĩnh vực tương ứng mà không gặp phải rủi ro liên quan đến việc tạo ra AI tự chủ cao cấp. Ví dụ, Alpha Geometry có năng lực đạt mức độ Vàng trong các bài toán hình học từ Olympic Toán học Quốc tế. Bằng cách ưu tiên các mô hình không có tính tác nhân, chúng ta có thể khai thác độ chính xác và hiệu quả của AI đồng thời tránh các chế độ thất bại nguy hiểm nhất. Đây là quan điểm của Viện Tương lai Cuộc sống (The Future of Life Institute) và chiến dịch "Giữ Tương lai Nhân văn" của họ, cho đến nay là đề xuất chi tiết nhất cho con đường này (Aguirre, 2025).
Một CERN duy nhất cho AI. Đề xuất này hình dung một cơ quan nghiên cứu quốc tế quy mô lớn, có mô hình CERN, chuyên phát triển các công nghệ AI tiên tiến. Điều này có thể là một lối thoát tinh tế khỏi cuộc đua phát triển AGI, cung cấp đủ thời gian để tạo ra AGI một cách an toàn mà không phải cắt giảm quy trình do áp lực cạnh tranh. Các mục tiêu tiềm năng khác bao gồm tập trung nguồn lực (đặc biệt là khả năng điện toán), thúc đẩy hợp tác quốc tế và đảm bảo sự phù hợp với các giá trị dân chủ, có thể trở thành một lựa chọn thay thế cho việc phát triển ASI do các quốc gia hoặc doanh nghiệp đơn lẻ dẫn dắt. Những người ủng hộ tiếp cận này bao gồm ControlAI và "Con đường Hẹp" của họ (Miotti et al, 2024). Con đường hẹp đề xuất trước tiên là làm chậm lại và dừng cuộc đua AI phát triển ASI để có thời gian xây dựng khung khổ thể chế quốc tế cần thiết nhằm điều hướng an toàn sự phát triển của trí tuệ nhân tạo tiên tiến. Tổ chức tương tự CERN sẽ là nền tảng của sự phối hợp quốc tế này (họ gọi là MAGIC trong kế hoạch của mình — Liên minh AGI Đa phương — nơi trí tuệ nhân tạo được phát triển dưới sự kiểm soát an ninh nghiêm ngặt và đa phương).
Hy vọng của tôi là, như các bạn đã biết, tôi đã nói rất nhiều trong quá khứ về một mô hình tương tự như CERN cho AGI, nơi cơ bản là một sự hợp tác nghiên cứu quốc tế về những bước cuối cùng mà chúng ta cần thực hiện để xây dựng những AGI đầu tiên
Thần thoại về sự tất yếu. Câu chuyện cho rằng nhân loại được định sẵn phải theo đuổi trí tuệ nhân tạo (AI) có sức mạnh áp đảo trong một cuộc đua có thể được phân tích và bác bỏ. Lịch sử cho thấy nhân loại có thể lựa chọn không theo đuổi một số công nghệ, như nhân bản con người, dựa trên các cân nhắc đạo đức. Một quy trình ra quyết định dân chủ tương tự có thể được áp dụng cho sự phát triển của AI. Bằng cách chủ động tránh các ứng dụng rủi ro nhất và hạn chế việc triển khai AI trong các tình huống có rủi ro cao, chúng ta có thể điều hướng tương lai của sự phát triển AI một cách có ý thức và trách nhiệm hơn.
Nếu chúng ta không giải quyết được vấn đề siêu đồng bộ hóa hoặc không thể phối hợp quốc tế, thì có thể làm gì?
Bài báo "Chiến lược Siêu trí tuệ" giới thiệu Hệ thống Răn đe Lỗi AI Chung (MAIM) như một chế độ răn đe, trong đó bất kỳ nỗ lực nào của một quốc gia nhằm chiếm ưu thế ASI một cách đơn phương sẽ bị đối thủ phá hoại (Dan Hendrycks, 2025). Khác với nhiều phương pháp an toàn tập trung vào giải pháp kỹ thuật, MAIM thừa nhận môi trường quốc tế cạnh tranh vốn có trong quá trình phát triển AI. Nó tổ hợp răn đe (MAIM) với nỗ lực không phổ biến và khung cạnh tranh quốc gia, coi phát triển ASI là vấn đề địa chính trị cơ bản và đòi hỏi quản lý chiến lược cấp quốc gia. Khung này không hy vọng vào hợp tác toàn cầu mà thay vào đó tạo ra các động lực khiến lợi ích quốc gia phù hợp với an toàn toàn cầu.
Cuộc đua AI giành ưu thế nhờ AI đe dọa tất cả các quốc gia. Nếu trong nỗ lực vội vã giành ưu thế, một quốc gia vô tình mất kiểm soát AI của mình, điều đó đe dọa an ninh của tất cả các quốc gia. Ngược lại, nếu cùng quốc gia đó thành công trong việc sản xuất và kiểm soát một AI có năng lực cao, nó cũng tạo ra mối đe dọa trực tiếp đến sự tồn tại của các quốc gia khác. Trong cả hai trường hợp, các quốc gia tìm cách bảo vệ sự tồn tại của mình có thể đe dọa phá hoại các dự án AI gây bất ổn để răn đe. Một quốc gia có thể cố gắng phá hoại dự án AI đó thông qua các biện pháp can thiệp từ các hoạt động bí mật làm suy yếu quá trình đào tạo đến gây hư hỏng vật lý làm tê liệt hạ tầng AI.

Sự ổn định chiến lược của MAIM có thể so sánh với Nguyên tắc Hủy diệt Lẫn nhau (MAD). Lưu ý rằng MAIM không thay thế MAD mà mô tả một điểm yếu chung bổ sung. Khi MAIM trở thành kiến thức chung, cả MAD và MAIM đều có thể mô tả tình hình chiến lược hiện tại giữa các siêu cường (Hendrycks et al., 2025).
Răn đe MAIM có thể là một chế độ ổn định tương tự như MAD hạt nhân. Trong kịch bản MAIM, các quốc gia sẽ xác định các dự án AI gây mất ổn định và áp dụng các biện pháp can thiệp từ các hoạt động bí mật làm suy yếu quá trình đào tạo đến thiệt hại vật lý làm tê liệt hạ tầng AI. Điều này thiết lập một động thái tương tự như MAD hạt nhân, trong đó không có cường quốc nào dám cố gắng chiếm ưu thế chiến lược một cách trực tiếp. Nền tảng lý thuyết của MAIM dựa trên thang leo thang rõ ràng, vị trí chiến lược của cơ sở hạ tầng AI xa các khu vực dân cư và tính minh bạch trong hoạt động của trung tâm dữ liệu. Bằng cách khiến chi phí phát triển AI đơn phương vượt quá lợi ích, MAIM tạo ra một chế độ răn đe tiềm năng ổn định có thể ngăn chặn các cuộc đua AI nguy hiểm mà không cần hợp tác toàn cầu hoàn hảo.
MAIM có thể bị suy yếu bởi những bất certainty công nghệ cơ bản. Khác với vũ khí hạt nhân, nơi việc phát hiện là đơn giản và năng lực phản công vẫn được duy trì, việc phát triển ASI đặt ra những thách thức độc đáo cho mô hình răn đe (Mowshowitz, 2025). Không có "cảnh báo cháy" rõ ràng cho phát triển ASI — không ai biết chính xác số lượng node mà một mạng thần kinh cần để khởi động chuỗi tự cải tiến dẫn đến siêu trí tuệ. Sự mơ hồ xung quanh ngưỡng xuất hiện của ASI khiến việc thiết lập các đường giới hạn đáng tin cậy trở nên khó khăn. Ngoài ra, các phát triển công nghệ có thể cho phép đào tạo AI được phân tán hoặc che giấu, khiến việc phát hiện trở nên khó khăn hơn so với các trung tâm dữ liệu khổng lồ và rõ ràng. Những bất định này có thể cuối cùng làm suy yếu hiệu quả của MAIM như một chế độ răn đe.
MAIM giả định rằng các quốc gia sẽ leo thang đến các biện pháp cực đoan trước một mối đe dọa công nghệ không rõ ràng, điều này trái ngược với tiền lệ lịch sử. Khung MAIM yêu cầu các quốc gia sẵn sàng mạo hiểm leo thang nghiêm trọng, có thể bao gồm các cuộc tấn công quân sự hoặc thậm chí chiến tranh, để ngăn chặn sự phát triển ASI của đối thủ. Tuy nhiên, bằng chứng lịch sử cho thấy các quốc gia hiếm khi thực hiện các đe dọa như vậy, ngay cả trong các tình huống rõ ràng. Nhiều quốc gia đã thành công trong việc phát triển vũ khí hạt nhân bất chấp sự phản đối, với Triều Tiên là một ví dụ điển hình. Với ASI là một mối đe dọa mơ hồ và không chắc chắn hơn vũ khí hạt nhân, giả định rằng các quốc gia sẽ leo thang đủ để thực thi MAIM dường như đáng nghi ngờ. Các nhà lãnh đạo chính trị có thể do dự trong việc mạo hiểm gây ra xung đột toàn cầu vì một "vi phạm hiệp ước đơn thuần" trong một lĩnh vực mà các rủi ro hiện sinh vẫn mang tính lý thuyết chứ không phải đã được chứng minh.
Kết quả có thể xảy ra khi nhân loại đối đầu với một trí tuệ siêu việt đối lập là một thất bại hoàn toàn. Các ẩn dụ phù hợp bao gồm "một đứa trẻ 10 tuổi cố gắng chơi cờ vua với Stockfish 15", "thế kỷ 11 cố gắng chiến đấu với thế kỷ 21" và "Australopithecus cố gắng chiến đấu với Homo sapiens".
Quan điểm "tắt hết mọi thứ", do Eliezer Yudkowsky đề xuất, cho rằng tất cả các tiến bộ trong nghiên cứu trí tuệ nhân tạo (AI) nên bị đình chỉ do những rủi ro khổng lồ mà các công nghệ này có thể gây ra nếu không được căn chỉnh phù hợp với giá trị con người và các biện pháp an toàn (Yudkowsky, 2023).
Theo Yudkowsky, việc phát triển AI tiên tiến, đặc biệt là AGI, có thể dẫn đến một kịch bản thảm họa nếu không có các biện pháp an toàn thích hợp. Nhiều nhà nghiên cứu nhận thức được tiềm năng thảm họa này nhưng cảm thấy bất lực trong việc ngăn chặn xu hướng phát triển do cho rằng không thể hành động đơn phương.
Đề xuất chính sách bao gồm việc ngừng hoạt động tất cả các cụm GPU lớn và các đợt đào tạo, vốn là nền tảng của sự phát triển AI mạnh mẽ. Nó cũng đề xuất giới hạn khả năng điện toán mà bất kỳ ai có thể sử dụng để đào tạo hệ thống AI và dần dần hạ thấp giới hạn này để bù đắp cho các thuật toán đào tạo hiệu quả hơn. Lệnh cấm này nên được thi hành bằng hành động quân sự nếu cần thiết để ngăn chặn tất cả các bên vi phạm.
Quan điểm này cho rằng việc tránh một tình huống cạnh tranh nơi các bên cố gắng phát triển AGI nhanh nhất có thể mà không có các cơ chế an toàn là điều quan trọng. Bởi vì một khi AGI được phát triển, nó có thể trở nên không thể kiểm soát và dẫn đến những thay đổi đột ngột và tiềm ẩn thảm họa cho thế giới.
Ông cho rằng không nên có ngoại lệ nào cho việc ngừng hoạt động này, kể cả đối với chính phủ hoặc quân đội. Ý tưởng là Hoa Kỳ, ví dụ, nên dẫn đầu sáng kiến này để ngăn chặn việc phát triển công nghệ nguy hiểm có thể gây ra hệ quả thảm khốc cho tất cả mọi người.
Cần lưu ý rằng quan điểm này còn xa mới đạt được sự đồng thuận, nhưng lập trường "ngừng mọi hoạt động" nhấn mạnh sự cần thiết của việc thận trọng cực độ và xem xét kỹ lưỡng các rủi ro tiềm ẩn trong lĩnh vực trí tuệ nhân tạo.