Rủi ro từ AI không tồn tại độc lập — chúng được khuếch đại bởi các động lực cạnh tranh và phối hợp xung quanh việc phát triển AI. Trong khi các hệ thống AI riêng lẻ có thể gây ra rủi ro có thể quản lý được, hệ sinh thái rộng lớn hơn về cách các hệ thống này được phát triển, triển khai và quản trị tạo ra áp lực hệ thống có thể làm tăng đáng kể khả năng và mức độ nghiêm trọng của các kết quả có hại. Các yếu tố khuếch đại này hoạt động độc lập với bất kỳ năng lực cụ thể nào của AI hoặc chế độ thất bại, khiến chúng đặc biệt quan trọng để hiểu và giải quyết.
Áp lực cạnh tranh một cách có hệ thống làm suy yếu các khoản đầu tư vào an toàn khi tốc độ mang lại lợi thế quyết định. Sự phát triển của trí tuệ nhân tạo (AI) ngày càng giống với những gì các nhà kinh tế gọi là "cuộc thi người thắng lấy tất cả", nơi người đầu tiên đạt được các năng lực then chốt sẽ thu được phần thưởng không tương xứng. Những phần thưởng này bao gồm lợi thế đi đầu trong việc chiếm lĩnh thị phần, tiếp cận nhân tài và dữ liệu tốt nhất, cũng như khả năng thiết lập tiêu chuẩn ngành (Cave & Ó hÉigeartaigh, 2018). Kết quả là một động lực cạnh tranh, trong đó các đối thủ phải đối mặt với áp lực mạnh mẽ để ưu tiên tốc độ phát triển hơn là kiểm tra an toàn cẩn thận và giảm thiểu rủi ro. Khác với các cuộc cách mạng công nghệ trước đây diễn ra trong hàng thập kỷ, năng lực AI đang phát triển với tốc độ chưa từng có. Như một phân tích đã chỉ ra, "AI đang phát triển không phải theo thế kỷ hay thập kỷ, mà là theo năm và tháng" (Gruetzemacher et al., 2024). Thời gian bị nén lại này làm gia tăng áp lực cạnh tranh và giảm thời gian dành cho công tác an toàn cẩn thận có thể mất nhiều năm mới mang lại kết quả.
"Cuộc đua xuống đáy" xuất hiện khi an toàn trở thành một nhược điểm cạnh tranh. Hãy nghĩ về điều gì xảy ra khi một công ty quyết định giảm bớt kiểm tra an toàn để đẩy nhanh việc triển khai. Điều này làm tăng vị trí thị trường dự kiến của họ trong khi làm giảm vị trí dự kiến của các đối thủ. Các công ty khác sau đó phải đối mặt với áp lực phải giảm bớt đầu tư vào an toàn để duy trì vị thế cạnh tranh của mình. Kết quả là một vấn đề hành động tập thể, trong đó tất cả các công ty cuối cùng đều đầu tư ít hơn vào an toàn so với mong muốn, trong khi vẫn duy trì vị trí tương đối tương tự trong cuộc đua (Askell et al., 2024). Chúng ta có thể chứng kiến các mô hình được phát hành mặc dù có lỗ hổng đã biết, được biện minh bằng nhu cầu duy trì vị trí thị trường. Khi đối thủ công bố các năng lực đột phá, các công ty khác phải đối mặt với áp lực phản ứng nhanh chóng bằng cách phát hành sản phẩm của riêng mình, thường cắt ngắn các đánh giá an toàn đã lên kế hoạch. Áp lực hàng quý đối với các công ty niêm yết phải chứng minh tiến bộ cho nhà đầu tư khiến ít có không gian cho công việc an toàn kéo dài có thể mất nhiều tháng hoặc nhiều năm để hoàn thành đúng cách. Ví dụ cụ thể, cạnh tranh thị trường lành mạnh không thể ngăn chặn sự lan rộng của các thuật toán đề xuất và nội dung gây nghiện, đang làm suy yếu sự gắn kết xã hội và phúc lợi cá nhân. Điều tương tự có thể xảy ra với phát triển AGI nếu chúng ta dựa vào cơ chế thị trường tự do để đảm bảo an toàn.
Ngành dược phẩm là một ví dụ đối lập. Phát triển thuốc liên quan đến cạnh tranh gay gắt và áp lực thời gian đưa sản phẩm ra thị trường, nhưng việc chạy đua xuống đáy về an toàn vẫn hiếm gặp. Sự khác biệt chính nằm ở cách các thất bại về an toàn đã được nội bộ hóa thông qua quy định, trách nhiệm pháp lý và cơ chế thị trường. Các công ty dược phẩm phải đối mặt với quy trình phê duyệt quy định nghiêm ngặt, yêu cầu thử nghiệm an toàn rộng rãi trước khi đưa sản phẩm ra thị trường. Các công ty cố gắng cắt giảm chi phí an toàn sẽ phải đối mặt với việc bị từ chối phê duyệt, rủi ro pháp lý lớn và tổn hại nghiêm trọng về danh tiếng. Các lực lượng thị trường cũng ủng hộ an toàn — bệnh nhân và nhân viên y tế ưu tiên các loại thuốc đã được chứng minh là an toàn, và hệ thống bảo hiểm tạo ra các động lực bổ sung cho an toàn. Điều này cùng nhau nâng cao "mức tối thiểu" có thể chấp nhận được cho toàn bộ lĩnh vực (Askell et al., 2024).
Phát triển trí tuệ nhân tạo (AI) hiện thiếu các cơ chế ổn định này. Quy trình phê duyệt quy định vẫn còn tối thiểu hoặc không tồn tại đối với hầu hết các ứng dụng AI. Khung pháp lý về trách nhiệm pháp lý chưa phát triển đầy đủ, khiến việc truy cứu trách nhiệm của các công ty đối với các tác hại liên quan đến AI trở nên khó khăn. Các động lực thị trường thường ưu tiên năng lực hơn an toàn AI, vì khách hàng gặp khó khăn trong việc đánh giá an toàn AI và có thể ưu tiên các tính năng và hiệu suất hơn việc giảm thiểu rủi ro.
Cuộc đua công nghệ làm trầm trọng thêm cả ba loại rủi ro thông qua các con đường khác nhau. Đối với rủi ro lợi dụng sai mục đích, cuộc đua làm tăng khả năng năng lực mạnh mẽ rơi vào tay cá nhân xấu trước khi các biện pháp an ninh đủ mạnh được triển khai – như trường hợp các mô hình ngôn ngữ có khả năng tạo ra thông tin sai lệch và phần mềm độc hại trở nên phổ biến vào năm 2022-2023 trước khi có các biện pháp đối phó mạnh mẽ. Đối với rủi ro mất căn chỉnh, cuộc đua làm giảm thời gian dành cho nghiên cứu cân bằng và thử nghiệm an toàn, tăng khả năng các AI tận dụng kẽ hở thông số hoặc gian lận được triển khai. Đối với rủi ro hệ thống, cuộc đua đẩy nhanh việc tích hợp AI vào cơ sở hạ tầng quan trọng trước khi xã hội có thể thích ứng. Việc áp dụng nhanh chóng giao dịch thuật toán trong thị trường tài chính là một ví dụ — lợi thế cạnh tranh từ tốc độ đã dẫn đến việc triển khai rộng rãi trước khi các cơ chế ngắt mạch đủ mạnh được triển khai, góp phần gây ra các vụ sụp đổ đột ngột.

Cuộc đua khiến việc hợp tác và làm việc cùng nhau để giảm thiểu rủi ro từ AI trở nên khó khăn. Dự báo cho thấy khả năng Mỹ và Trung Quốc sẵn sàng hợp tác là rất thấp (Metaculus, 2025)
Sự phát triển có ý định tốt có thể dẫn đến hậu quả thảm khốc do các sự cố không mong muốn và lỗi của con người. Hệ thống có thể gặp sự cố theo cách mà các nhà thiết kế không bao giờ dự đoán được, thường là dù đã có kế hoạch cẩn thận và ý định tốt. Trong thảm họa tàu vũ trụ Challenger, các kỹ sư dự định thực hiện một vụ phóng thông thường, nhưng một vòng đệm O-ring bị thiếu đã gây ra vụ nổ và khiến 7 người thiệt mạng (Ủy ban Rogers, 1986). Trong sứ mệnh Mariner 1, các nhà khoa học dự định khám phá sao Kim, nhưng một dấu gạch ngang bị thiếu trong mã hướng dẫn đã dẫn đến việc phá hủy tàu vũ trụ trị giá 80 triệu USD (Ceruzzi, 1989). Việc sử dụng các hợp chất clo-fluoro-carbon (CFC) được dự định để tạo ra bình chữa cháy và chất làm lạnh, nhưng vô tình tạo ra lỗ hổng trong tầng ozone, đe dọa sự sống trên Trái Đất (NASA, 2004). Dù công nghệ có phát triển đến đâu, nhu cầu cơ bản về độ chính xác và kiểm tra kỹ lưỡng vẫn không thay đổi.

Báo cáo chỉ số an toàn AI cho mùa hè 2025. Các điểm số thể hiện mức độ nghiêm ngặt và toàn diện của quy trình xác định và đánh giá rủi ro của các công ty đối với các mô hình chủ chốt hiện tại của họ. Tập trung vào các đánh giá đã được thực hiện, không phải các cam kết được tuyên bố (FLI, 2025).
Tai nạn xảy ra khi các hệ thống AI gây hại do các sự cố không cố ý, mặc dù các nhà phát triển có ý định tốt và tuân thủ các thực hành an toàn hợp lý. Khác với việc lợi dụng sai mục đích (khi con người cố ý gây hại) hoặc mất căn chỉnh (khi các hệ thống AI cố ý hành động trái với ý định của nhà phát triển), tai nạn xảy ra khi quyết định của con người hoặc AI dẫn đến hậu quả xấu mà không nhận ra hậu quả đó. Điều này bao gồm các sự cố do năng lực hạn chế, thiếu thông tin, lỗi lập trình hoặc kiểm thử không đầy đủ (Shah et al., 2025). Giống như tàu vũ trụ Mariner 1 bị rơi do thiếu một dấu gạch ngang, trong AI, chúng ta có thể thấy các tai nạn tiềm ẩn do một ký tự bị đặt sai vị trí. Trong quá trình đào tạo GPT-2, OpenAI vô tình đảo ngược dấu hiệu trên hàm thưởng - thay đổi dấu cộng thành dấu trừ. Thay vì tạo ra văn bản vô nghĩa, điều này đã tạo ra một mô hình tối ưu hóa cho nội dung gây sốc nhất trong khi vẫn duy trì tính lưu loát của ngôn ngữ tự nhiên. Như các nhà nghiên cứu đã lưu ý, "Lỗi này điều đáng chú ý vì kết quả không phải là văn bản vô nghĩa mà là đầu ra tồi tệ nhất. Các tác giả đã ngủ trong quá trình đào tạo, vì vậy vấn đề chỉ được phát hiện sau khi quá trình đào tạo kết thúc" (Ziegler et al., 2020).
Văn hóa phát triển "di chuyển nhanh và phá vỡ mọi thứ" mâu thuẫn cơ bản với việc kiểm thử có hệ thống cần thiết để phòng ngừa tai nạn. Hàng không, dược phẩm và kỹ thuật hạt nhân yêu cầu kiểm thử kỹ lưỡng chính xác vì sự cố có thể dẫn đến hệ quả nghiêm trọng và không thể đảo ngược. Hệ thống AI ngày càng kiểm soát cơ sở hạ tầng quan trọng, thị trường tài chính và các quyết định ảnh hưởng đến cuộc sống, nơi các giả định truyền thống về phần mềm không còn áp dụng. Tuy nhiên, thay vì áp dụng các tiêu chuẩn an toàn từ các ngành có rủi ro cao, phát triển AI thường tuân theo tư duy "di chuyển nhanh và phá vỡ mọi thứ" phổ biến trong phần mềm tiêu dùng, nơi sự cố chỉ gây bất tiện chứ không phải thảm họa.
Để phòng ngừa tai nạn, chúng ta cần có khả năng xử lý các "yếu tố không xác định" có thể xảy ra sau khi triển khai. Các thực hành an toàn kỹ thuật tiêu chuẩn như phòng thủ đa lớp, triển khai theo giai đoạn, xác minh năng lực và kiểm tra an toàn sẽ giảm đáng kể rủi ro tai nạn khi được triển khai đúng cách. Tuy nhiên, điều này đòi hỏi việc áp dụng và thực thi nghiêm ngặt thông qua cả tiêu chuẩn ngành và quy định (Shah et al., 2025).
Tình huống này chủ yếu nhấn mạnh thách thức trong việc dự đoán và kiểm soát tầm ảnh hưởng của công nghệ mới. Nó cho rằng trong giai đoạn đầu của một công nghệ mới, tầm ảnh hưởng của nó chưa được hiểu rõ và quá trình phát triển vẫn còn linh hoạt. Việc cố gắng kiểm soát - hoặc định hướng nó - là thách thức do thiếu thông tin về hệ quả và tầm ảnh hưởng tiềm tàng của nó. Ngược lại, khi những tác động này trở nên rõ ràng và nhu cầu kiểm soát trở nên cấp thiết, công nghệ thường đã trở nên quá sâu sắc trong xã hội, khiến bất kỳ nỗ lực nào để quản trị hoặc thay đổi nó trở nên cực kỳ khó khăn, tốn kém và gây rối loạn xã hội.
Các công ty đôi khi tiếp tục sản xuất các sản phẩm gây hại mặc dù biết rõ rủi ro, ưu tiên lợi nhuận hơn an toàn công cộng. Mô hình này lặp lại trong nhiều ngành khi các tổ chức phát hiện sản phẩm của họ gây hại nhưng tính toán rằng doanh thu tiếp tục sẽ vượt qua chi phí tiềm năng. Các công ty thuốc lá có ý định tạo ra sản phẩm thú vị, phát hiện ra chúng gây ung thư qua nghiên cứu nội bộ, nhưng tiếp tục tiếp thị thuốc lá và tài trợ cho các chiến dịch phủ nhận trong hàng thập kỷ, gây ra hàng triệu ca tử vong (Truth Initiative, 2017). Ford có ý định tạo ra những chiếc xe giá rẻ, phát hiện ra rằng bình xăng của Pinto sẽ nổ tung trong các vụ va chạm từ phía sau, tính toán rằng các vụ kiện tụng sẽ tốn kém ít hơn so với việc thu hồi sản phẩm, và tiếp tục sản xuất, dẫn đến những cái chết có thể phòng ngừa được (Dowie, 1977). Các công ty dược phẩm có ý định điều trị đau đớn, phát hiện ra rủi ro nghiện của OxyContin thông qua các thử nghiệm lâm sàng, nhưng vẫn tiếp tục các chiến dịch tiếp thị tích cực đã góp phần vào đại dịch opioid (Keefe, 2017). Mỗi trường hợp đều tuân theo cùng một mô hình: ý định ban đầu tốt đẹp, kiến thức rõ ràng về nguy cơ gây hại, và quyết định cố ý tiếp tục dù biết nguy cơ.
Áp lực cạnh tranh có thể khiến các nhà phát triển AI phát hiện ra rủi ro an toàn nhưng vẫn phát hành hệ thống. Khác với tai nạn (nơi tác hại xảy ra dù có ý định tốt) hoặc lợi dụng sai mục đích (nơi các cá nhân xấu cố ý gây hại), sự thờ ơ xảy ra khi các công ty chấp nhận rủi ro một cách có ý thức để duy trì vị thế thị trường hoặc dòng doanh thu. Nghiên cứu nội bộ của Meta cho thấy Instagram gây hại nghiêm trọng cho sức khỏe tinh thần của người dùng tuổi teen, nhưng công ty vẫn tiếp tục thiết kế các tính năng được biết là gây nghiện trong khi công khai phủ nhận bằng chứng (Haugen, 2021). Như một vụ kiện cáo buộc: "Họ cố ý thiết kế ứng dụng để gây nghiện cho người dùng trẻ và tích cực, lặp đi lặp lại việc lừa dối công chúng về nguy cơ mà việc sử dụng quá mức sản phẩm của họ gây ra cho thanh thiếu niên" (Văn phòng Tổng chưởng lý, 2023). Điều này cho thấy các công ty có thể ưu tiên các chỉ số tương tác hơn sức khỏe của người dùng ngay cả khi nghiên cứu nội bộ đã ghi nhận rõ ràng tác hại.
Cả "tẩy an toàn" (safety washing) và "tẩy năng lực" đều có khả năng thay thế cho đầu tư an toàn thực sự. Giống như các công ty thực hiện "tẩy xanh" (greenwashing) bằng cách nhấn mạnh các sáng kiến môi trường nhỏ lẻ trong khi tránh những thay đổi đáng kể, chúng ta có thể bắt đầu thấy nhiều trường hợp "tẩy an toàn" hơn (Ren et al., 2024). Điều này có thể bao gồm việc công bố cam kết an toàn trong khi cắt giảm chi phí kiểm tra, bỏ qua các cuộc kiểm tra độc lập từ bên ngoài và duy lý hóa sự kiện cảnh cáo. Điều này tạo ra vẻ bề ngoài của sự quan tâm đến an toàn, che giấu sự đầu tư an toàn thực tế không đủ. Các cam kết về an toàn và đạo đức trở thành công cụ tiếp thị thay vì ràng buộc hoạt động, cho phép các công ty tuyên bố trách nhiệm trong khi duy trì lợi thế cạnh tranh thông qua chu kỳ phát triển nhanh hơn.
Để ngăn chặn sự thờ ơ, cần có các cơ chế trách nhiệm giải trình bên ngoài khiến vi phạm an toàn trở nên tốn kém. Sự thờ ơ của doanh nghiệp vẫn tồn tại khi các công ty có thể chuyển giao chi phí của quyết định của mình cho xã hội trong khi thu lợi ích bên trong. Các ngành có thành tích an toàn mạnh mẽ—hàng không, dược phẩm, năng lượng hạt nhân—đã phát triển các khung pháp lý trách nhiệm, giám sát quy định và tiêu chuẩn chuyên nghiệp khiến các thất bại an toàn trở nên cực kỳ tốn kém cho các công ty. Phát triển AI hiện thiếu các cơ chế này, tạo ra một môi trường nơi sự thờ ơ có thể phát triển không kiểm soát (Askell et al., 2024). Nếu không có áp lực bên ngoài thông qua quy định, trách nhiệm pháp lý và hệ quả thị trường, các công ty sẽ tiếp tục có động lực ưu tiên lợi thế cạnh tranh ngắn hạn hơn các cân nhắc an toàn dài hạn.
Vì chúng ta đã có một lịch sử dài trong việc suy nghĩ về mối đe dọa này và cách đối phó với nó, từ các hội nghị khoa học đến các bộ phim bom tấn của Hollywood, bạn có thể nghĩ rằng nhân loại sẽ đẩy mạnh nỗ lực với một sứ mệnh hướng AI theo hướng an toàn hơn thay vì để nó trở thành siêu trí tuệ mất kiểm soát. Hãy suy nghĩ lại.
- Max Tegmark, Giáo sư tại MIT, Tác giả cuốn Life 3.0, Nhà nghiên cứu an toàn AI (Tegmark, 2023)
Vấn đề hành động tập thể cản trở việc thực hiện các biện pháp an toàn mang lại lợi ích cho tất cả mọi người. Ngay cả khi tất cả các bên liên quan đồng ý rằng một số biện pháp an toàn sẽ có lợi, các rào cản cấu trúc vẫn ngăn cản việc thực hiện chúng. Các cá nhân phải đối mặt với động lực để "ăn theo" các khoản đầu tư an toàn của người khác hoặc không thể cam kết một cách đáng tin cậy vào các thỏa thuận hợp tác. Khác với động lực cạnh tranh trực tiếp làm suy yếu an toàn, vấn đề hành động tập thể đại diện cho sự thất bại trong hợp tác, thường nảy sinh như một hệ quả của áp lực cạnh tranh.
Sự bất ổn chính trị làm gián đoạn các khung hợp tác lâu dài. Hợp tác an toàn AI yêu cầu cam kết bền vững trong nhiều năm hoặc thập kỷ, nhưng các hệ thống chính trị hoạt động trên các khung thời gian ngắn hơn nhiều. Các cuộc bầu cử và chuyển giao chính trị thường làm gián đoạn các chính sách tập trung vào an toàn, khi các nhà lãnh đạo mới ưu tiên cạnh tranh hơn hợp tác (Gruetzemacher et al., 2024). Một ví dụ cụ thể là việc Tổng thống Trump hủy bỏ lệnh hành pháp về AI của Biden. Lệnh năm 2023 yêu cầu các công ty phát triển mô hình AI mạnh mẽ phải chia sẻ thông tin an toàn với chính phủ, nhưng sự giám sát này đã biến mất do chuyển giao chính trị (Whitehouse, 2025; Whitehouse, 2025). Sự bất ổn làm suy yếu cả các thỏa thuận quốc tế và khung an toàn trong nước. Khi một chính quyền đàm phán các tiêu chuẩn an toàn và chính quyền tiếp theo từ bỏ chúng, hợp tác lâu dài về các vấn đề toàn cầu trở nên gần như không thể.

Báo cáo chỉ số an toàn AI cho mùa hè 2025. Các điểm số này thuộc danh mục chia sẻ thông tin, thể hiện mức độ minh bạch của các công ty trong việc chia sẻ thông tin về sản phẩm, rủi ro và các thực hành quản lý rủi ro. Các chỉ số bao gồm hợp tác tự nguyện, minh bạch về thông số kỹ thuật và giao tiếp về rủi ro/sự cố (FLI, 2025).
Các động lực của người hưởng lợi miễn phí làm suy yếu đầu tư an toàn chung. Mỗi cá nhân hưởng lợi khi các cá nhân khác đầu tư vào các biện pháp an toàn nhưng lại muốn các cá nhân khác chịu chi phí. Một công ty hưởng lợi khi các đối thủ cạnh tranh phát triển các thực hành an ninh tốt hơn (giảm thiểu các lỗ hổng an ninh trong hệ sinh thái) nhưng lại muốn tránh chi phí thực hiện các biện pháp đó. Các quốc gia hưởng lợi khi các quốc gia khác hạn chế các năng lực AI nguy hiểm nhưng lại muốn duy trì lợi thế phát triển của chính mình. Điều này dẫn đến đầu tư an toàn bị thiếu hụt so với mức tối ưu về mặt xã hội, ngay cả khi tất cả các bên đều nhận thức được lợi ích chung.
Vấn đề cam kết và thi hành ngăn cản hợp tác đáng tin cậy. Ngay cả khi một công ty muốn hợp tác hoặc phát triển AGI an toàn, họ không thể cam kết duy trì tiêu chuẩn an toàn một cách đáng tin cậy mà không có cơ chế thi hành từ bên ngoài. Các công ty có thể thực sự có ý định ưu tiên an toàn nhưng phải đối mặt với áp lực từ cổ đông để cắt giảm chi phí khi đối thủ cạnh tranh giành lợi thế do động lực cạnh tranh mà chúng ta đã đề cập trong phần trước. Các quốc gia có thể ký kết các thỏa thuận an toàn trong khi bí mật tiếp tục phát triển thông qua các chương trình mật hoặc công ty tư nhân. Nếu không có cơ chế thực thi đáng tin cậy, các thỏa thuận trở thành lời nói suông và sụp đổ dưới áp lực cạnh tranh.
Sự thất bại trong phối hợp làm gia tăng rủi ro bằng cách ngăn cản các biện pháp bảo vệ tập thể. Nhiều rủi ro từ AI yêu cầu các phản ứng phối hợp mà các cá nhân không thể thực hiện một cách đơn phương. Ngăn chặn các cuộc tấn công mạng được hỗ trợ bởi AI đòi hỏi hợp tác quốc tế về các tiêu chuẩn an ninh mạng và cơ chế thi hành. Xử lý các rủi ro hệ thống từ việc triển khai AI đòi hỏi sự phối hợp giữa các công ty, cơ quan quản lý và các tổ chức quốc tế để phát triển các cơ chế giám sát. Khi phối hợp thất bại, các cá nhân không thể thực hiện các biện pháp bảo vệ đủ mạnh một mình — các biện pháp an ninh mạnh mẽ của một công ty chỉ mang lại sự bảo vệ hạn chế nếu các đối thủ cạnh tranh triển khai các hệ thống dễ bị tấn công mà các tác nhân xấu có thể khai thác (Askell et al., 2024).
Biến đổi khí hậu cung cấp cả bài học cảnh báo và mô hình tiềm năng cho hợp tác quản trị AI. Giống như AI, biến đổi khí hậu liên quan đến thách thức phối hợp toàn cầu, rủi ro lâu dài và mâu thuẫn giữa lợi ích kinh tế ngắn hạn và an toàn chung. Tuy nhiên, quản trị khí hậu đã đạt được một số thành công đáng chú ý bên cạnh những thất bại nổi tiếng.
Hiệp định Montreal, vốn đã thành công trong việc giải quyết vấn đề suy giảm tầng ozone, cho thấy cách hợp tác quốc tế có thể hoạt động khi đáp ứng các điều kiện nhất định: sự đồng thuận khoa học rõ ràng về rủi ro, công nghệ thay thế có thể xác định được và các thỏa thuận kinh tế giải quyết các mối quan ngại về phân phối. Hiệp định này bao gồm các cơ chế chuyển giao công nghệ và hỗ trợ tài chính, giúp hợp tác trở nên hấp dẫn đối với các nước đang phát triển.
Quản trị AI có thể hưởng lợi từ các tiếp cận tương tự. Hợp tác kỹ thuật về nghiên cứu an toàn AI có thể song song với hợp tác khoa học đã làm nền tảng cho các thỏa thuận khí hậu. Các thỏa thuận kinh tế có thể giải quyết lo ngại rằng các biện pháp an toàn có thể gây bất lợi cho các quốc gia hoặc công ty cụ thể. Các cơ chế giám sát và xác minh có thể dựa trên tiền lệ từ các thỏa thuận kiểm soát vũ khí và môi trường.
Tuy nhiên, quản trị AI phải đối mặt với những thách thức bổ sung mà quản trị khí hậu không có. Phát triển AI diễn ra nhanh hơn, liên quan đến nhiều cá nhân đa dạng hơn và có những tác động cạnh tranh trực tiếp hơn. Những khác biệt này cho thấy quản trị AI có thể yêu cầu các đổi mới thể chế mới thay vì chỉ đơn giản là điều chỉnh các khung khổ hiện có.
Năng lực của AI đã liên tục khiến các chuyên gia ngạc nhiên trong hơn một thập kỷ. Điều này tạo ra một mô hình liên tục, trong đó các nhà nghiên cứu đánh giá thấp tốc độ xuất hiện của các đột phá. Mô hình này củng cố mức độ khó khăn thực sự trong việc dự báo năng lực và rủi ro từ AI, làm trầm trọng thêm mọi loại rủi ro từ AI bằng cách làm suy yếu các khung thời gian chuẩn bị và kế hoạch tổ chức.
Năm 2021, các chuyên gia đã đánh giá thấp đáng kể tiến bộ trên các bài kiểm tra thách thức như MATH và MMLU. Vào giữa năm 2021, giáo sư Jacob Steinhardt đã tổ chức một cuộc thi dự báo với các nhà dự báo chuyên nghiệp để dự đoán tiến bộ trên hai bài kiểm tra thách thức. Đối với MATH, một tập dữ liệu các bài toán toán học thi đấu, các nhà dự báo dự đoán mô hình tốt nhất sẽ đạt độ chính xác 12,7% vào tháng 6 năm 2022, với nhiều người cho rằng bất kỳ con số nào trên 20% là cực kỳ khó xảy ra. Kết quả thực tế là 50,3% — nằm ở phần đuôi xa của phân phối dự đoán của họ. Tương tự, đối với MMLU, các nhà dự báo dự báo sự cải thiện khiêm tốn từ 44% lên 57,1%, nhưng hiệu suất đạt 67,5% (Steinhardt, 2022; Cotra, 2023).
Năm 2022, việc đánh giá thấp tiếp tục diễn ra ngay cả sau những bất ngờ đáng kể này. Trong cuộc thi tiếp theo của Steinhardt cho năm 2023, các dự báo lại đánh giá thấp tiến bộ. Đối với MATH, kết quả 69,6% nằm ở phần trăm thứ 41 của Steinhardt, trong khi kết quả 86,4% của MMLU nằm ở phần trăm thứ 66 của ông. Mặc dù các nhà dự báo đã đánh giá thấp tiến bộ, các chuyên gia lại đánh giá thấp tiến bộ còn nhiều hơn: "Tiến bộ trong AI (được đo lường bằng bài kiểm tra ML) diễn ra nhanh hơn nhiều so với dự đoán của các nhà dự báo" (Steinhardt, 2023; Cotra, 2023).

Dự báo năm 2021 trên tập dữ liệu MMLU (Đo lường Hiểu Biết Ngôn Ngữ Đa Nhiệm Quy Mô Lớn). Phần lớn mật độ xác suất của dự báo nằm trong khoảng từ 44% đến 57% vào tháng 6 năm 2022. Hiệu suất thực tế được ghi nhận là 68% (được hiển thị bằng đường màu đỏ) (Cotra, 2023).

Dự báo năm 2022 trên tập dữ liệu MMLU (Đo lường Hiểu ngôn ngữ đa tác vụ quy mô lớn). Phần lớn mật độ xác suất của dự báo nằm trong khoảng từ 68% đến 80% vào tháng 6 năm 2023. Hiệu suất thực tế được ghi nhận là 87% (được hiển thị bằng đường màu đỏ) (Steinhardt, 2022).

Dự báo năm 2021 trên tập dữ liệu MATH. Phần lớn mật độ xác suất của dự báo nằm trong khoảng từ 5% đến 20% vào tháng 6 năm 2022. Hiệu suất thực tế được ghi nhận là 50% (được hiển thị bằng đường màu đỏ) (Cotra, 2023).
Trong giai đoạn 2022-2024, các chuyên gia tiếp tục đánh giá thấp năng lực định tính ngay cả sau khi chứng kiến những bất ngờ trong các bài kiểm tra chuẩn. AI tầm ảnh hưởng đã khảo sát các chuyên gia về học máy vào giữa năm 2022, chỉ vài tháng trước khi ChatGPT được phát hành. Các chuyên gia dự đoán các cột mốc như "viết một bài luận lịch sử cấp trung học" hoặc "trả lời các câu hỏi dễ tìm kiếm trên Google tốt hơn một chuyên gia" sẽ mất nhiều năm để đạt được. ChatGPT và GPT-4 đã hoàn thành những điều này chỉ trong vài tháng sau cuộc khảo sát, không phải nhiều năm (Cotra, 2023).
Các ví dụ trong giai đoạn 2024-2025 dường như tiếp tục xu hướng khó lường này. Vào tháng 12 năm 2024, o3 của OpenAI đạt 87,5% trên ARC-AGI, một bài kiểm tra chuẩn được thiết kế đặc biệt để đánh giá khả năng suy luận trừu tượng và chống lại việc gian lận thông qua ghi nhớ (Chollet et al., 2024). Trong bốn năm, tiến bộ đã tăng chậm từ 0% của GPT-3 vào năm 2020 lên 5% của GPT-4o vào năm 2024, khiến nhiều người cho rằng tiến bộ đáng kể sẽ mất nhiều năm. Sự nhảy vọt nhanh chóng từ 5% lên 87,5% đã khiến nhiều người ngạc nhiên. Tương tự, trên Frontier Math—một bài kiểm tra đánh giá các vấn đề nghiên cứu cấp cao được các nhà toán học hàng đầu thế giới mô tả là “những dự đoán tốt nhất của chúng tôi về những thách thức có thể làm khó AI”—OpenAI đã nhảy vọt từ mức cao nhất trước đó là 2$%$ lên 25$%$ chỉ trong vài tháng sau khi bài kiểm tra này được công bố vào tháng 11 năm 2024 (Epoch AI, 2024).
Sự không thể dự đoán được làm gia tăng tất cả các rủi ro từ AI khác. Việc đánh giá thấp một cách có hệ thống về thời điểm đột phá khiến các nhà nghiên cứu an toàn AI luôn phải chạy theo khi rủi ro đạt đỉnh điểm. Douglas Hofstadter, người từng dự đoán phải mất hàng trăm năm trước khi AI có khả năng tương đương con người, nay mô tả "một loại sợ hãi trước cơn sóng thần đang ập đến, sẽ khiến toàn nhân loại bất ngờ" (Hofstadter, 2023). Khi ngay cả các nhà nghiên cứu hàng đầu cũng liên tục đánh giá thấp tiến bộ trong lĩnh vực của mình, sự chuẩn bị chung của xã hội trở nên cơ bản không phù hợp. Các tổ chức đưa ra quyết định triển khai dựa trên các dự báo liên tục đánh giá thấp tiến bộ trong ngắn hạn, trong khi các hệ thống quản trị giả định sự phát triển dần dần và có thể dự đoán được. Điều này tạo ra một khoảng cách liên tục giữa thời điểm các năng lực nguy hiểm xuất hiện và thời điểm các biện pháp an toàn đủ điều kiện sẵn sàng - biến chính sự không thể dự đoán thành một yếu tố khuếch đại rủi ro hệ thống.
Quá trình này bắt đầu diễn ra với tốc độ ngày càng nhanh, nơi những mục tiêu không thể đạt được và những điều mà máy tính không nên làm bắt đầu sụp đổ [...] các hệ thống ngày càng trở nên tốt hơn trong việc dịch thuật giữa các ngôn ngữ, sau đó là tạo ra những phản hồi có ý nghĩa cho những câu hỏi phức tạp bằng ngôn ngữ tự nhiên, và thậm chí viết thơ [...] Sự tiến bộ ngày càng nhanh chóng này đã quá bất ngờ, khiến tôi hoàn toàn bất ngờ, không chỉ bản thân tôi mà còn rất nhiều người khác, đến mức có một loại sợ hãi về một cơn sóng thần đang ập đến sẽ khiến toàn nhân loại bất ngờ.
Giảm thiểu rủi ro tuyệt chủng do AI gây ra nên là ưu tiên toàn cầu song song với các rủi ro quy mô xã hội khác như đại dịch và chiến tranh hạt nhân.
- CAIS, Tuyên bố về Rủi ro từ AI (AI) được ký bởi hàng trăm chuyên gia AI (CAIS, 2023)
Chương này cho thấy có nhiều rủi ro tiềm ẩn từ các hệ thống AI. Những tác hại đã được ghi nhận hiện nay đã ảnh hưởng đến hàng nghìn người, và những mối đe dọa tồn vong tiềm tàng có thể ảnh hưởng đến tất cả các thế hệ tương lai. Hiện vẫn còn nhiều tranh cãi và thiếu sự đồng thuận về những vấn đề nghiêm trọng nhất. Những năng lực nguy hiểm đã bắt đầu xuất hiện trong các hệ thống hiện tại. Chúng ta đang chứng kiến những minh chứng thực tế về rủi ro mất căn chỉnh và lợi dụng sai mục đích. Nhiều rủi ro riêng lẻ này có thể tương tác với nhau và gia tăng thông qua các tác động hệ thống - lợi dụng sai mục đích dẫn đến mất căn chỉnh, áp lực cạnh tranh làm trầm trọng thêm các tai nạn, và sự thất bại trong phối hợp ngăn cản các biện pháp bảo vệ tập thể.
Có hy vọng tồn tại - tương lai của AI mang tiềm năng to lớn cho sự phát triển của con người bên cạnh những rủi ro này. Các hệ thống AI được phát triển đúng cách có thể giúp giải quyết những thách thức lớn nhất của nhân loại - chữa bệnh, khắc phục thiệt hại môi trường, xóa đói giảm nghèo, và mở rộng kiến thức và sáng tạo của con người vượt qua giới hạn hiện tại. Những năng lực tương tự tạo ra rủi ro cũng mang lại cơ hội chưa từng có để nâng cao phúc lợi con người, kéo dài tuổi thọ khỏe mạnh, khám phá vũ trụ, và đạt được mức độ thịnh vượng và hiểu biết trước đây không thể tưởng tượng được. Nhiều nhà nghiên cứu làm việc về an toàn AI chính xác vì họ tin rằng tiềm năng tích cực là vô cùng lớn, khiến việc đảm bảo kết quả có lợi xứng đáng với những nỗ lực phòng ngừa rộng rãi. Mục tiêu không phải là ngăn chặn sự phát triển của AI mà là định hướng nó theo các cấu hình tối đa hóa lợi ích đồng thời giảm thiểu rủi ro từ AI.
Mặc dù rủi ro là vô cùng lớn, chúng tôi hy vọng thông điệp về hy vọng tồn tại sẽ khích lệ bạn tham gia vào việc giảm thiểu một số rủi ro này. Tương lai tươi sáng là có thể, nhưng chúng không tự nhiên xảy ra. Chúng đòi hỏi nỗ lực tích cực và chiến lược có kế hoạch. Chúng tôi cho rằng cần phát triển một tiếp cận toàn cầu, đa ngành về an toàn AI, bao gồm các biện pháp kỹ thuật, khung đạo đức vững chắc và hợp tác quốc tế. Sự phát triển của công nghệ AI đòi hỏi sự tham gia của các nhà hoạch định chính sách, nhà đạo đức học, nhà khoa học xã hội và công chúng rộng rãi để đối phó với các tác động luân lý và xã hội của AI.

Hãy đảm bảo điều này không xảy ra. Hình ảnh bởi XKCD (XKCD)