(Bài dịch vẫn đang trong quá trình hoàn thiện. Mọi góp ý đều được chào đón tại team@antoan.ai)
Trí tuệ nhân tạo có thể mang lại lợi ích to lớn — nếu chúng ta tránh được những rủi ro phát sinh mà AI có thể gây ra
Tại sao con người, chứ không phải khỉ đột, lại kiểm soát số phận của thế giới?
Con người đã tác động đến mọi ngóc ngách của hành tinh này. Khỉ đột, dù thông minh hơn so với các loài không phải con người khác, lại không làm được điều đó.
Sự khác biệt này phần lớn là do trí tuệ của con người.1
Các công ty và chính phủ đang chi hàng tỷ đô la mỗi năm để phát triển các hệ thống AI — và khi các hệ thống này ngày càng tiên tiến, chúng có thể (cuối cùng) thay thế con người trở thành sinh vật thông minh nhất trên hành tinh. Như chúng ta sẽ thấy, chúng đang tiến bộ rất nhanh.
Chính xác thì sẽ mất bao lâu để tạo ra trí tuệ nhân tạo vượt trội hơn con người trong hầu hết mọi lĩnh vực là một vấn đề đang được tranh luận sôi nổi. Tuy nhiên, nhìn chung, điều này có vẻ khả thi và chúng tôi dự đoán rằng nó sẽ xảy ra trong thế kỷ này.
Quan điểm rằng trí tuệ con người có thể bị vượt qua trong thế kỷ này không phải là một luận điểm chắc chắn rằng trí tuệ nhân tạo sẽ trở thành một vấn đề lớn, hay rằng nó là mối đe dọa đối với nhân loại. Chi tiết hơn về những luận điểm này sẽ được trình bày dưới đây.
Tuy nhiên, công bằng mà nói, sự phát triển tiềm năng của trí tuệ cạnh tranh với con người trên Trái đất trong tương lai gần cũng là điều đáng lo ngại.
Các hệ thống mà chúng ta phát triển sẽ có mục tiêu không? Nếu có, đó sẽ là những mục tiêu gì?
Các hệ thống này có hỗ trợ những nỗ lực hướng thiện cho nhân loại không? Hay liệu con người sẽ mất quyền kiểm soát tương lai của mình và kết thúc câu chuyện của chính mình?
Thành thật mà nói, chúng ta không biết câu trả lời cho những câu hỏi này.
Tuy nhiên, chúng ta không nên chỉ ngồi chờ, hy vọng và quan sát từ xa. Trí tuệ nhân tạo có thể thay đổi hoàn toàn mọi thứ — vì vậy, những nỗ lực định hình sự phát triển của trí tuệ nhân tạo có thể là điều quan trọng nhất mà chúng ta có thể làm.
Chúng tôi dự đoán sẽ có những tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo (AI) trong những năm tới, thậm chí có thể đến mức máy móc vượt trội con người trong nhiều, nếu không phải tất cả, các công việc. Điều này có thể mang lại những lợi ích to lớn, giúp giải quyết các vấn đề toàn cầu hiện nay, nhưng cũng tiềm ẩn những rủi ro nghiêm trọng.
Những rủi ro này có thể phát sinh một cách ngẫu nhiên (ví dụ: nếu chúng ta không tìm ra giải pháp kỹ thuật cho các lo ngại về an toàn của hệ thống AI) hoặc có chủ ý (ví dụ: nếu hệ thống AI làm trầm trọng thêm xung đột chính trị). Chúng tôi cho rằng cần phải nỗ lực hơn nữa để giảm thiểu những rủi ro này.
Một số rủi ro từ AI tiên tiến có thể mang tính tồn vong — nghĩa là chúng có thể dẫn đến sự tuyệt chủng của loài người, hoặc sự mất năng lực vĩnh viễn và nghiêm trọng của nhân loại.2 Vẫn chưa có câu trả lời thỏa đáng cho những lo ngại — được thảo luận dưới đây — về cách công nghệ biến đổi đang phát triển nhanh chóng này có thể được phát triển an toàn và tích hợp vào xã hội của chúng ta. Việc tìm kiếm câu trả lời cho những lo ngại này đang còn thiếu quan tâm và có thể là một vấn đề dễ giải quyết. Chúng tôi ước tính có khoảng 400 người trên toàn thế giới đang làm việc trực tiếp về vấn đề này vào năm 2022, mặc dù chúng tôi tin rằng con số này đã tăng lên.3 Do đó, nguy cơ xảy ra thảm họa liên quan đến AI có thể là vấn đề cấp bách nhất thế giới — và là vấn đề đáng được ưu tiên giải quyết nhất đối với những người có khả năng cống hiến cho vấn đề này.
Các lựa chọn đầy hứa hẹn để giải quyết vấn đề này bao gồm nghiên cứu kỹ thuật về cách tạo ra các hệ thống AI an toàn, nghiên cứu chiến lược về những rủi ro cụ thể mà AI có thể gây ra, và nghiên cứu chính sách về cách các công ty và chính phủ có thể giảm thiểu những rủi ro này. Khi các phương pháp chính sách tiếp tục được phát triển và hoàn thiện, chúng ta cần những người thực hiện và triển khai chúng. Cũng có nhiều cơ hội để tạo ra tầm ảnh hưởng lớn trong nhiều vai trò bổ trợ, như quản lý hoạt động, báo chí, kiếm tiền để đóng góp, v.v. — một số trong số đó được liệt kê dưới đây.
Chúng tôi cho rằng đây là một trong những vấn đề cấp bách nhất trên thế giới.
AI sẽ có tác động rất đa dạng và có tiềm năng mang lại rất nhiều lợi ích. Tuy nhiên, chúng tôi đặc biệt lo ngại về khả năng xảy ra những kết quả cực kỳ tồi tệ, đặc biệt là thảm họa tồn vong. Một số chuyên gia về rủi ro AI cho rằng xác suất xảy ra điều này chỉ là 0,5%, một số khác cho rằng xác suất này cao hơn 50%. Chúng tôi sẵn sàng chấp nhận cả hai quan điểm này — quý vị có thể xem thêm thảo luận về vấn đề này tại đây. Dự đoán chung của tôi là rủi ro xảy ra thảm họa tồn vong do trí tuệ nhân tạo gây ra vào năm 2100 là khoảng 1%, có thể kéo dài đến con số một chữ số thấp. Điều này khiến tôi thuộc nhóm ít lo lắng nhất trong số 80.000 nhân viên của 80,000 Hours: với tư cách là một tổ chức, quan điểm của chúng tôi là rủi ro nằm trong khoảng từ 3% đến 50%.
Khoảng 50 triệu đô la đã được chi cho việc giảm thiểu rủi ro thảm họa từ AI trong năm 2020 — trong khi hàng tỷ đô la được chi cho việc phát triển năng lực AI.4 Mặc dù chúng tôi thấy các chuyên gia AI ngày càng lo ngại, nhưng vào năm 2022, tôi ước tính có khoảng 400 người làm việc trực tiếp để giảm thiểu khả năng xảy ra thảm họa tồn vong liên quan đến AI (với độ tin cậy 90%, dao động trong khoảng 200 đến 1.000).3 Trong số này, khoảng ba phần tư dường như đang làm việc trong lĩnh vực nghiên cứu kỹ thuật về an toàn AI, phần còn lại chia giữa nghiên cứu về chiến lược (và những các quản trị khác) cũng như vận động hành lang — mặc dù lĩnh vực này đang thay đổi nhanh chóng.5
Việc tiến bộ trong việc ngăn chặn thảm họa liên quan đến AI dường như khó khăn, nhưng có nhiều hướng nghiên cứu tiềm năng và lĩnh vực này còn rất non trẻ. Các chính phủ bắt đầu thể hiện sự quan tâm tích cực đến việc quy định AI và giảm thiểu các mối đe dọa này vào năm 2023. Vì vậy, tôi cho rằng vấn đề này có thể giải quyết được ở mức độ vừa phải, mặc dù tôi rất không chắc chắn — một lần nữa, các đánh giá về khả năng giải quyết vấn đề an toàn AI rất đa dạng.
Ghi chú của tác giả: Về cơ bản, bản tóm tắt vấn đề này cố gắng dự đoán tương lai của công nghệ. Đây là một việc rất khó thực hiện. Ngoài ra, nghiên cứu về rủi ro từ AI vẫn còn ít hơn nhiều so với các rủi ro khác mà 80,000 Hours viết về (như đại dịch hoặc biến đổi khí hậu).6 Tuy nhiên, lĩnh vực nghiên cứu về chủ đề này đang ngày càng phát triển, và tôi đã cố gắng phản ánh điều đó. Đối với bài viết này, tôi đã tham khảo đặc biệt báo cáo của Joseph Carlsmith tại Open Philanthropy (cũng có sẵn dưới dạng bản tường thuật), vì đây là bản tổng quan nghiêm ngặt nhất về rủi ro mà tôi có thể tìm thấy. Tôi cũng đã nhờ hơn 30 người có chuyên môn và ý kiến khác nhau về chủ đề này xem xét bài viết. (Hầu hết tất cả đều lo ngại về tầm ảnh hưởng tiềm tàng của AI tiên tiến.)
Vào tháng 5 năm 2023, hàng trăm nhà khoa học AI nổi tiếng và các nhân vật đáng chú ý khác đã ký một tuyên bố cho rằng giảm thiểu rủi ro tuyệt chủng do AI gây ra nên là ưu tiên toàn cầu.
Do đó, khá rõ ràng là có ít nhất một vài chuyên gia đã bày tỏ lo ngại về vấn đề này.
Nhưng mức độ lo ngại của họ đến đâu? Và đây có phải chỉ là quan điểm của một số ít người?
Chúng tôi đã xem xét bốn cuộc khảo sát đối với các nhà nghiên cứu AI được công bố trên NeurIPS và ICML (hai hội nghị về học máy uy tín hàng đầu) từ năm 2016, 2019, 2022 và 2023.8
Điều quan trọng cần lưu ý là các cuộc khảo sát như thế này có thể có sự thiên vị đáng kể trong việc lựa chọn đối tượng. Ví dụ, bạn có thể nghĩ rằng các nhà nghiên cứu tham dự các hội nghị AI hàng đầu có xu hướng lạc quan hơn về AI, vì họ đã được lựa chọn để tin rằng nghiên cứu AI đang tiến triển tốt. Mặt khác, bạn có thể nghĩ rằng các nhà nghiên cứu vốn đã lo ngại về AI sẽ có nhiều khả năng trả lời một cuộc khảo sát về những lo ngại này.9
Tóm lại, đây là những gì chúng tôi phát hiện:
Trong cả bốn cuộc khảo sát, các nhà nghiên cứu trung bình cho rằng khả năng AI sẽ “cực kỳ tốt” là tương đối cao: 20% trong khảo sát năm 2016, 20% trong năm 2019, 10% trong năm 2022 và 10% trong năm 2023.10
Thực tế, các hệ thống AI đã và đang mang lại những tác động tích cực đáng kể, ví dụ như trong chăm sóc y tế hoặc nghiên cứu học thuật.
Tuy nhiên, trong cả bốn cuộc khảo sát, các nhà nghiên cứu cũng ước tính khả năng AI sẽ "cực kỳ xấu (ví dụ: tuyệt chủng loài người)" ở mức tương đối thấp, nhưng cũng không thể xem nhẹ: khoảng 5% trong cuộc khảo sát năm 2016, 2% trong năm 2019, 5% trong năm 2022 và 5% trong năm 2023.11
Trong cuộc khảo sát năm 2022, những người tham gia được hỏi cụ thể về khả năng xảy ra thảm họa hiện sinh do những tiến bộ của AI trong tương lai — và một lần nữa, hơn một nửa số nhà nghiên cứu cho rằng khả năng xảy ra thảm họa hiện sinh là lớn hơn 5%.12
Theo đó, các chuyên gia có ý kiến khác nhau về mức độ rủi ro hiện sinh mà AI gây ra — một loại mối đe dọa mà chúng tôi cho rằng cần được xem xét một cách nghiêm túc về mặt đạo đức.
Điều này phù hợp với hiểu biết của chúng tôi về tình hình nghiên cứu trong lĩnh vực này. Ba trong số các công ty hàng đầu phát triển AI — DeepMind, Anthropic và OpenAI — cũng có các nhóm riêng để tìm ra cách giải quyết các vấn đề an toàn kỹ thuật mà chúng tôi tin rằng, vì những lý do được thảo luận chi tiết dưới đây, có thể dẫn đến mối đe dọa hiện sinhđối với nhân loại.13
Ngoài ra, còn có một số nhóm nghiên cứu học thuật (bao gồm tại MIT, Cambridge, Carnegie Mellon University và UC Berkeley) tập trung vào các vấn đề an toàn kỹ thuật AI tương tự.14
Rất khó để biết chính xác phải rút ra điều gì từ những thông tin này, nhưng chúng tôi tin rằng quan điểm cho rằng có rủi ro thực sự dẫn đến thảm họa hiện sinh là không phải là quan điểm thiểu số trong lĩnh vực AI. Tuy nhiên, một số chuyên gia trong lĩnh vực vẫn cho rằng những rủi ro này bị thổi phồng quá mức.
Tuy nhiên, tại sao chúng tôi lại ủng hộ những người lo ngại hơn? Nói ngắn gọn, đó là vì chúng tôi đã tìm thấy những lập luận thuyết phục cho rằng AI có thể gây ra mối đe dọa tồn vong — những lập luận này sẽ được phân tích chi tiết từng bước dưới đây.
Điều quan trọng là phải nhận ra rằng việc nhiều chuyên gia nhận ra có vấn đề không có nghĩa là mọi thứ đều ổn vì các chuyên gia đã giải quyết được vấn đề. Nhìn chung, chúng tôi cho rằng vấn đề này vẫn bị bỏ qua ở mức độ cao (thêm thông tin về vấn đề này dưới đây), đặc biệt là khi hàng tỷ đô la mỗi năm được chi để phát triển AI.4
(đọc bài Chương 1.1: AI tối tân với Cẩm nang an toàn AI)
Cho đến nay, chúng tôi đã lập luận rằng AI sẽ là một công nghệ mới quan trọng và có khả năng mang lại sự thay đổi.
Chúng tôi cũng thấy có lý do để tin rằng những hệ thống AI mang tính cách mạng như vậy có thể được xây dựng trong tương lai gần.
Bây giờ, chúng ta sẽ chuyển sang câu hỏi cốt lõi: tại sao chúng ta nghĩ điều này lại quan trọng đến vậy?
Có thể có nhiều lý do. Nếu AI tiên tiến mang tính chuyển đổi như những gì chúng ta tưởng tượng, sẽ có nhiều hậu quả quan trọng. Tuy nhiên, ở đây chúng tôi sẽ giải thích vấn đề mà chúng tôi cho là đáng lo ngại nhất: các hệ thống AI có thể gây ra rủi ro bằng cách tìm kiếm và giành quyền lực.
Sau khi suy nghĩ kỹ từng bước, tôi nghĩ rằng có khoảng 1% khả năng xảy ra thảm họa hiện sinh do các hệ thống AI tìm kiếm quyền lực trong thế kỷ này. Đây là dự đoán của tôi sau khi xem xét tất cả các yếu tố, bao gồm các cân nhắc ủng hộ rủi ro (vốn bản thân nó là xác suất) cũng như các lý do tại sao lập luận này có thể sai (một số lý do tôi sẽ thảo luận dưới đây). Điều này khiến tôi thuộc nhóm ít lo lắng nhất trong số các nhân viên của 80,000 Hours, những người có quan điểm trong cuộc khảo sát nhân viên gần đây nhất dao động từ 1–55%, với mức trung bình là 15%.
Chúng tôi cho rằng các hệ thống trong tương lai có ba đặc điểm sau đây có thể gây ra mối đe dọa đặc biệt quan trọng đối với loài người:24
Như chúng ta đã thấy ở trên, chúng ta đã sản xuất ra các hệ thống rất giỏi trong việc thực hiện các nhiệm vụ cụ thể.
Chúng ta cũng đã sản xuất ra các hệ thống lập kế hoạch sơ khai, như AlphaStar, có thể chơi trò chơi chiến lược Starcraft một cách khéo léo, và MuZero, có thể chơi cờ vua, cờ shogi và cờ vây.25
Chúng ta không chắc liệu các hệ thống này có lập kế hoạch để theo đuổi mục tiêu hay không, vì chúng ta không chắc chắn chính xác "có mục tiêu" nghĩa là gì. Tuy nhiên, vì chúng luôn lập kế hoạch để đạt được mục tiêu, nên có vẻ như chúng có mục tiêu theo một nghĩa nào đó.
Hơn nữa, một số hệ thống hiện tại dường như thực sự thể hiện mục tiêu như một phần của mạng nơ-ron của chúng.26
Tuy nhiên, lập kế hoạch trong thế giới thực (thay vì trong trò chơi) phức tạp hơn nhiều, và cho đến nay, chúng tôi chưa biết đến bất kỳ ví dụ rõ ràng nào về hệ thống lập kế hoạch định hướng mục tiêu hoặc hệ thống thể hiện mức độ nhận thức mang tính chiến lược cao.
Nhưng như chúng tôi đã thảo luận, chúng tôi kỳ vọng sẽ thấy những tiến bộ hơn nữa trong thế kỷ này. Và chúng tôi nghĩ rằng những tiến bộ này có khả năng tạo ra các hệ thống có cả ba đặc tính trên.
Đó là bởi vì chúng tôi cho rằng có những động lực đặc biệt mạnh mẽ (như lợi nhuận) để phát triển các hệ thống này. Tóm lại: bởi vì khả năng lập kế hoạch để đạt được mục tiêu và thực hiện kế hoạch đó dường như là một cách đặc biệt mạnh mẽ và phổ biến để tác động đến thế giới.
Hoàn thành công việc — cho dù đó là một công ty bán sản phẩm, một người mua nhà hay một chính phủ xây dựng chính sách — dường như hầu như luôn đòi hỏi những kỹ năng này.
Một ví dụ là giao một mục tiêu cho một hệ thống mạnh mẽ và mong đợi hệ thống đó đạt được mục tiêu đó — thay vì phải hướng dẫn từng bước một. Vì vậy, các hệ thống lập kế hoạch có vẻ như sẽ cực kỳ hữu ích (về mặt kinh tế và chính trị).27
Và nếu các hệ thống cực kỳ hữu ích, sẽ có nhiều động lực để xây dựng chúng. Ví dụ, một AI có thể lập kế hoạch hành động cho một công ty bằng cách được giao mục tiêu tăng lợi nhuận (tức là một CEO AI) có thể mang lại sự giàu có đáng kể cho những người liên quan — một động lực trực tiếp để sản xuất AI như vậy.
Kết quả là, nếu chúng ta có thể xây dựng các hệ thống có những đặc tính này (và theo những gì chúng ta biết, có vẻ như chúng ta sẽ có thể), thì có vẻ như chúng ta sẽ làm như vậy.28
Có những lý do để cho rằng các hệ thống AI lập kế hoạch tiên tiến này sẽ bị mất căn chỉnh. Nghĩa là, chúng sẽ hướng đến những mục tiêu mà chúng ta không mong muốn.29
Có nhiều lý do khiến các hệ thống có thể không hướng đến mục tiêu chính xác mà chúng ta mong muốn. Thứ nhất, chúng ta không biết làm thế nào để sử dụng các kỹ thuật ML hiện đại để đưa ra các mục tiêu chính xác mà chúng ta muốn cho hệ thống (thêm thông tin tại đây).30
Chúng ta sẽ tập trung cụ thể vào một số lý do tại sao các hệ thống có thể theo mặc định bị mất căn chỉnh đến mức phát triển các kế hoạch gây rủi ro cho khả năng ảnh hưởng của loài người đối với thế giới — ngay cả khi chúng ta không muốn mất đi ảnh hưởng đó.31
Chúng ta muốn nói gì khi nói “mặc định”? Về cơ bản, trừ khi chúng ta chủ động tìm ra giải pháp cho một số vấn đề (có thể khá khó khăn), nếu không, chúng ta sẽ tạo ra AI bị mất căn chỉnh một cách nguy hiểm. (Có những lý do khiến điều này có thể sai — chúng ta sẽ thảo luận sau.)
Điều đáng chú ý là mất căn chỉnh không phải là một khả năng thuần túy về mặt lý thuyết (hoặc chỉ xảy ra với AI) — chúng ta luôn thấy mục tiêu mất căn chỉnh ở con người và các tổ chức, và cũng đã thấy ví dụ về mất căn chỉnh trong các hệ thống AI.32
Khung khổ chính trị dân chủ được thiết kế để đảm bảo rằng các chính trị gia đưa ra quyết định có lợi cho xã hội. Tuy nhiên, điều mà các hệ thống chính trị thực sự khen thưởng là chiến thắng trong các cuộc bầu cử, do đó, đó chính là mục tiêu mà nhiều chính trị gia hướng tới.
Đây là một mục tiêu thay thế hợp lý — nếu bạn có kế hoạch cải thiện cuộc sống của người dân, họ có khả năng cao sẽ ủng hộ bạn — nhưng nó không hoàn hảo.
Kết quả là, các chính trị gia làm những việc không rõ ràng là cách tốt nhất để điều hành đất nước, như tăng thuế khi bắt đầu nhiệm kỳ và cắt giảm thuế ngay trước bầu cử.
Có thể nói, những việc hệ thống làm ít nhất là hơi khác so với những gì chúng ta muốn nó làm trong một thế giới hoàn hảo: hệ thống bị mất căn chỉnh.
Các công ty có động lực kiếm lợi nhuận. Bằng cách sản xuất nhiều hơn, và do đó giúp mọi người tiếp cận hàng hóa và dịch vụ với giá rẻ hơn, các công ty kiếm được nhiều tiền hơn.
Điều này đôi khi là một cách thay thế hợp lý để làm cho thế giới trở nên tốt đẹp hơn, nhưng lợi nhuận không thực sự giống với lợi ích của toàn nhân loại (chúng tôi biết đây là một tuyên bố táo bạo). Kết quả là, có những tác động tiêu cực: ví dụ, các công ty sẽ gây ô nhiễm để kiếm tiền mặc dù điều này có hại cho xã hội nói chung.
Một lần nữa, chúng ta có một hệ thống mất căn chỉnh, trong đó những điều hệ thống làm ít nhất là hơi khác với những gì chúng ta muốn nó làm.
DeepMind đã ghi lại các ví dụ về tận dụng kẽ hở thông số: một AI hoạt động tốt theo chức năng phần thưởng được chỉ định (mã hóa ý định của chúng ta đối với hệ thống), nhưng không làm những gì các nhà nghiên cứu mong muốn.
Trong một ví dụ, một cánh tay robot được yêu cầu nắm lấy một quả bóng. Tuy nhiên, phần thưởng được quy định dựa trên việc con người có nghĩ rằng robot đã thành công hay không. Kết quả là, cánh tay robot đã học cách lơ lửng giữa quả bóng và camera, đánh lừa con người rằng nó đã nắm lấy quả bóng.33
Vì vậy, chúng ta biết rằng có thể tạo ra một hệ thống AI mất căn chỉnh.
Đây là luận điểm cốt lõi của bài viết này. Chúng ta sẽ sử dụng cả ba đặc tính đã nêu trước đó: khả năng lập kế hoạch, nhận thức mang tính chiến lược và năng lực tiên tiến.
Để bắt đầu, chúng ta nên nhận ra rằng một hệ thống lập kế hoạch có mục tiêu cũng sẽ phát triển các "mục tiêu công cụ": những điều mà nếu xảy ra sẽ giúp đạt được mục tiêu tổng thể dễ dàng hơn.
Chúng ta luôn sử dụng các mục tiêu công cụ trong các kế hoạch. Ví dụ, một học sinh trung học đang lập kế hoạch cho sự nghiệp của mình có thể nghĩ rằng vào đại học sẽ hữu ích cho triển vọng việc làm trong tương lai. Trong trường hợp này, "vào đại học" sẽ là một mục tiêu công cụ.
Một hệ thống lập kế hoạch AI đủ tiên tiến cũng sẽ bao gồm các mục tiêu công cụ trong kế hoạch tổng thể của mình.
Nếu một hệ thống AI lập kế hoạch cũng có đủ nhận thức mang tính chiến lược, nó sẽ có thể xác định các sự kiện về thế giới thực (bao gồm cả những điều có thể trở thành trở ngại cho bất kỳ kế hoạch nào) và lập kế hoạch dựa trên những sự kiện đó. Điều quan trọng là, những sự kiện này sẽ bao gồm việc tiếp cận các nguồn lực (ví dụ: tiền bạc, máy tính, ảnh hưởng) và năng lực lớn hơn — tức là các hình thức quyền lực — mở ra những cách mới, hiệu quả hơn để đạt được mục tiêu.
Điều này có nghĩa là, theo mặc định, các hệ thống AI lập kế hoạch tiên tiến sẽ có một số mục tiêu công cụ đáng lo ngại:
Có được quyền lực — ví dụ, bằng cách có được nhiều tài nguyên và năng lực hơn.
Điều quan trọng là, một cách rõ ràng để AI có thể đảm bảo rằng nó sẽ tiếp tục tồn tại (và không bị tắt) và mục tiêu của nó sẽ không bao giờ bị thay đổi, đó là giành quyền lực đối với con người có thể ảnh hưởng đến nó (chúng ta sẽ thảo luận ở đây về cách các hệ thống AI có thể thực sự làm được điều đó).
Hơn nữa, các hệ thống AI mà chúng ta đang xem xét có năng lực tiên tiến — có nghĩa là chúng có thể thực hiện một hoặc nhiều nhiệm vụ mang lại quyền lực đáng kể cho con người khi được thực hiện tốt trong thế giới ngày nay. Với năng lực tiên tiến như vậy, những mục tiêu quan trọng này sẽ không nằm ngoài tầm với, và do đó, có vẻ như hệ thống AI sẽ sử dụng năng lực tiên tiến của mình để giành quyền lực như một phần của việc thực hiện kế hoạch.
Nếu chúng ta không muốn các hệ thống AI mà chúng ta tạo ra lấy quyền lực khỏi tay chúng ta, đây sẽ là một hình thức mất căn chỉnh đặc biệt nguy hiểm.
Trong các kịch bản cực đoan nhất, một hệ thống AI lập kế hoạch với năng lực đủ tiên tiến có thể thành công trong việc tước bỏ hoàn toàn quyền lực của chúng ta.
Để kiểm tra trực quan (rất không nghiêm ngặt) luận điểm này, hãy thử áp dụng nó vào con người.
Con người có nhiều mục tiêu khác nhau.
Đối với nhiều mục tiêu trong số này, một số hình thức tìm kiếm quyền lực là có lợi: mặc dù không phải ai cũng tìm kiếm quyền lực, nhưng nhiều người làm vậy (dưới hình thức giàu có hoặc địa vị xã hội hoặc chính trị), vì nó hữu ích để đạt được những gì họ muốn. Điều này không phải là thảm họa (thường là vậy!) bởi vì, là con người:
(Chúng ta sẽ thảo luận về việc con người có thực sự tìm kiếm quyền lực hay không sau này.)
Một AI đủ tiên tiến sẽ không có những hạn chế đó.
Mục đích của tất cả những điều này không phải là để nói rằng bất kỳ hệ thống AI lập kế hoạch tiên tiến nào cũng nhất thiết sẽ tìm cách giành quyền lực. Thay vào đó, nó chỉ ra rằng, trừ khi chúng ta tìm ra cách thiết kế các hệ thống không có lỗ hổng này, chúng ta sẽ phải đối mặt với rủi ro đáng kể.
Có vẻ như hoàn toàn khả thi để chúng ta có thể tạo ra một hệ thống AI không bị mất căn chỉnh theo cách này, và do đó ngăn chặn mọi sự mất năng lực. Dưới đây là một số chiến lược mà chúng ta có thể áp dụng (cùng với một số lý do khiến chúng khó thực hiện trong thực tế):34
Tuy nhiên, để bất kỳ chiến lược nào có hiệu quả, nó cần phải đáp ứng cả hai điều sau:
Cuối cùng, bằng cách xem xét tình trạng nghiên cứu về chủ đề này và trao đổi với các chuyên gia trong lĩnh vực này, chúng tôi cho rằng hiện tại không có cách nào được biết để xây dựng các hệ thống AI căn chỉnh có khả năng đáp ứng cả hai tiêu chí này.
Vậy: đó là luận điểm cốt lõi.
Có nhiều biến thể của luận điểm này. Một số người cho rằng hệ thống AI có thể dần dần định hình tương lai của chúng ta thông qua các hình thức ảnh hưởng tinh vi hơn, nhưng vẫn có thể dẫn đến thảm họa hiện sinh; những người khác cho rằng hình thức mất năng lực có khả năng xảy ra nhất thực tế là giết chết tất cả mọi người. Chúng tôi không chắc thảm họa sẽ diễn ra như thế nào, nhưng đã cố gắng trình bày rõ luận điểm cốt lõi theo quan điểm của chúng tôi: AI mang đến rủi ro hiện sinh.
Chắc chắn có những lý do khiến lập luận này có thể không đúng! Chúng tôi sẽ trình bày một số lý do mà chúng tôi cho là mạnh mẽ nhất dưới đây. Nhưng nhìn chung, có vẻ như đối với ít nhất một số loại hệ thống AI lập kế hoạch tiên tiến, sẽ khó xây dựng các hệ thống không tìm kiếm quyền lực theo cách nguy hiểm này hơn là xây dựng các hệ thống làm điều đó.
Khi chúng ta nói rằng chúng ta lo ngại về thảm họa hiện sinh, chúng ta không chỉ lo ngại về rủi ro tuyệt chủng. Điều này là do nguồn gốc của lo ngại của chúng ta bắt nguồn từ chủ nghĩa dài hạn: ý tưởng rằng cuộc sống của tất cả các thế hệ tương lai đều quan trọng, và vì vậy, việc bảo vệ lợi ích của họ là vô cùng quan trọng.
Điều này có nghĩa là bất kỳ sự kiện nào có thể ngăn cản tất cả các thế hệ tương lai sống một cuộc sống trọn vẹn với những gì bạn cho là có giá trị (cho dù đó là hạnh phúc, công bằng, vẻ đẹp hay sự thịnh vượng chung) đều được coi là thảm họa hiện sinh.
Có vẻ như chúng ta khó có thể giành lại quyền lực từ một hệ thống đã thành công trong việc tước quyền của loài người. Kết quả là, toàn bộ tương lai — mọi thứ xảy ra với sự sống trên Trái đất, trong suốt thời gian còn lại — sẽ bị quyết định bởi các mục tiêu của những hệ thống mà mặc dù do chúng ta xây dựng, nhưng không phù hợp với chúng ta. Có thể những mục tiêu đó sẽ tạo ra một tương lai dài và thịnh vượng, nhưng chúng tôi thấy ít lý do để tin tưởng.37
Điều này không có nghĩa là chúng tôi không nghĩ rằng AI cũng gây ra rủi ro tuyệt chủng loài người. Thật vậy, chúng tôi nghĩ rằng khiến loài người tuyệt chủng là một cách rất khả thi để hệ thống AI có thể đảm bảo hoàn toàn và vĩnh viễn rằng chúng ta không bao giờ có thể giành lại quyền lực.
Chắc chắn không ai thực sự xây dựng hoặc sử dụng AI mất căn chỉnh nếu họ biết nó có thể gây ra hậu quả khủng khiếp như vậy, phải không?
Thật không may, có ít nhất hai lý do khiến mọi người có thể tạo ra và sau đó triển khai AI mất căn chỉnh — chúng ta sẽ xem xét từng lý do một:38
Hãy tưởng tượng có một nhóm các nhà nghiên cứu đang cố gắng xác định, trong một môi trường thử nghiệm, liệu hệ thống mà họ đã xây dựng có được căn chỉnh hay không. Chúng tôi đã lập luận rằng một AI lập kế hoạch thông minh sẽ muốn cải thiện khả năng của mình để thực hiện những thay đổi nhằm đạt được mục tiêu, và điều đó hầu như luôn dễ dàng hơn nếu nó được triển khai trong thế giới thực, nơi có nhiều hành động hơn có thể thực hiện.
Kết quả là, bất kỳ AI mất căn chỉnh nào đủ tinh vi sẽ cố gắng hiểu những gì các nhà nghiên cứu muốn nó làm và ít nhất là giả vờ làm điều đó, đánh lừa các nhà nghiên cứu để họ nghĩ rằng nó đã được căn chỉnh. (Ví dụ: một hệ thống học tăng cường có thể được thưởng cho một số hành vi rõ ràng trong quá trình đào tạo, bất kể nó thực sự đang làm gì.)
Hy vọng rằng chúng ta sẽ nhận thức được loại hành vi này và có thể phát hiện ra nó. Tuy nhiên, phát hiện một AI đủ tiên tiến trong việc lừa dối có vẻ khó hơn phát hiện một con người nói dối, điều không phải lúc nào cũng dễ dàng. Ví dụ, một hệ thống AI lừa dối đủ thông minh có thể đánh lừa chúng ta nghĩ rằng chúng ta đã giải quyết được vấn đề lừa dối của AI, ngay cả khi chúng ta chưa làm được điều đó.
Nếu các hệ thống AI giỏi trong việc lừa dối và có năng lực đủ cao, một chiến lược hợp lý cho hệ thống như vậy có thể là lừa dối con người hoàn toàn cho đến khi hệ thống có cách đảm bảo có thể vượt qua mọi sự kháng cự đối với mục tiêu của mình.
Chúng ta cũng có thể dự đoán rằng một số người có khả năng triển khai AI mất căn chỉnh sẽ tiếp tục tiến hành bất chấp các sự kiện cảnh cáo về sự mất căn chỉnh, do động lực cạnh tranh — những người phát triển AI muốn làm điều đó trước bất kỳ ai khác.
Ví dụ, nếu bạn đang phát triển AI để cải thiện chiến lược quân sự hoặc chính trị, sẽ hữu ích hơn nhiều nếu không có đối thủ nào của bạn có AI mạnh tương tự.
Những động cơ này thậm chí còn áp dụng cho những người cố gắng xây dựng AI với hy vọng sử dụng nó để làm cho thế giới trở nên tốt đẹp hơn.
Ví dụ, giả sử bạn đã dành nhiều năm nghiên cứu và phát triển một hệ thống AI mạnh mẽ, và tất cả những gì bạn muốn là sử dụng nó để làm cho thế giới trở nên tốt đẹp hơn. Đơn giản hóa vấn đề, giả sử có hai khả năng:
AI sẽ mất căn chỉnh đến mức chiếm quyền lực và chấm dứt vĩnh viễn sự kiểm soát của loài người đối với tương lai.Giả sử bạn nghĩ rằng có 90% khả năng bạn sẽ thành công trong việc xây dựng một AI phù hợp. Nhưng công nghệ thường phát triển với tốc độ tương tự trong toàn xã hội, vì vậy rất có thể ai đó khác cũng sẽ sớm phát triển một AI mạnh mẽ.
Và bạn nghĩ rằng họ ít thận trọng hơn hoặc ít vị tha hơn, vì vậy bạn nghĩ rằng AI của họ chỉ có 80% khả năng được căn chỉnh với các mục tiêu tốt và có 20% khả năng gây ra thảm họa hiện sinh. Và chỉ khi bạn đạt được điều đó trước, AI có lợi hơn của bạn mới có thể chiếm ưu thế. Kết quả là, bạn có thể quyết định tiếp tục triển khai AI của mình, chấp nhận rủi ro 10%.
Cho đến nay, chúng tôi đã mô tả những gì mà phần lớn các nhà nghiên cứu trong lĩnh vực này7 cho là rủi ro hiện sinh chính từ những tiến bộ tiềm năng của AI, phụ thuộc chủ yếu vào việc AI tìm kiếm quyền lực để đạt được mục tiêu của mình.
Nếu chúng ta có thể ngăn chặn hành vi tìm kiếm quyền lực, chúng ta sẽ giảm đáng kể rủi ro hiện sinh.
Tuy nhiên, ngay cả khi thành công, vẫn còn những rủi ro hiện sinh mà AI có thể gây ra.
Có ít nhất hai cách mà những rủi ro này có thể phát sinh:
Chúng tôi kỳ vọng rằng các hệ thống AI sẽ giúp tăng tốc độ tiến bộ khoa học.39 Mặc dù tự động hóa mang lại những lợi ích rõ ràng, ví dụ như sự phát triển nhanh chóng của y học mới, một số hình thức phát triển công nghệ có thể gây ra các mối đe dọa, bao gồm cả các mối đe dọa hiện sinh, đối với loài người.
Chúng ta biết một số lĩnh vực cụ thể trong đó AI tiên tiến có thể làm tăng rủi ro hiện sinh, mặc dù có thể còn những lĩnh vực khác mà chúng ta chưa nghĩ đến.
Vào năm 2022, Collaborations Pharmaceuticals — một công ty nghiên cứu nhỏ ở Bắc Carolina — đang xây dựng một mô hình AI để giúp xác định cấu trúc của các loại thuốc mới. Trong quá trình này, họ đã huấn luyện mô hình để loại bỏ các loại thuốc mà nó dự đoán là độc hại. Điều này chỉ có một vấn đề: bạn có thể chạy ngược lại dự đoán độc tính để phát minh ra các loại thuốc độc hại mới.
Một số sự kiện chết chóc nhất trong lịch sử loài người là các đại dịch. Khả năng lây nhiễm, nhân lên, giết chết và lây lan của các mầm bệnh — thường không thể phát hiện — khiến chúng trở nên cực kỳ nguy hiểm.
Ngay cả khi không có AI, sự tiến bộ của công nghệ sinh học cũng gây ra rủi ro cực cao. Nó có thể tạo cơ hội cho các cá nhân hoặc tổ chức khủng bố gây ra các sự kiện gây thương vong hàng loạt.
Những tiến bộ trong AI có khả năng làm cho công nghệ sinh học trở nên nguy hiểm hơn.
Ví dụ:
Nếu AI có thể thúc đẩy tốc độ tiến bộ khoa học và công nghệ, những rủi ro này có thể bị khuếch đại và gia tăng — khiến công nghệ nguy hiểm trở nên phổ biến hơn hoặc tăng sức tàn phá của nó.42
Trong cuộc khảo sát năm 2023 với các chuyên gia AI, 73% số người được hỏi cho biết họ “cực kỳ” hoặc “rất” lo ngại rằng trong tương lai, AI sẽ cho phép “các nhóm nguy hiểm tạo ra các công cụ mạnh mẽ (ví dụ: virus nhân tạo)”.43
Phần lớn bài viết này thảo luận về rủi ro từ các hệ thống AI tìm kiếm quyền lực phát sinh một cách vô tình do mất căn chỉnh.
Tuy nhiên, chúng ta không thể loại trừ khả năng một số người có thể cố ý tạo ra các tác nhân AI bất chính nhằm tước quyền lực của loài người. Điều này có vẻ khó tưởng tượng, nhưng nhiều hình thức ý thức hệ cực đoan đã thúc đẩy con người thực hiện các kế hoạch bạo lực triệt để, thậm chí là tự hủy hoại bản thân.44
AI đã có thể được sử dụng trong các cuộc tấn công mạng, chẳng hạn như lừa đảo, và AI mạnh mẽ hơn có thể gây ra những thách thức lớn hơn về an ninh thông tin (mặc dù nó cũng có thể hữu ích trong phòng thủ mạng).
Bản thân chiến tranh mạng dựa trên AI khó có thể gây ra mối đe dọa hiện sinh cho loài người. Ngay cả những cuộc tấn công mạng quy mô xã hội gây thiệt hại và tốn kém nhất cũng không thể dẫn đến sự tuyệt chủng của loài người.
Tuy nhiên, các cuộc tấn công mạng sử dụng AI có thể cung cấp quyền truy cập vào các công nghệ nguy hiểm khác, như vũ khí sinh học, kho vũ khí hạt nhân hoặc vũ khí tự động. Vì vậy, vũ khí mạng liên quan đến AI có thể gây ra những rủi ro hiện sinh thực sự, nhưng rất có thể chúng sẽ phải đối mặt với một rủi ro hiện sinh khác.
Năng lực mạng của các hệ thống AI cũng có liên quan đến cách một AI tìm kiếm quyền lực có thể thực sự nắm quyền.
Nếu hệ thống AI nói chung đẩy nhanh tốc độ tiến bộ khoa học và công nghệ, chúng tôi cho rằng khả năng chúng ta phát minh ra các công nghệ nguy hiểm mới là khá cao.
Ví dụ, chế tạo chính xác bậc nguyên tử, đôi khi được gọi là công nghệ nano, đã được giả định là một mối đe dọa tồn vong — và đây là một công nghệ hợp lý về mặt khoa học mà AI có thể giúp chúng ta phát minh ra sớm hơn nhiều so với bình thường.
Trong cuốn sách The Precipice, Toby Ord ước tính khả năng xảy ra thảm họa hiện sinh vào năm 2120 do “rủi ro do con người gây ra không lường trước được” là 1/30. Ước tính này cho thấy có thể có những phát hiện khác, có thể liên quan đến vật lý chưa được hiểu rõ, có thể dẫn đến việc tạo ra các công nghệ với hậu quả thảm khốc.45
Một chính phủ độc tài được hỗ trợ bởi AI có thể tự động hóa hoàn toàn việc giám sát và đàn áp công dân, cũng như ảnh hưởng đáng kể đến thông tin mà người dân tiếp cận, có thể khiến việc phối hợp hành động chống lại chế độ đó trở nên bất khả thi.
AI đã và đang hỗ trợ chính phủ giám sát công dân của mình.
NSA đang sử dụng AI để giúp lọc lượng dữ liệu khổng lồ mà họ thu thập, giúp tăng tốc đáng kể khả năng xác định và dự đoán hành động của những người mà họ đang giám sát. Ở Trung Quốc, AI ngày càng được sử dụng nhiều hơn cho nhận dạng khuôn mặt và dự báo tội phạm, bao gồm tự động phân loại chủng tộc và báo động tự động khi những người được phân loại là mối đe dọa tiềm ẩn xâm nhập vào một số địa điểm công cộng.
Các loại công nghệ giám sát này có khả năng sẽ được cải thiện đáng kể, từ đó tăng cường khả năng kiểm soát dân số của chính phủ.
Đến một lúc nào đó, các chính phủ độc tài có thể sử dụng rộng rãi công nghệ liên quan đến AI để:
Một lần nữa, trong cuộc khảo sát năm 2023 với các chuyên gia AI, 73% số người được hỏi bày tỏ lo ngại "cực kỳ" hoặc "rất lớn" rằng trong tương lai, các nhà cai trị độc tài có thể "sử dụng AI để kiểm soát dân chúng".43
Nếu một chế độ đạt được một hình thức toàn trị thực sự ổn định, nó có thể làm cuộc sống của người dân trở nên tồi tệ hơn trong một thời gian dài, tạo ra một kịch bản đặc biệt đáng sợ có thể phát sinh từ AI.
Chúng tôi lo ngại rằng xung đột giữa các cường quốc cũng có thể gây ra mối đe dọa đáng kể cho thế giới của chúng ta, và những tiến bộ trong AI dường như có thể thay đổi bản chất của chiến tranh — thông qua vũ khí tự động gây chết người46 hoặc thông qua việc ra quyết định tự động.47
Trong một số trường hợp, chiến tranh giữa các cường quốc có thể đe dọa đến sự tồn vong của loài người — ví dụ như trong trường hợp xung đột hạt nhân. Một số ý kiến cho rằng vũ khí tự động gây chết người, nếu đủ mạnh và được sản xuất hàng loạt, có thể trở thành một loại vũ khí hủy diệt hàng loạt mới.
Và nếu một cá nhân sản xuất ra hệ thống AI đặc biệt mạnh, điều này có thể được coi là mang lại cho họ lợi thế chiến lược quyết định. Kết quả như vậy, hoặc thậm chí là dự đoán về kết quả như vậy, có thể gây ra sự bất ổn nghiêm trọng.
Hãy tưởng tượng rằng Mỹ đang nỗ lực sản xuất một AI lập kế hoạch đủ thông minh để đảm bảo rằng Nga hoặc Trung Quốc không bao giờ có thể phóng thành công một vũ khí hạt nhân khác. Điều này có thể thúc đẩy các đối thủ của cá nhân đó thực hiện một cuộc tấn công trước khi các kế hoạch do AI phát triển có thể được đưa vào thực hiện.
Điều này là do răn đe hạt nhân có thể hưởng lợi từ sự cân bằng giữa các khả năng của các cường quốc hạt nhân, ở chỗ mối đe dọa đáp trả bằng vũ khí hạt nhân đối với một cuộc tấn công trước là đáng tin và do đó có tác dụng răn đe đối với một cuộc tấn công trước. Những tiến bộ trong AI, có thể được áp dụng trực tiếp vào lực lượng hạt nhân, có thể tạo ra sự mất cân bằng trong năng lực của các quốc gia sở hữu vũ khí hạt nhân. Điều này có thể bao gồm cải thiện hệ thống cảnh báo sớm, hệ thống phòng không và các cuộc tấn công mạng làm vô hiệu hóa vũ khí.
Ví dụ, nhiều quốc gia sử dụng tên lửa đạn đạo phóng từ tàu ngầm như một phần của hệ thống răn đe hạt nhân — ý tưởng là nếu vũ khí hạt nhân có thể được giấu dưới đại dương, chúng sẽ không bao giờ bị phá hủy trong đòn tấn công đầu tiên. Điều này có nghĩa là chúng luôn có thể được sử dụng để phản công, và do đó đóng vai trò răn đe hiệu quả chống lại các đòn tấn công đầu tiên. Tuy nhiên, AI có thể làm cho việc phát hiện tàu ngầm dưới nước trở nên dễ dàng hơn nhiều, cho phép phá hủy chúng trong đòn tấn công đầu tiên — loại bỏ yếu tố răn đe này.
Nhiều kịch bản gây mất ổn định khác cũng có thể xảy ra.
Một báo cáo của Viện Nghiên cứu Hòa bình Quốc tế Stockholm cho thấy, mặc dù AI có thể có tác dụng ổn định (ví dụ như làm cho mọi người cảm thấy dễ bị tổn thương hơn, giảm khả năng leo thang), nhưng tác động gây mất ổn định có thể xuất hiện ngay cả trước khi những tiến bộ trong AI được triển khai. Điều này là do niềm tin của một quốc gia rằng đối thủ của họ có năng lực hạt nhân mới có thể đủ để phá vỡ sự cân bằng răn đe mong manh.
May mắn thay, cũng có những cách khả thi để AI có thể giúp ngăn chặn việc sử dụng vũ khí hạt nhân — ví dụ như bằng cách cải thiện khả năng phát hiện phóng tên lửa hạt nhân của các quốc gia, từ đó giảm khả năng xảy ra báo động sai như vụ suýt gây ra chiến tranh hạt nhân vào năm 1983.
Nhìn chung, chúng tôi không chắc chắn liệu AI có làm tăng đáng kể rủi ro xung đột hạt nhân hoặc xung đột thông thường trong ngắn hạn hay không — thậm chí nó có thể làm giảm rủi ro này. Tuy nhiên, chúng tôi cho rằng cần chú ý đến những hậu quả thảm khốc có thể xảy ra và thực hiện các biện pháp hợp lý để giảm thiểu khả năng xảy ra.
Chúng tôi cũng quan tâm đến các vấn đề sau:
Đây là một câu hỏi rất khó để trả lời.
Chúng ta không có ví dụ nào trong quá khứ để xác định tần suất xảy ra thảm họa liên quan đến AI.
Tất cả những gì chúng ta có là các lập luận (như những lập luận chúng ta đã trình bày ở trên) và dữ liệu ít liên quan như lịch sử phát triển công nghệ. Và chúng ta chắc chắn không thể khẳng định rằng các lập luận chúng ta đã trình bày là hoàn toàn chính xác.
Hãy xem xét lập luận mà chúng tôi đã đưa ra trước đó về sự nguy hiểm của các hệ thống AI tìm kiếm quyền lực, dựa trên báo cáo của Carlsmith. Ở phần cuối báo cáo, Carlsmith đưa ra một số dự đoán sơ bộ về khả năng mỗi giai đoạntrong lập luận của ông là chính xác (với điều kiện giai đoạn trước đó là chính xác):
Nhân các con số này với nhau, Carlsmith ước tính rằng có 5% khả năng lập luận của ông là đúng và sẽ có một thảm họa hiện sinh do các hệ thống AI tìm kiếm quyền lực mất căn chỉnh vào năm 2070. Khi chúng tôi nói chuyện với Carlsmith, ông lưu ý rằng trong năm giữa thời điểm viết báo cáo và xuất bản bài báo này, ước tính tổng thể của ông về khả năng xảy ra thảm họa hiện sinh từ các hệ thống AI tìm kiếm quyền lực vào năm 2070 đã tăng lên >10%.
Theo quan điểm của Carlsmith, xác suất tổng thể của thảm họa hiện sinh từ AI sẽ cao hơn con số này, vì còn có những con đường khác dẫn đến thảm họa — như những con đường được thảo luận trong phần trước — mặc dù chúng tôi cho rằng những con đường này có khả năng dẫn đến thảm họa hiện sinh thấp hơn nhiều.
Theo một ước tính khác, trong cuốn The Precipice, nhà triết học và cố vấn của 80,000 Hours Toby Ord ước tính rủi ro xảy ra thảm họa hiện sinh vào năm 2120 là 1/6 (từ bất kỳ nguyên nhân nào), và 60% rủi ro này đến từ AI mất căn chỉnh — tổng cộng là 10% rủi ro xảy ra thảm họa hiện sinh từ AI mất căn chỉnh vào năm 2120.
Một cuộc khảo sát năm 2021 với 44 nhà nghiên cứu đang làm việc để giảm thiểu rủi ro hiện sinh từ AI cho thấy ước tính rủi ro trung bình là 32,5% — câu trả lời cao nhất là 98% và thấp nhất là 2%.49 Rõ ràng là có rất nhiều sai lệch trong lựa chọn ở đây: mọi người chọn làm việc để giảm thiểu rủi ro từ AI vì họ cho rằng điều này đặc biệt quan trọng, vì vậy chúng ta nên dự kiến ước tính từ cuộc khảo sát này sẽ cao hơn đáng kể so với ước tính từ các nguồn khác. Tuy nhiên, rõ ràng vẫn còn nhiều bất ổn về mức độ rủi ro này và có sự chênh lệch lớn trong các câu trả lời.
Tất cả những con số này đều cao đến mức đáng kinh ngạc và đáng lo ngại. Chúng tôi không thể chắc chắn rằng tất cả các lập luận đều đúng. Tuy nhiên, đây là những dự đoán cao nhất về mức độ rủi ro hiện sinh của bất kỳ vấn đề nào mà chúng tôi đã xem xét (như đại dịch nhân tạo, xung đột giữa các cường quốc, biến đổi khí hậu hoặc chiến tranh hạt nhân).
Tuy nhiên, tôi nghĩ có những lý do khiến việc đưa ra dự đoán về rủi ro từ AI khó hơn các rủi ro khác – và có thể có những lý do để cho rằng các ước tính mà chúng tôi đã trích dẫn ở trên là quá cao một cách có hệ thống.
Nếu buộc phải đưa ra một con số, tôi sẽ nói khoảng 1%. Con số này bao gồm cả những cân nhắc ủng hộ và phản đối lập luận này.
Tôi không lo lắng bằng các nhân viên khác của 80,000 Hours — quan điểm của chúng tôi là rủi ro nằm trong khoảng 3% đến 50%.
Tất cả những điều này cho thấy, các lập luận ủng hộ ước tính rủi ro hiện sinh từ AI cao như vậy là thuyết phục — khiến rủi ro từ AI trở thành một trong những vấn đề cấp bách nhất mà nhân loại phải đối mặt.
Chúng tôi cho rằng một trong những điều quan trọng nhất mà quý vị có thể làm là giúp giảm thiểu những rủi ro nghiêm trọng nhất mà AI gây ra.
Điều này không chỉ vì chúng tôi cho rằng những rủi ro này là cao, mà còn vì chúng tôi tin rằng có những việc thực tế mà chúng ta có thể làm để giảm thiểu những rủi ro này.
Chúng tôi biết hai cách chính mà mọi người đang làm để giảm thiểu những rủi ro này:
Có rất nhiều cách để đóng góp cho công việc này. Trong phần này, chúng tôi sẽ thảo luận về nhiều cách tiếp cận rộng rãi trong cả hai lĩnh vực để minh họa rằng có những việc chúng ta có thể làm để giải quyết những rủi ro này. Dưới đây, chúng tôi sẽ thảo luận về các loại nghề nghiệp mà quý vị có thể theo đuổi để làm việc trong các lĩnh vực này.
Lợi ích của AI mang tính chuyển đổi có thể rất lớn, và có nhiều cá nhân khác nhau tham gia (hoạt động ở các quốc gia khác nhau), điều này có nghĩa là sẽ rất khó để ngăn chặn hoàn toàn sự phát triển của nó.
(Ngoài ra, ngay cả khi có thể ngăn chặn, đó cũng không phải là một ý tưởng hay — vì điều đó có nghĩa là từ bỏ lợi ích cũng như ngăn chặn rủi ro.)
Do đó, chúng tôi cho rằng sẽ hợp lý hơn nếu tập trung vào việc đảm bảo sự phát triển này an toàn — có nghĩa là nó có khả năng cao tránh được tất cả các thất bại thảm khốc nêu trên.
Một cách để làm điều này là cố gắng phát triển các giải pháp kỹ thuật để ngăn chặn loại hành vi tìm kiếm quyền lực chúng ta đã thảo luận trước đó — điều này thường được gọi là làm việc về an toàn AI kỹ thuật, đôi khi được gọi tắt là “an toàn AI”.
Có nhiều phương pháp để đảm bảo an toàn kỹ thuật cho AI, bao gồm:
Xem tổng quan của Neel Nanda về bối cảnh căn chỉnh AI để biết thêm chi tiết.
Để giảm thiểu những rủi ro nghiêm trọng nhất từ AI, cần có những quyết định và chính sách cấp cao hợp lý, cả ở các công ty AI và chính phủ.
Khi AI ngày càng phát triển và thu hút sự quan tâm của khách hàng và nhà đầu tư, các chính phủ đã thể hiện sự quan tâm đến việc quản lý công nghệ này. Một số chính phủ đã thực hiện những bước quan trọng để đóng vai trò trong việc quản lý sự phát triển của AI, bao gồm:
Còn nhiều việc phải làm để giảm thiểu những rủi ro lớn nhất, bao gồm đánh giá liên tục bối cảnh quản trị AI để đánh giá tiến độ chung.
Những người làm việc trong lĩnh vực chính sách AI đã đề xuất một loạt các phương pháp để giảm thiểu rủi ro khi hệ thống AI ngày càng trở nên mạnh mẽ hơn.
Chúng tôi không nhất thiết ủng hộ tất cả các ý tưởng dưới đây, nhưng sau đây là danh sách một số phương pháp chính sách nổi bật có thể nhằm mục đích giảm thiểu những nguy hiểm lớn nhất từ AI:51
Chi tiết, lợi ích và nhược điểm của nhiều ý tưởng này vẫn chưa được làm rõ, vì vậy điều quan trọng là chúng ta phải nghiên cứu thêm. Danh sách này không đầy đủ — có thể còn có các can thiệp chính sách và chiến lược quản trị quan trọng khác đáng được theo đuổi.
Chúng ta cũng cần nhiều nghiên cứu dự báo hơn về những gì có thể xảy ra với AI, chẳng hạn như công việc được thực hiện tại Epoch AI.
Trong năm 2022, chúng tôi ước tính có khoảng 400 người trên toàn thế giới làm việc trực tiếp để giảm thiểu khả năng xảy ra thảm họa hiện sinh liên quan đến AI (với độ tin cậy 90%, dao động trong khoảng 200 đến 1.000).
Trong số này, khoảng 3/4 làm việc trong lĩnh vực nghiên cứu kỹ thuật an toàn AI, phần còn lại chia cho nghiên cứu chiến lược (và quản trị khác) và vận động.5 Chúng tôi cũng ước tính có khoảng 800 người làm việc trong các vai trò bổ trợ, nhưng con số này còn rất không chắc chắn.3
Trong cuốn The Precipice, Ord ước tính có khoảng 10 đến 50 triệu đô la được chi cho việc giảm thiểu rủi ro từ AI trong năm 2020.
Con số này có vẻ rất lớn, nhưng chúng ta đang chi khoảng 1.000 lần số tiền đó4 để đẩy nhanh sự phát triển của AI mang tính chuyển đổi thông qua nghiên cứu năng lực thương mại và kỹ thuật tại các công ty AI lớn.
Để so sánh 50 triệu đô la chi cho an toàn AI trong năm 2020 với các rủi ro nổi tiếng khác, chúng ta hiện đang chi vài trăm tỷ mỗi năm để đối phó với biến đổi khí hậu.
Vì lĩnh vực này bị thiếu quan tâm và có rủi ro rất cao, chúng tôi cho rằng tầm ảnh hưởng của quý vị khi làm việc trong lĩnh vực rủi ro từ AI có thể cao hơn nhiều so với làm việc trong nhiều lĩnh vực khác — đó là lý do tại sao hai con đường sự nghiệp hàng đầu mà chúng tôi khuyên bạn nên theo đuổi để tạo ra sự thay đổi tích cực lớn cho thế giới là an toàn kỹ thuật AI và nghiên cứu và triển khai chính sách AI.
Như đã đề cập ở trên, chúng tôi biết hai cách chính để giúp giảm thiểu rủi ro hiện sinh từ AI:
Cách tốt nhất để bạn có thể giúp đỡ là theo đuổi sự nghiệp trong một trong hai lĩnh vực này hoặc trong một lĩnh vực hỗ trợ.
Bước đầu tiên là tìm hiểu thêm về các công nghệ, vấn đề và giải pháp khả thi. Chúng tôi đã tổng hợp một số tài liệu tham khảo yêu thích của mình tại đây, và khuyến nghị hàng đầu của chúng tôi là xem chương trình đào tạo căn chỉnh kỹ thuật từ AGI Safety Fundamentals.
Nếu quý vị quan tâm đến sự nghiệp trong lĩnh vực an toàn AI kỹ thuật, nơi tốt nhất để bắt đầu là bài đánh giá nghề nghiệp của chúng tôi về công việc của một nhà nghiên cứu an toàn AI.
Nếu quý vị muốn tìm hiểu thêm về an toàn AI kỹ thuật như một lĩnh vực nghiên cứu — ví dụ: các kỹ thuật, trường phái tư tưởng và mô hình mối đe dọa khác nhau — chúng tôi khuyên quý vị nên xem chương trình học về căn chỉnh kỹ thuậttừ AGI Safety Fundamentals.
Điều quan trọng cần lưu ý là quý vị không cần phải là một học giả hoặc chuyên gia về AI hoặc an toàn AI để đóng góp cho nghiên cứu an toàn AI. Ví dụ, kỹ sư phần mềm được cần ở nhiều nơi tiến hành nghiên cứu an toàn kỹ thuật, và chúng tôi cũng nêu bật thêm các vai trò khác dưới đây.
Quý vị có thể xem danh sách các tổ chức quan trọng nơi quý vị có thể làm công việc này trong bài đánh giá nghề nghiệp đầy đủ.
Nếu bạn quan tâm đến sự nghiệp trong lĩnh vực quản trị và chính sách AI, nơi tốt nhất để bắt đầu là bài đánh giá nghề nghiệp về quản trị và chính sách AI của chúng tôi.
Bạn không cần phải là một quan chức mặc bộ vest xám để có sự nghiệp trong lĩnh vực quản trị và chính sách AI — có nhiều vai trò phù hợp với nhiều bộ kỹ năng khác nhau. Đặc biệt, những người có kỹ năng kỹ thuật trong học máy và các lĩnh vực liên quan là rất cần thiết cho công việc quản trị (mặc dù những kỹ năng đó không phải là bắt buộc).
Chúng tôi chia con đường sự nghiệp này thành sáu loại vai trò khác nhau:
Chúng tôi cũng có các bài viết cụ thể về làm việc trong lĩnh vực chính sách AI của Hoa Kỳ và các con đường an toàn và quản trị AI liên quan đến Trung Quốc.
Và bạn có thể tìm hiểu thêm về nơi cụ thể bạn có thể làm việc trong con đường sự nghiệp này trong bài đánh giá sự nghiệp của chúng tôi.
Nếu bạn mới làm quen với chủ đề này và muốn tìm hiểu thêm về quản trị AI, chúng tôi khuyên bạn nên xem chương trình đào tạo về quản trị từ AGI safety fundamentals.
Ngay cả trong một tổ chức nghiên cứu, khoảng một nửa số nhân viên sẽ thực hiện các nhiệm vụ khác cần thiết để tổ chức hoạt động hiệu quả nhất và tạo ra tác động. Có những người làm việc hiệu quả trong các vai trò này là rất quan trọng.
Chúng tôi cho rằng tầm quan trọng của những vai trò này thường bị đánh giá thấp vì công việc ít được chú ý. Do đó, chúng tôi đã viết một số bài đánh giá nghề nghiệp về các lĩnh vực này để giúp nhiều người tham gia vào các nghề nghiệp này và thành công, bao gồm:
An toàn AI là một vấn đề lớn và cần sự hỗ trợ từ những người làm nhiều công việc khác nhau.
Một cách hỗ trợ quan trọng là làm việc trong một vai trò hướng nguồn lực hoặc con người vào rủi ro từ AI, thay vì làm việc trực tiếp với vấn đề. Chúng tôi đã xem xét một số con đường sự nghiệp theo hướng này, bao gồm:
Tất cả những điều này đều có thể xảy ra sai sót, vì vậy bước đầu tiên là tìm hiểu kỹ về vấn đề.
Ngoài nghiên cứu an toàn, còn có các vai trò kỹ thuật khác có thể đóng góp, như: