Các hệ thống AI theo đuổi quyền lực

Tác giả:
Benjamin Hilton và đội ngũ 80,000 Hours
03/2025
[?]
phút đc
Xuất bản gốc tại
80,000 Hours
Các hệ thống AI theo đuổi quyền lực
Bài này là đoạn trích từ "Ngăn chặn thảm họa liên quan đến trí tuệ nhân tạo"

Chúng tôi cũng thấy có lý do để tin rằng những hệ thống AI mang tính cách mạng như vậy có thể được xây dựng trong tương lai gần.

Bây giờ, chúng ta sẽ chuyển sang câu hỏi cốt lõi: tại sao chúng ta nghĩ điều này lại quan trọng đến vậy?

Có thể có nhiều lý do. Nếu AI tiên tiến mang tính chuyển đổi như những gì chúng ta tưởng tượng, sẽ có nhiều hậu quả quan trọng. Tuy nhiên, ở đây chúng tôi sẽ giải thích vấn đề mà chúng tôi cho là đáng lo ngại nhất: các hệ thống AI có thể gây ra rủi ro bằng cách tìm kiếm và giành quyền lực.

  1. Có khả năng chúng ta sẽ xây dựng các hệ thống AI có thể lập và thực hiện các kế hoạch để đạt được mục tiêu.
  2. Các hệ thống lập kế hoạch tiên tiến có thể dễ dàng bị "sai lệch" — theo cách có thể dẫn đến việc lập ra các kế hoạch làm mất quyền lực của loài người.
  3. Việc mất quyền lực bởi các hệ thống AI sẽ là một thảm họa hiện sinh.
  4. Mặc dù có rủi ro này, con người vẫn có thể triển khai các hệ thống AI bị sai lệch.

Sau khi suy nghĩ kỹ từng bước, tôi nghĩ rằng có khoảng 1% khả năng xảy ra thảm họa hiện sinh do các hệ thống AI tìm kiếm quyền lực trong thế kỷ này. Đây là dự đoán của tôi sau khi xem xét tất cả các yếu tố, bao gồm các cân nhắc ủng hộ rủi ro (vốn bản thân nó là xác suất) cũng như các lý do tại sao lập luận này có thể sai (một số lý do tôi sẽ thảo luận dưới đây). Điều này khiến tôi thuộc nhóm ít lo lắng nhất trong số các nhân viên của 80,000 Hours, những người có quan điểm trong cuộc khảo sát nhân viên gần đây nhất dao động từ 1–55%, với mức trung bình là 15%.

Chúng ta có thể sẽ xây dựng các hệ thống lập kế hoạch tiên tiến

Chúng tôi cho rằng các hệ thống trong tương lai có ba đặc điểm sau đây có thể gây ra mối đe dọa đặc biệt quan trọng đối với loài người:24

  1. Chúng có mục tiêu và giỏi lập kế hoạch. Không phải tất cả các hệ thống AI đều có mục tiêu hoặc lập kế hoạch để đạt được những mục tiêu đó. Nhưng một số hệ thống (như một số hệ thống AI chơi cờ vua) có thể được xem xét theo cách này. Khi thảo luận về AI tìm kiếm quyền lực, chúng ta đang xem xét các hệ thống lập kế hoạch tương đối tiên tiến, với các kế hoạch theo đuổi một số mục tiêu và có khả năng thực hiện các kế hoạch đó.
  2. Chúng có nhận thức mang tính chiến lược.Một hệ thống lập kế hoạch đặc biệt tốt sẽ có hiểu biết đủ tốt về thế giới để nhận ra những trở ngại và cơ hội có thể giúp đỡ hoặc cản trở kế hoạch của mình, và phản ứng phù hợp với những trở ngại và cơ hội đó. Theo Carlsmith, chúng ta sẽ gọi đây là nhận thức mang tính chiến lược, vì nó cho phép các hệ thống lập chiến lược một cách tinh vi hơn.
  3. Chúng có năng lực cao hơn nhiều so với các hệ thống hiện nay. Để các hệ thống này thực sự ảnh hưởng đến thế giới, chúng ta cần chúng không chỉ lập kế hoạch, mà còn phải giỏi tất cả các nhiệm vụ cụ thể cần thiết để thực hiện các kế hoạch đó. Vì chúng ta lo ngại về các hệ thống cố gắng chiếm quyền lực từ loài người, chúng ta đặc biệt quan tâm đến các hệ thống AI có thể giỏi hơn con người trong một hoặc nhiều nhiệm vụ mang lại quyền lực đáng kể cho con người khi được thực hiện tốt trong thế giới hiện nay.Ví dụ, những người rất giỏi thuyết phục và/hoặc thao túng thường có thể giành được quyền lực — vì vậy, một AI giỏi những việc này cũng có thể giành được quyền lực. Các ví dụ khác có thể bao gồm hack vào các hệ thống khác, các nhiệm vụ trong nghiên cứu khoa học và kỹ thuật, cũng như chiến lược kinh doanh, quân sự hoặc chính trị.

Các hệ thống này có vẻ khả thi về mặt kỹ thuật và chúng ta sẽ có động lực mạnh mẽ để xây dựng chúng

Như chúng ta đã thấy ở trên, chúng ta đã sản xuất ra các hệ thống rất giỏi trong việc thực hiện các nhiệm vụ cụ thể.

Chúng ta cũng đã sản xuất ra các hệ thống lập kế hoạch sơ khai, như AlphaStar, có thể chơi trò chơi chiến lược Starcraft một cách khéo léo, và MuZero, có thể chơi cờ vua, cờ shogi và cờ vây.25

Chúng ta không chắc liệu các hệ thống này có lập kế hoạch để theo đuổi mục tiêu hay không, vì chúng ta không chắc chắn chính xác "có mục tiêu" nghĩa là gì. Tuy nhiên, vì chúng luôn lập kế hoạch để đạt được mục tiêu, nên có vẻ như chúng có mục tiêu theo một nghĩa nào đó.

Hơn nữa, một số hệ thống hiện tại dường như thực sự thể hiện mục tiêu như một phần của mạng nơ-ron của chúng.26

Tuy nhiên, lập kế hoạch trong thế giới thực (thay vì trong trò chơi) phức tạp hơn nhiều, và cho đến nay, chúng tôi chưa biết đến bất kỳ ví dụ rõ ràng nào về hệ thống lập kế hoạch định hướng mục tiêu hoặc hệ thống thể hiện mức độ nhận thức mang tính chiến lược cao.

Nhưng như chúng tôi đã thảo luận, chúng tôi kỳ vọng sẽ thấy những tiến bộ hơn nữa trong thế kỷ này. Và chúng tôi nghĩ rằng những tiến bộ này có khả năng tạo ra các hệ thống có cả ba đặc tính trên.

Đó là bởi vì chúng tôi cho rằng có những động lực đặc biệt mạnh mẽ (như lợi nhuận) để phát triển các hệ thống này. Tóm lại: bởi vì khả năng lập kế hoạch để đạt được mục tiêu và thực hiện kế hoạch đó dường như là một cách đặc biệt mạnh mẽ và phổ biến để tác động đến thế giới.

Hoàn thành công việc — cho dù đó là một công ty bán sản phẩm, một người mua nhà hay một chính phủ xây dựng chính sách — dường như hầu như luôn đòi hỏi những kỹ năng này.

Một ví dụ là giao một mục tiêu cho một hệ thống mạnh mẽ và mong đợi hệ thống đó đạt được mục tiêu đó — thay vì phải hướng dẫn từng bước một. Vì vậy, các hệ thống lập kế hoạch có vẻ như sẽ cực kỳ hữu ích (về mặt kinh tế và chính trị).27

Và nếu các hệ thống cực kỳ hữu ích, sẽ có nhiều động lực để xây dựng chúng. Ví dụ, một AI có thể lập kế hoạch hành động cho một công ty bằng cách được giao mục tiêu tăng lợi nhuận (tức là một CEO AI) có thể mang lại sự giàu có đáng kể cho những người liên quan — một động lực trực tiếp để sản xuất AI như vậy.

Kết quả là, nếu chúng ta có thể xây dựng các hệ thống có những đặc tính này (và theo những gì chúng ta biết, có vẻ như chúng ta sẽ có thể), thì có vẻ như chúng ta sẽ làm như vậy.28

Các hệ thống lập kế hoạch tiên tiến có thể dễ dàng bị "mất căn chỉnh" một cách nguy hiểm

Có những lý do để cho rằng các hệ thống AI lập kế hoạch tiên tiến này sẽ bị mất căn chỉnh. Nghĩa là, chúng sẽ hướng đến những mục tiêu mà chúng ta không mong muốn.29

Có nhiều lý do khiến các hệ thống có thể không hướng đến mục tiêu chính xác mà chúng ta mong muốn. Thứ nhất, chúng ta không biết làm thế nào để sử dụng các kỹ thuật ML hiện đại để đưa ra các mục tiêu chính xác mà chúng ta muốn cho hệ thống (thêm thông tin tại đây).30

Chúng ta sẽ tập trung cụ thể vào một số lý do tại sao các hệ thống có thể theo mặc định bị mất căn chỉnh đến mức phát triển các kế hoạch gây rủi ro cho khả năng ảnh hưởng của loài người đối với thế giới — ngay cả khi chúng ta không muốn mất đi ảnh hưởng đó.31

Chúng ta muốn nói gì khi nói “mặc định”? Về cơ bản, trừ khi chúng ta chủ động tìm ra giải pháp cho một số vấn đề (có thể khá khó khăn), nếu không, chúng ta sẽ tạo ra AI bị mất căn chỉnh một cách nguy hiểm. (Có những lý do khiến điều này có thể sai — chúng ta sẽ thảo luận sau.)

Ba ví dụ về “mất căn chỉnh” trong một loạt các hệ thống

Điều đáng chú ý là mất căn chỉnh không phải là một khả năng thuần túy về mặt lý thuyết (hoặc chỉ xảy ra với AI) — chúng ta luôn thấy mục tiêu mất căn chỉnh ở con người và các tổ chức, và cũng đã thấy ví dụ về mất căn chỉnh trong các hệ thống AI.32

Ví dụ 1: Chiến thắng trong các cuộc bầu cử

Khung khổ chính trị dân chủ được thiết kế để đảm bảo rằng các chính trị gia đưa ra quyết định có lợi cho xã hội. Tuy nhiên, điều mà các hệ thống chính trị thực sự khen thưởng là chiến thắng trong các cuộc bầu cử, do đó, đó chính là mục tiêu mà nhiều chính trị gia hướng tới.

Đây là một mục tiêu thay thế hợp lý — nếu bạn có kế hoạch cải thiện cuộc sống của người dân, họ có khả năng cao sẽ ủng hộ bạn — nhưng nó không hoàn hảo.

Kết quả là, các chính trị gia làm những việc không rõ ràng là cách tốt nhất để điều hành đất nước, như tăng thuế khi bắt đầu nhiệm kỳ và cắt giảm thuế ngay trước bầu cử.

Có thể nói, những việc hệ thống làm ít nhất là hơi khác so với những gì chúng ta muốn nó làm trong một thế giới hoàn hảo: hệ thống bị mất căn chỉnh.

Ví dụ 2: Kích thích lợi nhuận

Các công ty có động lực kiếm lợi nhuận. Bằng cách sản xuất nhiều hơn, và do đó giúp mọi người tiếp cận hàng hóa và dịch vụ với giá rẻ hơn, các công ty kiếm được nhiều tiền hơn.

Điều này đôi khi là một cách thay thế hợp lý để làm cho thế giới trở nên tốt đẹp hơn, nhưng lợi nhuận không thực sự giống với lợi ích của toàn nhân loại (chúng tôi biết đây là một tuyên bố táo bạo). Kết quả là, có những tác động tiêu cực: ví dụ, các công ty sẽ gây ô nhiễm để kiếm tiền mặc dù điều này có hại cho xã hội nói chung.

Một lần nữa, chúng ta có một hệ thống mất căn chỉnh, trong đó những điều hệ thống làm ít nhất là hơi khác với những gì chúng ta muốn nó làm.

Ví dụ 3: Tận dụng kẽ hở thông số trong các hệ thống AI hiện có

DeepMind đã ghi lại các ví dụ về tận dụng kẽ hở thông số: một AI hoạt động tốt theo chức năng phần thưởng được chỉ định (mã hóa ý định của chúng ta đối với hệ thống), nhưng không làm những gì các nhà nghiên cứu mong muốn.

Trong một ví dụ, một cánh tay robot được yêu cầu nắm lấy một quả bóng. Tuy nhiên, phần thưởng được quy định dựa trên việc con người có nghĩ rằng robot đã thành công hay không. Kết quả là, cánh tay robot đã học cách lơ lửng giữa quả bóng và camera, đánh lừa con người rằng nó đã nắm lấy quả bóng.33

A simulated arm hovers between a ball and a camera.
Christiano et al., 2017

Vì vậy, chúng ta biết rằng có thể tạo ra một hệ thống AI mất căn chỉnh.

Tại sao các hệ thống này có thể (theo mặc định) bị mất căn chỉnh một cách nguy hiểm

Đây là luận điểm cốt lõi của bài viết này. Chúng ta sẽ sử dụng cả ba đặc tính đã nêu trước đó: khả năng lập kế hoạch, nhận thức mang tính chiến lược và năng lực tiên tiến.

Để bắt đầu, chúng ta nên nhận ra rằng một hệ thống lập kế hoạch có mục tiêu cũng sẽ phát triển các "mục tiêu công cụ": những điều mà nếu xảy ra sẽ giúp đạt được mục tiêu tổng thể dễ dàng hơn.

Chúng ta luôn sử dụng các mục tiêu công cụ trong các kế hoạch. Ví dụ, một học sinh trung học đang lập kế hoạch cho sự nghiệp của mình có thể nghĩ rằng vào đại học sẽ hữu ích cho triển vọng việc làm trong tương lai. Trong trường hợp này, "vào đại học" sẽ là một mục tiêu công cụ.

Một hệ thống lập kế hoạch AI đủ tiên tiến cũng sẽ bao gồm các mục tiêu công cụ trong kế hoạch tổng thể của mình.

Nếu một hệ thống AI lập kế hoạch cũng có đủ nhận thức mang tính chiến lược, nó sẽ có thể xác định các sự kiện về thế giới thực (bao gồm cả những điều có thể trở thành trở ngại cho bất kỳ kế hoạch nào) và lập kế hoạch dựa trên những sự kiện đó. Điều quan trọng là, những sự kiện này sẽ bao gồm việc tiếp cận các nguồn lực (ví dụ: tiền bạc, máy tính, ảnh hưởng) và năng lực lớn hơn — tức là các hình thức quyền lực — mở ra những cách mới, hiệu quả hơn để đạt được mục tiêu.

Điều này có nghĩa là, theo mặc định, các hệ thống AI lập kế hoạch tiên tiến sẽ có một số mục tiêu công cụ đáng lo ngại:

  • Tự bảo tồn — vì một hệ thống có nhiều khả năng đạt được mục tiêu của mình hơn nếu nó vẫn tồn tại để theo đuổi chúng (theo câu nói đáng nhớ của Stuart Russell, “Bạn không thể lấy cà phê nếu bạn đã chết”).
  • Ngăn chặn bất kỳ thay đổi nào đối với mục tiêu của hệ thống AI — vì thay đổi mục tiêu sẽ dẫn đến kết quả khác với kết quả mà hệ thống sẽ đạt được với mục tiêu hiện tại.

Có được quyền lực — ví dụ, bằng cách có được nhiều tài nguyên và năng lực hơn.

Điều quan trọng là, một cách rõ ràng để AI có thể đảm bảo rằng nó sẽ tiếp tục tồn tại (và không bị tắt) và mục tiêu của nó sẽ không bao giờ bị thay đổi, đó là giành quyền lực đối với con người có thể ảnh hưởng đến nó (chúng ta sẽ thảo luận ở đây về cách các hệ thống AI có thể thực sự làm được điều đó).

Hơn nữa, các hệ thống AI mà chúng ta đang xem xét có năng lực tiên tiến — có nghĩa là chúng có thể thực hiện một hoặc nhiều nhiệm vụ mang lại quyền lực đáng kể cho con người khi được thực hiện tốt trong thế giới ngày nay. Với năng lực tiên tiến như vậy, những mục tiêu quan trọng này sẽ không nằm ngoài tầm với, và do đó, có vẻ như hệ thống AI sẽ sử dụng năng lực tiên tiến của mình để giành quyền lực như một phần của việc thực hiện kế hoạch.

Nếu chúng ta không muốn các hệ thống AI mà chúng ta tạo ra lấy quyền lực khỏi tay chúng ta, đây sẽ là một hình thức mất căn chỉnh đặc biệt nguy hiểm.

Trong các kịch bản cực đoan nhất, một hệ thống AI lập kế hoạch với năng lực đủ tiên tiến có thể thành công trong việc tước bỏ hoàn toàn quyền lực của chúng ta.

Để kiểm tra trực quan (rất không nghiêm ngặt) luận điểm này, hãy thử áp dụng nó vào con người.

Con người có nhiều mục tiêu khác nhau.

Đối với nhiều mục tiêu trong số này, một số hình thức tìm kiếm quyền lực là có lợi: mặc dù không phải ai cũng tìm kiếm quyền lực, nhưng nhiều người làm vậy (dưới hình thức giàu có hoặc địa vị xã hội hoặc chính trị), vì nó hữu ích để đạt được những gì họ muốn. Điều này không phải là thảm họa (thường là vậy!) bởi vì, là con người:

  • Chúng ta thường cảm thấy bị ràng buộc bởi các chuẩn mực và đạo đức của con người (ngay cả những người thực sự muốn giàu có cũng thường không sẵn sàng giết người để đạt được điều đó).
  • Chúng ta không hơn nhau nhiều về năng lực hay trí tuệ. Vì vậy, ngay cả trong trường hợp con người không bị ràng buộc bởi đạo đức, họ cũng không thể thống trị thế giới.

(Chúng ta sẽ thảo luận về việc con người có thực sự tìm kiếm quyền lực hay không sau này.)

Một AI đủ tiên tiến sẽ không có những hạn chế đó.