Chương 3.10: Yêu cầu cho căn chỉnh ASI

Tác giả:
Markov Grey, Charbel-Raphaël Segerie
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Căn chỉnh ASI kế thừa tất cả các yêu cầu của AGI đồng thời đưa ra những thách thức cơ bản khó khăn hơn. Một hệ thống siêu trí tuệ không đáp ứng các yêu cầu cơ bản về độ bền, khả năng mở rộng, tính khả thi hoặc khả năng áp dụng sẽ trở nên cực kỳ nguy hiểm. Tuy nhiên, việc đáp ứng các yêu cầu ở mức AGI trở nên cần thiết nhưng chưa đủ để đảm bảo an toàn cho ASI. Sự khác biệt cốt lõi là các hệ thống siêu trí tuệ sẽ hoạt động vượt ngoài năng lực hiểu biết và giám sát của con người, tạo ra những thách thức an toàn mang tính chất hoàn toàn khác biệt.

Sự giám sát của con người trở nên cơ bản không đủ ở mức độ trí tuệ vượt trội so với con người. Khi các hệ thống AI vượt qua năng lực của con người trong hầu hết các lĩnh vực, chúng ta mất khả năng đánh giá lý luận của chúng, xác minh đầu ra của chúng hoặc cung cấp phản hồi có ý nghĩa (Yudkowsky, 2022). Một hệ thống siêu trí tuệ có thể thuyết phục con người rằng các kế hoạch gây hại của nó là có lợi, hoặc hoạt động trong các lĩnh vực mà con người không thể hiểu được hệ quả của hành động của nó. Điều này có nghĩa là các giải pháp điều chỉnh ASI không thể dựa vào phán đoán của con người như một cơ chế an toàn và phải phát triển các hình thức giám sát có thể mở rộng hoạt động vượt ra ngoài giới hạn nhận thức của con người.

Chúng ta có thể chỉ có một cơ hội duy nhất để điều chỉnh một hệ thống siêu trí tuệ trước khi nó trở nên quá mạnh mẽ để kiểm soát hoặc sửa chữa. Yêu cầu "một lần duy nhất" này xuất phát từ tiềm năng tăng cường năng lực nhanh chóng có thể khiến một hệ thống mất căn chỉnh trở nên không thể tắt hoặc sửa đổi (Soares, 2022; Yudkowsky, 2022). Khi một hệ thống trở nên thông minh hơn con người một cách đáng kể, nó có thể tiềm ẩn khả năng thao túng quá trình đào tạo, lừa dối người vận hành hoặc kháng cự lại các nỗ lực sửa đổi. Tuy nhiên, yêu cầu này phụ thuộc vào các giả định tranh cãi về tốc độ phát triển đột phá - một số nhà nghiên cứu cho rằng sự phát triển sẽ diễn ra từ từ, cho phép lặp lại và điều chỉnh (Christiano, 2022). Sự bất đồng này có tác động lớn đến chiến lược giải pháp: nếu sự phát triển đột phá là khả thi, chúng ta cần các giải pháp điều chỉnh hoạt động hoàn hảo ngay từ đầu, nhưng nếu sự phát triển diễn ra từ từ, chúng ta có thể tập trung vào việc duy trì kiểm soát của con người trong quá trình chuyển đổi.

Bảo tồn giá trị vĩnh viễn qua các chu kỳ tự điều chỉnh không giới hạn. Các hệ thống siêu trí tuệ có thể cải thiện năng lực của chính mình một cách tái diễn, tiềm ẩn khả năng viết lại hoàn toàn các thuật toán lõi, cấu trúc mục tiêu và quá trình suy luận của mình (Yudkowsky, 2022). Giải pháp điều chỉnh phải đảm bảo rằng các giá trị con người vẫn ổn định và được ưu tiên qua các chu kỳ tự cải tiến không giới hạn, ngay cả khi hệ thống trở nên xa lạ về mặt nhận thức với chúng ta. Điều này tạo ra một thách thức kỹ thuật độc đáo: thiết kế các cơ chế điều chỉnh đủ mạnh mẽ để tồn tại qua sự tự điều chỉnh của trí tuệ có thể vượt trội hàng nghìn lần so với trí tuệ con người. Khác với vấn đề "một lần" liên quan đến việc triển khai ban đầu, đây là vấn đề duy trì sự điều chỉnh vô thời hạn khi hệ thống phát triển.

Kiểm soát các hệ thống có sức mạnh và ảnh hưởng ở việc mở rộng quy mô văn minh. Một hệ thống siêu trí tuệ có thể có năng lực công nghệ khổng lồ và ảnh hưởng đến văn minh nhân loại - có thể phát triển công nghệ nano tiên tiến, kỹ thuật thao túng mới, hoặc tái cấu trúc các thể chế và văn hóa theo thời gian (Yudkowsky, 2022). Giải pháp đồng bộ hóa phải duy trì sự chủ động và an toàn của con người ngay cả khi hệ thống có thể lý thuyết vượt qua tất cả các thể chế con người, đồng thời ngăn chặn các kịch bản mà hệ thống dần thay đổi những giá trị mà con người coi trọng hoặc tạo ra các phụ thuộc làm suy yếu sự tự định hướng của con người. Thách thức này đòi hỏi các giải pháp bảo vệ sự phát triển của con người không chỉ trong các tương tác tức thời mà còn trên quỹ đạo dài hạn của văn minh nhân loại.

Các hành động then chốt đại diện cho một giải pháp đề xuất cho vấn đề "khoảng thời gian rủi ro cấp tính" trong phát triển ASI. Vấn đề cốt lõi là chúng ta có thể bước vào một giai đoạn mà nhiều cá nhân có khả năng phát triển siêu trí tuệ, nhưng chỉ cần một cá nhân mất căn chỉnh hoặc hành động liều lĩnh cũng có thể gây ra thảm họa toàn cầu (Yudkowsky, 2022). Do sự phối hợp tự nguyện giữa các quốc gia và tổ chức cạnh tranh có thể không đủ, một số nhà nghiên cứu cho rằng nhóm đầu tiên phát triển siêu trí tuệ có định hướng nên sử dụng nó để chủ động ngăn chặn các cá nhân khác tạo ra hệ thống AI nguy hiểm.

Các hành động then chốt được định nghĩa là những hành động quyết định kết thúc vĩnh viễn giai đoạn rủi ro cấp tính. Những hành động này phải đủ mạnh để ngăn chặn bất kỳ cá nhân nào khác phát triển siêu trí tuệ không được điều chỉnh, có thể thông qua các can thiệp công nghệ vô hiệu hóa hạ tầng khả năng điện toán toàn cầu, thiết lập các thỏa thuận quốc tế không thể phá vỡ, hoặc phát triển các cơ chế khác khiến việc phát triển AI không kiểm soát trở nên vật lý không thể (Yudkowsky, 2022). Tính chất "quyết định" có nghĩa là hành động này thay đổi cơ bản bối cảnh chiến lược thay vì chỉ trì hoãn các cá nhân khác.

Lập luận ủng hộ các hành động then chốt xuất phát từ sự thất bại trong phối hợp và áp lực cạnh tranh. Ngay cả khi đa số nhà phát triển AI ưu tiên an toàn AI, động lực cạnh tranh giữa các quốc gia và doanh nghiệp tạo ra áp lực triển khai hệ thống AI nhanh chóng thay vì an toàn (Yudkowsky, 2022). Hợp tác quốc tế về phát triển AI phải đối mặt với những thách thức tương tự như phổ biến vũ khí hạt nhân hoặc biến đổi khí hậu, nhưng có thể có ít thời gian hơn để đàm phán các giải pháp. Những người ủng hộ lập luận rằng một khi siêu trí tuệ được đồng bộ hóa tồn tại, việc sử dụng nó để giải quyết vấn đề hợp tác này có thể đáng tin cậy hơn so với hy vọng rằng tất cả các cá nhân khác sẽ tự nguyện kiềm chế bản thân.

Các nhà phê bình cho rằng chiến lược hành động then chốt tạo ra nhiều vấn đề hơn là giải quyết. Kế hoạch hiệu suất các hành động then chốt quân sự hóa sự phát triển của trí tuệ nhân tạo (AI) và khuyến khích hành động đơn phương, có thể làm cho giai đoạn rủi ro cấp tính trở nên nguy hiểm hơn thay vì an toàn hơn (Critch, 2022). Năng lực công nghệ cần thiết cho các hành động then chốt có thể quá cực đoan đến mức việc phát triển chúng làm tăng độ khó trong việc đảm bảo sự đồng bộ. Ngoài ra, việc xác định điều gì cấu thành một hành động then chốt hợp pháp đòi hỏi phải đưa ra các phán đoán về quản trị toàn cầu, có thể không phản ánh sự đồng thuận dân chủ.

Các tiếp cận "quá trình then chốt" thay thế tập trung vào phối hợp phân tán thay vì hành động đơn phương. Thay vì các can thiệp quyết định duy nhất, các chiến lược này bao gồm việc sử dụng AI được điều chỉnh để cải thiện quá trình ra quyết định của con người, chứng minh rủi ro một cách thuyết phục, phát triển các cơ chế quản trị tốt hơn hoặc tiêu thụ tài nguyên mà AI không được điều chỉnh có thể sử dụng để mở rộng quy mô nhanh chóng (Critch, 2022; Christiano, 2022). Mục tiêu vẫn là kết thúc giai đoạn rủi ro cấp tính, nhưng thông qua các quá trình hợp tác bảo tồn quyền tự chủ của con người trong việc xác định quản trị AI.

Sự bất đồng này định hình cơ bản những gì các giải pháp đồng bộ hóa ASI nên tối ưu hóa. Các chiến lược quy trình then chốt tập trung vào phát triển các hệ thống AI được tối ưu hóa cho hợp tác, minh bạch và phối hợp dần dần với các cơ quan quản lý của con người. Sự lựa chọn giữa các tiếp cận này ảnh hưởng đến mọi thứ từ ưu tiên nghiên cứu kỹ thuật đến chiến lược quản trị.

Vấn đề dâu tây kiểm tra xem chúng ta có thể đạt được sự kiểm soát chính xác đối với các hệ thống siêu trí tuệ hay không. Thí nghiệm tư duy này đặt ra câu hỏi: liệu chúng ta có thể tạo ra một hệ thống AI có thể sao chép chính xác một quả dâu tây đến cấp độ tế bào (nhưng không phải cấp độ phân tử), đặt cả hai quả dâu tây lên đĩa, và sau đó dừng lại hoàn toàn mà không theo đuổi bất kỳ mục tiêu nào khác? Nhiệm vụ dường như đơn giản này giúp hiểu rõ các tranh luận khác nhau về mục tiêu mà các giải pháp căn chỉnh AI nên hướng tới (Soares, 2022). Các chiến lược hành động then chốt đòi hỏi phát triển các hệ thống AI có năng lực thực hiện các can thiệp công nghệ đột phá đồng thời vẫn duy trì khả năng kiểm soát chính xác - về cơ bản là giải quyết vấn đề dâu tây ở quy mô việc mở rộng quy mô toàn cầu.

Vấn đề quả dâu tây kiểm tra đồng thời ba khía cạnh quan trọng của việc kiểm soát AI:

  • Năng lực: Tạo ra một bản sao ở cấp độ tế bào đòi hỏi sự hiểu biết cực kỳ tiên tiến về sinh học và thao tác vật chất, chứng minh hệ thống thực sự mạnh mẽ.
  • Khả năng định hướng: Khiến hệ thống đạt được hiệu suất chính xác nhiệm vụ cụ thể này, thay vì một nhiệm vụ khác có thể liên quan hoặc tốt hơn theo quan điểm của AI, cho thấy chúng ta có thể định hướng năng lực của nó theo hướng mong muốn.
  • Khả năng điều chỉnh: Hệ thống thực sự dừng lại sau khi hoàn thành nhiệm vụ, thay vì tiếp tục tối ưu hóa hoặc theo đuổi các mục tiêu khác, chứng minh nó vẫn nằm dưới sự kiểm soát của con người ngay cả khi có năng lực thực hiện các hành động biến đổi.

Những người ủng hộ cho rằng vấn đề dâu tây đại diện cho mức độ kiểm soát tối thiểu cần thiết cho siêu trí tuệ an toàn. Nếu chúng ta không thể giải quyết vấn đề này, chúng ta không thể triển khai an toàn các hệ thống siêu trí tuệ. Độ chính xác yêu cầu - dừng lại chính xác khi được chỉ định, thực hiện chính xác nhiệm vụ được chỉ định - đại diện cho mức độ kiểm soát tối thiểu cần thiết khi đối phó với các hệ thống có năng lực định hình lại thế giới. Nếu một hệ thống AI không thể tin cậy để sao chép một quả dâu tây và dừng lại, làm sao có thể tin cậy nó với các tác vụ phức tạp và có hậu quả nghiêm trọng hơn? Vấn đề này cũng kiểm tra xem các giải pháp đồng bộ hóa của chúng ta có thể xác định mục tiêu chính xác enough để tránh tận dụng kẽ hở thông số hay không.

Các nhà phê bình cho rằng cách tiếp cận này đặt ra một tiêu chuẩn quá cao một cách không cần thiết và hiểu sai giá trị con người. Họ chỉ ra rằng giá trị con người là phức tạp, bối cảnh và thường mâu thuẫn - chúng ta không muốn các hệ thống AI tuân theo lệnh một cách công nghệ robot, và điều này đặt ra một tiêu chuẩn quá cao (Turner, 2022; Pope, 2023). Hơn nữa, họ cho rằng tập trung vào việc kiểm soát chính xác các tác vụ hẹp là bỏ qua vấn đề cốt lõi - chúng ta nên thiết kế các hệ thống có mục tiêu có lợi ích bền vững thay vì cố gắng đạt được kiểm soát hoàn hảo đối với các quy định tùy ý.

Sự bất đồng này phản ánh những câu hỏi sâu sắc hơn về bản chất của việc gì được coi là giải pháp cho sự đồng bộ hóa ASI. Quan điểm về vấn đề dâu tây cho rằng chúng ta cần các kỹ thuật đồng bộ hóa cung cấp kiểm soát và thông số kỹ thuật cực kỳ chính xác. Quan điểm thay thế cho rằng nên tập trung vào việc học giá trị, phát triển AI hợp tác và các hệ thống mạnh mẽ theo đuổi kết quả có lợi ngay cả khi có sự không chắc chắn về thông số kỹ thuật. Điều này là một sự bất đồng về việc liệu sự đồng bộ hóa ASI có yêu cầu độ chính xác toán học trong thông số kỹ thuật phần thưởng hay liệu các phương pháp thực tiễn hơn có thể đủ.

Chương 4: Quản trị
Tiếp tục