Giả thuyết trực giao là giả thuyết cho rằng bất kỳ1 mức độ trí tuệ nào cũng tương thích với bất kỳ mục tiêu cuối cùng nào. Nói cách khác, giá trị và trí tuệ là “trực giao” với nhau theo nghĩa rằng các tác nhân có thể thay đổi ở một chiều trong khi vẫn giữ nguyên ở chiều khác.
Cụ thể, điều này ngụ ý rằng chúng ta không thể giả định rằng một hệ thống AI thông minh bằng hoặc thông minh hơn con người sẽ tự động được thúc đẩy bởi các giá trị của con người.
Bản thân giả thuyết trực giao chỉ khẳng định rằng siêu trí tuệ không được căn chỉnh là có thể xảy ra, chứ không phải là sẽ xảy ra, hoặc rằng căn chỉnh AI là khó. Giả thuyết này được đưa ra để phản bác ý kiến cho rằng AI trong tương lai sẽ hội tụ về các mục tiêu hoặc đạo đức của con người, bất kể thiết kế của nó như thế nào, như một kết quả tự nhiên của việc trở nên thông minh hơn.
Ngoài phiên bản "yếu" của giả thuyết này, mọi người còn xem xét các phiên bản mạnh mẽ hơn. "Hình thức mạnh mẽ" của giả thuyết trực giao của Eliezer Yudkowsky cho rằng việc tạo ra các hệ thống AI với các mục tiêu tùy ý không chỉ có thể, mà còn không gặp khó khăn nào đặc biệt; nói cách khác, "sở thích không khó thể hiện hơn tính toán."2
Mặc dù giả thuyết trực giao được cộng đồng nghiên cứu căn chỉnh AI chấp nhận rộng rãi, nó vẫn có những người chỉ trích đến từ một số trường phái khác nhau:
- Một số nhà thực tế đạo đức khẳng định rằng một thực thể đủ thông minh sẽ khám phá và tuân thủ các chân lý đạo đức khách quan mà con người sẽ chấp nhận sau khi suy ngẫm.
- Beren Millidge tuyên bố rằng giả thuyết trực giao mạnh không đúng trong các thuật toán học sâu hiện đại.
- Nora Belrose cho rằng, tùy thuộc vào cách diễn giải luận đề, nó có thể là vô nghĩa, sai hoặc không thể hiểu được.
- Steve Petersen lập luận rằng nhu cầu về tính liên tục của các mục tiêu của tác nhân theo thời gian, cùng với sự thiếu rõ ràng có vẻ như cố hữu trong việc thể hiện mục tiêu, có thể khiến các AI có mục tiêu phức tạp và có thể hiểu được những người tạo ra chúng coi những người tạo ra chúng là phiên bản trước của chính mình, và hướng tới việc thúc đẩy các mục tiêu của những người tạo ra chúng.
-
- Điều chủ yếu được đề cập ở đây là bất kì trí tuệ thông minh cao có thể tương thích với bất kỳ mục tiêu nào. Các hệ thống có mức độ thông minh thấp có thể không thể biểu diễn mục tiêu. Ví dụ, rất khó hiểu ý nghĩa của việc một hòn đá "có mục tiêu". ↩︎
- Ngay cả ở dạng mạnh mẽ nhất, giả thuyết trực giao cũng không đưa ra dự đoán nào về hệ thống mà con người sẽ thực sự cố gắng xây dựng, và do đó cũng không đưa ra dự đoán nào về hệ thống nào sẽ tồn tại trong thực tế. Mọi người đôi khi hiểu nhầm giả thuyết trực giao có nghĩa là "hệ thống kết quả từ quá trình thiết kế AI trong thế giới thực có khả năng dẫn đến bất kỳ mục tiêu nào", nhưng giả thuyết này không hàm ý điều đó. ↩︎