(Bài dịch vẫn đang trong quá trình hoàn thiện. Mọi góp ý đều được chào đón tại team@antoan.ai)
Nói một cách không chính thức, căn chỉnh AI có nghĩa là làm cho các mục tiêu của AI phù hợp với một số giá trị mục tiêu, chẳng hạn như giá trị của những người tạo ra nó. (1)
Hãy tưởng tượng một hệ thống AI giả định có hai phần riêng biệt:
Khi AI này đưa ra quyết định, nó xem xét từng hành động có thể thực hiện, sử dụng niềm tin của mình về thế giới để dự đoán kết quả của lựa chọn đó, sau đó sử dụng sở thích của mình để đánh giá kết quả đó tốt hay xấu. Sau đó, nó chọn lựa chọn mà nó cho là sẽ dẫn đến kết quả tốt nhất.
Khái niệm "căn chỉnh" ở đây tương đối đơn giản: hệ thống "căn chỉnh" với bạn ở mức độ mà các giá trị của nó giống với giá trị của bạn, và "mất căn chỉnh" với bạn ở mức độ mà các giá trị của nó khác với giá trị của bạn.
Trong lịch sử, các cuộc thảo luận về nguy cơ mất căn chỉnh AI thường sử dụng các kịch bản liên quan đến các hệ thống AI có cấu trúc này. Trong một kịch bản như vậy, bạn có một AI rất mạnh mẽ và bạn muốn sử dụng nó để chữa ung thư. Chiến lược ngây thơ nhất để đạt được điều này có thể là đặt mục tiêu “giảm thiểu số ca ung thư” — AI có thể kết luận rằng cách hiệu quả nhất để đạt được mục tiêu này là giết tất cả con người. Các chiến lược căn chỉnh tinh vi hơn3
có thể bao gồm việc mã hóa các đặc điểm phức tạp hơn của giá trị con người hoặc để AI học các giá trị theo thời gian.
Mô hình đơn giản này là một loại AI định hướng mục tiêu. Nếu các AI mạnh mẽ nhất thiết phải hành xử theo cách định hướng mục tiêu, thì sẽ dễ dàng thấy được chúng sẽ rất nguy hiểm như thế nào. AI mạnh mẽ học được mục tiêu sai, và đối với hầu hết các mục tiêu, sự phát triển của con người không phải là cách để tối đa hóa chúng. Nhưng liệu AI mạnh mẽ có định hướng mục tiêu theo cách này không?
Các hệ thống AI tiên tiến hiện tại dường như không có cấu trúc "giá trị" và "mô hình thế giới" như mô tả ở trên. Vì vậy, không rõ liệu ý tưởng "căn chỉnh" các hệ thống như vậy có ý nghĩa hay không.
Ví dụ, một LLM
như ChatGPT được tạo ra bằng cách huấn luyện một mạng nơ-ron khổng lồ để dự đoán văn bản của con người một cách chính xác nhất có thể, sau đó tinh chỉnh nó để ưu tiên các văn bản hoàn chỉnh được đánh giá cao bởi các đánh giá viên con người.
Chúng ta không biết hệ thống kết quả hoạt động như thế nào. Bề ngoài, LLM bắt chước nhiều mẫu liên quan đến việc ra quyết định có mục đích, điều mà chúng ta mong đợi từ một LLM được đánh giá cao bởi các đánh giá viên con người. Tuy nhiên, theo nhiều cách, LLM dường như có sở thích không nhất quán hoặc không thể chọn kết quả tốt cho bất kỳ mục tiêu nào. Vì vậy, chúng tôi không có lý do đặc biệt để nghĩ rằng nó đang cố gắng dự đoán hậu quả của các quyết định của mình và kiểm tra chúng theo một bộ giá trị nào đó một cách có hệ thống.
Tuy nhiên, khái niệm “sự liên kết” vẫn có ý nghĩa đối với các hệ thống hiện tại. Chúng ta có thể nói rằng ChatGPT “có khả năng” phun ra những lời lăng mạ, vì nó đã học được cách dự đoán các văn bản lăng mạ trên internet. Tuy nhiên, nhận thức của nó đã được RLHF
điêu khắc theo cách mà nó (thường) “chọn” không làm như vậy. Theo nghĩa đó, nó (hầu hết) “phù hợp” với các giá trị mà OpenAI mong muốn.
Hiện tại, vẫn chưa rõ các hệ thống AI trong tương lai, thông minh hơn con người, sẽ giống với các hệ thống AI hiện tại hay với mô hình đơn giản được mô tả ở trên. Một số người cho rằng các hệ thống trong tương lai sẽ tối ưu hóa môi trường của chúng một cách có hệ thống, giống như trong mô hình đơn giản. Thông thường, những lập luận này dựa trên các định lý về tính nhất quán
và định lý về lựa chọn. Những người khác cho rằng loại hệ quả luận hướng mục tiêu này sẽ không xuất hiện theo mặc định, hoặc không thể xuất hiện. Một số lập luận tập trung vào việc các hệ thống hiện tại dường như không hướng mục tiêu, và cho rằng các hệ thống trong tương lai sẽ hoạt động giống như các hệ thống hiện tại.