Chương 3.1: Định nghĩa

Tác giả:
Markov Grey, Charbel-Raphaël Segerie
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Định nghĩa ảnh hưởng đến việc lựa chọn chiến lược. Cách chúng ta định nghĩa vấn đề trực tiếp có tầm ảnh hưởng đến các chiến lược mà chúng ta theo đuổi để giải quyết vấn đề đó. Trong một lĩnh vực mới và đang phát triển như an toàn AI, các thuật ngữ được định nghĩa rõ ràng là thiết yếu cho giao tiếp và nghiên cứu hiệu quả. Sự mơ hồ dẫn đến hiểu lầm, cản trở hợp tác, che giấu sự bất đồng và tạo điều kiện cho việc "làm sạch an toàn" (Ren et al., 2024; Lizka, 2023). Các thuật ngữ chúng ta sử dụng phản ánh những giả định của chúng ta về bản chất của các vấn đề mà chúng ta đang cố gắng giải quyết và định hình các giải pháp mà chúng ta phát triển. Các thuật ngữ như "định hướng" và "an toàn" được sử dụng với các ý nghĩa khác nhau, phản ánh những giả định khác nhau về bản chất của vấn đề và mục tiêu của nghiên cứu. Mục tiêu của phần này là giải thích các quan điểm khác nhau xung quanh những từ này, những gì các chiến lược an toàn cụ thể đang hướng tới, và thiết lập cách văn bản của chúng ta sẽ sử dụng chúng.

An toàn AI

An toàn AI

Đảm bảo rằng các hệ thống AI không vô tình hoặc cố ý gây hại hoặc nguy hiểm cho con người hoặc môi trường, thông qua nghiên cứu xác định nguyên nhân của hành vi không mong muốn của AI và phát triển công cụ để vận hành an toàn và đáng tin cậy.

An toàn AI đảm bảo rằng các hệ thống AI không gây hại cho con người hoặc môi trường. Nó bao gồm phạm vi rộng nhất của các nghiên cứu và thực hành kỹ thuật tập trung vào việc ngăn chặn các kết quả có hại từ các hệ thống AI. Trong khi việc đồng bộ hóa tập trung vào các mục tiêu và ý định của AI, an toàn giải quyết một phạm vi rộng hơn các vấn đề (Rudner et al., 2021). Nó tập trung vào việc đảm bảo rằng các hệ thống AI không vô tình hoặc cố ý gây hại hoặc nguy hiểm cho con người hoặc môi trường. Nghiên cứu an toàn AI nhằm xác định nguyên nhân gây ra hành vi không mong muốn của AI và phát triển công cụ để vận hành an toàn và đáng tin cậy. Nó có thể bao gồm các lĩnh vực kỹ thuật như độ bền (đảm bảo hiệu suất đáng tin cậy, bao gồm chống lại các cuộc tấn công đối kháng), giám sát (quan sát hành vi của AI) và kiểm soát năng lực (hạn chế các năng lực tiềm ẩn nguy hiểm).

Căn chỉnh AI

Căn chỉnh AI (Christiano, 2024)

Vấn đề xây dựng các hệ thống máy móc có khả năng thực hiện chính xác những gì chúng ta mong muốn (hoặc những gì chúng ta nên mong muốn) chúng thực hiện.

Mục tiêu của căn chỉnh AI là đảm bảo các hệ thống AI hành động phù hợp với ý định và giá trị của con người. Căn chỉnh AI là một phần của an toàn, tập trung cụ thể vào việc đảm bảo mục tiêu của AI phù hợp với ý định và giá trị của con người. Về mặt lý thuyết, một hệ thống có thể được căn chỉnh AI nhưng không an toàn (ví dụ: theo đuổi mục tiêu sai lầm một cách thành thạo do định nghĩa sai) hoặc an toàn nhưng không căn chỉnh (ví dụ: bị giới hạn bởi các cơ chế kiểm soát mặc dù mục tiêu không phù hợp). Mặc dù điều này nghe có vẻ đơn giản, phạm vi chính xác của nó thay đổi đáng kể giữa các cộng đồng nghiên cứu. Chúng ta đã thấy một định nghĩa ngắn gọn về sự đồng bộ trong chương trước, nhưng phần này đi sâu hơn và cung cấp một góc nhìn tinh tế hơn về các định nghĩa khác nhau mà chúng ta có thể làm việc với.

Các định nghĩa rộng hơn về căn chỉnh AI bao quát toàn bộ thách thức trong việc tạo ra kết quả AI có lợi. Các tiếp cận này tập trung vào việc đảm bảo hệ thống AI hiểu và thực hiện đúng các sở thích của con người (Christiano, 2018), giải quyết các thách thức phức tạp trong việc học giá trị (Dewey, 2011) và tích hợp các khía cạnh độ bền như khả năng chống lại việc "jailbreaking" (Jonker et al., 2024). Quan điểm toàn diện này coi sự đồng bộ bao gồm cả ý định của hệ thống và khả năng hiểu các giá trị của con người - về cơ bản giải quyết toàn bộ phổ của những gì khiến một hệ thống AI hành động theo cách mà con người có thể chấp nhận^.

Các định nghĩa hẹp hơn về sự đồng bộ tập trung cụ thể vào động cơ và ý định của AI mà không phụ thuộc vào kết quả. Một số định nghĩa hẹp hơn tập trung cụ thể vào động cơ của AI - "Một AI (A) đang cố gắng làm những gì mà người vận hành con người (H) muốn nó làm" (Christiano, 2018). Điều này nhấn mạnh động cơ của AI hơn là khả năng hoặc kiến thức của nó. Theo định nghĩa này, một AI có ý định phù hợp vẫn có thể thất bại do hiểu lầm mong muốn của người điều khiển hoặc thiếu kiến thức về thế giới, nhưng về cơ bản nó đang cố gắng giúp đỡ. Những người ủng hộ lập luận rằng sự tập trung hẹp này tách biệt thách thức kỹ thuật cốt lõi là khiến hệ thống AI chấp nhận mục tiêu của con người, tách biệt khỏi các vấn đề rộng hơn như làm rõ giá trị hoặc độ bền vững của năng lực. Tức là, miễn là tác nhân "có ý tốt", nó được coi là đồng nhất, ngay cả khi những sai lầm trong giả định của nó về sở thích của người dùng hoặc về thế giới nói chung dẫn đến hành động có hại cho người dùng.

Sự lựa chọn định nghĩa phản ánh các giả định cơ bản về rủi ro từ AI và các giải pháp hứa hẹn. Tập trung hẹp vào sự đồng nhất ý định ưu tiên nghiên cứu về các vấn đề đồng nhất nội/ngoại, trong khi các quan điểm rộng hơn tích hợp nghiên cứu về học tập giá trị hoặc độ bền vững một cách trung tâm hơn. Các tiếp cận khác nhau này dẫn đến các ưu tiên nghiên cứu và chiến lược an toàn khác nhau.

^Mặc dù căn chỉnh AI không nhất thiết bao gồm tất cả các rủi ro hệ thống và lợi dụng sai mục đích, vẫn có một số điểm trùng lặp. Một số kỹ thuật căn chỉnh có thể giúp giảm thiểu một số tình huống lợi dụng sai mục đích—ví dụ, các phương pháp căn chỉnh có thể đảm bảo rằng các mô hình từ chối hợp tác với người dùng có ý định sử dụng AI cho mục đích gây hại như khủng bố sinh học. Tương tự, từ góc độ rủi ro hệ thống, một AI được căn chỉnh tốt có thể nhận ra và từ chối tham gia vào các quy trình có vấn đề được nhúng trong các hệ thống như thị trường tài chính. Tuy nhiên, vẫn còn những thách thức, vì các cá nhân độc hại có thể cố gắng vượt qua các biện pháp bảo vệ này thông qua việc tinh chỉnh mô hình một cách có mục tiêu cho các mục đích gây hại, và trong trường hợp này, ngay cả một mô hình được điều chỉnh hoàn hảo cũng không thể chống lại.

Áp dụng các khái niệm như "thử", "muốn" hoặc "ý định" vào hệ thống AI không phải là điều đơn giản. Khi chúng ta đào tạo hệ thống AI, chúng ta xác định một mục tiêu tối ưu hóa (như tối đa hóa hàm phần thưởng), nhưng điều này không nhất thiết có nghĩa là hệ thống "có ý định" theo đuổi mục tiêu đó theo cách tương tự con người. Như chúng ta đã giải thích trong chương trước, sự thất bại trong việc xác định xảy ra khi những gì chúng ta xác định không phản ánh đúng những gì chúng ta thực sự mong muốn (việc theo đuổi một mục tiêu xấu một cách có ý định tốt). Tuy nhiên, việc giải quyết vấn đề này là chưa đủ, hệ thống có thể theo đuổi những mục tiêu hoàn toàn khác biệt. Như một ví dụ, hãy nghĩ về cách tiến hóa "tối ưu hóa" con người cho sự thích nghi di truyền (mục tiêu tối ưu hóa), nhưng con người đã phát triển các mục tiêu khác (như thưởng thức nghệ thuật hoặc tránh thai) không tối đa hóa sự thích nghi sinh sản. Tương tự, các hệ thống AI được tối ưu hóa cho các mục tiêu nhất định có thể phát triển các "mục tiêu" nội bộ không trực tiếp khớp với các mục tiêu đó, đặc biệt khi chúng trở nên có năng lực hơn.

"Được điều chỉnh cho ai?" vẫn là một câu hỏi cơ bản không có câu trả lời thống nhất. Hệ thống AI nên được điều chỉnh cho người vận hành trực tiếp (Christiano, 2018), nhà thiết kế hệ thống (Gil, 2023), một nhóm người cụ thể, toàn nhân loại (Miller, 2022), các nguyên tắc đạo đức khách quan, hay sở thích được thông tin của người vận hành? Không có câu trả lời thống nhất cho bất kỳ câu hỏi nào trong số này, chỉ có nhiều quan điểm khác nhau, mỗi quan điểm đều có ưu và nhược điểm riêng. Chúng tôi đã cố gắng tóm tắt một số quan điểm trong phụ lục.

Đạo đức AI

Đạo đức AI (Huang et al., 2023)

Nghiên cứu và áp dụng các nguyên tắc luân lý vào quá trình phát triển và triển khai trí tuệ nhân tạo (AI), giải quyết các vấn đề về công bằng, minh bạch, trách nhiệm, quyền riêng tư, tự định hướng và các giá trị nhân văn khác mà hệ thống AI nên tuân thủ hoặc thúc đẩy.

Đạo đức AI là lĩnh vực nghiên cứu các nguyên tắc luân lý và tác động xã hội của các hệ thống AI. Nó giải quyết các cân nhắc luân lý về những biến động xã hội tiềm ẩn do sự phát triển của AI gây ra, cũng như các khung luân lý cần thiết để đối phó với những thay đổi này. Tâm điểm của đạo đức AI nằm ở việc đảm bảo rằng sự phát triển của AI phù hợp với phẩm giá con người, công bằng và phúc lợi xã hội, thông qua sự hiểu biết sâu sắc về tầm ảnh hưởng xã hội rộng lớn của chúng. Nghiên cứu về đạo đức AI có thể bao gồm các tiêu chuẩn về quyền riêng tư, xác định và giảm thiểu sự thiên vị trong hệ thống AI (Huang et al., 2022; Harvard, 2025; Khan et al., 2022).

Đạo đức bổ sung cho các tiếp cận an toàn kỹ thuật bằng cách cung cấp hướng dẫn chuẩn mực về những gì được coi là AI có lợi. Trong khi việc đồng bộ hóa tập trung vào việc đảm bảo các hệ thống AI theo đuổi các mục tiêu dự định, việc tập trung vào giá trị hoặc đạo đức giải quyết câu hỏi về những mục tiêu nào đáng để theo đuổi (Huang et al., 2023; LaCroix & Luccioni, 2022). Đạo đức AI cũng có thể bao gồm các cuộc thảo luận về quyền kỹ thuật số và thậm chí cả quyền của chính các hệ thống AI trong tương lai.

Chương này tập trung chủ yếu vào các khung an toàn vì chúng định hướng cho các chiến lược an toàn kỹ thuật và quản trị, thay vì khám phá các câu hỏi đạo đức hoặc xem xét quyền kỹ thuật số.

Kiểm soát AI

Kiểm soát AI (Greenblatt et al., 2024)

Các biện pháp kỹ thuật và quy trình được thiết kế để ngăn chặn hệ thống AI gây ra kết quả không thể chấp nhận được, ngay cả khi các hệ thống này cố tình vi phạm các biện pháp an toàn. Kiểm soát tập trung vào việc duy trì sự giám sát của con người bất kể mục tiêu của AI có phù hợp với ý định của con người hay không.

Kiểm soát AI đảm bảo các hệ thống vẫn nằm dưới sự kiểm soát của con người ngay cả khi có sự mất căn chỉnh. Kiểm soát AI triển khai các cơ chế để đảm bảo các hệ thống AI vẫn nằm dưới sự chỉ đạo của con người, ngay cả khi chúng có thể hành động trái với lợi ích của chúng ta. Khác với các phương pháp đồng nhất tập trung vào việc cung cấp cho các hệ thống AI các mục tiêu đúng đắn, kiểm soát giải quyết vấn đề xảy ra khi các mục tiêu đó không phù hợp với ý định của con người (Greenblatt et al., 2024).

Kiểm soát và điều chỉnh hoạt động như các phương pháp an toàn bổ sung cho nhau. Trong khi điều chỉnh nhằm ngăn chặn sự chênh lệch về sở thích bằng cách thiết kế hệ thống với các mục tiêu đúng đắn, kiểm soát tạo ra các lớp bảo mật hoạt động ngay cả khi điều chỉnh thất bại. Các biện pháp kiểm soát bao gồm giám sát hành động của AI, hạn chế năng lực của hệ thống, quy trình kiểm toán của con người và các cơ chế để ngừng hoạt động của hệ thống AI khi cần thiết (Greenblatt et al., 2023). Một số nhà nghiên cứu cho rằng ngay cả khi sự đồng bộ là cần thiết cho các hệ thống AI có trí tuệ siêu trí tuệ, việc kiểm soát thông qua giám sát có thể là một chiến lược khả thi cho các hệ thống có năng lực thấp hơn (Greenblatt et al., 2024). Lý tưởng nhất, một hệ thống AI tổng quát (AGI) sẽ được đồng bộ và có thể kiểm soát, nghĩa là nó sẽ có các mục tiêu đúng đắn và chịu sự giám sát và can thiệp của con người nếu có sự cố xảy ra.

Chúng tôi chỉ trình bày một cái nhìn tổng quan rất ngắn gọn ở đây. Dòng nghiên cứu về kiểm soát an toàn AI được thảo luận chi tiết hơn trong chương của chúng tôi về đánh giá AI.

Chương 3.2: Các chiến lược phòng ngừa lợi dụng sai mục đích
Tiếp tục