Chương 3.7: Thách thức

Tác giả:
Markov Grey, Charbel-Raphaël Segerie
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Phát triển các chiến lược để đảm bảo an toàn cho các hệ thống AI ngày càng có năng lực đặt ra những thách thức độc đáo và đáng kể. Những khó khăn này xuất phát từ bản chất của AI, tình trạng hiện tại của lĩnh vực nghiên cứu và sự phức tạp của các rủi ro liên quan.

Chúng ta không biết cách đào tạo các hệ thống để chúng hoạt động tốt một cách ổn định.

  • Anthropic, 2023

Bản chất của vấn đề

Một số đặc tính nội tại khiến an toàn AI trở thành một vấn đề đặc biệt khó khăn:

Rủi ro từ AI là một vấn đề mới nổi và vẫn chưa được hiểu rõ. Rủi ro từ AI là một lĩnh vực tương đối mới, liên quan đến công nghệ đang phát triển nhanh chóng. Hiểu biết của chúng ta về toàn bộ phổ các chế độ thất bại tiềm ẩn và hệ quả lâu dài vẫn còn chưa đầy đủ. Việc thiết kế các biện pháp bảo vệ vững chắc cho các công nghệ chưa tồn tại, nhưng có thể gây ra hậu quả tiêu cực nghiêm trọng, là một thách thức nội tại.

Lĩnh vực này vẫn đang ở giai đoạn tiền mô hình. Hiện tại không có mô hình nào được chấp nhận rộng rãi cho an toàn AI. Các nhà nghiên cứu không đồng ý về các khía cạnh cơ bản, bao gồm các mối đe dọa có khả năng xảy ra nhất (ví dụ: sự chiếm quyền đột ngột (Yudkowsky, 2022) so với sự mất kiểm soát từ từ (Critch, 2021)) và các hướng giải pháp hứa hẹn nhất. Các chương trình nghiên cứu của một số nhà nghiên cứu dường như ít hữu ích đối với những người khác, và một trong những hoạt động ưa thích của các nhà nghiên cứu về sự phù hợp là phê bình kế hoạch của nhau một cách xây dựng.

AI là các hộp đen được huấn luyện, không phải được xây dựng. Các mô hình học sâu hiện đại là "hộp đen". Mặc dù chúng ta biết cách huấn luyện chúng, các thuật toán cụ thể mà chúng học và các quy trình ra quyết định nội bộ của chúng vẫn chủ yếu là bí ẩn. Các mô hình này thiếu tính mô-đun rõ ràng thường thấy trong kỹ thuật phần mềm truyền thống, khiến việc phân tích, phân tích hoặc xác minh hành vi của chúng trở nên khó khăn. Tiến bộ trong khả năng diễn giải vẫn chưa hoàn toàn vượt qua thách thức này.

Sự phức tạp là nguồn gốc của nhiều điểm mù. Sự phức tạp khổng lồ của các mô hình AI lớn có nghĩa là các hành vi bất ngờ và tiềm ẩn nguy hiểm có thể xuất hiện mà không có cảnh báo. Các vấn đề như "glitch tokens", ví dụ: "SolidGoldMagikarp" gây ra hành vi bất thường trong các mô hình GPT (Rumbelow & Watkins, 2023), cho thấy cách các tương tác không lường trước giữa các thành phần (như bộ mã hóa token và dữ liệu đào tạo) có thể dẫn đến sự cố. Khi GPT gặp từ hiếm này, nó hành động một cách không thể dự đoán và bất thường. Hiện tượng này xảy ra vì GPT sử dụng bộ phân tích token để chia câu thành các token (các tập hợp ký tự như từ hoặc tổ hợp ký tự và số), và token "SolidGoldMagikarp" có trong tập dữ liệu của bộ phân tích token nhưng không có trong tập dữ liệu của mô hình GPT. Điểm mù này không phải là trường hợp cá biệt.

Việc tạo ra một khung rủi ro toàn diện là rất khó khăn. Có rất nhiều phân loại khác nhau về các kịch bản rủi ro tập trung vào các loại tác hại khác nhau (Critch & Russel, 2023; Hendrycks et al., 2023). Đề xuất một mô hình rủi ro duy nhất vững chắc vượt qua mọi chỉ trích là cực kỳ khó khăn, và các kịch bản rủi ro thường chứa đựng một mức độ mơ hồ. Không có kịch bản nào bao quát hầu hết khối lượng xác suất, và có sự đa dạng rộng lớn của các kịch bản tiềm ẩn thảm họa (Pace, 2020).

Một số lập luận ban đầu có vẻ hấp dẫn có thể gây hiểu lầm. Ví dụ, tác giả chính của bài báo (Turner et al., 2023) trình bày kết quả toán học về sự hội tụ công cụ, Alex Turner, hiện tin rằng định lý của ông là cách suy nghĩ kém hiệu quả về vấn đề này (Turner, 2023). Một số lập luận cổ điển khác cũng đã bị chỉ trích gần đây, như lập luận đếm hoặc khung tối đa hóa tiện ích, sẽ được thảo luận trong chương "tổng quát lệch mục tiêu" (AI Optimists, 2023).

Chúng ta có thể không có thời gian. Nhiều chuyên gia trong lĩnh vực này tin rằng Trí tuệ Nhân tạo Tổng quát (AGI) và sau đó là Trí tuệ Nhân tạo Siêu việt (ASI) có thể xuất hiện trước năm 2030. Chúng ta cần giải quyết những vấn đề khổng lồ này, hoặc ít nhất là thiết lập chiến lược cho việc triển khai, trước khi điều đó xảy ra.

Nhiều thuật ngữ quan trọng trong an toàn AI rất phức tạp để định nghĩa. Chúng thường đòi hỏi kiến thức về triết học (nhận thức luận, lý thuyết về tâm trí) và AI. Ví dụ, để xác định liệu một AI có phải là một tác nhân hay không, người ta phải làm rõ "tác nhân có nghĩa là gì?", điều này, như chúng ta sẽ thấy trong các chương sau, đòi hỏi sự tinh tế và có thể là một thuật ngữ vốn dĩ không rõ ràng và mơ hồ. Một số chủ đề trong an toàn AI rất khó nắm bắt và được coi là không khoa học trong cộng đồng học máy, chẳng hạn như thảo luận về nhận thức tình huống (Hinton, 2024) hoặc tại sao AI có thể "thực sự hiểu". Những khái niệm này còn xa mới đạt được sự đồng thuận giữa các nhà triết học và nhà nghiên cứu AI và đòi hỏi sự thận trọng cao độ.

Một giải pháp đơn giản có lẽ không tồn tại. Ví dụ, phản ứng với biến đổi khí hậu không chỉ là một biện pháp, như tiết kiệm điện vào mùa đông tại nhà. Một loạt các giải pháp tiềm năng khác nhau phải được áp dụng. Giống như có nhiều vấn đề cần xem xét khi xây dựng một chiếc máy bay, tương tự, khi đào tạo và triển khai AI, một loạt các vấn đề có thể nảy sinh, đòi hỏi các biện pháp phòng ngừa và an ninh đa dạng.

An toàn AI khó đo lường. Làm việc trên vấn đề này có thể dẫn đến ảo tưởng về sự hiểu biết, từ đó tạo ra ảo tưởng về sự kiểm soát. An toàn AI thiếu các vòng phản hồi rõ ràng. Tiến bộ trong việc nâng cao khả năng AI tương đối dễ đo lường và bài kiểm tra, trong khi tiến bộ về an toàn tương đối khó đo lường. Ví dụ, việc theo dõi tốc độ suy luận dễ dàng hơn nhiều so với việc theo dõi tính chính xác của hệ thống AI hoặc theo dõi các thuộc tính an toàn của nó.

Sự không chắc chắn và bất đồng

Tính chất tiền mô hình của an toàn AI dẫn đến sự bất đồng đáng kể giữa các chuyên gia. Những khác biệt trong quan điểm này là điều quan trọng cần hiểu khi đánh giá các chiến lược đề xuất.

Hệ quả của sự thất bại trong việc căn chỉnh AI chứa đựng nhiều sự không chắc chắn. Những hiểu biết mới có thể thách thức nhiều cân nhắc cấp cao được thảo luận trong cuốn sách này. Ví dụ, Zvi Mowshowitz đã tổng hợp một danh sách các câu hỏi trung tâm mang tính không chắc chắn cao (Mowshowitz, 2023). Ví dụ, thế giới nào được coi là thảm họa so với không thảm họa? Kết quả nào được coi là không thảm họa? Điều gì là có giá trị? Chúng ta quan tâm đến điều gì? Nếu được trả lời khác nhau, những câu hỏi này có thể thay đổi đáng kể ước tính về khả năng và mức độ nghiêm trọng của thảm họa phát sinh từ AGI không được điều chỉnh.

Những quan điểm thế giới khác biệt. Những bất đồng này thường xuất phát từ những quan điểm thế giới cơ bản khác nhau. Một số chuyên gia, như Robin Hanson, có thể tiếp cận rủi ro từ AI thông qua lăng kính kinh tế hoặc tiến hóa, có thể dẫn đến những kết luận khác nhau về tốc độ cất cánh AI và khả năng kiểm soát ổn định so với những người tập trung vào nền tảng của tác nhân AI hoặc sự thất bại trong việc điều chỉnh kỹ thuật (Hanson, 2023). Những người khác, như Richard Sutton, đã bày tỏ quan điểm cho rằng việc chấp nhận hoặc thậm chí ủng hộ AI có thể vượt qua nhân loại, coi đó là một bước tiến hóa tự nhiên thay vì thảm họa hiện sinh (Sutton, 2023). Những quan điểm triết học khác biệt này ảnh hưởng đến ưu tiên chiến lược.

An toàn giả tạo

Tổ hợp giữa rủi ro cao, lo ngại của công chúng và thiếu sự đồng thuận tạo ra môi trường thuận lợi cho "an toàn giả tạo" — hành vi trình bày sai lệch các sản phẩm, nghiên cứu hoặc thực hành AI là an toàn hơn hoặc phù hợp hơn với mục tiêu an toàn so với thực tế (Vaintrob, 2023).

Safetywashing có thể tạo ra cảm giác an toàn giả tạo. Các công ty phát triển AI mạnh mẽ có động lực để thể hiện sự quan tâm đến an toàn nhằm làm dịu dư luận, cơ quan quản lý và nhân viên tiềm năng. Safety washing có thể bao gồm việc phóng đại lợi ích an toàn của một số tính năng, tập trung vào các khía cạnh ít quan trọng hơn của an toàn trong khi hạ thấp rủi ro hiện sinh, hoặc tài trợ/thực hiện nghiên cứu chủ yếu nhằm nâng cao năng lực dưới danh nghĩa an toàn. Điều này có thể dẫn đến nỗ lực giảm thiểu rủi ro không đủ (Lizka, 2023). Nó có thể hướng nguồn lực và nhân tài vào các công việc ít tầm ảnh hưởng hơn và làm khó khăn hơn việc xây dựng sự đồng thuận khoa học thực sự về tình trạng an toàn thực sự của AI.

Đánh giá tiến bộ về an toàn là một thách thức. Ngay cả khi có ý định giúp đỡ, các hành động có thể có tầm ảnh hưởng tiêu cực tổng thể (ví dụ: từ các tác động thứ cấp, như đẩy nhanh việc triển khai các công nghệ nguy hiểm), và xác định tầm ảnh hưởng của đóng góp là điều không hề đơn giản. Ví dụ, tầm ảnh hưởng của học tăng cường từ phản hồi của con người (RLHF), hiện được sử dụng để điều chỉnh hướng dẫn và làm cho ChatGPT an toàn hơn, vẫn đang được tranh luận trong cộng đồng (Christiano, 2023). Một lý do khiến tầm ảnh hưởng của RLHF có thể tiêu cực là kỹ thuật này có thể tạo ra ảo giác về sự đồng nhất, khiến việc phát hiện căn chỉnh lừa đảo trở nên khó khăn hơn. Sự đồng nhất của các hệ thống được đào tạo qua RLHF là nông (Casper et al., 2023), và các thuộc tính đồng nhất có thể bị phá vỡ với các mô hình tương lai có khả năng nhận thức tình huống cao hơn. Tương tự, một số công trình về khả năng diễn giải cũng đối mặt với lo ngại về lưỡng dụng (Magdalena Wache, 2023). Một số người cho rằng nhiều nghiên cứu "an toàn AI" hiện nay giải quyết các vấn đề dễ dàng, chủ yếu mang lại lợi ích kinh tế cho nhà phát triển, có thể đẩy nhanh năng lực thay vì giảm thiểu rủi ro hiện sinh một cách có ý nghĩa (catubc, 2024). Hệ quả, ngay cả nghiên cứu có ý định tốt cũng có thể vô tình đẩy nhanh rủi ro.

Chương 3.8: Kết luận
Tiếp tục