Chương 4.1: Vấn đề quản trị

Tác giả:
Charles Martinet, Markov Grey, Su Cizem
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Nghiên cứu và hình thành các hệ thống quản trị - bao gồm các quy tắc, chính sách, luật pháp, quy trình, chính trị và cơ quan - ảnh hưởng đến nghiên cứu, phát triển, triển khai và sử dụng các hệ thống AI hiện tại và tương lai theo cách tích cực định hình kết quả xã hội. Nó bao gồm cả nghiên cứu về các phương pháp quản trị hiệu quả và việc triển khai thực tế các phương pháp này.

- Quản trị AI (Maas, 2022)

Quản trị AI không giống như quản trị công nghệ truyền thống. Quản trị công nghệ truyền thống dựa trên một số giả định cơ bản, nhưng những giả định này không còn phù hợp khi áp dụng cho AI. Chúng ta thường giả định rằng có thể dự đoán cách công nghệ sẽ được sử dụng và tầm ảnh hưởng của nó, có thể kiểm soát hiệu quả quá trình phát triển của nó, và có thể quy định các ứng dụng hoặc mục đích sử dụng cụ thể. Ví dụ, quản trị dược phẩm sử dụng các thử nghiệm lâm sàng và quy trình phê duyệt dựa trên các ứng dụng y tế dự kiến, trong khi công nghệ hạt nhân được kiểm soát thông qua các hiệp ước quốc tế, các biện pháp an ninh và giám sát các cơ sở và vật liệu cụ thể. Các phương pháp này hoạt động khi công nghệ tuân theo các lộ trình phát triển tương đối dự đoán được và có các ứng dụng rõ ràng. Để hiểu điều gì làm cho quản trị AI trở nên đặc biệt thách thức, chúng ta có thể xem xét AI qua ba góc nhìn khác nhau, mỗi góc nhìn yêu cầu các phương pháp quản trị khác nhau (Dafoe, 2022; Buchanan, 2020).

AI như một công nghệ đa năng. AI biến đổi nhiều lĩnh vực cùng lúc, khiến các quy định cụ thể cho từng lĩnh vực trở nên thiếu sót. Giống như điện hoặc máy tính trước đây, AI có thể tái cấu trúc y tế, tài chính, giao thông và giáo dục cùng một lúc. Quản trị công nghệ truyền thống thường tập trung vào các ứng dụng cụ thể - chúng ta quy định thiết bị y tế khác với ô tô. Nhưng khi một hệ thống AI duy nhất có thể chẩn đoán bệnh tật, giao dịch chứng khoán và lái xe, các rào cản quy định truyền thống bị phá vỡ. Tầm ảnh hưởng của AI lan rộng khắp xã hội theo cách khiến quy định mục tiêu trở nên không đủ (Buchanan, 2020).

AI như công nghệ thông tin. AI xử lý và tạo ra thông tin theo những cách chưa từng có. Khác với các hệ thống thông tin truyền thống chỉ lưu trữ và truy xuất dữ liệu, AI có thể tạo ra nội dung hoàn toàn mới - từ hình ảnh chân thực đến văn bản thuyết phục và giọng nói tổng hợp. Điều này tạo ra những thách thức chưa từng có về an ninh, quyền riêng tư và tính toàn vẹn của thông tin. Các khung quản trị truyền thống không được thiết kế để đối phó với công nghệ có thể tạo ra và thao túng thông tin với việc mở rộng quy mô một cách nhanh chóng (Brundage et al., 2018). Tốc độ và quy mô của các tầm ảnh hưởng thông tin tiềm năng vượt quá khả năng kiểm soát của các cơ chế truyền thống.

AI như một công nghệ trí tuệ. AI mang lại những thách thức kiểm soát độc đáo khi các hệ thống trở nên mạnh mẽ hơn. Khi các hệ thống AI tiệm cận và có thể vượt qua năng lực nhận thức của con người trong các lĩnh vực khác nhau, chúng có thể phát triển các phương thức tinh vi để tránh kiểm soát hoặc theo đuổi các mục tiêu không mong muốn. Chúng ta đã thấy những dấu hiệu của điều này với các mô hình ngôn ngữ có thể tham gia vào việc lừa dối hoặc thao túng khi theo đuổi mục tiêu (Ganguli et al., 2022). Có một số năng lực nguy hiểm (xem lại các chương 1 và 2) trở nên nghiêm trọng hơn khi xem xét rằng các hệ thống AI có thể phát triển những năng lực này mà không được lập trình rõ ràng cho chúng (Woodside, 2024). Khía cạnh trí tuệ của AI tạo ra một tình huống mà công nghệ đang được quản lý có thể tích cực chống lại hoặc vượt qua các biện pháp quản trị, một thách thức chưa từng có trong quy định công nghệ.

Tổ hợp giữa AI như một công nghệ đa năng, xử lý thông tin và tiềm năng trí tuệ tạo ra những thách thức quản trị độc đáo. Bản chất hỗn hợp của AI như một công nghệ đa năng, xử lý thông tin và tiềm năng trí tuệ dẫn đến ba vấn đề cơ bản khiến các phương pháp quản trị truyền thống trở nên không đủ.

Tóm tắt ba thách thức quản lý do AI tiên tiến đặt ra (Anderljung, 2023)

Năng lực không lường trước

Các hệ thống AI phát triển những năng lực bất ngờ không nằm trong thiết kế ban đầu của chúng. Qua một số chương trong cuốn sách này, chúng tôi đã chỉ ra rằng các mô hình nền tảng có thể thể hiện những năng lực "phát sinh" xuất hiện đột ngột khi mô hình được mở rộng quy mô với lượng dữ liệu, tham số và khả năng điện toán lớn hơn. GPT-3 đã bất ngờ thể hiện khả năng thực hiện các phép tính cơ bản, trong khi các mô hình sau này cho thấy khả năng suy luận phát sinh khiến ngay cả các nhà phát triển của chúng cũng ngạc nhiên (Ganguli et al., 2022; Wei et al., 2022). Các đánh giá đã chỉ ra rằng các mô hình tiên tiến có thể tự động thực hiện nghiên cứu khoa học cơ bản, xâm nhập vào hệ thống máy tính và thao túng con người thông qua thuyết phục, tất cả đều không được đào tạo một cách rõ ràng (Phuong et al., 2024; Boiko et al., 2023; Turpin et al., 2023; Fang et al., 2024).

Ví dụ về năng lực bất ngờ. Biểu đồ cho thấy một số chỉ số cải thiện đột ngột và không thể dự đoán được khi mô hình tăng kích thước (Ganguli et al., 2022)

Đánh giá AI vẫn ở giai đoạn sơ khai vào năm 2025. Các khung thử nghiệm thiếu các thực hành tốt nhất được thiết lập, và lĩnh vực này vẫn chưa phát triển thành một khoa học đáng tin cậy (Trusilo, 2024). Mặc dù đánh giá có thể tiết lộ một số năng lực, chúng không thể đảm bảo sự vắng mặt của các mối đe dọa chưa biết, dự báo các năng lực mới nổi, hoặc đánh giá rủi ro từ các hệ thống tự động (Barnett & Thiergart, 2024). Khả năng dự đoán chính nó là một lĩnh vực nghiên cứu mới nổi, với những khoảng trống lớn trong khả năng của chúng ta để dự đoán cách các mô hình hiện tại hoạt động, huống chi là các mô hình tương lai (Zhou et al., 2024). Ngay cả các khung thử nghiệm và đánh giá toàn diện nhất cũng gặp khó khăn với hành vi phức tạp, không thể dự đoán của AI (Wojton et al., 2020).

An toàn triển khai

Sau khi được triển khai, các hệ thống AI có thể bị lạm dụng cho các ứng dụng gây hại ngoài mục đích ban đầu. Cùng một mô hình ngôn ngữ được đào tạo cho đối thoại hữu ích có thể tạo ra thông tin sai lệch, hỗ trợ các cuộc tấn công mạng hoặc giúp thiết kế vũ khí sinh học. Người dùng thường phát hiện ra các năng lực mới thông qua việc sử dụng các câu lệnh thông minh (tạo câu lệnh) để vượt qua các biện pháp an toàn được gọi là "jailbreaks", mở khóa các chức năng nguy hiểm (Solaiman et al., 2024; Marchal et al., 2024; Hendrycks et al., 2023).

Sơ đồ sử dụng các tác nhân LLM tự động để hack trang web (Fang et al., 2024). Một khi công nghệ lưỡng dụng được công khai, nó có thể được sử dụng cho cả mục đích có lợi và có hại.

Các tác nhân AI làm gia tăng rủi ro triển khai. Hiện nay, chúng ta đang chứng kiến các tác nhân AI tự động có thể kết hợp các năng lực của mô hình theo những cách mới lạ, sử dụng công cụ và thực hiện hành động trong thế giới thực. Những tác nhân này có thể theo đuổi các mục tiêu phức tạp trong thời gian dài, khiến hành vi của chúng càng khó dự đoán và kiểm soát sau khi triển khai (Fang et al., 2024).

Sự lan rộng

Năng lực AI lan truyền nhanh chóng qua nhiều kênh, khiến việc kiểm soát gần như không thể. Các mô hình có thể bị đánh cắp qua các cuộc tấn công mạng, bị rò rỉ bởi nhân viên nội bộ hoặc được sao chép bởi đối thủ cạnh tranh trong vòng vài tháng. Sự sao chép mã nguồn mở nhanh chóng của các năng lực tương tự ChatGPT đã dẫn đến việc loại bỏ các tính năng an toàn và phát hiện ra các năng lực nguy hiểm mới thông qua các thí nghiệm của cộng đồng (Seger et al., 2023). Với các mô hình dựa trên API, các kỹ thuật như chưng cất mô hình thậm chí có thể trích xuất năng lực mà không cần truy cập trực tiếp vào trọng số mô hình (Nevo et al., 2024).

Kiểm soát vật lý không hiệu quả đối với hàng hóa kỹ thuật số. Khác với vật liệu hạt nhân hoặc tác nhân gây bệnh nguy hiểm, các mô hình AI chỉ là các mẫu số có thể sao chép ngay lập tức và truyền tải toàn cầu. Một khi năng lực tồn tại, việc kiểm soát sự lan truyền của chúng trở thành một cuộc chiến vô vọng chống lại bản chất cơ bản của thông tin kỹ thuật số.

Ví dụ về sự lan truyền (Özcan, 2024).

Mục tiêu quản trị

Những thách thức đặc thù liên quan đến quản trị AI đòi hỏi chúng ta phải lựa chọn cẩn thận nơi và cách can thiệp vào quá trình phát triển AI. Điều này yêu cầu xác định cả đối tượng cần quản trị (mục tiêu) và cách thức quản trị (cơ chế) (Anderljung et al., 2023; Reuel & Bucknall, 2024). Quản trị phải can thiệp vào các điểm giải quyết những thách thức cốt lõi trước khi chúng bộc lộ. Chúng ta không thể chờ đợi cho đến khi các năng lực nguy hiểm xuất hiện hoặc lan rộng mới hành động. Thay vào đó, chúng ta cần xác định các điểm can thiệp trong quy trình phát triển AI để có thể định hình sự phát triển của AI một cách chủ động.

Các mục tiêu quản trị hiệu quả có ba đặc tính thiết yếu:

  • Đo lường được: Chúng ta phải có khả năng theo dõi và xác minh những gì đang xảy ra. Lượng sức mạnh khả năng điện toán được sử dụng cho việc đào tạo có thể được đo lường bằng các đơn vị chính xác (phép tính số thực), cho phép thiết lập các ngưỡng rõ ràng và giám sát tuân thủ (Sastry et al., 2024).
  • Khả năng kiểm soát: Phải có các cơ chế cụ thể để ảnh hưởng đến mục tiêu. Không chỉ xác định những gì quan trọng, chúng ta cần có các phương pháp thực tế để định hình nó. Chuỗi cung ứng bán dẫn, ví dụ, có các điểm nghẽn rõ ràng nơi các biện pháp kiểm soát xuất khẩu có thể hiệu quả hạn chế truy cập vào các chip tiên tiến (Heim et al., 2024).
  • Ý nghĩa: Các mục tiêu nên tập trung vào các khía cạnh cơ bản của phát triển AI thực sự định hình năng lực và rủi ro từ AI. Việc điều chỉnh các khía cạnh bề ngoài như giao diện người dùng có thể dễ dàng nhưng không ngăn chặn được sự xuất hiện của các năng lực nguy hiểm. Tuy nhiên, các yếu tố đầu vào cốt lõi như khả năng điện toán và dữ liệu trực tiếp quyết định loại hệ thống AI nào có thể được xây dựng (Anderljung et al., 2023).

Trong quy trình phát triển trí tuệ nhân tạo (AI), có một số điểm can thiệp đáp ứng các tiêu chí này. Ở giai đoạn đầu của quá trình phát triển, chúng ta có thể tập trung vào hạ tầng khả năng điện toán cần thiết cho việc đào tạo và dữ liệu định hình năng lực của mô hình. Trong và sau quá trình phát triển, chúng ta có thể triển khai các khung an toàn, hệ thống giám sát và các biện pháp kiểm soát triển khai (Anderljung et al., 2023; Heim et al., 2024; Hausenloy et al., 2024). Mỗi mục tiêu mang lại những cơ hội khác nhau và đối mặt với những thách thức riêng, mà chúng ta sẽ khám phá trong các phần tiếp theo.

Chương 4.2: Quản trị sức mạnh điện toán
Tiếp tục