Chương 4.4: Các kiến trúc quản trị

Tác giả:
Charles Martinet, Markov Grey, Su Cizem
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Việc quản trị trí tuệ nhân tạo (AI) ở giai đoạn phát triển ban đầu không thể giao phó cho bất kỳ cơ quan hay cấp độ quyền lực nào. Các doanh nghiệp thiếu động lực để xem xét đầy đủ tầm ảnh hưởng xã hội, các quốc gia cạnh tranh để giành ưu thế công nghệ, và các tổ chức quốc tế gặp khó khăn trong việc thực thi. Mỗi cấp độ quản trị – doanh nghiệp, quốc gia và quốc tế – đều có những ưu điểm riêng và đối mặt với những hạn chế đặc thù. Hiểu rõ cách các cấp độ này tương tác và hỗ trợ lẫn nhau là điều quan trọng để xây dựng hệ thống quản trị AI hiệu quả.

Ba cấp độ quản trị AI.

Quản trị doanh nghiệp mang lại tốc độ và chuyên môn kỹ thuật. Các công ty phát triển AI tiên tiến có tầm nhìn không ai sánh kịp về năng lực mới nổi và có thể triển khai các biện pháp an toàn nhanh hơn bất kỳ cơ quan quản lý bên ngoài nào. Họ kiểm soát các điểm quyết định quan trọng: thiết kế kiến trúc, quy trình đào tạo, đánh giá năng lực và tiêu chí triển khai. Khi OpenAI phát hiện ra rằng GPT-4 có thể thực hiện hành vi lừa dối, họ có thể ngay lập tức điều chỉnh quy trình đào tạo – điều này sẽ mất hàng tháng hoặc hàng năm nếu thông qua các kênh quản lý (Koessler, 2023).

Quản trị quốc gia thiết lập tính hợp pháp dân chủ và quyền lực thi hành. Mặc dù các công ty có thể hành động nhanh chóng, họ thiếu quyền lực để đưa ra quyết định ảnh hưởng đến toàn bộ dân số. Chính phủ quốc gia cung cấp mệnh lệnh dân chủ và cơ chế thi hành cần thiết cho các quy định có tính ràng buộc. Luật AI của EU minh chứng điều này bằng cách thiết lập các yêu cầu pháp lý được hậu thuẫn bằng mức phạt lên đến 3% doanh thu toàn cầu, tạo ra hệ quả thực sự cho việc không tuân thủ - điều mà các biện pháp tự nguyện của doanh nghiệp không thể sánh kịp (Schuett et al., 2024).

Quản trị quốc tế giải quyết các tác động toàn cầu và sự thất bại trong phối hợp. Rủi ro từ AI không tôn trọng biên giới. Một mô hình nguy hiểm được phát triển ở một quốc gia có thể ảnh hưởng đến toàn thế giới thông qua sự lan truyền kỹ thuật số. Các cơ chế quốc tế giúp hài hòa lợi ích giữa các quốc gia, ngăn chặn cuộc đua xuống đáy và đảm bảo các tiêu chuẩn an toàn nhất quán. Mạng lưới Quốc tế các Viện An toàn AI, được thành lập vào năm 2024, là minh chứng cho cách các quốc gia có thể chia sẻ các thực hành tốt nhất và phối hợp tiêu chuẩn bất chấp áp lực cạnh tranh (Ho et al., 2023).

Cách các cấp độ tương tác và củng cố lẫn nhau.

Các cấp độ quản trị tạo ra các vòng phản hồi củng cố lẫn nhau. Khung an toàn của doanh nghiệp định hình các quy định quốc gia, từ đó hình thành các tiêu chuẩn quốc tế, và cuối cùng ảnh hưởng đến các thực hành của doanh nghiệp trên toàn cầu. Khi Anthropic giới thiệu Chính sách Mở rộng Có Trách Nhiệm vào năm 2023, nó đã cung cấp một mẫu tham khảo ảnh hưởng đến cả ngưỡng khả năng điện toán trong Lệnh Hành pháp của Hoa Kỳ và các cuộc thảo luận tại các hội nghị AI quốc tế. Sự giao thoa này thúc đẩy sự phát triển của các tiếp cận quản trị hiệu quả (Schuett, 2023).

Khoảng trống ở một cấp độ tạo áp lực ở các cấp độ khác. Khi tự quản lý của doanh nghiệp không đủ, áp lực gia tăng đối với quy định quốc gia. Khi các tiếp cận quốc gia chênh lệch quá lớn, tạo ra sự chênh lệch quy định, nhu cầu về phối hợp quốc tế tăng lên. Căng thẳng động này thúc đẩy sự tiến hóa của quản trị, mặc dù nó cũng có thể tạo ra những khoảng trống nguy hiểm trong giai đoạn chuyển tiếp.

Các cấp độ khác nhau xử lý các khung thời gian và mức độ không chắc chắn khác nhau. Quản trị doanh nghiệp giỏi trong việc phản ứng nhanh với các phát triển kỹ thuật nhưng gặp khó khăn trong việc lập kế hoạch dài hạn dưới áp lực cạnh tranh. Quản trị quốc gia có thể thiết lập các khung khổ ổn định nhưng di chuyển chậm. Quản trị quốc tế cung cấp sự phối hợp dài hạn nhưng đối mặt với thách thức thực thi lớn nhất. Cùng nhau, chúng tạo ra một danh mục thời gian giải quyết cả rủi ro tức thời và hệ thống.

Quản trị doanh nghiệp

Trí tuệ nhân tạo (AI) là trường hợp hiếm hoi mà tôi cho rằng chúng ta cần chủ động trong việc quy định hơn là phản ứng [...] Tôi cho rằng [trí tuệ siêu việt kỹ thuật số] là thách thức tồn vong lớn nhất mà chúng ta phải đối mặt và cũng là thách thức cấp bách nhất. Nó cần phải là một cơ quan công quyền có tầm nhìn và quyền giám sát để đảm bảo rằng mọi người đang phát triển AI một cách an toàn [...] Và hãy nhớ lời tôi, AI nguy hiểm hơn vũ khí hạt nhân rất nhiều. Rất nhiều. Vậy tại sao chúng ta lại không có sự giám sát quy định? Điều này thật điên rồ.

- Elon Musk, Nhà sáng lập/Cộng sự sáng lập của OpenAI, Neuralink, SpaceX, xAI, PayPal, Giám đốc điều hành của Tesla, Giám đốc công nghệ của X/Twitter

Hầu như mọi quyết định tôi đưa ra đều cảm thấy như đang đứng trên mũi dao. Nếu chúng ta không phát triển đủ nhanh, các quốc gia độc tài có thể chiến thắng. Nếu chúng ta phát triển quá nhanh, những rủi ro mà chúng ta đã đề cập có thể chiếm ưu thế.

- Dario Amodei, Đồng sáng lập/CEO của Anthropic, cựu chủ tịch nghiên cứu tại OpenAI

Trong phần này, chúng ta sẽ xem xét cách các công ty AI tiếp cận vấn đề quản trị trong thực tế. Chúng ta sẽ xem xét những gì hiệu quả, những gì không hiệu quả và những khoảng trống còn tồn tại. Điều này sẽ giúp chúng ta hiểu tại sao quản trị doanh nghiệp alone không đủ, và đặt nền tảng cho các cuộc thảo luận sau này về quản trị quốc gia và quốc tế. Đến cuối phần này, chúng ta sẽ xác định cả vai trò thiết yếu của quản trị cấp công ty và tại sao nó cần được bổ sung bởi các khung pháp lý rộng hơn.

Quản trị doanh nghiệp đề cập đến các cấu trúc, thực hành và quy trình nội bộ quyết định cách các công ty AI đưa ra các quyết định liên quan đến an toàn AI. Các công ty phát triển AI tiên tiến có tầm nhìn độc đáo về các năng lực mới nổi và có thể triển khai các biện pháp an toàn nhanh hơn so với các cơ quan quản lý bên ngoài (Anderljung et al., 2023; Sastry et al., 2024). Họ có kiến thức kỹ thuật và quyền kiểm soát trực tiếp cần thiết để triển khai các biện pháp bảo vệ hiệu quả, nhưng cũng phải đối mặt với áp lực thị trường khổng lồ có thể cản trở việc dành thời gian cho các biện pháp an toàn (Friedman et al., 2007). Nó bao gồm các chính sách, cơ cấu giám sát, quy trình kỹ thuật và chuẩn mực tổ chức mà các công ty sử dụng để đảm bảo an toàn AI trong suốt quá trình phát triển AI. Các cơ chế này chuyển đổi các nguyên tắc cấp cao thành các quyết định vận hành trong các phòng thí nghiệm và đội ngũ phát triển (Zhang et al., 2021; Cihon et al., 2021).

Các cơ chế quản trị nội bộ của doanh nghiệp là quan trọng vì các công ty AI tiên phong hiện có sự tự do đáng kể trong việc quản lý hệ thống AI của chính họ. Sự gần gũi với quá trình phát triển cho phép họ xác định và giải quyết rủi ro sớm hơn và hiệu quả hơn so với việc chỉ dựa vào giám sát từ bên ngoài (Zhang et al., 2021). Tuy nhiên, quản trị nội bộ alone không thể giải quyết các rủi ro hệ thống; những rủi ro này yêu cầu sự giám sát công khai, điều mà chúng ta sẽ khám phá sau trong chương này.

Sự liên kết của các nhóm nghiên cứu phát triển các hệ thống AI nổi bật, theo năm công bố. Mô tả lĩnh vực mà các tác giả của một hệ thống AI nổi bật có liên kết chính (Giattino et al., 2023).

Các công ty AI kiểm soát AI kiểm soát các giai đoạn nhạy cảm nhất trong quá trình phát triển mô hình: thiết kế kiến trúc, quá trình đào tạo, đánh giá năng lực, tiêu chí triển khai và các quy trình an toàn. Một hệ thống quản trị AI được thiết kế tốt có thể giảm thiểu rủi ro bằng cách đồng bộ hóa ưu tiên an toàn với quyết định hàng ngày, tích hợp các quy trình nâng cấp và áp dụng các hạn chế trước khi triển khai (Hendrycks et al., 2024). Nó bao gồm các biện pháp chủ động như tạm dừng quá trình đào tạo, hạn chế truy cập vào các năng lực rủi ro cao và kiểm toán việc sử dụng mô hình nội bộ. Vì các cá nhân thường không có quyền truy cập vào thông tin độc quyền, quản trị nội bộ là hàng phòng thủ đầu tiên, đặc biệt đối với các mô hình chưa được phát hành (Schuett, 2023; Cihon et al., 2021 ).

Việc triển khai có thể có nhiều hình thức: triển khai nội bộ để sử dụng bởi nhà phát triển hệ thống, hoặc triển khai ngoại bộ cho công chúng hoặc cho khách hàng riêng. Rất ít thông tin công khai về các triển khai nội bộ. Tuy nhiên, các công ty được biết là áp dụng các chiến lược khác nhau cho việc triển khai ngoại bộ.

- Báo cáo an toàn AI Quốc tế (Bengio et al. 2025)

Các hệ thống triển khai nội bộ cũng cần các biện pháp bảo vệ quản trị. Chỉ vì một mô hình không được triển khai công khai không có nghĩa là các biện pháp bảo vệ quản trị của công ty không áp dụng. Chúng ta đã thấy trong các chương trước rằng tự động hóa R&D AI là một trong những mục tiêu cốt lõi của nhiều công ty AI. Tổ hợp với các biện pháp bảo vệ chống lan truyền và các biện pháp giảm thiểu khi phát hành công khai, chúng ta có thể thấy nhiều mô hình được sử dụng rộng rãi nội bộ nhưng không sẵn có cho công chúng. Các triển khai nội bộ thường thiếu sự giám sát được áp dụng cho các phiên bản công khai và có thể hoạt động với quyền truy cập cao, bỏ qua các đánh giá chính thức, và phát triển năng lực thông qua việc sử dụng lặp đi lặp lại trước khi các bên liên quan bên ngoài thậm chí biết đến sự tồn tại của chúng (Stix, 2025). Nếu không có các chính sách rõ ràng về việc sử dụng nội bộ, chẳng hạn như kiểm soát truy cập, phê duyệt triển khai nội bộ hoặc các biện pháp bảo vệ chống lại việc sử dụng mô hình lặp đi lặp lại, các hệ thống có rủi ro cao có thể phát triển mà không bị kiểm soát (Xem Hình B.). Tuy nhiên, kiến thức công khai về các triển khai này còn hạn chế, và hầu hết các nỗ lực quản trị vẫn tập trung vào các phiên bản công khai (Bengio et al., 2025). Tăng cường quản trị nội bộ xung quanh các triển khai nội bộ là điều quan trọng để đảm bảo rằng các trường hợp sử dụng sớm và tiềm ẩn nguy hiểm được giám sát đúng cách.

Hình minh họa một vòng lặp tự củng cố, trong đó các hệ thống AI dần tự động hóa nghiên cứu AI, dẫn đến các hệ thống AI ngày càng có năng lực hơn, từ đó thúc đẩy nhanh hơn sự phát triển của chính nó (Stix, 2025).

Cấu trúc tổ chức xác định ai là người ra quyết định và ai chịu trách nhiệm về an toàn AI trong các công ty AI. Các phần sau sẽ đề cập đến các cơ chế an toàn cụ thể, ở đây chúng ta tập trung vào câu hỏi về quản trị: ai có quyền ưu tiên an toàn hơn các mục tiêu khác trong công ty? Ví dụ, một cấu trúc quản trị hiệu quả sẽ xác định liệu đội ngũ an toàn có thể trì hoãn việc phát hành mô hình nếu phát hiện vấn đề, liệu ban lãnh đạo có thể phủ quyết các quyết định an toàn, và liệu hội đồng quản trị có quyền quyết định cuối cùng đối với các triển khai có rủi ro cao hay không. Các mối quan hệ quyền lực này trực tiếp ảnh hưởng đến cách các yếu tố an toàn được xem xét trong các quyết định phát triển.

Quản trị AI doanh nghiệp cần tổ hợp các vai trò - giám sát cấp hội đồng quản trị, lãnh đạo rủi ro từ AI và đội ngũ an toàn kỹ thuật. Quản trị AI hiệu quả yêu cầu ba cấp độ giám sát nội bộ liên kết (Hadley et al., 2024; Schuett, 2023):

  • Cơ cấu giám sát cấp ban giám đốc phân bổ nguồn lực và thực thi chính sách an toàn như các Ban Đánh giá Thuật toán (ARBs) và ban đạo đức để đánh giá rủi ro kỹ thuật và xã hội, hướng dẫn quyết định triển khai hay không triển khai, và thiết lập giám sát với các đường lối trách nhiệm rõ ràng (Hadley et al., 2024; Schuett, 2023).
  • Các nhà điều hành phân bổ nguồn lực và thực thi chính sách an toàn. Các vị trí như Giám đốc Trí tuệ Nhân tạo (CAIO), Giám đốc Rủi ro (CRO) và các vị trí liên quan để phối hợp nỗ lực quản lý rủi ro trên toàn tổ chức, và giúp chuyển đổi các nguyên tắc đạo đức thành hành động thực tiễn (Schäfer et al., 2022; Janssen et al., 2025).
  • Các đội ngũ an toàn kỹ thuật thực hiện đánh giá và đề xuất các biện pháp giảm thiểu rủi ro. Các đội ngũ này bao gồm kiểm toán viên nội bộ, cán bộ quản lý rủi ro và các ủy ban kiểm toán chuyên môn để đảm bảo việc xác định rủi ro một cách nghiêm ngặt, duy trì tính toàn vẹn của kiểm toán và cung cấp sự đảm bảo hoạt động, với các đường báo cáo trực tiếp đến hội đồng quản trị để đảm bảo tính độc lập (Schuett, 2023; Raji et al., 2020).

Cấu trúc lại doanh nghiệp của OpenAI

Vào tháng 5 năm 2025, OpenAI đã công bố một cuộc tái cấu trúc đáng kể mô hình quản trị của mình. Trong khi duy trì kiểm soát phi lợi nhuận, công ty đã chuyển đổi công ty con có lợi nhuận từ một LLC sang một Công ty Tiện ích Công cộng (PBC): mô hình tương tự được sử dụng bởi Anthropic và các phòng thí nghiệm AI khác. Sự thay đổi này thể hiện sự thừa nhận rằng các cấu trúc "lợi nhuận có giới hạn" trước đây được thiết kế cho "một thế giới có thể chỉ có một nỗ lực AGI thống trị" nhưng ít phù hợp hơn "trong một thế giới có nhiều công ty AGI xuất sắc" (OpenAI, 2025). Các công ty AI tiên phong phải đồng thời huy động hàng tỷ đô la vốn đầu tư, duy trì tính cạnh tranh với các đối thủ có nguồn lực dồi dào và bảo vệ các cấu trúc quản trị ưu tiên an toàn AI. Như Daniel Colson của Viện Chính sách AI lưu ý, điều này tạo ra những sự đánh đổi khó khăn, trong đó các hội đồng quản trị có thể bị buộc phải "cân nhắc giữa sự sụp đổ hoàn toàn và một hình thức thỏa hiệp nào đó để đạt được mục tiêu dài hạn mà họ cho là quan trọng" (TIME, 2024).

Mô hình phô mai Thụy Sĩ thể hiện chiến lược phòng thủ đa lớp mà chúng tôi đề xuất để đối phó với rủi ro mất kiểm soát do AI được triển khai nội bộ mất căn chỉnh. Các vector đe dọa được hiển thị bằng màu đỏ (Stix et al., 2025).

Khung an toàn biên giới

Khung an toàn cho trí tuệ nhân tạo tiên tiến (FSFs) là một ví dụ về quản trị AI của doanh nghiệp. FSFs là các chính sách mà các công ty AI tạo ra để hướng dẫn quá trình phát triển của họ và đảm bảo họ đang thực hiện các biện pháp phòng ngừa phù hợp khi hệ thống AI của họ trở nên có năng lực hơn. Chúng tương đương với các quy trình an toàn được sử dụng trong nhà máy điện hạt nhân hoặc phòng thí nghiệm an ninh cao, và giúp kết nối các cơ chế quản trị nội bộ của doanh nghiệp với sự giám sát quy định bên ngoài trong lĩnh vực an toàn AI. Khái niệm về FSF lần đầu tiên được giới thiệu vào năm 2023. Chúng đã thu hút sự chú ý tại Hội nghị AI Seoul vào tháng 5 năm 2024, nơi 16 công ty cam kết triển khai các chính sách này. Tính đến tháng 3 năm 2025, 12 công ty đã công bố các chính sách an toàn AI tiên tiến toàn diện: Anthropic, OpenAI, Google DeepMind, Magic, Naver, Meta, G42, Cohere, Microsoft, Amazon, xAI và Nvidia, với các công ty khác tiếp bước (METR, 2025). Chúng có các tên gọi khác nhau, ví dụ OpenAI gọi khung an toàn AI tiên tiến của họ là "khung chuẩn bị", còn Anthropic gọi là "chính sách mở rộng quy mô có trách nhiệm" (RSPs). Về nguyên tắc, chúng rất tương đồng.

Những yếu tố cơ bản nào định nghĩa một FSF toàn diện? Mặc dù có sự khác biệt trong cách triển khai, hầu hết các FSF đều chia sẻ một số yếu tố cơ bản:

  • Ngưỡng năng lực: FSF thiết lập các ngưỡng cụ thể mà tại đó năng lực AI có thể gây ra rủi ro nghiêm trọng, đòi hỏi các biện pháp bảo vệ tăng cường (Nevo et al., 2024). Các mối quan ngại về năng lực phổ biến bao gồm: Hỗ trợ vũ khí sinh học (chẳng hạn như cho phép tạo ra các tác nhân gây bệnh nguy hiểm), Khả năng tấn công mạng (chẳng hạn như tự động hóa phát hiện lỗ hổng zero-day), Nghiên cứu và phát triển AI tự động (chẳng hạn như đẩy nhanh tiến trình AI vượt khỏi sự giám sát của con người), Tự nhân bản và thích ứng.
  • Bảo mật trọng số mô hình: Khi mô hình tiếp cận các ngưỡng năng lực nguy hiểm, các công ty triển khai các biện pháp bảo mật ngày càng phức tạp để ngăn chặn truy cập trái phép vào trọng số mô hình. Các biện pháp này bao gồm từ các giao thức an ninh thông tin tiêu chuẩn đến các biện pháp nâng cao như môi trường truy cập hạn chế, mã hóa và bảo mật phần cứng chuyên dụng (Nevo et al., 2024).
  • Điều kiện để ngừng phát triển/triển khai: Hầu hết các khung khổ đều có cam kết rõ ràng về việc tạm dừng phát triển hoặc triển khai mô hình nếu các ngưỡng năng lực bị vượt qua trước khi các biện pháp bảo vệ đủ điều kiện được triển khai (METR, 2025).
  • Đánh giá đầy đủ năng lực: Thông qua FSFs, các công ty cam kết đánh giá mô hình theo cách tiết lộ đầy đủ năng lực của chúng thay vì đánh giá thấp (Phuong et al., 2024).
  • Tần suất và thời điểm đánh giá: FSFs thiết lập các khung thời gian cụ thể cho việc đánh giá (thường trước khi triển khai, trong quá trình đào tạo và sau khi triển khai) cùng với các điều kiện kích hoạt đánh giá bổ sung khi mô hình cho thấy sự gia tăng đáng kể về năng lực (Davidson et al., 2023).
  • Cơ chế trách nhiệm: Bao gồm: Các vai trò quản trị nội bộ (ví dụ: "Giám đốc Mở rộng Có Trách Nhiệm" của Anthropic), Hội đồng tư vấn bên ngoài và kiểm toán của bên thứ ba, Cam kết minh bạch về năng lực của mô hình và các biện pháp an toàn, Bảo vệ người tố cáo cho nhân viên báo cáo các vấn đề an toàn.
  • Cập nhật chính sách: Tất cả các FSF đều thừa nhận tính chất thay đổi của rủi ro từ AI và cam kết thực hiện các đánh giá và cập nhật chính sách định kỳ khi hiểu biết về rủi ro từ AI và các thực hành tốt nhất được cải thiện (METR, 2025).

Một tiếp cận kiểm toán và quản trị nội bộ đa tầng giúp triển khai các khung an toàn trong thực tế. Khi triển khai các khung an toàn, các tổ chức nên đảm bảo rủi ro được xác định và quản lý ở nhiều cấp độ, giảm thiểu nguy cơ bỏ sót nguy hiểm. Ví dụ, khi các nhà nghiên cứu phát triển một mô hình có năng lực vượt trội ngoài dự kiến, các đội an toàn có thể tiến hành đánh giá kỹ lưỡng và triển khai các biện pháp bảo vệ bổ sung, trong khi các đội kiểm toán xem xét các quy trình rộng hơn để quản lý các năng lực mới nổi (Schuett, 2023). Một phương pháp là mô hình Ba Tuyến Phòng Thủ (3LoD) được điều chỉnh từ các ngành công nghiệp có yêu cầu an toàn cao khác (Schuett, 2023):

  • Hàng phòng thủ đầu tiên: Các nhà nghiên cứu và phát triển tuyến đầu thực hiện các biện pháp an toàn trong công việc hàng ngày, tiến hành đánh giá rủi ro ban đầu và tuân thủ các hướng dẫn đạo đức và quy trình an toàn.
  • Hàng phòng thủ thứ hai: Các chức năng quản lý rủi ro và tuân thủ chuyên biệt, bao gồm các ủy ban đạo đức AI, các đội an toàn chuyên trách và các đơn vị tuân thủ, cung cấp giám sát và hướng dẫn.
  • Hàng phòng thủ thứ ba: Các chức năng kiểm toán nội bộ độc lập cung cấp sự đảm bảo cho ban quản trị và ban lãnh đạo cấp cao thông qua các cuộc kiểm toán định kỳ về các thực hành an toàn, đánh giá mô hình độc lập và đánh giá mức độ sẵn sàng tổng thể.

Mô hình 3LoD như đã mô tả ở trên (Schuett, 2023).

Sơ đồ tổ chức mẫu của một công ty AI với các trách nhiệm tương đương cho mỗi trong ba tuyến (Schuett, 2023).

FSFs cần tính đến các năng lực chưa tồn tại. Năng lực AI đang phát triển và thay đổi nhanh chóng. FSFs áp dụng các kỹ thuật từ các ngành công nghiệp quan trọng về an toàn được điều chỉnh cho phát triển AI (Koessler & Schuett, 2023):

  • Phân tích kịch bản: Khám phá các kịch bản tương lai tiềm năng, như hệ thống AI phát triển hành vi lừa dối hoặc các năng lực phát sinh bất ngờ.
  • Phân tích xương cá: Xác định các nguyên nhân tiềm ẩn của sự cố không tương thích, như nghiên cứu an toàn không đủ, áp lực triển khai hoặc kiểm thử không đầy đủ.
  • Bản đồ nguyên nhân: Hình dung cách các quyết định nghiên cứu, biện pháp an toàn và chiến lược triển khai tương tác để ảnh hưởng đến rủi ro tổng thể.
  • Kỹ thuật Delphi: Thu thập ý kiến chuyên gia thông qua các vòng câu hỏi có cấu trúc để tổng hợp các quan điểm đa dạng về các rủi ro tiềm ẩn.
  • Phân tích Bow Tie: Vẽ sơ đồ các đường dẫn giữa nguyên nhân, sự kiện nguy hiểm và hệ quả, cùng với các biện pháp phòng ngừa và giảm thiểu.

Ví dụ về kỹ thuật phân tích Bow-tie (Hendrycks, 2024)

Ngay cả khi áp dụng các biện pháp bảo vệ nghiêm ngặt trước khi triển khai, các năng lực nguy hiểm vẫn có thể xuất hiện sau khi triển khai. Các Hệ thống Phát triển Tự động (FSFs) ngày càng tích hợp "các biện pháp điều chỉnh sau triển khai", đây là các kế hoạch ứng phó toàn diện cho các tình huống mà quản lý rủi ro trước triển khai không đạt yêu cầu (O'Brien et al., 2023):

  • Các biện pháp kiểm soát kỹ thuật để duy trì kiểm soát liên tục đối với các mô hình đã triển khai thông qua năng lực giám sát và điều chỉnh, được hỗ trợ bởi các cơ chế hoàn nguyên đã được xây dựng sẵn.
  • Sẵn sàng tổ chức để thành lập các đội phản ứng sự cố chuyên trách được đào tạo về đánh giá rủi ro và giảm thiểu rủi ro nhanh chóng.
  • Khung pháp lý để tạo ra các thỏa thuận người dùng rõ ràng, xác định khung hoạt động cho các can thiệp khẩn cấp.
  • Tắt mô hình như loại bỏ hoàn toàn khỏi thị trường hoặc phá hủy mô hình và các thành phần liên quan.

Hạn chế

Những quyết định như vậy quá lớn để giao cho một người duy nhất. Chúng ta cần xây dựng các cơ cấu quản trị vững chắc hơn, không để những quyết định này nằm trong tay một số ít người.

- Demis Hassabis, Giám đốc điều hành và Đồng sáng lập DeepMind, Giải Nobel Hóa học

FSFs đại diện cho một cơ chế tự điều chỉnh của doanh nghiệp, thể hiện sự tiến bộ nhưng có thể chưa đủ. FSFs cung cấp cho các công ty một cách để thể hiện cam kết của họ đối với quản lý rủi ro chủ động. Tính công khai của chúng cho phép sự giám sát từ bên ngoài, trong khi khung phân loại rủi ro của chúng thể hiện sự tham gia vào các chế độ thất bại tiềm năng. Cấu trúc linh hoạt có chủ đích của các khung này cho phép điều chỉnh khi hiểu biết về rủi ro từ AI phát triển (Pistillo, 2025). Mặc dù FSFs đại diện cho sự tiến bộ trong quản trị AI, hiệu quả của chúng cuối cùng phụ thuộc vào việc triển khai. Các công ty như Anthropic và OpenAI đã thiết lập các cơ chế quản trị đáng chú ý. Dù được thiết kế tốt đến đâu, các chính sách nội bộ vẫn chịu ảnh hưởng của lợi ích chiến lược của công ty. Khi an toàn cạnh tranh với tốc độ, lợi nhuận hoặc sự thống trị thị trường, ngay cả hệ thống quản trị nội bộ mạnh mẽ cũng có thể bị ảnh hưởng. Các biện pháp tự nguyện thiếu tính bắt buộc, và nhân viên nội bộ thường phải đối mặt với các động lực không phù hợp khi nêu lên lo ngại (Zhang et al., 2025).

Khi năng lực AI tiếp tục phát triển, các khung quản trị cũng phải thích ứng tương ứng. Vẫn còn nhiều dư địa để cải thiện. Một số đề xuất rằng các công ty nên xác định các ngưỡng rủi ro chính xác và có thể kiểm chứng, có thể tham khảo các ngưỡng rủi ro xã hội từ các ngành khác (Pistillo, 2025). Ví dụ, các ngành đối mặt với rủi ro thảm họa thường đặt mức rủi ro tối đa có thể chấp nhận được từ 1 trên 10.000 đến 1 trên 10 tỷ mỗi năm - các ngưỡng định lượng mà các công ty AI có thể áp dụng với các điều chỉnh phù hợp.

Rủi ro hệ thống và các vấn đề hành động tập thể không thể được giảm thiểu thông qua tự điều chỉnh của một công ty duy nhất. Không có công ty nào có thể được tin tưởng để phục vụ lợi ích công cộng một mình. Các khung quản trị doanh nghiệp như FSFs cho thấy cách các công ty có thể phối hợp xung quanh các tiêu chuẩn an toàn chung. Tuy nhiên, sự phối hợp tự nguyện của các công ty phải đối mặt với áp lực hệ thống từ cạnh tranh thị trường và lách luật. Khi an toàn cạnh tranh với tốc độ hoặc thị phần, ngay cả các công ty có ý định tốt cũng có thể rút khỏi các thỏa thuận phối hợp. Đó là lý do tại sao quản trị doanh nghiệp cần tính hợp pháp dân chủ và quyền lực thi hành mà chỉ quản trị quốc gia mới có thể cung cấp.

Quản trị Quốc gia

Tầm ảnh hưởng tiềm tàng của trí tuệ nhân tạo (AI) có thể vượt qua giới hạn nhận thức của con người. Để đảm bảo công nghệ này luôn mang lại lợi ích cho nhân loại, chúng ta phải quy định việc phát triển AI và ngăn chặn công nghệ này trở thành một con ngựa hoang không thể kiểm soát [...] Chúng ta cần tăng cường việc phát hiện và đánh giá toàn bộ vòng đời của AI, đảm bảo rằng nhân loại có khả năng nhấn nút tạm dừng vào những thời điểm quan trọng.

- Zhang Jun, Đại sứ Trung Quốc tại Liên Hợp Quốc

Chúng ta đã xác định trong phần trước rằng các công ty thường thiếu động lực để tính toán đầy đủ tầm ảnh hưởng xã hội rộng lớn, phải đối mặt với áp lực cạnh tranh có thể làm suy yếu an toàn, và thiếu tính hợp pháp để đưa ra quyết định ảnh hưởng đến toàn bộ dân số (Dafoe, 2023). Khung quản trị quốc gia do đó đóng vai trò bổ sung thiết yếu cho các sáng kiến tự điều chỉnh, thiết lập tiêu chuẩn khu vực mà các công ty có thể tích hợp vào thực hành nội bộ của mình.

Khác với các thách thức quản trị công nghệ truyền thống, các hệ thống AI tiên tiến tạo ra các tác động ngoại vi trải rộng trên nhiều lĩnh vực: từ an ninh quốc gia đến ổn định kinh tế, từ công bằng xã hội đến hoạt động dân chủ. Các hệ thống AI đe dọa an ninh quốc gia bằng cách dân chủ hóa các năng lực có thể bị các cá nhân độc hại lợi dụng, thúc đẩy kết quả kinh tế bất bình đẳng bằng cách tập trung quyền lực thị trường vào các công ty và quốc gia cụ thể trong khi đẩy việc làm sang các khu vực khác, và tạo ra các điều kiện xã hội có hại thông qua các thực hành thu thập dữ liệu khai thác và kết quả thuật toán thiên vị (Roberts et al., 2024). Các cơ quan quản lý truyền thống, được thiết kế cho các lĩnh vực công nghệ hẹp hơn, thường thiếu phạm vi không gian, năng lực kỹ thuật hoặc quyền hạn tổ chức cần thiết để quản trị hiệu quả các hệ thống này (Dafoe, 2023).

Hãy so sánh với xe tự lái, nơi các tác động bên ngoài chủ yếu được định nghĩa rõ ràng (an toàn cho người tham gia giao thông) và nằm trong khung pháp lý hiện có (các cơ quan an toàn giao thông). Ngược lại, các hệ thống AI tiên tiến tạo ra các tác động bên ngoài vượt qua ranh giới và thẩm quyền pháp lý truyền thống, đòi hỏi các tiếp cận thể chế mới có thể giải quyết khoảng cách về chuyên môn, phối hợp và thời gian trong khung pháp lý hiện tại (Dafoe, 2023).

Hệ thống AI có thể gây hại theo những cách không phải lúc nào cũng minh bạch hoặc dự đoán được. Ngoài các lỗi phần mềm hoặc sự không khớp giữa đầu vào và đầu ra, rủi ro nảy sinh từ cách hệ thống AI đại diện cho mục tiêu, thực hiện các sự đánh đổi và tổng quát hóa từ dữ liệu. Khi các hệ thống này được triển khai trên việc mở rộng quy mô, ngay cả những sự mất căn chỉnh nhỏ giữa hành vi của hệ thống và ý định của con người cũng có thể gây ra hệ quả rộng lớn. Ví dụ, việc theo đuổi mục tiêu con tự động hóa có thể tạo ra kết quả kỹ thuật chính xác nhưng thảm họa về mặt xã hội nếu không được kiểm soát cẩn thận (Cha, 2024). Vì nhiều chế độ thất bại này được nhúng trong các kiến trúc mô hình và động lực đào tạo không minh bạch, chúng kháng cự lại việc phát hiện thông qua các quy trình kiểm toán hoặc chứng nhận truyền thống. Quy định quốc gia cung cấp một cơ sở cho trách nhiệm giải trình bằng cách yêu cầu các nhà phát triển xây dựng, thử nghiệm và triển khai hệ thống theo cách có thể kiểm chứng từ bên ngoài, có thể thi hành về mặt pháp lý và hợp pháp về mặt công khai.

Như chúng ta sẽ thấy trong phần này, các khu vực lớn đã phát triển các triết lý quy định khác biệt rõ rệt, phản ánh bối cảnh thể chế và ưu tiên chính trị độc đáo của họ. Hiểu rõ các khung quy định quốc gia này sẽ cung cấp bối cảnh cho phân tích tiếp theo của chúng ta về các cơ chế quản trị quốc tế, vốn phải điều hướng và hài hòa các khác biệt khu vực để tạo ra các tiêu chuẩn toàn cầu hiệu quả cho các hệ thống AI có tầm ảnh hưởng vượt ra ngoài biên giới quốc gia.

Trong thập kỷ qua, hơn 30 quốc gia đã công bố các chiến lược trí tuệ nhân tạo (AI) quốc gia, nêu rõ cách tiếp cận của họ đối với phát triển, quản lý và áp dụng AI. Các chiến lược này có sự khác biệt đáng kể về trọng tâm, nhưng khi phân tích một cách hệ thống, chúng rơi vào ba mô hình quản trị lặp lại: phát triển, kiểm soát và thúc đẩy (Papyshev et al., 2023). Trong các mô hình hướng tới phát triển, như ở Trung Quốc, Hàn Quốc và Hungary, nhà nước đóng vai trò là nhà điều phối chiến lược, hướng nguồn lực công vào cơ sở hạ tầng AI, các chương trình nghiên cứu và các nhiệm vụ quốc gia. Các tiếp cận hướng tới kiểm soát, nổi bật ở Liên minh Châu Âu và các quốc gia như Na Uy và Mexico, nhấn mạnh vào các tiêu chuẩn pháp lý, giám sát đạo đức và khung giám sát rủi ro từ AI. Các mô hình tập trung vào thúc đẩy, bao gồm Hoa Kỳ, Vương quốc Anh và Singapore, áp dụng tiếp cận phân quyền hơn: nhà nước chủ yếu đóng vai trò là động lực cho sự đổi mới của khu vực tư nhân, với ít ràng buộc pháp lý. Những khác biệt này có ý nghĩa quan trọng. Bất kỳ nỗ lực nào nhằm xây dựng khung quản trị quốc tế đều cần tính đến sự bất đối xứng cấu trúc giữa các chế độ quốc gia này, đặc biệt là về quyền lực thi hành, cơ chế trách nhiệm và năng lực thể chế (Papyshev et al., 2023).

Vai trò của nhà nước trong việc cai quản trí tuệ nhân tạo: phát triển, kiểm soát và thúc đẩy thông qua các chiến lược quốc gia (Papyshev et al., 2023).

Quản lý quốc gia cung cấp các cơ chế thi hành và tính hợp pháp dân chủ cần thiết để đảm bảo sự phối hợp giữa các doanh nghiệp ổn định và có tính ràng buộc. Tuy nhiên, rủi ro từ AI vượt ra ngoài biên giới quốc gia, và việc lách luật cho phép phát triển chuyển sang các khu vực có tiêu chuẩn yếu hơn. Không có quốc gia nào có thể quản lý hiệu quả các hệ thống AI toàn cầu một mình. Hạn chế cơ bản này thúc đẩy nhu cầu về các cơ chế phối hợp quốc tế. (Báo cáo về Tình trạng Trí tuệ Nhân tạo, 2023)

Quản trị Quốc tế

Trí tuệ nhân tạo (AI) đặt ra một rủi ro toàn cầu lâu dài. Ngay cả những nhà thiết kế của nó cũng không biết được những đột phá của họ có thể dẫn đến đâu. Tôi kêu gọi [Hội đồng Bảo an Liên Hợp Quốc] tiếp cận công nghệ này với tinh thần cấp bách [...] Chính những người sáng tạo ra nó đã cảnh báo rằng những rủi ro lớn hơn, tiềm ẩn thảm họa và đe dọa sự tồn vong đang chờ đợi phía trước.

- António Guterres, Tổng Thư ký Liên Hợp Quốc

[...] Giống như trí tuệ nhân tạo (AI) có tiềm năng mang lại lợi ích to lớn, nó cũng có tiềm năng gây ra những tác hại nghiêm trọng. Từ các cuộc tấn công mạng được hỗ trợ bởi AI với việc mở rộng quy mô vượt xa mọi thứ chúng ta từng chứng kiến cho đến các vũ khí sinh học được phát triển bởi AI có thể đe dọa cuộc sống của hàng triệu người, những mối đe dọa này thường được gọi là "mối đe dọa tồn vong của AI" vì, tất nhiên, chúng có thể đe dọa chính sự tồn tại của nhân loại. Những mối đe dọa này, không thể phủ nhận, là vô cùng nghiêm trọng và đòi hỏi hành động toàn cầu.

- Kamala Harris, Cựu Phó Tổng thống Hoa Kỳ

Liệu các quốc gia riêng lẻ có thể tự điều chỉnh AI trong phạm vi biên giới của mình không? Câu trả lời ngắn gọn là: không, không hiệu quả. Quản lý hiệu quả các hệ thống AI tiên tiến đòi hỏi sự phối hợp vượt ra ngoài biên giới quốc gia. Điều này xuất phát từ ba vấn đề cơ bản (Ho et al., 2023):

  • Không có quốc gia nào có quyền kiểm soát độc quyền đối với sự phát triển của AI. Ngay cả khi một quốc gia áp dụng các quy định nghiêm ngặt, các nhà phát triển ở các quốc gia có tiêu chuẩn lỏng lẻo hơn vẫn có thể tạo ra và triển khai các hệ thống AI tiềm ẩn nguy hiểm ảnh hưởng đến toàn thế giới (Hausenloy et al., 2023).
  • Rủi ro từ AI có tầm ảnh hưởng toàn cầu. Việc quản lý những rủi ro này đòi hỏi hợp tác quốc tế (Tallberg et al., 2023). Khi được hỏi về sự tham gia của Trung Quốc trong Hội nghị an toàn AI Bletchley, James Cleverly, cựu Bộ trưởng Ngoại giao Anh, đã nhận định chính xác: "Chúng ta không thể bảo vệ công dân Anh khỏi rủi ro từ AI nếu loại trừ một trong những quốc gia hàng đầu về công nghệ AI."
  • Áp lực cạnh tranh dẫn đến "cuộc đua xuống đáy". Các quốc gia lo ngại về bất lợi cạnh tranh trong cuộc đua AI, điều này tạo ra động lực cho việc lách luật và làm suy yếu các tiêu chuẩn an toàn trên toàn cầu (Lancieri et al., 2024). Quản trị quốc tế có thể giúp hài hòa lợi ích giữa các quốc gia, khuyến khích phát triển AI có trách nhiệm mà không buộc bất kỳ quốc gia nào phải hy sinh lợi thế cạnh tranh của mình (Li, 2025).

Số lượng tích lũy của các hệ thống AI mở rộng quy mô theo quốc gia kể từ năm 2017. Tham chiếu đến vị trí của tổ chức chính mà các tác giả của các hệ thống AI mở rộng quy mô liên kết (Giattino et al., 2023).

Chính sách quốc gia ảnh hưởng đến sự phát triển AI toàn cầu như thế nào? Ngay cả các quy định dường như mang tính nội địa (chẳng hạn như chính sách nhập cư, xem bên dưới) cũng có thể định hình lại cảnh quan AI toàn cầu thông qua các cơ chế lan tỏa khác nhau.

Con đường sự nghiệp của các nhà nghiên cứu AI hàng đầu là gì? (MacroPolo)

Các công ty trên toàn thế giới, mong muốn duy trì quyền truy cập vào thị trường châu Âu đầy tiềm năng, thường thấy việc áp dụng tiêu chuẩn EU trên toàn bộ hoạt động của mình là hiệu quả chi phí hơn so với việc duy trì các tiêu chuẩn riêng biệt cho các khu vực khác nhau. Ví dụ, một công ty công nghệ Mỹ đang phát triển hệ thống nhận diện khuôn mặt dựa trên AI để sử dụng trong không gian công cộng có thể thấy hệ thống này bị phân loại là "rủi ro cao" theo Luật AI của EU. Điều này sẽ khiến nó phải tuân thủ các yêu cầu nghiêm ngặt về chất lượng dữ liệu, tài liệu, giám sát của con người và nhiều yếu tố khác. Các công ty sau đó có hai lựa chọn: phát triển hai phiên bản riêng biệt của sản phẩm, một cho thị trường EU và một cho các khu vực khác, hoặc đơn giản là áp dụng tiêu chuẩn EU trên toàn cầu. Nhiều công ty sẽ bị cám dỗ chọn phương án thứ hai để giảm thiểu chi phí tuân thủ. Đây được gọi là "Hiệu ứng Brussels" (Bradford, 2020): các quy định của EU có thể định hình thị trường toàn cầu, ngay cả ở những quốc gia mà các quy định đó không chính thức áp dụng.

Hiệu ứng Brussels có thể thể hiện theo hai cách:

  • Áp dụng thực tế: Các doanh nghiệp thường tự nguyện áp dụng các tiêu chuẩn của EU trên toàn cầu để tránh sự phức tạp và chi phí của việc duy trì các tiêu chuẩn khác nhau cho các thị trường khác nhau.
  • Ảnh hưởng pháp lý: Các quốc gia khác thường áp dụng các quy định tương tự như của EU, hoặc để duy trì sự đồng bộ về quy định, hoặc vì họ coi cách tiếp cận của EU là một mô hình đáng học hỏi.

Quy định của EU có thể cung cấp khung pháp lý đầu tiên được áp dụng rộng rãi và bắt buộc cho các khái niệm như "quản lý rủi ro" hoặc "rủi ro hệ thống" trong bối cảnh trí tuệ nhân tạo (AI) tiên tiến. Khi các quốc gia khác đang vật lộn với việc quy định các hệ thống AI tiên tiến, họ có thể xem khung pháp lý của EU như một điểm khởi đầu (Siegmann & Anderljung 2022).

[Chúng ta] không nên đánh giá thấp những mối đe dọa thực sự đến từ trí tuệ nhân tạo (AI) [...] Nó đang phát triển nhanh hơn cả những gì các nhà phát triển dự đoán [...] Chúng ta có một khoảng thời gian hẹp để hướng dẫn công nghệ này một cách có trách nhiệm.

- Ursula von der Leyen, Người đứng đầu Chi nhánh Hành pháp EU

Năm 2023, chính phủ Mỹ và Anh đều công bố các viện nghiên cứu an toàn AI mới. Đến năm 2025, đã có ít nhất 12 Viện An toàn AI Quốc gia (AISIs) được thành lập trên toàn thế giới. Các viện này bao gồm các viện từ Mỹ, Anh, Canada, Pháp, Đức, Ý, Nhật Bản, Hàn Quốc, Singapore, Úc, Kenya và Ấn Độ. Liên minh Châu Âu đã thành lập Văn phòng AI Châu Âu, hoạt động tương tự như các AISIs quốc gia. Các viện này hợp tác thông qua Mạng lưới Quốc tế các Viện An toàn AI, được thành lập vào tháng 11 năm 2024, để phối hợp nghiên cứu, chia sẻ các thực hành tốt nhất và phát triển các tiêu chuẩn an toàn tương thích cho các hệ thống AI tiên tiến.

countries of the international network for AI safety

Các quốc gia này là thành viên của mạng lưới quốc tế về an toàn AI, với các cơ quan quốc gia tương ứng chuyên trách về an toàn AI (Variengien & Martinet, 2024).

Các nỗ lực quản trị toàn cầu cũng phải đối mặt với những thách thức lớn. Sự cạnh tranh chiến lược giữa các cường quốc hàng đầu, những quốc gia coi AI vừa là tài sản an ninh quốc gia vừa là động lực kinh tế, thường làm suy yếu hợp tác. Sự chênh lệch quyền lực càng làm phức tạp các cuộc đàm phán: các quốc gia có năng lực AI tiên tiến như Hoa Kỳ và Trung Quốc có thể phản đối các ràng buộc quốc tế, trong khi các quốc gia khác có thể đòi hỏi chuyển giao công nghệ và hỗ trợ xây dựng năng lực để đổi lấy sự tham gia. Hệ thống chính trị và giá trị khác biệt cũng tạo ra rào cản, với những bất đồng về các vấn đề như quyền riêng tư, tự do ngôn luận và quyền lực nhà nước. Ví dụ, Sáng kiến Quản trị AI Toàn cầu của Trung Quốc tập trung vào chủ quyền và không can thiệp, trái ngược với các khung khổ phương Tây dựa trên quyền cá nhân và trách nhiệm dân chủ (Hung, 2025; Hsu et al., 2023). Có lẽ quan trọng nhất, sự thiếu tin tưởng sâu sắc giữa các cường quốc, được thúc đẩy bởi căng thẳng về thương mại, sở hữu trí tuệ và nhân quyền, khiến việc đạt được các thỏa thuận đáng tin cậy và có thể thi hành trở nên khó khăn, góp phần vào bối cảnh địa chính trị phức tạp đang định hình tương lai của quản trị AI quốc tế (Mishra, 2024).

Hình minh họa sự chênh lệch giữa tuyên bố của các quốc gia và ý định thực sự của họ trong bối cảnh Hội nghị an toàn AI của Vương quốc Anh vào tháng 11 năm 2023 (The Economist)

Thực tế Các cơ chế quốc tế hiện có (2025)

<content>

Mặc dù có những thách thức này, một loạt các sáng kiến quốc tế đã xuất hiện để giải quyết vấn đề quản trị AI (AI):

  • Dãy Hội nghị Thượng đỉnh AI Toàn cầu: Được Anh Quốc khởi xướng vào năm 2023, các hội nghị này đã trở thành nền tảng cho các bên liên quan chính trong hệ sinh thái AI tụ họp và thảo luận về các ưu tiên toàn cầu về an toàn AI, đổi mới và quản trị AI. Các hội nghị tiếp tục diễn ra hai năm một lần, với mỗi quốc gia luân phiên làm chủ nhà.
  • Quy trình AI Hiroshima: Được khởi xướng bởi các nước G7, sáng kiến này nhằm thúc đẩy sự phát triển và sử dụng AI có trách nhiệm thông qua các chính sách phối hợp.
  • Các nỗ lực của Liên Hợp Quốc: Bao gồm các khuyến nghị về đạo đức AI của UNESCO, Cơ quan Tư vấn Cấp cao và Thỏa thuận Kỹ thuật số Toàn cầu sắp tới, một khung khổ của Liên Hợp Quốc về hợp tác kỹ thuật số quốc tế, tập trung vào một tương lai kỹ thuật số chung có thành phần AI.
  • Hướng dẫn của OECD: Tổ chức Hợp tác và Phát triển Kinh tế (OECD) đã có ảnh hưởng lớn trong việc hình thành các nguyên tắc quản trị AI, định hướng cho các chính sách quốc gia, và tiếp tục hướng dẫn các khung khổ khu vực với trọng tâm vào quyền con người, minh bạch và trách nhiệm giải trình.
  • Hiệp ước AI của Hội đồng Châu Âu: Hiệp ước đề xuất này nhằm bảo vệ quyền con người trong bối cảnh phát triển và sử dụng AI, tập trung vào các ranh giới đạo đức AI.
  • Sáng kiến Quản trị Trí tuệ Nhân tạo Toàn cầu của Trung Quốc: Cho thấy rằng quản trị AI là ưu tiên ngay cả đối với các quốc gia thường có mâu thuẫn với các cường quốc phương Tây, Trung Quốc đã đưa ra đề xuất riêng của mình về quản trị AI quốc tế.

Quản trị công nghệ quốc tế thường phát triển như thế nào? Hiểu được quá trình hình thành chính sách quốc tế giúp đặt các nỗ lực quản trị AI hiện tại vào bối cảnh và xác định các hướng đi tiềm năng. Quá trình hình thành chính sách quốc tế thường trải qua several giai đoạn (Badie et al., 2011):

  • Xác định chương trình nghị sự: Xác định vấn đề và đưa nó vào chương trình nghị sự quốc tế.
  • Xây dựng chính sách: Phát triển các giải pháp và phương pháp tiềm năng.
  • Ra quyết định: Lựa chọn các hướng hành động cụ thể.
  • Thực thi: Áp dụng các chính sách đã chọn vào thực tiễn.
  • Đánh giá: Đánh giá hiệu quả và điều chỉnh.

Đối với quản trị AI, chúng ta vẫn đang ở giai đoạn đầu của quá trình này. Chuỗi Hội nghị Thượng đỉnh về AI, Mạng lưới Các Viện An toàn AI và các khung khổ quốc tế khác đều thể hiện tiến bộ trong việc xác định chương trình nghị sự và xây dựng chính sách ban đầu. Tuy nhiên, công việc thực sự trong việc soạn thảo các thỏa thuận quốc tế có tính ràng buộc và triển khai chúng vẫn còn ở phía trước.

Các nỗ lực quản trị quốc tế trước đây cung cấp những bài học quý giá cho AI. Vậy, chúng ta có thể học được gì từ hàng thập kỷ nỗ lực kiểm soát vũ khí hạt nhân? Hãy xem xét ba bài học quan trọng (Maas, 2019):

  • Sức mạnh của các chuẩn mực và thể chế. Mặc dù ban đầu có lo ngại về sự phổ biến nhanh chóng, nhưng gần 80 năm sau khi vũ khí hạt nhân được phát triển, chỉ có chín quốc gia sở hữu vũ khí hạt nhân. Điều này là kết quả của những nỗ lực chung nhằm xây dựng các chuẩn mực toàn cầu chống lại sự phổ biến và sử dụng vũ khí hạt nhân. Hiệp ước Không phổ biến vũ khí hạt nhân (NPT), được ký kết vào năm 1968, đã tạo ra khung pháp lý để ngăn chặn sự lan rộng của vũ khí hạt nhân và thúc đẩy việc sử dụng công nghệ hạt nhân vì mục đích hòa bình.
  • Vai trò của các cộng đồng tri thức. Việc phát triển các thỏa thuận kiểm soát vũ khí hạt nhân không chỉ là công việc của các nhà ngoại giao và chính trị gia. Nó phụ thuộc nặng nề vào đóng góp của các nhà khoa học, kỹ sư và các chuyên gia kỹ thuật khác hiểu rõ công nghệ và hậu quả của nó. Những chuyên gia này đã hình thành một mạng lưới chuyên gia có chuyên môn được công nhận trong một lĩnh vực cụ thể, hay như các nhà khoa học chính trị gọi là "cộng đồng tri thức". Họ đóng vai trò quan trọng trong việc định hình các cuộc tranh luận chính sách, cung cấp tư vấn kỹ thuật và thậm chí hoạt động như các nhà ngoại giao kênh hậu trường trong những giai đoạn căng thẳng của Chiến tranh Lạnh. Khác với các nhà vật lý hạt nhân, thường được chính phủ trực tiếp tuyển dụng, nhiều chuyên gia trí tuệ nhân tạo (AI) làm việc trong khu vực tư nhân. Do đó, thách thức trong việc hình thành các mạng lưới như vậy cho quản trị AI toàn cầu là đảm bảo các cộng đồng tri thức có thể cung cấp thông tin hiệu quả cho các quyết định chính sách. 
  • Thách thức dai dẳng của "tai nạn bình thường". Mặc dù đã có hàng thập kỷ quản lý cẩn thận, kỷ nguyên hạt nhân vẫn chứng kiến nhiều sự cố mà lỗi con người, trục trặc kỹ thuật hoặc hiểu lầm suýt dẫn đến thảm họa. Nhà xã hội học Charles Perrow gọi những sự cố này là "tai nạn bình thường", cho rằng trong các hệ thống phức tạp, liên kết chặt chẽ, những sự cố như vậy là không thể tránh khỏi (1985). Áp dụng khái niệm này vào AI, chúng ta có thể chứng kiến sự gia tăng của các tương tác bất ngờ và sự cố dây chuyền khi các hệ thống AI trở nên phức tạp và liên kết chặt chẽ hơn. Tốc độ hoạt động của các hệ thống AI có thể khiến một "tai nạn bình thường" trong AI diễn ra quá nhanh để con người can thiệp, thách thức khái niệm "kiểm soát có ý nghĩa của con người", thường được đề xuất như một biện pháp bảo vệ cho các hệ thống AI (Maas, 2019).

Các lựa chọn chính sách

Chúng ta phải xem xét các rủi ro từ AI một cách nghiêm túc như các thách thức toàn cầu lớn khác, như biến đổi khí hậu. Cộng đồng quốc tế đã mất quá nhiều thời gian để phối hợp một phản ứng toàn cầu hiệu quả đối với vấn đề này, và chúng ta đang phải gánh chịu hệ quả của điều đó hiện nay. Chúng ta không thể để xảy ra sự chậm trễ tương tự với AI [...] có thể một ngày nào đó sẽ có một tổ chức tương tự như Cơ quan Năng lượng Nguyên tử Quốc tế (IAEA), thực sự kiểm toán các vấn đề này.

- Demis Hassabis, Đồng sáng lập và Giám đốc điều hành của DeepMind

Một số cơ chế tổ chức có thể hỗ trợ quản trị AI quốc tế (Maas & Villalobos, 2024):

  • Xây dựng đồng thuận khoa học: Tương tự như Ủy ban Liên chính phủ về Biến đổi Khí hậu (IPCC), một cơ quan chuyên trách có thể cung cấp các báo cáo định kỳ về năng lực và rủi ro từ AI để cung cấp thông tin cho các nhà hoạch định chính sách và công chúng. Do tốc độ phát triển nhanh chóng của AI, cơ quan này cần linh hoạt hơn so với các tổ chức xây dựng đồng thuận khoa học truyền thống.
  • Xây dựng đồng thuận chính trị và thiết lập chuẩn mực: Dựa trên đồng thuận khoa học, một diễn đàn cho các nhà lãnh đạo chính trị có thể phát triển các chuẩn mực và nguyên tắc chung, có thể được cấu trúc tương tự như Công ước khung của Liên Hợp Quốc về Biến đổi Khí hậu (UNFCCC). Cơ quan này có thể thúc đẩy đối thoại liên tục, đàm phán thỏa thuận và điều chỉnh các tiếp cận quản trị khi công nghệ phát triển.
  • Tổ chức chính sách và quy định: Một cơ quan quốc tế tập trung vào phối hợp chính sách có thể giúp hài hòa các quy định về AI giữa các quốc gia, giảm thiểu sự phân mảnh và ngăn chặn cơ hội lách luật.
  • Thực thi tiêu chuẩn và hạn chế: Các cơ chế giám sát tuân thủ và thực thi các tiêu chuẩn đã thỏa thuận là cần thiết cho quản trị hiệu quả.
  • Ổn định và phản ứng khẩn cấp: Một mạng lưới toàn cầu gồm các công ty, chuyên gia và cơ quan quản lý sẵn sàng hỗ trợ trong trường hợp hệ thống AI gặp sự cố nghiêm trọng có thể giúp giảm thiểu rủi ro. Nhóm này có thể chủ động xác định các lỗ hổng tiềm ẩn trong hạ tầng AI toàn cầu và phát triển các kế hoạch dự phòng, tương tự như Trung tâm Sự cố và Khẩn cấp của Cơ quan Năng lượng Nguyên tử Quốc tế (IAEA) nhưng hoạt động trên quy mô thời gian nhanh hơn nhiều.
  • Nghiên cứu hợp tác quốc tế: Nghiên cứu hợp tác có thể giúp đảm bảo rằng sự phát triển AI tiên tiến ưu tiên an toàn AI và kết quả có lợi, tương tự như cách CERN thúc đẩy hợp tác khoa học quốc tế.
  • Phân phối Lợi ích và Truy cập: Một cơ quan tập trung vào việc đảm bảo truy cập công bằng vào lợi ích của AI có thể ngăn chặn sự tập trung có hại về năng lực và đảm bảo lợi ích của công nghệ được phân phối rộng rãi thông qua các cơ chế như quỹ toàn cầu hỗ trợ phát triển AI hoặc chuyển giao công nghệ.

Bảng tổng quan về các chức năng quản trị và mục đích của chúng.

Điều này có ý nghĩa gì đối với việc thiết kế các tổ chức hiệu quả? Không có giải pháp chung cho tất cả. Các tổ chức quản trị AI toàn cầu phải được thiết kế phù hợp với đặc điểm riêng biệt của công nghệ: chu kỳ phát triển nhanh chóng, bối cảnh triển khai rộng rãi và các hướng phát triển tương lai không chắc chắn. Chúng ta có thể cần một mạng lưới các tổ chức bổ sung cho nhau, mỗi tổ chức trọn vẹn thực hiện các chức năng quản trị cụ thể được liệt kê ở trên. Điểm mấu chốt không chỉ là xây dựng tổ chức nào, mà còn là tại sao và như thế nào. Những rủi ro và lợi ích cụ thể nào yêu cầu sự phối hợp quốc tế? Những chức năng nào là thiết yếu để quản lý chúng? Và thiết kế nào phù hợp nhất với những chức năng đó trong điều kiện thực tế? Nếu không có câu trả lời rõ ràng, thiết kế thể chế có nguy cơ trở thành bản sao của các chế độ trong quá khứ thay vì là phản ứng trước thách thức của AI tiên tiến (DeepMind, 2024).

Chương 4.5: Thực hiện
Tiếp tục