Các phương pháp tiếp cận nào tồn tại để phát triển tiêu chuẩn an toàn AI ở cấp quốc gia? Có nhiều phương pháp tiếp cận khác nhau để phát triển tiêu chuẩn an toàn trong bối cảnh quốc gia, từ các cơ quan tiêu chuẩn hóa do chính phủ lãnh đạo đến các quy trình hợp tác công-tư. Các cơ quan tiêu chuẩn quốc gia đóng vai trò quan trọng trong việc phát triển và triển khai tiêu chuẩn an toàn AI phù hợp với ưu tiên chính sách và năng lực công nghệ của từng quốc gia (Cihon, 2019). Luật AI của EU thể hiện điều này thông qua yêu cầu về Bộ Quy tắc Thực hành quy định các nghĩa vụ cấp cao đối với các mô hình AI đa năng. Tại Hoa Kỳ, Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã phát triển Khung Quản lý Rủi ro từ AI, hoạt động như một tiêu chuẩn tự nguyện trong phạm vi pháp lý của Mỹ. Năm 2021, Cục Tiêu chuẩn Hóa Trung Quốc (SAC) đã công bố lộ trình phát triển tiêu chuẩn AI, bao gồm hơn 100 quy định kỹ thuật và đạo đức từ tính minh bạch của thuật toán đến an toàn nhận dạng sinh trắc học. Quá trình này được điều phối bởi các cơ quan chính phủ như Bộ Công nghiệp và Công nghệ Thông tin (MIIT) và Viện Tiêu chuẩn Hóa Điện tử Trung Quốc (CESI). Khác với Hoa Kỳ hoặc EU, nơi các tiêu chuẩn thường được phát triển bởi nhiều bên liên quan hoặc do thị trường dẫn dắt, quá trình của Trung Quốc rất tập trung và gắn chặt với các tham vọng địa chính trị rộng lớn hơn của nước này (Ding, 2018).
Làm thế nào các cơ quan tiêu chuẩn quốc gia phát triển các tiêu chuẩn an toàn AI hiệu quả? Các tiêu chuẩn quốc gia có kinh nghiệm trong việc quản trị các vấn đề xã hội-kỹ thuật đa dạng trong nước. Ví dụ, các tiêu chuẩn an ninh mạng quốc gia đã được áp dụng rộng rãi trong các ngành công nghiệp, các tiêu chuẩn bền vững môi trường đã tạo câu lệnh cho các khoản đầu tư đáng kể của doanh nghiệp, và các tiêu chuẩn an toàn đã được triển khai trên các lĩnh vực từ ô tô đến năng lượng. Chuyên môn từ các ngành công nghiệp có rủi ro cao khác có thể được tận dụng để phát triển các tiêu chuẩn an toàn AI hiệu quả, phù hợp với nhu cầu và môi trường pháp lý cụ thể của một quốc gia (Cihon, 2019). Các tiêu chuẩn quốc gia có thể được sử dụng để lan tỏa văn hóa an toàn và trách nhiệm trong nghiên cứu và phát triển AI theo bốn cách:
Các cơ chế này giúp tạo ra cái mà một số nhà nghiên cứu gọi là "tư duy an toàn AI" trong số các chuyên gia AI trong hệ sinh thái AI quốc gia. Các tiêu chuẩn quốc gia đóng vai trò như công cụ hiệu quả để thúc đẩy văn hóa trách nhiệm và an toàn trong phát triển AI, điều này là thiết yếu cho lợi ích xã hội lâu dài (Cihon, 2019).
Tính minh bạch trong quy định đòi hỏi sự giám sát tích cực và độc lập đối với các hệ thống AI trước, trong và sau khi triển khai. Khi các hệ thống AI tiên tiến ngày càng được tích hợp vào xã hội, sự giám sát từ bên ngoài (bao gồm các cá nhân trong quá trình đánh giá hệ thống AI) cung cấp một công cụ mạnh mẽ để nâng cao an toàn AI và trách nhiệm. Sự giám sát từ bên ngoài hiệu quả nên tuân thủ khung ASPIRE, đề xuất sáu tiêu chí cho đánh giá từ bên ngoài hiệu quả (Anderljung et al., 2023):
Một số quốc gia đang nghiên cứu các sổ đăng ký mô hình, là các cơ sở dữ liệu tập trung bao gồm chi tiết kiến trúc, quy trình đào tạo, chỉ số hiệu suất và đánh giá tác động xã hội. Các sổ đăng ký này hỗ trợ giám sát có cấu trúc và có thể hoạt động như hệ thống cảnh báo sớm cho các năng lực mới nổi, giúp cơ quan quản lý phát hiện các xu hướng nguy hiểm trước khi chúng trở thành tác hại (McKernon et al., 2024). Các khu vực pháp lý khác nhau áp dụng các phương pháp khác nhau, nhưng tài liệu mô hình thường bao gồm:
Một phương pháp khác để tăng cường tính minh bạch trong quy định đối với AI là hệ thống Know Your Customer (KYC). Hệ thống KYC đã là một phần không thể thiếu của quy định tài chính, được sử dụng để phát hiện và ngăn chặn rửa tiền và tài trợ khủng bố. Chúng đã chứng minh hiệu quả trong việc xác định các cá nhân có rủi ro cao trước khi giao dịch diễn ra. Nguyên tắc tương tự có thể áp dụng cho quyền truy cập tính toán. Như đã thảo luận trong phần quản trị sức mạnh điện toán, các mô hình tiên tiến yêu cầu nguồn lực tính toán khổng lồ, thường tập trung vào một số ít nhà cung cấp hyperscale, những đơn vị này đóng vai trò là điểm kiểm soát quy định tự nhiên. Hệ thống KYC cho AI sẽ cho phép chính phủ phát hiện sớm sự phát triển của các hệ thống tiềm ẩn nguy hiểm, ngăn chặn việc đào tạo mô hình bí mật và thực thi các biện pháp kiểm soát xuất khẩu hoặc yêu cầu cấp phép với độ chính xác cao hơn. Vì phương pháp này nhắm vào ngưỡng năng lực thay vì trường hợp sử dụng, nó có thể hoạt động như một công cụ phòng ngừa cho quản lý rủi ro thay vì phản ứng với sự cố triển khai (Egan & Heim, 2023). Tuy nhiên, việc triển khai chế độ KYC cho khả năng điện toán đặt ra nhiều câu hỏi mở. Các nhà cung cấp cần có các quy định pháp lý rõ ràng, tiêu chí kỹ thuật để xác minh khách hàng và quy trình nâng cấp các trường hợp rủi ro cao lên cơ quan chức năng. Sự phân mảnh về thẩm quyền là một thách thức. Nhiều nhà phát triển phụ thuộc vào các dịch vụ khả năng điện toán phân tán toàn cầu, và nếu không có hợp tác quốc tế, các chế độ KYC có nguy cơ bị phá vỡ bởi sự chênh lệch quy định. Để hiệu quả, một hệ thống KYC dựa trên khả năng điện toán cần phải đồng bộ với các cơ chế minh bạch khác, như sổ đăng ký mô hình và hệ thống báo cáo sự cố (Egan & Heim, 2023).
Làm thế nào chính sách quốc gia có thể hỗ trợ chia sẻ thông tin có trách nhiệm? Việc báo cáo thông tin có trách nhiệm là quan trọng đối với cả tự điều chỉnh và giám sát của chính phủ. Như đã thảo luận trong phần quản trị doanh nghiệp, các công ty phát triển và triển khai hệ thống AI tiên tiến có quyền truy cập chính vào thông tin về năng lực và rủi ro tiềm ẩn của hệ thống, và việc chia sẻ thông tin này một cách có trách nhiệm có thể cải thiện đáng kể khả năng của nhà nước trong việc quản lý rủi ro từ AI (Kolt et al., 2024). Chính sách quốc gia phải giải quyết sự căng thẳng giữa minh bạch và kiểm soát độc quyền. Một phương pháp là chia sẻ theo cấp độ, trong đó tài liệu kỹ thuật được cung cấp cho cơ quan quản lý dưới các thỏa thuận bảo mật trong khi thông tin công khai vẫn ở mức cao và tập trung vào rủi ro. Một phương pháp khác là chia sẻ dữ liệu ẩn danh hoặc tổng hợp, cho phép phân tích thống kê mà không tiết lộ chi tiết triển khai nhạy cảm.
Mặc dù các hệ thống báo cáo sự cố từ các ngành khác, như Hệ thống Báo cáo An toàn Hàng không (ASRS) bí mật và không trừng phạt của Hoa Kỳ, cung cấp các tiền lệ hữu ích, nhưng hiện vẫn chưa có hệ thống tương đương cho an toàn AI. Trong hàng không, việc xác định sự cố hoặc gần xảy ra sự cố là rõ ràng, nhưng với AI, ranh giới có thể mờ nhạt. Việc áp dụng mô hình này đòi hỏi định nghĩa rõ ràng về "sự cố", với các danh mục có cấu trúc từ hành vi sai lệch của mô hình đến tác hại xã hội. Các nỗ lực quốc gia hiện nay về vấn đề này còn phân mảnh. Tại EU, Luật AI yêu cầu các nhà phát triển AI có rủi ro cao và mục đích chung phải báo cáo "sự cố nghiêm trọng". Tại Trung Quốc, Cục Quản lý Không gian Mạng đang xây dựng hạ tầng tập trung để báo cáo thời gian thực về các sự cố nghiêm trọng theo luật an ninh mạng. Tại Hoa Kỳ, việc báo cáo sự cố vẫn mang tính ngành nghề cụ thể, với các nỗ lực ban đầu đang được triển khai trong lĩnh vực y tế và an ninh quốc gia (Farrell, 2024; Cheng, 2024; OECD, 2025).
Các công cụ quy định nào có thể đảm bảo tuân thủ các tiêu chuẩn an toàn AI? Đối với các hệ thống AI có rủi ro cao, các cơ chế giám sát phải vượt ra ngoài các tiêu chuẩn tự nguyện hoặc đánh giá một lần. Nhiều nhà nghiên cứu đã đề xuất các chế độ cấp phép tương tự như các thực hành quy định trong các lĩnh vực như dược phẩm hoặc năng lượng hạt nhân. Trong các lĩnh vực này, các nhà điều hành phải xin cấp và duy trì giấy phép bằng cách chứng minh tuân thủ liên tục các yêu cầu an toàn và tài liệu nghiêm ngặt. Áp dụng cho AI tiên tiến, tiếp cận này sẽ bao gồm các quy trình phê duyệt chính thức trước khi triển khai mô hình, các cuộc kiểm toán định kỳ và khả năng của cơ quan chức năng thu hồi giấy phép trong trường hợp không tuân thủ (Buhl et al., 2024). Một khung cấp phép đáng tin cậy sẽ yêu cầu nhà phát triển nộp một trường hợp an toàn có cấu trúc, tức là một lập luận chính thức được hỗ trợ bằng bằng chứng cho thấy hệ thống đáp ứng các ngưỡng an toàn cho việc triển khai. Điều này có thể bao gồm mô hình mối đe dọa, kết quả đội mô phỏng tấn công có chủ đích, đánh giá khả năng diễn giải và kế hoạch giám sát sau triển khai. Các trường hợp an toàn cung cấp cơ chế cho cả việc phê duyệt trước và theo dõi xem các tuyên bố an toàn có tiếp tục được duy trì khi hệ thống phát triển trong quá trình triển khai hay không. Việc tích hợp các yêu cầu này vào quy trình cấp phép có thể giúp chính phủ thiết lập một chu kỳ liên tục của việc đánh giá, phản hồi và xác minh kỹ thuật (Buhl et al., 2024).
Thực thi pháp luật sẽ được thực hiện như thế nào trong thực tế? Khung pháp lý về cấp phép phải được hỗ trợ bởi các cơ quan có quyền điều tra vi phạm, áp dụng các biện pháp trừng phạt và đình chỉ hoạt động phát triển. Các thực tiễn thực thi pháp luật quốc gia có sự khác biệt giữa mô hình quản trị ngang (áp dụng các quy tắc chung cho tất cả các ngành) và mô hình quản trị dọc (tập trung vào các lĩnh vực cụ thể như y tế hoặc tài chính) (Cheng & McKernon, 2024). Ví dụ, Luật Trí tuệ Nhân tạo (AI Act) của Liên minh Châu Âu thiết lập quyền lực thi hành thông qua khung quản trị ngang hàng với Văn phòng Trí tuệ Nhân tạo Châu Âu (European AI Office), có thể điều tra, áp dụng phạt tiền lên đến 3% doanh thu hàng năm toàn cầu và yêu cầu thực hiện các biện pháp khắc phục, tổ hợp với báo cáo sự cố bắt buộc, yêu cầu giảm thiểu rủi ro hệ thống và các Quy tắc Thực hành Hỗ trợ cho các mô hình Trí tuệ Nhân tạo Tổng quát (GPAI) (Cheng & McKernon, 2024). Ngược lại, Cục Quản lý Không gian Mạng Trung Quốc (CAC) thực thi quyền lực tập trung dưới khung quản lý dọc. Mặc dù tiếp cận của CAC ưu tiên can thiệp nhanh chóng và tuân thủ kiểm duyệt, cơ quan này thiếu các cơ chế kiểm tra thủ tục minh bạch và thường dựa vào các tiêu chí mơ hồ trong việc thực thi. Ở Hoa Kỳ, việc thi hành pháp luật bị phân mảnh. Trong khi các biện pháp kiểm soát xuất khẩu được áp dụng nghiêm ngặt thông qua các cơ quan như Bộ Thương mại, việc tuân thủ an toàn AI rộng hơn đã được giao cho các cơ quan riêng lẻ, không có cơ quan cấp phép quốc gia. Kết quả là, các hành động thi hành pháp luật thường mang tính phản ứng và cụ thể theo lĩnh vực, và dựa vào quyền lực hành pháp tùy ý (Cheng & McKernon, 2024). Tìm ra sự cân bằng phù hợp giữa các tiếp cận này sẽ phụ thuộc vào năng lực tổ chức, động lực của nhà phát triển và tốc độ phát triển của AI. Trong một số trường hợp, việc sử dụng các cơ quan quản lý ngành hiện có có thể đủ. Trong các trường hợp khác, các cơ quan mới sẽ cần được thành lập để xử lý các năng lực chung không nằm trong các danh mục quy định truyền thống (Dafoe, 2023).

Quy trình từ các trường hợp an toàn đến việc thi hành.
Mọi phương pháp quản trị đều phải đối mặt với những hạn chế cơ bản mà không thể vượt qua hoàn toàn bằng thiết kế tổ chức. Hiểu rõ những hạn chế này giúp đặt ra kỳ vọng thực tế và xác định nơi cần đổi mới nhất (Dafoe, 2023).
Một số rủi ro kháng cự lại các giải pháp kỹ thuật. Mặc dù có những tiến bộ trong khả năng diễn giải AI và đánh giá, chúng ta vẫn chưa thể hoàn toàn hiểu hoặc dự đoán hành vi của AI. Các mô hình hộp đen khiến việc xác minh trở nên khó khăn. Các năng lực mới xuất hiện một cách bất ngờ. Khoảng cách giữa tham vọng quản trị của chúng ta và năng lực kỹ thuật là rất lớn (Mukobi, 2024). Các kỹ thuật an toàn hiện tại như RLHF và AI hiến pháp cho thấy tiềm năng cho các mô hình hiện tại nhưng có thể thất bại thảm hại với các hệ thống có khả năng cao hơn. Chúng ta đang xây dựng các khung quản trị xung quanh các tiếp cận an toàn có thể trở nên lỗi thời. Sự không chắc chắn cơ bản này đòi hỏi các khung linh hoạt có thể phát triển cùng với sự hiểu biết (Ren et al., 2024).
Thách thức đo lường làm suy yếu trách nhiệm giải trình. Chúng ta thiếu các chỉ số đáng tin cậy cho nhiều thuộc tính liên quan đến an toàn. Làm thế nào để bạn đo lường xu hướng lừa dối của mô hình? Tiềm năng cải thiện tự động của nó? Khả năng chống lại việc lợi dụng sai mục đích? Không có các đo lường đáng tin cậy, tuân thủ trở thành vấn đề diễn giải thay vì xác minh (Narayan & Kapoor, 2024). Ví dụ, Luật AI của EU yêu cầu đánh giá rủi ro hệ thống, nhưng lại cung cấp hướng dẫn hạn chế về cách đo lường các rủi ro này một cách định lượng (Cheng, 2024).
Sự thiếu hụt chuyên môn tạo ra các nút thắt cổ chai quan trọng. Số lượng cá nhân hiểu sâu về cả hệ thống AI tiên tiến và quản trị vẫn cực kỳ hạn chế, và khoảng cách này tồn tại ở mọi cấp độ từ các đội an toàn của công ty, cơ quan quản lý đến các tổ chức quốc tế. Thiếu hụt nhân tài đa ngành làm suy yếu nỗ lực dự đoán và quản lý các rủi ro mới nổi (Brundage et al., 2018). Khả năng đánh giá kỹ thuật và giám sát của các cơ quan quản lý cũng yếu kém ở nhiều khu vực pháp lý (Cihon et al., 2021). Chính phủ gặp khó khăn trong việc thu hút và giữ chân chuyên gia cần thiết để quản lý các mô hình AI mạnh mẽ, và các chuyên gia có kiến thức kỹ thuật, am hiểu về quản trị có thể là rào cản nghiêm trọng nhất đối với quản trị AI hiệu quả (Dafoe, 2023; Reuel & Bucknall, 2024). Hầu hết nhân tài hiện có tập trung vào một số ít doanh nghiệp lớn, hạn chế khả năng giám sát của khu vực công và củng cố sự chênh lệch về năng lực quản trị (Brennan et al., 2025).
Chi phí phối hợp tăng nhanh hơn năng lực. Mỗi bên liên quan, yêu cầu và quy trình đánh giá bổ sung đều tạo ra ma sát trong phát triển AI (Schuett, 2023). Trong khi một số ma sát giúp đảm bảo an toàn AI, quan liêu quá mức có thể đẩy phát triển sang các cá nhân thiếu trách nhiệm hoặc hoàn toàn chuyển sang hoạt động ngầm (Zhang et al., 2025). Sự chênh lệch về tốc độ tạo ra những khoảng trống quản trị cơ bản. Năng lực AI phát triển trong vài tháng trong khi các thỏa thuận quốc tế mất nhiều năm để đàm phán (Grace et al., 2024). Năng lực của GPT-4 đã khiến các chuyên gia ngạc nhiên vào tháng 3 năm 2023; đến khi các phản ứng quy định xuất hiện vào năm 2024, công nghệ đã chuyển sang các hệ thống đa phương tiện và tác nhân AI (Casper et al., 2024). Các nhà nghiên cứu an toàn nhấn mạnh vào nguyên tắc phòng ngừa và các kịch bản tồi tệ nhất, các công ty ưu tiên vị thế cạnh tranh và thời gian đưa sản phẩm ra thị trường, các chính phủ phải cân bằng giữa các nhóm lợi ích có yêu cầu mâu thuẫn, và người dùng muốn có các năng lực hữu ích mà không hiểu rõ rủi ro (Dafoe, 2023).
Sự chênh lệch quy định làm suy yếu tiêu chuẩn an toàn xuyên biên giới. Nếu Châu Âu áp dụng các yêu cầu an toàn nghiêm ngặt trong khi các khu vực khác vẫn thoải mái, việc phát triển có thể đơn giản chuyển sang các địa điểm khác (Lancieri et al., 2024). Như chúng ta đã thảo luận trong phần phổ biến, bản chất kỹ thuật số của AI khiến một mô hình có thể được đào tạo tại Singapore, triển khai từ Ireland và sử dụng trên toàn cầu (Seger et al., 2023). Các công ty có thể chia tách các sản phẩm, cung cấp các hệ thống an toàn hơn cho các thị trường được quy định trong khi triển khai các phiên bản rủi ro hơn ở nơi khác. Phạm vi toàn cầu thực sự đòi hỏi nhiều hơn là các khu vực pháp lý mạnh mẽ riêng lẻ.