Biên soạn bởi các nhà nghiên cứu hàng đầu tại CeSIA (Trung tâm An toàn AI Pháp), giúp mọi người dễ dàng tiếp cận và hiểu sâu hơn về lĩnh vực an toàn AI.
Các mô hình AI đang chuyển từ những công cụ chuyên biệt thành các hệ thống đa năng ngày càng có thể xử lý các nhiệm vụ phức tạp.
Chương này sẽ thảo luận về các xu hướng thực nghiệm cho thấy việc mở rộng quy mô - sử dụng nhiều dữ liệu, sức mạnh tính toán và tham số hơn - đang dẫn đến những cải thiện liên tục về cả khả năng và tính tổng quát.
Chương này cũng sẽ giải thích các định nghĩa về những khái niệm như trí tuệ nhân tạo tổng quát (AGI) và siêu trí tuệ (ASI) mà sẽ được sử dụng xuyên suốt cẩm nang này. Thay vì nhìn nhận tiến bộ AI qua các ngưỡng rời rạc như trí tuệ "hẹp" so với trí tuệ "tổng quát", chương này cũng sẽ giới thiệu các khung đo lường khả năng, tính tổng quát và tính tự chủ của AI theo các đường cong liên tục.
Dựa trên những thảo luận trên, chương này sẽ xem xét các lập luận cho các kịch bản bùng nổ AI khác nhau, và cung cấp ý kiến chuyên gia về thời gian để đạt được AI mang tính biến đổi. Việc hiểu những khái niệm này sẽ định hình các cuộc thảo luận xung quanh các nguồn rủi ro tiềm tàng và chiến lược an toàn trong phần còn lại của cẩm nang.
Sau khi đọc chương này, bạn sẽ có thể đánh giá phê phán nhiều tuyên bố về tiến bộ AI và tham gia vào các cuộc thảo luận có căn cứ về sự phát triển AI trong tương lai.
Sau khi đã xác định được các lập luận cốt lõi giải thích tại sao khả năng, tính tổng quát và tính tự chủ của trí tuệ nhân tạo (AI) có thể tiếp tục tăng lên, chương này sẽ xem xét các rủi ro tương ứng với các mức độ tăng này.
Rủi ro từ AI có thể được chia thành ba loại chính:
Chúng tôi cũng thảo luận về các nhân tố tiềm ẩn góp phần làm trầm trọng thêm tất cả các rủi ro này, như áp lực cạnh tranh tạo ra cuộc chạy đua phát triển AI và việc triển khai AI trên diện rộng.
Cuối cùng, chương này cũng sẽ giải thích ngắn gọn về cách suy nghĩ cụ thể về các năng lực nguy hiểm như lừa dối, hành vi nhận thức tình huống, sao chép tự động, hành vi lập âm mưu và hành vi tìm kiếm quyền lực.
Vào cuối chương này, học viên sẽ có thể xác định các rủi ro khác nhau phát sinh từ các lỗ hổng kỹ thuật trong hệ thống AI, hoặc sự kết hợp giữa năng lực AI với hành vi có động cơ của con người, cũng như các mô hình xã hội-kỹ thuật phức tạp khác.
Dựa trên sự hiểu biết về năng lực và rủi ro trong các chương trước, chương này sẽ xem xét các chiến lược cụ thể để giảm thiểu những rủi ro này và làm cho sự phát triển AI an toàn hơn.
Chương này sẽ chia các chiến lược giảm thiểu rủi ro tiềm ẩn thành ba loại giống như rủi ro:
Chương này cũng sẽ giải thích tại sao an toàn AI mới bắt đầu phát triển mạnh mẽ, nhưng cần lưu ý rằng không có giải pháp nào là đủ. Do đó, cần có một cách tiếp cận đa tầng, trong đó nhiều biện pháp bảo vệ cùng hoạt động để tạo ra hệ thống kiểm soát chống lại các rủi ro được nêu trong chương trước một cách vững chắc.
Mục đích của chương này là cung cấp một cái nhìn tổng quan về các chiến lược và đề xuất an toàn khác nhau và cho thấy các phần riêng lẻ này có thể khớp với toàn bộ bối cảnh chung như thế nào.
Sau khi đọc chương này và các chương trước, người học sẽ có nền tảng vững chắc để đi sâu vào từng chủ đề trong tất cả các chương tiếp theo.
Các chương trước đã cung cấp tổng quan về những gì AI có thể làm, những gì có thể xảy ra và các chiến lược giảm thiểu rủi ro tiềm ẩn. Chương này sẽ đi sâu hơn vào cách định hình tầm ảnh hưởng của AI thông qua các khung quản trị.
Chúng tôi bắt đầu bằng việc giải thích lý do tại sao quy định về AI phải đối mặt với những thách thức đặc thù như việc năng lực của AI phát triển vượt bậc ngoài dự kiến, những sự cố an toàn phát sinh sau khi triển khai, và sự phổ biến nhanh chóng của AI. Sau đó, chúng tôi giải thích các mục tiêu quản trị chính như kiểm soát tài nguyên tính toán (kiểm soát các yếu tố đầu vào quan trọng như chip và tài nguyên đào tạo), kiểm soát dữ liệu (quản lý dữ liệu đào tạo AI, và việc triển khai AI).
Sau đó, chúng tôi xem xét các cấp độ riêng lẻ mà có thể mang lại những thay đổi ảnh hưởng đến các mục tiêu đã chọn - quản trị doanh nghiệp (khung an toàn nội bộ như RSP của Anthropic), quản trị quốc gia (các sáng kiến của chính phủ như Viện An toàn AI và các quy định như Đạo luật AI của EU) và quản trị quốc tế (các phương pháp tiếp cận từ hiệp ước kiểm soát sự phổ biến đến các quy định pháp lý).
Như đã đề cập trong chương về chiến lược, không có lớp quản trị nào là có thể đáp ứng trọn vẹn vấn đề - thay vào đó, chúng ta cần có hành động phối hợp ở tất cả các cấp để đối phó hiệu quả với các rủi ro của AI. Đọc chương này sẽ giúp bạn có thể tham gia một cách có ý nghĩa vào các cuộc thảo luận về phát triển, triển khai, thẩm định và hoạch định chính sách liên quan đến AI.
Tác giả chính và quản lý dự án AI Safety Atlas. Đóng góp trên tất cả các khía cạnh - nghiên cứu, viết, chắt lọc, phát triển trang web, tạo video. Trước đây là người viết kịch bản tại Rational Animations, tác giả chắt lọc tại AI Safety Info (Stampy). Hiện cũng là đồng sáng lập và CTO tại Equilibria Network. Kinh nghiệm trước đây bao gồm phát triển phần mềm và an ninh mạng.
Giám đốc điều hành của CeSIA. Dẫn dắt tổ chức, định hướng khoa học và điều phối. Kinh nghiệm sư phạm đáng kể bao gồm các dự án ARENA, MLAB, và khóa học an toàn AI đa mục đích đầu tiên của châu Âu. Bài viếtc giới thiệu trong chương trình giảng dạy về khả năng giải thích của BlueDot.
AI safety teacher at ENS Ulm. Contributing author.
Head of policy at CeSIA, research affiliate at Oxford AIGi and previously at GovAI. Contributing author.
Professor at Sorbonne University and research fellow at CHAI.
Previously worked at Redwood Research, now at Anthropic.
Cẩm nang này được chia sẻ với bản quyền CC BY-SA 4.0
Le Centre pour la Sécurité de l'IA (CeSIA) là một tổ chức phi lợi nhuận của Pháp chuyên về nghiên cứu, giáo dục và nâng cao nhận thức về các rủi ro và thách thức của trí tuệ nhân tạo.