Dữ liệu đóng vai trò gì trong rủi ro từ AI? Dữ liệu cơ bản định hình những gì hệ thống AI có thể làm và cách chúng hoạt động. Đối với các mô hình nền tảng tiên tiến, dữ liệu đào tạo ảnh hưởng đến cả năng lực và sự phù hợp - những gì hệ thống có thể làm và cách chúng thực hiện. Dữ liệu đào tạo chất lượng thấp hoặc có hại có thể dẫn đến các mô hình mất căn chỉnh hoặc nguy hiểm ("rác vào, rác ra"), trong khi các bộ dữ liệu được chọn lọc cẩn thận có thể giúp thúc đẩy hành vi an toàn và đáng tin cậy hơn (Longpre et al., 2024; Marcucci et al., 2023).
Dữ liệu đáp ứng các tiêu chí mục tiêu quản trị của chúng ta như thế nào? Dữ liệu, với tư cách là mục tiêu quản trị, cho thấy một bức tranh phức tạp khi đánh giá theo các tiêu chí chính của chúng ta. Hãy xem xét từng tiêu chí:
- Đo lường: Mặc dù chúng ta có thể đo lường lượng dữ liệu thô, việc đánh giá chất lượng, nội dung và tác động tiềm ẩn của dữ liệu là vô cùng khó khăn. Khác với hàng hóa vật lý như chip bán dẫn, dữ liệu có thể được sao chép, sửa đổi và truyền tải theo cách khó theo dõi. Điều này khiến việc đo lường toàn diện luồng dữ liệu trở nên cực kỳ thách thức.
- Khả năng kiểm soát: Tính chất không cạnh tranh của dữ liệu có nghĩa là nó có thể được sao chép và chia sẻ rộng rãi - một khi dữ liệu tồn tại, việc kiểm soát sự lan truyền của nó là rất khó khăn. Ngay cả khi dữ liệu dường như bị hạn chế, các kỹ thuật như distillation mô hình có thể trích xuất thông tin từ các mô hình đã được đào tạo (Anderljung et al., 2023). Tuy nhiên, vẫn có thể có một số điểm kiểm soát hứa hẹn, đặc biệt là xung quanh việc thu thập dữ liệu ban đầu và quá trình đào tạo ban đầu của các mô hình nền tảng.
- Ý nghĩa: Dữ liệu đặc biệt quan trọng trong phát triển AI. Dữ liệu được sử dụng để đào tạo mô hình trực tiếp định hình năng lực và hành vi của chúng. Sự thay đổi trong dữ liệu đào tạo có thể có tầm ảnh hưởng đáng kể đến hiệu suất và an toàn của mô hình. Điều này khiến quản trị dữ liệu có tiềm năng mạnh mẽ, nhưng chỉ khi chúng ta có thể vượt qua các thách thức về đo lường và kiểm soát.
Những vấn đề chính về quản trị dữ liệu là gì? Một số khía cạnh của dữ liệu cần được quản trị cẩn thận để thúc đẩy phát triển AI an toàn:
- Chất lượng và an toàn của dữ liệu đào tạo là yếu tố cơ bản - dữ liệu chất lượng thấp hoặc có hại có thể tạo ra các mô hình không đáng tin cậy hoặc nguy hiểm. Ví dụ, dữ liệu kỹ thuật về vũ khí sinh học trong tập dữ liệu đào tạo có thể cho phép các mô hình hỗ trợ phát triển chúng (Anderljung et al., 2023).
- Độc hại dữ liệu và an ninh đang trở thành những mối đe dọa ngày càng nghiêm trọng. Các cá nhân độc hại có thể cố ý thao túng dữ liệu đào tạo để tạo ra các mô hình hành xử nguy hiểm trong các tình huống cụ thể trong khi vẫn trông an toàn trong quá trình kiểm thử. Điều này có thể liên quan đến việc tiêm các mẫu nhỏ chỉ trở nên rõ ràng dưới một số điều kiện nhất định (Longpre et al., 2024).
- Nguồn gốc dữ liệu và trách nhiệm giải trình giúp đảm bảo chúng ta có thể truy vết nguồn gốc của các hành vi mô hình. Nếu không có hệ thống theo dõi rõ ràng về nguồn dữ liệu đào tạo và đặc điểm của chúng, việc chẩn đoán và khắc phục sự cố khi mô hình thể hiện các hành vi đáng lo ngại sẽ trở nên cực kỳ khó khăn (Longpre et al., 2023).
- Khung pháp lý về sự đồng ý và quyền lợi bảo vệ cả người tạo dữ liệu và người sử dụng. Nhiều thực hành đào tạo AI hiện nay hoạt động trong vùng xám pháp lý và đạo đức liên quan đến quyền sử dụng dữ liệu. Các khung pháp lý rõ ràng có thể giúp ngăn chặn việc sử dụng trái phép đồng thời cho phép đổi mới hợp pháp (Longpre et al., 2024).
- Sự thiên vị và đại diện trong dữ liệu đào tạo trực tiếp có tầm ảnh hưởng đến hành vi của mô hình. Các tập dữ liệu bị méo mó hoặc không đại diện có thể dẫn đến các mô hình có hiệu suất kém hoặc đưa ra quyết định gây hại cho một số nhóm, tiềm ẩn nguy cơ gia tăng bất bình đẳng xã hội trên quy mô việc mở rộng (Reuel et al., 2024).
- Các quy trình truy cập và chia sẻ dữ liệu quyết định ai có thể phát triển các hệ thống AI mạnh mẽ. Nếu không có quản trị về truy cập dữ liệu, chúng ta có thể đối mặt với nguy cơ quyền lực quá tập trung vào một số ít cá nhân sở hữu bộ dữ liệu lớn, hoặc ngược lại, sự lan rộng không kiểm soát của các năng lực tiềm ẩn nguy hiểm (Heim et al., 2024).
Vai trò của quản trị dữ liệu trong quản trị AI tổng thể là gì? Ngay cả khi có khung quản trị mạnh mẽ, các nguồn dữ liệu thay thế hoặc việc tạo dữ liệu tổng hợp có thể tiềm ẩn khả năng vượt qua các hạn chế. Ngoài ra, nhiều năng lực đáng lo ngại có thể xuất hiện từ dữ liệu đào tạo vô hại thông qua các tương tác bất ngờ hoặc hành vi phát sinh. Mặc dù quản trị dữ liệu vẫn quan trọng và xứng đáng được nghiên cứu sâu hơn, các mục tiêu quản trị khác có thể cung cấp sự kiểm soát trực tiếp hơn đối với phát triển AI tiên tiến trong ngắn hạn. Đó là lý do tại sao trong phần chính của bài viết, chúng tôi tập trung chủ yếu vào quản trị sức mạnh điện toán, vốn cung cấp các điểm kiểm soát cụ thể hơn nhờ bản chất vật lý và tập trung của nó.