Chương 1.7: Phụ lục - Cất cánh

Tác giả:
Markov Grey, Charbel-Raphaël Segerie
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

*Chương này là chương phụ lục của chương 1. Bạn có thể sang thẳng chương 2 tại đây.

Sự liên tục

Sự liên tục là gì? Sự liên tục mô tả liệu năng lực của AI có cải thiện một cách trơn tru và dự đoán được hay thông qua những bước nhảy đột ngột, bất ngờ. Điều này khác với tốc độ - ngay cả một sự cất cánh nhanh cũng có thể là liên tục nếu sự tiến bộ nhanh chóng tuân theo các mô hình dự đoán được, và một sự cất cánh chậm có thể là gián đoạn nếu nó liên quan đến những đột phá bất ngờ. Hiểu về tính liên tục giúp chúng ta dự đoán liệu có thể ngoại suy từ các xu hướng hiện tại, như các định luật mở rộng quy mô mà chúng ta đã thảo luận trước đó, hay liệu chúng ta nên mong đợi những sự thay đổi đột ngột khỏi các mô hình này. Vì vậy, nếu bạn coi tốc độ là thước đo mức độ nhanh chóng mà AI trở nên siêu trí tuệ, thì tính liên tục có thể được coi là thước đo "sự bất ngờ".

Cất cánh liên tục là gì? Trong cất cánh liên tục, năng lực của AI tuân theo các xu hướng mượt mà, có thể dự đoán được. Các cải tiến mà chúng ta đã thấy trong các mô hình ngôn ngữ là một ví dụ tốt - mỗi mô hình mới thường tốt hơn mô hình trước đó trong các tác vụ như lập trình hoặc toán học, theo các mô hình mà chúng ta có thể dự đoán một cách tương đối từ định luật mở rộng quy mô và cải tiến thuật toán. Như chúng ta đã thấy trong phần dự báo, nhiều khía cạnh của tiến bộ AI đã cho thấy hành vi có thể dự đoán được như vậy.

Tiến bộ liên tục không có nghĩa là tiến bộ tuyến tính hay đơn giản. Nó vẫn có thể bao gồm sự tăng trưởng theo cấp số nhân hoặc thậm chí cấp số nhân siêu, nhưng điểm mấu chốt là sự tăng trưởng này tuân theo các mô hình mà chúng ta có thể dự đoán. Hãy nghĩ về cách GPT-4 tốt hơn GPT-3, vốn đã tốt hơn GPT-2 - mỗi cải tiến đều đáng kể nhưng không hoàn toàn bất ngờ xét đến sự gia tăng việc mở rộng quy mô và các kỹ thuật đào tạo được cải thiện.

Sự cất cánh liên tục cho thấy rằng các xu hướng hiện tại trong định luật mở rộng quy mô và tiến bộ thuật toán có thể áp dụng cho cả các hệ thống AI mang tính cách mạng. Điều này sẽ cung cấp cho chúng ta nhiều cảnh báo hơn về các năng lực sắp tới và khả năng chuẩn bị các biện pháp an toàn phù hợp. Như chúng ta sẽ thảo luận trong chương về quản trị, mặc dù tiến bộ diễn ra nhanh chóng, tính dự đoán này khiến việc phát triển và triển khai quy định trở nên tương đối dễ dàng hơn trước khi các hệ thống AI trở nên cực kỳ mạnh mẽ hoặc không thể kiểm soát. Tất nhiên, "tương đối dễ dàng" không có nghĩa là "dễ dàng".

Khởi đầu đột ngột là gì? Khởi đầu đột ngột liên quan đến những bước nhảy vọt đột ngột về năng lực, phá vỡ các mô hình trước đó. Thay vì những cải thiện đều đặn về hiệu suất khi chúng ta tăng cường khả năng điện toán hoặc dữ liệu, chúng ta có thể chứng kiến sự xuất hiện của những năng lực hoàn toàn mới mà các xu hướng hiện tại không dự đoán được. Một ví dụ giả định là nếu một hệ thống AI đột ngột phát triển khả năng suy luận tổng quát mạnh mẽ sau khi chỉ xử lý các tác vụ hẹp - điều này sẽ đại diện cho sự gián đoạn trong mô hình phát triển AI.

Sự gián đoạn có thể phát sinh qua nhiều cơ chế khác nhau. Chúng ta có thể phát hiện ra các phương pháp đào tạo hoàn toàn mới, hiệu quả hơn đáng kể so với các phương pháp hiện tại. Hoặc, như đã thảo luận trong phần mở rộng quy mô, chúng ta có thể đạt đến điểm bùng phát, nơi sự cải thiện định lượng về việc mở rộng quy mô dẫn đến sự thay đổi định tính về năng lực. Một hệ thống AI thậm chí có thể tự phát hiện ra những cải thiện như vậy, dẫn đến những bước nhảy vọt bất ngờ về năng lực.

Lịch sử đã ghi nhận cả tiến bộ khoa học liên tục và đột ngột. Sự phát triển vũ khí hạt nhân đại diện cho một bước nhảy đột ngột về sức mạnh nổ, trong khi cải tiến khả năng điện toán theo xu hướng liên tục hơn. Tuy nhiên, như đã thấy trong phần dự báo, các đột biến công nghệ lịch sử hiếm khi xảy ra, điều mà một số nhà nghiên cứu coi là bằng chứng ủng hộ các kịch bản cất cánh liên tục.

Các thuật ngữ "cất cánh nhanh" và "cất cánh đột biến" thường được sử dụng thay thế cho nhau. Tuy nhiên, các hình ảnh dưới đây thể hiện các quỹ đạo cất cánh khác nhau có thể giúp làm rõ những khác biệt tinh tế giữa các khái niệm này.

Tại sao tính liên tục lại quan trọng đối với an toàn AI? Tính liên tục của tiến bộ AI có ý nghĩa quan trọng đối với cách chúng ta tiếp cận vấn đề an toàn. Trong một kịch bản cất cánh AI liên tục, chúng ta có thể thử nghiệm các biện pháp an toàn trên các hệ thống có năng lực thấp hơn một cách đáng tin cậy hơn và tự tin hơn rằng chúng sẽ hoạt động trên các hệ thống tiên tiến hơn. Chúng ta cũng có thể dự đoán chính xác hơn thời điểm cần áp dụng các biện pháp an toàn khác nhau và lập kế hoạch tương ứng.

Một ví dụ minh họa về quá trình phát triển gián đoạn chậm, nơi mặc dù tiến bộ vẫn tiếp tục tăng nhưng chúng ta có thể thấy những "bước nhảy" đột ngột trong tiến bộ. (Martin & Eth, 2021)

Một ví dụ minh họa về quá trình khởi động nhanh không liên tục. Mặc dù tiến độ tiếp tục tăng tốc, ngoài ra chúng ta cũng có thể thấy những "bước nhảy" đột ngột trong tiến độ. (Martin & Eth, 2021)

Tính đồng nhất

Sự đồng nhất trong giai đoạn cất cánh AI là gì? Sự đồng nhất mô tả mức độ tương đồng hoặc khác biệt giữa các hệ thống AI trong giai đoạn cất cánh AI. Liệu chúng ta sẽ chứng kiến nhiều hệ thống AI đa dạng với kiến trúc và năng lực khác nhau, hay hầu hết các hệ thống AI tiên tiến sẽ là biến thể của cùng một thiết kế cơ bản? Điều này không chỉ liên quan đến sự đa dạng kỹ thuật - mà còn về việc liệu các hệ thống AI tiên tiến có chia sẻ các hành vi, hạn chế và đặc tính an toàn tương tự hay không. (Hubinger, 2020)

Homogeneous takeoff là gì? Trong một kịch bản homogeneous takeoff, hầu hết các hệ thống AI tiên tiến sẽ có cơ bản tương đồng. Chúng ta có thể thấy những dấu hiệu của mô hình này ngay từ bây giờ - nhiều mô hình ngôn ngữ hiện tại đều dựa trên kiến trúc transformer và được đào tạo trên dữ liệu tương tự, dẫn đến năng lực và hạn chế tương tự. Trong một kịch bản homogeneous takeoff, mô hình này sẽ tiếp tục. Có thể hầu hết các hệ thống AI sẽ là các phiên bản được tinh chỉnh từ một số mô hình cơ sở, hoặc các triển khai khác nhau của cùng một đột phá cốt lõi trong thiết kế AI.

Một yếu tố quan trọng có thể thúc đẩy tính đồng nhất là việc mở rộng quy mô khổng lồ cần thiết để đào tạo các hệ thống AI tiên tiến. Nếu việc đào tạo AI đột phá đòi hỏi nguồn lực tính toán khổng lồ, như các định luật mở rộng quy mô cho thấy, thì chỉ một số ít tổ chức có năng lực đào tạo các mô hình cơ sở từ đầu. Các tổ chức khác sẽ xây dựng trên các mô hình cơ sở này thay vì phát triển các kiến trúc hoàn toàn mới, dẫn đến các hệ thống đồng nhất hơn.

Sự đồng nhất trong quá trình phát triển có thể an toàn hơn ở một số khía cạnh nhưng rủi ro hơn ở những khía cạnh khác. Nếu chúng ta giải quyết vấn đề tương thích cho một hệ thống AI, giải pháp đó có thể áp dụng cho các hệ thống tương tự khác. Tuy nhiên, nếu có một lỗi cơ bản trong kiến trúc chung hoặc phương pháp đào tạo, nó có thể ảnh hưởng đến tất cả các hệ thống cùng lúc. Điều này giống như việc có một nền nông nghiệp đơn canh - mặc dù dễ quản lý hơn, nhưng cũng dễ bị tổn thương hơn trước những điểm yếu chung.

Một minh họa về sự phát triển đồng nhất. Chúng ta có thể thấy nhiều kiến trúc mô hình tổng thể khác nhau. Hình vẽ cho thấy ba kiến trúc với các màu khác nhau. Trong mỗi kiến trúc, sự phát triển là tương tự nhau do sự tương đồng trong thiết kế, quy định và các biện pháp giảm thiểu rủi ro. LƯU Ý: Các đường cong ở đây với các kiến trúc chỉ mang tính minh họa và không nhằm chỉ ra các đường cong tăng trưởng dự đoán hoặc so sánh giữa các kiến trúc khác nhau.

Khởi đầu dị thể là gì? Trong một khởi đầu dị thể, chúng ta sẽ thấy sự đa dạng đáng kể giữa các hệ thống AI tiên tiến. Các tổ chức khác nhau có thể phát triển các phương pháp tiếp cận AI cơ bản khác nhau, dẫn đến các hệ thống có điểm mạnh, điểm yếu và hành vi riêng biệt. Một số có thể chuyên biệt cho các lĩnh vực cụ thể trong khi những hệ thống khác có tính tổng quát hơn, một số có thể minh bạch hơn trong khi những hệ thống khác có thể bí ẩn hơn, một số có thể phù hợp hơn với giá trị con người trong khi những hệ thống khác có thể không. Dynamic cạnh tranh giữa các dự án AI có thể làm trầm trọng thêm sự đa dạng, khi các nhóm đua nhau đạt được đột phá mà không nhất thiết phải thống nhất về phương pháp hoặc chia sẻ thông tin quan trọng. Ví dụ, chúng ta có thể có một tương lai nơi AI trở thành tài sản chiến lược quốc gia, và phát triển AI được bảo vệ chặt chẽ. Trong môi trường này, việc theo đuổi năng lực AI trở nên phân mảnh, mỗi công ty hoặc quốc gia sẽ áp dụng các phương pháp phát triển khác nhau, có thể dẫn đến sự đa dạng về hành vi, chức năng và mức độ an toàn.

Sự phát triển không đồng đều tạo ra những thách thức khác nhau về an toàn. Chúng ta cần phát triển các biện pháp an toàn hoạt động trên các hệ thống đa dạng, và không thể áp dụng các bài học từ một hệ thống cho các hệ thống khác. Tuy nhiên, sự đa dạng có thể cung cấp một số bảo vệ chống lại rủi ro hệ thống - nếu một phương pháp chứng minh là nguy hiểm, các phương án thay thế vẫn tồn tại.

Sự đồng nhất trong quá trình cất cánh AI ảnh hưởng như thế nào đến bức tranh tổng thể? Mức độ đồng nhất trong quá trình cất cánh AI có tác động đáng kể đến cách AI có thể phát triển. Trong một kịch bản đồng nhất, tiến bộ có thể dự đoán được hơn nhưng cũng dễ bị chi phối bởi động lực "người thắng lấy tất cả". Một kịch bản đa dạng có thể bền vững hơn trước các điểm yếu đơn lẻ nhưng khó theo dõi và kiểm soát hơn.

Một ví dụ về sự phát triển không đồng nhất. Chúng ta có thể thấy nhiều kiến trúc mô hình tổng thể khác nhau. Hình vẽ cho thấy ba kiến trúc với các màu khác nhau. Trong mỗi kiến trúc, sự phát triển khác nhau do sự khác biệt về thiết kế, quy định và các biện pháp giảm thiểu rủi ro. LƯU Ý: Các đường cong ở đây với các kiến trúc chỉ mang tính minh họa và không nhằm chỉ ra các đường cong tăng trưởng dự đoán hoặc so sánh giữa các kiến trúc khác nhau.

Phân cực

Phân cực là gì? Phân cực mô tả quyền lực và năng lực có tập trung vào một hệ thống AI hoặc tổ chức duy nhất, hay vẫn được phân tán giữa nhiều cá nhân. Nói cách khác, liệu một hệ thống AI hoặc nhóm có vượt xa tất cả các hệ thống khác một cách đáng kể, hay nhiều hệ thống AI sẽ phát triển song song với năng lực tương đương?

Cất cánh đơn cực là gì? Trong cất cánh đơn cực, một hệ thống AI hoặc tổ chức đạt được lợi thế quyết định so với tất cả các hệ thống khác. Điều này có thể xảy ra thông qua một đột phá duy nhất, lợi thế mở rộng quy mô vượt trội, hoặc tự cải thiện đệ quy. Ví dụ, nếu một hệ thống AI trở nên đủ mạnh để tự đẩy nhanh quá trình phát triển của chính mình, nó có thể nhanh chóng vượt qua tất cả các hệ thống khác. Toán học của việc đào tạo khả năng điện toán cung cấp một con đường dẫn đến kết quả đơn cực. Nếu việc tăng gấp đôi khả năng điện toán dẫn đến cải thiện đáng tin cậy về năng lực, thì một tổ chức có thể duy trì hoặc mở rộng lợi thế của mình nếu họ dẫn trước đủ xa trong việc thu thập khả năng điện toán. Các hệ thống được cải thiện của họ có thể giúp họ phát triển các phương pháp đào tạo, phần cứng tốt hơn và thu hút đầu tư, tạo ra một vòng phản hồi tích cực mà các tổ chức khác không thể sánh kịp. Tuy nhiên, khả năng điện toán không phải là con đường duy nhất dẫn đến sự thống trị đơn cực. Một tổ chức duy nhất có thể phát hiện ra một phương pháp đào tạo tốt hơn về mặt cơ bản, hoặc phát triển một hệ thống AI có khả năng tự cải thiện tốt hơn so với việc giúp con người xây dựng các giải pháp thay thế. Một khi bất kỳ cá nhân nào đạt được lợi thế đủ lớn, việc các cá nhân khác bắt kịp có thể trở nên gần như không thể.

Một minh họa về sự bứt phá đơn cực. Một mô hình (màu xanh đậm ở đây) vượt trội hơn hẳn so với tất cả các mô hình khác.

Điều gì là sự cất cánh AI đa cực? Trong một sự cất cánh AI đa cực, nhiều hệ thống AI hoặc tổ chức phát triển các năng lực tiên tiến song song. Điều này có thể trông giống như nhiều phòng thí nghiệm lớn phát triển các hệ thống AI khác nhau nhưng có sức mạnh tương đương, hoặc như nhiều cá nhân có quyền truy cập vào các năng lực AI tương tự thông qua các mô hình nguồn mở hoặc dịch vụ AI. Cảnh quan AI hiện nay cho thấy các yếu tố của đa cực - nhiều tổ chức có thể đào tạo các mô hình ngôn ngữ lớn, và các kỹ thuật được phát triển bởi một phòng thí nghiệm thường được các phòng thí nghiệm khác nhanh chóng áp dụng. Một kịch bản đa cực có thể tiếp tục xu hướng này, với nhiều nhóm duy trì các năng lực tương tự ngay cả khi những năng lực đó trở nên mang tính cách mạng. Một kịch bản đơn cực gây lo ngại về sự tập trung quyền lực, trong khi một thế giới đa cực đặt ra thách thức trong việc phối hợp giữa các thực thể hoặc hệ thống AI đa dạng. Cả thế giới đơn cực và đa cực đều có tiềm năng bị lợi dụng sai mục đích các khả năng AI tiên tiến bởi các cá nhân.

Một minh họa về sự bùng nổ đa cực. Không có mô hình nào vượt trội đáng kể so với các mô hình khác, và tất cả đều phát triển với tốc độ cạnh tranh tương đối với nhau.

Tại sao tính lưỡng cực lại quan trọng? Tính lưỡng cực của sự phát triển có tác động lớn đến cả rủi ro an toàn và các giải pháp tiềm năng. Trong kịch bản đơn cực, hành động và sự đồng thuận của một hệ thống hoặc tổ chức duy nhất trở nên quan trọng - họ có thể có khả năng định hình tương lai dài hạn một cách đơn phương. Điều này tập trung rủi ro vào một điểm yếu duy nhất, nhưng cũng có thể làm cho việc phối hợp dễ dàng hơn vì ít cá nhân cần đồng ý. Kịch bản đa cực tạo ra những thách thức khác. Các hệ thống tiên tiến có thể hành động theo cách mâu thuẫn hoặc cạnh tranh về nguồn lực. Điều này có thể tạo áp lực để triển khai hệ thống nhanh chóng hoặc cắt giảm các tiêu chuẩn an toàn. Cũng có sự tương tác quan trọng giữa cực tính và các khía cạnh khác của quá trình cất cánh mà chúng ta đã thảo luận. Một quá trình cất cánh nhanh có thể dễ dàng trở thành đơn cực, vì hệ thống đầu tiên đạt được tiến bộ nhanh chóng có thể nhanh chóng vượt qua tất cả các hệ thống khác. Một quá trình cất cánh chậm có thể có xu hướng đa cực, cho phép nhiều cá nhân có thời gian để bắt kịp với bất kỳ lợi thế ban đầu nào.

Yếu tố ảnh hưởng đến tính phân cực. Một số yếu tố chính ảnh hưởng đến việc tính phân cực của quá trình phát triển có xu hướng nghiêng về kết quả đơn cực hay đa cực:

  • Tốc độ phát triển AI: Một cất cánh AI nhanh có thể ủng hộ kết quả đơn cực bằng cách mang lại lợi thế đáng kể cho nhà phát triển nhanh nhất. Ngược lại, một cất cánh AI chậm có thể dẫn đến một thế giới đa cực, nơi nhiều thực thể đạt được năng lực tiên tiến gần như đồng thời.
  • Hợp tác so với cạnh tranh: Mức độ hợp tác và mở cửa trong cộng đồng nghiên cứu AI có thể ảnh hưởng đáng kể đến cực hóa. Mức độ hợp tác cao và chia sẻ thông tin có thể hỗ trợ kết quả đa cực, trong khi môi trường bí mật hoặc cạnh tranh gay gắt có thể đẩy mạnh xu hướng đơn cực.
  • Yếu tố pháp lý và kinh tế: Khung pháp lý và các động lực kinh tế cũng đóng vai trò quan trọng. Các chính sách khuyến khích sự đa dạng trong phát triển AI và giảm thiểu việc tích tụ quá nhiều quyền lực trong tay một thực thể duy nhất có thể thúc đẩy một cất cánh AI đa cực.
Chương 1.8: Phụ lục - Ý kiến chuyên gia
Tiếp tục