antoan.ai

Trong phần trước, chúng ta đã tìm hiểu cách đo lường năng lực của AI dọc theo các trục liên tục về hiệu suất và tính tổng quát. Bây giờ chúng ta sẽ xem xét một trong những yếu tố quan trọng nhất thúc đẩy sự cải thiện trong các năng lực này: việc mở rộng quy mô.

Bài học cay đắng

Chúng ta giả định rằng phần lớn các bạn có thể đã theo học đại học trong một thời kỳ mà học máy và AI gần như đồng nghĩa, hoặc chính xác hơn là học sâu và AI đồng nghĩa. Điều này không phải lúc nào cũng đúng. Trong những ngày đầu của trí tuệ nhân tạo, các nhà nghiên cứu đã áp dụng những phương pháp hoàn toàn khác nhau để tạo ra các hệ thống thông minh. Họ tin rằng chìa khóa của trí tuệ nhân tạo là mã hóa cẩn thận kiến thức và chuyên môn của con người vào các chương trình máy tính. Điều này dẫn đến những hệ thống chuyên gia chứa đầy các quy tắc được thiết kế thủ công và các động cơ cờ vua được lập trình với các nguyên tắc chiến lược phức tạp. Tuy nhiên, lần sau lần, các nhà nghiên cứu đã học được bài học cay đắng mà chúng ta hiện nay gọi là "bài học cay đắng".

‍

Bài học lớn nhất có thể rút ra từ 70 năm nghiên cứu trí tuệ nhân tạo (AI) là các phương pháp tổng quát tận dụng khả năng điện toán cuối cùng là hiệu quả nhất, và cách biệt rất lớn. Bài học cay đắng này dựa trên các quan sát lịch sử rằng 1) các nhà nghiên cứu AI thường cố gắng tích hợp kiến thức vào các tác nhân AI của họ, 2) điều này luôn mang lại lợi ích trong ngắn hạn và mang lại sự thỏa mãn cá nhân cho nhà nghiên cứu, nhưng 3) về lâu dài, nó đạt đến điểm bão hòa và thậm chí cản trở sự tiến bộ tiếp theo, và 4) sự tiến bộ đột phá cuối cùng đến từ một phương pháp đối lập dựa trên việc mở rộng quy mô tính toán thông qua tìm kiếm và học tập.

- Richard Sutton

Giáo sư Đại học Alberta, Người sáng lập Viện Nghiên cứu Openmind (Sutton, 2019)

‍

Điều gì khiến bài học này trở nên cay đắng? Sự cay đắng đến từ việc phát hiện ra rằng hàng thập kỷ công trình kỹ thuật và sự hiểu biết của con người cuối cùng lại ít quan trọng hơn các thuật toán đơn giản kết hợp với khả năng điện toán. Trong cờ vua, các nhà nghiên cứu đã dành nhiều năm để mã hóa kiến thức của các đại kiện tướng đã chứng kiến các phương pháp tìm kiếm dựa trên "sức mạnh thô bạo" như Deep Blue đánh bại nhà vô địch thế giới Garry Kasparov. Trong thị giác máy tính, các bộ phát hiện đặc trưng được thiết kế thủ công đã bị vượt qua bởi các mạng thần kinh convolutional tự học các đặc trưng từ dữ liệu. Trong nhận dạng giọng nói, các hệ thống dựa trên sự hiểu biết của con người về ngữ âm đã bị vượt qua bởi các phương pháp thống kê sử dụng mô hình Markov ẩn (Sutton, 2019).

‍

Bài học cay đắng có nghĩa là chúng ta không cần đến kỹ thuật con người? Vai trò của sự sáng tạo con người trong việc cải thiện AI là một điểm tinh tế dễ bị hiểu lầm. Ví dụ, kiến trúc transformer có thể dường như mâu thuẫn với bài học cay đắng vì chúng dựa vào những đổi mới kiến trúc phức tạp. Sự sáng tạo con người là quan trọng, nhưng điểm tinh tế nằm ở việc nhận ra sự khác biệt giữa hai loại kỹ thuật con người:

‍

Cải tiến ở cấp độ thuật toán: Những cải tiến này tận dụng tốt hơn khả năng điện toán hiện có, như: các thuật toán tối ưu hóa tốt hơn (Adam), các đổi mới kiến trúc (transformer, cơ chế chú ý) hoặc các phương pháp đào tạo (lịch trình học tập tốt hơn).
Cải tiến kỹ thuật chuyên biệt cho từng lĩnh vực: Những cải tiến này cố gắng mã hóa kiến thức con người, như: kiến trúc chuyên biệt được thiết kế cho các vấn đề cụ thể, các tính năng hoặc quy tắc được thiết kế thủ công hoặc các thiên hướng suy luận chuyên biệt cho từng tác vụ.

‍

Bài học cay đắng không phải là phản đối tất cả các kỹ thuật công nghệ do con người tạo ra - mà là cảnh báo cụ thể về loại thứ hai. Kiến trúc transformer là một ví dụ điển hình cho mô hình này - nó không mã hóa bất kỳ kiến thức cụ thể nào về ngôn ngữ, mà thay vào đó cung cấp một cơ chế chung để học các mẫu, trở nên mạnh mẽ hơn khi chúng ta mở rộng quy mô khả năng điện toán và dữ liệu.

‍

Định luật mở rộng quy mô

‍

Tại sao các phòng thí nghiệm AI quan tâm đến định luật mở rộng quy mô? Đào tạo các mô hình AI lớn cực kỳ tốn kém - có thể lên đến hàng trăm triệu đô la cho các mô hình tiên tiến. Định luật mở rộng quy mô giúp các phòng thí nghiệm đưa ra quyết định quan trọng về phân bổ tài nguyên: Nên đầu tư nhiều hơn vào GPU hay vào việc thu thập dữ liệu đào tạo? Nên đào tạo mô hình lớn hơn trong thời gian ngắn hơn hay mô hình nhỏ hơn trong thời gian dài hơn? Ví dụ, với ngân sách khả năng điện toán cố định, họ có thể phải lựa chọn giữa việc đào tạo mô hình 20 tỷ tham số trên 40% dữ liệu hoặc mô hình 200 tỷ tham số trên chỉ 4% dữ liệu. Việc đưa ra quyết định sai lầm trong các lựa chọn này có thể lãng phí nguồn lực khổng lồ. Vì vậy, việc có mối quan hệ dự đoán được giữa cách bạn đầu tư tiền bạc và mức độ năng lực đạt được cuối cùng là rất quan trọng.

‍

Ví dụ về năng lực tăng lên khi một trong các biến trong định luật mở rộng quy mô (số tham số) tăng lên. Cùng một kiến trúc mô hình (Parti) được sử dụng để tạo ra một hình ảnh bằng cùng một tạo câu lệnh, với sự khác biệt duy nhất giữa các mô hình là kích thước tham số. Có những bước nhảy vọt đáng kể về chất lượng, và ở đâu đó giữa 3 tỷ và 20 tỷ tham số, mô hình có khả năng đánh vần từ chính xác. (Yu et al., 2022)

‍

Định luật mở rộng quy mô là gì? Định luật mở rộng quy mô là các mối quan hệ toán học mô tả cách hiệu suất của hệ thống AI thay đổi khi chúng ta thay đổi các yếu tố đầu vào chính như kích thước mô hình, kích thước tập dữ liệu và khả năng điện toán. Đây là các mối quan hệ theo hàm mũ được quan sát thấy áp dụng trên nhiều cấp độ quy mô. Các biến chính liên quan bao gồm:

‍

Tính toán (C): Đây là tổng sức mạnh xử lý được sử dụng trong quá trình đào tạo, được đo bằng các phép tính số học (FLOPs). Hãy coi đây là "ngân sách" đào tạo - nhiều khả năng điện toán hơn có nghĩa là đào tạo lâu hơn, sử dụng phần cứng mạnh hơn, hoặc cả hai. Mặc dù có nhiều GPU hơn giúp tăng khả năng điện toán, nhưng khả năng điện toán cuối cùng đề cập đến tổng số phép tính được thực hiện, không chỉ phần cứng.

‍

Tham số (N): Đây là các số có thể điều chỉnh trong mô hình được điều chỉnh trong quá trình đào tạo - giống như các núm vặn mà mô hình có thể điều chỉnh để phù hợp hơn với dữ liệu. Nhiều tham số cho phép mô hình học các mẫu phức tạp hơn nhưng yêu cầu nhiều khả năng điện toán hơn cho mỗi bước đào tạo. Các mô hình tiên tiến hiện nay có hàng trăm tỷ tham số.

‍

Kích thước tập dữ liệu (D): Đây là số lượng ví dụ mà mô hình được đào tạo trên (thường được đo bằng token đối với mô hình ngôn ngữ). Tập dữ liệu càng lớn, mô hình càng có thể đọc được nhiều thông tin. Đồng thời, để đọc và học từ nhiều dữ liệu hơn, các phiên đào tạo cũng cần kéo dài hơn, từ đó tăng tổng khả năng điện toán cần thiết trước khi mô hình được coi là "được đào tạo".

‍

Mất mát (L): Đây là thước đo hiệu suất của mô hình trên mục tiêu đào tạo. Đây là giá trị chúng ta cố gắng giảm thiểu, và nó thường cải thiện khi chúng ta mở rộng quy mô các biến này.

‍

Hiệu suất mô hình ngôn ngữ cải thiện một cách trơn tru khi chúng ta tăng kích thước mô hình, kích thước tập dữ liệu và lượng khả năng điện toán sử dụng cho quá trình đào tạo. Để đạt hiệu suất tối ưu, cả ba yếu tố này phải được mở rộng quy mô đồng thời. Hiệu suất thực tế có mối quan hệ theo hàm mũ với từng yếu tố riêng lẻ khi không bị giới hạn bởi hai yếu tố còn lại. (Kaplan et al., 2020)

‍

Kết quả thị trường dự đoán về - Liệu trí tuệ nhân tạo tổng quát (AGI) đầu tiên có dựa trên học sâu (deep learning) không? (Metaculus, 2020)

‍

Định luật mở rộng quy mô ban đầu của OpenAI vào năm 2020. Để xác định mối quan hệ giữa các biến khác nhau có thể góp phần vào việc mở rộng quy mô, OpenAI đã tiến hành một loạt thí nghiệm. Để có cái nhìn trực quan về cách họ đưa ra các định luật mở rộng quy mô, bạn có thể tưởng tượng rằng trong quá trình đào tạo mô hình, bạn có thể giữ một số biến cố định trong khi thay đổi các biến khác và quan sát sự thay đổi của hàm mất mát. Cuối cùng, điều này cho phép bạn nhận ra một số mẫu. Ví dụ, kích thước tập dữ liệu có thể được giữ cố định trong khi số lượng tham số và thời gian đào tạo được thay đổi, hoặc số lượng tham số được giữ cố định trong khi lượng dữ liệu được thay đổi, v.v… Như vậy, chúng ta có thể đo lường đóng góp tương đối của từng yếu tố đối với hiệu suất tổng thể. Nếu các mối quan hệ này đúng với nhiều kiến trúc mô hình và tác vụ khác nhau, điều này cho thấy chúng nắm bắt được điều gì đó cơ bản về hệ thống học sâu. Đây là cách thế hệ đầu tiên của các định luật mở rộng quy mô được phát triển từ OpenAI. Ví dụ, theo các định luật này, nếu bạn có 10 lần khả năng điện toán, bạn nên tăng kích thước mô hình lên khoảng 5 lần và kích thước dữ liệu chỉ tăng 2 lần. (Kaplan et al., 2020)

‍

Bài báo ban đầu của OpenAI về định luật mở rộng quy mô cho biết rằng để đào tạo hiệu quả về khả năng điện toán, phần lớn sự tăng trưởng nên tập trung vào việc tăng kích thước mô hình. Một sự tăng trưởng tương đối nhỏ về dữ liệu là cần thiết để tránh việc tái sử dụng. (Kaplan et al., 2020)

‍

Sự tăng trưởng theo cấp số nhân của các tham số trong các hệ thống AI nổi bật. Các tham số là các biến trong hệ thống AI mà giá trị của chúng được điều chỉnh trong quá trình đào tạo để xác định cách dữ liệu đầu vào được chuyển đổi thành đầu ra mong muốn; ví dụ, trọng số kết nối trong mạng thần kinh (Giattino et al., 2023).

‍

Sự tăng trưởng theo cấp số nhân của các điểm dữ liệu được sử dụng để đào tạo các hệ thống AI nổi bật. Mỗi lĩnh vực có đơn vị điểm dữ liệu riêng; ví dụ, đối với thị giác là hình ảnh, đối với ngôn ngữ là từ, và đối với trò chơi là các bước thời gian. Điều này có nghĩa là các hệ thống chỉ có thể được so sánh trực tiếp trong cùng một lĩnh vực (Giattino et al., 2023).

‍

Sự tăng trưởng theo cấp số nhân của khả năng điện toán trong quá trình đào tạo các hệ thống AI nổi bật. Khả năng điện toán được đo bằng tổng peta FLOP, tương đương 10e15 phép tính số thực (Giattino et al., 2023).

‍

Sức mạnh tính toán được sử dụng để đào tạo các hệ thống AI nổi bật, theo từng lĩnh vực. Sức mạnh tính toán được đo bằng tổng petaFLOP, tương đương 10e15 phép tính số thực. Ước tính dựa trên tài liệu về AI, mặc dù có một số độ không chắc chắn. Các ước tính được kỳ vọng chính xác trong phạm vi gấp 2 lần, hoặc gấp 5 lần đối với các mô hình chưa được công bố gần đây như GPT-4 (Giattino et al., 2023).

‍

Cập nhật định luật mở rộng quy mô của DeepMind vào năm 2022. DeepMind phát hiện ra rằng hầu hết các mô hình ngôn ngữ lớn thực tế đều bị quá tham số hóa so với lượng dữ liệu mà chúng được đào tạo. Định luật mở rộng quy mô Chinchilla cho thấy để đạt hiệu suất tối ưu, các mô hình nên được đào tạo trên khoảng 20 lần số token dữ liệu so với số tham số của chúng. Điều này có nghĩa là nhiều mô hình hàng đầu có thể đạt hiệu suất tốt hơn với kích thước nhỏ hơn, nhưng với lượng dữ liệu lớn hơn. Các định luật mở rộng quy mô này được gọi là định luật mở rộng quy mô Chinchilla vì chúng được chứng minh bằng một mô hình có tên Chinchilla. Đây là mô hình có 70 tỷ tham số được đào tạo trên lượng dữ liệu lớn hơn, vượt trội so với các mô hình lớn hơn như Gopher (280 tỷ tham số) mặc dù sử dụng cùng lượng khả năng điện toán. Theo các định luật này, để đạt hiệu suất tối ưu, bạn nên tăng kích thước mô hình và kích thước tập dữ liệu với tỷ lệ tương đương - nếu bạn có 10 lần khả năng điện toán nhiều hơn, bạn nên làm mô hình lớn hơn khoảng 3,1 lần và dữ liệu lớn hơn khoảng 3,1 lần (Hoffmann et al., 2022).

‍

Nghiên cứu cho thấy hiệu suất không phải lúc nào cũng cải thiện một cách trơn tru - có thể có những chuyển đổi đột ngột, giai đoạn tạm thời đạt đỉnh hoặc thậm chí những giai đoạn hiệu suất giảm trước khi cải thiện. Ví dụ về điều này bao gồm "Grokking", nơi mô hình đột ngột đạt được khả năng tổng quát hóa mạnh mẽ sau nhiều bước đào tạo, hoặc "deep double descent", nơi việc tăng kích thước mô hình ban đầu làm giảm hiệu suất rồi sau đó cải thiện. Thay vì các quy luật hàm mũ đơn giản, BNSL sử dụng một dạng hàm linh hoạt hơn có thể mô tả các hành vi phức tạp này. Điều này cho phép dự đoán chính xác hơn về hành vi mở rộng quy mô, đặc biệt là xung quanh các điểm gián đoạn và chuyển đổi. Định luật mở rộng quy mô là một cơ sở tốt, nhưng các bước nhảy gián đoạn trong năng lực và các thay đổi đột ngột vẫn có thể xảy ra (Caballero et al., 2023).

‍

Một ví dụ về Định Luật Mở Rộng Quy mô Thần Kinh Bị Phá Vỡ (đường thẳng đen đậm) (với 3 điểm gãy nơi các đường chấm tím giao cắt với đường thẳng đen đậm) bao gồm 4 đoạn luật hàm mũ riêng biệt (nơi các đường chấm màu vàng, xanh dương, đỏ và xanh lá cây giao cắt với đường thẳng đen đậm). Điểm gãy thứ nhất và thứ hai rất mượt mà; điểm gãy thứ ba rất sắc nét (Caballero et al., 2023).

‍

Sự khác biệt giữa việc mở rộng quy mô đào tạo và việc mở rộng quy mô suy luận là gì? Việc mở rộng quy mô đào tạo liên quan đến việc sử dụng nhiều khả năng điện toán hơn trong quá trình đào tạo ban đầu bằng cách sử dụng mô hình lớn hơn, đào tạo trong thời gian dài hơn hoặc sử dụng tập dữ liệu lớn hơn. Một cách khác mà chúng ta có thể không tính đến việc sử dụng các định luật mở rộng quy mô là mở rộng thời gian suy luận. Điều này thay vào đó sử dụng nhiều khả năng điện toán hơn trong quá trình chạy chương trình thông qua các kỹ thuật như tạo câu lệnh theo chuỗi suy nghĩ, lấy mẫu lặp lại hoặc tìm kiếm cây. Ví dụ, bạn có thể đào tạo một mô hình rất lớn để tạo ra đầu ra chất lượng cao trực tiếp, hoặc đào tạo một mô hình nhỏ hơn đạt được hiệu suất tương tự bằng cách sử dụng nhiều khả năng điện toán hơn để suy luận từng bước tại thời điểm suy luận.

‍

Giả thuyết mở rộng quy mô

‍

Giả thuyết mở rộng quy mô mạnh (Gwern, 2020)

Giả thuyết mở rộng mạnh đề xuất rằng việc mở rộng quy mô các kiến trúc mô hình nền tảng hiện tại bằng cách tăng cường khả năng điện toán và dữ liệu sẽ đủ để đạt được năng lực AI đột phá và thậm chí có thể đạt đến Trí tuệ Nhân tạo Siêu việt (ASI).

‍

Trí tuệ nhân tạo: Hiệu suất trên các bài kiểm tra kiến thức so với tính toán đào tạo. Hiệu suất trên các bài kiểm tra kiến thức được đo lường bằng bộ dữ liệu MMLU, ở đây sử dụng phương pháp học 5-shot, đánh giá độ chính xác của mô hình sau khi chỉ nhận được năm ví dụ cho mỗi tác vụ. Tính toán đào tạo được đo lường bằng tổng petaFLOP, tương đương 10e15 phép tính số học (Giattino et al., 2023).

‍

Giả thuyết mở rộng mạnh là gì? Quan điểm này cho rằng chúng ta đã có tất cả các thành phần cơ bản cần thiết - chỉ cần làm cho chúng lớn hơn, tuân theo các định luật mở rộng quy mô đã được thiết lập. (Branwen, 2020) Có nhiều tranh cãi xung quanh giả thuyết này và chúng ta không thể đề cập đến mọi lập luận. Chúng ta có thể cung cấp cho bạn một cái nhìn tổng quan ngắn gọn trong vài đoạn tiếp theo.

‍

Các bên ủng hộ bao gồm OpenAI (OpenAI, 2023), CEO của Anthropic là Dario Amodei (Amodei, 2023), Conjecture (Conjecture, 2023), đội ngũ an toàn của DeepMind (DeepMind, 2022) và các bên khác. Theo đội ngũ DeepMind, "không cần nhiều đổi mới cơ bản hơn nữa cho AGI. Các mô hình nền tảng học sâu được mở rộng quy mô với RL từ phản hồi của con người (RLHF) [sẽ đủ]" (DeepMind, 2022).

‍

Những lập luận chính ủng hộ giả thuyết mở rộng quy mô mạnh là gì? Bằng chứng thuyết phục nhất cho quan điểm này đến từ các quan sát thực nghiệm về tiến bộ trong những năm gần đây. Các nhà nghiên cứu đã phát triển các thuật toán tuân theo nguyên tắc của bài học cay đắng trong nhiều năm (tập trung vào các phương pháp tổng quát tận dụng hiệu quả khả năng điện toán). Tuy nhiên, ngay cả khi các nhà nghiên cứu đã phát triển các thuật toán phức tạp tuân theo nguyên tắc "bài học cay đắng", những cải tiến này vẫn chỉ chiếm 35% sự gia tăng hiệu suất trong các mô hình ngôn ngữ vào năm 2024, với 65% còn lại đến từ việc tăng quy mô khả năng điện toán và dữ liệu (Ho et al., 2024). Nói cách khác, ngay cả khi các cải tiến thuật toán của chúng ta hoàn toàn phù hợp với "bài học cay đắng", chúng vẫn ít quan trọng hơn so với việc mở rộng quy mô thuần túy.

‍

Sự xuất hiện của các năng lực bất ngờ cung cấp một lập luận mạnh mẽ khác cho việc mở rộng quy mô mạnh mẽ. Chúng ta đã chứng kiến các thế hệ mô hình nền tảng trước đây thể hiện những năng lực điều đáng chú ý mà không được đào tạo cụ thể, như lập trình chẳng hạn. Hành vi phát sinh này gợi ý rằng việc phát triển các năng lực nhận thức cấp cao hơn cũng có thể xuất hiện đơn giản như một chức năng của quy mô. Chúng ta thấy rằng các mô hình lớn hơn trở nên ngày càng hiệu quả hơn trong việc học từ mẫu - chúng cần ít ví dụ hơn để học các tác vụ mới. Sự cải thiện hiệu quả này khi mở rộng quy mô gợi ý rằng việc mở rộng quy mô thêm có thể cuối cùng dẫn đến năng lực học từ ít mẫu tương tự con người, đây là tiền đề cho TAI và ASI. Cuối cùng, các mô hình này cũng dường như có khả năng học bất kỳ tác vụ nào có thể được biểu diễn thông qua các phương tiện đào tạo của chúng. Hiện tại, điều này áp dụng cho các mô hình ngôn ngữ lớn (LLMs), nhưng có một con đường rõ ràng để phát triển các mô hình đa phương tiện (LMMs). Vì văn bản có thể biểu diễn gần như bất kỳ tác vụ nào mà con người có thể hiểu, việc mở rộng quy mô hiểu biết ngôn ngữ có thể đủ để đạt được trí tuệ tổng quát.

‍

Những lập luận chính phản đối giả thuyết mở rộng quy mô mạnh mẽ là gì? Nghiên cứu gần đây cũng đã xác định một số thách thức đối với giả thuyết mở rộng quy mô mạnh mẽ. Thách thức cấp bách nhất là sự sẵn có của dữ liệu - các mô hình ngôn ngữ có thể sẽ cạn kiệt dữ liệu văn bản công khai chất lượng cao giữa năm 2026 và 2032 (Villalobos et al., 2024). Mặc dù dữ liệu tổng hợp có thể giúp giải quyết hạn chế này, nhưng chưa rõ liệu nó có thể cung cấp tín hiệu học tập chất lượng tương đương với nội dung do con người tạo ra hay không. Thay vào đó, chúng ta vẫn còn nhiều dữ liệu đa phương tiện để đào tạo (như video YouTube) dù đã cạn kiệt dữ liệu văn bản.

‍

Một thách thức cơ bản hơn đến từ cách thức hoạt động của các mô hình này. LLMs về bản chất là "cơ sở dữ liệu nội suy" (hoặc "chim vẹt ngẫu nhiên", hoặc các thuật ngữ tương tự khác). Điểm mấu chốt là chúng chỉ xây dựng một bộ sưu tập khổng lồ các biến đổi vector thông qua quá trình huấn luyện trước. Mặc dù các biến đổi này trở nên phức tạp hơn theo việc mở rộng quy mô, các nhà phê bình cho rằng có sự khác biệt cơ bản giữa việc tái tổ hợp các ý tưởng hiện có và tổng hợp thực sự - tức là suy ra các giải pháp mới từ các nguyên lý cơ bản. Tuy nhiên, đây không phải là một lập luận không thể bác bỏ đối với việc mở rộng quy mô mạnh mẽ. Điều này có thể chỉ là giới hạn của quy mô hiện tại - một mô hình lớn hơn được đào tạo trên dữ liệu đa phương tiện có thể học cách xử lý bất kỳ tình huống mới nào đơn giản bằng cách tái tổ hợp các mẫu đã ghi nhớ trước đó. Vì vậy, chưa rõ liệu việc tái tổ hợp mẫu có thực sự có giới hạn trên hay không.

‍

Giả thuyết mở rộng quy mô yếu (Gwern, 2020)

Giả thuyết mở rộng yếu đề xuất rằng mặc dù việc mở rộng quy mô vẫn sẽ là yếu tố chính thúc đẩy tiến bộ, chúng ta cũng cần các cải tiến kiến trúc và thuật toán có mục tiêu để vượt qua các nút thắt cổ chai cụ thể.

‍

Giả thuyết mở rộng yếu là gì? Trước những thách thức này, một phiên bản yếu hơn của giả thuyết mở rộng quy mô cũng đã được đề xuất. Theo giả thuyết mở rộng yếu, mặc dù việc mở rộng quy mô vẫn sẽ là động lực chính của sự tiến bộ, chúng ta cũng cần các cải tiến kiến trúc và thuật toán có mục tiêu để vượt qua các nút thắt cổ chai cụ thể. Những cải tiến này không yêu cầu những đột phá cơ bản, mà thay vào đó là những nâng cấp dần dần để tận dụng quy mô một cách hiệu quả hơn. Tương tự như giả thuyết mở rộng quy mô mạnh, giả thuyết mở rộng quy mô yếu cũng gây tranh cãi và được bàn luận sôi nổi. Chúng ta có thể đưa ra một số kết quả ủng hộ và phản đối quan điểm này.

‍

Kiến trúc H-Jepa của LeCun (LeCun, 2022) hoặc Kế hoạch Alberta của Richard Sutton (Sutton, 2022) là những kế hoạch nổi bật áp dụng giả thuyết mở rộng yếu.

‍

Những lập luận chính ủng hộ giả thuyết mở rộng yếu là gì? Các lập luận ủng hộ mở rộng mạnh, như việc cải tiến thuật toán chỉ đóng góp 35% vào sự cải thiện hiệu suất của mô hình ngôn ngữ, cũng có thể áp dụng cho mở rộng yếu. Bởi vì một phần ba vẫn là một vai trò không nhỏ trong việc cải thiện năng lực. Một số quan sát thực nghiệm khác cũng ủng hộ mở rộng yếu. Như hỗ trợ phần cứng cho các tính toán độ chính xác thấp, đã mang lại cải thiện hiệu suất theo cấp số nhân cho các tác vụ học máy (Hobbhahn et al., 2023). Những cải tiến có mục tiêu này không thay đổi câu chuyện mở rộng quy mô cơ bản mà giúp chúng ta tận dụng tốt hơn các tài nguyên sẵn có. Điều này cho thấy vẫn còn dư địa để cải thiện thông qua các chiến lược mở rộng quy mô tốt hơn thay vì những đột phá cơ bản. (Hoffmann et al., 2022)

‍

Augmentation/Scaffolding giữ nguyên, nhưng nếu giả thuyết mở rộng quy mô, yếu hoặc mạnh, là đúng, thì năng lực sẽ tiếp tục cải thiện chỉ bằng cách mở rộng quy mô.

‍

Nếu cả giả thuyết mở rộng yếu và mạnh đều không đúng thì sao? Về cơ bản, cả các định luật mở rộng quy mô (chỉ dự đoán năng lực của mô hình nền tảng) và hầu hết các tranh luận xung quanh "việc mở rộng quy mô là tất cả những gì bạn cần" thường bỏ qua các khía cạnh khác của phát triển AI diễn ra ngoài phạm vi mà các định luật mở rộng quy mô có thể dự đoán. Chúng không tính đến sự cải thiện trong "khung hỗ trợ" của AI (như tạo câu lệnh theo chuỗi suy luận, sử dụng công cụ hoặc truy xuất), hoặc tổ hợp của nhiều mô hình làm việc cùng nhau theo cách mới. Các tranh luận xung quanh định luật mở rộng quy mô chỉ cho chúng ta biết về năng lực của một mô hình nền tảng duy nhất được đào tạo theo cách tiêu chuẩn. Ví dụ, theo giả thuyết mở rộng mạnh, chúng ta có thể đạt được TAI bằng cách mở rộng quy mô cùng một mô hình nền tảng cho đến khi nó hoàn toàn tự động hóa R&D ML. Nhưng ngay cả khi việc mở rộng quy mô dừng lại, khiến năng lực tiến bộ của mô hình nền tảng cốt lõi (cả theo cách yếu hoặc mạnh) bị đình trệ, các kỹ thuật bên ngoài tận dụng mô hình hiện có vẫn có thể tiếp tục phát triển.

‍

Hãy xem các mô hình nền tảng như LLMs hoặc LMMs như một transistor duy nhất. Riêng lẻ, chúng có thể không làm được nhiều, nhưng nếu chúng ta tổ hợp đủ số lượng transistor, chúng ta sẽ có được tất cả năng lực của một siêu máy tính. Nhiều nhà nghiên cứu cho rằng đây là yếu tố cốt lõi mà từ đó các năng lực tương lai sẽ phát triển. Nó cũng được gọi là "unhobbling" (Aschenbrenner, 2024), "schlep" (Cotra, 2023) và các thuật ngữ khác, nhưng tất cả đều chỉ đến cùng một nguyên tắc cơ bản - việc mở rộng quy mô hiệu suất của một mô hình duy nhất chỉ là một phần của sự phát triển tổng thể về năng lực AI.

‍

Ngay cả khi không có cải thiện về việc mở rộng quy mô mô hình, các kỹ thuật khai thác khác và khung hỗ trợ vẫn có thể tiếp tục cải thiện. Do đó, năng lực tổng thể vẫn tiếp tục phát triển. Thực tế, tương lai có thể sẽ chứng kiến cả sự cải thiện do khung hỗ trợ và việc mở rộng quy mô. Vì vậy, hiện tại, dường như không có giới hạn trên cho việc cải thiện năng lực miễn là một trong hai yếu tố này được duy trì.

‍

Chúng tôi đi sâu vào các lập luận và phản biện cho tất cả các quan điểm về việc mở rộng quy mô mô hình nền tảng trong phụ lục.

‍

Khi chúng ta đề cập đến LLMs như "cơ sở dữ liệu nội suy", chúng ta đang nói đến cách chúng lưu trữ và thao tác các chương trình véc-tơ - những chương trình này không nên bị nhầm lẫn với các chương trình máy tính truyền thống như Python hoặc C++. Những mẫu này, hay các chương trình véc-tơ, là các biến đổi trong không gian nhúng của mô hình. Các nghiên cứu ban đầu về nhúng đã chỉ ra các biến đổi đơn giản (như vua - nam + nữ = nữ hoàng), nhưng các LLMs hiện đại có thể lưu trữ hàng triệu biến đổi phức tạp hơn nhiều. Tuy nhiên, do việc mở rộng quy mô, LLMs hiện có thể lưu trữ các hàm vectơ phức tạp tùy ý — phức tạp đến mức các nhà nghiên cứu cho rằng gọi chúng là "chương trình vectơ" chính xác hơn là "hàm".

‍

Vậy điều đang xảy ra trong LLMs là chúng xây dựng một cơ sở dữ liệu khổng lồ về các chương trình vectơ này thông qua quá trình huấn luyện trước. Khi chúng ta nói chúng đang thực hiện "so khớp mẫu" hoặc "ghi nhớ", điều chúng ta thực sự muốn nói là chúng đang lưu trữ hàng triệu phép biến đổi vectơ này mà chúng có thể truy xuất và tổ hợp với mỗi tạo câu lệnh.

‍

Vấn đề quyết định cho/chống lại khả năng mở rộng quy mô mạnh (và thậm chí cả mở rộng quy mô yếu) trở thành: Liệu việc tổ hợp các chương trình mẫu này có đủ để đạt được trí tuệ tổng quát hay không. Nói cách khác, liệu tổng hợp chương trình có thể được xấp xỉ bằng cách kết hợp lại đủ số lượng mẫu (cũng được gọi là trừu tượng hóa và nhiều thuật ngữ khác, nhưng ý tưởng cốt lõi là giống nhau)?

‍

Những người phản đối lập luận rằng dù có nhiều hay phức tạp đến đâu, chúng vẫn cơ bản khác biệt so với tổng hợp chương trình thực sự. Tổng hợp chương trình thực sự có nghĩa là suy ra một giải pháp mới từ các nguyên lý cơ bản - không chỉ tái tổ hợp các biến đổi hiện có. Có một số quan sát thực nghiệm ủng hộ quan điểm này. Ví dụ về mã Caesar: "Các mô hình ngôn ngữ lớn (LLMs) có thể giải mã Caesar với kích thước khóa 3 hoặc 5, nhưng thất bại với kích thước khóa 13, vì chúng đã ghi nhớ các giải pháp cụ thể thay vì hiểu thuật toán chung" (Chollet, 2024). Hoặc ví dụ khác là "lời nguyền đảo ngược", cho thấy rằng ngay cả các mô hình ngôn ngữ tiên tiến nhất (SOTA) vào năm 2024 cũng không thể thực hiện suy luận nhân quả ngược - nếu chúng được đào tạo trên "A là B", chúng sẽ không học được "B là A" (Berglund et al., 2023)

‍

Tuy nhiên, điều này vẫn chưa hoàn toàn phủ nhận khả năng mở rộng quy mô. Nếu chúng ta mở rộng kích thước cơ sở dữ liệu chương trình và nhồi nhét thêm kiến thức và mẫu vào đó, hiệu suất của nó sẽ được cải thiện (Chollet, 2024). Cả hai bên trong cuộc tranh luận đều đồng ý về điều này. Do đó, vấn đề thực sự không phải là liệu việc tái tổ hợp mẫu có giới hạn tuyệt đối rõ ràng hay không, mà là liệu đó có phải là con đường hiệu quả nhất để đạt được trí tuệ tổng quát hay không. Tổng hợp chương trình có thể đạt được cùng năng lực với ít tài nguyên khả năng điện toán và dữ liệu hơn bằng cách học cách suy luận ra giải pháp thay vì ghi nhớ các mẫu.

‍

Chương 1.4: Mở rộng quy mô

Trong chương này

Bài học cay đắng

Định luật mở rộng quy mô

Giả thuyết mở rộng quy mô