Chương 1.1: AI tối tân

Tác giả:
Markov Grey, Charbel-Raphaël Segerie
September 5, 2025
[?]
phút đc
Xuất bản gốc tại
AI Safety Atlas
Cẩm nang đang trong quá trình hoàn thiện. Bạn có thể góp ý tại team@antoan.ai

Trong chương này

Trong thập kỷ qua, lĩnh vực trí tuệ nhân tạo (AI) đã trải qua một sự chuyển đổi sâu sắc, phần lớn nhờ vào những thành công trong học sâu. Những tiến bộ đáng chú ý này đã định nghĩa lại ranh giới của năng lực AI, thách thức nhiều quan niệm định sẵn về những gì máy móc có thể đạt được. Các phần sau đây trình bày chi tiết một số tiến bộ này.

Điểm kiểm tra của các hệ thống AI trên các năng lực khác nhau so với hiệu suất của con người. Trong mỗi lĩnh vực, hiệu suất ban đầu của AI được đặt ở mức –100. Hiệu suất của con người được sử dụng làm điểm chuẩn, đặt ở mức 0. Khi hiệu suất của AI vượt qua mức 0, có nghĩa là nó đã đạt được nhiều điểm hơn con người (Giattino et al., 2023).

Khi một tiêu chuẩn được công bố, thời gian để giải quyết nó sẽ ngày càng ngắn hơn. Điều này có thể minh họa cho sự tiến bộ nhanh chóng của AI và tại sao các tiêu chuẩn AI đang "bão hòa" và bắt đầu vượt qua hiệu suất của con người trong nhiều nhiệm vụ khác nhau. (Our World in Data, 2023)

Các lĩnh vực của các hệ thống trí tuệ nhân tạo theo năm xuất bản. Mô tả lĩnh vực, ứng dụng hoặc lĩnh vực cụ thể mà hệ thống AI được thiết kế để hoạt động. Một hệ thống AI có thể hoạt động trong nhiều lĩnh vực, do đó đóng góp vào số lượng của nhiều lĩnh vực (Giattino et al., 2023).

Ngôn ngữ

Hệ thống AI tối tân trong các bài kiểm tra kiến thức về mã hóa, toán học và ngôn ngữ. Hiệu suất mã hóa được đo lường bằng bài kiểm tra APPS; hiệu suất toán học được đo lường bằng bài kiểm tra MATH; và các bài kiểm tra kiến thức ngôn ngữ được đo lường bằng bài kiểm tra MMLU (Giattino et al., 2023).

Các tác vụ dựa trên ngôn ngữ. Đã có những thay đổi mang tính cách mạng trong các tác vụ xoay quanh trình tự và ngôn ngữ, chủ yếu nhờ sự phát triển của các mô hình ngôn ngữ lớn (LLMs). Các mô hình ngôn ngữ ban đầu vào năm 2018 gặp khó khăn trong việc xây dựng các câu mạch lạc. Sự phát triển từ những mô hình này thành các năng lực tiên tiến của GPT-3 (Generative Pre-Trained Transformer) và ChatGPT trong vòng chưa đầy 5 năm thực sự đáng chú ý. Các mô hình này không chỉ thể hiện khả năng tạo văn bản tốt hơn mà còn có thể trả lời các câu hỏi phức tạp bằng lý luận tinh tế, hợp lý. Hiệu suất của chúng trong các nhiệm vụ trả lời câu hỏi khác nhau, bao gồm cả những nhiệm vụ đòi hỏi tư duy chiến lược, thực sự rất ấn tượng.

Trái ngược với GPT-3 và các phiên bản tiếp theo chỉ có văn bản, GPT-4 hỗ trợ đa phương thức: nó được huấn luyện trên cả văn bản và hình ảnh. Điều này có nghĩa là giờ đây nó không chỉ có thể tạo văn bản dựa trên hình ảnh mà còn có được một số năng lực khác. GPT-4 có cửa sổ ngữ cảnh được nâng cấp với tối đa 32k token (token ≈ từ). Giới hạn bộ nhớ ngắn hạn của một mô hình ngôn ngữ lớn (LLM) có thể được hiểu là khả năng của mô hình trong việc lưu trữ thông tin từ các token trước đó trong một cửa sổ ngữ cảnh nhất định. GPT-4 được đào tạo thông qua dự đoán token tiếp theo (học tự giám sát tự hồi quy - autoregressive self-supervised learning). Năm 2018, GPT-1 chỉ có thể đếm đến 10, trong khi đến năm 2024, GPT-4 có thể thực hiện các chức năng lập trình phức tạp và nhiều tác vụ khác.

Enter image alt description
Danh sách các vấn đề "Chưa có giải pháp" [...] trong AI, trích từ "Lịch sử ngắn gọn về AI", xuất bản vào tháng 1 năm 2021 (Wooldridge, 2021). Nghiên cứu này từng nhận định rằng: "Hiện tại, chúng ta chưa biết tại sao máy tính có thể thực hiện các tác vụ ở cuối danh sách". Tuy nhiên, tất cả mọi thứ trong danh mục "Chưa có giải pháp" đã được GPT-4 giải quyết (Bubeck et al., 2023), ngoại trừ trí thông minh tổng quát ở mức độ con người.

Mở rộng quy mô. Điều đáng chú ý là GPT-4 được huấn luyện bằng các phương pháp gần giống với GPT-1, 2 và 3. Điểm khác biệt duy nhất nằm ở kích thước của mô hình và dữ liệu được cung cấp trong quá trình huấn luyện. Kích thước của mô hình đã tăng từ 1,5 tỷ tham số lên hàng trăm tỷ tham số, và các tập dữ liệu cũng trở nên lớn hơn và đa dạng hơn.

Enter image alt description
AI đang phát triển nhanh như thế nào? (AI Digest, 2023)

Chúng tôi đã quan sát thấy rằng chỉ riêng việc mở rộng quy mô đã góp phần nâng cao hiệu suất, bao gồm các cải tiến trong khả năng tạo ra các phản hồi phù hợp với ngữ cảnh và văn bản rất đa dạng trong nhiều lĩnh vực. Điều này cũng góp phần cải thiện chất lượng hiếu biết và độ mạch lạc của văn bản. Hầu hết những tiến bộ trong các phiên bản GPT đều đến từ việc tăng kích thước và sức mạnh tính toán của các mô hình, chứ không phải từ những thay đổi cơ bản trong kiến trúc hoặc quá trình huấn luyện.

Dưới đây là một số năng lực đã xuất hiện trong vài năm qua:

  • Học với ít và không cần ví dụ. Khả năng của mô hình trong việc hiểu và thực hiện các nhiệm vụ với ít hoặc không có ví dụ trước đó. 'Few-shot' có nghĩa là hoàn thành nhiệm vụ sau khi đã xem một vài ví dụ trong cửa sổ ngữ cảnh, trong khi 'Zero-shot' chỉ việc thực hiện nhiệm vụ mà không có bất kỳ ví dụ cụ thể nào (Anthropic, 2022). Điều này cũng bao gồm năng lực suy luận, tức là xác định các mẫu và quy tắc tổng quát không có trong quá trình đào tạo, mà chỉ có trong cửa sổ ngữ cảnh hiện tại (Brown et al., 2020).
  • Siêu nhận thức. Đây là khả năng nhận ra kiến thức và hạn chế của bản thân mô hình, ví dụ như có thể biết xác suất của sự thật (Kadavath, 2022).
  • Lý thuyết về tâm trí. Khả năng gán trạng thái tinh thần cho bản thân và người khác, giúp dự đoán hành vi và phản ứng của con người để có những tương tác tinh tế hơn (Kosinski 2023; Xu et al., 2024).
  • Sử dụng công cụ. Khả năng tương tác với các công cụ bên ngoài, như sử dụng máy tính hoặc duyệt internet, mở rộng khả năng giải quyết vấn đề (Qin et al., 2023).
  • Tự sửa lỗi. Khả năng của mô hình trong việc nhận diện và sửa chữa lỗi của chính mình, điều này rất quan trọng để cải thiện độ chính xác của nội dung do AI tạo ra (Shinn et al., 2023).
Enter image alt description
Một ví dụ về bài toán toán học được GPT-4 giải bằng phương pháp Chuỗi suy nghĩ (CoT) (Bubeck et al., 2023)
  • Khả năng suy luận. Những tiến bộ trong LLMs cũng dẫn đến những cải tiến đáng kể trong khả năng xử lý và tạo ra chuỗi suy luận logic. Điều này đặc biệt quan trọng trong các nhiệm vụ giải quyết vấn đề, nơi không có câu trả lời trực tiếp và cần có quá trình suy luận từng bước. (Bubeck et al., 2023)
  • Khả năng lập trình. Trong lập trình, các mô hình AI đã phát triển từ tự động hoàn thành code cơ bản sang viết các chương trình phức tạp.
  • Khả năng khoa học và toán học. Trong toán học, AI đã hỗ trợ trong lĩnh vực chứng minh định lý tự động trong nhiều thập kỷ. Các mô hình hiện nay tiếp tục hỗ trợ giải quyết các vấn đề phức tạp. AI thậm chí có thể đạt được huy chương vàng trong Olympic Toán học bằng cách giải các bài toán hình học (Trinh et al., 2024).
Enter image alt description
Lưu ý sự tăng vọt đáng kể từ GPT-3.5 lên GPT-4 về tỷ lệ phần trăm con người trong các bài kiểm tra này, thường từ mức thấp hơn trung bình con người lên đến mức cao nhất trong phạm vi con người. (Aschenbrenner, 2024; OpenAI, 2023). Hãy nhớ rằng sự tăng vọt từ GPT-3 lên GPT-4 chỉ diễn ra trong vòng một năm.

Tạo hình ảnh

Bước tiến dài trong lĩnh vực tạo hình ảnh không chỉ nằm ở độ chính xác, mà còn ở khả năng xử lý các hình ảnh phức tạp trong thế giới thực. Khả năng này, đặc biệt là với sự ra đời của Mạng đối nghịch tạo sinh (GAN) vào năm 2014, đã cho thấy tốc độ phát triển đáng kinh ngạc. Chất lượng hình ảnh do AI tạo ra đã phát triển từ những hình ảnh đơn giản, mờ nhạt đến những cảnh rất chi tiết và sáng tạo, phần lớn là để đáp ứng các yêu cầu bằng ngôn ngữ phức tạp.

Enter image alt description
Một ví dụ về nhận dạng hình ảnh tối tân. Mô hình Segment Anything Model (SAM) của phòng thí nghiệm FAIR (Fundamental AI Research) thuộc Meta có thể phân loại và phân đoạn dữ liệu hình ảnh với độ chính xác cao. Việc phát hiện được thực hiện mà không cần chú thích hình ảnh. (Viso AI, 2024; Meta, 2023)
Enter image alt description
Một ví dụ về sự phát triển của việc tạo ra hình ảnh. Ở trên cùng bên trái, bắt đầu từ GAN (Mạng đối nghịch tạo sinh) đến dưới cùng bên phải, một hình ảnh từ MidJourney V5.

Tốc độ phát triển trong vòng một năm thực sự đáng kinh ngạc, thể hiện rõ qua sự cải tiến từ phiên bản V1 của mô hình tạo hình ảnh MidJourney vào đầu năm 2022 đến phiên bản V6 vào tháng 12 năm 2023.

Enter image alt description
Tạo hình ảnh bằng trí tuệ nhân tạo MidJourney trong giai đoạn 2022-2023. Yêu cầu: Ảnh chất lượng cao của một phụ nữ Nhật Bản trẻ tuổi đang cười, ánh sáng ngược, ánh sáng tự nhiên nhạt, máy ảnh phim, do Rinko Kawauchi chụp, HDR (Yap, 2024).

Đa phương tiện và phối hợp đa phương tiện

Hệ thống AI đang ngày càng trở nên đa phương tiện. Điều này có nghĩa là chúng có thể xử lý hình ảnh, văn bản, âm thanh, thị giác và robot bằng cùng một mô hình. Do đó, chúng được huấn luyện bằng nhiều "chế độ" khác nhau và có thể dịch giữa các chế độ sau khi triển khai.

Phối hợp đa phương tiện. Một mô hình được gọi là phối hợp đa phương tiện khi đầu vào của mô hình ở một phương tiện (ví dụ: văn bản) và đầu ra ở một phương tiện khác (ví dụ: hình ảnh). Phần về thị giác máy tính cho thấy sự tiến bộ nhanh chóng trong phối hợp đa phương tiện từ năm 2014 đến năm 2020. Chúng ta đã đi từ các mô hình chuyển đổi văn bản thành hình ảnh chỉ có khả năng tạo ra hình ảnh khuôn mặt pixel đen trắng, đến các mô hình có khả năng tạo ra hình ảnh từ bất kỳ văn bản nào. Các ví dụ khác về phối hợp đa phương tiện bao gồm OpenAIs Whisper (Radford et al., 2022) có khả năng chuyển đổi giọng nói thành văn bản.

Đa phương tiện. Một mô hình được gọi là đa phương tiện khi cả đầu vào và đầu ra của mô hình có thể ở nhiều hơn một phương tiện. Ví dụ: âm thanh sang văn bản, video sang văn bản, văn bản sang hình ảnh, v.v…

Enter image alt description
Đa phương tiện hình ảnh-văn bản và văn bản-hình ảnh từ mô hình Flamingo (Alayrac et al., 2022).

Mô hình Flamingo 2022 của DeepMind có thể "nhanh chóng thích ứng với các nhiệm vụ hiểu hình ảnh/video khác nhau" và "cũng có khả năng đối thoại trực quan đa hình ảnh". (Alayrac et al., 2022) Tương tự, mô hình Gato 2022 của DeepMind được gọi là "Tác nhân tổng hợp". Đây là một mạng đơn với cùng trọng số có thể "chơi Atari, chú thích hình ảnh, trò chuyện, xếp khối bằng cánh tay robot thực và nhiều hơn nữa". (Reed et al., 2022) Tiếp tục xu hướng này, mô hình Google Gemini 2023 của DeepMind có thể được gọi là Mô hình đa phương tiện lớn (LMM). Bài báo mô tả Gemini là "đa phương tiện bẩm sinh" và tuyên bố có thể "kết hợp liền mạch các năng lực của mình trên các phương tiện (ví dụ: trích xuất thông tin và bố cục không gian từ bảng, biểu đồ hoặc hình vẽ) với năng lực suy luận mạnh mẽ của mô hình ngôn ngữ (ví dụ: hiệu suất tối tân trong toán học và mã hóa)" (Google, 2024)

Công nghệ robot

Số lượng robot phục vụ chuyên nghiệp được lắp đặt hàng năm trên toàn cầu, theo lĩnh vực ứng dụng. Robot phục vụ chuyên nghiệp là những máy móc bán tự động hoặc hoàn toàn tự động thực hiện các nhiệm vụ hữu ích trong môi trường chuyên nghiệp ngoài các ứng dụng công nghiệp, chẳng hạn như dọn dẹp hoặc phẫu thuật y tế. Robot phục vụ người tiêu dùng không được tính vào đây. (Giattino et al., 2023)

Lĩnh vực công nghệ robot cũng đang phát triển song song với trí tuệ nhân tạo. Trong phần này, chúng tôi cung cấp một số ví dụ về sự kết hợp giữa hai lĩnh vực này, trong đó đề cập đến một số robot sử dụng kỹ thuật học máy để phát triển.

Enter image alt description
Các nhà nghiên cứu đã sử dụng Học tăng cường không dựa trên mô hình (Model-Free Reinforcement Learning) để tự động học cách di chuyển bốn chân trong chỉ 20 phút trong môi trường thực tế thay vì trong môi trường mô phỏng. Ảnh minh họa các bước đi đã học được trên nhiều địa hình thực tế khác nhau (Smith et al., 2022).
Số lượng robot công nghiệp được lắp đặt hàng năm tại năm quốc gia hàng đầu. Robot công nghiệp là những máy móc tự động, có thể lập trình lại, thực hiện nhiều nhiệm vụ khác nhau trong môi trường công nghiệp (Giattino et al., 2023).

Những tiến bộ trong công nghệ robot. Đi đầu trong những tiến bộ về robot là PaLM-E, một mô hình đa năng với 562 tỷ tham số, tích hợp dữ liệu thị giác, ngôn ngữ và robot để điều khiển bộ điều khiển thời gian thực và xuất sắc trong các tác vụ ngôn ngữ liên quan đến suy luận địa lý (Driess et al., 2023).

Đồng thời, sự phát triển của các mô hình thị giác-ngôn ngữ đã dẫn đến những đột phá trong việc điều khiển robot với độ chính xác cao, với các mô hình như RT-2 thể hiện năng lực đáng kể trong thao tác đồ vật và suy luận đa phương tiện. RT-2 chứng minh tại sao chúng ta có thể sử dụng các phương pháp lấy cảm hứng từ việc tạo câu lệnh LLM (với khả năng chuỗi suy nghĩ) để học một mô hình độc lập có thể lập kế hoạch các chuỗi kỹ năng dài hạn và dự đoán hành động của robot (Brohan et al., 2023).

Mobile ALOHA là một ví dụ khác về việc kết hợp các kỹ thuật học máy hiện đại với công nghệ robot. Được huấn luyện bằng phương pháp nhân bản hành vi có giám sát, robot có thể tự động thực hiện các tác vụ phức tạp "như xào và phục vụ một con tôm, mở tủ tường hai cửa để cất nồi nấu ăn cồng kềnh, gọi và vào thang máy, và rửa sơ qua chảo đã sử dụng bằng vòi nước nhà bếp" (Fu et al., 2024). Những tiến bộ này không chỉ chứng tỏ sự tinh vi và khả năng ứng dụng ngày càng cao của các hệ thống robot, mà còn nêu bật tiềm năng phát triển đột phá hơn nữa của các công nghệ tự động.

Enter image alt description
DeepMinds RT-2 có thể lập kế hoạch chuỗi kỹ năng dài hạn và dự đoán hành động của robot bằng cách sử dụng kỹ thuật tạo câu lệnh cho LLM (chuỗi suy nghĩ) (Brohan et al., 2023).

Video giới thiệu một ví dụ về tình trạng hiện tại của công nghệ robot.

Chơi trò chơi

AI và board game. AI đã đạt được những tiến bộ liên tục trong lĩnh vực chơi game trong nhiều thập kỷ qua. Bắt đầu từ việc AI đánh bại nhà vô địch thế giới cờ vua vào năm 1997, Scrabble vào năm 2006 đến DeepMind’s AlphaGo vào năm 2016 (DeepMind, 2016), đủ giỏi để đánh bại nhà vô địch thế giới trong trò chơi Go, một trò chơi được cho là cực kỳ khó đối với AI. Chỉ trong vòng một năm, mô hình tiếp theo AlphaGo Zero, được đào tạo thông qua tự chơi, đã thành thạo nhiều trò chơi cờ vây, cờ vua và shogi, đạt đến trình độ vượt trội so với con người sau chưa đầy ba ngày đào tạo (Silver et al., 2017).

AI và trò chơi điện tử. Các nhà nghiên cứu bắt đầu áp dụng các kỹ thuật học máy trên các trò chơi Atari đơn giản vào năm 2013 (Mnih et al. 2013). Đến năm 2019, OpenAI Five đã đánh bại các nhà vô địch thế giới trong DOTA2 (OpenAI, 2019), trong khi cùng năm đó, AlphaStar của DeepMind đã đánh bại các game thủ chuyên nghiệp trong StarCraft II (DeepMind, 2019).  Cả hai trò chơi này đều yêu cầu hàng ngàn hành động liên tiếp với số lượng hành động mỗi phút rất cao. Trong mô hình DeepMind MuZero năm 2020, được mô tả là "một bước tiến quan trọng trong việc theo đuổi các thuật toán đa năng" (DeepMind, 2020), có thể chơi các trò chơi Atari, cờ vây, cờ vua và shogi mà không cần được dạy luật chơi.

Trong những năm gần đây, năng lực của AI đã mở rộng sang các trò ch7i môi trường mở như Minecraft, thể hiện khả năng thực hiện các chuỗi hành động phức tạp. Trong các trò chơi chiến lược, Cicero của Meta đã thể hiện kỹ năng đàm phán chiến lược và lừa gạt phức tạp bằng ngôn ngữ tự nhiên trong trò chơi Diplomacy (Bakhtin et al., 2022).

Enter image alt description
Bản đồ ngoại giao và hộp thoại nơi AI tiến hành đàm phán (DiploStrats (YouTube), 2022).
Chương 1.2: Mô hình nền tảng
Tiếp tục