antoan.ai

Nghiên cứu kỹ thuật an toàn AI

Tiến bộ trong trí tuệ nhân tạo (AI) — mặc dù có thể mang lại lợi ích to lớn — cũng đi kèm với những rủi ro đáng kể. Những rủi ro mà chúng tôi đã lập luận có thể mang tính tồn vong.

Nhưng những rủi ro này có thể được giải quyết.

Với những tiến bộ mới trong an toàn AI, chúng ta có cơ hội phát triển AI vì lợi ích chung: những hệ thống an toàn, đạo đức và mang lại lợi ích cho tất cả mọi người.

Tóm tắt:

Trí tuệ nhân tạo (AI) sẽ có tác động biến đổi sâu sắc đến xã hội trong những thập kỷ tới, mang lại những lợi ích to lớn — nhưng chúng tôi cũng nhận định rằng tồn tại rủi ro đáng kể. Một hướng tiếp cận đầy hứa hẹn để giảm thiểu nguy cơ thảm họa liên quan đến AI là tìm kiếm các giải pháp kỹ thuật cho phép ngăn chặn hệ thống AI thực hiện hành vi nguy hiểm.

Ưu điểm

Cơ hội đóng góp đáng kể vào một lĩnh vực nghiên cứu có tầm quan trọng vô cùng lớn
Công việc mang tính thách thức trí tuệ và thú vị
Lĩnh vực này có nhu cầu cao về các nhà nghiên cứu và kỹ sư có kỹ năng, nhưng lại bị thiếu quan tâm đáng kể

Nhược điểm

Do thiếu hụt nhà quản lý, việc tìm việc làm có thể khó khăn và có thể mất thời gian để xây dựng vốn nghề nghiệp và chuyên môn cần thiết
Bạn cần có nền tảng định lượng vững chắc
Có thể rất khó để tìm ra giải pháp
Có nguy cơ thực sự gây hại

Bạn cần có nền tảng định lượng và nên thích lập trình. Nếu bạn chưa từng thử lập trình, bạn có thể phù hợp nếu có khả năng phân tích vấn đề thành các phần logic, đưa ra và kiểm tra giả thuyết, sẵn sàng thử nhiều giải pháp khác nhau, và có sự chú ý cao đến chi tiết.

Nếu bạn đã:

Là một kỹ sư phần mềm giỏi, bạn có thể ứng tuyển vào các vị trí đóng góp nghiên cứu thực nghiệm ngay lập tức (kể cả khi không có nền tảng học máy, mặc dù điều đó có lợi)
Có thể theo học tiến sĩ học máy tại một trường top 10, điều này sẽ giúp bạn trở thành nhà nghiên cứu chính
Có nền tảng toán học hoặc khoa học máy tính lý thuyết rất mạnh, bạn có thể phù hợp với nghiên cứu định hướng lý thuyết.

Được khuyến nghị

Nếu bạn phù hợp với nghề nghiệp này, đây có thể là cách tốt nhất để bạn tạo ra tầm ảnh hưởng xã hội.

Tình trạng đánh giá

Dựa trên một cuộc điều tra có độ sâu trung bình

Xin cảm ơn Adam Gleave, Jacob Hilton và Rohin Shah đã xem xét bài viết này. Và xin cảm ơn Charlie Rogers-Smith vì sự giúp đỡ của anh, cũng như bài viết của anh về chủ đề này — How to pursue a career in technical AI alignment.

Tại sao nghiên cứu kỹ thuật về an toàn AI có tầm ảnh hưởng lớn

Như chúng tôi đã lập luận, trong vài thập kỷ tới, chúng ta có thể chứng kiến sự phát triển của các hệ thống AI cực kỳ mạnh mẽ có tiềm năng thay đổi xã hội. Sự thay đổi này có thể mang lại những lợi ích to lớn — nhưng chỉ khi chúng ta tránh được các rủi ro.

Chúng tôi cho rằng những rủi ro tồi tệ nhất từ các hệ thống AI chủ yếu xuất phát từ việc các hệ thống này có thể bị mất căn chỉnh — tức là chúng sẽ hướng đến việc thực hiện những điều mà chúng ta không mong muốn. Đặc biệt, chúng tôi cho rằng chúng có thể bị mất căn chỉnh đến mức phát triển (và thực thi) các kế hoạch đe dọa khả năng của nhân loại trong việc ảnh hưởng đến thế giới, ngay cả khi chúng ta không muốn mất đi khả năng đó.

Chúng tôi cho rằng điều này có nghĩa là các hệ thống tương lai này đặt ra một mối đe dọa tồn vong đối với văn minh.

Ngay cả khi chúng ta tìm ra cách ngăn chặn hành vi tìm kiếm quyền lực này, vẫn còn những rủi ro đáng kể — như việc lợi dụng sai mục đích bởi chính phủ hoặc cá nhân khác — mà bản thân chúng cũng có thể là mối đe dọa tồn vong.

Có nhiều cách để chúng ta có thể giảm thiểu rủi ro mà các hệ thống AI này có thể gây ra. Tuy nhiên, một trong những phương pháp hứa hẹn nhất có thể là nghiên cứu các giải pháp kỹ thuật nhằm ngăn chặn hành vi không mong muốn — bao gồm cả hành vi mất căn chỉnh — từ các hệ thống AI. (Tìm ra cách kỹ thuật để ngăn chặn sự mất căn chỉnh cụ thể được gọi là "vấn đề căn chỉnh AI").

Trong vài năm qua, chúng ta đã chứng kiến nhiều tổ chức bắt đầu xem xét nghiêm túc hơn các rủi ro này. Nhiều công ty hàng đầu phát triển AI — bao gồm Google DeepMind và OpenAI — có các đội ngũ chuyên trách tìm kiếm các giải pháp này, cùng với các nhóm nghiên cứu học thuật tại MIT, Cambridge, Carnegie Mellon University và UC Berkeley.

Tuy nhiên, lĩnh vực này vẫn còn rất mới mẻ. Chúng tôi ước tính vào năm 2022 rằng chỉ có khoảng 300 người đang làm việc trên các phương pháp kỹ thuật để giảm thiểu rủi ro hiện sinh từ hệ thống AI,¹ khiến đây trở thành một lĩnh vực thiếu quan tâm nghiêm trọng.

Tìm kiếm các giải pháp kỹ thuật để giảm thiểu rủi ro này có vẻ khá thách thức. Bất kỳ giải pháp nào có tính ứng dụng thực tiễn đều phải duy trì tính hữu ích của hệ thống (có nghĩa là cách giải pháp an toàn này, khi áp dụng vào hệ thống, thì hệ thống này vẫn cạnh tranh về mặt kinh tế so với các hệ thống kém an toàn hơn) và tiếp tục hoạt động hiệu quả khi hệ thống được cải tiến theo thời gian (tức là phải có khả năng mở rộng). Như chúng tôi đã lập luận trong bản mô tả vấn đề, có vẻ như việc tìm ra các giải pháp khả thi, đặc biệt là cho các hệ thống học máy (ML) hiện đại, là một thách thức lớn.

(Nếu bạn không biết gì về ML, chúng tôi đã viết một giới thiệu rất ngắn gọn về ML, và chúng tôi sẽ đi vào chi tiết hơn về cách học ML sau trong bài viết này. Nếu bạn đã có kinh nghiệm về ML, hãy liên hệ với đội ngũ 80,000 Hours — họ có thể cung cấp lời khuyên nghề nghiệp cá nhân, giới thiệu bạn với những người khác đang làm việc về các vấn đề này, và thậm chí có thể giúp bạn tìm việc làm hoặc cơ hội tài trợ.)

Mặc dù có vẻ khó khăn, nhưng vẫn có nhiều hướng nghiên cứu tiềm năng — và lĩnh vực này thực sự còn rất trẻ, nên luôn có những hướng nghiên cứu mới đầy hứa hẹn xuất hiện liên tục. Vì vậy, chúng tôi cho rằng vấn đề này có khả năng giải quyết được, dù chúng tôi vẫn còn rất nhiều nghi ngờ.

Thực tế, chúng tôi không chắc chắn về tất cả những điều này và đã viết rất nhiều về lý do tại sao chúng tôi có thể sai về rủi ro từ AI.

Tuy nhiên, nhìn chung, chúng tôi cho rằng — nếu đây là lĩnh vực phù hợp với bạn — việc tham gia nghiên cứu kỹ thuật về an toàn AI có thể là việc có tầm ảnh hưởng lớn nhất mà bạn có thể làm trong sự nghiệp của mình.

Con đường này bao gồm những gì?

Nghiên cứu kỹ thuật về an toàn AI thường bao gồm công việc của một nhà khoa học hoặc kỹ sư tại các công ty AI lớn, trong môi trường học thuật hoặc tại các tổ chức phi lợi nhuận độc lập.

Các vị trí này thường rất khó để đạt được. Bạn có thể cần phải tích lũy vốn nghề nghiệp trước khi có thể đảm nhận một vị trí có tầm ảnh hưởng lớn (sẽ được đề cập chi tiết hơn trong phần cách tham gia). Tuy nhiên, bạn có thể không cần phải dành quá nhiều thời gian để xây dựng vốn nghề nghiệp này — chúng tôi đã chứng kiến những người tài năng xuất sắc chuyển sang lĩnh vực an toàn AI từ các lĩnh vực định lượng khác, đôi khi chỉ trong vòng chưa đầy một năm.

Hầu hết nghiên cứu kỹ thuật về an toàn AI nằm trên một phổ giữa nghiên cứu thực nghiệm (thử nghiệm với các hệ thống hiện có để tìm hiểu thêm về những gì có thể hoạt động) và nghiên cứu lý thuyết (nghiên cứu khái niệm và toán học nhằm đảm bảo rằng các hệ thống AI trong tương lai sẽ an toàn).

Dù bạn làm việc ở đâu trên phổ này, con đường sự nghiệp của bạn có thể khác nhau tùy thuộc vào mục tiêu của bạn: trở thành nhà lãnh đạo nghiên cứu — đề xuất dự án, quản lý đội ngũ và định hướng — hoặc trở thành nhà đóng góp — tập trung vào thực hiện nghiên cứu.

Cuối cùng, có hai vai trò có chút khác biệt mà bạn có thể hướng tới:

Trong lĩnh vực học thuật, nghiên cứu thường do các giáo sư dẫn dắt — đặc điểm nổi bật nhất của một giáo sư là bạn cũng sẽ giảng dạy các lớp học và hướng dẫn sinh viên cao học (và bạn chắc chắn cần có bằng tiến sĩ).

Nhiều (nhưng không phải tất cả) vai trò đóng góp trong nghiên cứu thực nghiệm cũng là kỹ sư, thường là kỹ sư phần mềm. Ở đây, chúng tôi tập trung vào các vai trò phần mềm trực tiếp đóng góp cho nghiên cứu an toàn AI (và thường yêu cầu một số kiến thức về học máy) — chúng tôi đã viết về kỹ thuật phần mềm nói chung trong một bài đánh giá nghề nghiệp riêng.

4 kinds of AI safety role: empirical lead, empirical contributor, theoretical lead and theoretical contributor

‍

Chúng tôi cho rằng các vai trò lãnh đạo nghiên cứu có thể có tầm ảnh hưởng lớn hơn nói chung. Tuy nhiên, tầm ảnh hưởng mà bạn có thể tạo ra trong bất kỳ vai trò nào trong số này chủ yếu phụ thuộc vào sự phù hợp cá nhân của bạn với vai trò đó — xem phần về cách dự đoán sự phù hợp của bạn trước.

Tiếp theo, chúng ta sẽ xem xét những gì công việc trong từng con đường có thể bao gồm. Sau đó, chúng ta sẽ tìm hiểu cách bạn có thể tham gia vào từng con đường.

Công việc trong lĩnh vực an toàn AI dựa trên thực nghiệm bao gồm những gì?

An toàn AI dựa trên thực nghiệm thường liên quan đến các nhóm làm việc trực tiếp với các mô hình học máy (ML) để xác định các rủi ro tiềm ẩn và phát triển các phương pháp để giảm thiểu chúng.

Điều này có nghĩa là công việc tập trung vào các kỹ thuật học máy hiện tại và các kỹ thuật có thể được áp dụng trong tương lai gần.

Trên thực tế, làm việc trong lĩnh vực an toàn AI dựa trên thực nghiệm đòi hỏi nhiều công việc lập trình và kỹ thuật học máy. Ví dụ, bạn có thể đề xuất các phương pháp để kiểm tra tính an toàn của các hệ thống AI hiện có, sau đó thực hiện các thử nghiệm thực nghiệm.

Bạn có thể tìm thấy các vị trí trong lĩnh vực an toàn AI thực nghiệm trong ngành công nghiệp và học thuật, cũng như một số vị trí trong các tổ chức phi lợi nhuận tập trung vào an toàn AI.

Đặc biệt trong học thuật, nhiều công việc liên quan không được gắn nhãn rõ ràng là tập trung vào rủi ro hiện sinh — nhưng vẫn có thể rất giá trị. Ví dụ, công việc trong các lĩnh vực như diễn giải AI, ví dụ đối kháng, chẩn đoán và học lén, cùng các lĩnh vực khác, có thể rất liên quan đến việc giảm thiểu nguy cơ thảm họa liên quan đến AI.

Chúng tôi cũng rất hào hứng với các nghiên cứu thử nghiệm nhằm phát triển các tiêu chuẩn an toàn AI mà các công ty AI có thể tuân thủ trong tương lai — ví dụ như công việc đang được thực hiện bởi METR.

Để tìm hiểu thêm về các loại nghiên cứu đang được tiến hành tại các công ty và phòng thí nghiệm tập trung vào an toàn AI dựa trên dữ liệu thực tế, hãy tham khảo:

Mặc dù lập trình là trung tâm của tất cả các công việc thực nghiệm, nhưng các vị trí lãnh đạo nghiên cứu thường sẽ ít tập trung vào lập trình; thay vào đó, họ cần có khả năng lựa chọn nghiên cứu tốt hơn và hiểu biết lý thuyết sâu sắc. Ngược lại, các nhà nghiên cứu đóng góp cần phải rất giỏi lập trình và kỹ thuật phần mềm.

Con đường an toàn AI dựa trên lý thuyết bao gồm những gì?

An toàn AI dựa trên lý thuyết mang tính khái niệm và toán học cao hơn nhiều. Thường nó liên quan đến việc suy luận cẩn thận về hành vi giả định của các hệ thống AI trong tương lai.

Mục tiêu chung là xác định các tính chất mà các thuật toán học máy an toàn nên có. Sau khi có các tính chất này, bạn có thể phát triển các thuật toán có các tính chất đó (lưu ý rằng để có tính ứng dụng thực tế, các thuật toán này phải được đưa vào sử dụng trong thực tế). Hoặc, bạn có thể phát triển các phương pháp để kiểm tra xem các hệ thống có các tính chất đó hay không. Các kiểm tra này có thể giúp đảm bảo các sản phẩm AI trong tương lai đáp ứng các tiêu chuẩn an toàn cao.

Nhiều nhà nghiên cứu trong lĩnh vực an toàn AI lý thuyết dành phần lớn thời gian để chứng minh định lý hoặc phát triển các khung toán học mới. Các tiếp cận mang tính khái niệm hơn cũng tồn tại, mặc dù chúng vẫn thường dựa nhiều vào các khung chuẩn mực.

Một số ví dụ về nghiên cứu trong lĩnh vực an toàn AI lý thuyết bao gồm:

Rủi ro từ tối ưu hóa học máy trong các hệ thống học máy tiên tiến của Hubinger et al.
Khai thác kiến thức tiềm ẩn của Christiano, Cotra và Xu.
Hình thức hóa giả định độc lập của Christiano, Neyman và Xu
Phát hiện các tác nhân của Kenton et al.
Học thưởng tích cực từ nhiều giáo viên của Barnett et al.

Thông thường có ít vị trí hơn trong công việc an toàn AI lý thuyết, đặc biệt là với vai trò đóng góp nghiên cứu. Các vai trò đóng góp nghiên cứu lý thuyết tồn tại tại các tổ chức phi lợi nhuận (chủ yếu là Alignment Research Center), cũng như tại một số phòng thí nghiệm (ví dụ: công việc của Anthropic về điều kiện hóa mô hình dự đoán và Causal Incentives Working Group tại Google DeepMind). Hầu hết các vai trò đóng góp trong an toàn AI lý thuyết có thể tồn tại trong học thuật (ví dụ: sinh viên tiến sĩ trong các nhóm làm việc trên các dự án liên quan đến an toàn AI lý thuyết).

Một số phương pháp tiếp cận thú vị về an toàn AI

Hiện nay có rất nhiều phương pháp kỹ thuật về an toàn AI đang được nghiên cứu. Dưới đây là một số ví dụ:

Học từ phản hồi của con người một cách có thể mở rộng. Các ví dụ bao gồm tăng cường lặp lại, an toàn AI thông qua tranh luận, xây dựng trợ lý AI không chắc chắn về mục tiêu của chúng ta và học chúng thông qua tương tác với chúng ta, và các cách khác để khiến hệ thống AI báo cáo trung thực những gì chúng biết.
Mô hình mối đe dọa. Một ví dụ về công việc này là chứng minh năng lực (cho phép chúng ta nghiên cứu) các năng lực nguy hiểm, như các hệ thống AI lừa dối hoặc thao túng. Phương pháp này chia thành hai phần: đánh giá xem mô hình có năng lực nguy hiểm (như công trình của METR trong đánh giá GPT-4) và đánh giá xem mô hình có gây hại trong thực tế hay không (như nghiên cứu của Anthropic về hành vi của các mô hình ngôn ngữ lớn và bài báo này về sự sai lệch mục tiêu). Nó cũng có thể bao gồm công việc để tìm 'các mô hình sinh vật của mất căn chỉnh', với hy vọng hiểu rõ hơn về nguy hiểm của chúng.
Công việc tìm hiểu cách kiểm soát các hệ thống AI mạnh mẽ – ngăn chặn chúng gây hại ngay cả khi chúng không an toàn. Đọc thêm trong bài viết trên blog của nhóm Redwood Research về kiểm soát.
Nghiên cứu diễn giải. Công việc này bao gồm việc nghiên cứu tại sao các hệ thống AI làm những gì chúng làm và cố gắng diễn giải điều đó thành các thuật ngữ mà con người có thể hiểu. Ví dụ, bài báo này đã phân tích cách AlphaZero học cờ vua, và bài báo này đã nghiên cứu việc tìm kiếm kiến thức tiềm ẩn trong các mô hình ngôn ngữ mà không cần giám sát. Danh mục này cũng bao gồm diễn giải cơ chế — ví dụ, Zoom In: An Introduction to Circuits của Olah et al.. Để biết thêm thông tin, xem bài báo tổng quan này, cũng như cây công nghệ về minh bạch và khả năng diễn giải của Hubinger, và danh sách dài các lý thuyết về tầm ảnh hưởng của khả năng diễn giải của Nanda để có cái nhìn tổng quan về cách nghiên cứu khả năng diễn giải có thể giảm thiểu rủi ro hiện sinh từ AI.
Nghiên cứu chống lợi dụng sai mục đích khác để giảm thiểu rủi ro thảm họa do lợi dụng hệ thống. Ví dụ, công việc này bao gồm đào tạo AI để chúng khó bị sử dụng cho mục đích nguy hiểm. (Lưu ý có nhiều điểm trùng lặp với các công trình khác trong danh sách này).
Nghiên cứu để tăng cường độ bền vững của mạng thần kinh. Công trình này nhằm đảm bảo rằng các hành vi mà mạng thần kinh thể hiện khi tiếp xúc với một tập dữ liệu đầu vào cụ thể vẫn được duy trì khi tiếp xúc với các đầu vào mà chúng chưa từng gặp trước đó, nhằm ngăn chặn hệ thống AI thay đổi sang hành vi không an toàn. Xem phần 2 của Vấn đề chưa giải quyết trong an toàn AI để biết thêm chi tiết.
Công việc xây dựng AI hợp tác. Tìm cách đảm bảo rằng ngay cả khi các hệ thống AI riêng lẻ có vẻ an toàn, chúng không tạo ra kết quả xấu thông qua tương tác với các hệ thống xã hội-kỹ thuật khác. Để biết thêm thông tin, xem "Open Problems in Cooperative AI" của Dafoe et al. hoặc "nền tảng hợp tác AI". Điều này đặc biệt liên quan đến việc giảm thiểu "nguy cơ đau khổ quy mô vũ trụ".
Một cách tổng quát hơn, có một số kế hoạch an toàn thống nhất. Để biết thêm chi tiết, xem 11 đề xuất khả thi của Hubinger về việc xây dựng AI tiên tiến an toàn, hoặc bài viết "Làm thế nào chúng ta có thể điều chỉnh AI biến đổi nếu nó được phát triển rất sớm" của Karnofsky.

Đáng chú ý là có rất nhiều phương pháp tiếp cận an toàn AI, và các chuyên gia trong lĩnh vực này có những quan điểm trái chiều mạnh mẽ về những biện pháp nào sẽ hiệu quả hay không.

Điều này có nghĩa là, khi bạn đã làm việc trong lĩnh vực này, việc giữ thái độ cởi mở và thận trọng, không vội vàng kết luận rằng công trình của người khác là vô ích chỉ vì nó có vẻ không thuyết phục sau một cái nhìn sơ bộ, là điều đáng giá. Bạn cũng nên giữ thái độ không chắc chắn về chính hướng nghiên cứu của mình.

Hơn nữa, như chúng tôi đã đề cập trước đó, rất nhiều công trình nghiên cứu liên quan trong tất cả các lĩnh vực này không được gắn nhãn rõ ràng là "an toàn".

Do đó, điều quan trọng là phải suy nghĩ kỹ lưỡng về cách thức hoặc liệu bất kỳ nghiên cứu cụ thể nào có thể giúp giảm thiểu rủi ro mà các hệ thống AI có thể gây ra hay không.

Những nhược điểm của con đường sự nghiệp này là gì?

Nghiên cứu kỹ thuật về an toàn AI không phải là cách duy nhất để giảm thiểu rủi ro mà các hệ thống AI trong tương lai có thể gây ra. Ngoài ra, còn có rất nhiều vấn đề cấp bách khác trên thế giới mà không liên quan đến khả năng xảy ra thảm họa liên quan đến AI, và có rất nhiều nghề nghiệp có thể giúp giải quyết những vấn đề đó. Nếu bạn thấy mình phù hợp hơn với công việc khác, bạn nên làm điều đó.

Ngoài sự phù hợp cá nhân, còn có một số nhược điểm khác của con đường sự nghiệp này:

Việc tham gia vào lĩnh vực này có thể rất cạnh tranh (mặc dù một khi đã vào, công việc được trả lương cao và có nhiều lựa chọn dự phòng).
Bạn cần kỹ năng định lượng — và có thể cả kỹ năng lập trình.
Công việc tập trung chủ yếu ở một số khu vực (chủ yếu là Vùng Vịnh California và London, nhưng cũng có cơ hội ở các nơi có trường đại học hàng đầu như Oxford, New York, Pittsburgh và Boston). Tuy nhiên, làm việc từ xa ngày càng trở nên khả thi tại nhiều phòng thí nghiệm nghiên cứu.
Có thể không dễ dàng tìm ra các phương pháp kỹ thuật có khả năng giải quyết để giảm thiểu rủi ro. Mặc dù đánh giá về độ khó của nó thay đổi, và mặc dù tiến bộ là gần như chắc chắn có thể, nhưng có thể khá khó để đạt được. Điều này giảm tầm ảnh hưởng mà bạn có thể tạo ra khi làm việc trong lĩnh vực này. Tuy nhiên, nếu bạn bắt đầu với công việc kỹ thuật, bạn có thể chuyển sang công việc quản trị AI, vì công việc này thường được hưởng lợi từ đào tạo kỹ thuật và kinh nghiệm trong ngành, điều mà hầu hết mọi người không có.)
Liên quan đến điều này, có rất nhiều ý kiến trái chiều trong lĩnh vực này về những gì có thể hiệu quả; bạn có thể tìm thấy ít nhất một số người cho rằng công việc bạn đang làm là vô ích, bất kể bạn làm gì.
Điều quan trọng nhất là có một số rủi ro tổn hại không chủ đích. Trong quá trình tích lũy vốn nghề nghiệp và làm nghiên cứu, bạn sẽ phải đưa ra những quyết định khó khăn và đánh giá liệu công việc của mình có mang lại lợi ích hay không (xem lời khuyên ẩn danh của chúng tôi về làm việc trong các vai trò thúc đẩy năng lực AI). Có sự bất đồng lớn về các phương pháp kỹ thuật nào trong an toàn AI có thể hiệu quả — và đôi khi sự bất đồng này thể hiện dưới dạng quan điểm cho rằng một chiến lược sẽ tích cực tăng rủi ro hiện sinh từ AI.

Cuối cùng, chúng tôi đã viết chi tiết hơn về các lập luận tốt nhất chống lại việc AI là vấn đề cấp bách trong hồ sơ vấn đề của chúng tôi về việc ngăn chặn thảm họa liên quan đến AI. Nếu những lập luận đó đúng, có thể bạn sẽ có tầm ảnh hưởng lớn hơn khi làm việc trên một vấn đề khác.

Lương của các nhà nghiên cứu kỹ thuật về an toàn AI (an toàn AI) là bao nhiêu?

Nhiều nhà nghiên cứu kỹ thuật làm việc tại các công ty hoặc startup nhỏ có mức lương cạnh tranh với ngành công nghệ tại Vùng Vịnh San Francisco và Thung lũng Silicon. Ngay cả các tổ chức nhỏ hơn và tổ chức phi lợi nhuận cũng trả lương cạnh tranh để thu hút nhân tài hàng đầu. Mức lương trung bình của một kỹ sư phần mềm tại Vùng Vịnh San Francisco là $222.000 mỗi năm vào năm 2020.³(Xem thêm về lương kỹ sư phần mềm).

Mức lương trung bình $222,000 có thể là con số thấp hơn thực tế, vì các vị trí liên quan đến AI, đặc biệt là tại các công ty AI hàng đầu đang mở rộng quy mô nhanh chóng, thường trả lương cao hơn so với các công việc công nghệ khác, và điều này cũng áp dụng cho các nhà nghiên cứu an toàn — ngay cả những người làm việc tại các tổ chức phi lợi nhuận.

Tuy nhiên, giới học thuật có mức lương thấp hơn so với ngành công nghiệp nói chung, và chúng tôi đoán rằng các vị trí nghiên cứu an toàn AI trong giới học thuật có mức lương thấp hơn so với các phòng thí nghiệm thương mại và tổ chức phi lợi nhuận.

Ví dụ về những người theo đuổi con đường này

Ethan Perez

Ethan Perez đang học khoa học máy tính khi anh phát hiện ra 80,000 Hours, điều này đã thuyết phục anh rằng rủi ro từ AI tiên tiến là một vấn đề cấp bách. Sau khi trao đổi với một cố vấn của 80,000 Hours, anh quyết định làm việc toàn thời gian về an toàn AI thay vì theo đuổi sự nghiệp trong công nghệ xe tự lái. Anh tiếp tục viết luận án tiến sĩ về việc khắc phục hành vi không mong muốn trong mô hình ngôn ngữ và gia nhập Anthropic với vai trò nhà khoa học nghiên cứu về an toàn AI.

Catherine Olsson

Catherine bắt đầu chương trình tiến sĩ tại NYU, nghiên cứu về mô hình tính toán của thị giác con người. Cuối cùng, cô quyết định làm việc trực tiếp về an toàn AI và gia nhập OpenAI, sau đó chuyển sang Google Brain trước khi gia nhập Anthropic.

Neel Nanda

Neel đang theo học cử nhân toán học khi quyết định muốn làm việc trong lĩnh vực an toàn AI. Đội ngũ của chúng tôi đã giới thiệu Neel với các nhà nghiên cứu trong lĩnh vực này và giúp anh ấy có được các vị trí thực tập tại các nhóm nghiên cứu học thuật và công nghiệp. Neel không cảm thấy mình phù hợp với môi trường học thuật — anh ấy ghét viết bài báo — nên đã ứng tuyển vào các vị trí tại các phòng nghiên cứu AI thương mại. Hiện anh đang là nhà nghiên cứu tại DeepMind, nơi anh làm việc về tính giải thích cơ học.

Cách dự đoán sự phù hợp của bạn trước khi bắt đầu

Bạn thường cần có nền tảng kiến thức định lượng (mặc dù không nhất thiết phải có nền tảng về khoa học máy tính hoặc học máy) để theo đuổi con đường sự nghiệp này.

Có hai phương pháp chính để dự đoán sự phù hợp của bạn, và việc thực hiện cả hai sẽ rất hữu ích:

Thử nghiệm: Thử thực hiện các bước đầu tiên trong phần dưới đây về học các kiến thức cơ bản. Nếu bạn chưa từng làm điều này, hãy bắt đầu học Python, cũng như tham gia các khóa học về đại số tuyến tính, giải tích và xác suất. Nếu đã làm điều đó, hãy tìm hiểu thêm về deep learning và an toàn AI. Cuối cùng, cách tốt nhất để thử nghiệm điều này đối với nhiều người là thực sự tìm một công việc kỹ sư machine learning (không liên quan đến an toàn AI) (xem thêm trong phần how to enter).
Hãy trò chuyện với mọi người để xem liệu đây có phải là lựa chọn phù hợp với bạn hay không: Nếu bạn muốn trở thành nhà nghiên cứu kỹ thuật, đội ngũ của 80,000 Hours có thể muốn trò chuyện với bạn. Họ có thể cung cấp tư vấn cá nhân miễn phí. Nếu bạn biết ai đó đang làm việc trong lĩnh vực này (hoặc lĩnh vực tương tự), hãy thảo luận về con đường sự nghiệp này với họ và xin ý kiến chân thành của họ. Bạn có thể gặp gỡ mọi người thông qua cộng đồng của chúng tôi. Các cố vấn của chúng tôi cũng có thể giúp bạn kết nối.

Việc xây dựng chuyên môn có thể mất thời gian, và niềm đam mê có thể đến sau chuyên môn — vì vậy hãy chuẩn bị dành thời gian để học hỏi và rèn luyện trước khi quyết định chuyển sang lĩnh vực khác.

Nếu bạn chưa chắc chắn về các vị trí mà bạn có thể hướng tới trong dài hạn, đây là một số cách sơ bộ để bạn có thể đoán xem nên hướng tới điều gì và liệu bạn có phù hợp với các vị trí khác nhau trên con đường này hay không:

Kiểm tra khả năng phù hợp của bạn với vai trò nhà nghiên cứu thực nghiệm: Trong một bài đăng trên blog về tuyển dụng nhà nghiên cứu an ninh, đội ngũ Google DeepMind cho biết: “Như một bài kiểm tra sơ bộ cho vị trí Kỹ sư Nghiên cứu, nếu bạn có thể tái tạo một bài báo ML điển hình trong vài trăm giờ và sở thích của bạn trùng khớp với chúng tôi, chúng tôi có thể quan tâm đến việc phỏng vấn bạn.”

Tập trung vào lĩnh vực kỹ thuật phần mềm, một nhà tuyển dụng tại Anthropic cho biết nếu bạn có thể, trong vài tuần làm việc, viết một tính năng phức tạp mới hoặc sửa một lỗi nghiêm trọng trong một thư viện ML lớn, họ sẽ muốn phỏng vấn bạn ngay lập tức. (Đọc thêm.)

‍Kiểm tra sự phù hợp cho nghiên cứu lý thuyết: Nếu bạn có thể vào được một chương trình tiến sĩ toán học hoặc khoa học máy tính lý thuyết top 10 nếu bạn đã tối ưu hóa chương trình đại học của mình để làm điều đó, đó là một dấu hiệu tốt về sự phù hợp của bạn (và nhiều nhà nghiên cứu thực tế có bằng tiến sĩ này). Trung tâm Nghiên cứu Alignment (một trong số ít tổ chức tuyển dụng nhân viên nghiên cứu lý thuyết, tính đến năm 2023) cho biết họ sẵn sàng tuyển dụng những người không có kinh nghiệm nghiên cứu. Họ đưa ra bốn bài kiểm tra khả năng phù hợp: sự sáng tạo (ví dụ: bạn có thể có ý tưởng giải quyết các vấn đề mở trong lĩnh vực, như Eliciting Latent Knowledge); kinh nghiệm thiết kế thuật toán, chứng minh định lý hoặc hình thức hóa khái niệm; kiến thức rộng về toán học và khoa học máy tính; và đã suy nghĩ sâu sắc về vấn đề căn chỉnh AI (AI alignment) cụ thể.

Kiểm tra sự phù hợp của bạn với vai trò lãnh đạo nghiên cứu (hoặc cho chương trình tiến sĩ): Hầu hết các nhà lãnh đạo nghiên cứu đều có bằng tiến sĩ. Ngoài ra, nhiều (nhưng không phải tất cả) vị trí nghiên cứu kỹ thuật về an toàn AI sẽ yêu cầu bằng tiến sĩ — và nếu không, việc có bằng tiến sĩ (hoặc là người có thể đạt được bằng tiến sĩ) sẽ giúp chứng minh rằng bạn phù hợp với công việc. Để vào một chương trình tiến sĩ machine learning top 20, bạn có thể cần công bố một bài báo hội thảo với tư cách tác giả chính, cùng với một bài báo hội nghị với tư cách tác giả thứ ba tại một hội nghị machine learning lớn (như NeurIPS hoặc ICML). (Đọc thêm về việc liệu bạn có nên làm tiến sĩ hay không).

Đọc bài viết của chúng tôi về sự phù hợp cá nhân để tìm hiểu thêm về cách đánh giá sự phù hợp của bạn với con đường sự nghiệp mà bạn muốn theo đuổi.

Cách tham gia

Bạn có thể nộp đơn ứng tuyển ngay lập tức — đặc biệt nếu bạn đáp ứng hoặc sắp đáp ứng các tiêu chí mà chúng ta vừa đề cập — nhưng cũng có thể mất một thời gian, thậm chí vài năm, để nâng cao kỹ năng trước tiên.

Vì vậy, trong phần này, chúng tôi sẽ cung cấp cho bạn hướng dẫn về cách tham gia nghiên cứu an toàn AI kỹ thuật. Chúng tôi sẽ đi qua bốn câu hỏi chính:

Cách học các kiến thức cơ bản
Có nên làm tiến sĩ (PhD) hay không
Cách tìm việc trong nghiên cứu thực nghiệm
Cách tìm việc trong nghiên cứu lý thuyết

Hy vọng rằng, đến cuối phần này, bạn sẽ có tất cả những gì cần thiết để bắt đầu.

Học những kiến thức cơ bản

Để có thể tiến xa trong lĩnh vực nghiên cứu kỹ thuật an toàn AI, bạn sẽ cần có kiến thức nền tảng về lập trình, toán họcvà học sâu.

Bạn cũng có thể muốn rèn luyện đủ để trở thành một kỹ sư học máy (ML) giỏi (mặc dù điều này thường hữu ích hơn cho nghiên cứu thực nghiệm), và học một chút về các kỹ thuật an toàn cụ thể (mặc dù điều này thường hữu ích hơn cho các nhà nghiên cứu thực nghiệm và lý thuyết).

Chúng ta sẽ lần lượt tìm hiểu từng nội dung này.

Học lập trình

Bạn có thể muốn học lập trình bằng Python, vì đây là ngôn ngữ được sử dụng rộng rãi nhất trong lĩnh vực Kỹ thuật Học máy (ML).

Bước đầu tiên có thể đơn giản là bắt đầu thử nghiệm. Với tư cách là người mới bắt đầu, bạn có thể viết một chương trình Python trong vòng chưa đầy 20 phút để nhắc nhở bản thân nghỉ ngơi sau mỗi hai giờ. Đừng nản lòng nếu mã nguồn của bạn không hoạt động lần đầu tiên — điều đó là bình thường khi mọi người mới bắt đầu lập trình!

Sau khi làm được điều đó, bạn có một số lựa chọn:

Tự học lập trình. Hãy thử tham gia một khóa học miễn phí cho người mới bắt đầu như Automate the boring stuff with Python của Al Seigart. Ngoài ra, còn có nhiều khóa học giới thiệu về khoa học máy tính và lập trình trực tuyến chất lượng, bao gồm: Udacity’s Intro to Computer Science, MIT’s Introduction to Computer Science and Programming, và Stanford’s Programming Methodology. Sau đó, hãy tìm một dự án bạn muốn xây dựng và bắt tay vào làm — hoặc tham gia vào một dự án mã nguồn mở. Để luyện tập phỏng vấn, bạn có thể thử leetcode hoặc TopCoder, hoặc các bài tập trong Cracking the Coding Interview của Gayle McDowell.
Học một khóa học đại học. Nếu bạn đang học đại học, đây là một lựa chọn tuyệt vời vì nó cho phép bạn học lập trình trong khi chi phí cơ hội của thời gian của bạn thấp hơn. Bạn thậm chí có thể xem xét việc theo học chuyên ngành khoa học máy tính (hoặc một môn học khác liên quan đến lập trình).
Học qua công việc. Nếu bạn có thể tìm được thực tập, bạn sẽ có được kinh nghiệm thực tế và kỹ năng mà bạn không thể học được từ bằng cấp học thuật.
Tham gia một bootcamp. Các bootcamp lập trình tập trung vào việc đưa những người có ít kiến thức về lập trình đến một công việc có mức lương cao nhất có thể trong vòng vài tháng — mặc dù một số người cho rằng triển vọng lâu dài không tốt vì bạn thiếu hiểu biết sâu về khoa học máy tính. Course Report là một hướng dẫn tuyệt vời để chọn bootcamp. Hãy cẩn thận tránh các bootcamp chất lượng thấp. Bạn cũng có thể tìm các bootcamp trực tuyến — dành cho những người hoàn toàn mới bắt đầu lập trình — tập trung vào ML, như khóa học Python for Data Science and Machine Learning Bootcamp của Udemy.

Bạn có thể đọc thêm về việc học lập trình — và cách tìm công việc đầu tiên trong lĩnh vực kỹ thuật phần mềm (nếu đó là con đường bạn muốn theo đuổi) — trong bài đánh giá nghề nghiệp của chúng tôi về kỹ thuật phần mềm.

Học toán

Toán học trong học sâu (deep learning) phụ thuộc mạnh mẽ vào giải tích và đại số tuyến tính, và thống kê cũng có thể hữu ích — mặc dù nói chung, việc học toán không quá quan trọng bằng lập trình và các kỹ năng cơ bản, thực tiễn của ML.

Chúng tôi thường khuyên bạn nên theo học một ngành học định lượng (như toán học, khoa học máy tính hoặc kỹ thuật), hầu hết các ngành này đều bao quát cả ba lĩnh vực khá tốt.

Nếu bạn muốn thực sự giỏi toán, bạn phải giải các bài toán. Vì vậy, điều hữu ích nhất mà sách giáo khoa và các khóa học trực tuyến cung cấp không phải là giải thích — mà là một bộ bài tập để giải theo thứ tự, với sự trợ giúp nếu bạn gặp khó khăn.

Nếu bạn muốn tự học (đặc biệt nếu bạn không có bằng cấp về toán học), đây là một số tài nguyên có thể tham khảo:

Giải tích: 3blue1brown có thể là một điểm khởi đầu tốt. Bạn cũng có thể theo dõi các khóa học đại học đã ghi hình: Khóa học giải tích một biến của MIT (chỉ yêu cầu kiến thức đại số và lượng giác trung học) tiếp theo là khóa học giải tích véc tơ và đa biến của MIT.
Đại số tuyến tính: Một lần nữa, chúng tôi đề xuất loạt video về đại số tuyến tính của 3blue1brown làm điểm khởi đầu. Trong bài viết về sự phù hợp kỹ thuật trong nghề nghiệp, Rogers-Smith khuyến nghị Linear Algebra Done Right của Sheldon Axler. Cuối cùng, nếu bạn thích bài giảng, hãy thử khóa học đại học về đại số tuyến tính của MIT (mặc dù lưu ý rằng khóa học này giả định bạn đã biết về giải tích đa biến).
Xác suất: Hãy xem khóa học đại học về xác suất và biến ngẫu nhiên của MIT.

Bạn có thể tìm thấy các tài nguyên bao quát tất cả các lĩnh vực này, như khóa học Toán học cho Học máy của Imperial College.

Học cơ bản về machine learning

Bạn sẽ cần có kiến thức cơ bản về cách các hệ thống AI (AI) hiện đang được phát triển. Điều này bao gồm việc tìm hiểu về machine learning và mạng thần kinh, trước khi đi sâu vào các lĩnh vực cụ thể của deep learning.

Một lần nữa, bạn có thể học những kiến thức này tại trường đại học. Nếu bạn đang học đại học, hãy kiểm tra xem có thể đăng ký một khóa học về machine learning ngay cả khi bạn không theo chuyên ngành khoa học máy tính.

Có một lưu ý quan trọng ở đây: bạn sẽ học được rất nhiều điều trong quá trình làm việc, và lượng kiến thức cần thiết cho bất kỳ vị trí công việc hoặc khóa học nào sẽ thay đổi rất nhiều! Ngay cả các nhà nghiên cứu hàng đầu cũng không biết tất cả mọi thứ về lĩnh vực của họ. Đáng để tìm hiểu xem bạn cần biết bao nhiêu cho vị trí công việc mà bạn muốn làm trước khi đầu tư hàng trăm giờ vào việc học machine learning.

Với lưu ý đó, đây là một số gợi ý về nơi bạn có thể bắt đầu nếu muốn tự học những kiến thức cơ bản:

Bộ video của 3blue1brown về mạng thần kinh là một điểm khởi đầu tuyệt vời cho người mới bắt đầu.
Khi tôi học, tôi đã sử dụng Neural Networks and Deep Learning — đây là một cuốn sách giáo khoa trực tuyến, phù hợp nếu bạn đã quen với toán học, kèm theo một số bài tập hữu ích.
Các khóa học trực tuyến giới thiệu như fast.ai (tập trung vào ứng dụng thực tế), Full Stack Deep Learning, và các khóa học tại deeplearning.ai.
Để tìm hiểu chi tiết hơn, bạn có thể tham khảo các khóa học đại học như MIT’s *Introduction to Machine Learning, NYU’s Deep Learning. Chúng tôi cũng khuyến nghị loạt bài giảng của Google DeepMind lecture series.

PyTorch là một gói phần mềm rất phổ biến được sử dụng để triển khai mạng thần kinh, và có lẽ đáng để học! Khi mới bắt đầu học về ML, mạng thần kinh đầu tiên của tôi là một mạng thần kinh convolutional 3 lớp với L2 regularisation để phân loại ký tự từ cơ sở dữ liệu MNIST. Đây là một thách thức khá phổ biến và là cách tốt để học PyTorch.

Tìm hiểu về an toàn AI

Nếu bạn định làm việc trong lĩnh vực nghiên cứu an toàn AI, việc hiểu biết về an toàn AI thường rất hữu ích.

Điều này không phải lúc nào cũng đúng — một số vị trí kỹ thuật có thể không yêu cầu nhiều kiến thức về an toàn AI. Tuy nhiên, ngay cả trong trường hợp đó, việc nắm vững kiến thức cơ bản vẫn có thể giúp bạn có được vị trí công việc và hỗ trợ trong việc đưa ra quyết định khó khăn cũng như tránh gây hại. Và nếu bạn muốn có khả năng nhận diện và thực hiện công việc hữu ích, bạn sẽ cần phải tìm hiểu về lĩnh vực này sớm muộn gì.

Vì lĩnh vực này vẫn còn rất mới, có thể hiện tại chưa có các khóa học đại học về AI an toàn. Vì vậy, bạn sẽ cần tự học. Dưới đây là một số nguồn tài liệu bạn có thể bắt đầu:

Phần 3 của tài liệu về hồ sơ vấn đề phòng ngừa thảm họa liên quan đến AI cung cấp một giới thiệu về các vấn đề mà an toàn AI cố gắng giải quyết (với trọng tâm đặc biệt vào sự đồng bộ hóa).
Kênh YouTube của Rob Miles chứa đầy các video giới thiệu phổ biến và giải thích rõ ràng, không yêu cầu nhiều kiến thức nền tảng về ML.
AXRP – podcast nghiên cứu rủi ro AI – chứa đầy các cuộc trò chuyện sâu sắc (và thú vị) với các nhà nghiên cứu về công việc của họ.
Khóa học ARENA và chương trình giảng dạy cung cấp nền tảng vững chắc cho nghiên cứu và kỹ thuật an toàn AI dựa trên thực nghiệm.
Các khóa học từ AGI Safety Fundamentals, đặc biệt là AI Alignment Course, cung cấp giới thiệu về nghiên cứu về vấn đề căn chỉnh AI.
Giới thiệu về An toàn ML, một khóa học từ Trung tâm An toàn AI tập trung vào việc chống chịu nguy hiểm (“độ bền”), xác định nguy hiểm (“giám sát”) và giảm thiểu nguy hiểm hệ thống (“an toàn hệ thống”), cũng như sự đồng bộ hóa.

Để có thêm gợi ý — đặc biệt là khi đọc về bản chất của các rủi ro mà chúng ta có thể gặp phải từ các hệ thống AI — hãy tham khảo các nguồn tài liệu hàng đầu để tìm hiểu thêm từ hồ sơ vấn đề của chúng tôi.

Bạn có nên làm tiến sĩ (PhD) không?

Một số vị trí nghiên cứu kỹ thuật yêu cầu bằng tiến sĩ — nhưng nhiều vị trí khác thì không, và bằng tiến sĩ không phải là lựa chọn tốt nhất cho mọi người.

Lợi ích chính của việc làm tiến sĩ có lẽ là rèn luyện kỹ năng đặt ra và thực hiện chương trình nghiên cứu của riêng bạn. Do đó, việc có bằng tiến sĩ gần như là lựa chọn mặc định nếu bạn muốn trở thành người lãnh đạo nghiên cứu.

Tuy nhiên, bạn vẫn có thể trở thành người lãnh đạo nghiên cứu mà không cần bằng tiến sĩ — đặc biệt là bằng cách chuyển từ vị trí nghiên cứu viên sang vị trí lãnh đạo. Tại một số phòng thí nghiệm lớn, ranh giới giữa nghiên cứu viên và lãnh đạo ngày càng mờ nhạt.

Nhiều người cho rằng tiến sĩ rất khó khăn. Nó có thể gây cô lập, thất vọng và mất rất nhiều thời gian (4–6 năm). Hơn nữa, chất lượng cuộc sống và lượng kiến thức bạn thu được sẽ phụ thuộc vào người hướng dẫn — và rất khó để xác định trước liệu bạn có đang đưa ra quyết định đúng đắn hay không.

Vì vậy, nếu bạn đang cân nhắc làm tiến sĩ, đây là một số điều cần xem xét:

Tầm nhìn dài hạn của bạn: Nếu bạn muốn trở thành nhà nghiên cứu chính, điều đó cho thấy bạn có thể muốn làm tiến sĩ — hầu hết các nhà nghiên cứu chính đều có bằng tiến sĩ. Nếu bạn chủ yếu muốn trở thành nhà nghiên cứu (ví dụ: kỹ sư máy học hoặc phần mềm), điều đó cho thấy bạn có thể không cần. Nếu bạn còn phân vân, hãy thử làm một điều gì đó để kiểm tra sự phù hợp của mình với từng lựa chọn, như tham gia một dự án hoặc thực tập. Bạn có thể thử vai trò trợ lý nghiên cứu tiền tiến sĩ — nếu nghiên cứu bạn thực hiện liên quan đến sự nghiệp tương lai của bạn, những kinh nghiệm này có thể là vốn nghề nghiệp quý giá, dù bạn có theo đuổi tiến sĩ hay không.
Chủ đề nghiên cứu của bạn: Dễ dàng bị ràng buộc vào một chủ đề tiến sĩ mà bạn không tự tin. Nếu chương trình tiến sĩ bạn đang xem xét cho phép bạn làm việc trên một chủ đề có vẻ hữu ích cho an toàn AI, thì đó có thể là lựa chọn tốt hơn cho sự nghiệp của bạn — tất cả các yếu tố khác bằng nhau — và chính nghiên cứu đó cũng có thể có tầm ảnh hưởng tích cực.
Hướng dẫn: Các giảng viên hướng dẫn hoặc quản lý tại các cơ hội bạn đang xem xét như thế nào? Bạn có thể tìm thấy các vị trí kỹ sư hoặc nghiên cứu về machine learning trong ngành công nghiệp nơi bạn có thể học hỏi nhiều hơn so với việc làm tiến sĩ — hoặc ngược lại. Khi chọn giảng viên hướng dẫn, hãy cố gắng liên hệ với các sinh viên hiện tại hoặc cựu sinh viên của giảng viên tiềm năng và đặt ra những câu hỏi thẳng thắn. (Xem thêm bài viết này về cách chọn giảng viên hướng dẫn tiến sĩ.)
Sự phù hợp với môi trường làm việc: Làm tiến sĩ có nghĩa là làm việc độc lập với rất ít sự giám sát hoặc phản hồi trong thời gian dài. Một số người phát triển tốt trong điều kiện này! Nhưng một số người thực sự không phù hợp và thấy tiến sĩ cực kỳ khó khăn.

Đọc thêm trong bài đánh giá chi tiết hơn (nhưng không cập nhật nhất) của chúng tôi về tiến sĩ machine learning.

Điều quan trọng cần nhớ là phần lớn công việc không yêu cầu bằng tiến sĩ. Và đối với một số công việc, đặc biệt là các vị trí đóng góp nghiên cứu thực nghiệm, ngay cả khi bằng tiến sĩ có thể hữu ích, thường có những cách tốt hơn để tích lũy vốn nghề nghiệp cần thiết (ví dụ: làm kỹ sư phần mềm hoặc kỹ sư học máy). Chúng tôi đã phỏng vấn hai kỹ sư học máy có sự nghiệp vô cùng thành công mà không cần làm tiến sĩ.

Việc bạn có nên làm tiến sĩ hay không không phụ thuộc (nhiều) vào thời gian

Chúng tôi cho rằng có khả thi rằng chúng ta sẽ phát triển trí tuệ nhân tạo (AI) có thể mang lại sự thay đổi to lớn cho xã hội vào cuối thập kỷ 2030.

Nếu mọi yếu tố khác đều như nhau, điều đó có thể là lý do để cố gắng tạo ra tầm ảnh hưởng ngay lập tức, thay vì dành năm (hoặc nhiều hơn) năm để làm tiến sĩ.

Tuy nhiên, độ phù hợp của bạn với một chương trình tiến sĩ cụ thể có lẽ là yếu tố có tầm quan trọng hơn nhiều so với thời điểm AI được phát triển.

Nói cách khác, chúng tôi cho rằng sự tăng tầm ảnh hưởng do lựa chọn con đường phù hợp với bạn có lẽ lớn hơn bất kỳ sự giảm tầm ảnh hưởng nào do trì hoãn công việc của bạn. Điều này một phần là do sự chênh lệch về tầm ảnh hưởng do các vai trò cụ thể mà bạn có thể đảm nhận, cũng như sự phù hợp cá nhân của bạn với chúng, thường rất lớn. Một số vai trò (đặc biệt là vai trò lãnh đạo nghiên cứu) sẽ yêu cầu có bằng tiến sĩ, trong khi những vai trò khác (đặc biệt là những vai trò nặng về kỹ thuật) thì không — và sự phù hợp của mọi người với các con đường này cũng rất đa dạng.

Chúng tôi cũng rất không chắc chắn về dự đoán về thời điểm chúng ta có thể phát triển trí tuệ nhân tạo (AI) mang tính chuyển đổi. Sự không chắc chắn này làm giảm giá trị mong đợi của bất kỳ sự trì hoãn nào.

Điều quan trọng nhất, chúng tôi cho rằng bằng tiến sĩ (PhD) không nên được coi là sự trì hoãn thuần túy đối với tầm ảnh hưởng của bạn. Bạn có thể làm việc hữu ích trong chương trình tiến sĩ, và nói chung, vài năm đầu tiên trong bất kỳ con đường sự nghiệp nào cũng sẽ bao gồm việc học các kiến thức cơ bản và làm quen với công việc. Vì vậy, nếu bạn có một người hướng dẫn tốt, môi trường làm việc thuận lợi và lựa chọn chủ đề phù hợp, công việc tiến sĩ của bạn có thể tốt ngang, hoặc thậm chí tốt hơn, so với công việc bạn sẽ làm nếu bạn đi làm sớm hơn trong sự nghiệp. Và nếu bạn đột nhiên nhận được bằng chứng cho thấy chúng ta có ít thời gian hơn so với dự đoán, việc rút lui là tương đối dễ dàng.

Có rất nhiều yếu tố khác cần xem xét — để có cái nhìn tổng quan và thảo luận chi tiết, hãy tham khảo bài viết này của Alex Lawsen, cố vấn của 80,000 Hours, cũng như các bình luận.

Tổng quan, chúng tôi khuyên bạn nên tập trung vào việc lựa chọn con đường dài hạn mà bạn muốn theo đuổi, thay vì lo lắng về việc trì hoãn tầm ảnh hưởng của mình. Hãy xem xét cách các cơ hội cụ thể trước mắt có thể giúp bạn đạt được mục tiêu đó.

Cách để theo học tiến sĩ (PhD)

Các chương trình tiến sĩ về Học máy (ML) có thể rất cạnh tranh. Để được nhận vào, bạn có thể cần một số công bố (như chúng tôi đã đề cập ở trên, ví dụ: một bài báo hội thảo với tư cách tác giả chính, cùng với một bài báo hội nghị với tư cách tác giả thứ ba tại một hội nghị ML lớn (như NeurIPS hoặc ICML), và các thư giới thiệu, có thể từ các nhà nghiên cứu ML. (Mặc dù các công bố cũng sẽ giúp ích cho bất kỳ con đường nào bạn chọn sau này!)

Để đạt đến giai đoạn đó, bạn cần có một chút may mắn và cũng cần tìm cách tích lũy kinh nghiệm nghiên cứu.

Một lựa chọn là theo học thạc sĩ về ML, tuy nhiên hãy đảm bảo đó là chương trình thạc sĩ nghiên cứu — hầu hết các chương trình thạc sĩ ML chủ yếu tập trung vào chuẩn bị cho ngành công nghiệp.

Tốt hơn nữa, hãy cố gắng tìm một vị trí thực tập trong một nhóm nghiên cứu ML. Các cơ hội bao gồm RISS tại Đại học Carnegie Mellon, UROP tại Imperial College London, Chương trình nghiên cứu mùa hè quốc tế của Viện Khoa học Aalto, Data Science Summer Institute, Chương trình thực tập của Viện Công nghệ Toyota và MILA. Bạn cũng có thể thử làm thực tập trong lĩnh vực an toàn AI, ví dụ tại CHAI. Tuy nhiên, có một số nhược điểm khi làm thực tập trực tiếp trong lĩnh vực an toàn AI — nói chung, việc công bố có thể khó khăn hơn và sự hướng dẫn có thể hạn chế hơn.

Một cách khác để tích lũy kinh nghiệm nghiên cứu là hỏi xem bạn có thể làm việc với các nhà nghiên cứu hay không. Nếu bạn đang học tại một trường đại học hàng đầu, việc liên hệ với những người đang làm việc tại trường bạn đang học có thể dễ dàng hơn.

Sinh viên tiến sĩ hoặc nghiên cứu sinh sau tiến sĩ có thể phản hồi nhanh hơn so với giáo sư, nhưng cuối cùng, bạn sẽ cần một vài giáo sư mà bạn đã làm việc cùng để cung cấp thư giới thiệu, vì vậy bạn cần liên hệ với họ. Giáo sư thường nhận được nhiều email không quen biết, vì vậy hãy cố gắng thu hút sự chú ý của họ! Bạn có thể thử:

Nhờ giới thiệu, ví dụ từ một giáo sư đã giảng dạy cho bạn
Đề cập đến những gì bạn đã làm (điểm số, các khóa học liên quan bạn đã học, GitHub của bạn, bất kỳ bài báo nghiên cứu về học máy nào bạn đã cố gắng tái hiện để luyện tập)
Đọc một số bài báo của họ và các bài báo chính trong lĩnh vực, và đề cập đến chúng trong email
Đăng ký quỹ tài trợ dành cho sinh viên muốn làm việc trong lĩnh vực an toàn AI, và thông báo cho mọi người biết bạn đã có tài trợ để làm việc cùng họ

Tốt nhất, bạn nên tìm một người hướng dẫn giỏi và có thời gian làm việc cùng bạn (điều này không nhất thiết phải là giáo sư nổi tiếng nhất — mặc dù việc họ thường xuyên công bố bài báo tại các hội nghị hàng đầu sẽ rất hữu ích). Như vậy, họ sẽ hiểu rõ về bạn, bạn có thể gây ấn tượng với họ, và họ sẽ cung cấp một thư giới thiệu tuyệt vời khi bạn nộp đơn vào chương trình tiến sĩ.

Rất có thể, để có được các bài báo và thư giới thiệu cần thiết để vào chương trình tiến sĩ, bạn sẽ cần dành một hoặc hai năm làm trợ lý nghiên cứu, mặc dù các vị trí này cũng có thể rất cạnh tranh.

Hướng dẫn của Adam Gleave cũng đi sâu hơn vào cách thức theo đuổi tiến sĩ, bao gồm nơi nộp đơn và các mẹo về quy trình ứng tuyển. Chúng tôi thảo luận chi tiết hơn về tiến sĩ ML trong bài đánh giá nghề nghiệp về tiến sĩ ML của chúng tôi (mặc dù nó đã lỗi thời so với bài đánh giá nghề nghiệp này).

Tìm việc làm trong lĩnh vực nghiên cứu an toàn AI dựa trên thực nghiệm

Cuối cùng, cách tốt nhất để học cách thực hiện nghiên cứu dựa trên thực nghiệm — đặc biệt là trong các vai trò tập trung vào đóng góp và kỹ thuật — là làm việc tại một nơi vừa thực hiện kỹ thuật chất lượng cao vừa tiến hành nghiên cứu tiên tiến.

Ba công ty hàng đầu có thể là Google DeepMind (cung cấp thực tập cho sinh viên), OpenAI (có chương trình thực tập 6 tháng) và Anthropic. (Làm việc tại một công ty AI hàng đầu đi kèm với một số rủi ro gây hại, vì vậy điều quan trọng là phải cân nhắc kỹ lưỡng các lựa chọn của bạn. Chúng tôi đã viết một bài viết riêng về các yếu tố quan trọng cần xem xét.)

Để làm việc trong vai trò nghiên cứu dựa trên thực nghiệm, bạn sẽ cần xây dựng một số vốn nghề nghiệp.

Dù bạn muốn trở thành người dẫn dắt nghiên cứu hay đóng góp viên, việc trở thành một kỹ sư phần mềm giỏi sẽ rất hữu ích. Cách tốt nhất để làm điều này thường là tìm việc làm kỹ sư phần mềm tại một công ty công nghệ lớn hoặc một startup tiềm năng. (Chúng tôi đã viết một bài viết chi tiết về trở thành kỹ sư phần mềm.)

Nhiều vị trí sẽ yêu cầu bạn là một kỹ sư ML giỏi, nghĩa là phải đi sâu hơn so với các kiến thức cơ bản chúng ta đã đề cập ở trên. Cách tốt nhất để trở thành một kỹ sư ML giỏi là tìm việc làm trong lĩnh vực kỹ thuật ML — và những nơi tốt nhất để làm điều này có lẽ là các công ty AI hàng đầu.

Đối với các vị trí trưởng nhóm nghiên cứu, bạn sẽ cần có kinh nghiệm nghiên cứu tương đối nhiều hơn. Bạn có thể muốn trở thành một nhà nghiên cứu đóng góp trước, hoặc tham gia qua con đường học thuật (ví dụ bằng cách làm tiến sĩ).

Dù vậy, điều quan trọng là nhớ rằng bạn không cần phải biết tất cả mọi thứ để bắt đầu ứng tuyển, vì bạn sẽ học được rất nhiều trong quá trình làm việc — vì vậy hãy cố gắng tìm hiểu những gì bạn cần học để có thể ứng tuyển vào các vị trí cụ thể mà bạn đang cân nhắc.

Bạn cần bao nhiêu kinh nghiệm để có được một công việc? Đáng để nhắc lại các bài kiểm tra mà chúng ta đã xem xét ở trên cho các vị trí đóng góp:

Trong một bài đăng trên blog về tuyển dụng cho các nhà nghiên cứu an ninh, đội ngũ DeepMind cho biết: “Như một bài kiểm tra sơ bộ cho vị trí Kỹ sư Nghiên cứu, nếu bạn có thể tái tạo một bài báo ML điển hình trong vài trăm giờ và sở thích của bạn phù hợp với chúng tôi, chúng tôi có thể quan tâm đến việc phỏng vấn bạn.”
Xem xét cụ thể về kỹ thuật phần mềm, một nhà tuyển dụng tại Anthropic cho biết nếu bạn có thể, trong vài tuần làm việc, viết một tính năng mới hoặc sửa một lỗi nghiêm trọng trong một thư viện ML lớn, họ sẽ muốn phỏng vấn bạn ngay lập tức. (Đọc thêm.)

Trong quá trình tích lũy kinh nghiệm này, bạn có thể làm việc trong các vị trí giúp phát triển năng lực AI. Có nhiều quan điểm khác nhau về việc liệu điều này có thể gây hại hay không — vì vậy chúng tôi khuyên bạn nên đọc bài viết của chúng tôi về làm việc tại các công ty AI hàng đầu và bài viết chứa lời khuyên ẩn danh từ các chuyên gia về việc làm trong các vị trí phát triển năng lực AI. Bạn cũng nên liên hệ với đội ngũ của chúng tôi về bất kỳ cơ hội cụ thể nào bạn có.

Nếu bạn đang làm công việc khác, theo học một bằng cấp, hoặc nghĩ rằng cần học thêm trước khi thay đổi nghề nghiệp, có một số cách tốt để tích lũy kinh nghiệm làm kỹ sư ML vượt ra ngoài những kiến thức cơ bản chúng tôi đã đề cập:

Tích lũy kinh nghiệm trong lĩnh vực phần mềm / kỹ thuật ML. Ví dụ, nếu bạn đang theo học một bằng cấp, bạn có thể thử làm thực tập sinh kỹ sư phần mềm vào mùa hè. DeepMind cung cấp thực tập cho sinh viên có ít nhất hai năm học tập trong lĩnh vực kỹ thuật,
Sao chép nghiên cứu. Một cách tuyệt vời để tích lũy kinh nghiệm trong lĩnh vực kỹ thuật học máy là sao chép một số nghiên cứu trong lĩnh vực bạn quan tâm. Richard Ngo, một nhà nghiên cứu về quản trị AI tại OpenAI, đã viết một số lời khuyên về việc sao chép nghiên cứu. Tuy nhiên, hãy nhớ rằng việc tái hiện các nghiên cứu có thể rất khó khăn — hãy xem blog của Amid Fish về những gì anh ấy học được khi tái hiện một nghiên cứu về RL sâu. Cuối cùng, Rogers-Smith có một số gợi ý về các nghiên cứu để tái hiện. Nếu bạn dành thời gian để tái hiện các nghiên cứu, hãy nhớ rằng khi ứng tuyển vào các vị trí, việc chứng minh rằng bạn đã tái hiện các nghiên cứu này sẽ rất hữu ích. Vì vậy, hãy thử tải lên công việc của bạn lên GitHub hoặc viết một blog về tiến trình của mình. Và nếu bạn đang cân nhắc dành nhiều thời gian cho việc này (ví dụ: hơn 100 giờ), hãy cố gắng nhận phản hồi về các bài báo bạn định tái hiện trước khi bắt đầu — bạn thậm chí có thể liên hệ với một phòng thí nghiệm hoặc công ty mà bạn muốn làm việc.
Tham gia hoặc theo học một khóa học sâu hơn về nghiên cứu an toàn AI thực nghiệm. Redwood Research đã tổ chức bootcamp MLAB, và bạn có thể đăng ký truy cập vào chương trình giảng dạy của họ tại đây. Bạn cũng có thể tham khảo chương trình giảng dạy Deep Learning của Jacob Hilton, một nhà nghiên cứu tại Trung tâm Nghiên cứu Căn chỉnh — mặc dù nó có thể rất thách thức nếu không có sự hướng dẫn.⁴ Chương trình Alignment Research Engineer Accelerator sử dụng chương trình giảng dạy này. Các mentor trong chương trình ML Alignment & Theory Scholars Program chủ yếu tập trung vào nghiên cứu dựa trên thực nghiệm.
Học về một lĩnh vực con của deep learning. Đặc biệt, chúng tôi đề xuất xử lý ngôn ngữ tự nhiên (đặc biệt là transformers — xem bài giảng này làm điểm khởi đầu) và học tăng cường (tham khảo Pong from Pixels của Andrej Karpathy, và Spinning up in Deep RL của OpenAI). Hãy cố gắng đạt đến mức hiểu biết về những tiến bộ quan trọng nhất gần đây.

Cuối cùng, Athena là chương trình cố vấn về căn chỉnh AI dành cho phụ nữ có nền tảng kỹ thuật muốn tìm việc trong lĩnh vực này.

Tìm việc làm trong lĩnh vực nghiên cứu an toàn AI (AI) lý thuyết

Có ít cơ hội việc làm trong lĩnh vực nghiên cứu an toàn AI (AI) lý thuyết, do đó khó đưa ra lời khuyên cụ thể. Việc có bằng tiến sĩ về toán học hoặc khoa học máy tính lý thuyết không phải lúc nào cũng cần thiết, nhưng khá phổ biến trong giới nghiên cứu công nghiệp và gần như là yêu cầu bắt buộc để trở thành nhà nghiên cứu học thuật.

Nếu bạn theo đuổi bằng tiến sĩ, lý tưởng nhất là trong một lĩnh vực ít nhất có liên quan đến nghiên cứu an toàn AI (AI) lý thuyết. Ví dụ, có thể là lý thuyết xác suất ứng dụng trong AI, hoặc khoa học máy tính lý thuyết (tìm các nhà nghiên cứu công bố trên COLT hoặc FOCS).

Một hướng đi khác là trở thành nhà nghiên cứu dựa trên thực nghiệm trước khi chuyển sang nghiên cứu lý thuyết.

So với nghiên cứu dựa trên thực nghiệm, bạn sẽ cần biết ít hơn về kỹ thuật, nhưng cần hiểu sâu hơn về lĩnh vực an toàn AI.

Sau khi hoàn thành các kiến thức cơ bản, một bước tiếp theo có thể thử là đọc các bài báo của một nhà nghiên cứu cụ thể hoặc về một chủ đề cụ thể, sau đó tóm tắt những gì bạn đã tìm hiểu.

Bạn cũng có thể dành một khoảng thời gian (khoảng 10–100 giờ) để đọc về một chủ đề, sau đó dành thêm thời gian (khoảng 10–100 giờ nữa) để cố gắng đưa ra một số ý tưởng mới về chủ đề đó. Ví dụ, bạn có thể thử đưa ra các đề xuất để giải quyết vấn đề khai thác kiến thức tiềm ẩn. Nếu muốn tập trung vào khía cạnh toán học hơn, bạn có thể thử làm bài tập ở cuối bài giảng của Michael Cohen, một nghiên cứu sinh tại Đại học Oxford.

Nếu bạn muốn theo đuổi con đường học thuật, việc đọc một lượng lớn bài báo khoa học dường như đặc biệt có tầm quan trọng. Bạn có thể thử viết một bài tổng quan về một chủ đề cụ thể trong thời gian rảnh rỗi. Đây là cách tuyệt vời để nắm vững một chủ đề, khơi gợi ý tưởng mới, phát hiện khoảng trống và đưa ra ý tưởng nghiên cứu. Khi ứng tuyển vào chương trình sau đại học hoặc tìm việc làm, bài báo của bạn là cách tuyệt vời để chứng minh rằng bạn yêu thích nghiên cứu đến mức làm nó vì niềm vui.

Các cách khác để tích lũy kinh nghiệm cụ thể bao gồm tham gia thực tập nghiên cứu, làm trợ lý nghiên cứu hoặc theo đuổi bằng tiến sĩ, tất cả đều đã được đề cập chi tiết trong phần liệu và cách bạn có thể theo đuổi chương trình tiến sĩ.

Một lưu ý là nhiều người chúng tôi gặp cố gắng tự học. Điều này có thể là ý tưởng tuyệt vời cho một số người, nhưng khá khó khăn đối với nhiều người khác, vì thiếu cấu trúc và sự hướng dẫn.

Các tổ chức quan trọng

Các công ty AI có đội ngũ kỹ thuật an toàn dựa trên thực nghiệm hoặc tập trung hoàn toàn vào an toàn:

Các tổ chức AI có đội ngũ kỹ thuật an toàn dựa trên thực nghiệm hoặc tập trung hoàn toàn vào an toàn:

Anthropic là một công ty AI tập trung vào an toàn, đang phát triển các hệ thống AI có thể diễn giải được và an toàn. Họ tập trung vào nghiên cứu an toàn AI dựa trên thực nghiệm. Các đồng sáng lập của Anthropic, Daniela và Dario Amodei, đã tham gia một buổi phỏng vấn về phòng thí nghiệm trên podcast của Future of Life Institute. Trong podcast của chúng tôi, chúng tôi đã trò chuyện với Chris Olah, người đứng đầu nghiên cứu về khả năng diễn giải tại Anthropic, và Nova DasSarma, người làm việc về hạ tầng hệ thống tại Anthropic.
METR nghiên cứu đánh giá liệu các hệ thống AI tiên tiến có thể gây ra rủi ro thảm khốc cho văn minh nhân loại hay không, bao gồm công việc thử nghiệm ở giai đoạn đầu để phát triển kỹ thuật, và đánh giá các hệ thống do Anthropic và OpenAI phát triển.
Viện An ninh Trí tuệ Nhân tạo (AI Security Institute) của Chính phủ Anh đang tiến hành nghiên cứu để đánh giá các rủi ro do các hệ thống AI tiên tiến gây ra. Viện này cũng phối hợp với các công ty, chính phủ và các cá nhân khác, đồng thời nỗ lực cung cấp thông tin cho các nhà hoạch định chính sách và định hình các thực hành an toàn trong phát triển AI trên toàn cầu.
Trung tâm An toàn AI (Center for AI Safety) là một tổ chức phi lợi nhuận thực hiện nghiên cứu kỹ thuật và thúc đẩy an toàn trong cộng đồng học máy rộng lớn.
FAR AI (FAR AI) là một tổ chức phi lợi nhuận nghiên cứu, ươm mầm và thúc đẩy các chương trình nghiên cứu đòi hỏi nguồn lực lớn mà học thuật chưa thể thực hiện nhưng chưa sẵn sàng cho thương mại hóa, bao gồm nghiên cứu về độ bền vững trước tấn công, khả năng diễn giải AI và học tập dựa trên sở thích.
Apollo Research là một tổ chức phi lợi nhuận nhằm phát triển quy trình đánh giá mô hình AI để phát hiện dấu hiệu mất căn chỉnh và gian lận. Nó tập trung vào khả năng diễn giải AI, thử nghiệm hành vi và tinh chỉnh, và mục tiêu cung cấp hỗ trợ kỹ thuật cho các nhà lập pháp muốn quản trị AI tiên tiến.
Google DeepMind có lẽ là nhóm nghiên cứu lớn nhất và nổi tiếng nhất trong lĩnh vực phát triển trí tuệ nhân tạo tổng quát, nổi tiếng với các dự án tạo ra AlphaGo, AlphaZero và AlphaFold. Mặc dù không tập trung chính vào an toàn, DeepMind có hai đội ngũ chuyên về an toàn AI: Đội ngũ Căn chỉnh Có thể Mở rộng (Scalable Alignment Team) tập trung vào việc căn chỉnh các hệ thống tối tân nhất, và Đội ngũ Căn chỉnh (Alignment Team) tập trung vào các nghiên cứu chiến lược cho việc căn chỉnh các hệ thống tương lai.
OpenAI, thành lập năm 2015, là công ty đang cố gắng xây dựng trí tuệ nhân tạo tổng quát an toàn và mang lại lợi ích cho toàn nhân loại. OpenAI nổi tiếng với các mô hình ngôn ngữ như GPT-4. Giống như DeepMind, công ty này không tập trung chính vào an toàn, nhưng có một đội ngũ chuẩn bị và một đội ngũ quản trị.
Ought là một phòng thí nghiệm học máy đang phát triển Elicit, một trợ lý nghiên cứu AI. Mục tiêu của họ là đồng bộ hóa suy luận mở bằng cách học các bước suy luận của con người, và hướng sự phát triển của AI vào việc hỗ trợ đánh giá bằng chứng và lập luận.
Redwood Research là một tổ chức nghiên cứu an toàn AI, dự án lớn đầu tiên của họ nhằm đảm bảo các mô hình ngôn ngữ (như GPT-3) tạo ra đầu ra tuân theo các quy tắc nhất định với xác suất rất cao, nhằm giải quyết các chế độ thất bại quá hiếm để xuất hiện trong đào tạo tiêu chuẩn.

Các phòng thí nghiệm an toàn AI lý thuyết / khái niệm:

Trung tâm Nghiên cứu Căn chỉnh (ARC) đang cố gắng phát triển các chiến lược căn chỉnh có thể áp dụng trong ngành công nghiệp hiện nay đồng thời có thể mở rộng quy mô cho các hệ thống tương lai. Họ tập trung vào công việc khái niệm, phát triển các chiến lược có thể hoạt động cho việc căn chỉnh và có thể là hướng đi hứa hẹn cho nghiên cứu thực nghiệm, thay vì tự thực hiện nghiên cứu AI thực nghiệm. Dự án đầu tiên của họ là công bố báo cáo về Eliciting Latent Knowledge, vấn đề khiến các hệ thống AI tiên tiến thành thật cho bạn biết những gì chúng tin (hoặc 'tin') về thế giới. Trong podcast của chúng tôi, chúng tôi đã phỏng vấn Paul Christiano, người sáng lập ARC, về nghiên cứu của anh ấy (trước khi anh ấy thành lập ARC).
Trung tâm Nghiên cứu Rủi ro Dài hạn (Center on Long-Term Risk) làm việc để giải quyết các rủi ro tồi tệ nhất từ AI tiên tiến. Họ tập trung vào xung đột giữa các hệ thống AI.
Viện Nghiên cứu Trí tuệ Máy móc (Machine Intelligence Research Institute) là một trong những nhóm đầu tiên quan tâm đến rủi ro từ trí tuệ máy móc vào đầu những năm 2000, và đội ngũ của họ đã công bố một số bài báo về các vấn đề an toàn và cách giải quyết chúng.
Một số nhóm trong các phòng thí nghiệm thương mại cũng thực hiện một số nghiên cứu lý thuyết và khái niệm về sự đồng nhất, chẳng hạn như công trình của Anthropic về "điều kiện hóa mô hình dự đoán" và Nhóm Nghiên cứu Kích thích Nguyên nhân (Causal Incentives Working Group) tại Google DeepMind.

An toàn AI trong học thuật (danh sách không đầy đủ; mặc dù số lượng nhà nghiên cứu tập trung công khai vào an toàn AI còn ít, nhưng công việc liên quan có thể được thực hiện tại nhiều cơ sở khác nhau):

Nhóm Nghiên cứu Điều chỉnh Thuật toán tại Phòng Thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT, do Dylan Hadfield-Menell dẫn dắt
Trung tâm Trí tuệ Nhân tạo Thân thiện với Con người (Center for Human-Compatible AI) tại Đại học California, Berkeley, do Stuart Russell dẫn dắt, tập trung vào nghiên cứu học thuật để đảm bảo AI an toàn và có lợi cho con người. (Podcast của chúng tôi với Stuart Russell khám phá tiếp cận của ông về AI có lợi một cách chứng minh được.)
Nhóm nghiên cứu của Jacob Steinhardt tại Khoa Thống kê, Đại học California, Berkeley
Nhóm nghiên cứu căn chỉnh AI của NYU do Sam Bowman dẫn dắt
Phòng thí nghiệm an toàn AI Krueger tại Đại học Cambridge do David Krueger dẫn dắt
Nhóm An toàn AI Tegmark do Max Tegmark của MIT dẫn đầu
Nhóm Nghiên cứu Cơ sở của nền tảng hợp tác AI tại Đại học Carnegie Mellon
Nhóm Nghiên cứu Sự Căn chỉnh của Hệ thống AI Phức tạp tại Đại học Charles, Prague

Cũng có một số văn phòng an toàn AI có thể tiếp nhận các nhà nghiên cứu độc lập. Những văn phòng này bao gồm LISA tại London và FAR Labs tại Berkeley, California.