Định luật Goodhart cho rằng khi một phép đo trở thành mục tiêu, thì nó không còn là một phép đo hiệu quả. Điều này xảy ra ở khắp mọi nơi:
- Một cách để đo lường chất lượng của một bài báo trực tuyến có thể là đếm số lượng người nhấp vào bài báo đó. Tuy nhiên, nếu số lượng nhấp chuột quyết định mức thù lao của tác giả hoặc thứ hạng của bài báo trong kết quả tìm kiếm, các tác giả sẽ có động cơ viết bài theo cách tối đa hóa số lượng nhấp chuột, chẳng hạn như chọn tiêu đề giật gân. Khi họ làm như vậy, số lần nhấp chuột có thể không còn tương quan với chất lượng bài viết.
- Khi kinh phí được phân bổ cho các trường học dựa trên điểm thi, giáo viên sẽ có động cơ để “dạy theo đề thi” và các bài thi có thể không còn là thước đo tốt cho kiến thức của học sinh.1
- IBM từng trả lương cho các lập trình viên theo mỗi dòng mã. Điều này khuyến khích họ viết các chương trình rườm rà và coi nhẹ tính đơn giản, cuối cùng làm giảm chất lượng công việc của các lập trình viên.
Scott Garrabrant xác định bốn hình thức của định luật Goodhart:
- Định luật Goodhart hồi quy — Khi lựa chọn một thước đo đại diện cho mục tiêu của bạn, bạn không chỉ lựa chọn dựa trên mục tiêu của mình, mà còn dựa trên sự khác biệt giữa thước đo đại diện và mục tiêu của bạn. Ví dụ, chiều cao có tương quan với khả năng chơi bóng rổ, nhưng nếu bạn chỉ chọn những người cao nhất để thành lập đội, bạn sẽ chọn những người cao hơn nhưng chơi kém hơn, so với những người hơi thấp hơn mà chơi giỏi hơn. Đây là vấn đề không thể tránh khỏi khi dữ liệu của bạn không chính xác, vì vậy bạn cần tìm cách khắc phục, chẳng hạn bằng cách sử dụng nhiều chỉ số đại diện độc lập.
- Định luật Goodhart nhân quả — Khi có mối tương quan không nhân quả giữa đại diện và mục tiêu, tác động vào đại diện có thể không ảnh hưởng đến mục tiêu. Ví dụ, cho cầu thủ bóng rổ đi cà kheo vì người cao hơn giỏi bóng rổ hơn (chiều cao là thước đo đại diện cho kỹ năng bóng rổ) hoặc đổ đầy nước vào đồng hồ đo mưa để giúp cây trồng phát triển (vì nước trong đồng hồ đo mưa là thước đo đại diện cho lượng mưa).
- Goodhart cực đoan — Các tình huống trong đó đại diện có giá trị cực đoan có thể rất khác với các tình huống thông thường khi mối tương quan giữa đại diện và mục tiêu được quan sát. Ví dụ, những người rất cao cũng không khỏe mạnh vì chiều cao của họ, và do đó là những cầu thủ bóng rổ kém.
- Goodhart đối nghịch — Khi bạn tối ưu hóa một đại diện, bạn tạo động lực cho đối thủ thực hiện các hành động làm mất mối tương quan giữa đại diện và mục tiêu của bạn để hiệu suất của họ trông tốt hơn theo đại diện của bạn. Ví dụ, nếu điểm số tốt được sử dụng làm đại diện cho khả năng, điều này có thể khuyến khích gian lận vì điểm số dễ giả mạo hơn khả năng.
Định luật Goodhart là một vấn đề lớn đối với căn chỉnh AI, bởi vì việc huấn luyện mạng nơ-ron thường liên quan đến việc sử dụng các đại diện cho mục tiêu thực sự của chúng ta. Ví dụ, chúng ta có thể sử dụng "sự chấp thuận của người giám sát" như một cách để đo lường chất lượng đầu ra của mô hình ngôn ngữ lớn. Tuy nhiên, điều này có thể dẫn đến việc AI được huấn luyện để đưa ra đầu ra mà người giám sát tin rằng là chất lượng cao, thay vì những gì thực sự chất lượng cao — ví dụ, nếu một người giám sát huấn luyện AI để trung thực, AI có thể được huấn luyện để đưa ra đầu ra mà người giám sát tin rằng là đúng (ngay cả trong trường hợp người giám sát sai).