Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Xin chào các học giả, đây là Two Minute Papers của Károly Zsolnai-Fehér. Công việc này không có nhiều cảnh quay được chiếu, nhưng tôi nghĩ rằng đây là một kiệt tác đáng kinh ngạc, vì vậy trong nửa đầu của video này, chúng ta sẽ xem cảnh quay từ các tập trước đó và trong nửa sau, bạn sẽ thấy những thứ mới. Trong loạt bài viết này, chúng tôi thường nói về học có củng cố, đó là kỹ thuật học tập trong đó một đại lý chọn chuỗi hành động tối ưu trong một môi trường để tối đa hóa điểm số.
Chơi trò chơi máy tính là một ví dụ tốt về điểm số được xác định rõ ràng để tối đa hóa. Miễn là chúng ta có thể nói rằng điểm số càng cao thì học tập càng tốt, khái niệm sẽ hoạt động cho việc điều khiển trực thăng, chọn điểm kết nối wifi tốt nhất hoặc một loạt các nhiệm vụ khác.
Tuy nhiên, còn những môi trường nơi có nhiều đại lý hoặc người chơi xuất hiện? Không phải tất cả các trò chơi đều tập trung vào một người chơi và không phải tất cả các trực thăng đều phải bay một mình. Vậy thì sao? Để giải quyết các trường hợp như vậy, các nhà khoa học tại OpenAI và Đại học Oxford đưa ra một công việc có tên là “Học với Tính nhận thức về Học cùng bạn đồng hành”, LOLA tắt chữ của Learning with Opponent-Learning Awareness hoặc lola. Tôi phải nói rằng trò chơi đặt tên ở OpenAI đã rất mạnh mẽ gần đây. Đây là về học có củng cố nhiều người chơi, nếu bạn muốn.
Đại lý mới này không chỉ quan tâm tối đa hóa điểm số của mình mà còn thêm một thuật ngữ mới vào phương trình, đó là dự đoán hành động của các người chơi khác trong môi trường. Chúng ta không chỉ có thể làm được điều này mà họ còn cho thấy rằng nó có thể được thực hiện một cách hiệu quả và, phần tốt nhất là nó cũng dẫn đến các chiến lược cổ điển mà các chuyên gia lý thuyết trò chơi sẽ ngay lập tức nhận ra. Ví dụ, nó có thể học được chiến lược đưa lại hành động, đó là một chiến lược phản ánh hành động của người chơi khác.
Điều này có nghĩa là nếu người chơi khác hợp tác, nó sẽ vẫn hợp tác, nhưng nếu nó bị hại thì nó cũng sẽ cố gắng hại người khác. Bạn sẽ thấy sớm vì sao điều này là một vấn đề lớn. Trò chơi nghĩa vụ là một trò chơi trong đó hai tên tội phạm bị bắt và bị thẩm vấn độc lập, và phải chọn liệu họ sẽ tố cáo nhau hay không. Nếu bất kỳ ai tố cáo, sẽ có một trận đấu nhau cho người còn lại. Nếu cả hai phản bội, cả hai sẽ phải làm thời gian tù tầm trung. Điểm số để tối thiểu ở đây là thời gian dành cho tù.
Giải pháp tối ưu của trò chơi này là khi cả hai tội phạm đều giữ im lặng, và chiến lược này được chúng ta gọi là cân bằng Nash. Nói cách khác, đây là tập hợp hành động tốt nhất nếu chúng ta xem xét tùy chọn của nhân vật khác cũng như dự đoán rằng họ cũng làm điều tương tự với chúng ta.
Và bây giờ, kết quả tuyệt vời đầu tiên là nếu chúng ta chạy trò chơi nghĩa vụ với hai đại lý LOLA mới này, chúng nhanh chóng tìm thấy cân bằng Nash. Điều này tuyệt vời. Nhưng chờ đã, chúng ta đã nói về cái gì đó gọi là đưa lại hành động, vậy điều đó có quan trọng không?
Có một phiên bản lặp đi lặp lại của trò chơi nghĩa vụ, trong đó trò chơi nói cáo hoặc hợp tác này được tái phát nhiều lần. Đây là một chỉ số lý tưởng bởi vì một đại lý tiên tiến sẽ biết rằng chúng tôi hợp tác lần trước, vì vậy có thể đối tác tốt trong lần này!
Và đây là điều tuyệt hơn nữa! Đây là nơi chiến lược đưa lại hành động xuất hiện – các đại lý LOLA này biết rằng nếu lần trước họ hợp tác, họ sẽ ngay lập tức cung cấp cho nhau một cơ hội khác, và một lần nữa, tránh thoát khỏi thời gian tù ít nhất.
Như bạn có thể thấy ở đây, các kết quả vượt xa các đại lý khác, ngây ngốc, chống lại nhau và cả hai sẽ phải làm tù tầm trung. Các trò chơi khác cũng được so sánh với các đại lý ngây ngốc, không hợp tác, vượt xa chúng.
Đây là một bài báo tuyệt vời, hãy đọc thêm trong mô tả video để biết thêm chi tiết. Tôi thấy nó rất dễ đọc, vì vậy đừng nản lòng nếu kung fu toán học của bạn không mạnh. Chỉ cần đào sâu vào đó!
Video như thế thường không được nhiều lượt xem vì chúng không có nhiều pháo hoa hình ảnh hơn hầu hết các công trình khác mà chúng tôi đang thảo luận trong loạt bài. May mắn thay, chúng ta rất may mắn vì có sự hỗ trợ của bạn trên Patreon và có thể kể những câu chuyện quan trọng này mà không phải lo lắng về việc trở nên viral.
Và nếu bạn đã thưởng thức tập này và bạn cảm thấy 8 video như vậy một tháng đáng một đô la, hãy cân nhắc hỗ trợ chúng tôi trên Patreon. Một đô la gần như không có gì cả, nhưng nó giúp các bài báo tiếp tục được viết. Chi tiết có sẵn trong mô tả video.
Cảm ơn bạn đã xem và sự hỗ trợ rộng lượng của bạn, và sẽ gặp bạn lần sau!