Bot của OpenAI vượt qua vô địch Dota thế giới Dendi | Hai phút báo cáo #180


Các nhà học giả thân mến, đây là Two Minute Papers với Károly Zsolnai-Fehér. Đến lúc để một số tâm trí bị nổ tung. DOTA 2 là một trò chơi đấu trường trực tuyến đa người chơi với một đám đông người theo dõi và sự kiện chung kết thế giới với giải thưởng lên đến hơn 20 triệu đô la.

Trong trò chơi này, người chơi hình thành hai đội và điều khiển một anh hùng mỗi đội và sử dụng chiến lược và khả năng đặc biệt của mình để đánh bại đội kia. OpenAI gần đây đã tạo ra một trí tuệ nhân tạo cho trò chơi này mà đã đủ tốt để thách thức những người chơi giỏi nhất trên thế giới.

Bây giờ hãy lưu ý rằng chương trình này không chơi tất cả các tính năng của trò chơi, mà là phiên bản giới hạn chỉ với một đấu một với nhiều yếu tố khác của trò chơi bị vô hiệu hóa. Vì có rất nhiều chiến lược được liên quan đến trò chơi, chúng ta luôn bàn luận trong những tập phim này rằng kế hoạch dài hạn là điểm yếu của các thuật toán học tập này.

Một sai lầm nhỏ trong ván đấu đầu tiên có thể lan rộng và trở nên kiểm soát được vào cuối trận, và rất khó cho trí tuệ nhân tạo, và đôi khi, ngay cả với con người để xác định những trường hợp này.

Và trò chơi này là một thử thách lớn bởi vì khác với cờ vua và cờ tướng, nó có rất nhiều thông tin không đầy đủ, và thậm chí cả chế độ một đấu một được đơn giản hóa cũng liên quan đến một lượng lớn kế hoạch dài hạn. Nó cũng liên quan đến các cuộc tấn công, các chiêu trò và đánh lừa đối thủ và có thể được tưởng tượng như là một trò chơi chiến lược mà cũng đòi hỏi khả năng kỹ thuật đáng kể để thực hiện các động tác hấp dẫn nhất.

Trò chơi này cũng được thiết kế theo cách mà các tình huống mới và không quen thuộc xuất hiện liên tục, đòi hỏi nhiều kinh nghiệm và quyết định phân chia giây lát để nắm bắt. Điều này là một thử thách thực sự đối với bất kỳ loại trí tuệ nhân tạo nào.

Và chú ý rằng trí tuệ nhân tạo này không được nói gì về trò chơi, thậm chí là luật, và chỉ được hướng dẫn để thử tìm cách chiến thắng. Thuật toán được đào tạo trong 24 giờ, và trong thời gian này, nó không chỉ học được về các luật và mục tiêu của trò chơi, mà nó còn thực hiện các chiến thuật đáng kinh ngạc.

Ví dụ, các người chơi khác rất bất ngờ khi bot không rơi vào cái bẫy, điều này thường chỉ đòi hỏi một tư tưởng thông minh liên quan đến tạo ra một trận đánh nhỏ hơn để chiến thắng một mục tiêu lớn hơn. Trí tuệ nhân tạo có rất nhiều kinh nghiệm chơi trò chơi và thường xuyên thấy qua những trò bịt đầu này.

Trong trò chơi này, cũng có các đơn vị trung lập mà chúng ta gọi là creep. Khi bị giết, chúng trao quà tặng là vàng và kinh nghiệm quý báu cho đối thủ của chúng ta, vì vậy chúng ta thường cố gắng từ chối điều đó.

Nếu các đơn vị này gặp trở ngại, chúng sẽ vòng quanh nó, vì vậy người chơi đã phát triển một kỹ thuật gọi là creep blocking, đó là nghệ thuật giữ chúng bằng anh hùng để giảm thiểu khoảng cách đi lại của chúng trong một đơn vị thời gian.

Và trí tuệ nhân tạo không chỉ đã tự học về sự tồn tại của kỹ thuật này, mà nó cũng thực hiện nó với độ chính xác tuyệt vời, điều đó rất đáng nể. Và một lần nữa, trong giai đoạn đào tạo, nó chưa bao giờ nhìn thấy bất kỳ người chơi nào chơi trò chơi và làm điều gì đó như thế này.

Điều đáng chú ý khác là khi một người chơi biến mất trong bóng tối, trí tuệ nhân tạo dự đoán những gì anh ta có thể đang làm, lập kế hoạch xung quanh và tấn công nơi mà người chơi được dự kiến sẽ xuất hiện. Nếu nhớ kỹ, thuật toán Go ban đầu của DeepMind chứa một bước khởi động nơi nó được cung cấp một lượng lớn trò chơi bởi người chơi để nắm bắt các nguyên tắc cơ bản.

Thực sự đáng chú ý là chưa có điều đó xảy ra ở đây. Thuật toán này chỉ được đào tạo trong 24 giờ và chỉ chơi chống lại chính nó. Khi nó cuối cùng chơi chống lại Dendi, nhà vô địch thế giới đương nhiệm, trận đấu đầu tiên đã thật tuyệt vời, và tôi choáng váng khi thấy trí tuệ nhân tạo đã vượt qua anh ta.

Trong trận đấu thứ hai, người chơi đã cố gắng tạo ra một tình huống mà anh ta nghĩ trí tuệ nhân tạo chưa từng gặp phải bằng cách từ chối một số creep cho nó. Chương trình đã tàn nhẫn tận dụng sai lầm này và đánh bại anh ta gần như ngay lập tức.

Bot của OpenAI đã không chỉ thắng, mà còn làm tan nát tâm chí của Dendi, người đã nhượng bộ sau hai trận đấu. Tôi cảm thấy như một người bị đập bằng một chiếc búa cồng kềnh. Tôi thậm chí không biết điều này đang được làm việc! Đây là một thành tựu đáng kinh ngạc.

Thường thì argument đầu tiên tôi nghe là rằng tất nhiên trí tuệ nhân tạo có thể chơi liên tục mà không cần đi vệ sinh hoặc ngủ. Mặc dù, thừa nhận rằng điều này cũng đúng đối với một số người chơi, nhưng thuật toán chỉ được đào tạo trong 24 giờ. Lưu ý rằng điều này vẫn đòi hỏi một lượng lớn trận đấu được chơi, nhưng về mặt thời gian đào tạo, đưa ra rằng những thuật toán này thường mất từ vài tuần đến vài tháng để đào tạo đúng cách, thì 24 giờ là không được bao nhiêu.

Argument thứ hai mà tôi thường nghe là rằng trí tuệ nhân tạo nên thắng mọi lần, vì nó có thời gian phản ứng gần như là 0 và có thể thực hiện hàng nghìn hành động mỗi giây.

Ví dụ, nếu chúng ta chơi một trò chơi nơi mục tiêu là thực hiện nhiều hành động nhất trong mỗi phút, rõ ràng là con người với giới hạn sinh học sẽ không có cơ hội chống lại một chương trình máy tính. Tuy nhiên, trong trường hợp này, số lượng hành động mà thuật toán này thực hiện trong một phút là tương đương với người chơi. Điều này có nghĩa là kết quả này xuất phát từ khả năng kỹ thuật và lập kế hoạch vượt trội, không phải từ việc chúng ta đang nói về một máy tính. Chúng ta có thể nhìn vào kết quả này từ hai góc độ khác nh