Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Chào các bạn học giả, đây là Two Minute Papers với Károly Zsolnai-Fehér. Nghiên cứu này liên quan đến việc cải thiện học tăng cường. Học tăng cường là một thuật toán học máy mà chúng ta có thể sử dụng để lựa chọn một bộ các hành động trong một môi trường để tối đa hóa điểm số.
Các ứng dụng ví dụ có thể kể đến là điều khiển trực thăng, trong đó điểm số cần được tối đa hóa sẽ tỉ lệ với khoảng cách chúng ta đi được một cách an toàn, hoặc bất kỳ trò chơi máy tính nào mà bạn yêu thích, trong đó điểm số có thể mô tả cách chúng ta đang chơi. Ví dụ, trong trò chơi Frostbite, điểm số của chúng ta sẽ mô tả số lần chúng ta nhảy tránh các chướng ngại vật mà không bị chết và điểm số này phải được tối đa hóa.
Trước đây, các nhà khoa học tại DeepMind đã kết hợp một học tăng cường với một mạng nơ-ron sâu để thuật toán có thể xem vào màn hình và chơi trò chơi như một người chơi thật sự. Vấn đề này đặc biệt khó khăn khi thưởng không được cấp cho chúng ta quá nhiều.
Giống như những sinh viên hoang mang sau khi thi viết khi chỉ có một điểm số tổng thể được cung cấp, nhưng kết quả cho từng bài kiểm tra không được hiển thị. Rất khó để biết được chúng ta đã làm tốt ở đâu và chúng ta phải học thêm các chủ đề phù hợp để cải thiện kết quả. Khi bắt đầu, học sinh bắt đầu khám phá không gian tham số và thực hiện các hành động kỳ lạ, có vẻ không có ý nghĩa cho đến khi tìm thấy một số tình huống mà chúng có thể làm tốt.
Điều này có thể được coi là thêm nhiễu vào các hành động của tác nhân. Các nhà khoa học tại OpenAI đã đề xuất một phương pháp trong đó họ thêm nhiễu không trực tiếp vào các hành động, mà là vào các tham số của tác nhân, dẫn đến các biến động phụ thuộc vào thông tin mà tác nhân cảm nhận. Điều này dẫn đến việc khám phá ít hỗn loạn và cải thiện đáng kể thời gian cần cho việc học các nhiệm vụ với phần thưởng thưa thớt.
Ví dụ, trong trò chơi đi bộ, việc sử dụng thuật toán với không gian tham số nhiễu có thể học được khái niệm của việc đi chập chững, trong khi phương pháp truyền thống thì, thôi thì tốt nhất là không thể nói! Tuy nhiên, giải pháp không đến mà không gặp phải thách thức nào, ví dụ, các lớp khác nhau phản ứng khác nhau với nhiễu thêm này, và hiệu ứng của nhiễu trên các đầu ra tăng lên theo thời gian, điều này đòi hỏi phải thay đổi lượng nhiễu được thêm vào tùy thuộc vào tác động dự kiến lên đầu ra. Kỹ thuật này được gọi là độ lớn nhiễu điều chỉnh. Nhiều so sánh và chi tiết thú vị khác có trong bài báo, hãy xem chi tiết trong phần mô tả video.
DeepMind với học tăng cường sâu đã được xuất bản từ năm 2015 với những thành tựu đáng ngạc nhiên và các trò chơi với cấp độ siêu-nhân. Hơn thế nữa, nó đã được cải tiến đáng kể so với phiên bản ban đầu. Và khi nói đến OpenAI, tất nhiên, mã nguồn dự án này có sẵn dưới giấy phép MIT linh hoạt. Trong khi đó, chúng tôi đã có thể nâng cấp toàn bộ quy trình ghi âm của mình thông qua sự hỗ trợ của các bạn trên Patreon. Điều này là điều mà tôi mong chờ trong thời gian dài và không chỉ vậy, mà chúng tôi còn có thể mở rộng các đơn vị xử lý âm thanh của chúng tôi sử dụng trí tuệ nhân tạo và hoạt động như phép màu. Rất phù hợp cho loạt video của chúng tôi, phải không nào? Tiếp theo là một phòng thu hoặc một góc thu âm với sự xử lý âm thanh đáp ứng, tùy thuộc vào ngân sách của chúng tôi.
Một bài viết chi tiết hơn về điều này có sẵn trong phần mô tả video, hãy xem chi tiết. Cảm ơn bạn đã xem và sự hỗ trợ rộng rãi của bạn, và tôi sẽ gặp lại bạn trong lần tới!