AI AlphaGo Zero ra mắt Cờ Vua, Cờ Vây và Cờ Tướng Shogi trong vòng vài giờ

Chương trình AlphaZero do GoogleDeepMind phát triển đã mất bốn giờ để chơi. Nó có thể đánh bại bất kỳ người nào và đánh bại Best World Computer Stockfish 28 trận chiến thắng trong 100 trận đấu.

download co tuong

 

f:id:danhcotuong01:20180205163820j:plain

AlphaZero đã đạt được trong vòng 24 giờ, mức độ siêu phàm trong các trò chơi cờ vua và shogi (cờ vua Nhật) cũng như Go AlphaZero đã thể hiện rõ và đã đánh bại một chương trình vô địch thế giới trong vòng 24 giờ.

Trò chơi tự chơi được tạo ra bằng cách sử dụng các thông số mới nhất cho mạng nơron này, bỏ qua bước đánh giá và lựa chọn của kỳ thủ tốt nhất.

choi co tuong

AlphaGo Zero đã điều chỉnh các thông số của tìm kiếm bằng cách tối ưu hóa Bayesian. Trong AlphaZero, họ sử dụng lại các thông số siêu giống nhau cho tất cả các trò chơi mà không cần điều chỉnh cụ thể trò chơi. Ngoại lệ duy nhất là tiếng ồn được thêm vào chính sách trước để đảm bảo thăm dò; điều này được thu nhỏ thành số lượng di chuyển pháp lý điển hình cho loại trò chơi đó.

Giống như AlphaGo Zero, bàn cờ vua được mã hoá bằng không gian planes chỉ dựa trên cơ sở quy tắc cho mỗi trò chơi. Các hành động được mã hoá bởi một trong hai kế hoạch không gian hoặc một vector phẳng, một lần nữa dựa trên các quy tắc cơ bản cho mỗi trò chơi.

co tuong up

Họ đã áp dụng thuật toán AlphaZero cho cờ vua, shogi, và như vậy. Trừ khi có quy định khác, các thiết lập thuật toán, kiến ​​trúc mạng và các tham số siêu đã được sử dụng cho cả ba trò chơi. Họ đã huấn luyện một trường hợp riêng biệt của AlphaZero cho mỗi trò chơi. Đào tạo tiến hành 700.000 bước (mini-batches kích thước 4.096) bắt đầu từ các tham số khởi tạo ngẫu nhiên,
Sử dụng 5,000 TPU thế hệ đầu tiên để tạo ra các trò chơi tự chơi và 64 thế hệ thứ hai
TPUs để đào tạo các mạng thần kinh.

Trong cờ vua, AlphaZero vượt trội hơn Stockfish chỉ sau 4 giờ (300k nước đi); trong cờ shogi, AlphaZero đã vượt trội Elmo sau ít hơn 2 giờ (nước đi 110k); và trong cờ vây Go, AlphaZero đã vượt trội AlphaGo Lee (29) sau 8 giờ (nước đu 165k).

Trò chơi cờ vua trình bày đỉnh cao của nghiên cứu về AI trong nhiều thập kỷ. Nhà ofthe-art hàng triệu vị trí, tận dụng chuyên môn lĩnh vực thủ công và thích ứng các lĩnh vực phức tạp. AlphaZero là một loại tăng cường học thuật toán - ban đầu đã được lập ra cho các trò chơi của cờ vây Go - kết quả trong một vài giờ, tìm kiếm một nghìn lần ít hơn vị trí, không có domain.