DeepMind và AlphaZero

Khoảng ba năm trước đây, DeepMind, một công ty thuộc sở hữu của Google chuyên phát triển AI, đã thu hút sự chú ý của nó vào trò chơi cổ của Go. Go đã là một trong những trò chơi mà đã tránh được tất cả các nỗ lực máy tính để trở thành đẳng cấp thế giới, và thậm chí cho đến khi thông báo được coi là một mục tiêu mà sẽ không thể đạt được cho một thập kỷ nữa! Đây là sự khác biệt lớn như thế nào. Khi một thách thức công cộng và trận đấu đã được tổ chức chống lại cầu thủ huyền thoại Lee Sedol, một người Hàn Quốc có thành tích ghi được trong bảng xếp hạng lớn nhất của mọi người, mọi người đều nghĩ rằng nó sẽ là một cảnh tượng thú vị, nhưng một chiến thắng nhất định của con người. Câu hỏi đặt ra là dù chương trình AlphaGo có chiến thắng hay thua cuộc, nhưng nó gần với mục tiêu của Thánh Chén Thánh. Kết quả là một chiến thắng 4-1 nghiền nát, và một cuộc cách mạng trong thế giới Go. Mặc dù đã có một sự đoán trước lần thứ hai bởi tầng lớp thượng lưu, những người không thể chấp nhận sự mất mát, cuối cùng họ đã chấp nhận thực tế của AlphaGo, một loại máy nằm trong số những thứ tốt nhất, mặc dù không thể nào vượt qua. Nó đã mất một trò chơi sau khi tất cả.AlphaGo logo

f:id:danhcotuong01:20180119180659j:plain

Saga đã không kết thúc ở đó. Một năm sau, một phiên bản cập nhật mới của AlphaGo đã được đưa ra chống lại thế giới số một của Go, Ke Jie, một thanh thiếu niên người Trung Quốc có thiên tài không phải là không có song song với Magnus Carlsen trong cờ vua. Ở tuổi 16, ông đã giành được danh hiệu thế giới đầu tiên của mình và đến tuổi 17 là số một thế giới rõ ràng. Điều đó đã xảy ra vào năm 2015, và bây giờ ở tuổi 19, ông thậm chí còn mạnh mẽ hơn. Trận đấu mới được tổ chức ở Trung Quốc, và thậm chí cả Ke Jie biết rằng anh ấy có thể là một người thua cuộc nghiêm trọng. Không có ảo tưởng nữa. Anh ấy chơi tuyệt vời nhưng vẫn thua một trận 3-0 hoàn hảo, chứng tỏ khả năng tuyệt vời của AI mới.

Nhiều người chơi cờ vua và các chuyên gia đã tự hỏi làm thế nào nó sẽ làm trong trò chơi quý tộc của cờ vua. Có những nghi ngờ nghiêm trọng về thành công của nó. Go là một trò chơi rất lớn và dài với một lưới 19x19, trong đó tất cả các mảnh đều giống nhau, và không phải là một di chuyển. Tính toán trước như trong cờ vua là một bài tập vô ích vì vậy việc nhận dạng khuôn mặt là vua. Chess là rất khác nhau. Không có nghi ngờ gì về giá trị kiến ​​thức và sự thừa nhận mô hình trong cờ vua, nhưng trò chơi hoàng gia là rất cao về mặt chiến thuật và rất nhiều kiến ​​thức có thể được bù đắp bởi việc tính toán đơn giản đối thủ. Điều này đã được thực sự không chỉ của cờ vua máy tính, nhưng con người là tốt.

Tuy nhiên, có một số kết quả đáng ngạc nhiên trong vài tháng qua cần được hiểu rõ. Sở thích của DeepMind trong Go đã không kết thúc bằng sự so sánh đó với số một. Bạn có thể tự hỏi mình phải làm gì sau đó? Đánh bại anh ta 20-0 và không chỉ 3-0? Tất nhiên là không rồi. Tuy nhiên, chương trình Super Go đã trở thành một bài kiểm tra chất lượng bên trong của một loại. Tiêu chuẩn của nó không được yêu cầu và định lượng, vì vậy nếu ai đó muốn thử nghiệm một AI mới tự học, và nó tốt như thế nào, sau đó ném nó vào Go và xem cách nó so với chương trình AlphaGo sẽ là một cách để đo nó.

AI mới được tạo ra có tên AlphaZero. Nó có nhiều thay đổi đáng kinh ngạc khác nhau. Đầu tiên là nó đã không được hiển thị hàng chục ngàn trò chơi chính trong Go để học hỏi, thay vì nó đã được hiển thị không có. Không phải là duy nhất. Nó chỉ đơn giản chỉ ra các quy tắc, mà không có bất kỳ thông tin khác. Kết quả là một cú sốc. Chỉ trong ba ngày chương trình Go hoàn toàn tự học của Go mạnh mẽ hơn phiên bản đã đánh bại Lee Sedol, kết quả là AI trước đây đã cần hơn một năm để đạt được. Trong vòng ba tuần nó đã đánh bại mạnh nhất AlphaGo đã đánh bại Ke Jie. Hơn nữa: trong khi phiên bản Lee Sedol đã sử dụng 48 bộ xử lý chuyên dụng để tạo ra chương trình, phiên bản mới này chỉ sử dụng 4 lần!

 

Biểu đồ cho thấy sự phát triển tương đối của AlphaZero: Nguồn: DeepMind

AlphaZero học cờ vua
Tiếp cận cờ vua có thể vẫn có vẻ bất thường. Dù sao đi chăng nữa, mặc dù DeepMind đã thể hiện gần những đột phá mang tính cách mạng nhờ Go, đó vẫn là một trò chơi chưa được giải quyết. Cờ vua đã có Deep Blue cách đây 20 năm, và ngày nay thậm chí một điện thoại thông minh tốt cũng có thể đánh bại được thế giới số một. Có gì để chứng minh chính xác?

 

Garry Kasparov được nhìn thấy trò chuyện với Demis Hassabis, người sáng lập DeepMind | Ảnh: Lennart Ootes

Cần nhớ rằng Demis Hassabis, người sáng lập ra DeepMind có một mối liên kết cờ vua sâu sắc. Anh đã từng là một thần đồng chơi cờ vua theo quyền của mình, và ở tuổi 13 là cầu thủ được xếp hạng cao thứ hai dưới 14 tuổi trên thế giới, đứng thứ hai chỉ sau Judit Polgar. Ông cuối cùng đã rời bỏ chương trình đánh cờ để theo đuổi những thứ khác, chẳng hạn như sáng lập công ty trò chơi điện tử trên máy tính của riêng mình ở tuổi 17, nhưng liên kết ở đó. Vẫn còn một câu hỏi nảy lửa trên đầu của mọi người: chỉ cần AlphaZero làm tốt như thế nào nếu nó tập trung vào cờ vua? Nó sẽ rất thông minh, nhưng bị đập vỡ bởi các động cơ số crunching của ngày hôm nay, nơi một lớp đơn thường là sự khác biệt giữa chiến thắng hay thua? Hay một điều gì đó đặc biệt sẽ đến?

 

Giáo sư David Silver giải thích cách AlphaZero đã có thể tiến bộ nhanh hơn khi phải tự học mọi thứ bằng cách chống lại tphân tích số lượng lớn dữ liệu. Hiệu quả của một thuật toán nguyên tắc là yếu tố quan trọng nhất. Một mô hình mới Vào ngày 5 tháng 12, nhóm DeepMind đã công bố một bài báo mới tại trang web của Đại học Cornell có tên là "Mastering Chess và Shogi bởi Self-Play với một thuật toán học tăng cường tổng quát" và kết quả không có gì đáng kinh ngạc. AlphaZero đã làm được nhiều hơn là chỉ làm chủ được trò chơi, nó đã đạt được những đỉnh cao mới theo những cách không thể tưởng tượng được. Kiểm tra là trong bánh pudding tất nhiên, do đó, trước khi đi vào một số chi tiết nitty-gritty hấp dẫn, chúng ta hãy cắt giảm để đuổi theo. Nó đã chơi một trận đấu với phiên bản mới nhất và lớn nhất của Stockfish, và giành được điểm số tuyệt vời là 64: 36, và không chỉ vậy, AlphaZero đã không thua lỗ (28 trận thắng và 72 trận hòa)! Stockfish không cần phải giới thiệu về độc giả ChessBase, nhưng đáng chú ý là chương trình đã chạy trên một máy tính chạy nhanh gấp 900 lần! Thật vậy, AlphaZero đã tính toán khoảng 80 nghìn vị trí mỗi giây, trong khi Stockfish, chạy trên một máy tính với 64 luồng (có thể là một máy tính 32 lõi) đang chạy với tốc độ 70 triệu vị trí / giây. Để hiểu rõ hơn mức thâm hụt lớn, nếu một phiên bản khác của Stockfish chạy chậm hơn 900 lần, điều này tương đương với khoảng 8 động thái không sâu. Sao có thể như thế được? AlphaZero bù đắp cho số lượng thấp hơn của các đánh giá bằng cách sử dụng mạng lưới thần kinh sâu của nó để tập trung nhiều hơn nữa chọn lọc về các biến thể hứa hẹn nhất - được cho là một cách tiếp cận "giống con người" hơn để tìm kiếm, như đề xuất ban đầu của Shannon. Hình 2 cho thấy khả năng mở rộng của mỗi người chơi đối với thời gian suy nghĩ, được đo bằng thang Elo, tương ứng với Stockfish hay Elmo với thời gian suy nghĩ 40ms. AlphaZero's MCTS hiệu quả hơn với thời gian suy nghĩ hơn là Stockfish hay Elmo, và đặt câu hỏi về sự tin tưởng rộng rãi rằng sự tìm kiếm alpha-beta vốn có vượt trội hơn trong các lĩnh vực này. "Biểu đồ này cho thấy rằng AlphaZero còn phải suy nghĩ nhiều, Nói cách khác, thay vì một phương pháp tiếp cận lực lượng lai, vốn là cốt lõi của các công cụ cờ vua ngày nay, nó đi theo một hướng hoàn toàn khác, lựa chọn một cách tìm kiếm cực kỳ có chọn lọc để mô phỏng con người suy nghĩ như thế nào. Một cầu thủ hàng đầu có thể tính toán được một cầu thủ yếu hơn cả về tính nhất quán và chiều sâu, nhưng nó vẫn là một trò đùa so với những gì mà các chương trình máy tính yếu kém đang làm. Đó là kiến ​​thức tuyệt vời của con người và khả năng lọc ra rất nhiều động thái cho phép họ đạt được tiêu chuẩn họ làm. Hãy nhớ rằng mặc dù Garry Kasparov đã thua Deep Blue, nhưng rõ ràng là nó thực sự mạnh mẽ hơn anh ấy thậm chí cả khi nó đạt tốc độ 200 triệu điểm mỗi giây. Nếu AlphaZero thực sự có thể sử dụng sự hiểu biết của nó để không chỉ bù đắp 900 lần di chuyển ít hơn, nhưng vượt qua chúng, thì chúng ta đang nhìn vào một sự thay đổi mô hình chính. Nó chơi như thế nào? Vì AlphaZero không có lợi từ bất kỳ kiến ​​thức cờ vua nào, có nghĩa là không có trò chơi hoặc lý thuyết mở, điều đó cũng có nghĩa là nó phải tự khám phá lý thuyết mở đầu. Và nhớ rằng đây là kết quả của chỉ 24 giờ tự học. Nhóm nghiên cứu đã tạo ra những đồ thị hấp dẫn cho thấy những lỗ hổng mà nó phát hiện cũng như những đồ thị nó dần dần bị loại bỏ khi nó phát triển mạnh mẽ hơn! Giáo sư David Silver, nhà khoa học đứng đầu AlphaZero, giải thích cách AlphaZero học cách mở trong Go, và dần dần bắt đầu loại bỏ một số lợi ích cho người khác khi nó được cải thiện. Cũng giống như trong cờ vua. Trong sơ đồ trên, chúng ta có thể thấy rằng trong những game đầu tiên, AlphaZero đã khá hăng hái tham gia vào đội phòng thủ của Pháp, nhưng sau hai giờ (điều này làm nhục nhã) bắt đầu chơi nó càng ít càng tốt. Caro-Kann đã giải quyết tốt hơn, và giữ một vị trí chính trong các lựa chọn mở AlphaZero cho đến khi nó cũng dần dần lọc ra. Vậy AlphaZero đã thực sự thích hoặc chọn gì khi kết thúc quá trình học của nó? Khai mạc tiếng Anh và Nữ hoàng của Gambit! Bài báo cũng kèm theo 10 trò chơi để chia sẻ kết quả. Nó cần phải được nói rằng đó là rất khác nhau từ giá vé thông thường của các trò chơi động cơ. Nếu Karpov đã từng là một công cụ cờ vua, ông có thể đã được gọi là AlphaZero. Có một cách tiếp cận núm vú giả vờ mà không hề có ai biết đến. Các động cơ cờ vua hiện đại tập trung vào hoạt động, và có các biện pháp bảo vệ đặc biệt để tránh các vị trí bị chặn vì họ không hiểu về chúng và thường thấy mình chết tiệt trước khi chúng nhận ra nó. AlphaZero không có những định kiến ​​hay vấn đề như vậy, và dường như phát triển mạnh khi đánh bật lối chơi của đối phương. Nó ấn tượng rất ấn tượng, và điều gây kinh ngạc là làm thế nào nó cũng có thể tìm ra các chiến thuật mà các động cơ có vẻ mù quáng. AlphaZero - Stockfish 8 (Game 5) Vị trí sau 20 ... Kh8 Trong vị trí này từ Game 5 của mười xuất bản, vị trí này phát sinh sau khi di chuyển 20 ... 

8. Các mảng hỗn hợp hoàn toàn của miếng của Black là nổi bật, và AlphaZero đến với các tuyệt vời 21.Bg5 !! Sau khi phân tích nó và hậu quả, không có vấn đề gì là di chuyển kẻ giết người ở đây, và trong khi máy tính xách tay của tôi không thể sản xuất 70 triệu vị trí mỗi giây, tôi đã đưa nó cho Houdini 6.02 với 9 triệu vị trí mỗi giây. Nó phân tích nó trong một giờ và không thể tìm thấy 21.Bg5 !! Một ảnh chụp màn hình của Houdini 6.02 sau một giờ phân tích Dưới đây là một chút đá quý khác của một cú sút, trong đó AlphaZero đã hoàn toàn đánh bại Stafffish theo vị trí, và bây giờ kết thúc tốt đẹp với một số chiến thuật. Nhìn vào chuỗi game đáng kinh ngạc này trong trò chơi thứ chín: AlphaZero - Stockfish 8 (Game 9) Ở đây AlphaZero đã chơi một trò chơi tuyệt vời 30. Bxg6 !! Mối đe dọa rõ ràng là 30 ... fxg6 31. Qxe6 +, nhưng làm thế nào để bạn tiếp tục sau khi trò chơi của 30 ... Bxg5 31. Qxg5 fxg6? Ở đây AlphaZero tiếp tục với 32. f5 !! và sau 32 ... Rg8 33. Qh6 Qf7 34. f6 có được một ràng buộc chết người, và làm việc nó vào một chiến thắng 20 di chuyển sau đó. Thời gian để có được một từ điển cho tất cả các tài liệu tham khảo đồng nghĩa với 'tuyệt vời'. Những gì đang ở phía trước Vì vậy, nơi này để lại cờ vua, và những gì có nghĩa là nói chung? Đây là một trò chơi thay đổi, một từ mà thường được sử dụng và lạm dụng, và không có cách nào khác để mô tả nó. Deep Blue là một thời điểm đột phá, nhưng kết quả của nó là nhờ phần cứng chuyên dụng cao mà mục đích của nó là để chơi cờ vua, không gì khác. Ví dụ, nếu ai đó đã cố gắng làm cho nó phát Go, nó sẽ không bao giờ có hiệu quả. Điều này hoàn toàn mở AI có thể học được từ ít nhất thông tin và đưa nó đến mức độ mà trước đây không bao giờ tưởng tượng không phải là một mối đe dọa để đánh bại chúng ta ở bất kỳ hoạt động nào, đó là một lời hứa để phân tích các vấn đề như bệnh tật, đói nghèo , và các vấn đề khác theo những cách có thể dẫn đến các giải pháp chính hãng. Đối với cờ vua, điều này có thể dẫn đến động cơ đột phá thực sự theo bước chân này. Đó là những gì đã xảy ra trong Go. Trong nhiều năm và nhiều năm, các chương trình Go đã ít nhiều bị mắc kẹt ở nơi họ ở, không thể đạt được những tiến bộ có ý nghĩa, và sau đó đi cùng AlphaGo. Không phải vì AlphaGo cung cấp một số cảm hứng để 'cố gắng hơn', bởi vì cũng như ở đây, một bài báo đã được xuất bản đã nêu chi tiết tất cả các kỹ thuật và các thuật toán được phát triển và sử dụng để người khác có thể theo bước chân của họ. Và họ đã làm. Thực sự trong vòng vài tháng, các phiên bản mới của chương trình hàng đầu như Crazy Stone đã bắt đầu cung cấp các công cụ cập nhật với Deep Learning, đã đưa hàng trăm (số nhiều) Elo vào cải tiến. Đây không phải là quá cường điệu.