1.大量了解人類棋手:這是AlphaGo最初的學習方法,通過大量了解人類棋手來理解和模擬人類的棋局策略和技巧。
2.自我深度學習:AlphaGo在完成初始學習後,開始進入完整的自我深度學習階段。在這個階段,它完全拋棄了人類棋手的思維模式,而是通過“左右搏擊”,以自己的方式自主學習圍棋。
3.結合監督學習和強化學習的優勢:在自我深度學習階段,AlphaGo結合了監督學習和強化學習的優勢。具體來說,它通過訓練形成策略網絡,把棋盤上的情況作為輸入信息,對所有可行位置形成壹個概率分布。
4.訓練價值網預測自局:AlphaGo還訓練了壹個價值網,通過學習自局的預測來預測所有可行位置的結果,標準為-1(對手的絕對勝利)到1(alpha go的絕對勝利)。
通過以上的學習方法,AlphaGo不斷優化和提高自己的圍棋技術,最終達到了非常高的水平。