598.请你做一个不讲武德的大师（第10章）_重生男神从做游戏开始

　　然耐心地解释到，“我之前不是说了吗？我们改进的新方案，是让博米围棋大师有两个大脑。

　　它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

　　第一大脑：落子选择器

　　博米围棋大师的第一个神经网络大脑是“监督学习的策略网络”，观察棋盘布局企图找到最佳的下一步。

　　事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

　　第二大脑叫做，棋局评估器。博米围棋大师的第二个大脑相对于落子选择器是回答另一个问题，它不是去猜测具体下一步，而是在给定棋子位置情况下，预测每一个棋手赢棋的概率。

　　这“局面评估器”就是“价值网络”，通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的，但对于阅读速度提高很有帮助。

　　通过分析归类潜在的未来局面的“好”与“坏”，博米围棋大师能够决定是否通过特殊变种去深入阅读。

　　如果局面评估器说这个特殊变种不行，那么ai就跳过阅读。

　　这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以人们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。

　　博米围棋大师为了应对围棋的复杂性，结合了监督学习和强化学习的优势。

　　它通过训练形成一个策略网络，将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。

　　然后，训练出一个价值网络对自我对弈进行预测，以-1（对手的绝对胜利）到1（博米围棋大师的绝对胜利）的标准，预测所有可行落子位置的结果。

　　这两个网络自身都十分强大，而博米围棋大师将这两种网络整合进基于概率的蒙特卡罗树搜索中，实现了它真正的优势。

　　新版的博米围棋大师产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

　　在获取棋局信息后，博米围棋大师会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。

　　在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为博米围棋大师的最终选择。

　　在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，博米围棋大师的搜索算法就能在其计算能力之上加入近似人类的直觉判断。”

　　“嗯……很好。”曹阳点点头，“我已经听懵了。”

　　妈耶，这人居然还真的想要教会我。

　　对不起

　　请收藏：https://m.gwylt.com