围棋怎么算围住中对方和我方得棋都被围住谁先下谁就赢到那一口气水就赢吗

参与:Panda、蛋酱

alpha(α)是希腊字母表的第 1 个字母代表起点;mu(μ)是第 12 个,代表中途从书写了传奇的 AlphaGo 开始,DeepMind 一直在不断更新迭代这一系列的新算法创造了 AlphaGo Zero、AlphaZero 和 MuZero。通用性更强的 MuZero 算法不仅能出色地掌握棋盘游戏而且还在 57 款不同的 Atari 游戏上达到了超越人类的水平。

本文将简单介绍这些算法的演进历程未来,DeepMind 能否创造出这一系列的终极算法 OmegaZero 呢

DeepMind 近期发布了他们开发的 MuZero 算法,并强调其在 57 款不同的 Atari 游戏上达到了超人类的水平

能玩 Atari 游戏的强化学習智能体非常值得研究,这些游戏不仅视觉状态空间非常复杂而且与国际象棋、日本将棋、围棋怎么算围住不一样的是,在 Atari 游戏中智能体无法使用完美模拟器(perfect simulator)来执行规划。

「完美模拟器」的思想是推动 AlphaGo 及 AlphaGo Zero 和 AlphaZero 等后续进展的关键限制条件之一这使得这些智能体受限于國际象棋、日本将棋、围棋怎么算围住,对机器人控制等现实世界应用而言没什么用处

以马尔可夫决策过程(MDP)为框架,可以将强化学習问题描述为:

国际象棋、日本将棋、围棋怎么算围住智能体带有一个知道如何去玩的模拟器

通过整合规划来扩展强化学习问题框架

DeepMind 的 AlphaGo、AlphaGo Zero 和 AlphaZero 使用了「(动作, 状态) → 下一个状态」这样的完美模型,以蒙特卡洛树搜索(MCTS)的形式执行前向规划在策略映射和价值估计方面,MCTS 能为罙度神经网络提供完美的补充因为它能平均化这些函数近似中的误差。MCTS 为 AlphaZero 在下国际象棋、日本将棋、围棋怎么算围住方面提供极大的帮助让其可以在完美的环境模型中执行完美的规划。

MuZero 利用 MCTS 规划的方式是通过学习一个动态模型如下图所示:

MuZero 的蒙特卡洛树搜索。

基于模型的强化学习在模型中重建像素空间的示例来自:/articles/nature16961

}

我要回帖

更多关于 围棋怎么算围住 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信