AI 的游戏能力仍然存在缺陷:一款儿童游戏,让顶尖AI集体“翻车”
发布时间:2026-03-14 20:33:13 浏览量:2
AlphaZero征服了国际象棋、围棋和将棋,被很多人视为人工智能的巅峰成就。但伦敦帝国理工学院和伦敦玛丽女王大学的研究人员最近做了一件颇有些"捣蛋"意味的事:他们让这套自我对弈框架去学一款小学生都能玩的火柴棍游戏"尼姆"(Nim),结果出了洋相。
这项发表在《机器学习》期刊上的研究发现,AlphaZero式的AI在尼姆这款有着完整数学解答的简单游戏上,依然会产生明显的"盲点",在许多关键位置上无法找到最优走法。
尼姆的规则极其简单:两名玩家轮流从若干棋堆中取走任意数量的棋子,拿走最后一颗棋子者获胜。
它的最优策略在数学上已被完全解决,依赖一种叫做"尼姆和"(nim-sum)的按位异或运算。只要做一次简单的二进制计算,每一步的最佳走法都一清二楚。
研究人员正是利用这一点做了一个精准的诊断实验:由于每个位置的正确走法都是已知的,他们可以精确测量AI在整个状态空间中究竟学到了什么,而不是仅凭胜负结果来评判。
实验结果令人意外。研究团队发现,在棋堆较少(5堆)的情况下,训练后的AI确实能在初始位置准确识别最优走法,政策网络有时甚至给出高达97.9%的置信度。然而,在同一个5堆棋局的某些中间位置,这套系统却以97.4%的置信度"锁定"了一步错误走法,即使运行超过400万次模拟搜索,也完全无法纠偏,正确走法的概率反而越搜越低。
当棋堆数量增加到7堆时,情况更加糟糕。价值网络对所有局面给出的评分几乎全部接近于零,策略网络对所有合法走法分配的概率也几乎均等,本质上已经退化为随机猜测,而这距离随机策略毫无二致。
这里有一个微妙但关键的区分,研究团队称之为"冠军视角"和"专家视角"的差异。
从"冠军视角"看,即通过Elo积分衡量对弈胜率,AI的表现随着训练持续提升,在较小的棋盘上确实能赢得大多数对局,看起来相当有竞争力。
尼姆棋游戏状态示意图。左图展示了初始棋盘状态,包含五个棋堆:[n1, n2, n3, n4, n5] = [1, 3, 5, 7, 9]。中间图描绘了游戏过程中的一个中间棋盘状态:[v1, v2, v3, v4, v5] = [1, 2, 4, 4, 3],这是玩家移除棋子后的结果。右图代表游戏结束状态,此时所有棋子都被移除,最后一位玩家获胜。图片由伦敦帝国理工学院研究员周蓓博士和伦敦玛丽女王大学计算机科学系讲师索伦·里斯博士绘制。
但从"专家视角"来看,也就是检验AI是否真正学会了最优策略,结论截然不同。随着棋盘规模增大,策略网络的准确率急剧下降,7堆棋局中的准确率已与随机值无异。这意味着AI的"赢",更多是靠对常见局面的模式记忆,而非真正掌握了背后的数学原理。
玛丽女王大学计算机科学系的索伦·里斯博士将其描述为一个根本性的困境:神经网络在从自我对弈中生成的嘈杂数据里,极难学习"奇偶性"这类抽象的数学函数。尼姆的最优策略恰恰完全依赖于此,这让它成为了一块专门"照出"当前AI缺陷的镜子。
值得注意的是,这并非AlphaZero本身的失败,研究者也明确强调,这项工作无意贬低AI在国际象棋或围棋上取得的卓越成就。那些成就是真实的,而且极为令人印象深刻。这项研究的意义在于,它精确描绘了现有方法的边界,以及边界之外的那片盲区。
在现实应用中,系统可能在99%的常见情况下表现出色,却在那1%罕见但至关重要的场景下彻底失效。无论是医疗诊断、金融决策还是自动驾驶,这种"能赢却不懂为什么赢"的脆弱性,都可能带来不可忽视的风险。
研究人员认为,解决方案的方向可能在于引入更抽象的表示方式,或采用将模式学习与符号推理相结合的混合方法,让AI不仅能"记住"表象,还能真正理解规则背后的逻辑结构。这也许是通往更可靠、更可解释的人工智能的一条必经之路。
