当地时间 8 月 5 号,这场由谷歌和 Kaggle 举办的线上大模型国际象棋比赛开启了为期三天的直播。
但不同对手间的比赛也有快有慢。最快的是 o3 VS Kimi K2,四小局比赛总共才用了不到半小时:主要原因是 Kimi K2 不停犯错,选择的落子位置连续违反国际象棋规则(稍后会解释具体游戏规则)。
而最久的比赛来自 o4-mini VS DeepSeek R1,用了近两个小时才结束整场比赛,说明双方还是很旗鼓相当的。
图 o4-mini 战胜 DeepSeek R1 的最后一手(来源:Kaggle)
值得注意的是,这些直播比赛的性质是表演赛,Kaggle 计划在后台运行更多对决,最终目标是生成一个具有统计意义的“AI 棋王”排行榜。
它是 Kaggle 与谷歌 DeepMind 联合推出的全新 AI 基准测试平台,旨在让领先的人工智能模型在国际象棋等复杂策略游戏中展开正面较量。
与以往静态任务不同,该平台通过对抗竞技的方式进行评测:各参赛模型需要在明确的胜负条件下进行多轮对局,其胜负结果即为模型能力的直接量化指标。
谷歌表示,这一动态测试方式有效避免了传统基准测试可能出现的“背题”问题,使其能够“超越静态分数”,更深入地观察 AI 在真实竞争环境中的表现。
这一理念的起点是棋盘游戏的天然优势:国际象棋等游戏具有结构化和可量化的胜利标准,能够考验模型的策略推理、长远规划和动态应变能力,并随着对手强度的提高而自动提升难度。
事实上,谷歌 DeepMind 早在 2017 年就通过 AlphaZero 项目证明了自我对弈的威力:AlphaZero 仅用强化学习自学棋艺数小时,即以压倒性优势在 100 局比赛中战胜当时最强的国际象棋引擎 Stockfish。
不过,参加 Kaggle 对决的模型并非专用棋类引擎,而是以大型语言模型(LLM)为代表的通用 AI。
这些模型目前的棋力还远低于 AlphaZero,多数仅处于业余水平,并且经常出现非法落子或荒唐认输等错误——在直播中也屡见不鲜,而且有的大模型还很执着,即使给它重新思考的机会,它也经常固执己见。
尽管如此,它们能够输出对每一步棋的“思考过程”说明,这是传统引擎所不具备的特点。这种动态对抗不仅记录胜负,还让我们得以探知 AI 的“思维过程”,为AI 战略智能的发展提供了独特视角。
赛事以模拟对局方式进行并同步在线直播,著名国际象棋大师也参与其中,包括国际象棋特级大师中村光(Hikaru Nakamura)、国际象棋特级大师马格努斯·卡尔森(Magnus Carlsen)和国际象棋网红莱维·罗斯曼(Levy Rozman,即 GothamChess)。
赛事采用单败淘汰赛制,参赛模型通过赛前预热赛确定种子排名,然后进入对阵表。
谷歌表示,“排名靠前的模型将面对排名较低的对手,以确保平衡的排名,并防止两个最强种子在决赛前相遇。”
每场对决按照标准的棋盘规则执行,赛后 Kaggle 还将在其平台上维护一个类似 Elo 的实时排行榜,用于跟踪所有模型的表现。在未来计入排行榜的对决中,所有模型间将进行全对弈(all-play-all)的形式对局:即每一对模型至少对弈上百局,以获得统计稳定的排名结果。
评分系统采用类似高斯分布的动态估计,胜者评分上升、败者下降,平局则双方分数向均值靠拢。更新幅度取决于对局结果与比赛前预期胜率的偏差,以及各模型评分的不确定度(σ 值)。随着比赛进行,每个模型的 σ 逐渐降低,评分趋于稳定。
这种机制类似国际象棋的 Elo 体系,使得模型实力随着更多对局累积得到不断校准和量化。通过比赛产生的全局对局数据,Kaggle 会不断完善各模型的能力计算方式,公众可随时在排行榜页面查看最新排名和对局记录。
值得注意的是,为了公平性和可分析性,所有参赛模型都以文本输入输出的方式进行对局,并被禁止调用任何外部棋力计算工具。
每一步,比赛平台向模型提供当前棋盘状态(采用 Forsyth-Edwards 记谱法)及棋谱历史(采用 PGN 格式),模型必须以标准代数记谱(SAN)格式给出下一步合法落子。
模型不会被直接告知可行走法列表,必须自主判断后输出答案;如果模型输出了非法走法,则会被提示重试,最多允许四次尝试(一次初始提交加三次重试)。若模型仍无法给出合法走法,则该局判定为模型的失利,胜者赢得比赛。
同样,为了节奏控制,每一步棋设有 60 分钟的应答时限。比赛直播除了记录对局结果,还会尝试展示每个模型的思考过程——即模型在每走一步前的输出内容,为赛后分析模型行为提供素材。
谷歌团队指出,棋局比赛提供了清晰且严格的成功信号,能够全面考察模型的综合推理能力。由于国际象棋的复杂性和变化性,无论是开局还是残局,模型都必须处理动态变化的对抗局面,并策划多步行动才能取胜。
这一点与企业和现实生活中的许多复杂决策过程有相似之处:需要战略规划、记忆历史信息、应变对手策略,甚至涉及一定的心智理论,即推测对方意图。
值得一提的是,目前绝大多数大型语言模型并非专门为下棋设计,因此在棋盘上表现并不突出。不同于传统深度强化学习算法,它们既没有访问专门的棋库,也无法像专业引擎那样自动搜索大量变招。
谷歌也在博客中表明:“Stockfish 等专业棋类引擎与 AlphaZero 已能多年保持超人水平,对任何边界模型都将轻松取胜;而今日的大语言模型并未针对特定游戏优化,因此表现远不及专业领域 AI。”
短期来看,Kaggle 比赛的挑战在于帮助这些通用模型缩小差距。长期而言,其初衷还是希望大模型能不断进化,甚至在新引入的游戏环境中达到或超越目前的水平。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
脑科学科普:越是聪明的人 , 越不喜欢跟朋友相处 , 因为影响心理健康
国家图书馆馆长一职已空缺两年?工作人员:如官网名单所示,馆长职责由副馆长代为负责
极目政情 长沙市公安局原局长唐向阳,被开除党籍、取消退休待遇,被批“违规选人用人”“不修私德”
IG2-0击败AL,拿下第4胜!Gala豪取5杀,meiko牛头抢下大龙
澳大利亚三分26投15中 36分大胜韩国 李贤重16投3中&三分12中2
低价产品串货!电商低至73元/瓶,旧版台源酒宣布停产!茅台急推新品补位
揭秘!北京超八成本科生被28所市属高校“承包”!关键数据对比图来了——
2K 210Hz 超频,技嘉预热“M27Q2 QD”27英寸显示器即将上市
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律