您的位置:首页 >智能硬件 >

刚刚,那个打败柯洁、李世石的阿尔法狗背后的男人 人工智能玩游戏

2020-04-02 08:54:23    来源:学术头条

美国计算机学会(ACM)今天宣布,将2019年 ACM 计算奖授予 AlphaGo 研发团队领导者 David Silver,以表彰他为计算机游戏表现带来的突破性进展。

与“计算机界的诺贝尔奖”图灵奖不同,ACM 计算奖(ACM Prize in Computing)每年授予在计算机领域里有突出贡献的年轻学者。

Silver 目前任伦敦大学学院(UCL)教授、谷歌旗下人工智能公司 DeepMind 首席科学家。作为深度强化学习领域的领军人物,Silver 最主要的成就就是领导了 AlphaGo 研发团队,在围棋比赛中击败了世界冠军柯洁和李世石。

 

Silver 巧妙地将深度学习、强化学习、传统树搜索算法和大规模计算的思想结合起来,开发出了 AlphaGo 算法。AlphaGo 被认为是人工智能研究的里程碑,并被《新科学家》杂志列为过去十年的十大发现之一。

AlphaGo 也是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。

 

2017年10月19日,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,Silver 团队报告新版程序 AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。AlphaZero 在国际象棋、围棋、围棋等游戏中都取得了超人的表现,展现了前所未有的游戏方法的普遍性。

ACM 主席 Cherri M. Pancake 表示:“在人工智能领域,很少有其他研究人员能像 David Silver 一样让人如此兴奋。”

Infosys 首席运营官 Pravin Rao 表示:“ David Silver 为深度强化学习做出了基础性贡献,从而迅速促进了人工智能的发展。当电脑能够在复杂的棋盘游戏中击败世界冠军时,它已经激发了公众的想象力,并将年轻的研究人员吸引到机器学习等领域。重要的是,Silver 和他的同事开发的框架将在未来的许多年里,为人工智能的商业和工业实际应用提供贡献。”

ACM 计算奖旨在表彰研究成果产生了深远影响和广泛意义的中青年计算机科学家,奖金为25万美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐赠。颁奖仪式将于2020年6月20日在美国旧金山举行,届时 Silver 将正式接受奖项。

人工智能玩游戏

自上世纪50年代以来,教计算机程序与人类或其他计算机进行游戏比赛,一直是人工智能研究的核心实践项目。人类与机器之间的比赛,也一直是衡量人工智能的标尺。

计算机程序通过做出一系列决定,来达到获胜的目标,这个过程被看作是对人类思维的模拟和挑战。游戏比赛也给研究人员提供了很容易量化的结果,比如“电脑遵守规则了吗?得分了吗?或者赢了游戏吗?”

在这一领域的早期,研究人员开发了一些程序来与人类在跳棋上竞争,而在过去的几十年里,又出现了越来越复杂的国际象棋程序。

1997年,ACM 赞助了一场比赛,IBM 的“深蓝”(DeepBlue)成为第一台击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)的电脑程序,这也是一个具有分水岭意义的时刻。

 

但对于研究人员来说,目标不仅仅是开发赢得游戏的程序,而是将游戏作为开发具有模拟人类智能能力的机器的试金石。

2016年3月,全世界数百万人在电视上观看了 AlphaGo 击败围棋世界冠军李世石(Lee Sedol)的比赛。但这仅仅是 David Silver 团队惊人成就影响的开始。他对深度强化学习的见解已经被应用于很多领域,比如提高英国电网的效率,降低谷歌数据中心的能耗,以及为欧洲航天局设计太空探测器的轨道。”Cherri M. Pancake说道。

Silver 是深度强化学习的最重要的贡献者之一,在深度强化学习这种工具中,算法通过在交互式环境中反复试验来学习,根据运行过程中积累的信息不断调整,并利用不同数学处理层次的计算模型——人工神经网络与强化学习策略有效地结合起来,对试错结果进行评估。

该算法不需要对每一个可能的结果进行计算,而是进行预测,从而更有效地执行给定的任务。

阿尔法狗

2500年前,中国发明了围棋游戏,至今仍然流行,尤其是在亚洲。围棋被认为比象棋要复杂得多,因为棋手可以做出更多潜在的动作,而且游戏可以有更多的方式进行。

Silver 在艾伯塔大学(University of Alberta)攻读博士学位时,就开始探索开发一种可以掌握围棋的计算机程序的可能性。

Silver 开发 AlphaGo 的关键见解,是将深层神经网络与计算机游戏中使用的算法 Monte Carlo 树搜索相结合。Monte Carlo 树搜索的一个优点是,在追求游戏中最佳感知策略的同时,该算法还在不断研究其他替代方案。

2016年3月,AlphaGo 击败世界围棋冠军李世石被誉为AI里程碑式的时刻。Silver 和他的同事在2016年发表在《自然》杂志上的论文《用深层神经网络和树搜索掌握围棋游戏》中发表了支撑 AlphaGo 的基础技术。

 

AlphaGo Zero、AlphaZero和AlphaStar

Silver 和他在 DeepMind 的团队一直在开发新的算法,这些算法极大地提高了计算机游戏的发展水平,并取得了许多被认为人工智能系统无法实现的结果。

在开发 AlphaGo Zero 算法时,Silver 和他的合作者证明了程序可以在不接触人类专家游戏的情况下掌握围棋。该算法完全通过在没有任何人类数据或先验知识的情况下自己来学习,而在进一步的迭代版本中,算法甚至不需要知道规则。

后来,DeepMind 团队的 AlphaZero 在国际象棋、将棋和围棋中也获得了超人的表现。在国际象棋中,AlphaZero 轻松击败了世界计算机国际象棋冠军 Stockfish ,这是一个由大师和国际象棋编程专家设计的高性能程序。就在去年,由 Silver 领导的 DeepMind 团队开发的 AlphaStar ,掌握了多人电子竞技游戏《星际争霸 II》,该游戏被视为 AI 学习系统面临的一项艰巨挑战。

关于 David Silver

David Silver 是 DeepMind 强化学习研究小组的负责人,也是伦敦大学学院的计算机科学教授。他所在的 Google 子公司 DeepMind 试图将机器学习和系统神经科学方面的最佳技术结合起来,以构建功强大的通用学习算法。

Silver 分别于1997年和2000年获得剑桥大学的学士和硕士学位。1998年,他和别人共同创立了视频游戏公司 Elixir Studios,并在那里担任首席技术官兼首席程序员。后来 Silver 返回学术界,并于2009年获得了艾伯塔大学的计算机科学博士学位。

 

2015年,Silver 和他的同事发表的一篇题为《通过深度强化学习实现人类水平控制》(Human Level Control Through Deep reinforcement learning)的开创性论文中,描述了他们将强化学习与人工神经网络相结合的方法。该论文发表在《自然》(Nature)杂志上,被引用了近1万次,对该领域产生了巨大的影响。

随后,Silver 和他的同事继续用新的技术完善这些深度强化学习算法,这些算法仍然是机器学习中最广泛使用的工具之一。

Silver 的众多荣誉包括:马文·明克西人工智能杰出成就奖(2018年)、皇家工程院对英国工程杰出贡献银奖(2017年)、门萨基金会人工智能领域最佳科学发现奖(2017年)。

关于 ACM 计算奖

ACM 计算奖旨在表彰研究成果产生了深远影响和广泛意义的中青年计算机科学家。该奖项的奖金为25万美元,资金支持由 Infosys Ltd.提供。ACM 计算奖以前被称为 ACM Infosys 基金会计算科学奖。ACM 奖获得者将被邀请参加海德堡桂冠论坛,这是一个年度网络活动,汇集了来自世界各地的年轻研究人员和 ACM 图灵奖、阿贝尔奖、菲尔兹奖和奈凡林纳奖的获得者。

关于 ACM

计算机科学协会(ACM)是世界上最大的教育和科学计算机学会,它将计算机教育工作者、研究人员和专业人士联合起来,以激发对话、共享资源并应对该领域的挑战。ACM 通过强大的领导力、最高标准的推广以及对技术卓越的认可,增强了计算机行业的集体声音。ACM 通过提供终身学习、职业发展和专业网络的机会来支持其成员的专业成长。

关键词: 阿尔法狗

相关阅读

精彩推送