本篇文章2236字,读完约6分钟
在国外学术界,有一篇论文燃起了大火。 论文中进行的研究表明,人类历史上第一次,ai在德州扑克游戏中获得了人类玩家。 这篇论文划时代的意义在于,ai在新闻不完备的游戏游戏中获得人类职业对手。 这篇论文的名字是“deepstack :无限投注扑克专家级人工智能”( deepstack:expert-levelartificialintelligenceinno-limit poker ),将于1月6日
的作者是加拿大alberta大学、捷克charles大学、布拉格捷克理工大学的研究者。 论文标题deepstack是一个新的算法名称,论文证明“deepstack是一种通用算法,可以用于不完整新闻的序列游戏”。 在对几十名参与者和4.4万特朗普的研究中,deepstack成为世界上第一个用“一对一无限注德州扑克”打败特朗普玩家的计算机程序。
什么是“一对一无限注德州扑克”( hunl )
虽然德州扑克的英文名为“texas hold em”,但“一对一无限倒德州扑克”( heads-up no-limit,hunl )的意思是有两个玩家,投注筹码没有限制 这篇论文中的自然是电脑和职业玩家轮流对决。
虽然是特朗普,但和斗地主不同,“赌场”是非常受欢迎的项目。 在这里庆祝视频,让我们了解德州扑克的规则和玩法吧。
从上面的视频可以大致看出,德州扑克有两种新闻,一种是每个玩家分成两张底牌的“私人新闻”,另一种是桌上公共牌的“公开新闻”。 玩家从5张公交卡中选出3张,与手中的2张底牌组合,期待最后得到最好的5张底牌组合。 按照“卡片排名”决定最后的胜者。
在中国打德州扑克的名人有一个是汪峰老师,另一个是李开复老师。 略而言之,“特朗普有那些妙招、经验或者大致情况? ”。 的提问下,排在第一位的是李开复老师的回答,他特别提到了玩诈骗( bluffing,高手惯用的妙招)的关键是学好统计。
德州扑克是新一代的图灵测试吗?
德州扑克已经成为流行的人工智能研究测试地,每一个特朗普玩家手中的标语牌“私人新闻”,其他玩家看不到,因此“不完整新闻”( imperfect inforrect )。 这与围棋大不相同,围棋是一个完善新闻发布的游戏,玩家们可以看到棋盘上的各面旗,思考所有落子的可能性。 德州扑克对人工智能来说更具挑战性。
一位名叫deepstack的论文通讯作者michael bowling在年初接受new scientist采访时表示:“德州扑克最感兴趣的地方就是你得不到完美的新闻。”
卡内基梅隆大学( cmu )的tuomas sandholm教授也表示:“特朗普在不完全的消息下,已经成为衡量(计算机)智能水平的标准……被认为是超越图灵测试的存在。”
有兴趣的是,这两位教授正在带队克服这个新的图灵测试。 一个是加拿大的alberta大学,另一个是美国的cmu大学。
几天前,cmu由tuomas sandholm教授开发的libratus人工智能系统,当地时间1月11日在宾夕法尼亚州匹兹堡的rivers赌场,与4名顶级球员进行12万手的hunl,争夺20万美元的奖金。 前一年,libratus前身claudico与人类玩家首次对战,在8万手的对决中败北,这次是cmu的卷土重来。
但是,我们知道结果。 alberta赶在cmu前面,把论文发给了他。 学术界人士称赞deepstack具有里程碑意义(当然这篇论文还没有通过同行审议阶段),但与cmu libratus几天前的预热盛况相比,deepstack没有受到等量的媒体待遇,
cmu走的是当时的alphago路线,在华丽的赌场表演,对战人类顶级玩家,有20万美元的噱头。 所以这篇deepstack论文虽然比cmu突破得早,但阵势并不比后者大,媒体忽视也是有道理的。
总之,alberta打头阵,cmu热闹起来(学术界竞争也异常激烈)。
这篇deepstack论文的成果
deepstack共与33名人类选手进行了4.4万手的比赛,分别于去年11月7日和12月12日在线进行了对决。 最终获胜的前三名选手分别有5000美元、2500美元和1250美元的奖励。 以下是对局结果。 结果显示,deepstack的平均胜率为492 mbb/g (通常认为人类玩家具有高达50 mbb/g的巨大特征,750mbb/g为对方每局弃牌的胜率)。
综上所述,特朗普的新闻可以分为“私有”和“公开”,放在桌子中间的五张公交卡形成动态的“公开状态”。 游戏中公开状态的可能序列组成一个公开树,每个公开状态具有相关的公开子树。
上图是hunl上公开的树的一部分。 红色和蓝色线表示玩家的动作,绿色线表示公开的公交卡。 圆圈的节点表示游戏结束。
该图为整个deepstack的体系结构,分为( a )、( b )、( c )三个部分。 在( a )中,deepstack重新计算每个公开状态所需的动作,其中子树值( subtree value )根据训练过的深度神经网络( b )进行计算,训练neural net的样本为(。
总结一下,deepstack与递归推理( recursive reasoning )相结合,解决新闻不对称问题,分解( decomposition )特朗普,集中计算相关决策,计算任意牌的直觉( intuition )。
广告活动简介:
买美股,骑虎——超低佣金,每股只花1美分
标题:“CMU风头被抢 新型DeepStack算法抢先攻克德州扑克图灵测试”
地址:http://www.5xnr.com/teqkj/17223.html