更新时间:2022-02-21 23:48:58点击:266
我们讨论了大多数牌手往往诈唬不够多的事实。 因此,他们的下注行动通常代表“诚实”(价值 牌)而非“不诚实”(诈唬牌)。这导致我引入了诚实法则。 诚实法则:总体而言,扑克人(poker community)的诈唬比他们应该做出的诈唬少很多。 另一方面,像Libratus这样的人工智能(AI)最近打败了一些世界顶级无限德州扑克牌手。今天我们将回顾Libratus打过的一手疯狂牌局,看看我们能够从其策略中学到什么。 Libratus策略的核心是它能够缩小价值下注牌和诈唬牌之间的差距,使人类牌手很难猜测它究竟是用价值牌还是诈唬牌下注。人工智能比人类更平衡。因此,人类很难将AI推测到特定一手牌。 以下是Libratus把高度复杂性引入到牌桌的一个例子。在一次接受Doug Polk的采访中,Daniel McAulay描述了他和AI对抗中的一手疯狂牌局。 AI拿着5♣ 3♣,Daniel拿着两张红桃(Daniel的具体底牌在这里并不重要)。Daniel在有利位置加注,Libratus 3bet,Daniel 4bet,最终Libratus在不利位置跟注。 我们已经看到了Libratus做出的一些反直觉玩法。大多数人每次都会放弃这手牌,或者做一个5bet诈唬。在不利位置跟注似乎是一个种失败的玩法,除非该牌手能够在将来做出一些“危险的”下注。但Libratus有这种能力! 翻牌是K♥ Q♥ J♣。Libratus过牌,Daniel用他的同花听牌随后check。 转牌圈发出了第三张红桃,使Daniel拿到了一副同花。Libratus继续过牌,而Daniel为了欺骗对手再次随后check。 河牌是一张空白牌(好像是一张5♠),Libratus用他的一对下注。Daniel做小额加注,使得他的加注看起来像诈唬,Libratus果然全压,把他的底对转变成了诈唬牌。当然,Daniel跟注,赢下了这手牌。 然而,Libratus输掉的这手牌并不重要。重要的是,AI采用的玩法是一种几乎没有人可能采用的疯狂玩法,特别是那些知道自己在代表一个极狭窄范围的盈利牌手,因为他们知道自己在转牌圈和河牌圈玩得多被动。 这恰好就是AI厉害的地方。一个完美平衡的牌手能够在任何场合亮出任何牌,而且是用理想的频率。请注意,平衡和最优是这里的关键。例如,人类牌手可能尝试采取一些他们可能认为是“随机”的行动。然而,事实上那些行动通常是具有严重偏向的。我们人类没有找到良好的平衡方法。 如果你似乎难以理解上面那手牌,你并不孤单。对抗Libratus的顶级牌手也是这么觉得的,而且他们有数百万手牌的扑克经验。我在这里展示这手牌是为了说明人类制造出这种程度的完美平衡的不可预知性几乎是不可能的。AI构建一个精细混合的范围让对手始终猜测,同时在这个过程中盈利。 我们应该花一些时间去理解这有多困难。 例如,Bob很容易做到从不诈唬,从而他完全诚实,总是可以预见。Bob也容易做到总是诈唬,因而再次变得可以预知,因为现在他的对手将正确地推测他下注的牌非常弱。在这两种情况中,Bob的对手Alice知道她将遇到什么牌,从而她可以相应调整她的策略(对抗前者放弃大多数牌,对抗后者频繁反击)。 对于Bob来说,困难的是找到诈唬和不诈唬之间的精细界线,从而Alice不再有一个明确的决定。精细界线的缺失将使他要么太诚实要么太不诚实,而这两种情况都可能被Alice这样观察敏锐的对手轻易剥削。 好消息与坏消息 对于Bob来说,他既没有时间也没有欲望去开发这样一种精细复杂的盈利策略,这是一个坏消息。那么Alice呢?Libratus似乎毫不费力趋近的最优策略并不是看起来那么简单。那么Alice如何确保自己不被诈唬呢?幸运的是,她不必那么做。 Alice不是和Libratus这样的超级人工智能打牌,也不是对抗世界顶级牌手。和Alice一起打牌的是Bob这样的普通人,偶尔才会遇到像她那样优秀的牌手。她的几乎所有对手都遵循诚实法则打牌,只有少数例外。 Mason Malmuth和David Sklansky在他们为Mathew Janda的扑克策略书《Applications of No Limit Hold’em》写的一篇介绍中对此做出了明确阐述。那一段的标题是《关于抓诈唬的警告》,它本质上是告诫读者,当你试图以防御性方式跟注大额下注时忽略诚实法则的后果。 他们的陈述试图达到的目标,是警示读者试图保护自己不被诈唬未必是最有利可图的选择。这对于初中级水平的牌手是非常正确的,因为他们的大多数对手是诈唬不足的(相对GTO策略而言)。 Alice不可能通过偶尔跟注来确保Bob始终诚实。但如果Bob本来就诈唬不足,那么Alice的每个跟注长期而言都是亏损的。对她来说从不跟注Bob更有利可图。 当然,由于从不跟注Bob的大注,Alice制造了Bob可以通过增加他的诈唬频率来利用她的理论可能性。这恰恰是试图用最优方式解决德州扑克的Janda的观点:如果Alice停止跟注,Bob在理论上可以剥削她。 当然,Malmuth和Sklansky提出了异议:大多数Bob(普通牌手)没有好到意识到那一点,从而不太可能调整。我完全同意他们的看法。感谢上帝,Bob并非Libratus!