德州扑克

德州扑克

德扑期望值公式,德扑胜率计算工具

德州扑克 德州扑克游戏 156

德扑课堂:怎么计算和运用扑克EV(期望值)

在德州扑克的浩瀚竞技场中,每个决策背后都潜藏着一个决定胜负的关键数字——期望值(Expected Value,简称EV)。它就像一面镜子,映照着你的每一步选择,直接关乎收益与损失的平衡。

EV,是概率论和统计学的瑰宝,它定义为在随机事件中,每次可能结果的概率乘以对应结果的收益总和。换句话说,它是通过多次重复实验,计算出的平均预期收益。在德州扑克的舞台上,这个概念被用来评估每个行动的长期盈利潜力。

理解德州扑克中的EV

当你在牌桌前,面对是否跟注、加注或弃牌的抉择时,EV就像一个指南针,告诉你这个动作的正确与否。它是一个专业玩家衡量决策质量的基准,不论对手的策略如何,EV都能为你提供一个客观的评估标准。

计算EV的公式其实相当直观:EV=(赢率%×盈利)-(输率%×亏损)。比如,假设你有47.27%的胜率,每局游戏可能赢$13,而输的概率为52.73%,每局可能损失$11,那么EV就是$0.34,意味着每次这样的决策,你将有微小的盈利。

实际应用:一场硬币游戏的启示

让我们通过一个具体的例子来感受EV的力量。想象你的好友小林邀请你玩一个抛硬币游戏,看似简单,实则隐藏着数学陷阱。通过EV计算,你会发现这是一个长期亏损的游戏,每玩一次就亏1圆。这提醒我们在扑克桌上,不能仅凭感觉,而要依靠严谨的数学计算来指导行动。

实战演练:理解AQ的决策

在实际牌桌场景中,手持AQ的你在面对全押的对手时,需要计算出胜率和输率。EV公式再次发挥作用,结果表明,尽管你的直觉可能让你觉得CALL,但数据却告诉你,这是一次+EV的决策,长期来看每做一次这样的选择,你都将盈利$0.34。

这正是德州扑克的魅力所在:它不仅仅是一个技巧的游戏,更是策略与数学的结合。无论生活中还是牌桌上,我们都需要学会在看似复杂的决策中寻找那隐藏的+EV,因为数学不会说谎,它揭示了长期趋势和潜在收益。

总结来说:

- EV的正向表现(+EV),意味着你的决策在长远上将带来盈利。

- EV的负向表现(-EV),则意味着决策可能带来亏损。

在德州扑克的世界里,把握好EV,就是掌握了游戏的关键。它并非能瞬间改变游戏规则,但却是每个玩家提升水平、制定策略的基础。记住,无论在扑克桌还是生活中,遵循+EV的决策,将带你走向更长远的成功。

德州扑克保险赔率

赔率计算公式:赔率=(剩余牌数/反超爆冷牌数)* 0.95-1扑克王的德州扑克和短牌游戏里, allin全下以后领先的玩家可以选择买保险。

拓展资料:

一、德州扑克中保险的规则是什么?

1、当玩家都Allin之后开始购买保险(ABC三名玩家在局,A短码玩家Allin,BC玩家CALL,则牌局继续进行,无法购买保险)

2、由领先的玩家进行购买,当有多个底池的时候,由最大底池中领先的玩家购买(如ABC三名玩家在局,A为短码玩家,则此时由BC中领先的一方获得购买保险的权利。有些线下场里A玩家也可以购买保险)

3、当牌局存在多个领先者,且领先者的牌型一样时,不支持购买保险(如公共面AKT4两草花,AB玩家ALLIN,秀牌都为JQ,即使A玩家为JQ草花,B玩家也无法购买保险)

二、为什么需要购买保险?我们都知道,买保险是负EV的行为,也就是说,你每次购买保险,你获得的收益期望值都是负的(至于具体负多少下面再讨论),那为什么还要购买保险呢?有以下几点原因:

1、平衡波动你愿意少赢一点以换取自己资金收益的平稳

2、你有一定的牌技,但是游戏时间不充足如果你游戏的样本足够大,你不应该购买保险。但是也许你每天就两三个小时的游戏时间,今天这个本来能赢下的底池如果因为被Bad beat导致失去,可能需要一周的盈利才能弥补。

3、预防被BB带来的上头导致更大的损失曾经我也是不买保险党,但后来发现因为被BB带来的负面情绪会导致我在后面的游戏中损失更多,所以,提前给保险支付一点,以防止后面上头带来更多的支付

4、你在越级打牌,或者在面临一个超级大POT也许输了这个POT你需要很久才能爬回来,那就买吧

三、什么时候不应该买保险?

1、你打牌本身的波动非常大,你已经习惯这种波动假设打10/20的局,你每天的平均波动都在1-2W左右,那可能你已经习惯这样的波动,所以不用为了平衡波动去购买保险

2、你的游戏时间非常充足你是一个线上职业玩家,你每天都要进行上千手牌。当你的手牌样本足够大,EV就是一切,一切都要为最大的EV让路

3、你打的级别非常小,或者POT很小的时候这时候有一定自控能力的玩家都应该能直面波动,所以负EV的时候能少做就少做

浅谈德州扑克AI核心算法:CFR

自2017年AlphaGo战胜世界围棋冠军柯洁后,人工智能技术进入公众视野。棋牌类AI随之在人工智能领域掀起热潮。然而,在AlphaGo之前,人们就已经开始挑战棋牌类AI,从简单的跳棋、五子棋到复杂的中国象棋、国际象棋,再到围棋和德州扑克,数十年来取得了丰硕成果。德州扑克作为不完全信息博弈,不仅要应对复杂的决策,还要应对对手的虚张声势、故意示弱等策略,其博弈树无论是广度还是深度都非常庞大,一直是科学家们想要攻克的高山。在AlphaGo战胜柯洁的同一年,德扑AI DeepStack和Libratus先后在“一对一无限注德州扑克”中击败了职业扑克玩家,实现了不完全信息博弈的突破,而它们所采用的核心算法就是Counterfactual Regret Minimization(CFR)。

1. Regret Matching

CFR算法的前身是regret matching算法,在此算法中,智能体的动作是随机选择的,其概率分布与positive regret成正比,positive regret表示一个人因为过去没有选择该行动而受到的相对损失程度。

1.1算法原理

石头剪子布是最为简单的零和博弈游戏,是典型的正则式博弈,其payoff table如下:

图1·石头剪刀布收益图

Regret matching算法流程在本例中为:

a)首次迭代,player1和player2都以[公式]概率随机选择动作,假设player1选择布,player2选择剪刀。

b)以player1视角,首次博弈结果收益为:[公式]。

c)根据结果收益计算后悔值,[公式]

d)进行归一化处理更新player1的行动策略:[公式]。

e)根据更新后的策略选择动作进行多次博弈,直至达到纳什平衡

f)返回平均策略

核心代码如下(具体代码戳这儿):

1)获得策略方法:1.清除遗憾值小于零的策略并重置策略为0;2.正则化策略,保证策略总和为13.在某种情况下,策略的遗憾值总和为0,此时重置策略为初始策略。

2)训练方法:1.玩选择策略进行博弈,根据博弈结果计算动作效益;2.根据动作效益计算后悔值。

实验结果:

1)当固定对手策略为{0.4, 0.3, 0.3}时

图2·固定对手策略,玩家策略

2)当玩家和对手都采用Regret Matching更新策略时

图3·玩家和对手策略

2. Counterfactual Regret Minimization

石头剪子布是典型的“一次性”博弈,玩家做出动作即得到结果。而生活中显然许多的博弈属于序列化博弈,博弈由一系列的动作组成,上一步的动作可能会导致下一步的动作选择变更,最终的动作组合形成博弈结果。这种序列游戏我们不再使用payoff table表示,而是使用博弈树的形式。博弈树由多种状态组成,边表示从一个状态到另一个状态的转换。状态可以是机会节点或决策节点。机会节点的功能是分配一个机会事件的结果,因此每个边代表该机会事件的一个可能结果以及事件发生的概率。在决策节点上,边代表行动和后续状态,这些状态是玩家采取这些行动的结果。

同样地,对CFR算法中的符号进行若干定义:

算法流程:

2.2实例

库恩扑克(Kunh’s pocker)是最简单的限注扑克游戏,由两名玩家进行游戏博弈,牌值只有1,2和3三种情况。每轮每位玩家各持一张手牌,根据各自判断来决定加定额赌注过牌(P)还是加注(B)。具体游戏规则如下:

图4·库恩扑克规则

以玩家α视角构建库恩扑克博弈树:

图5·先手玩家博弈树

CFR算法流程在本例中为:

a)初始策略为随机策略,假设玩家α抽到的牌值为:3

b)第一轮迭代时,节点选择动作P的虚拟收益计算方法为:[公式]。结合博弈树求解得到:[公式]、[公式]、[公式]、[公式];[公式]、[公式] [公式] [公式]。同理,计算节点选择动作B的虚拟收益为:[公式]

c)利用虚拟收益更新后悔值:[公式]

d)利用后悔值更新策略:[公式],[公式]

e)归一化策略:[公式],[公式]

f)多次迭代,直至达到纳什平衡

核心代码实现:

实验结果:

图6·库恩扑克,玩家和对手策略

3.引申

CFR算法出现时就已经能够解决德州扑克,但面对52张底牌、加注、过牌、河牌等复杂多变的情况使得德扑的博弈树无论是深度还是广度都十分的庞大,对计算资源和储存资源上的开销过于巨大,使得仅仅靠CFR算法攻克德扑十分困难。而CFR后续的研究者们都在费尽心力优化CFR算法的效率,致力于提高计算速度和压缩存储空间。在此,笔者简单介绍几种CFR变种算法,仅做了解。

3.1 CFR+:

与CFR算法不同的是,CFR+算法对累计平均策略做折减,对迭代的策略进行平均时,给近期迭代的策略赋予更高的权重;直观上,越到后期,策略表现越好,因此在都策略做平均时,给近期策略更高的权重更有助于收敛。

在CFR+算法中,counterfactual utility被定义为以下形式:

[公式]

在的基础上,CFR+算法定义了一个[公式],此时CFR+算法中的[公式]为一个累加值,而CFR算法定义[公式]的为平均值,因此CFR+算法中的regret计算方式为:

[公式]

另外,在CFR+算法中,最后输出的平均策略为一下形式:

[公式]

3.2 MCCFR:

MCCFR(Monte Carlo Counterfactual Regret Minimization)是蒙特卡洛算法和CFR算法的结合,其核心在于:在避免每轮迭代整棵博弈树的同时,依然能够保证[公式]的期望值保持不变。将叶子节点分割为不同的[公式],且保证覆盖所有的叶子结点。

定义[公式]是在当前迭代中选择[公式]的概率:[公式]。

定义[公式]表示在当前迭代中采样到叶子节点的概率:[公式]

那么在选择[公式]迭代时,得到的采样虚拟值为:[公式]

通过一定的概率选择不同的block,得到一个基于采样的CFR算法。

3.3结语

除了上述介绍的两个算法外,CFR算法的优化数不胜数,有提高计算速度的Discount-CFR、Warm Start、Total RBP,也有压缩存储空间的CFR-D、Continue-Resolving、Safe and Nested Subgame Solving等。

机器博弈是人工智能领域的重要研究方向。非完备信息博弈是机器博弈的子领域。非完备信息博弈中存在隐藏信息和信息不对称的特点,和完备信息博弈相比,非完备信息博弈更加贴近现实生活中。例如,竞标、拍卖、股票交易等现实问题中都存在隐藏信息和信息不对称。因此,研究非完备信息博弈问题更有现实意义。德州扑克博弈包含了隐藏信息、信息不对称和随机事件等重要特性,它是典型的非完备信息博弈。对其的研究具有非常重大的意义,感兴趣的读者可深入了解。

标签: All-in 牌局 奖励 牌桌 明星 爆击