現在ポーカーを学ぶうえで,ナッシュ均衡やGTOの概念を勉強しています.
本の中で以下のシナリオの解釈で疑問が湧いたものがあったので,質問させていただきます.超初心者です,お手柔らかにお願いします.
【シナリオ】
・アンドリューが見たいのはドラマ,ブランカが見たいのはコメディ
・両者にとって何より大切なのは一緒に見たいということ(アンドリューの場合,一人でドラマを見るんだったら,ブランカとコメディを見たい. 逆も然り)
・各々どちらの映画を見るかの選択の利益として,数値をあてがう.
(i)両者共通の映画を選択する場合(2人で見る)
・見たい方の映画を選択した人に5ポイント
・見たくない方の映画を選択した人に4ポイント
(ii)両者違う映画を選択する場合(1人で見る)
・見たい方の映画を選択し合うときに1ポイント
・見たくない方の映画を選択し合うときに0ポイント
※添付画像に利得表を載せています.
このとき,どちらも常にコメディあるいはドラマを選択するという戦略を取ったときにナッシュ均衡になると思います(利得表の(4, 5)と(5, 4)). GTO戦略とは,均衡状態の戦略で,一般的に「相手の戦略が変わっても,搾取されない戦略」と言われたりするようですが,これに少し疑問があります.利得表において,どちらもコメディを選択した場合に注目します((4, 5)のところ). 両者GTO戦略を取っていると思いますが,仮にアンドリューが自ら利益を下げるような「ドラマを見る」という戦略に一方的に変えたとき,アンドリューとブランカの利益はそれぞれ(1, 1)に変わり,両者利益が下がると思います.ここでブランカは,相手の戦略が変わっても搾取されない戦略であるGTO戦略を取り続けているのに,相手の戦略の変更によって,利益を下げられてしまうという結果になっていると思います.仮に,この利益の量の順位で勝ち負けが決まるというような設定の場合,ブランカは,アンドリューが戦略を変更する前は利益が勝っていたが,変更後に同点にされ,ある種搾取されたという見方もできると思います.
【質問】
①ポーカーでは,GTOに則ったプレーを目指すというのがあると思いますが,ここでブランカがGTO戦略(コメディを見る)を取り続けるメリットはなんなのでしょうか?
②GTO戦略でよく言われる,「搾取されない」や「損失を減らす」というのが何に対してなのかがわかりません.
【考えたこと】
・「自分の利益の最大化」を目標に両者戦略を変えていって,ナッシュ均衡になるので,そもそも自分の利益を自ら下げるというのが議論の対象外?
・ゼロサムゲームでないから,こんなことが起こってる?
おそらく私がどこかで間違った認識をしていると思うので,ご指摘いただきたいです.
よろしくお願いします.
回答
アンディ:
ポーカーでも、自分がGTO戦略をとっていたとしても、後ろの下手くそプレイヤーのアクションのせいで、仲良くEVが下がる現象は起こります。
例えば、SBでのコールに対してBBのコールレンジが広くなる場合とか。
利益最大化したいので、SBは嫌じゃないですか。なんで、SBのコールレンジをゼロの戦略に変えたりします。
利益最大化させたいので。
つまり、その話でいくと、均衡保つためにあえて利益の出ない選択をするのがおかしいかなって思います。
ID非公開:
>・「自分の利益の最大化」を目標に両者戦略を変えていって,ナッシュ均衡になるので,そもそも自分の利益を自ら下げるというのが議論の対象外?
仰るとおりこれは対象外だと思いますね。均衡に達している状態で自分から均衡を外れる動機はありません。また、この例題は搾取を学ぶにはあまりよくありません。相手が均衡から外れる→こちらがエクスプロイトする→均衡に戻るとなるだけで、相手のミスを利用してこちらが均衡よりプラスになり相手がマイナスになるという状態にならないからです。
>①ポーカーでは,GTOに則ったプレーを目指すというのがあると思いますが,ここでブランカがGTO戦略(コメディを見る)を取り続けるメリットはなんなのでしょうか?
相手が均衡を外れていてカウンターをしてこないのであれば、こちらはGTOに固執するメリットはありません。相手のズレた戦略に対し最大の期待値を得られる戦略に変更すべきです(エクスプロイト)。ただ、こちらの調整に対し相手が正しくカウンターをするとGTOと比べて期待値を失うことになるので、そこはお互いの力量を考えて調整するべき部分です。
>②GTO戦略でよく言われる,「搾取されない」や「損失を減らす」というのが何に対してなのかがわかりません.
GTO(均衡)戦略というのは搾取する余地がない(どちらも一方的に戦略を変えて期待値を上げることができない)状態です。そして、どちらかが均衡からズレるとそこに搾取する余地が生まれます。
私もこの本はだいぶ前に読みましたが、ナッシュ均衡の話はwikiで見て理解する程度にして、この後に出てくる借金の話とかAKQゲームやハーフストリートゲームで実際の期待値を数字で見るほうが①②を理解するにはいいと思います。
損失を減らすというのは均衡とのズレ(Nash Distance)を減らせば減らすほどエクスプロイトされる余地が少なくなるという意味のような気はしますが、文脈がないのでわかりません。
- 1250496072
- 回答ありがとうございます.
>相手が均衡を外れていてカウンターをしてこないのであれば、こちらはGTOに固執するメリットはありません
とありますが,ポーカーにおいて,「GTO戦略をとりつづける=勝てる」ではないということでしょうか.そうすると,仮に相手がGTOじゃない戦略だとして,自分がGTO戦略を取り続けると,相手から搾取はされないが,運によって利益が減って結果負けることもあるし,相手のミスを突くことで最大利益を得る機会を失って負けることもあるということですよね.
【加えて質問】
①GTOとエクスプロイトとバランスを取ることが,「勝つ」という結果に繋がりやすいという理解であってますか?
②完璧なGTOに近いプレーをするようなプロ同士のポーカーだとエクスプロイトの意味もなく,ただ運要素が強くなるポーカーになるのでしょうか?
この本見たことあるんですね...!!
引き続き,見てみます!!
and********:
注目するポイントは、相手と自分の利害の差です。
①について
仮にアンドリューがドラマを選択したとします。この時ブランカの得られるアンドリューとの差は、
ドラマ -1、コメディ +1 よってコメディの方が損が少ないとなります。
一方、アンドリューがコメディを選択した場合のブランカの得られるアンドリューとの差は、
ドラマ -1、コメディ +1 よってやはりコメディの方が得となります。
結果、アンドリューがどちらを選ぶかに関わらず、ブランカはコメディを選ぶのが得となります。
② について
上記の様に考えれば、「搾取されない」は相手との差を+にすること、「損失を減らす」は、差を+に出来ない場合に、可能な限り-を少なくすることと言えます。
ちなみに、添付されている表の利害は数値が間違っていますよ。(1,1)は正しくは(1,0)、(0,0)は正しくは
(0,1)。これはれっきとしたゼロサムゲームの例です。
- 1250496072
- 回答ありがとうございます.
>「搾取されない」は相手との差を+にすること、「損失を減らす」は、差を+に出来ない場合に、可能な限り-を少なくすることと言えます。
この解釈がとても腑に落ちました!ですが,一点以下のような質問があります.
(1, 1)のマスは,お互い違う映画を選択していて一緒に見れないが,お互いが見たい映画を選択しているので,どちらも1ポイント
(0, 0)のマスは,お互い違う映画を選択していて一緒に見れない上に,お互いが見たい映画も選択していないので,どちらも0ポイント
という定義でポイントを割り振っており,本と同様のものになります.
(1, 1)が(1, 0)になる理由,(0, 0)が(0, 1)になる理由を教えていただきたいです.