Вероятность/случай: два игрока бросают по очереди монету до первого орла; какой стратегический выбор (если он есть) влияет на вероятность выигрыша первого игрока, если правила меняются и за каждый орел дают разное количество очков; какие модели релевантны
Коротко: стратегически можно выбирать только порядок хода (кто первый). Если «выигрыш» — тот, кто выбросил первый орёл, то размер очков за орёл не влияет на вероятность выигрыша; она зависит только от вероятности орла ppp и того, что первый игрок бросает на нечётных шагах. 1) Вероятность, что первый игрок получает первый орёл (общее ppp-случай): P(победа 1-го)=∑k=0∞(1−p)2kp=12−p.
P(\text{победа 1-го})=\sum_{k=0}^\infty (1-p)^{2k}p=\frac{1}{2-p}. P(победа 1-го)=k=0∑∞(1−p)2kp=2−p1.
При честной монете p=12p=\tfrac12p=21 получается P=2/3P=2/3P=2/3. 2) Если цель — максимизировать ожидаемые очки, и за орёл на шаге nnn платят детерминированно ana_nan, то ожидаемая выплата для игрока 1 равна E1=∑k=0∞a2k+1(1−p)2kp,
E_1=\sum_{k=0}^\infty a_{2k+1}(1-p)^{2k}p, E1=k=0∑∞a2k+1(1−p)2kp,
для игрока 2: E2=∑k=0∞a2k+2(1−p)2k+1p.
E_2=\sum_{k=0}^\infty a_{2k+2}(1-p)^{2k+1}p. E2=k=0∑∞a2k+2(1−p)2k+1p.
Тогда выбор быть первым оправдан, если E1>E2E_1>E_2E1>E2 (иначе — быть вторым). Эквивалентное сравнение после деления на ppp: ∑k≥0a2k+1(1−p)2k > (1−p)∑k≥0a2k+2(1−p)2k.
\sum_{k\ge0} a_{2k+1}(1-p)^{2k} \;>\; (1-p)\sum_{k\ge0} a_{2k+2}(1-p)^{2k}. k≥0∑a2k+1(1−p)2k>(1−p)k≥0∑a2k+2(1−p)2k. 3) Релевантные модели и методы: - последовательность Бернулли (независимые броски) и геометрическое распределение (время до первого успеха); - моделирование попарных ходов (альтернирующие испытания), расчёт сумм рядов; - если задачи по выплатам/стратегии — нулесуммовая игра / сравнение ожидаемых выплат; - при усложнениях (случайные ana_nan, возможность пропуска хода, выбора вероятности монеты и т.п.) — оптимальная остановка и Марковские процессы / MDP; - непрерывные аналоги — пуассоновские процессы (если переходить к непрерывному времени). Итого: единственная «стратегия» в базовой задаче — выбор хода первым или вторым; при одинаковых очках это всегда выгодно (формула выше). Если очки зависят от номера броска — решайте по сравнению E1E_1E1 и E2E_2E2.
1) Вероятность, что первый игрок получает первый орёл (общее ppp-случай):
P(победа 1-го)=∑k=0∞(1−p)2kp=12−p. P(\text{победа 1-го})=\sum_{k=0}^\infty (1-p)^{2k}p=\frac{1}{2-p}.
P(победа 1-го)=k=0∑∞ (1−p)2kp=2−p1 . При честной монете p=12p=\tfrac12p=21 получается P=2/3P=2/3P=2/3.
2) Если цель — максимизировать ожидаемые очки, и за орёл на шаге nnn платят детерминированно ana_nan , то ожидаемая выплата для игрока 1 равна
E1=∑k=0∞a2k+1(1−p)2kp, E_1=\sum_{k=0}^\infty a_{2k+1}(1-p)^{2k}p,
E1 =k=0∑∞ a2k+1 (1−p)2kp, для игрока 2:
E2=∑k=0∞a2k+2(1−p)2k+1p. E_2=\sum_{k=0}^\infty a_{2k+2}(1-p)^{2k+1}p.
E2 =k=0∑∞ a2k+2 (1−p)2k+1p. Тогда выбор быть первым оправдан, если E1>E2E_1>E_2E1 >E2 (иначе — быть вторым). Эквивалентное сравнение после деления на ppp:
∑k≥0a2k+1(1−p)2k > (1−p)∑k≥0a2k+2(1−p)2k. \sum_{k\ge0} a_{2k+1}(1-p)^{2k} \;>\; (1-p)\sum_{k\ge0} a_{2k+2}(1-p)^{2k}.
k≥0∑ a2k+1 (1−p)2k>(1−p)k≥0∑ a2k+2 (1−p)2k.
3) Релевантные модели и методы:
- последовательность Бернулли (независимые броски) и геометрическое распределение (время до первого успеха);
- моделирование попарных ходов (альтернирующие испытания), расчёт сумм рядов;
- если задачи по выплатам/стратегии — нулесуммовая игра / сравнение ожидаемых выплат;
- при усложнениях (случайные ana_nan , возможность пропуска хода, выбора вероятности монеты и т.п.) — оптимальная остановка и Марковские процессы / MDP;
- непрерывные аналоги — пуассоновские процессы (если переходить к непрерывному времени).
Итого: единственная «стратегия» в базовой задаче — выбор хода первым или вторым; при одинаковых очках это всегда выгодно (формула выше). Если очки зависят от номера броска — решайте по сравнению E1E_1E1 и E2E_2E2 .