Разберите вероятностную задачу с супервизором, который открывает одну из закрытых дверей (вариант задачи Монти Холла): какие модели предположений о поведении супервизора меняют оптимальную стратегию игрока, и как формализовать критерий выбора стратегии

7 Ноя в 07:03
3 +1
0
Ответы
1
Коротко — вся разница в предположениях задаётся поведением супервизора (host), формализуется через условные вероятности открытия двери P(H∣C,d)P(H\mid C,d)P(HC,d) (где CCC — дверь с призом, ddd — выбранная игроком, HHH — открытая супервизором дверь, H≠dH\neq dH=d). После наблюдения H=hH=hH=h оптимальная стратегия выбирается байесовски: сравниваем постериорные вероятности приза за оставшимися дверями и выбираем ту, где вероятность больше.
1) Общая формула (Bayes)
- Апостериор:
P(C=i∣H=h,d)=P(C=i) P(H=h∣C=i,d)∑jP(C=j) P(H=h∣C=j,d). P(C=i\mid H=h,d)=\frac{P(C=i)\,P(H=h\mid C=i,d)}{\sum_j P(C=j)\,P(H=h\mid C=j,d)}.
P(C=iH=h,d)=j P(C=j)P(H=hC=j,d)P(C=i)P(H=hC=i,d) .
- Две возможные стратегии после открытия: остаться с ddd или переключиться на единственную неоткрытую дверь sss. При выигрыше=1, проигрыше=0 выгоднее выбирать дверь с большей апостериорной вероятностью. То есть переключаться тогда и только тогда, когда
P(C=s∣H=h,d)>P(C=d∣H=h,d). P(C=s\mid H=h,d)>P(C=d\mid H=h,d).
P(C=sH=h,d)>P(C=dH=h,d).
Эквивалентно (упростив множители):
P(C=s) P(H=h∣C=s,d) > P(C=d) P(H=h∣C=d,d). P(C=s)\,P(H=h\mid C=s,d)\;>\;P(C=d)\,P(H=h\mid C=d,d).
P(C=s)P(H=hC=s,d)>P(C=d)P(H=hC=d,d).

2) Стандартная модель «Монти Холл» (классический случай)
- Предположения: P(C=i)=1/3P(C=i)=1/3P(C=i)=1/3; супервизор никогда не открывает дверь с машиной и никогда не открывает выбранную игроком; если при C=dC=dC=d осталось две козы, он выбирает одну из них равновероятно.
- Тогда при наблюдении конкретной открытой двери hhh апостериор для первоначально выбранной ddd равен 1/31/31/3, для оставшейся sss2/32/32/3. Выгодно всегда переключаться; вероятность выигрыша при переключении 2/3\;2/32/3.
3) Модель «случайный открыватель» (host выбирает равновероятно одну из двух невыбранных дверей, даже если там машина)
- Теперь супервизор может открыть дверь с машиной; условие «не открывает машину» отсутствует.
- Если супервизор открыл дверь и там была коза (т.е. игра не закончилась), апостериор равен 1/21/21/2 для каждой из оставшихся дверей, и переключение не даёт преимущества (выигрыш при переключении 1/2\;1/21/2). Если он открывает машину, игра закончена мгновенно (игрок проиграл при текущих правилах).
4) Смещённый выбор при двух козах
- Пусть при C=dC=dC=d супервизор при выборе между двумя козами открывает конкретную одну с вероятностью qqq (и другую с 1−q1-q1q). При C=sC=sC=s он вынужден открыть единственную козу, ведущую к H=hH=hH=h с вероятностью 1.
- Тогда при наблюдении hhh (и симметричных априорах 1/31/31/3) апостериоры:
P(C=d∣H=h)=13q13q+13⋅1=qq+1,P(C=s∣H=h)=1q+1. P(C=d\mid H=h)=\frac{\tfrac13 q}{\tfrac13 q+\tfrac13\cdot1}=\frac{q}{q+1},\qquad
P(C=s\mid H=h)=\frac{1}{q+1}.
P(C=dH=h)=31 q+31 131 q =q+1q ,P(C=sH=h)=q+11 .
Переключение выгодно тогда, когда 1q+1>qq+1\tfrac{1}{q+1}>\tfrac{q}{q+1}q+11 >q+1q , т.е. q<1q<1q<1. Для q=12q=\tfrac12q=21 получаем классические 23\tfrac2332 ; при q→1q\to1q1 оба варианта дают по 12\tfrac1221 .
5) Общая интерпретация: какие модели меняют стратегию
- Если супервизор гарантированно не открывает машину (и не открывает выбранную игроком), то переключение никогда хуже, часто строго лучше. В этом классе моделей переключение — оптимально (при обычной выигрышной полезности).
- Если супервизор иногда открывает машину (т.е. может раскрыть приз), то факт открытия козы не даёт такой же информации: при равновероятном выборе открывателя переключение даёт не более 1/21/21/2 шанс, и преимущество исчезает.
- Если супервизор действует стратегически (адверсариально) и мы не знаем его правила, нужно рассматривать игру в терминах максимина: выбирать стратегию, которая максимизирует минимальную выигрышную вероятность по всевозможным стратегиям супервизора. При полном отсутствии ограничений на супервизора гарантия может свестись к приоритету первоначального выбора (гарантия P(C=d)P(C=d)P(C=d), обычно 1/31/31/3), если супервизор может подбирать HHH в зависимости от нашего алгоритма.
6) Формализация критерия выбора стратегии
- Байесовский критерий (максимизация ожидаемой полезности при известной модели): выбрать действие a∈{stay,switch} максимизирующее
E[U∣H=h,d,a]=∑iU(результат при C=i,a) P(C=i∣H=h,d). \mathbb{E}[U\mid H=h,d,a]=\sum_i U(\text{результат при }C=i,a)\,P(C=i\mid H=h,d).
E[UH=h,d,a]=i U(результат при C=i,a)P(C=iH=h,d).
При U=1U=1U=1 для выигрыша и 000 для проигрыша это сводится к выбору двери с наибольшей P(C=⋅∣H=d,h)P(C=\cdot\mid H=d,h)P(C=H=d,h).
- Модель-неопределность / адверсариальный критерий (максимин): выбрать стратегию π (возможно случайную), максимизирующую
min⁡P(H∣C,d)∈MPr⁡(выигрыш∣π,P(H∣⋅)), \min_{P(H\mid C,d)\in\mathcal{M}} \Pr(\text{выигрыш}\mid \pi,P(H\mid\cdot)),
P(HC,d)Mmin Pr(выигрышπ,P(H)),
где M\mathcal{M}M — класс допустимых моделей супервизора (например, «не открывает выбранную дверь» и/или «не открывает машину»). Конкретная оптимальная стратегия зависит от M\mathcal{M}M.
Итого: формально задавайте модель супервизора через P(H∣C,d)P(H\mid C,d)P(HC,d). По наблюдению H=hH=hH=h вычисляйте апостериор по Байесу и выбирайте дверь с максимальной апостериорной вероятностью. При неопределённости о моделях переходите к максимин-подходу (игра против адверсариального супервизора).
7 Ноя в 08:01
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир