В задаче по теории вероятностей: даны две urnы с разными составами шаров, игрок выбирает урну случайно и затем вытаскивает шар. Как оценить вероятность выигрыша и как изменилась бы стратегия при известном выигрыше за определённый цвет; сравните байесовский и частотный подходы

27 Ноя в 09:44
5 +5
0
Ответы
1
1) Базовая оценка вероятности выигрыша (урна выбирается случайно). Пусть есть две урны U1,U2U_1,U_2U1 ,U2 с известными вероятностями вытащить выигрышный цвет p1=P(win∣U1), p2=P(win∣U2)p_1=P(\text{win}|U_1),\; p_2=P(\text{win}|U_2)p1 =P(winU1 ),p2 =P(winU2 ) и вероятность выбора урны P(U1)=q, P(U2)=1−qP(U_1)=q,\; P(U_2)=1-qP(U1 )=q,P(U2 )=1q. Тогда по формуле полной вероятности
P(win)=q p1+(1−q) p2. P(\text{win})=q\,p_1+(1-q)\,p_2.
P(win)=qp1 +(1q)p2 .
При равновероятном выборе урн q=1/2q=1/2q=1/2, т.е. P(win)=12(p1+p2)P(\text{win})=\tfrac{1}{2}(p_1+p_2)P(win)=21 (p1 +p2 ).
2) Если игрок может выбирать урну и за определённый цвет известна выплата. Пусть за цвет A выплата wAw_AwA , за B — wBw_BwB . Тогда ожидаемая выплата при выборе UiU_iUi E[payoff∣Ui]=wA⋅P(A∣Ui)+wB⋅P(B∣Ui). E[\text{payoff}|U_i]=w_A\cdot P(A|U_i)+w_B\cdot P(B|U_i).
E[payoffUi ]=wA P(AUi )+wB P(BUi ).
Стратегия: выбрать урну UiU_iUi с максимальным E[payoff∣Ui]E[\text{payoff}|U_i]E[payoffUi ]. В частном случае «выигрыш только при цвете A» (т.е. wA=1, wB=0w_A=1,\; w_B=0wA =1,wB =0) это сводится к выбору урны с большим P(A∣Ui)P(A|U_i)P(AUi ).
Пример: p1=0.3, p2=0.6, q=1/2⇒P(win)=0.45p_1=0.3,\; p_2=0.6,\; q=1/2\Rightarrow P(\text{win})=0.45p1 =0.3,p2 =0.6,q=1/2P(win)=0.45. Если можно выбирать и выигрыш за нужный цвет равен 1, берём U2U_2U2 (0.6>0.3).
3) Сравнение байесовского и частотного подходов при неизвестных p1,p2p_1,p_2p1 ,p2 .
- Частотный подход:
- Оцениваем вероятности частотами: при nin_ini наблюдениях и kik_iki выигрышах p^i=ki/ni\hat p_i=k_i/n_ip^ i =ki /ni (MLE).
- Подставляем в формулы (например, P(win)≈qp^1+(1−q)p^2P(\text{win})\approx q\hat p_1+(1-q)\hat p_2P(win)qp^ 1 +(1q)p^ 2 ) и выбираем урну по максимальной p^i\hat p_ip^ i (или по максимальной оценке ожидаемой выплаты).
- Можно строить доверительные интервалы и проводить тесты; асимптотические частотные гарантии (сходимость, покрытие) при больших выборках.
- Минус: при малых выборках оценки нестабильны, нет учёта априорной информации.
- Байесовский подход:
- Задаём априор для каждой pip_ipi , часто Beta(α,β)(\alpha,\beta)(α,β). После наблюдений kik_iki из nin_ini получаем апостериор Beta(α+ki,β+ni−ki)(\alpha+k_i,\beta+n_i-k_i)(α+ki ,β+ni ki ).
- Предиктивная вероятность следующего выигрыша (постерior mean) равна
E[pi∣данные]=α+kiα+β+ni, \mathbb{E}[p_i|\text{данные}] = \frac{\alpha+k_i}{\alpha+\beta+n_i},
E[pi данные]=α+β+ni α+ki ,
(для несмешанной оценки предсказания можно использовать эту величину).
- Решение: выбирать урну, максимизирующую апостериорное ожидание полезности (интеграл полезности по апостериору).
- Плюсы: учитывает априорные знания, даёт корректное учёт неопределённости (получаем распределение, а не только точечную оценку), устойчив при малых n (шри́нкедж). Минусы: зависимость от априора; вычисления могут быть сложнее.
Короткое руководство по выбору метода:
- Большие данные, отсутствие разумного априорного знания: частотный подход (MLE, интервалы).
- Малые выборки или есть априорная информация/неопределённость, важна корректная учётная неопределённость: байесовский (Beta-приоры для биномиальных моделей — простое и практичное решение).
- Для принятия решения в условиях неопределённости байесовская максимизация ожидаемой полезности даёт более согласованные решения, а частотный подход хорош для долгосрочных частотных свойств и контроля ошибок.
27 Ноя в 09:56
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир