Двое игроков по очереди бросают честную монету; первый, кто впервые увидит в последовательности выпавших сторон шаблон "ОРO" (орёл, решка, орёл), выигрывает. Постройте марковскую модель для состояния игры и вычислите вероятность победы первого игрока, объяснив, какие состояния нужно учитывать и почему.
Идея: отслеживать только ту информацию, которая нужна для решения задачи — какая часть шаблона "О Р О" уже совпала с хвостом текущей последовательности, и чей сейчас ход победудаётбросоктого,ктозавершилшаблонпобеду даёт бросок того, кто завершил шаблонпобедудаётбросоктого,ктозавершилшаблон. Это даёт марковскую модель с состояниями k,игрокk, игрокk,игрок, где k = 0,1,2 — длина наибольшего суффикса уже выпавшей последовательности, совпадающего с префиксом шаблона "ОРO", и игрок ∈ {1,2} — чей ход.
Объяснение состояний:
k = 0: последние выпавшие монеты не дают совпадения с началом шаблона;k = 1: последний бросок — "О" совпалоспервымсимволомшаблонасовпало с первым символом шаблонасовпалоспервымсимволомшаблона;k = 2: последние два броска — "ОР" совпалоспервымидвумясимволамисовпало с первыми двумя символамисовпалоспервымидвумясимволами. Если на состоянии k = 2 выпадает "О", шаблон завершён и выигрывает тот, кто бросал в этот ход состояниепоглощаˊющеесостояние поглоща́ющеесостояниепоглощаˊющее.
Переходы причестноймонете,вероятностькаждогоисхода1/2при честной монете, вероятность каждого исхода 1/2причестноймонете,вероятностькаждогоисхода1/2. Обозначим A_k = вероятность выигрыша первого игрока, если сейчас ход первого и текущий k; B_k — если ход второго и текущий k. Правила переходов:
Если сейчас 0,текущийигрок0, текущий игрок0,текущийигрок и выпадает О → переходим в состояние k=1, но ход передаётся другому игроку; если выпадает Р → остаёмся в k=0 и ход переходит.Аналогично для k=1: при Р → k=2, при О → остаёмся в k=1 (так как суффикс "О" снова совпадает с префиксом).Для k=2: при О шаблон завершился текущийбросавшийвыигрываеттекущий бросавший выигрываеттекущийбросавшийвыигрывает, при Р → k=0.
Запишем уравнения последовательнопослеброскаходпереходиткдругомуигрокупоследовательно после броска ход переходит к другому игрокупоследовательнопослеброскаходпереходиткдругомуигроку: A0 = 1/2·B1 + 1/2·B0 A1 = 1/2·B2 + 1/2·B1 A2 = 1/2·1 + 1/2·B0 привыпаденииОнаA2первыйигроксразувыигрываетпри выпадении О на A2 первый игрок сразу выигрываетпривыпаденииОнаA2первыйигроксразувыигрывает
B0 = 1/2·A1 + 1/2·A0 B1 = 1/2·A2 + 1/2·A1 B2 = 1/2·0 + 1/2·A0 привыпаденииОнаB2второйигроксразувыигрывает→дляпервогоигрокаэто0при выпадении О на B2 второй игрок сразу выигрывает → для первого игрока это 0привыпаденииОнаB2второйигроксразувыигрывает→дляпервогоигрокаэто0
Из уравнений для B выражаем B через A: B0 = A1+A0A1 + A0A1+A0/2, B1 = A2+A1A2 + A1A2+A1/2, B2 = A0/2.
Подставляем в первые три уравнения и получаем систему для A0,A1,A2: 3A0 = A2 + 2A1 3A1 = A0 + A2 4A2 = A0 + A1 + 2
Идея: отслеживать только ту информацию, которая нужна для решения задачи — какая часть шаблона "О Р О" уже совпала с хвостом текущей последовательности, и чей сейчас ход победудаётбросоктого,ктозавершилшаблонпобеду даёт бросок того, кто завершил шаблонпобедудаётбросоктого,ктозавершилшаблон. Это даёт марковскую модель с состояниями k,игрокk, игрокk,игрок, где k = 0,1,2 — длина наибольшего суффикса уже выпавшей последовательности, совпадающего с префиксом шаблона "ОРO", и игрок ∈ {1,2} — чей ход.
Объяснение состояний:
k = 0: последние выпавшие монеты не дают совпадения с началом шаблона;k = 1: последний бросок — "О" совпалоспервымсимволомшаблонасовпало с первым символом шаблонасовпалоспервымсимволомшаблона;k = 2: последние два броска — "ОР" совпалоспервымидвумясимволамисовпало с первыми двумя символамисовпалоспервымидвумясимволами.Если на состоянии k = 2 выпадает "О", шаблон завершён и выигрывает тот, кто бросал в этот ход состояниепоглощаˊющеесостояние поглоща́ющеесостояниепоглощаˊющее.
Переходы причестноймонете,вероятностькаждогоисхода1/2при честной монете, вероятность каждого исхода 1/2причестноймонете,вероятностькаждогоисхода1/2. Обозначим A_k = вероятность выигрыша первого игрока, если сейчас ход первого и текущий k; B_k — если ход второго и текущий k.
Если сейчас 0,текущийигрок0, текущий игрок0,текущийигрок и выпадает О → переходим в состояние k=1, но ход передаётся другому игроку;Правила переходов:
если выпадает Р → остаёмся в k=0 и ход переходит.Аналогично для k=1: при Р → k=2, при О → остаёмся в k=1 (так как суффикс "О" снова совпадает с префиксом).Для k=2: при О шаблон завершился текущийбросавшийвыигрываеттекущий бросавший выигрываеттекущийбросавшийвыигрывает, при Р → k=0.
Запишем уравнения последовательнопослеброскаходпереходиткдругомуигрокупоследовательно после броска ход переходит к другому игрокупоследовательнопослеброскаходпереходиткдругомуигроку:
A0 = 1/2·B1 + 1/2·B0
A1 = 1/2·B2 + 1/2·B1
A2 = 1/2·1 + 1/2·B0 привыпаденииОнаA2первыйигроксразувыигрываетпри выпадении О на A2 первый игрок сразу выигрываетпривыпаденииОнаA2первыйигроксразувыигрывает
B0 = 1/2·A1 + 1/2·A0
B1 = 1/2·A2 + 1/2·A1
B2 = 1/2·0 + 1/2·A0 привыпаденииОнаB2второйигроксразувыигрывает→дляпервогоигрокаэто0при выпадении О на B2 второй игрок сразу выигрывает → для первого игрока это 0привыпаденииОнаB2второйигроксразувыигрывает→дляпервогоигрокаэто0
Из уравнений для B выражаем B через A:
B0 = A1+A0A1 + A0A1+A0/2, B1 = A2+A1A2 + A1A2+A1/2, B2 = A0/2.
Подставляем в первые три уравнения и получаем систему для A0,A1,A2:
3A0 = A2 + 2A1
3A1 = A0 + A2
4A2 = A0 + A1 + 2
Решая систему, получаем
A1 = 8/19, A0 = 10/19, A2 = 14/19.
Искомая вероятность победы первого игрока начало:k=0,ходпервогоначало: k=0, ход первогоначало:k=0,ходпервого равна A0 = 10/19 ≈ 0.5263.
Ответ: модель со состояниями k=0,1,2k = 0,1,2k=0,1,2 × игрок1или2игрок 1 или 2игрок1или2 и вероятность выигрыша первого игрока = 10/19.