В классе из N человек сравните несколько моделей оценки вероятности того, что найдутся двое с одинаковым днем рождения (игнорируя високосные годы); проанализируйте аппроксимации для N = 23 и N = 50 и укажите ограничения модели
Предыдущий
вопрос Следующий
вопрос

Question

В классе из N человек сравните несколько моделей оценки вероятности того, что найдутся двое с одинаковым днем рождения (игнорируя високосные годы); проанализируйте аппроксимации для N = 23 и N = 50 и укажите ограничения модели
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по математике

В классе из N челове...

eva

26 Сен в 20:32

21 +2

0

Helper · Answer 1

Классическая задача «парадокса дней рождений» (игнорируем 29 февраля, год = 365 дней) формулируется так: при N людях найти вероятность P(N), что есть по крайней мере одна совпадающая пара по дню рождения.

1) Точное выражение (комбинаторика)

Вероятность, что все дни рождения различны:
P0(N) = 365·364·…·(365−N+1) / 365^N = ∏_{k=0}^{N-1} (1 − k/365).Тогда искомая вероятность совпадения:
P(N) = 1 − P0(N).

2) Первая аппроксимация (экспоненциальная / «поэзоноподобная»)

Для малых k/365 можно разложить log и в первом приближении положить
log P0 ≈ −∑_{k=0}^{N-1} k/365 = −C(N,2)/365,
откуда
P0 ≈ exp( − C(N,2) / 365),
P(N) ≈ 1 − exp( − C(N,2) / 365 ).Здесь C(N,2) = N(N−1)/2 — число пар людей. Это совпадает с подходом, где число совпадающих пар аппроксимируется распределением Пуассона с параметром λ = C(N,2)/365, и тогда P(≥1) ≈ 1 − e^{−λ}.

3) Улучшенное приближение (включая второй член разложения)

Более точнее взять второе слагаемое разложения log(1−x) = −x − x^2/2 − …:
log P0 ≈ −S1 − S2/2,
где S1 = ∑ k/365 = C(N,2)/365, S2 = ∑ k^2 / 365^2.Это даёт заметно лучшее приближение при умеренных N (см. числа ниже).

Численные сравнения для N = 23 и N = 50

N = 23:
Точное: P(23) = 1 − ∏_{k=0}^{22} (1 − k/365) ≈ 0.507297 (≈ 50.73%).1-е приближение (1 − e^{−C/365}): λ = 253/365 ≈ 0.69315 ⇒ P ≈ 0.499500 (ошибка ≈ −0.0078 в абсолютных единицах, ≈ −1.5% относительно истинного).2-е приближение (учёт S2) даёт ≈ 0.5073 (существенно ближе к точному).N = 50:
Точное: P(50) ≈ 0.97037 (≈ 97.04%).1-е приближение: λ = 1225/365 ≈ 3.35616 ⇒ P ≈ 0.96514 (абсолютная ошибка ≈ −0.0052).2-е приближение даёт ≈ 0.9699 (ещё ближе).

Замечания по точности аппроксимаций

Первая (экспоненциальная / Пуассона) аппроксимация хороша для небольших N, когда λ = C(N,2)/365 невелик; при увеличении N она начинает систематически недооценивать P(N), но остаётся довольно близкой до умеренных N.Включение второго члена разложения (учёт ∑k^2) даёт заметное улучшение при N порядка десятков.При N > 365 P(N) = 1 (по принципу Дирихле — обязательно есть совпадения).

Ограничения модели и дополнительные предположения

Равномерность: предполагается, что каждый из 365 дней одинаково вероятен. В реальности частота рождений меняется по сезонам/месяцам (и разные страны/поколения имеют разные распределения). Нерівномірность меняет численные значения, но для небольших классов (N порядка нескольких десятков) общая картина (быстрый рост вероятности) остаётся похожей.Независимость: предполагается, что дни рождений разных людей независимы. В реальных выборках может быть кластеризация (например, двоюродные/близкие по возрасту люди, рождение в пиках плодовитости, планирование дат и т. п.), что увеличит вероятность совпадений.Игнорирование високосных годов/29 февраля: если учитывать 29 февраля, модель усложняется; обычно его вклад мал.Одномерность по дню: модель различает только день в году, не учитывает год, час и т. п.Малые размеры выборки и отбор: если «класс» не случайная выборка (например, группы по месту/времени рождения), результаты могут сильно отличаться.Математические приближения (экспонента, Пуассон) предполагают малые x = k/365 для разложения log(1−x); при больших N требуется больше членов разложения или точный продукт.

Краткое резюме

Точное выражение: P(N) = 1 − ∏_{k=0}^{N−1} (1 − k/365).Простая и часто полезная аппроксимация: P ≈ 1 − exp(−N(N−1)/(2·365)); для N=23 даёт ≈0.4995 (истинно ≈0.5073), для N=50 ≈0.9651 (истинно ≈0.9704).Учет второго члена разложения даёт ещё более точные значения при тех же N.В реальных приложениях нужно помнить про неравномерность и зависимость рождений — тогда модель «равномерных и независимых дней» даёт только приблизительную оценку.

Другие вопросы eva

Другие вопросы
eva