В классе из N человек сравните несколько моделей оценки вероятности того, что найдутся двое с одинаковым днем рождения (игнорируя високосные годы); проанализируйте аппроксимации для N = 23 и N = 50 и укажите ограничения модели
Классическая задача «парадокса дней рождений» (игнорируем 29 февраля, год = 365 дней) формулируется так: при N людях найти вероятность P(N), что есть по крайней мере одна совпадающая пара по дню рождения.
1) Точное выражение (комбинаторика)
Вероятность, что все дни рождения различны: P0(N) = 365·364·…·(365−N+1) / 365^N = ∏_{k=0}^{N-1} (1 − k/365).Тогда искомая вероятность совпадения: P(N) = 1 − P0(N).
2) Первая аппроксимация (экспоненциальная / «поэзоноподобная»)
Для малых k/365 можно разложить log и в первом приближении положить log P0 ≈ −∑_{k=0}^{N-1} k/365 = −C(N,2)/365, откуда P0 ≈ exp( − C(N,2) / 365), P(N) ≈ 1 − exp( − C(N,2) / 365 ).Здесь C(N,2) = N(N−1)/2 — число пар людей. Это совпадает с подходом, где число совпадающих пар аппроксимируется распределением Пуассона с параметром λ = C(N,2)/365, и тогда P(≥1) ≈ 1 − e^{−λ}.
3) Улучшенное приближение (включая второй член разложения)
Более точнее взять второе слагаемое разложения log(1−x) = −x − x^2/2 − …: log P0 ≈ −S1 − S2/2, где S1 = ∑ k/365 = C(N,2)/365, S2 = ∑ k^2 / 365^2.Это даёт заметно лучшее приближение при умеренных N (см. числа ниже).
Численные сравнения для N = 23 и N = 50
N = 23: Точное: P(23) = 1 − ∏_{k=0}^{22} (1 − k/365) ≈ 0.507297 (≈ 50.73%).1-е приближение (1 − e^{−C/365}): λ = 253/365 ≈ 0.69315 ⇒ P ≈ 0.499500 (ошибка ≈ −0.0078 в абсолютных единицах, ≈ −1.5% относительно истинного).2-е приближение (учёт S2) даёт ≈ 0.5073 (существенно ближе к точному).N = 50: Точное: P(50) ≈ 0.97037 (≈ 97.04%).1-е приближение: λ = 1225/365 ≈ 3.35616 ⇒ P ≈ 0.96514 (абсолютная ошибка ≈ −0.0052).2-е приближение даёт ≈ 0.9699 (ещё ближе).
Замечания по точности аппроксимаций
Первая (экспоненциальная / Пуассона) аппроксимация хороша для небольших N, когда λ = C(N,2)/365 невелик; при увеличении N она начинает систематически недооценивать P(N), но остаётся довольно близкой до умеренных N.Включение второго члена разложения (учёт ∑k^2) даёт заметное улучшение при N порядка десятков.При N > 365 P(N) = 1 (по принципу Дирихле — обязательно есть совпадения).
Ограничения модели и дополнительные предположения
Равномерность: предполагается, что каждый из 365 дней одинаково вероятен. В реальности частота рождений меняется по сезонам/месяцам (и разные страны/поколения имеют разные распределения). Нерівномірность меняет численные значения, но для небольших классов (N порядка нескольких десятков) общая картина (быстрый рост вероятности) остаётся похожей.Независимость: предполагается, что дни рождений разных людей независимы. В реальных выборках может быть кластеризация (например, двоюродные/близкие по возрасту люди, рождение в пиках плодовитости, планирование дат и т. п.), что увеличит вероятность совпадений.Игнорирование високосных годов/29 февраля: если учитывать 29 февраля, модель усложняется; обычно его вклад мал.Одномерность по дню: модель различает только день в году, не учитывает год, час и т. п.Малые размеры выборки и отбор: если «класс» не случайная выборка (например, группы по месту/времени рождения), результаты могут сильно отличаться.Математические приближения (экспонента, Пуассон) предполагают малые x = k/365 для разложения log(1−x); при больших N требуется больше членов разложения или точный продукт.
Краткое резюме
Точное выражение: P(N) = 1 − ∏_{k=0}^{N−1} (1 − k/365).Простая и часто полезная аппроксимация: P ≈ 1 − exp(−N(N−1)/(2·365)); для N=23 даёт ≈0.4995 (истинно ≈0.5073), для N=50 ≈0.9651 (истинно ≈0.9704).Учет второго члена разложения даёт ещё более точные значения при тех же N.В реальных приложениях нужно помнить про неравномерность и зависимость рождений — тогда модель «равномерных и независимых дней» даёт только приблизительную оценку.
Классическая задача «парадокса дней рождений» (игнорируем 29 февраля, год = 365 дней) формулируется так: при N людях найти вероятность P(N), что есть по крайней мере одна совпадающая пара по дню рождения.
1) Точное выражение (комбинаторика)
Вероятность, что все дни рождения различны:P0(N) = 365·364·…·(365−N+1) / 365^N = ∏_{k=0}^{N-1} (1 − k/365).Тогда искомая вероятность совпадения:
P(N) = 1 − P0(N).
2) Первая аппроксимация (экспоненциальная / «поэзоноподобная»)
Для малых k/365 можно разложить log и в первом приближении положитьlog P0 ≈ −∑_{k=0}^{N-1} k/365 = −C(N,2)/365,
откуда
P0 ≈ exp( − C(N,2) / 365),
P(N) ≈ 1 − exp( − C(N,2) / 365 ).Здесь C(N,2) = N(N−1)/2 — число пар людей. Это совпадает с подходом, где число совпадающих пар аппроксимируется распределением Пуассона с параметром λ = C(N,2)/365, и тогда P(≥1) ≈ 1 − e^{−λ}.
3) Улучшенное приближение (включая второй член разложения)
Более точнее взять второе слагаемое разложения log(1−x) = −x − x^2/2 − …:log P0 ≈ −S1 − S2/2,
где S1 = ∑ k/365 = C(N,2)/365, S2 = ∑ k^2 / 365^2.Это даёт заметно лучшее приближение при умеренных N (см. числа ниже).
Численные сравнения для N = 23 и N = 50
N = 23:Точное: P(23) = 1 − ∏_{k=0}^{22} (1 − k/365) ≈ 0.507297 (≈ 50.73%).1-е приближение (1 − e^{−C/365}): λ = 253/365 ≈ 0.69315 ⇒ P ≈ 0.499500 (ошибка ≈ −0.0078 в абсолютных единицах, ≈ −1.5% относительно истинного).2-е приближение (учёт S2) даёт ≈ 0.5073 (существенно ближе к точному).N = 50:
Точное: P(50) ≈ 0.97037 (≈ 97.04%).1-е приближение: λ = 1225/365 ≈ 3.35616 ⇒ P ≈ 0.96514 (абсолютная ошибка ≈ −0.0052).2-е приближение даёт ≈ 0.9699 (ещё ближе).
Замечания по точности аппроксимаций
Первая (экспоненциальная / Пуассона) аппроксимация хороша для небольших N, когда λ = C(N,2)/365 невелик; при увеличении N она начинает систематически недооценивать P(N), но остаётся довольно близкой до умеренных N.Включение второго члена разложения (учёт ∑k^2) даёт заметное улучшение при N порядка десятков.При N > 365 P(N) = 1 (по принципу Дирихле — обязательно есть совпадения).Ограничения модели и дополнительные предположения
Равномерность: предполагается, что каждый из 365 дней одинаково вероятен. В реальности частота рождений меняется по сезонам/месяцам (и разные страны/поколения имеют разные распределения). Нерівномірность меняет численные значения, но для небольших классов (N порядка нескольких десятков) общая картина (быстрый рост вероятности) остаётся похожей.Независимость: предполагается, что дни рождений разных людей независимы. В реальных выборках может быть кластеризация (например, двоюродные/близкие по возрасту люди, рождение в пиках плодовитости, планирование дат и т. п.), что увеличит вероятность совпадений.Игнорирование високосных годов/29 февраля: если учитывать 29 февраля, модель усложняется; обычно его вклад мал.Одномерность по дню: модель различает только день в году, не учитывает год, час и т. п.Малые размеры выборки и отбор: если «класс» не случайная выборка (например, группы по месту/времени рождения), результаты могут сильно отличаться.Математические приближения (экспонента, Пуассон) предполагают малые x = k/365 для разложения log(1−x); при больших N требуется больше членов разложения или точный продукт.Краткое резюме
Точное выражение: P(N) = 1 − ∏_{k=0}^{N−1} (1 − k/365).Простая и часто полезная аппроксимация: P ≈ 1 − exp(−N(N−1)/(2·365)); для N=23 даёт ≈0.4995 (истинно ≈0.5073), для N=50 ≈0.9651 (истинно ≈0.9704).Учет второго члена разложения даёт ещё более точные значения при тех же N.В реальных приложениях нужно помнить про неравномерность и зависимость рождений — тогда модель «равномерных и независимых дней» даёт только приблизительную оценку.