Дана вероятность того, что в группе из n человек найдутся двое с одинаковым днем рождения. Объясните, при каких n вероятность превысит 50%, и почему интуиция часто ошибается
Вероятность того, что в группе из nnn человек найдутся двое с одинаковым днём рождения (приравнивая год к 365 дням и считая дни равновероятными) равна P(n)=1−∏k=0n−1365−k365,
P(n)=1-\prod_{k=0}^{n-1}\frac{365-k}{365}, P(n)=1−k=0∏n−1365365−k,
потому что второму человеку нужно не попасть на день первого, третьему — не на дни первых двух и т.д. Эта вероятность превышает 50%50\%50% уже при n=23n=23n=23: P(23)≈0.5073.
P(23)\approx 0.5073. P(23)≈0.5073. Короткая приближающая оценка, объясняющая число 23. Для комплементарной вероятности всех разных дней берём логарифм: ln∏k=0n−1(1−k365)=∑k=0n−1ln(1−k365)≈−∑k=0n−1k365=−n(n−1)2⋅365,
\ln\prod_{k=0}^{n-1}\left(1-\frac{k}{365}\right)=\sum_{k=0}^{n-1}\ln\left(1-\frac{k}{365}\right)\approx -\sum_{k=0}^{n-1}\frac{k}{365}=-\frac{n(n-1)}{2\cdot 365}, lnk=0∏n−1(1−365k)=k=0∑n−1ln(1−365k)≈−k=0∑n−1365k=−2⋅365n(n−1),
(использовано ln(1−x)≈−x\ln(1-x)\approx -xln(1−x)≈−x при малых xxx). Следовательно ∏k=0n−1365−k365≈exp (−n(n−1)2⋅365).
\prod_{k=0}^{n-1}\frac{365-k}{365}\approx\exp\!\left(-\frac{n(n-1)}{2\cdot365}\right). k=0∏n−1365365−k≈exp(−2⋅365n(n−1)).
Приравнивая это к 0.50.50.5 получаем n(n−1)2⋅365≈ln2,
\frac{n(n-1)}{2\cdot365}\approx\ln 2, 2⋅365n(n−1)≈ln2,
и отсюда n≈2⋅365⋅ln2≈22.5n\approx\sqrt{2\cdot365\cdot\ln 2}\approx 22.5n≈2⋅365⋅ln2≈22.5, т.е. порог — 232323. Почему интуиция ошибается: многие мыслят о совпадении с конкретным человеком или конкретной датой (для этого действительно нужно около 183183183 человек, чтобы шанс превысил 50%50\%50%), тогда как задача просит совпадение между любыми двумя. Число возможных пар растёт квадратично: (n2)=n(n−1)2\binom{n}{2}=\frac{n(n-1)}{2}(2n)=2n(n−1), поэтому достаточно сравнительно небольшого nnn, чтобы появилось много пар и высокая вероятность хоть одного совпадения. Также люди часто неверно предполагают независимость событий «каждый следующий не совпадает», что вводит в заблуждение. (Аналог для года из mmm дней: порог примерно n≈2mln2n\approx\sqrt{2m\ln 2}n≈2mln2.)
P(n)=1−∏k=0n−1365−k365, P(n)=1-\prod_{k=0}^{n-1}\frac{365-k}{365},
P(n)=1−k=0∏n−1 365365−k , потому что второму человеку нужно не попасть на день первого, третьему — не на дни первых двух и т.д.
Эта вероятность превышает 50%50\%50% уже при n=23n=23n=23:
P(23)≈0.5073. P(23)\approx 0.5073.
P(23)≈0.5073.
Короткая приближающая оценка, объясняющая число 23. Для комплементарной вероятности всех разных дней берём логарифм:
ln∏k=0n−1(1−k365)=∑k=0n−1ln(1−k365)≈−∑k=0n−1k365=−n(n−1)2⋅365, \ln\prod_{k=0}^{n-1}\left(1-\frac{k}{365}\right)=\sum_{k=0}^{n-1}\ln\left(1-\frac{k}{365}\right)\approx -\sum_{k=0}^{n-1}\frac{k}{365}=-\frac{n(n-1)}{2\cdot 365},
lnk=0∏n−1 (1−365k )=k=0∑n−1 ln(1−365k )≈−k=0∑n−1 365k =−2⋅365n(n−1) , (использовано ln(1−x)≈−x\ln(1-x)\approx -xln(1−x)≈−x при малых xxx). Следовательно
∏k=0n−1365−k365≈exp (−n(n−1)2⋅365). \prod_{k=0}^{n-1}\frac{365-k}{365}\approx\exp\!\left(-\frac{n(n-1)}{2\cdot365}\right).
k=0∏n−1 365365−k ≈exp(−2⋅365n(n−1) ). Приравнивая это к 0.50.50.5 получаем
n(n−1)2⋅365≈ln2, \frac{n(n-1)}{2\cdot365}\approx\ln 2,
2⋅365n(n−1) ≈ln2, и отсюда n≈2⋅365⋅ln2≈22.5n\approx\sqrt{2\cdot365\cdot\ln 2}\approx 22.5n≈2⋅365⋅ln2 ≈22.5, т.е. порог — 232323.
Почему интуиция ошибается: многие мыслят о совпадении с конкретным человеком или конкретной датой (для этого действительно нужно около 183183183 человек, чтобы шанс превысил 50%50\%50%), тогда как задача просит совпадение между любыми двумя. Число возможных пар растёт квадратично: (n2)=n(n−1)2\binom{n}{2}=\frac{n(n-1)}{2}(2n )=2n(n−1) , поэтому достаточно сравнительно небольшого nnn, чтобы появилось много пар и высокая вероятность хоть одного совпадения. Также люди часто неверно предполагают независимость событий «каждый следующий не совпадает», что вводит в заблуждение.
(Аналог для года из mmm дней: порог примерно n≈2mln2n\approx\sqrt{2m\ln 2}n≈2mln2 .)