Краткое введение в статистику и вероятность — основные понятия, формулы и важные результаты.
1) Вероятность — базовые определения
Элементарное событие, пространство исходов (\Omega), событие (A\subset\Omega).Аксиомы: (0\le P(A)\le1,\ P(\Omega)=1,\ P!\left(\bigcup_{i} A_i\right)=\sum_i P(A_i)) для попарно непересекающихся (A_i).Условная вероятность: (\displaystyle P(A\mid B)=\frac{P(A\cap B)}{P(B)}) при (P(B)>0).Формула полной вероятности: (\displaystyle P(B)=\sum_i P(B\mid A_i)P(A_i)) (разбиение по (A_i)).Теорема Байеса: (\displaystyle P(A_j\mid B)=\frac{P(B\mid A_j)P(A_j)}{\sum_i P(B\mid A_i)P(A_i)}).
2) Случайные величины и распределения
Дискретная: вероятность точек (P(X=x_i)). Пример биномиального: (\displaystyle P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}).Непрерывная: плотность (f_X(x)), (P(a<X<b)=\int_a^b f_X(x)\,dx).Распространённые законы: Бернулли, Биномиал, Пуассон, Равномерное, Экспоненциальное, Нормальное (N(\mu,\sigma^2)) с плотностью (\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}).
3) Моменты: матожидание, дисперсия, ковариация
Для дискретной: (\displaystyle E[X]=\sum x_i P(X=x_i)). Для непрерывной: (\displaystyle E[X]=\int x f_X(x)\,dx).Дисперсия: (\displaystyle \mathrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-\big(E[X]\big)^2).Ковариация и корреляция: (\displaystyle \mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]), (\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}).Независимость (\Rightarrow) (\mathrm{Cov}=0), обратное неверно в общем случае.
4) Законы больших чисел и предельные теоремы
Закон больших чисел (слабый): для i.i.d. (X_i) с (E[X_i]=\mu) (\displaystyle \bar Xn=\frac{1}{n}\sum{i=1}^n X_i \xrightarrow{P} \mu.)Центральная предельная теорема: при i.i.d. с конечной дисперсией (\sigma^2) (\displaystyle \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\xrightarrow{d} N(0,1).)
5) Статистика (выводы по данным)
Оценивание параметров: точечные оценки (например, (\bar X) — оценка (\mu)), несмещённая оценка дисперсии: (\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2.)Доверительные интервалы: для среднего при нормальности (\displaystyle \bar X\pm t_{n-1,\,\alpha/2}\frac{s}{\sqrt{n}}.)Проверка гипотез: нулевая гипотеза (H_0) против альтернативы (H_1); вычисляется статистика, затем p-значение — вероятность получить результат не менее экстремальный при (H_0). Малое p — основания отвергнуть (H_0).Ошибки: ошибка I рода (альфа, ложное отклонение (H_0)), II рода (бета, неосуждение ложной альтернативы).
6) Практические советы
Разделяйте корреляцию и причинность.Проверяйте предпосылки (нормальность, независимость, гомоскедастичность).Для больших выборок часто пригодны асимптотические приближения (CLT).
Если нужно, могу развить любую из тем (теория, примеры расчётов, конкретные распределения или методы проверки гипотез).
Краткое введение в статистику и вероятность — основные понятия, формулы и важные результаты.
1) Вероятность — базовые определения
Элементарное событие, пространство исходов (\Omega), событие (A\subset\Omega).Аксиомы: (0\le P(A)\le1,\ P(\Omega)=1,\ P!\left(\bigcup_{i} A_i\right)=\sum_i P(A_i)) для попарно непересекающихся (A_i).Условная вероятность: (\displaystyle P(A\mid B)=\frac{P(A\cap B)}{P(B)}) при (P(B)>0).Формула полной вероятности: (\displaystyle P(B)=\sum_i P(B\mid A_i)P(A_i)) (разбиение по (A_i)).Теорема Байеса: (\displaystyle P(A_j\mid B)=\frac{P(B\mid A_j)P(A_j)}{\sum_i P(B\mid A_i)P(A_i)}).2) Случайные величины и распределения
Дискретная: вероятность точек (P(X=x_i)). Пример биномиального: (\displaystyle P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}).Непрерывная: плотность (f_X(x)), (P(a<X<b)=\int_a^b f_X(x)\,dx).Распространённые законы: Бернулли, Биномиал, Пуассон, Равномерное, Экспоненциальное, Нормальное (N(\mu,\sigma^2)) с плотностью (\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}).3) Моменты: матожидание, дисперсия, ковариация
Для дискретной: (\displaystyle E[X]=\sum x_i P(X=x_i)). Для непрерывной: (\displaystyle E[X]=\int x f_X(x)\,dx).Дисперсия: (\displaystyle \mathrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-\big(E[X]\big)^2).Ковариация и корреляция: (\displaystyle \mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]), (\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}).Независимость (\Rightarrow) (\mathrm{Cov}=0), обратное неверно в общем случае.4) Законы больших чисел и предельные теоремы
Закон больших чисел (слабый): для i.i.d. (X_i) с (E[X_i]=\mu) (\displaystyle \bar Xn=\frac{1}{n}\sum{i=1}^n X_i \xrightarrow{P} \mu.)Центральная предельная теорема: при i.i.d. с конечной дисперсией (\sigma^2)(\displaystyle \frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}\xrightarrow{d} N(0,1).)
5) Статистика (выводы по данным)
Оценивание параметров: точечные оценки (например, (\bar X) — оценка (\mu)), несмещённая оценка дисперсии:(\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2.)Доверительные интервалы: для среднего при нормальности
(\displaystyle \bar X\pm t_{n-1,\,\alpha/2}\frac{s}{\sqrt{n}}.)Проверка гипотез: нулевая гипотеза (H_0) против альтернативы (H_1); вычисляется статистика, затем p-значение — вероятность получить результат не менее экстремальный при (H_0). Малое p — основания отвергнуть (H_0).Ошибки: ошибка I рода (альфа, ложное отклонение (H_0)), II рода (бета, неосуждение ложной альтернативы).
6) Практические советы
Разделяйте корреляцию и причинность.Проверяйте предпосылки (нормальность, независимость, гомоскедастичность).Для больших выборок часто пригодны асимптотические приближения (CLT).Если нужно, могу развить любую из тем (теория, примеры расчётов, конкретные распределения или методы проверки гипотез).