Даны числовые данные и требуется оценить ковариацию и корреляцию двух выборок; предложите различные оценки (смещенные и несмещенные), обсудите их свойства и предложите критерии выбора метода в зависимоти от размера выборки и распределений
Определения (дана выборка пар (xi,yi), i=1…n(x_i,y_i),\;i=1\dots n(xi,yi),i=1…n): - Популяционная ковариация (неизвестна): Cov(X,Y)=E[(X−μX)(Y−μY)]\operatorname{Cov}(X,Y)=\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]Cov(X,Y)=E[(X−μX)(Y−μY)]. - Оценки ковариации: - «Смещённая» (MLE для нормальной модели, или частое определение с 1/n1/n1/n): Sxy(n)=1n∑i=1n(xi−xˉ)(yi−yˉ),xˉ=1n∑ixi.
S_{xy}^{(n)}=\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y),\qquad \bar x=\frac{1}{n}\sum_i x_i. Sxy(n)=n1i=1∑n(xi−xˉ)(yi−yˉ),xˉ=n1i∑xi.
Математ. ожидание: E[Sxy(n)]=n−1nCov(X,Y)\mathbb{E}[S_{xy}^{(n)}]=\frac{n-1}{n}\operatorname{Cov}(X,Y)E[Sxy(n)]=nn−1Cov(X,Y) (отсюда смещение вниз для конечного nnn). - «Несмещённая» (классическая выборочная): Sxy(n−1)=1n−1∑i=1n(xi−xˉ)(yi−yˉ),
S_{xy}^{(n-1)}=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y), Sxy(n−1)=n−11i=1∑n(xi−xˉ)(yi−yˉ),
и E[Sxy(n−1)]=Cov(X,Y)\mathbb{E}[S_{xy}^{(n-1)}]=\operatorname{Cov}(X,Y)E[Sxy(n−1)]=Cov(X,Y) при i.i.d. наблюдениях. Свойства ковариационных оценок: - Согласованность: обе оценки сходятся к истинной ковариации при n→∞n\to\inftyn→∞. - Смещение: Sxy(n)S_{xy}^{(n)}Sxy(n) смещена на множитель (n−1)/n(n-1)/n(n−1)/n; Sxy(n−1)S_{xy}^{(n-1)}Sxy(n−1) несмещённа. - Дисперсия: сложная функция четвёртых моментов; асимптотически порядок O(1/n)O(1/n)O(1/n). При bivariate normal примерно Var(Sxy)∼1n(σX2σY2+Cov(X,Y)2).
\operatorname{Var}(S_{xy})\sim\frac{1}{n}\bigl(\sigma_X^2\sigma_Y^2+\operatorname{Cov}(X,Y)^2\bigr). Var(Sxy)∼n1(σX2σY2+Cov(X,Y)2).
- Для выборок малого объёма смещение и дисперсия имеют практическое значение. Оценки корреляции: - Пирсон (исходя из выборочных ковариаций): r=Sxy(n−1)Sxx(n−1) Syy(n−1),Sxx(n−1)=1n−1∑(xi−xˉ)2.
r=\frac{S_{xy}^{(n-1)}}{\sqrt{S_{xx}^{(n-1)}\,S_{yy}^{(n-1)}}},\qquad S_{xx}^{(n-1)}=\frac{1}{n-1}\sum (x_i-\bar x)^2. r=Sxx(n−1)Syy(n−1)Sxy(n−1),Sxx(n−1)=n−11∑(xi−xˉ)2.
Свойства: асимптотически нормален (при слабых условиях), но смещён для малого nnn; нет простого несмещённого точечного оценщика для корреляции в общем случае. - Преобразование Фишера (для интервалов и тестов): z=arctanh(r)=12ln1+r1−r,
z=\operatorname{arctanh}(r)=\tfrac{1}{2}\ln\frac{1+r}{1-r}, z=arctanh(r)=21ln1−r1+r,
приблизительно распределено как N(arctanh(ρ), 1/(n−3))N(\operatorname{arctanh}(\rho),\;1/(n-3))N(arctanh(ρ),1/(n−3)) при условии нормальности/умеренной nnn. Это даёт удобные доверительные интервалы: arctanh(r)±zα/21/(n−3)\operatorname{arctanh}(r)\pm z_{\alpha/2}\sqrt{1/(n-3)}arctanh(r)±zα/21/(n−3), затем обратно через tanh\tanhtanh. - Непараметрические/робастные корреляции: - Спирмен: корреляция рангов — устойчива к монотонным преобразованиям и выбросам. - Кендалл (τ\tauτ) — более робастен и даёт интерпретируемую вероятность согласованности пар; для bivariate normal ρ=sin (π2τ)\rho=\sin\!\bigl(\tfrac{\pi}{2}\tau\bigr)ρ=sin(2πτ). - Робастные ковариации/корреляции (M-estimators, biweight, MCD, Winsorized) — при тяжёлых хвостах или выбросах предпочтительны. Практические критерии выбора метода: - Если данные близки к нормальным и целью является максимизация правдоподобия (например, оценивание параметров в нормальной модели) — используйте Sxy(n)S_{xy}^{(n)}Sxy(n) (MLE) для ковариации; для корреляции используйте rrr и для доверительных интервалов преобразование Фишера. - Если цель — несмещённая оценка ковариации в классических статистических задачах и nnn невелик — используйте Sxy(n−1)S_{xy}^{(n-1)}Sxy(n−1) (деление на n−1n-1n−1). - Для корреляции при небольших nnn (<30<30<30) учтите сильный малый-байас у rrr; предпочтительны: - бутстрэп для построения доверительных интервалов и исправления смещения (не требует нормальности), - или использование преобразования Фишера с поправкой на n−3n-3n−3 (если приближённо нормально). - При наличии выбросов/тяжёлых хвостов или нелинейной монотонной связи — используйте ранговые меры (Spearman, Kendall) или робастные оценки ковариации/корреляции. - Для высокоразмерных задач (размерность близка к nnn) — используйте регуляризованные/усреднённые (shrinkage) оценки ковариационной матрицы (например Ledoit–Wolf) для улучшения условности и уменьшения ошибки прогноза. - Если нужна минимизация среднеквадратичной ошибки (MSE), то в маленьких выборках MLE (1/n1/n1/n) может дать меньшую MSE несмотря на смещение; выбор между смещением и дисперсией зависит от критерия качества. Короткие рекомендации: - Малые n, классическая цель — ковариация: 1/(n−1)1/(n-1)1/(n−1). - Модельная задача с нормальностью, MLE: 1/n1/n1/n. - Корреляция (точечная) — используйте rrr; для доверительных интервалов и тестов — преобразование Фишера; для малого n/не нормальности — бутстрэп или робастные меры (Spearman/Kendall). - При выбросах/тяжёлых хвостах — робастные оценки или ранговые методы. Если нужно, могу привести формулы для бутстрэп‑интервалов, робастных оценок (MCD, biweight) или показательные примеры на конкретных данных.
- Популяционная ковариация (неизвестна): Cov(X,Y)=E[(X−μX)(Y−μY)]\operatorname{Cov}(X,Y)=\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]Cov(X,Y)=E[(X−μX )(Y−μY )].
- Оценки ковариации:
- «Смещённая» (MLE для нормальной модели, или частое определение с 1/n1/n1/n):
Sxy(n)=1n∑i=1n(xi−xˉ)(yi−yˉ),xˉ=1n∑ixi. S_{xy}^{(n)}=\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y),\qquad \bar x=\frac{1}{n}\sum_i x_i.
Sxy(n) =n1 i=1∑n (xi −xˉ)(yi −yˉ ),xˉ=n1 i∑ xi . Математ. ожидание: E[Sxy(n)]=n−1nCov(X,Y)\mathbb{E}[S_{xy}^{(n)}]=\frac{n-1}{n}\operatorname{Cov}(X,Y)E[Sxy(n) ]=nn−1 Cov(X,Y) (отсюда смещение вниз для конечного nnn).
- «Несмещённая» (классическая выборочная):
Sxy(n−1)=1n−1∑i=1n(xi−xˉ)(yi−yˉ), S_{xy}^{(n-1)}=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y),
Sxy(n−1) =n−11 i=1∑n (xi −xˉ)(yi −yˉ ), и E[Sxy(n−1)]=Cov(X,Y)\mathbb{E}[S_{xy}^{(n-1)}]=\operatorname{Cov}(X,Y)E[Sxy(n−1) ]=Cov(X,Y) при i.i.d. наблюдениях.
Свойства ковариационных оценок:
- Согласованность: обе оценки сходятся к истинной ковариации при n→∞n\to\inftyn→∞.
- Смещение: Sxy(n)S_{xy}^{(n)}Sxy(n) смещена на множитель (n−1)/n(n-1)/n(n−1)/n; Sxy(n−1)S_{xy}^{(n-1)}Sxy(n−1) несмещённа.
- Дисперсия: сложная функция четвёртых моментов; асимптотически порядок O(1/n)O(1/n)O(1/n). При bivariate normal примерно
Var(Sxy)∼1n(σX2σY2+Cov(X,Y)2). \operatorname{Var}(S_{xy})\sim\frac{1}{n}\bigl(\sigma_X^2\sigma_Y^2+\operatorname{Cov}(X,Y)^2\bigr).
Var(Sxy )∼n1 (σX2 σY2 +Cov(X,Y)2). - Для выборок малого объёма смещение и дисперсия имеют практическое значение.
Оценки корреляции:
- Пирсон (исходя из выборочных ковариаций):
r=Sxy(n−1)Sxx(n−1) Syy(n−1),Sxx(n−1)=1n−1∑(xi−xˉ)2. r=\frac{S_{xy}^{(n-1)}}{\sqrt{S_{xx}^{(n-1)}\,S_{yy}^{(n-1)}}},\qquad S_{xx}^{(n-1)}=\frac{1}{n-1}\sum (x_i-\bar x)^2.
r=Sxx(n−1) Syy(n−1) Sxy(n−1) ,Sxx(n−1) =n−11 ∑(xi −xˉ)2. Свойства: асимптотически нормален (при слабых условиях), но смещён для малого nnn; нет простого несмещённого точечного оценщика для корреляции в общем случае.
- Преобразование Фишера (для интервалов и тестов):
z=arctanh(r)=12ln1+r1−r, z=\operatorname{arctanh}(r)=\tfrac{1}{2}\ln\frac{1+r}{1-r},
z=arctanh(r)=21 ln1−r1+r , приблизительно распределено как N(arctanh(ρ), 1/(n−3))N(\operatorname{arctanh}(\rho),\;1/(n-3))N(arctanh(ρ),1/(n−3)) при условии нормальности/умеренной nnn. Это даёт удобные доверительные интервалы: arctanh(r)±zα/21/(n−3)\operatorname{arctanh}(r)\pm z_{\alpha/2}\sqrt{1/(n-3)}arctanh(r)±zα/2 1/(n−3) , затем обратно через tanh\tanhtanh.
- Непараметрические/робастные корреляции:
- Спирмен: корреляция рангов — устойчива к монотонным преобразованиям и выбросам.
- Кендалл (τ\tauτ) — более робастен и даёт интерпретируемую вероятность согласованности пар; для bivariate normal ρ=sin (π2τ)\rho=\sin\!\bigl(\tfrac{\pi}{2}\tau\bigr)ρ=sin(2π τ).
- Робастные ковариации/корреляции (M-estimators, biweight, MCD, Winsorized) — при тяжёлых хвостах или выбросах предпочтительны.
Практические критерии выбора метода:
- Если данные близки к нормальным и целью является максимизация правдоподобия (например, оценивание параметров в нормальной модели) — используйте Sxy(n)S_{xy}^{(n)}Sxy(n) (MLE) для ковариации; для корреляции используйте rrr и для доверительных интервалов преобразование Фишера.
- Если цель — несмещённая оценка ковариации в классических статистических задачах и nnn невелик — используйте Sxy(n−1)S_{xy}^{(n-1)}Sxy(n−1) (деление на n−1n-1n−1).
- Для корреляции при небольших nnn (<30<30<30) учтите сильный малый-байас у rrr; предпочтительны:
- бутстрэп для построения доверительных интервалов и исправления смещения (не требует нормальности),
- или использование преобразования Фишера с поправкой на n−3n-3n−3 (если приближённо нормально).
- При наличии выбросов/тяжёлых хвостов или нелинейной монотонной связи — используйте ранговые меры (Spearman, Kendall) или робастные оценки ковариации/корреляции.
- Для высокоразмерных задач (размерность близка к nnn) — используйте регуляризованные/усреднённые (shrinkage) оценки ковариационной матрицы (например Ledoit–Wolf) для улучшения условности и уменьшения ошибки прогноза.
- Если нужна минимизация среднеквадратичной ошибки (MSE), то в маленьких выборках MLE (1/n1/n1/n) может дать меньшую MSE несмотря на смещение; выбор между смещением и дисперсией зависит от критерия качества.
Короткие рекомендации:
- Малые n, классическая цель — ковариация: 1/(n−1)1/(n-1)1/(n−1).
- Модельная задача с нормальностью, MLE: 1/n1/n1/n.
- Корреляция (точечная) — используйте rrr; для доверительных интервалов и тестов — преобразование Фишера; для малого n/не нормальности — бутстрэп или робастные меры (Spearman/Kendall).
- При выбросах/тяжёлых хвостах — робастные оценки или ранговые методы.
Если нужно, могу привести формулы для бутстрэп‑интервалов, робастных оценок (MCD, biweight) или показательные примеры на конкретных данных.