В задаче о сравнении средних двух независимых выборок дисперсии выборок существенно различаются, но студент применил классический t-тест с предположением равенства дисперсий. Проанализируйте последствия такого упрощения, предложите более адекватные тесты и опишите критерии выбора между ними;.
Классический (пуленый, Student) t‑тест предполагает равенство дисперсий σ1^2 = σ2^2 и использует объединённую оценку дисперсии. Если это предположение нарушено, распределение статистики ≠ т‑распределение с df = n1+n2−2, и контроль над уровнем значимости (Type I error) нарушается.Последствия зависят от соотношения дисперсий и размеров выборок: при неравных n и больших различиях дисперсий возможен значительный сдвиг уровня значимости — искажение Type I error (обычно — завышение, если большая дисперсия на стороне меньшей выборки; может быть и занижение).доверительные интервалы для разности средних будут некорректны.мощность теста непредсказуема: иногда пулация даёт больше мощности, но за счёт неверного уровня значимости.Вывод: применять pooled t при заметной гетероскедастичности — рисковано.
Альтернативы и когда их применять 1) Welch t‑test (рекомендуется по умолчанию)
Формула статистики: t = (x̄1 − x̄2) / sqrt(s1^2/n1 + s2^2/n2).df по приближению Уэлча/Саттерве́йта: v ≈ (s1^2/n1 + s2^2/n2)^2 / [ (s1^4)/(n1^2 (n1−1)) + (s2^4)/(n2^2 (n2−1)) ].Преимущества: корректный уровень значимости при нормальности, устойчив к неравенству дисперсий и не требует pooling. Обычно — лучший выбор, если есть сомнения в равенстве дисперсий.
2) Непараметрические тесты (если нарушения нормальности или есть выбросы)
Mann–Whitney U (Wilcoxon rank‑sum): тестит сдвиг распределений/вероятность случайно выбрать большую величину; не эквивалентен тесту разности средних, требует одинаковой формы распределений для интерпретации как различия в медианах.Тесты на обрезанные средние (Yuen) — устойчивы к выбросам, тестируют разность усечённых средних.
3) Пермутационные/рандомизационные тесты
При малых n или нестандартных распределениях — точные или перестановочные тесты с базовой статистикой (обычно studentized: разность средних, стандартизованная с гетероскедастичными оценками) дают корректный уровень без сильных предположений.Требуют обменимости наблюдений под нулевой гипотезой (в рандомизационных исследованиях обычно оправдано).
4) Бутстрэп
Bootstrap‑CI (percentile, bootstrap‑t) для разности средних или для studentized статистики. Полезен при неясной форме распределений, но на малых n может быть ненадёжен.
5) Тесты для равенства дисперсий (если нужно)
Bartlett: чувствителен к ненормальности.Levene / Brown–Forsythe: более устойчивы к ненормальности, тестируют гомогенность дисперсий.Важно: предтестирование на равенство дисперсий и выбор теста в зависимости от результата (переключение) может привести к повышению вероятности ошибки первого рода — лучше заранее выбрать устойчивый метод (например, Welch).
Критерии выбора на практике
Нормальность выборок (приближённо): Если выборки ~ нормальные (визуально/тесты) и дисперсии примерно равны → pooled t даёт чуть больше мощности.Если есть сомнения в равенстве дисперсий → Welch t (по умолчанию).Размеры выборок: Если n1 ≈ n2, pooled t менее чувствителен к гетероскедастичности; при равных n ошибка в уровне меньше. Но при больших отличиях в дисперсиях всё равно предпочтителен Welch.Если n небольшие и распределения ненормальны → пермутационные/бутстрэпные методы или робастные тесты.Выбросы / асимметрия: Использовать робастные методы (усечённые средние, медианы, бутстрэп) или непараметрические тесты.Интерпретация: Mann–Whitney не тестирует средние в общем случае — это тест о сдвиге распределений/рангов. Если цель — сравнить именно средние, лучше Welch или бутстрэп средних.
Практическая процедура (рекомендация)
Оцените данные: графики (ящики, гистограммы, QQ‑плоты), s1^2/s2^2, наличие выбросов.Не делайте автоматического pre‑test и переключения на pooled t: предпочтительнее выбрать Welch заранее.Если данные явно ненормальны или небольшие n (например n<30) — рассмотрите пермутационный studentized test или бутстрэп‑CI, либо робастные тесты.При больших выборках (центральная предельная теорема) Welch обычно достаточно устойчив.В отчёте укажите, почему выбран тест, и при возможности приведите результат альтернативного метода (например, Welch и пермутационный) как проверку.
Краткие эмпирические правила
Если s_max^2 / s_min^2 > 2 и n1 ≠ n2 → ни в коем случае не использовать pooled t; ставьте Welch.Если выборки маленькие и распределения нетипичны → пермутационные/бутстрэп/робастные методы.В большинстве практических задач — по умолчанию Welch t: прост, широко реализован и адекватен при гетероскедастичности.
Если хотите, могу:
посмотреть ваши данные (n1, n2, средние, s1, s2, графики) и предложить конкретный тест и расчёт;показать пример расчёта Welch‑t и df по формуле.
Кратко — что произошло и почему это важно
Классический (пуленый, Student) t‑тест предполагает равенство дисперсий σ1^2 = σ2^2 и использует объединённую оценку дисперсии. Если это предположение нарушено, распределение статистики ≠ т‑распределение с df = n1+n2−2, и контроль над уровнем значимости (Type I error) нарушается.Последствия зависят от соотношения дисперсий и размеров выборок:при неравных n и больших различиях дисперсий возможен значительный сдвиг уровня значимости — искажение Type I error (обычно — завышение, если большая дисперсия на стороне меньшей выборки; может быть и занижение).доверительные интервалы для разности средних будут некорректны.мощность теста непредсказуема: иногда пулация даёт больше мощности, но за счёт неверного уровня значимости.Вывод: применять pooled t при заметной гетероскедастичности — рисковано.
Альтернативы и когда их применять
Формула статистики: t = (x̄1 − x̄2) / sqrt(s1^2/n1 + s2^2/n2).df по приближению Уэлча/Саттерве́йта:1) Welch t‑test (рекомендуется по умолчанию)
v ≈ (s1^2/n1 + s2^2/n2)^2 / [ (s1^4)/(n1^2 (n1−1)) + (s2^4)/(n2^2 (n2−1)) ].Преимущества: корректный уровень значимости при нормальности, устойчив к неравенству дисперсий и не требует pooling. Обычно — лучший выбор, если есть сомнения в равенстве дисперсий.
2) Непараметрические тесты (если нарушения нормальности или есть выбросы)
Mann–Whitney U (Wilcoxon rank‑sum): тестит сдвиг распределений/вероятность случайно выбрать большую величину; не эквивалентен тесту разности средних, требует одинаковой формы распределений для интерпретации как различия в медианах.Тесты на обрезанные средние (Yuen) — устойчивы к выбросам, тестируют разность усечённых средних.3) Пермутационные/рандомизационные тесты
При малых n или нестандартных распределениях — точные или перестановочные тесты с базовой статистикой (обычно studentized: разность средних, стандартизованная с гетероскедастичными оценками) дают корректный уровень без сильных предположений.Требуют обменимости наблюдений под нулевой гипотезой (в рандомизационных исследованиях обычно оправдано).4) Бутстрэп
Bootstrap‑CI (percentile, bootstrap‑t) для разности средних или для studentized статистики. Полезен при неясной форме распределений, но на малых n может быть ненадёжен.5) Тесты для равенства дисперсий (если нужно)
Bartlett: чувствителен к ненормальности.Levene / Brown–Forsythe: более устойчивы к ненормальности, тестируют гомогенность дисперсий.Важно: предтестирование на равенство дисперсий и выбор теста в зависимости от результата (переключение) может привести к повышению вероятности ошибки первого рода — лучше заранее выбрать устойчивый метод (например, Welch).Критерии выбора на практике
Нормальность выборок (приближённо):Если выборки ~ нормальные (визуально/тесты) и дисперсии примерно равны → pooled t даёт чуть больше мощности.Если есть сомнения в равенстве дисперсий → Welch t (по умолчанию).Размеры выборок:
Если n1 ≈ n2, pooled t менее чувствителен к гетероскедастичности; при равных n ошибка в уровне меньше. Но при больших отличиях в дисперсиях всё равно предпочтителен Welch.Если n небольшие и распределения ненормальны → пермутационные/бутстрэпные методы или робастные тесты.Выбросы / асимметрия:
Использовать робастные методы (усечённые средние, медианы, бутстрэп) или непараметрические тесты.Интерпретация:
Mann–Whitney не тестирует средние в общем случае — это тест о сдвиге распределений/рангов. Если цель — сравнить именно средние, лучше Welch или бутстрэп средних.
Практическая процедура (рекомендация)
Оцените данные: графики (ящики, гистограммы, QQ‑плоты), s1^2/s2^2, наличие выбросов.Не делайте автоматического pre‑test и переключения на pooled t: предпочтительнее выбрать Welch заранее.Если данные явно ненормальны или небольшие n (например n<30) — рассмотрите пермутационный studentized test или бутстрэп‑CI, либо робастные тесты.При больших выборках (центральная предельная теорема) Welch обычно достаточно устойчив.В отчёте укажите, почему выбран тест, и при возможности приведите результат альтернативного метода (например, Welch и пермутационный) как проверку.Краткие эмпирические правила
Если s_max^2 / s_min^2 > 2 и n1 ≠ n2 → ни в коем случае не использовать pooled t; ставьте Welch.Если выборки маленькие и распределения нетипичны → пермутационные/бутстрэп/робастные методы.В большинстве практических задач — по умолчанию Welch t: прост, широко реализован и адекватен при гетероскедастичности.Если хотите, могу:
посмотреть ваши данные (n1, n2, средние, s1, s2, графики) и предложить конкретный тест и расчёт;показать пример расчёта Welch‑t и df по формуле.