Исследователь сравнивает две методики улучшения памяти у студентов — предложите статистический план исследования (тип дизайна, расчёт выборки, критерии оценки и возможные угрозы внутренней валидности) и способы интерпретации результатов
Кратко и по делу — план исследования, расчёты, критерии оценки, угрозы внутренней валидности и как интерпретировать результаты. 1) Дизайн - Рандомизированное параллельное контролируемое исследование (RCT) — лучше всего для защиты от смещений. Альтернативы: кроссовер (каждый студент обе методики, порядок рандомизируется) — экономит выборку, но требует адекватного «washout» и отсутствие длительного обучения. - Блоковая или стратифицированная рандомизация по ключевым переменным (предшествующая успеваемость, возраст) при необходимости. - Слепое оценивание результатов (оценщики тестов) обязательно; слепить участников часто невозможно. 2) Основная гипотеза и критерий эффективности - Основная гипотеза: разница в средних изменениях показателей памяти между методиками не равна нулю. - Первичный исход: изменение балла теста памяти от базовой оценки до отложенного измерения (например, число правильно вспомненных слов через 1 нед/1 мес). - Решающее правило: отвергнуть H0, если p < α\alphaα (обычно α=0.05\alpha=0.05α=0.05) и эффект клинически значим (см. MCID). - Вторичные исходы: немедленный и отложенный Recall, распознавание, устойчивость удержания (% сохранившихся), когнитивная нагрузка, соблюдение методики. 3) Расчёт размера выборки - Для сравнения двух независимых средних (двухгрупповой t‑тест), равные группы: nна группу=2(z1−α/2+z1−β)2σ2δ2,
n_{\text{на группу}} = 2\frac{(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}, nнагруппу=2δ2(z1−α/2+z1−β)2σ2,
где δ\deltaδ — ожидаемая разница средних (абсолютная) или эквивалентно используемый стандартизованный эффект (Cohen's d), σ\sigmaσ — SD, zzz — квантили нормального распределения. - Для парного дизайна (кроссовер или до‑после у тех же студентов): n=(z1−α/2+z1−β)2σd2δ2,
n = \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\sigma_d^2}{\delta^2}, n=δ2(z1−α/2+z1−β)2σd2,
где σd\sigma_dσd — SD разницы. - Примеры (двусторонний тест, α=0.05, 1−β=0.80, z1−α/2=1.96, z1−β=0.84\alpha=0.05,\; 1-\beta=0.80,\; z_{1-\alpha/2}=1.96,\; z_{1-\beta}=0.84α=0.05,1−β=0.80,z1−α/2=1.96,z1−β=0.84, сумма =2.8=2.8=2.8, квадрат =7.84=7.84=7.84): - Если ожидается стандартизованный эффект d=0.5d=0.5d=0.5 (средний): - независимый дизайн: nгруппа=2⋅7.840.52=2⋅7.840.25≈63n_{\text{группа}} = 2\cdot\frac{7.84}{0.5^2} = 2\cdot\frac{7.84}{0.25} \approx 63nгруппа=2⋅0.527.84=2⋅0.257.84≈63 на группу; - парный дизайн: n≈7.840.52≈31n \approx \frac{7.84}{0.5^2} \approx 31n≈0.527.84≈31 участников всего. - Учитывайте поправки: ожидаемый отток (увеличьте n на 11−dropout\frac{1}{1-\text{dropout}}1−dropout1), кластерную арифметику при групповой (classroom) рандомизации (умножить на дизайн‑эффект 1+(m−1)ρ1+(m-1)\rho1+(m−1)ρ). 4) Статистический анализ - Основной анализ — по принципу intention‑to‑treat (ITT); дополнительный per‑protocol и sensitivity analyses. - Для первичного исхода: ANCOVA на изменение с поправкой на базовый уровень (более мощно, чем простой t‑тест). - Для повторных измерений: линейные смешанные модели (random intercept) учитывают корреляцию внутри субъекта. - Проверки предпосылок (нормальность остатков, гомоскедастичность); при нарушениях — непараметрические тесты или бутстрэп‑CI. - Контроль множественной проверки (если несколько первичных исходов): заранее выбрать 1 primary или корректировать (Bonferroni, Holm, FDR). - Обязательный отчёт: точечная оценка разницы и 95% доверительный интервал, p‑значение, стандартизованный эффект (Cohen's d). 5) Угрозы внутренней валидности и способы их уменьшения - Отбор (selection bias): устранить через рандомизацию и скрытую аллокацию. - Неосведомлённость/исполнение (performance bias): стандартизованные инструкции, учителя/тренеры обучены, мониторинг соблюдения; в идеале слепость участников/персонала там, где возможно. - Контаминация: ограничить взаимодействие групп, разные расписания, кластерная рандомизация при риске обмена. - Измерительная ошибка / оценочный сдвиг: использовать валидизированные тесты, слепых оценщиков, автоматизированные задания. - Выбывание/attrition: минимизировать, отслеживать причины, анализировать по ITT, множественная импутация для пропущенных данных. - Практика/эффект обучения (особенно в кроссовере): предусмотреть washout, использовать альтернативные версии теста, статистически учитывать порядок. - Регрессия к среднему: использовать базовую корректировку (ANCOVA). - Низкая надёжность измерений → снижение мощности: выбирайте надежные тесты, учтите в расчётах SD. 6) Интерпретация результатов - Сфокусируйтесь на размере эффекта и 95% CI, а не только на p‑значении. Если CI пересекает ноль — нет статистической значимости. - Оцените клиническую/практическую значимость: сравняйте эффект с заранее определённым MCID (напр., увеличение числа вспомненных слов на X или стандартизованный d≥0.3). - Если результат значим, сообщите абсолютную разницу, относительную выгоду (если применимо), и обоснование практической пользы (экономия времени, перенос на экзамены). - Если незначимо, рассмотрите мощность пост‑hoc (возможно недостаточная n) и доверительные интервалы: исключают ли они клинически важные эффекты? - Выполните чувствительные анализы (per‑protocol, анализ без/с импутацией) и проверьте субгруппы с осторожностью (предварительно заданные, корректировка на множественность). - Документируйте ограничения (внешняя валидность, короткий термин наблюдения, возможная несоблюдаемость). 7) Практические рекомендации перед запуском - Определите заранее primary outcome и MCID. - Проведите пилот для оценки SD и адекватности процедур — уточните расчёт выборки. - Определите план анализа и регистрируйте протокол (pre‑registration). - Соберите данные по адгезии и потенциальным ковариатам для корректировки. Если нужно, могу: 1) посчитать конкретный размер выборки под ваши ожидаемые δ\deltaδ и σ\sigmaσ; 2) предложить набор конкретных тестов памяти и временных точек измерений.
1) Дизайн
- Рандомизированное параллельное контролируемое исследование (RCT) — лучше всего для защиты от смещений. Альтернативы: кроссовер (каждый студент обе методики, порядок рандомизируется) — экономит выборку, но требует адекватного «washout» и отсутствие длительного обучения.
- Блоковая или стратифицированная рандомизация по ключевым переменным (предшествующая успеваемость, возраст) при необходимости.
- Слепое оценивание результатов (оценщики тестов) обязательно; слепить участников часто невозможно.
2) Основная гипотеза и критерий эффективности
- Основная гипотеза: разница в средних изменениях показателей памяти между методиками не равна нулю.
- Первичный исход: изменение балла теста памяти от базовой оценки до отложенного измерения (например, число правильно вспомненных слов через 1 нед/1 мес).
- Решающее правило: отвергнуть H0, если p < α\alphaα (обычно α=0.05\alpha=0.05α=0.05) и эффект клинически значим (см. MCID).
- Вторичные исходы: немедленный и отложенный Recall, распознавание, устойчивость удержания (% сохранившихся), когнитивная нагрузка, соблюдение методики.
3) Расчёт размера выборки
- Для сравнения двух независимых средних (двухгрупповой t‑тест), равные группы:
nна группу=2(z1−α/2+z1−β)2σ2δ2, n_{\text{на группу}} = 2\frac{(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2},
nна группу =2δ2(z1−α/2 +z1−β )2σ2 , где δ\deltaδ — ожидаемая разница средних (абсолютная) или эквивалентно используемый стандартизованный эффект (Cohen's d), σ\sigmaσ — SD, zzz — квантили нормального распределения.
- Для парного дизайна (кроссовер или до‑после у тех же студентов):
n=(z1−α/2+z1−β)2σd2δ2, n = \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\sigma_d^2}{\delta^2},
n=δ2(z1−α/2 +z1−β )2σd2 , где σd\sigma_dσd — SD разницы.
- Примеры (двусторонний тест, α=0.05, 1−β=0.80, z1−α/2=1.96, z1−β=0.84\alpha=0.05,\; 1-\beta=0.80,\; z_{1-\alpha/2}=1.96,\; z_{1-\beta}=0.84α=0.05,1−β=0.80,z1−α/2 =1.96,z1−β =0.84, сумма =2.8=2.8=2.8, квадрат =7.84=7.84=7.84):
- Если ожидается стандартизованный эффект d=0.5d=0.5d=0.5 (средний):
- независимый дизайн: nгруппа=2⋅7.840.52=2⋅7.840.25≈63n_{\text{группа}} = 2\cdot\frac{7.84}{0.5^2} = 2\cdot\frac{7.84}{0.25} \approx 63nгруппа =2⋅0.527.84 =2⋅0.257.84 ≈63 на группу;
- парный дизайн: n≈7.840.52≈31n \approx \frac{7.84}{0.5^2} \approx 31n≈0.527.84 ≈31 участников всего.
- Учитывайте поправки: ожидаемый отток (увеличьте n на 11−dropout\frac{1}{1-\text{dropout}}1−dropout1 ), кластерную арифметику при групповой (classroom) рандомизации (умножить на дизайн‑эффект 1+(m−1)ρ1+(m-1)\rho1+(m−1)ρ).
4) Статистический анализ
- Основной анализ — по принципу intention‑to‑treat (ITT); дополнительный per‑protocol и sensitivity analyses.
- Для первичного исхода: ANCOVA на изменение с поправкой на базовый уровень (более мощно, чем простой t‑тест).
- Для повторных измерений: линейные смешанные модели (random intercept) учитывают корреляцию внутри субъекта.
- Проверки предпосылок (нормальность остатков, гомоскедастичность); при нарушениях — непараметрические тесты или бутстрэп‑CI.
- Контроль множественной проверки (если несколько первичных исходов): заранее выбрать 1 primary или корректировать (Bonferroni, Holm, FDR).
- Обязательный отчёт: точечная оценка разницы и 95% доверительный интервал, p‑значение, стандартизованный эффект (Cohen's d).
5) Угрозы внутренней валидности и способы их уменьшения
- Отбор (selection bias): устранить через рандомизацию и скрытую аллокацию.
- Неосведомлённость/исполнение (performance bias): стандартизованные инструкции, учителя/тренеры обучены, мониторинг соблюдения; в идеале слепость участников/персонала там, где возможно.
- Контаминация: ограничить взаимодействие групп, разные расписания, кластерная рандомизация при риске обмена.
- Измерительная ошибка / оценочный сдвиг: использовать валидизированные тесты, слепых оценщиков, автоматизированные задания.
- Выбывание/attrition: минимизировать, отслеживать причины, анализировать по ITT, множественная импутация для пропущенных данных.
- Практика/эффект обучения (особенно в кроссовере): предусмотреть washout, использовать альтернативные версии теста, статистически учитывать порядок.
- Регрессия к среднему: использовать базовую корректировку (ANCOVA).
- Низкая надёжность измерений → снижение мощности: выбирайте надежные тесты, учтите в расчётах SD.
6) Интерпретация результатов
- Сфокусируйтесь на размере эффекта и 95% CI, а не только на p‑значении. Если CI пересекает ноль — нет статистической значимости.
- Оцените клиническую/практическую значимость: сравняйте эффект с заранее определённым MCID (напр., увеличение числа вспомненных слов на X или стандартизованный d≥0.3).
- Если результат значим, сообщите абсолютную разницу, относительную выгоду (если применимо), и обоснование практической пользы (экономия времени, перенос на экзамены).
- Если незначимо, рассмотрите мощность пост‑hoc (возможно недостаточная n) и доверительные интервалы: исключают ли они клинически важные эффекты?
- Выполните чувствительные анализы (per‑protocol, анализ без/с импутацией) и проверьте субгруппы с осторожностью (предварительно заданные, корректировка на множественность).
- Документируйте ограничения (внешняя валидность, короткий термин наблюдения, возможная несоблюдаемость).
7) Практические рекомендации перед запуском
- Определите заранее primary outcome и MCID.
- Проведите пилот для оценки SD и адекватности процедур — уточните расчёт выборки.
- Определите план анализа и регистрируйте протокол (pre‑registration).
- Соберите данные по адгезии и потенциальным ковариатам для корректировки.
Если нужно, могу: 1) посчитать конкретный размер выборки под ваши ожидаемые δ\deltaδ и σ\sigmaσ; 2) предложить набор конкретных тестов памяти и временных точек измерений.