Кейс экспериментальный: предложите дизайн исследования для оценки эффективности программы по развитию критического мышления у студентов‑гуманитариев с использованием контрольной группы, слепого оценивания и поведенческих метрик, опишите возможные угрозы внутренней валидности и способы их нейтрализации.
Дизайн исследования — кратко и по существу: 1) Цель - Оценить эффективность программы развития критического мышления у студентов‑гуманитариев по сравнению с контролем, используя слепое оценивание и поведенческие метрики. 2) Выборка и рандомизация - Респондент: студенты гуманитарных направлений 1–3 курсов. - Стратифицированная рандомизация по факультету/курсу/базовой способности (предтест) для балансировки ключевых ковариат. - При кластерной рандомизации (классы/потоки) учитывать внутрикластерную корреляцию. 3) Условия (интервенция и контроль) - Интервенция: стандартизация программы (модули, время, тренерский скрипт). - Контроль: активный контроль (альтернативный курс внимания/информации) или пассивный контроль в зависимости от этики; активный контроль снижает эффект ожиданий. - Длительность: например, 8–12 недель + последующее измерение через 3 месяца. 4) Слепое оценивание - Слепое оценивание оценщиков: оценки творческих/аргументационных заданий проводят эксперты, не знающие группы участника. - Автоматизированные поведенческие метрики (лог‑файлы, время реакции) — объективны и не требуют «слепоты» человека. - Участников нельзя полностью ослепить на вмешательство; маскировать гипотезу и использовать активный контроль. 5) Поведенческие метрики (операционализация) - Точность в задачах критического анализа: число корректно выявленных логических ошибок/фалсий в тексте. - Качественная оценка аргументации: бланки оцениваются слепыми экспертами по заранее заданной рубрике (баллы). - Принятие решений в симулированной реальной задаче (например, выбор источников в фейковом новостном фиде): доля корректных (надежных) ссылок, доля репостов фейка. - Время анализа / время до решения (реакция) — индикатор автоматизации навыка. - Поведение поиска информации: количество разнообразных источников, глубина чтения (скролл/клики). - Тесты переноса: решения в новой тематике (transfer tasks). - Стандартные тесты: CRT, CCTST (если применимо). - Комбинировать несколько метрик в основной композитный показатель эффектов. 6) Процедура измерений и таймлайн - Предтест (baseline): поведенческие задачи, тесты, демография. - Интервенция / контроль. - Непосредственный посттест (тот же набор задач, параллельные формы). - Последующее измерение (например, через 3 месяца) для проверки удержания эффекта. - Регистрация протокола (pre‑registration) и предопределенные первичные/вторичные исходы. 7) Анализ данных - Основной анализ: intention‑to‑treat (ITT). - Модель с поправкой на предтест (ANCOVA / линейная смешанная модель): Yij=β0+β1Treatmentj+β2Preij+uj+εij,
Y_{ij} = \beta_0 + \beta_1 \text{Treatment}_j + \beta_2 \text{Pre}_{ij} + u_j + \varepsilon_{ij}, Yij=β0+β1Treatmentj+β2Preij+uj+εij,
где uju_juj — случайный эффект кластера. - Для расчёта необходимой выборки (двухгрупповой t‑тест, двухсторонний): n=2 (z1−α/2+z1−β)2σ2δ2,
n = \frac{2\,(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2}, n=δ22(z1−α/2+z1−β)2σ2,
где δ\deltaδ — ожидаемый размах эффекта, σ2\sigma^2σ2 — дисперсия, zzz — квантиль нормального распределения. - При кластерном дизайне скорректировать через коэффициент дизайна: DE=1+(m−1)ρ,nadj=DE⋅n,
DE = 1 + (m-1)\rho,\quad n_{adj} = DE\cdot n, DE=1+(m−1)ρ,nadj=DE⋅n,
где mmm — средний размер кластера, ρ\rhoρ — ICC. - Проверки предпосылок, чувствительности, медиаторы и модераторы (baseline ability, мотивация). 8) Контроль над реализацией и фиделити - Стандартизированные материалы, тренерские чек‑листы, запись занятий для проверки соблюдения. - Отслеживание посещаемости и выполнения заданий, лог‑файлы. - Предварительная тренировочная сессия оценщиков и проверка межоценочной надежности. 9) Угрозы внутренней валидности и способы нейтрализации - Селекция (различия в группах до вмешательства) - Митиг.: рандомизация, стратификация, контроль за предтестовыми ковариатами, ANCOVA. - Мотивация/ожидания (placebo / expectancy) - Митиг.: активный контроль, маскировка гипотезы, одинаковые стимулы и внимание в обеих группах. - Инструментация (изменение способов измерения между до/после) - Митиг.: одинаковые протоколы тестирования, параллельные формы заданий, калибровка приборов. - Тестирование (эффект предтеста) - Митиг.: использование параллельных форм, включение контрольной группы, анализ взаимодействия pre×treatment. - История (внешние события, влияющие только одну группу) - Митиг.: проводить группы параллельно, регистрировать внешние события, при необходимости добавить ковариаты. - Зрелость/митаuration (естественные изменения со временем) - Митиг.: контрольная группа, короткие интервалы между измерениями если критично. - Регрессия к среднему - Митиг.: избегать отбора по экстремальным значениям; использовать предтест в модели (ANCOVA). - Утрата выборки (attrition) и дифференциальная потеря - Митиг.: стимулы удержания, документирование причин выпадения, анализ по ITT, множественная имputation. - Диффузия или смешение вмешательства (участники делятся материалами) - Митиг.: кластеризация по классам/потокам, инструктаж о конфиденциальности, анализ воздействия по факту (per‑protocol). - Эффект наблюдения (Hawthorne) и социально‑желаемое поведение - Митиг.: активный контроль, объективные поведенческие метрики, автоматизированное логирование, маскировка целей. - Ожидания оценщика / экспериментатора (Rosenthal) - Митиг.: слепые оценщики, автоматизированное скорывание, стандартизованные инструкции. 10) Дополнительно: проверка механизмов - Медиаторный анализ: проверять изменения когнитивных стратегий (например, способность ставить гипотезы) как посредник эффекта. - Подгрупповой анализ (модераторы): базовый уровень навыков, мотивация, дисциплина. Краткая рекомендация по приоритетам практической реализации: - Стратифицированная рандомизация + активный контроль. - Слепые экспертные оценки + автоматические поведенческие метрики. - Предтест/посттест + отложенное измерение. - ITT‑анализ, предрегистрация и мониторинг фиделити. Если нужно — могу предложить примерный набор конкретных заданий/метрик и шаблон анализа для реализации.
1) Цель
- Оценить эффективность программы развития критического мышления у студентов‑гуманитариев по сравнению с контролем, используя слепое оценивание и поведенческие метрики.
2) Выборка и рандомизация
- Респондент: студенты гуманитарных направлений 1–3 курсов.
- Стратифицированная рандомизация по факультету/курсу/базовой способности (предтест) для балансировки ключевых ковариат.
- При кластерной рандомизации (классы/потоки) учитывать внутрикластерную корреляцию.
3) Условия (интервенция и контроль)
- Интервенция: стандартизация программы (модули, время, тренерский скрипт).
- Контроль: активный контроль (альтернативный курс внимания/информации) или пассивный контроль в зависимости от этики; активный контроль снижает эффект ожиданий.
- Длительность: например, 8–12 недель + последующее измерение через 3 месяца.
4) Слепое оценивание
- Слепое оценивание оценщиков: оценки творческих/аргументационных заданий проводят эксперты, не знающие группы участника.
- Автоматизированные поведенческие метрики (лог‑файлы, время реакции) — объективны и не требуют «слепоты» человека.
- Участников нельзя полностью ослепить на вмешательство; маскировать гипотезу и использовать активный контроль.
5) Поведенческие метрики (операционализация)
- Точность в задачах критического анализа: число корректно выявленных логических ошибок/фалсий в тексте.
- Качественная оценка аргументации: бланки оцениваются слепыми экспертами по заранее заданной рубрике (баллы).
- Принятие решений в симулированной реальной задаче (например, выбор источников в фейковом новостном фиде): доля корректных (надежных) ссылок, доля репостов фейка.
- Время анализа / время до решения (реакция) — индикатор автоматизации навыка.
- Поведение поиска информации: количество разнообразных источников, глубина чтения (скролл/клики).
- Тесты переноса: решения в новой тематике (transfer tasks).
- Стандартные тесты: CRT, CCTST (если применимо).
- Комбинировать несколько метрик в основной композитный показатель эффектов.
6) Процедура измерений и таймлайн
- Предтест (baseline): поведенческие задачи, тесты, демография.
- Интервенция / контроль.
- Непосредственный посттест (тот же набор задач, параллельные формы).
- Последующее измерение (например, через 3 месяца) для проверки удержания эффекта.
- Регистрация протокола (pre‑registration) и предопределенные первичные/вторичные исходы.
7) Анализ данных
- Основной анализ: intention‑to‑treat (ITT).
- Модель с поправкой на предтест (ANCOVA / линейная смешанная модель):
Yij=β0+β1Treatmentj+β2Preij+uj+εij, Y_{ij} = \beta_0 + \beta_1 \text{Treatment}_j + \beta_2 \text{Pre}_{ij} + u_j + \varepsilon_{ij},
Yij =β0 +β1 Treatmentj +β2 Preij +uj +εij , где uju_juj — случайный эффект кластера.
- Для расчёта необходимой выборки (двухгрупповой t‑тест, двухсторонний):
n=2 (z1−α/2+z1−β)2σ2δ2, n = \frac{2\,(z_{1-\alpha/2}+z_{1-\beta})^2\sigma^2}{\delta^2},
n=δ22(z1−α/2 +z1−β )2σ2 , где δ\deltaδ — ожидаемый размах эффекта, σ2\sigma^2σ2 — дисперсия, zzz — квантиль нормального распределения.
- При кластерном дизайне скорректировать через коэффициент дизайна:
DE=1+(m−1)ρ,nadj=DE⋅n, DE = 1 + (m-1)\rho,\quad n_{adj} = DE\cdot n,
DE=1+(m−1)ρ,nadj =DE⋅n, где mmm — средний размер кластера, ρ\rhoρ — ICC.
- Проверки предпосылок, чувствительности, медиаторы и модераторы (baseline ability, мотивация).
8) Контроль над реализацией и фиделити
- Стандартизированные материалы, тренерские чек‑листы, запись занятий для проверки соблюдения.
- Отслеживание посещаемости и выполнения заданий, лог‑файлы.
- Предварительная тренировочная сессия оценщиков и проверка межоценочной надежности.
9) Угрозы внутренней валидности и способы нейтрализации
- Селекция (различия в группах до вмешательства)
- Митиг.: рандомизация, стратификация, контроль за предтестовыми ковариатами, ANCOVA.
- Мотивация/ожидания (placebo / expectancy)
- Митиг.: активный контроль, маскировка гипотезы, одинаковые стимулы и внимание в обеих группах.
- Инструментация (изменение способов измерения между до/после)
- Митиг.: одинаковые протоколы тестирования, параллельные формы заданий, калибровка приборов.
- Тестирование (эффект предтеста)
- Митиг.: использование параллельных форм, включение контрольной группы, анализ взаимодействия pre×treatment.
- История (внешние события, влияющие только одну группу)
- Митиг.: проводить группы параллельно, регистрировать внешние события, при необходимости добавить ковариаты.
- Зрелость/митаuration (естественные изменения со временем)
- Митиг.: контрольная группа, короткие интервалы между измерениями если критично.
- Регрессия к среднему
- Митиг.: избегать отбора по экстремальным значениям; использовать предтест в модели (ANCOVA).
- Утрата выборки (attrition) и дифференциальная потеря
- Митиг.: стимулы удержания, документирование причин выпадения, анализ по ITT, множественная имputation.
- Диффузия или смешение вмешательства (участники делятся материалами)
- Митиг.: кластеризация по классам/потокам, инструктаж о конфиденциальности, анализ воздействия по факту (per‑protocol).
- Эффект наблюдения (Hawthorne) и социально‑желаемое поведение
- Митиг.: активный контроль, объективные поведенческие метрики, автоматизированное логирование, маскировка целей.
- Ожидания оценщика / экспериментатора (Rosenthal)
- Митиг.: слепые оценщики, автоматизированное скорывание, стандартизованные инструкции.
10) Дополнительно: проверка механизмов
- Медиаторный анализ: проверять изменения когнитивных стратегий (например, способность ставить гипотезы) как посредник эффекта.
- Подгрупповой анализ (модераторы): базовый уровень навыков, мотивация, дисциплина.
Краткая рекомендация по приоритетам практической реализации:
- Стратифицированная рандомизация + активный контроль.
- Слепые экспертные оценки + автоматические поведенческие метрики.
- Предтест/посттест + отложенное измерение.
- ITT‑анализ, предрегистрация и мониторинг фиделити.
Если нужно — могу предложить примерный набор конкретных заданий/метрик и шаблон анализа для реализации.