Кейс: в сельских регионах страны X результаты образовательных тестов ниже, чем в городах; предложите исследовательский план (переменные, метод сбора данных, возможные теории) для выявления причин этого разрыва
Цель: выявить причины разрыва в образовательных результатах между сельскими и городскими регионами и оценить вклад отдельных факторов. 1) Зависимые переменные - Итоговые тестовые баллы (по математике, чтению и т.д.), можно использовать стандартизованные баллы: Z=X−XˉsZ = \frac{X-\bar X}{s}Z=sX−Xˉ. - Промежуточные показатели: успеваемость за год, перевод/отчисление, посещаемость. 2) Независимые переменные (уровни) - Ученик: возраст, пол, здоровье (рост/вес, анемия), повторные классы, мотивация/учебное поведение, время учебы дома. - Домохозяйство: доход/потребление, образование родителей, домашняя учебная среда (книги, интернет), занятость родителей, язык/диалект дома. - Школа: инфраструктура (классы, вода, туалеты, электроэнергия), учебники, часы обучения, учебная программа, наличие дошкольного звена. - Учитель: квалификация, стаж, присутствие/отсутствие, отсутствие уроков, методы преподавания, размер класса. - Сообщество/доступ: расстояние до школы, транспорт, безопасность, сезонная занятость (сезонный отток детей). - Возможные медиаторы/модераторы: питаниe/здоровье, время на учебу, репетиторство, дистанционное обучение. 3) Сбор данных — дизайн - Выборка: многослойная (стратификация по сель/город, регионам) с кластеризацией по школам; примерная формула объема для сравнения средних: n=(Z1−α/2+Z1−βδ/σ)2n = \left(\frac{Z_{1-\alpha/2}+Z_{1-\beta}}{\delta/\sigma}\right)^2n=(δ/σZ1−α/2+Z1−β)2. - Продольный панельный дизайн (baseline + 1–2 follow-up) предпочтителен для причинности. - Инструменты: стандартизированные тесты, анкеты для учеников/родителей/учителей, школа-опросник по инфраструктуре, прямые измерения здоровья (рост/вес, гемоглобин). - Качественные данные: фокус-группы с родителями, интервью с учителями и местными администрациями, наблюдения уроков. - Административные данные: записи успеваемости, вакансии учителей, бюджеты школ. - Контроль качества: пилот, обучение интервьюеров, проверка повторных замеров. 4) Методы анализа (и формулы) - Описательная статистика и графики разницы по квантилям. - Декомпозиция Oaxaca–Blinder для вкладов наблюдаемых факторов: Yˉгород−Yˉсело=(Xˉгород−Xˉсело)′β+Xˉсело′(βгород−βсело). \bar Y_{город} - \bar Y_{село} = (\bar X_{город}-\bar X_{село})'\beta + \bar X_{село}'(\beta_{город}-\beta_{село}). Yˉгород−Yˉсело=(Xˉгород−Xˉсело)′β+Xˉсело′(βгород−βсело).
- Многоуровневая регрессия (фиксирует кластеризацию): Yijk=β0+β1Rurali+Xijk′β+uj+vk+ϵijk, Y_{ijk} = \beta_0 + \beta_1 Rural_i + X_{ijk}'\beta + u_{j} + v_{k} + \epsilon_{ijk}, Yijk=β0+β1Rurali+Xijk′β+uj+vk+ϵijk,
где uju_juj — эффект школы, vkv_kvk — эффект региона. - Медиативный анализ (путь): оценка вклада посредников (например, инфраструктура → посещаемость → результат). - Для причинности: панельные фиксированные эффекты, разности-в-разностях (если есть реформы), инструментальные переменные: Y=α+ρD^+X′γ+ε, Y = \alpha + \rho \hat D + X'\gamma + \varepsilon, Y=α+ρD^+X′γ+ε,
где инструмент для DDD (например, случайные изменения в назначении учителей, историческая дистанция до центра педагогического вуза). - Robustness: propensity score matching, квантильные регрессии, проверки на селекцию. 5) Возможные теории/механизмы (и какие переменные их тестируют) - Ресурсная теория: меньшие школьные ресурсы в селе (переменные: инфраструктура, учебники, часы) → тест: контроль по ресурсам должен уменьшить разрыв. - Качество учителя: ниже подготовка/частые замены (переменные: квалификация, абсенции) → тест: добавить показатели учителей в модель. - Домашний контекст и бедность: меньше образовательной поддержки дома (доход, образование родителей, книги, интернет). - Здоровье и питание: хроническая недоедание/болезни ухудшают учебу (анемия, рост/вес). - Доступ и время: длинный путь до школы и занятость по хозяйству сокращают посещаемость и время на учебу. - Языковой/культурный разрыв: тесты не адаптированы к диалектам/культурным контекстам. - Селективность: в города переезжают более мотивированные семьи или лучшие ученики — проверить миграционные истории, использовать семейные фиксированные эффекты. - Пиобразные эффекты сверстников: средний уровень класса/школы влияет (переменные: средний балл класса). 6) Предложения по проверке эндогенности и инструментам - Сравнение соседних деревень/школ (географическая близость) — парный подход. - Инструменты: исторические инфраструктурные вложения, случайные распределения учителей/реформы, расстояние до центра распределения учителей/учебных материалов. - Сиблинг-анализ (контроль семейных фиксированных эффектов). 7) Практические рекомендации по приоритетам измерений - Обязательно: стандартизированные тесты, посещаемость, учительские данные, базовая анкета семьи. - Дополнительно: измерения здоровья, GPS расстояния, качественные интервью. 8) Этические и логистические моменты - Согласие родителей, анонимность, перевод инструментов на локальные языки, компенсация для респондентов, план по возврату результатов и рекомендаций для местных властей. Кратко: собрать репрезентативную стратифицированную панель с многопрофильными данными (ученик/дом/школа/учитель), проанализировать через декомпозицию и многоуровневые модели, использовать IV/панели для причинности и проверять конкретные механизмы (ресурсы, учителя, здоровье, доступ, дом).
1) Зависимые переменные
- Итоговые тестовые баллы (по математике, чтению и т.д.), можно использовать стандартизованные баллы: Z=X−XˉsZ = \frac{X-\bar X}{s}Z=sX−Xˉ .
- Промежуточные показатели: успеваемость за год, перевод/отчисление, посещаемость.
2) Независимые переменные (уровни)
- Ученик: возраст, пол, здоровье (рост/вес, анемия), повторные классы, мотивация/учебное поведение, время учебы дома.
- Домохозяйство: доход/потребление, образование родителей, домашняя учебная среда (книги, интернет), занятость родителей, язык/диалект дома.
- Школа: инфраструктура (классы, вода, туалеты, электроэнергия), учебники, часы обучения, учебная программа, наличие дошкольного звена.
- Учитель: квалификация, стаж, присутствие/отсутствие, отсутствие уроков, методы преподавания, размер класса.
- Сообщество/доступ: расстояние до школы, транспорт, безопасность, сезонная занятость (сезонный отток детей).
- Возможные медиаторы/модераторы: питаниe/здоровье, время на учебу, репетиторство, дистанционное обучение.
3) Сбор данных — дизайн
- Выборка: многослойная (стратификация по сель/город, регионам) с кластеризацией по школам; примерная формула объема для сравнения средних: n=(Z1−α/2+Z1−βδ/σ)2n = \left(\frac{Z_{1-\alpha/2}+Z_{1-\beta}}{\delta/\sigma}\right)^2n=(δ/σZ1−α/2 +Z1−β )2.
- Продольный панельный дизайн (baseline + 1–2 follow-up) предпочтителен для причинности.
- Инструменты: стандартизированные тесты, анкеты для учеников/родителей/учителей, школа-опросник по инфраструктуре, прямые измерения здоровья (рост/вес, гемоглобин).
- Качественные данные: фокус-группы с родителями, интервью с учителями и местными администрациями, наблюдения уроков.
- Административные данные: записи успеваемости, вакансии учителей, бюджеты школ.
- Контроль качества: пилот, обучение интервьюеров, проверка повторных замеров.
4) Методы анализа (и формулы)
- Описательная статистика и графики разницы по квантилям.
- Декомпозиция Oaxaca–Blinder для вкладов наблюдаемых факторов:
Yˉгород−Yˉсело=(Xˉгород−Xˉсело)′β+Xˉсело′(βгород−βсело). \bar Y_{город} - \bar Y_{село} = (\bar X_{город}-\bar X_{село})'\beta + \bar X_{село}'(\beta_{город}-\beta_{село}). Yˉгород −Yˉсело =(Xˉгород −Xˉсело )′β+Xˉсело′ (βгород −βсело ). - Многоуровневая регрессия (фиксирует кластеризацию):
Yijk=β0+β1Rurali+Xijk′β+uj+vk+ϵijk, Y_{ijk} = \beta_0 + \beta_1 Rural_i + X_{ijk}'\beta + u_{j} + v_{k} + \epsilon_{ijk}, Yijk =β0 +β1 Rurali +Xijk′ β+uj +vk +ϵijk , где uju_juj — эффект школы, vkv_kvk — эффект региона.
- Медиативный анализ (путь): оценка вклада посредников (например, инфраструктура → посещаемость → результат).
- Для причинности: панельные фиксированные эффекты, разности-в-разностях (если есть реформы), инструментальные переменные:
Y=α+ρD^+X′γ+ε, Y = \alpha + \rho \hat D + X'\gamma + \varepsilon, Y=α+ρD^+X′γ+ε, где инструмент для DDD (например, случайные изменения в назначении учителей, историческая дистанция до центра педагогического вуза).
- Robustness: propensity score matching, квантильные регрессии, проверки на селекцию.
5) Возможные теории/механизмы (и какие переменные их тестируют)
- Ресурсная теория: меньшие школьные ресурсы в селе (переменные: инфраструктура, учебники, часы) → тест: контроль по ресурсам должен уменьшить разрыв.
- Качество учителя: ниже подготовка/частые замены (переменные: квалификация, абсенции) → тест: добавить показатели учителей в модель.
- Домашний контекст и бедность: меньше образовательной поддержки дома (доход, образование родителей, книги, интернет).
- Здоровье и питание: хроническая недоедание/болезни ухудшают учебу (анемия, рост/вес).
- Доступ и время: длинный путь до школы и занятость по хозяйству сокращают посещаемость и время на учебу.
- Языковой/культурный разрыв: тесты не адаптированы к диалектам/культурным контекстам.
- Селективность: в города переезжают более мотивированные семьи или лучшие ученики — проверить миграционные истории, использовать семейные фиксированные эффекты.
- Пиобразные эффекты сверстников: средний уровень класса/школы влияет (переменные: средний балл класса).
6) Предложения по проверке эндогенности и инструментам
- Сравнение соседних деревень/школ (географическая близость) — парный подход.
- Инструменты: исторические инфраструктурные вложения, случайные распределения учителей/реформы, расстояние до центра распределения учителей/учебных материалов.
- Сиблинг-анализ (контроль семейных фиксированных эффектов).
7) Практические рекомендации по приоритетам измерений
- Обязательно: стандартизированные тесты, посещаемость, учительские данные, базовая анкета семьи.
- Дополнительно: измерения здоровья, GPS расстояния, качественные интервью.
8) Этические и логистические моменты
- Согласие родителей, анонимность, перевод инструментов на локальные языки, компенсация для респондентов, план по возврату результатов и рекомендаций для местных властей.
Кратко: собрать репрезентативную стратифицированную панель с многопрофильными данными (ученик/дом/школа/учитель), проанализировать через декомпозицию и многоуровневые модели, использовать IV/панели для причинности и проверять конкретные механизмы (ресурсы, учителя, здоровье, доступ, дом).