Кейс для работы со статистикой: дан набор региональных показателей качества воздуха (PM2.5), доли населения, пожизненной смертности и экономических индикаторов по индийским штатам за 2010–2020 гг. Опишите процедуру статистического анализа для выявления причинно-следственных связей между загрязнением и здоровьем населения, какие географические переменные обязательно включить и какие интерпретационные ловушки нужно избежать?
Ниже — практический план статистического анализа панели индийских штатов 2010–20202010–20202010–2020 для попытки выявить причинно‑следственные связи между загрязнением PM2.5PM2.5PM2.5 и здоровьем смертность,пожизненнаясмертностьсмертность, пожизненная смертностьсмертность,пожизненнаясмертность, с указанием обязательных географических переменных и типичных интерпретационных ловушек.
Общая стратегия анализа этапыэтапыэтапы
Первичный EDA exploratorydataanalysisexploratory data analysisexploratorydataanalysisВизуализация по годам и по штатам: карты среднегодового PM2.5, карты смертности, тренды по штатам.Корреляционные матрицы, распределения, выявление выбросов например,Делинапример, Делинапример,Дели и пропусков.Просмотр временных рядов для каждого штата: стационарность, сезонность еслиестьпомесячныеданныеесли есть помесячные данныееслиестьпомесячныеданные.
Построение базовой панели
Базовая спецификация: Y_it = α_i + γ_t + β PM_it + X_it'γ + ε_it, где Y_it — показатель здоровья смертностьсмертностьсмертность, α_i — фиксированные эффекты штата, γ_t — годовые эффекты, X_it — набор контролей.Причина: фиксированные эффекты устраняют неизменные во времени особенности штата география,культура,устойчивыйуровеньмедициныгеография, культура, устойчивый уровень медициныгеография,культура,устойчивыйуровеньмедицины, годовые эффекты — общие шоки и тренды.
Работа с временной зависимостью воздействия
Использовать лаги PM2.5 и/или распределённые лаги: эффект загрязнения может проявляться с задержкой или кумулятивно e.g.,PM<em>t−1,…,PM</em>t−kилискользящаясредняязанескольколетe.g., PM<em>{t-1}, …, PM</em>{t-k} или скользящая средняя за несколько летe.g.,PM<em>t−1,…,PM</em>t−kилискользящаясредняязанескольколет.Проверить различные горизонты краткосрочныеvsдолгосрочныеэффектыкраткосрочные vs долгосрочные эффектыкраткосрочныеvsдолгосрочныеэффекты.
Контрфакты/натуральные эксперименты
Если есть события/политики, приводящие к резкому изменению загрязнения локальныепрограммы,запуск/остановкаТЭС,сезонныепожары,локдауныCOVID−19локальные программы, запуск/остановка ТЭС, сезонные пожары, локдауны COVID-19локальныепрограммы,запуск/остановкаТЭС,сезонныепожары,локдауныCOVID−19, применить difference-in-differences DiDDiDDiD, event‑study или synthetic control.Обязательно проверить предпосылку — одинаковые предварительные тренды.
Инструментальные переменные IVIVIV, если есть эндогенность PM
Возможные IV: ветровой перенос winddirection/strengthwind direction/strengthwinddirection/strength с учётом уровня загрязнения upwind; спутниковые индикаторы сезонных пожаров в соседних регионах stubbleburningstubble burningstubbleburning; резкие погодные аномалии инверсии,дождевыеаномалииинверсии, дождевые аномалииинверсии,дождевыеаномалии, которые влияют на PM, но не напрямую на смертность нужнатщательнаяаргументацияисключительногоограничениянужна тщательная аргументация исключительного ограничениянужнатщательнаяаргументацияисключительногоограничения.Проверки: сильность инструмента (F>10), тесты на overidentification еслиболееодногоинструментаесли более одного инструментаеслиболееодногоинструмента, анализ чувствительности к нарушению exclusion restriction.
Пространственные эффекты
Учесть пространственную корреляцию и перенос загрязнения: spatial lag модели WYWYWY или spatial error; добавить среднее PM по соседним штатам/расстоянию для проверки spillover.Стандартизованные ошибки с кластеризацией по штату cluster−robustSEcluster-robust SEcluster−robustSE, или spatial HAC.
Проверки робастности и чувствительности
Различные спецификации: с/без трендов штата state−specifictrendsstate-specific trendsstate−specifictrends, с логарифмами переменных, с другими наборами контролей.Плейсбо‑тесты falsificationfalsificationfalsification: проверить эффекты на исходах, где эффекта быть не должно.Бенчмаркинг: исключение отдельных штатов Delhi,MaharashtraDelhi, MaharashtraDelhi,Maharashtra и проверка влияния.Оценить воздействие измерительной ошибки satellitevsgroundsatellite vs groundsatellitevsground и отрегулировать результаты.
Какие географические переменные обязательно включить
Фиксированные эффекты штата αiα_iαi — обязательно.Координаты/широта и долгота илиихфункцииили их функцииилиихфункции либо региональные фиксы север/юг/восток/западсевер/юг/восток/западсевер/юг/восток/запад — для улавливания географических различий.Высота над уровнем моря / рельеф — влияет на дисперсию загрязнителя например,долинысинверсияминапример, долины с инверсияминапример,долинысинверсиями.Климатические и метео‑переменные временныеипространственныевременные и пространственныевременныеипространственные:Средняя температура, влажность, скорость ветра, осадки, количество инверсий — годовые/сезонные аномалии.Структура землепользования / урбанизация:Доля городского населения, плотность населения, площадь/длина автомагистралей, доля промышленной земли.Присутствие источников загрязнения:Близость/число ТЭС, крупные заводы, аэропорты; доля угольной генерации.Соседство:Поведение PM в соседних штатах среднийPMсоседейсредний PM соседейсреднийPMсоседей, расстояние до крупных источников и границ.Сельское хозяйство/пожары:Индикаторы сезонных пожаров hotspotshotspotshotspots, доля земель под пожароопасные культуры.Монсонная динамика / начало сезона дождей — влияет на вымывание PM.
Какие экономические и социальные контролирующие переменные включить
ВВП на душу илидоходили доходилидоход, темпы роста, структура экономики долясельскогохозяйства,промышленности,услугдоля сельского хозяйства, промышленности, услугдолясельскогохозяйства,промышленности,услуг.Уровень бедности, безработица.Доступ к здравоохранению: врачей/больничных коек на душу, расходы на здравоохранение.Образование: средний уровень образования, грамотность.Демография: возрастная структура доляпожилыхдоля пожилыхдоляпожилых, половой состав.Поведенческие факторы: распространённость курения, использование твердого топлива для приготовления пищи householdairpollutionhousehold air pollutionhouseholdairpollution.Миграция/перемещение населения еслиестьданныеесли есть данныееслиестьданные.
Тест на автокорреляцию и корректировка стандартных ошибок clusterbystate;Newey‑West/Driscoll‑Kraayприпанеляхсвременнойкорреляциейcluster by state; Newey‑West / Driscoll‑Kraay при панелях с временной корреляциейclusterbystate;Newey‑West/Driscoll‑Kraayприпанеляхсвременнойкорреляцией.Тесты на пространственную автокорреляцию Moran’sIMoran’s IMoran’sI.Диагностика IV: F-stat, overidentification.Проверка предпосылок DiD: тест на предтренды.Проверка сильной мультиколлинеарности VIFVIFVIF при большом наборе контролей.
Типичные интерпретационные ловушки и как их избежать
Эко‑фолсификация ecologicalfallacyecological fallacyecologicalfallacy: выводы на индивидуальном уровне по агрегированным данным штатов не прямолинейны. Результаты — ассоциации на уровне регионов; осторожно с утверждениями о индивидуальном риске.Обратная причинность: ухудшение здоровья может влиять на экономику/миграцию и косвенно на PM; использовать лаги и IV.Оменённые переменные omittedvariablebiasomitted variable biasomittedvariablebias: неизмеримые факторы качестворегистрациисмертности,изменениявсистемахздравоохранениякачество регистрации смертности, изменения в системах здравоохранениякачестворегистрациисмертности,изменениявсистемахздравоохранения могут искажать β — фикс эффекты и годовые эффекты помогают, но нужно искать дополнительные контролы/инструменты.Измерительная ошибка PM2.5: спутниковые оценки дают покрытие, но имеют систематические ошибки; ошибка в экспозиции обычно смещает оценки в сторону нуля attenuationattenuationattenuation. По возможности сравнить спутник/модель с наземными станциями.Ошибки в данных о смерти/кодировании причин: качество кодирования причин смерти разнится по штатам и во времени — проверить общую смертность как дополнительный исход.Спилловер переносзагрязненияперенос загрязненияпереносзагрязнения: не учитывать spillovers ведёт к неверной идентификации эффекта — использовать пространственные переменные/модели.Heterogeneity: средний эффект может скрывать сильную неоднородность город/село,бедные/богатые,возрастгород/село, бедные/богатые, возрастгород/село,бедные/богатые,возраст — проводить стратификацию.Политическая/административная изменчивость: изменения в учёте/политиках по охране воздуха/медицине могут порождать артефакты — проверять события и документировать.Множественное тестирование: при проверке множества исходов/периодов контролировать FDR/коррекции.
Рекомендации по отчётности и проверке убедительности causalidentificationchecklistcausal identification checklistcausalidentificationchecklist
Ясно сформулировать предпосылки идентификации например,почемуIVудовлетворяетexclusionrestrictionнапример, почему IV удовлетворяет exclusion restrictionнапример,почемуIVудовлетворяетexclusionrestriction.Показать базовые графики трендов по группам treatedvscontroltreated vs controltreatedvscontrol.Предоставить результаты нескольких спецификаций: OLS FE, FE+trends, IV, DiD еслиестьесли естьеслиесть.Проводить falsification tests: использовать плацебо‑исходы, предположительно нечувствительные к PM например,травмынапример, травмынапример,травмы, и проверить отсутствие эффекта.Привести оценку величины эффекта в понятных терминах абсолютноеиотносительноеизменениесмертностина10µg/m3PM2.5абсолютное и относительное изменение смертности на 10 µg/m3 PM2.5абсолютноеиотносительноеизменениесмертностина10µg/m3PM2.5.Описать ограничения: агрегированность, возможные неучтённые факторы, предположения IV/DiD.
Практические уточнения для индийских данных
Обратить внимание на качество регистра смертей и его улучшение с течением времени — может создать видимый тренд.Включить индикаторы использования твердого топлива в домохозяйствах householdairpollutionhousehold air pollutionhouseholdairpollution — очень релевантно в Индии.Рассмотреть влияние сезонных пожаров особеннодлясеверныхштатовиПенджаба/Харианаособенно для северных штатов и Пенджаба/ХарианаособеннодлясеверныхштатовиПенджаба/Хариана как естественный источник вариации PM.Использовать COVID‑локдауны 2020 осторожно: они дают сильный шок PM, но сопутствующие системы доступностьмедицины,экономическиешокидоступность медицины, экономические шокидоступностьмедицины,экономическиешоки также влияют на смертность — требует отдельного анализа.
Короткое резюме рецептдляанализарецепт для анализарецептдляанализа
Начать с EDA и карт.Оценки панельных FE с годовыми эффектами и набором экономо/социальных/метео контролей.Добавить лаги и распределённые лаги PM.Испытать IV ветер,пожарыветер, пожарыветер,пожары, DiD еслиестьполитика/шокесли есть политика/шокеслиестьполитика/шок и spatial models.Провести богатый набор проверок робастности, placebo‑тестов и стратификаций.В отчёте чётко указывать предположения и ограничения, не утверждать индивидуальной каузальности на основе агрегированных данных без дополнительных доказательств.
Если хотите, могу:
предложить конкретные формулы моделей и код R/stata/pythonR/stata/pythonR/stata/python для FE, IV, DiD и spatial regressions;помочь подобрать/описать потенциальные инструменты wind‑rose/векторветра,hotspot‑данныеMODISwind‑rose/вектор ветра, hotspot‑данные MODISwind‑rose/векторветра,hotspot‑данныеMODIS и источники данных для Индии.
Ниже — практический план статистического анализа панели индийских штатов 2010–20202010–20202010–2020 для попытки выявить причинно‑следственные связи между загрязнением PM2.5PM2.5PM2.5 и здоровьем смертность,пожизненнаясмертностьсмертность, пожизненная смертностьсмертность,пожизненнаясмертность, с указанием обязательных географических переменных и типичных интерпретационных ловушек.
Общая стратегия анализа этапыэтапыэтапы Первичный EDA exploratorydataanalysisexploratory data analysisexploratorydataanalysisВизуализация по годам и по штатам: карты среднегодового PM2.5, карты смертности, тренды по штатам.Корреляционные матрицы, распределения, выявление выбросов например,Делинапример, Делинапример,Дели и пропусков.Просмотр временных рядов для каждого штата: стационарность, сезонность еслиестьпомесячныеданныеесли есть помесячные данныееслиестьпомесячныеданные.Построение базовой панели
Базовая спецификация: Y_it = α_i + γ_t + β PM_it + X_it'γ + ε_it, где Y_it — показатель здоровья смертностьсмертностьсмертность, α_i — фиксированные эффекты штата, γ_t — годовые эффекты, X_it — набор контролей.Причина: фиксированные эффекты устраняют неизменные во времени особенности штата география,культура,устойчивыйуровеньмедициныгеография, культура, устойчивый уровень медициныгеография,культура,устойчивыйуровеньмедицины, годовые эффекты — общие шоки и тренды.Работа с временной зависимостью воздействия
Использовать лаги PM2.5 и/или распределённые лаги: эффект загрязнения может проявляться с задержкой или кумулятивно e.g.,PM<em>t−1,…,PM</em>t−kилискользящаясредняязанескольколетe.g., PM<em>{t-1}, …, PM</em>{t-k} или скользящая средняя за несколько летe.g.,PM<em>t−1,…,PM</em>t−kилискользящаясредняязанескольколет.Проверить различные горизонты краткосрочныеvsдолгосрочныеэффектыкраткосрочные vs долгосрочные эффектыкраткосрочныеvsдолгосрочныеэффекты.Контрфакты/натуральные эксперименты
Если есть события/политики, приводящие к резкому изменению загрязнения локальныепрограммы,запуск/остановкаТЭС,сезонныепожары,локдауныCOVID−19локальные программы, запуск/остановка ТЭС, сезонные пожары, локдауны COVID-19локальныепрограммы,запуск/остановкаТЭС,сезонныепожары,локдауныCOVID−19, применить difference-in-differences DiDDiDDiD, event‑study или synthetic control.Обязательно проверить предпосылку — одинаковые предварительные тренды.Инструментальные переменные IVIVIV, если есть эндогенность PM
Возможные IV: ветровой перенос winddirection/strengthwind direction/strengthwinddirection/strength с учётом уровня загрязнения upwind; спутниковые индикаторы сезонных пожаров в соседних регионах stubbleburningstubble burningstubbleburning; резкие погодные аномалии инверсии,дождевыеаномалииинверсии, дождевые аномалииинверсии,дождевыеаномалии, которые влияют на PM, но не напрямую на смертность нужнатщательнаяаргументацияисключительногоограничениянужна тщательная аргументация исключительного ограничениянужнатщательнаяаргументацияисключительногоограничения.Проверки: сильность инструмента (F>10), тесты на overidentification еслиболееодногоинструментаесли более одного инструментаеслиболееодногоинструмента, анализ чувствительности к нарушению exclusion restriction.Пространственные эффекты
Учесть пространственную корреляцию и перенос загрязнения: spatial lag модели WYWYWY или spatial error; добавить среднее PM по соседним штатам/расстоянию для проверки spillover.Стандартизованные ошибки с кластеризацией по штату cluster−robustSEcluster-robust SEcluster−robustSE, или spatial HAC.Проверки робастности и чувствительности
Различные спецификации: с/без трендов штата state−specifictrendsstate-specific trendsstate−specifictrends, с логарифмами переменных, с другими наборами контролей.Плейсбо‑тесты falsificationfalsificationfalsification: проверить эффекты на исходах, где эффекта быть не должно.Бенчмаркинг: исключение отдельных штатов Delhi,MaharashtraDelhi, MaharashtraDelhi,Maharashtra и проверка влияния.Оценить воздействие измерительной ошибки satellitevsgroundsatellite vs groundsatellitevsground и отрегулировать результаты.Какие географические переменные обязательно включить
Фиксированные эффекты штата αiα_iαi — обязательно.Координаты/широта и долгота илиихфункцииили их функцииилиихфункции либо региональные фиксы север/юг/восток/западсевер/юг/восток/западсевер/юг/восток/запад — для улавливания географических различий.Высота над уровнем моря / рельеф — влияет на дисперсию загрязнителя например,долинысинверсияминапример, долины с инверсияминапример,долинысинверсиями.Климатические и метео‑переменные временныеипространственныевременные и пространственныевременныеипространственные:Средняя температура, влажность, скорость ветра, осадки, количество инверсий — годовые/сезонные аномалии.Структура землепользования / урбанизация:Доля городского населения, плотность населения, площадь/длина автомагистралей, доля промышленной земли.Присутствие источников загрязнения:Близость/число ТЭС, крупные заводы, аэропорты; доля угольной генерации.Соседство:Поведение PM в соседних штатах среднийPMсоседейсредний PM соседейсреднийPMсоседей, расстояние до крупных источников и границ.Сельское хозяйство/пожары:Индикаторы сезонных пожаров hotspotshotspotshotspots, доля земель под пожароопасные культуры.Монсонная динамика / начало сезона дождей — влияет на вымывание PM.Какие экономические и социальные контролирующие переменные включить
ВВП на душу илидоходили доходилидоход, темпы роста, структура экономики долясельскогохозяйства,промышленности,услугдоля сельского хозяйства, промышленности, услугдолясельскогохозяйства,промышленности,услуг.Уровень бедности, безработица.Доступ к здравоохранению: врачей/больничных коек на душу, расходы на здравоохранение.Образование: средний уровень образования, грамотность.Демография: возрастная структура доляпожилыхдоля пожилыхдоляпожилых, половой состав.Поведенческие факторы: распространённость курения, использование твердого топлива для приготовления пищи householdairpollutionhousehold air pollutionhouseholdairpollution.Миграция/перемещение населения еслиестьданныеесли есть данныееслиестьданные.Модельные подходы и формулы краткократкократко
Фиксированные эффекты панельпанельпанель:Mortality_it = α_i + γ_t + β PM_it + δX_it + ε_itРаспределённые лаги:Mortality_it = α_i + γt + Σ{k=0}^K βk PM{i,t-k} + δX_it + ε_itIV 2SLS2SLS2SLS:First stage: PM_it = π Z_it + α_i + γ_t + φX_it + u_itSecond stage: Mortality_it = α_i + γ_t + β \hat{PM}_it + δX_it + ε_itDiD / event study при наличии полисов/шока:включить индикаторы «после х шока» * treated и построить график динамики pre−trendpre-trendpre−trend.Диагностика и тесты
Тест на автокорреляцию и корректировка стандартных ошибок clusterbystate;Newey‑West/Driscoll‑Kraayприпанеляхсвременнойкорреляциейcluster by state; Newey‑West / Driscoll‑Kraay при панелях с временной корреляциейclusterbystate;Newey‑West/Driscoll‑Kraayприпанеляхсвременнойкорреляцией.Тесты на пространственную автокорреляцию Moran’sIMoran’s IMoran’sI.Диагностика IV: F-stat, overidentification.Проверка предпосылок DiD: тест на предтренды.Проверка сильной мультиколлинеарности VIFVIFVIF при большом наборе контролей.Типичные интерпретационные ловушки и как их избежать
Эко‑фолсификация ecologicalfallacyecological fallacyecologicalfallacy: выводы на индивидуальном уровне по агрегированным данным штатов не прямолинейны. Результаты — ассоциации на уровне регионов; осторожно с утверждениями о индивидуальном риске.Обратная причинность: ухудшение здоровья может влиять на экономику/миграцию и косвенно на PM; использовать лаги и IV.Оменённые переменные omittedvariablebiasomitted variable biasomittedvariablebias: неизмеримые факторы качестворегистрациисмертности,изменениявсистемахздравоохранениякачество регистрации смертности, изменения в системах здравоохранениякачестворегистрациисмертности,изменениявсистемахздравоохранения могут искажать β — фикс эффекты и годовые эффекты помогают, но нужно искать дополнительные контролы/инструменты.Измерительная ошибка PM2.5: спутниковые оценки дают покрытие, но имеют систематические ошибки; ошибка в экспозиции обычно смещает оценки в сторону нуля attenuationattenuationattenuation. По возможности сравнить спутник/модель с наземными станциями.Ошибки в данных о смерти/кодировании причин: качество кодирования причин смерти разнится по штатам и во времени — проверить общую смертность как дополнительный исход.Спилловер переносзагрязненияперенос загрязненияпереносзагрязнения: не учитывать spillovers ведёт к неверной идентификации эффекта — использовать пространственные переменные/модели.Heterogeneity: средний эффект может скрывать сильную неоднородность город/село,бедные/богатые,возрастгород/село, бедные/богатые, возрастгород/село,бедные/богатые,возраст — проводить стратификацию.Политическая/административная изменчивость: изменения в учёте/политиках по охране воздуха/медицине могут порождать артефакты — проверять события и документировать.Множественное тестирование: при проверке множества исходов/периодов контролировать FDR/коррекции.Рекомендации по отчётности и проверке убедительности causalidentificationchecklistcausal identification checklistcausalidentificationchecklist
Ясно сформулировать предпосылки идентификации например,почемуIVудовлетворяетexclusionrestrictionнапример, почему IV удовлетворяет exclusion restrictionнапример,почемуIVудовлетворяетexclusionrestriction.Показать базовые графики трендов по группам treatedvscontroltreated vs controltreatedvscontrol.Предоставить результаты нескольких спецификаций: OLS FE, FE+trends, IV, DiD еслиестьесли естьеслиесть.Проводить falsification tests: использовать плацебо‑исходы, предположительно нечувствительные к PM например,травмынапример, травмынапример,травмы, и проверить отсутствие эффекта.Привести оценку величины эффекта в понятных терминах абсолютноеиотносительноеизменениесмертностина10µg/m3PM2.5абсолютное и относительное изменение смертности на 10 µg/m3 PM2.5абсолютноеиотносительноеизменениесмертностина10µg/m3PM2.5.Описать ограничения: агрегированность, возможные неучтённые факторы, предположения IV/DiD.Практические уточнения для индийских данных
Обратить внимание на качество регистра смертей и его улучшение с течением времени — может создать видимый тренд.Включить индикаторы использования твердого топлива в домохозяйствах householdairpollutionhousehold air pollutionhouseholdairpollution — очень релевантно в Индии.Рассмотреть влияние сезонных пожаров особеннодлясеверныхштатовиПенджаба/Харианаособенно для северных штатов и Пенджаба/ХарианаособеннодлясеверныхштатовиПенджаба/Хариана как естественный источник вариации PM.Использовать COVID‑локдауны 2020 осторожно: они дают сильный шок PM, но сопутствующие системы доступностьмедицины,экономическиешокидоступность медицины, экономические шокидоступностьмедицины,экономическиешоки также влияют на смертность — требует отдельного анализа.Короткое резюме рецептдляанализарецепт для анализарецептдляанализа
Начать с EDA и карт.Оценки панельных FE с годовыми эффектами и набором экономо/социальных/метео контролей.Добавить лаги и распределённые лаги PM.Испытать IV ветер,пожарыветер, пожарыветер,пожары, DiD еслиестьполитика/шокесли есть политика/шокеслиестьполитика/шок и spatial models.Провести богатый набор проверок робастности, placebo‑тестов и стратификаций.В отчёте чётко указывать предположения и ограничения, не утверждать индивидуальной каузальности на основе агрегированных данных без дополнительных доказательств.Если хотите, могу:
предложить конкретные формулы моделей и код R/stata/pythonR/stata/pythonR/stata/python для FE, IV, DiD и spatial regressions;помочь подобрать/описать потенциальные инструменты wind‑rose/векторветра,hotspot‑данныеMODISwind‑rose/вектор ветра, hotspot‑данные MODISwind‑rose/векторветра,hotspot‑данныеMODIS и источники данных для Индии.