Кейс по картографии и статистике: по хлореплетной карте интенсивности урбанизации и таблице ВВП на душу населения для провинций Китая определите корреляции, объясните выбросы и предложите гипотезы о причинах пространственной асимметрии развития
Коротко — как определить связь, как интерпретировать выбросы и какие гипотезы объясняют пространственную асимметрию. 1) Как количественно оценить корреляцию - Посчитать Пирсон и Спирмен: - Пирсон: r=∑i(Ui−Uˉ)(Gi−Gˉ)∑i(Ui−Uˉ)2∑i(Gi−Gˉ)2r=\dfrac{\sum_i (U_i-\bar U)(G_i-\bar G)}{\sqrt{\sum_i (U_i-\bar U)^2}\sqrt{\sum_i (G_i-\bar G)^2}}r=∑i(Ui−Uˉ)2∑i(Gi−Gˉ)2∑i(Ui−Uˉ)(Gi−Gˉ), где UiU_iUi — интенсивность урбанизации в провинции iii, GiG_iGi — ВВП на душу. - Спирмен: ранжировать UUU и GGG и вычислить корреляцию рангов (устойчивее к выбросам). - Проверка значимости: t‑статистика для Пирсона t=rn−21−r2 \;t=r\sqrt{\dfrac{n-2}{1-r^2}}\;t=r1−r2n−2 с n−2n-2n−2 степенями свободы. - Регрессия для интерпретации величины эффекта: Gi=β0+β1Ui+εiG_i=\beta_0+\beta_1 U_i+\varepsilon_iGi=β0+β1Ui+εi. Оценить β1\beta_1β1, R², остатки. - Применить робастные методы и не параметрические: робастная регрессия, квантильная регрессия. 2) Пространственный анализ (важно для карт) - Проверить пространственную автокорреляцию: Моренов III: I=nW∑i∑jwij(Gi−Gˉ)(Gj−Gˉ)∑i(Gi−Gˉ)2,I=\dfrac{n}{W}\dfrac{\sum_{i}\sum_{j} w_{ij}(G_i-\bar G)(G_j-\bar G)}{\sum_i (G_i-\bar G)^2},I=Wn∑i(Gi−Gˉ)2∑i∑jwij(Gi−Gˉ)(Gj−Gˉ),
где wijw_{ij}wij — матрица соседства, W=∑i∑jwijW=\sum_{i}\sum_{j}w_{ij}W=∑i∑jwij. - Географически взвешенная регрессия (GWR) и локальные LISA-кластеры, чтобы увидеть, где связь сильнее/слабее. 3) Как находить и объяснять выбросы - Выявить влиятельные наблюдения: стандартизованные остатки и расстояние Кука. - Типичные причины выбросов и примеры (Китай): - Высокий ВВП при относительно низкой формальной урбанизации: провинции с сильной сырьевой экономикой (напр., части Внутренней Монголии, Синьцзян) — ресурсы повышают ВВП на душу, но городская застройка и плотность городского населения остаются низкими. - Высокая урбанизация при относительно низком ВВП на душу: крупные агломерации с большим населением, низкими доходами на душу (напр., некоторые провинции центрального Китая) — масштаб городов снижает GDPpc. - Административные эффекты: муниципалитеты центрального подчинения (Пекин, Шанхай, Тяньцзинь, Чунцин) показывают аномально высокие значения городского покрытия или ВВП на душу из‑за конвергентной статистики и состава экономики. - Индустриальные провинции с падением производства (северо‑восток: Ляонин) — высокая урбанизация, но снижающийся GDPpc. - Туристические/финансовые центры (Гуандун/Шанхай) — высокие обе метрики, но могут быть «перегретыми» за счёт притока рабочей силы без регистрации (hukou), и тогда формальные показатели урбанизации/доходов искажены. 4) Гипотезы о причинах пространственной асимметрии - Историко‑политические: прибрежная открытость и SEZ (особые экономические зоны) привели к раннему притоку инвестиций и индустриализации на востоке. - Географические: доступ к портам, простая логистика и более благоприятный климат способствовали концентрации промышленности и городов на востоке/юге. - Ресурсоориентированность: внутренние регионы зависят от добычи, что даёт высокий GDPpc, но не обязательно высокую урбанизацию и диверсификацию экономики. - Институциональные: различия в качестве местного управления, инвестпальцы, политика перераспределения, регистрация населения (hukou) ограничивают преобразование мигрантов в городское население с правами. - Демографические и людские ресурсы: образование и квалификация рабочей силы концентрированы в крупных мегаполисах. - Инфраструктура и агломерационные эффекты: транспортные коридоры и кластеры усиливают преимущества крупных прибрежных узлов. - Измерительные и методологические: определение «урбанизации» (административные границы vs спутниковые данные о застройке), сезонная/миграционная рабочая сила, региональные субсидии и трансферты искажает GDPpc. 5) Что делать дальше (проверка гипотез) - Построить scatterplot UUU vs GGG с подписями провинций; пометить влиятельные точки. - Регрессия с контролями: образование, доля промышленности, экспорт/население, доходы от ресурсов, расстояние до побережья, индекс инфраструктуры. - GWR/LISA для локальной оценки эффекта урбанизации на GDPpc. - Использовать альтернативные индикаторы урбанизации (ночные огни, доля застроенной площади по спутнику) и альтернативы GDPpc (медианный доход, доходы домохозяйств). - Анализ временного ряда / панельных данных, чтобы видеть динамику изменений и эффекты политик. Короткое итоговое ожидание: обычно наблюдается положительная связь между интенсивностью урбанизации и ВВП на душу, но сила связи варьирует, а выбросы объясняются ресурсной структурой экономики, административными особенностями, миграцией и измерительными искажениями. Проверять гипотезы следует многомерными и пространственно‑ориентированными методами.
1) Как количественно оценить корреляцию
- Посчитать Пирсон и Спирмен:
- Пирсон: r=∑i(Ui−Uˉ)(Gi−Gˉ)∑i(Ui−Uˉ)2∑i(Gi−Gˉ)2r=\dfrac{\sum_i (U_i-\bar U)(G_i-\bar G)}{\sqrt{\sum_i (U_i-\bar U)^2}\sqrt{\sum_i (G_i-\bar G)^2}}r=∑i (Ui −Uˉ)2 ∑i (Gi −Gˉ)2 ∑i (Ui −Uˉ)(Gi −Gˉ) , где UiU_iUi — интенсивность урбанизации в провинции iii, GiG_iGi — ВВП на душу.
- Спирмен: ранжировать UUU и GGG и вычислить корреляцию рангов (устойчивее к выбросам).
- Проверка значимости: t‑статистика для Пирсона t=rn−21−r2 \;t=r\sqrt{\dfrac{n-2}{1-r^2}}\;t=r1−r2n−2 с n−2n-2n−2 степенями свободы.
- Регрессия для интерпретации величины эффекта: Gi=β0+β1Ui+εiG_i=\beta_0+\beta_1 U_i+\varepsilon_iGi =β0 +β1 Ui +εi . Оценить β1\beta_1β1 , R², остатки.
- Применить робастные методы и не параметрические: робастная регрессия, квантильная регрессия.
2) Пространственный анализ (важно для карт)
- Проверить пространственную автокорреляцию: Моренов III:
I=nW∑i∑jwij(Gi−Gˉ)(Gj−Gˉ)∑i(Gi−Gˉ)2,I=\dfrac{n}{W}\dfrac{\sum_{i}\sum_{j} w_{ij}(G_i-\bar G)(G_j-\bar G)}{\sum_i (G_i-\bar G)^2},I=Wn ∑i (Gi −Gˉ)2∑i ∑j wij (Gi −Gˉ)(Gj −Gˉ) , где wijw_{ij}wij — матрица соседства, W=∑i∑jwijW=\sum_{i}\sum_{j}w_{ij}W=∑i ∑j wij .
- Географически взвешенная регрессия (GWR) и локальные LISA-кластеры, чтобы увидеть, где связь сильнее/слабее.
3) Как находить и объяснять выбросы
- Выявить влиятельные наблюдения: стандартизованные остатки и расстояние Кука.
- Типичные причины выбросов и примеры (Китай):
- Высокий ВВП при относительно низкой формальной урбанизации: провинции с сильной сырьевой экономикой (напр., части Внутренней Монголии, Синьцзян) — ресурсы повышают ВВП на душу, но городская застройка и плотность городского населения остаются низкими.
- Высокая урбанизация при относительно низком ВВП на душу: крупные агломерации с большим населением, низкими доходами на душу (напр., некоторые провинции центрального Китая) — масштаб городов снижает GDPpc.
- Административные эффекты: муниципалитеты центрального подчинения (Пекин, Шанхай, Тяньцзинь, Чунцин) показывают аномально высокие значения городского покрытия или ВВП на душу из‑за конвергентной статистики и состава экономики.
- Индустриальные провинции с падением производства (северо‑восток: Ляонин) — высокая урбанизация, но снижающийся GDPpc.
- Туристические/финансовые центры (Гуандун/Шанхай) — высокие обе метрики, но могут быть «перегретыми» за счёт притока рабочей силы без регистрации (hukou), и тогда формальные показатели урбанизации/доходов искажены.
4) Гипотезы о причинах пространственной асимметрии
- Историко‑политические: прибрежная открытость и SEZ (особые экономические зоны) привели к раннему притоку инвестиций и индустриализации на востоке.
- Географические: доступ к портам, простая логистика и более благоприятный климат способствовали концентрации промышленности и городов на востоке/юге.
- Ресурсоориентированность: внутренние регионы зависят от добычи, что даёт высокий GDPpc, но не обязательно высокую урбанизацию и диверсификацию экономики.
- Институциональные: различия в качестве местного управления, инвестпальцы, политика перераспределения, регистрация населения (hukou) ограничивают преобразование мигрантов в городское население с правами.
- Демографические и людские ресурсы: образование и квалификация рабочей силы концентрированы в крупных мегаполисах.
- Инфраструктура и агломерационные эффекты: транспортные коридоры и кластеры усиливают преимущества крупных прибрежных узлов.
- Измерительные и методологические: определение «урбанизации» (административные границы vs спутниковые данные о застройке), сезонная/миграционная рабочая сила, региональные субсидии и трансферты искажает GDPpc.
5) Что делать дальше (проверка гипотез)
- Построить scatterplot UUU vs GGG с подписями провинций; пометить влиятельные точки.
- Регрессия с контролями: образование, доля промышленности, экспорт/население, доходы от ресурсов, расстояние до побережья, индекс инфраструктуры.
- GWR/LISA для локальной оценки эффекта урбанизации на GDPpc.
- Использовать альтернативные индикаторы урбанизации (ночные огни, доля застроенной площади по спутнику) и альтернативы GDPpc (медианный доход, доходы домохозяйств).
- Анализ временного ряда / панельных данных, чтобы видеть динамику изменений и эффекты политик.
Короткое итоговое ожидание: обычно наблюдается положительная связь между интенсивностью урбанизации и ВВП на душу, но сила связи варьирует, а выбросы объясняются ресурсной структурой экономики, административными особенностями, миграцией и измерительными искажениями. Проверять гипотезы следует многомерными и пространственно‑ориентированными методами.