Какие пересечения пола, расы и класса важны для понимания разницы в уровне доходов между мужчинами и женщинами в современной экономике — предложите модель исследования с учётом интерсекциональности
Коротко и по существу — предложу рабочую модель исследования с учётом интерсекциональности пола, расы и класса для объяснения различий в доходах. 1) Цель и данные - Цель: оценить, как пересечения пола (G), расы (R) и класса/происхождения (C) связаны с уровнями дохода и какая часть разницы объясняется характеристиками (человеческий капитал, занятость, отрасль) и какая — необъяснимая (включая дискриминацию). - Данные: крупная репрезентативная панель или кросс-секция (например, LFS, CPS, EU-SILC, национальные панели) с переменными: доход/заработок, пол (включая небинарные, если есть), раса/этничность (self-ID), класс/социальное происхождение (родительский доход/образование/профессия, или собственный SES/квартиль дохода), возраст, образование, опыт, занятость, отрасль, профессия, регион, фирма, время. 2) Основная регрессионная спецификация (интерсекциональные взаимодействия) - Взять логарифм дохода как зависимую переменную: lnwi\ln w_ilnwi. - Полнота взаимодействий до тройного пересечения: lnwi=β0+βGGi+βRRi+βCCi+βGR(Gi⋅Ri)+βGC(Gi⋅Ci)+βRC(Ri⋅Ci)+βGRC(Gi⋅Ri⋅Ci)+Xi′γ+εi,
\ln w_i = \beta_0 + \beta_G G_i + \beta_R R_i + \beta_C C_i + \beta_{GR} (G_i\cdot R_i) + \beta_{GC} (G_i\cdot C_i) + \beta_{RC} (R_i\cdot C_i) + \beta_{GRC} (G_i\cdot R_i\cdot C_i) + X_i'\gamma + \varepsilon_i, lnwi=β0+βGGi+βRRi+βCCi+βGR(Gi⋅Ri)+βGC(Gi⋅Ci)+βRC(Ri⋅Ci)+βGRC(Gi⋅Ri⋅Ci)+Xi′γ+εi,
где XiX_iXi — вектор контрольных переменных (возраст, образование, опыт, отрасль, занятость, часы работы, регион и т.д.). - Интерпретация: коэффициенты взаимодействий показывают дополнительные эффекты на лог‑доход для конкретных пересечений (например, женщина × раса A × низкий класс). 3) Декомпозиция разницы (расширенный Oaxaca–Blinder) - Для двух интерсекционных групп aaa и bbb можно записать разность средних лог‑доходов: Δa,b=lnwˉa−lnwˉb=(Xˉa−Xˉb)′β^+Xˉb′(β^a−β^b).
\Delta_{a,b} = \bar{\ln w}_a - \bar{\ln w}_b = (\bar{X}_a - \bar{X}_b)'\hat\beta + \bar{X}_b'(\hat\beta_a - \hat\beta_b). Δa,b=lnwˉa−lnwˉb=(Xˉa−Xˉb)′β^+Xˉb′(β^a−β^b).
- Расширить на множественные группы (все комбинации G×R×C) и суммировать вклад объясняемых (различия в характеристиках) и необъясняемых (различия в возвратах/коэффициентах). Можно использовать полную-обратимую (threefold) декомпозицию или многогрупповую Oaxaca. 4) Многопро́фильный (multilevel) подход и регуляризация - Проблема: большое число пересечений → маленькие выборки в ячейках и шумные оценки. Решения: - Иерархическая модель (random intercepts и/или slopes) с частичным усреднением: lnwi=Xi′γ+αg(r,c)+ui,
\ln w_{i} = X_i'\gamma + \alpha_{g(r,c)} + u_i, lnwi=Xi′γ+αg(r,c)+ui,
где αg(r,c)\alpha_{g(r,c)}αg(r,c) — случайный эффект для интерсекционной группы. - LASSO/регуляризация или Bayesian shrinkage для взаимодействий. - Causal forest / ML для оценки гетерогенных эффектов пола внутри подгрупп. 5) Идентификация и отборка - Учитывать селекцию в рабочую силу (особенно если сравниваете заработки): использовать модель Хекмана или IPW на участие в рынке труда, либо анализ conditional on employed с обсуждением смещения. - Для причинного вывода: панельные данные + индивидуальные фиксированные эффекты для контроля неизмеримых постоянных факторов; инструментальные переменные применимы редко (например, изменение политики по отпуску отца как IV для отцовства), указывать ограничения. 6) Контрольные спецификации и проверки устойчивости - Добавить отрасль/профессию/фирменные FE чтобы отделить вертикальную/горизонтальную сегрегацию. - Разделить эффект на интенсивность труда (часы) и почасовую оплату. - Проверки: разные определения класса (родительский доход vs образование), разные этнические коды, исключение малых ячеек, переодические подсэмплы. - Подсчёт прогнозируемых разниц между конкретными пересечениями: для комбинации G=g,R=r,C=cG=g, R=r, C=cG=g,R=r,C=c прогноз lnw^g,r,c=β^0+β^Gg+β^Rr+β^Cc+β^GRgr+β^GCgc+β^RCrc+β^GRCgrc+Xˉ′γ^.
\widehat{\ln w}_{g,r,c} = \hat\beta_0 + \hat\beta_G g + \hat\beta_R r + \hat\beta_C c + \hat\beta_{GR} gr + \hat\beta_{GC} gc + \hat\beta_{RC} rc + \hat\beta_{GRC} grc + \bar{X}'\hat\gamma. lnwg,r,c=β^0+β^Gg+β^Rr+β^Cc+β^GRgr+β^GCgc+β^RCrc+β^GRCgrc+Xˉ′γ^. 7) Политический/интерпретационный компонент - Разделять различия, вызванные: (а) человеческим капиталом и секторальной структурой; (б) дисбалансом в возвратах на характеристики (возможная дискриминация); (в) структурной сегрегацией (отраслевая/профессиональная). - Рекомендации: представить результаты по всем ключевым пересечениям (таблицы средних и декомпозиции), визуализации предсказанных доходов и «необъяснимых» долей. 8) Практические советы - При малых N в ячейках: предпочесть multilevel/Bayesian pooling или агрегирование категорий; явная отчётность об ошибках и доверительных интервалах. - Репликабельность: публиковать код, спецификации, определения переменных. - Включить качественные данные (интервью) для интерпретации необъяснимой части. Краткий итог: используйте регрессию с полными двух- и трёхсторонними взаимодействиями для обнаружения интерсекциональных эффектов, дополните её многоуровневой моделью или регуляризацией для стабильности, примените расширенную Oaxaca–Blinder‑декомпозицию и методы по контролю селекции/эндогенности для интерпретации объяснимой и необъяснимой составляющих разницы в доходах.
1) Цель и данные
- Цель: оценить, как пересечения пола (G), расы (R) и класса/происхождения (C) связаны с уровнями дохода и какая часть разницы объясняется характеристиками (человеческий капитал, занятость, отрасль) и какая — необъяснимая (включая дискриминацию).
- Данные: крупная репрезентативная панель или кросс-секция (например, LFS, CPS, EU-SILC, национальные панели) с переменными: доход/заработок, пол (включая небинарные, если есть), раса/этничность (self-ID), класс/социальное происхождение (родительский доход/образование/профессия, или собственный SES/квартиль дохода), возраст, образование, опыт, занятость, отрасль, профессия, регион, фирма, время.
2) Основная регрессионная спецификация (интерсекциональные взаимодействия)
- Взять логарифм дохода как зависимую переменную: lnwi\ln w_ilnwi .
- Полнота взаимодействий до тройного пересечения:
lnwi=β0+βGGi+βRRi+βCCi+βGR(Gi⋅Ri)+βGC(Gi⋅Ci)+βRC(Ri⋅Ci)+βGRC(Gi⋅Ri⋅Ci)+Xi′γ+εi, \ln w_i = \beta_0 + \beta_G G_i + \beta_R R_i + \beta_C C_i
+ \beta_{GR} (G_i\cdot R_i) + \beta_{GC} (G_i\cdot C_i) + \beta_{RC} (R_i\cdot C_i)
+ \beta_{GRC} (G_i\cdot R_i\cdot C_i)
+ X_i'\gamma + \varepsilon_i,
lnwi =β0 +βG Gi +βR Ri +βC Ci +βGR (Gi ⋅Ri )+βGC (Gi ⋅Ci )+βRC (Ri ⋅Ci )+βGRC (Gi ⋅Ri ⋅Ci )+Xi′ γ+εi , где XiX_iXi — вектор контрольных переменных (возраст, образование, опыт, отрасль, занятость, часы работы, регион и т.д.).
- Интерпретация: коэффициенты взаимодействий показывают дополнительные эффекты на лог‑доход для конкретных пересечений (например, женщина × раса A × низкий класс).
3) Декомпозиция разницы (расширенный Oaxaca–Blinder)
- Для двух интерсекционных групп aaa и bbb можно записать разность средних лог‑доходов:
Δa,b=lnwˉa−lnwˉb=(Xˉa−Xˉb)′β^+Xˉb′(β^a−β^b). \Delta_{a,b} = \bar{\ln w}_a - \bar{\ln w}_b = (\bar{X}_a - \bar{X}_b)'\hat\beta + \bar{X}_b'(\hat\beta_a - \hat\beta_b).
Δa,b =lnwˉa −lnwˉb =(Xˉa −Xˉb )′β^ +Xˉb′ (β^ a −β^ b ). - Расширить на множественные группы (все комбинации G×R×C) и суммировать вклад объясняемых (различия в характеристиках) и необъясняемых (различия в возвратах/коэффициентах). Можно использовать полную-обратимую (threefold) декомпозицию или многогрупповую Oaxaca.
4) Многопро́фильный (multilevel) подход и регуляризация
- Проблема: большое число пересечений → маленькие выборки в ячейках и шумные оценки. Решения:
- Иерархическая модель (random intercepts и/или slopes) с частичным усреднением:
lnwi=Xi′γ+αg(r,c)+ui, \ln w_{i} = X_i'\gamma + \alpha_{g(r,c)} + u_i,
lnwi =Xi′ γ+αg(r,c) +ui , где αg(r,c)\alpha_{g(r,c)}αg(r,c) — случайный эффект для интерсекционной группы.
- LASSO/регуляризация или Bayesian shrinkage для взаимодействий.
- Causal forest / ML для оценки гетерогенных эффектов пола внутри подгрупп.
5) Идентификация и отборка
- Учитывать селекцию в рабочую силу (особенно если сравниваете заработки): использовать модель Хекмана или IPW на участие в рынке труда, либо анализ conditional on employed с обсуждением смещения.
- Для причинного вывода: панельные данные + индивидуальные фиксированные эффекты для контроля неизмеримых постоянных факторов; инструментальные переменные применимы редко (например, изменение политики по отпуску отца как IV для отцовства), указывать ограничения.
6) Контрольные спецификации и проверки устойчивости
- Добавить отрасль/профессию/фирменные FE чтобы отделить вертикальную/горизонтальную сегрегацию.
- Разделить эффект на интенсивность труда (часы) и почасовую оплату.
- Проверки: разные определения класса (родительский доход vs образование), разные этнические коды, исключение малых ячеек, переодические подсэмплы.
- Подсчёт прогнозируемых разниц между конкретными пересечениями: для комбинации G=g,R=r,C=cG=g, R=r, C=cG=g,R=r,C=c прогноз
lnw^g,r,c=β^0+β^Gg+β^Rr+β^Cc+β^GRgr+β^GCgc+β^RCrc+β^GRCgrc+Xˉ′γ^. \widehat{\ln w}_{g,r,c} = \hat\beta_0 + \hat\beta_G g + \hat\beta_R r + \hat\beta_C c + \hat\beta_{GR} gr + \hat\beta_{GC} gc + \hat\beta_{RC} rc + \hat\beta_{GRC} grc + \bar{X}'\hat\gamma.
lnwg,r,c =β^ 0 +β^ G g+β^ R r+β^ C c+β^ GR gr+β^ GC gc+β^ RC rc+β^ GRC grc+Xˉ′γ^ .
7) Политический/интерпретационный компонент
- Разделять различия, вызванные: (а) человеческим капиталом и секторальной структурой; (б) дисбалансом в возвратах на характеристики (возможная дискриминация); (в) структурной сегрегацией (отраслевая/профессиональная).
- Рекомендации: представить результаты по всем ключевым пересечениям (таблицы средних и декомпозиции), визуализации предсказанных доходов и «необъяснимых» долей.
8) Практические советы
- При малых N в ячейках: предпочесть multilevel/Bayesian pooling или агрегирование категорий; явная отчётность об ошибках и доверительных интервалах.
- Репликабельность: публиковать код, спецификации, определения переменных.
- Включить качественные данные (интервью) для интерпретации необъяснимой части.
Краткий итог: используйте регрессию с полными двух- и трёхсторонними взаимодействиями для обнаружения интерсекциональных эффектов, дополните её многоуровневой моделью или регуляризацией для стабильности, примените расширенную Oaxaca–Blinder‑декомпозицию и методы по контролю селекции/эндогенности для интерпретации объяснимой и необъяснимой составляющих разницы в доходах.