Смоделируйте распространение эпидемии на малой социальной сети с сильной кластеризацией: разработайте агентно‑ориентированную модель и уравновешенную SIR‑модель, сравните их по способности воспроизводить стохастические вспышки и эффект суперраспространителей, опишите процедуры калибровки модели, верификации и оценки чувствительности параметров
Кратко: опишу агентно‑ориентированную модель (ABM) на кластерной сети, уравновешенную детерминистскую SIR‑модель, метрики сравнения (включая вспышки и суперраспространителей), процедуры калибровки, верификации и оценки чувствительности. 1) Сеть и данные - Генерация сети с сильной кластеризацией: например, модель Уоттса‑Строгацса или стохастическая блочная модель. Параметры сети: - средняя степень ⟨k⟩ \langle k \rangle ⟨k⟩; - дисперсия степени Var(k) \mathrm{Var}(k) Var(k); - коэффициент кластеризации C C C. - Для малого сообщества возьмите размер NNN (например, NNN порядка 10210^2102–10310^3103). 2) Агентно‑ориентированная модель (ABM) - Состояния агентов: Susceptible (S), Infectious (I), Recovered (R). - Дискретное время (шаг Δt\Delta tΔt) или непрерывный (Gillespie). Правила: - Каждый инфицированный агент при каждом временном шаге заражает каждого соседя с вероятностью передачи ppp (если дискретно) либо по краю с интенсивностью β\betaβ (если непрерывно). - Восстановление с вероятностью qqq в шаге (q=1−e−γΔtq = 1 - e^{-\gamma \Delta t}q=1−e−γΔt) либо экспоненциально с параметром γ\gammaγ. - Формулы (дискретно): вероятность заражения соседа за шаг p=1−e−βΔt.
p = 1 - e^{-\beta \Delta t}. p=1−e−βΔt.
Для одного инфицированного среднее число вторичных инфекций (по сети) измеряется эмпирически; в среднем для однородной смеси R0=β/γR_0 = \beta/\gammaR0=β/γ, на сети с вариацией степени приближённо R0≈T⟨k2−k⟩⟨k⟩,
R_0 \approx T\frac{\langle k^2 - k\rangle}{\langle k\rangle}, R0≈T⟨k⟩⟨k2−k⟩,
где TTT — вероятность передачи по ребру в течение инфекционного периода. - Суперраспространители: вводим неоднородность либо через распределение степеней (узлы с большой kkk), либо через индивидуальные коэффициенты заразности βi\beta_iβi (например, βi\beta_iβi распределены по отрицательному биномиальному с параметром дисперсии kkk). Оценка суперраспространителя: индивид, давший >sss вторичных инфекций. 3) Уравновешенная (детерминистская) SIR‑модель (mean‑field) - Уравнения: dSdt=−βSIN,dIdt=βSIN−γI,dRdt=γI.
\frac{dS}{dt} = -\beta \frac{S I}{N},\qquad \frac{dI}{dt} = \beta \frac{S I}{N} - \gamma I,\qquad \frac{dR}{dt} = \gamma I. dtdS=−βNSI,dtdI=βNSI−γI,dtdR=γI.
- Параметры выбираются так, чтобы обеспечить ту же среднюю заразность: R0=β/γR_0 = \beta/\gammaR0=β/γ. - Эта модель даёт лишь среднюю траекторию и не воспроизводит квантование, вариативность и редкие крупные вспышки. 4) Сравнение по способности воспроизводить стохастические вспышки и суперраспространителей - Провести ансамбль симуляций ABM (число реализаций MMM, рекомендуется M≥103M \ge 10^3M≥103 для надёжной оценки редких событий) и сравнить с детерминистской траекторией и со стохастической mean‑field (Gillespie SIR). - Метрики: - распределение итогового размера эпидемии (attack rate): AAA; - распределение пикового числа инфицированных и времени пика; - вероятность крупной вспышки (outbreak probability); - распределение числа вторичных инфекций на индивида — оценка дисперсии и параметра дисперсии kkk отрицательного биномиального: при выборке offspring xix_ixi MLE для kkk через лог‑правдоподобие; - вклад верхних p%p\%p% индивидов в суммарную передачу (например, топ 20%20\%20%). - Ожидаемые различия: - ABM при сильной кластеризации даёт более высокий шанс малых локальных вспышек и, при наличии вариабельности степени/заразуемости, тяжёлые хвосты offspring → суперраспространители. - Детерминистская SIR даёт гладкую кривую, не отражающую асимметрии, вариативности и редкие крупные события. 5) Калибровка моделей - Цель: подобрать параметры (β,γ,p,\beta,\gamma,p,β,γ,p, параметры сети) по наблюдениям (временные ряды случаев, вторичные инфекции). - Для детерминистской SIR: - по начальному росту rrr оценить βS(0)/N−γ=r \beta S(0)/N - \gamma = rβS(0)/N−γ=r; - по среднему поколенческому интервалу TgT_gTg взять γ=1/Tg\gamma = 1/T_gγ=1/Tg; - затем β=r+γ\beta = r + \gammaβ=r+γ. - Для ABM: - Если доступны данные по контактам — калибруйте ppp (или β\betaβ) чтобы эмпирическое R0ABMR_0^{\mathrm{ABM}}R0ABM совпадало с наблюдаемым R0R_0R0. - Подходы: MLE (если данных по цепочкам передачи), Approximate Bayesian Computation (ABC) — минимизация расстояния между суммарными статистиками (attack rate, peak time, offspring distribution), или MCMC по имитации. - Функция потерь (пример): L(θ)=∑jwj(Sjsim(θ)−Sjobsσj)2,
L(\theta)=\sum_j w_j\left(\frac{S_j^{\mathrm{sim}}(\theta)-S_j^{\mathrm{obs}}}{\sigma_j}\right)^2, L(θ)=j∑wj(σjSjsim(θ)−Sjobs)2,
где SjS_jSj — выбранные статистики, wjw_jwj веса, σj\sigma_jσj оценки шума. - Рекомендация: сначала калибровать на моментальном росте и среднем R0R_0R0, затем подтянуть параметры сети/неоднородности для подгонки хвостовых свойств offspring. 6) Верификация (проверка правильности реализации) - Юнит‑тесты: сохранение количества агентов S+I+R=NS+I+R=NS+I+R=N в каждом шаге. - Сходимость интегратора для детерминированной SIR (уменьшение шага Δt\Delta tΔt не меняет траекторию). - Воспроизведение аналитических предельных случаев: - при однородной полной сети среднее по ABM должно сходиться к детерминистскому решению при N→∞N\to\inftyN→∞; - при малых начальных I проверить совпадение вероятности вымирания с ветвящимся процессом. - Репродуцируемость: фиксированные seed, многократные прогоны. - Отладка случайных событий: проверка распределения времени до следующего события (для Gillespie). 7) Оценка чувствительности и анализ неопределённости - Цели: понять, какие параметры влияют на итоговый размер, вероятность крупной вспышки и частоту суперраспространителей. - Методы: - Локальный анализ (partial derivatives): малые возмущения Δθ\Delta\thetaΔθ вокруг точки по умолчанию. - Однофакторный анализ (OAT): менять по одному параметру. - Глобальный анализ: Latin Hypercube Sampling (LHS) + PRCC (Partial Rank Correlation Coefficients); Sobol‑индексы для декомпозиции дисперсии. - Параметры для вариации: β,γ,p,\beta,\gamma,p,β,γ,p, параметры распределения степеней (среднее ⟨k⟩\langle k\rangle⟨k⟩, дисперсия), коэффициент кластеризации CCC, параметр дисперсии индивидуальной заразности koffspringk_{\mathrm{offspring}}koffspring. - Выходные величины: итоговый размер AAA, пиковое ImaxI_{\max}Imax, время пика tmaxt_{\max}tmax, вероятность крупной вспышки, оценённый параметр дисперсии offspring. - Практика: для устойчивых оценок глобальной чувствительности требуется количество симуляций порядка нескольких тысяч; для редких событий — увеличить число реализаций, например M≥103M \ge 10^3M≥103–10410^4104. 8) Оценка суперраспространителей (статистические процедуры) - Собрать распределение количества вторичных инфекций per index case из ансамбля ABM. - Подгонка распределения отрицательного биномиала: оценить kkk через MLE; малое kkk = сильная перегруппированность. - Тесты на тяжелый хвост: сравнение правых хвостов между ABM и mean‑field стокастической моделью (KS‑тест для offspring распределений, байесовская оценка хвоста). 9) Практические рекомендации - Для малых кластерных сетей ABM необходим для оценки стохастики и суперраспространителей; детермин. SIR служит референтом средней динамики и для быстрого скрининга параметров. - Калибруйте SIR так, чтобы он имел тот же R0R_0R0 и средний generation time как ABM, затем используйте ABM для проверки хвостовых эффектов. - Документируйте все предположения по контактам и распределениям; проводите верификацию и sensitivity analysis перед выводами. Если нужно, могу дать краткую пошаговую инструкцию реализации (псевдокод ABM, параметры выбора сети, примеры команд для Sobol/ABC).
1) Сеть и данные
- Генерация сети с сильной кластеризацией: например, модель Уоттса‑Строгацса или стохастическая блочная модель. Параметры сети:
- средняя степень ⟨k⟩ \langle k \rangle ⟨k⟩;
- дисперсия степени Var(k) \mathrm{Var}(k) Var(k);
- коэффициент кластеризации C C C.
- Для малого сообщества возьмите размер NNN (например, NNN порядка 10210^2102–10310^3103).
2) Агентно‑ориентированная модель (ABM)
- Состояния агентов: Susceptible (S), Infectious (I), Recovered (R).
- Дискретное время (шаг Δt\Delta tΔt) или непрерывный (Gillespie). Правила:
- Каждый инфицированный агент при каждом временном шаге заражает каждого соседя с вероятностью передачи ppp (если дискретно) либо по краю с интенсивностью β\betaβ (если непрерывно).
- Восстановление с вероятностью qqq в шаге (q=1−e−γΔtq = 1 - e^{-\gamma \Delta t}q=1−e−γΔt) либо экспоненциально с параметром γ\gammaγ.
- Формулы (дискретно): вероятность заражения соседа за шаг
p=1−e−βΔt. p = 1 - e^{-\beta \Delta t}.
p=1−e−βΔt. Для одного инфицированного среднее число вторичных инфекций (по сети) измеряется эмпирически; в среднем для однородной смеси R0=β/γR_0 = \beta/\gammaR0 =β/γ, на сети с вариацией степени приближённо
R0≈T⟨k2−k⟩⟨k⟩, R_0 \approx T\frac{\langle k^2 - k\rangle}{\langle k\rangle},
R0 ≈T⟨k⟩⟨k2−k⟩ , где TTT — вероятность передачи по ребру в течение инфекционного периода.
- Суперраспространители: вводим неоднородность либо через распределение степеней (узлы с большой kkk), либо через индивидуальные коэффициенты заразности βi\beta_iβi (например, βi\beta_iβi распределены по отрицательному биномиальному с параметром дисперсии kkk). Оценка суперраспространителя: индивид, давший >sss вторичных инфекций.
3) Уравновешенная (детерминистская) SIR‑модель (mean‑field)
- Уравнения:
dSdt=−βSIN,dIdt=βSIN−γI,dRdt=γI. \frac{dS}{dt} = -\beta \frac{S I}{N},\qquad
\frac{dI}{dt} = \beta \frac{S I}{N} - \gamma I,\qquad
\frac{dR}{dt} = \gamma I.
dtdS =−βNSI ,dtdI =βNSI −γI,dtdR =γI. - Параметры выбираются так, чтобы обеспечить ту же среднюю заразность: R0=β/γR_0 = \beta/\gammaR0 =β/γ.
- Эта модель даёт лишь среднюю траекторию и не воспроизводит квантование, вариативность и редкие крупные вспышки.
4) Сравнение по способности воспроизводить стохастические вспышки и суперраспространителей
- Провести ансамбль симуляций ABM (число реализаций MMM, рекомендуется M≥103M \ge 10^3M≥103 для надёжной оценки редких событий) и сравнить с детерминистской траекторией и со стохастической mean‑field (Gillespie SIR).
- Метрики:
- распределение итогового размера эпидемии (attack rate): AAA;
- распределение пикового числа инфицированных и времени пика;
- вероятность крупной вспышки (outbreak probability);
- распределение числа вторичных инфекций на индивида — оценка дисперсии и параметра дисперсии kkk отрицательного биномиального: при выборке offspring xix_ixi MLE для kkk через лог‑правдоподобие;
- вклад верхних p%p\%p% индивидов в суммарную передачу (например, топ 20%20\%20%).
- Ожидаемые различия:
- ABM при сильной кластеризации даёт более высокий шанс малых локальных вспышек и, при наличии вариабельности степени/заразуемости, тяжёлые хвосты offspring → суперраспространители.
- Детерминистская SIR даёт гладкую кривую, не отражающую асимметрии, вариативности и редкие крупные события.
5) Калибровка моделей
- Цель: подобрать параметры (β,γ,p,\beta,\gamma,p,β,γ,p, параметры сети) по наблюдениям (временные ряды случаев, вторичные инфекции).
- Для детерминистской SIR:
- по начальному росту rrr оценить βS(0)/N−γ=r \beta S(0)/N - \gamma = rβS(0)/N−γ=r;
- по среднему поколенческому интервалу TgT_gTg взять γ=1/Tg\gamma = 1/T_gγ=1/Tg ;
- затем β=r+γ\beta = r + \gammaβ=r+γ.
- Для ABM:
- Если доступны данные по контактам — калибруйте ppp (или β\betaβ) чтобы эмпирическое R0ABMR_0^{\mathrm{ABM}}R0ABM совпадало с наблюдаемым R0R_0R0 .
- Подходы: MLE (если данных по цепочкам передачи), Approximate Bayesian Computation (ABC) — минимизация расстояния между суммарными статистиками (attack rate, peak time, offspring distribution), или MCMC по имитации.
- Функция потерь (пример):
L(θ)=∑jwj(Sjsim(θ)−Sjobsσj)2, L(\theta)=\sum_j w_j\left(\frac{S_j^{\mathrm{sim}}(\theta)-S_j^{\mathrm{obs}}}{\sigma_j}\right)^2,
L(θ)=j∑ wj (σj Sjsim (θ)−Sjobs )2, где SjS_jSj — выбранные статистики, wjw_jwj веса, σj\sigma_jσj оценки шума.
- Рекомендация: сначала калибровать на моментальном росте и среднем R0R_0R0 , затем подтянуть параметры сети/неоднородности для подгонки хвостовых свойств offspring.
6) Верификация (проверка правильности реализации)
- Юнит‑тесты: сохранение количества агентов S+I+R=NS+I+R=NS+I+R=N в каждом шаге.
- Сходимость интегратора для детерминированной SIR (уменьшение шага Δt\Delta tΔt не меняет траекторию).
- Воспроизведение аналитических предельных случаев:
- при однородной полной сети среднее по ABM должно сходиться к детерминистскому решению при N→∞N\to\inftyN→∞;
- при малых начальных I проверить совпадение вероятности вымирания с ветвящимся процессом.
- Репродуцируемость: фиксированные seed, многократные прогоны.
- Отладка случайных событий: проверка распределения времени до следующего события (для Gillespie).
7) Оценка чувствительности и анализ неопределённости
- Цели: понять, какие параметры влияют на итоговый размер, вероятность крупной вспышки и частоту суперраспространителей.
- Методы:
- Локальный анализ (partial derivatives): малые возмущения Δθ\Delta\thetaΔθ вокруг точки по умолчанию.
- Однофакторный анализ (OAT): менять по одному параметру.
- Глобальный анализ: Latin Hypercube Sampling (LHS) + PRCC (Partial Rank Correlation Coefficients); Sobol‑индексы для декомпозиции дисперсии.
- Параметры для вариации: β,γ,p,\beta,\gamma,p,β,γ,p, параметры распределения степеней (среднее ⟨k⟩\langle k\rangle⟨k⟩, дисперсия), коэффициент кластеризации CCC, параметр дисперсии индивидуальной заразности koffspringk_{\mathrm{offspring}}koffspring .
- Выходные величины: итоговый размер AAA, пиковое ImaxI_{\max}Imax , время пика tmaxt_{\max}tmax , вероятность крупной вспышки, оценённый параметр дисперсии offspring.
- Практика: для устойчивых оценок глобальной чувствительности требуется количество симуляций порядка нескольких тысяч; для редких событий — увеличить число реализаций, например M≥103M \ge 10^3M≥103–10410^4104.
8) Оценка суперраспространителей (статистические процедуры)
- Собрать распределение количества вторичных инфекций per index case из ансамбля ABM.
- Подгонка распределения отрицательного биномиала: оценить kkk через MLE; малое kkk = сильная перегруппированность.
- Тесты на тяжелый хвост: сравнение правых хвостов между ABM и mean‑field стокастической моделью (KS‑тест для offspring распределений, байесовская оценка хвоста).
9) Практические рекомендации
- Для малых кластерных сетей ABM необходим для оценки стохастики и суперраспространителей; детермин. SIR служит референтом средней динамики и для быстрого скрининга параметров.
- Калибруйте SIR так, чтобы он имел тот же R0R_0R0 и средний generation time как ABM, затем используйте ABM для проверки хвостовых эффектов.
- Документируйте все предположения по контактам и распределениям; проводите верификацию и sensitivity analysis перед выводами.
Если нужно, могу дать краткую пошаговую инструкцию реализации (псевдокод ABM, параметры выбора сети, примеры команд для Sobol/ABC).