Надо смоделировать распространение эпидемии на городской выборке: сравните детерминированную модель SIR (с ОДУ), стохастические модели и агент‑ориентированную симуляцию на графе контактов — обсудите выбор модели в зависимости от целей исследования, методы калибровки параметров, валидации результатов, оценки чувствительности и требования к вычислительным ресурсам
Кратко и по пунктам. Модели — суть и уравнения - Детерминированная SIR (ОДУ, население однородно): dSdt=−βSIN,dIdt=βSIN−γI,dRdt=γI
\frac{dS}{dt}=-\beta\frac{SI}{N},\qquad \frac{dI}{dt}=\beta\frac{SI}{N}-\gamma I,\qquad \frac{dR}{dt}=\gamma I dtdS=−βNSI,dtdI=βNSI−γI,dtdR=γI
базовый репродукционный: R0=β/γR_0=\beta/\gammaR0=β/γ. - Стохастические модели: - Марковские компартментные процессы (вероятностные переходы, моделируются методом Gillespie). - Диффузионные приближения / SDE: например dI=(βSI/N−γI) dt+σ dWtdI=(\beta SI/N-\gamma I)\,dt+\sigma\,dW_tdI=(βSI/N−γI)dt+σdWt. - Ветвящиеся процессы для ранней фазы (выживание/затухание). - Агент‑ориентированная модель (ABM) на графе контактов: - Узел = человек, ребро = контакт; передача по ребру с вероятностью ppp за контакт; состояния S/I/R и правила переходов по времени или событиям. - Поддержка сложных политик (локальная изоляция, трассировка, вакцинация). Выбор модели в зависимости от цели - Оценка общих трендов, R0R_0R0, сценарное прогнозирование на уровне города: детерминированная SIR или сетевые ОДУ (быстро, прозрачно). - Оценка вероятности вымирания очага, дисперсии исходов, влияние стохастичности при малых числах: стохастические модели (Gillespie, ветвящиеся процессы). - Оценка локальных вмешательств, целевой вакцинации, роль структуры контактов, эффекты супер‑распространителей и трассировки: ABM на графе контактов (требует детальной карты контактов или синтетической сети). - Разработка оперативных мер (контакт‑трейсинг, очередности вакцинации): ABM предпочтителен. Калибровка параметров - Необходима явная модель наблюдения (подсчёты, задержки, доля репортации ρ\rhoρ): - наблюдаемое число случаев = случайная функция от истинных новых инфекций и параметров отчётности. - Методы: - MLE / оптимизация по сумме квадратов для ODE (например минимизация RMSE). - Байесовский подход (MCMC) для полной постериорной неопределённости. - Частицы/Sequential Monte Carlo (PF) для стохастических моделей с нелинейными наблюдениями. - Approximate Bayesian Computation (ABC) или эмульторы (Gaussian process) когда модель слишком дорогая. - Сравнение по множеству данных: случайные случаи, госпитализации, серопревалентность. - Практические моменты: учесть недоучёт (ρ\rhoρ), задержки, изменение тестирования во времени; задавать информативные априорные распределения. Валидация результатов - Разделение данных: тренировка / тест (скользящее окно), прогнозирование на вневременной период. - Постериорные предиктивные проверки (coverage, предиктивные интервалы). - Метрики: лог‑вероятность предсказания, CRPS, RMSE, AUC для бинарных событий (вспышка/нет). - Валидация отдельных компонентов: контактная сеть (статистика степеней), временные задержки, распределение длительности инфекционного периода. - Чувствительность к предположениям наблюдения (репортация, тестирование). Оценка чувствительности - Локальная: частные производные/одномерная вариация параметра вокруг точки (быстро). - Глобальная: Sobol‑индексы, Morris, PRCC (Partial Rank Correlation Coefficients) — учитывают взаимодействия параметров. - Для стохастических/ABM моделей учитывать вариабилити: для каждой точки параметров запускать >100>100>100 симуляций (или больше) и оценивать распределение исходов. - При дорогих моделях использовать эмулторы (GP, полиномиальные хаотич. разложения) для оценки глобальной чувствительности. Вычислительные требования и практичность - Дет. ODE: - Очень дешёвая: сложность пропорциональна числу компартментов CCC и числу шагов по времени TTT: примерно O(C×T)O(C\times T)O(C×T). - На стандартном ноутбуке расчёт сценариев для города занимает секунды — удобна для массовой оптимизации/калибровки. - Стохастические компартментные (Gillespie / tau‑leap): - Стоимость пропорциональна числу событий EEE: O(E)O(E)O(E). Для больших эпидемий может быть дороже, но возможна аппроксимация SDE/τ‑leap. - Параллелизация по запускам — тривиальна. - ABM на графе: - Скейлинг ~ O(N×⟨k⟩×T)O(N\times\langle k\rangle\times T)O(N×⟨k⟩×T) на один прогон, где NNN — число агентов, ⟨k⟩\langle k\rangle⟨k⟩ — средняя степень. - Требует большого объёма памяти для сети и состояний. Для города NNN порядка 10510^5105–10610^6106 уже серьёзные требования. - Часто требует большого числа прогонов для статистики; эффективна параллельная инфраструктура / HPC / GPU (специализированные рамки). - Практические трюки: - Параллелизация по реализациям при стохастике/ABM. - Использование метамоделей/эмулей для калибровки и глобальной чувствительности. - Гибриды: метапопуляционные ODE, парные аппроксимации, сетевые ОДУ по кластерам — баланс точности и скорости. Идентифицируемость и неопределённость - Часто невозможно однозначно оценить одновременно β\betaβ, γ\gammaγ и репортацию ρ\rhoρ из одних только случаев; нужны дополнительные данные (серопреп, госпитализации). - Отражайте результат как распределение параметров/прогнозов, а не единственную «точечную» оценку. - Проверяйте чувствительность выводов к неполноте данных и структурным предположениям (например, гомогенность vs сеть). Рекомендованный рабочий конвейер (коротко) 1. Определить цель (оценка R0R_0R0, вероятность вымирания, эффективность таргетирования). 2. Выбрать модель по цели: ODE для быстрых оценок, стохастика для вероятностных выводов, ABM для политики на уровне контактов. 3. Построить наблюдательную модель (репортация, задержки). 4. Скалировать и калибровать (MLE / Байес / PF / ABC), использовать эмулеры при необходимости. 5. Валидировать на отложенных данных и проверках предсказания. 6. Провести глобальную оценку чувствительности; при высокой стоимости — построить эмультор. 7. Сообщить неопределённость и допущения явно. Если нужно — могу предложить конкретную конфигурацию модели и протокол калибровки/валидации для заданного городского набора данных (численность NNN, доступные временные ряды, наличие сети контактов).
Модели — суть и уравнения
- Детерминированная SIR (ОДУ, население однородно):
dSdt=−βSIN,dIdt=βSIN−γI,dRdt=γI \frac{dS}{dt}=-\beta\frac{SI}{N},\qquad
\frac{dI}{dt}=\beta\frac{SI}{N}-\gamma I,\qquad
\frac{dR}{dt}=\gamma I
dtdS =−βNSI ,dtdI =βNSI −γI,dtdR =γI базовый репродукционный: R0=β/γR_0=\beta/\gammaR0 =β/γ.
- Стохастические модели:
- Марковские компартментные процессы (вероятностные переходы, моделируются методом Gillespie).
- Диффузионные приближения / SDE: например dI=(βSI/N−γI) dt+σ dWtdI=(\beta SI/N-\gamma I)\,dt+\sigma\,dW_tdI=(βSI/N−γI)dt+σdWt .
- Ветвящиеся процессы для ранней фазы (выживание/затухание).
- Агент‑ориентированная модель (ABM) на графе контактов:
- Узел = человек, ребро = контакт; передача по ребру с вероятностью ppp за контакт; состояния S/I/R и правила переходов по времени или событиям.
- Поддержка сложных политик (локальная изоляция, трассировка, вакцинация).
Выбор модели в зависимости от цели
- Оценка общих трендов, R0R_0R0 , сценарное прогнозирование на уровне города: детерминированная SIR или сетевые ОДУ (быстро, прозрачно).
- Оценка вероятности вымирания очага, дисперсии исходов, влияние стохастичности при малых числах: стохастические модели (Gillespie, ветвящиеся процессы).
- Оценка локальных вмешательств, целевой вакцинации, роль структуры контактов, эффекты супер‑распространителей и трассировки: ABM на графе контактов (требует детальной карты контактов или синтетической сети).
- Разработка оперативных мер (контакт‑трейсинг, очередности вакцинации): ABM предпочтителен.
Калибровка параметров
- Необходима явная модель наблюдения (подсчёты, задержки, доля репортации ρ\rhoρ):
- наблюдаемое число случаев = случайная функция от истинных новых инфекций и параметров отчётности.
- Методы:
- MLE / оптимизация по сумме квадратов для ODE (например минимизация RMSE).
- Байесовский подход (MCMC) для полной постериорной неопределённости.
- Частицы/Sequential Monte Carlo (PF) для стохастических моделей с нелинейными наблюдениями.
- Approximate Bayesian Computation (ABC) или эмульторы (Gaussian process) когда модель слишком дорогая.
- Сравнение по множеству данных: случайные случаи, госпитализации, серопревалентность.
- Практические моменты: учесть недоучёт (ρ\rhoρ), задержки, изменение тестирования во времени; задавать информативные априорные распределения.
Валидация результатов
- Разделение данных: тренировка / тест (скользящее окно), прогнозирование на вневременной период.
- Постериорные предиктивные проверки (coverage, предиктивные интервалы).
- Метрики: лог‑вероятность предсказания, CRPS, RMSE, AUC для бинарных событий (вспышка/нет).
- Валидация отдельных компонентов: контактная сеть (статистика степеней), временные задержки, распределение длительности инфекционного периода.
- Чувствительность к предположениям наблюдения (репортация, тестирование).
Оценка чувствительности
- Локальная: частные производные/одномерная вариация параметра вокруг точки (быстро).
- Глобальная: Sobol‑индексы, Morris, PRCC (Partial Rank Correlation Coefficients) — учитывают взаимодействия параметров.
- Для стохастических/ABM моделей учитывать вариабилити: для каждой точки параметров запускать >100>100>100 симуляций (или больше) и оценивать распределение исходов.
- При дорогих моделях использовать эмулторы (GP, полиномиальные хаотич. разложения) для оценки глобальной чувствительности.
Вычислительные требования и практичность
- Дет. ODE:
- Очень дешёвая: сложность пропорциональна числу компартментов CCC и числу шагов по времени TTT: примерно O(C×T)O(C\times T)O(C×T).
- На стандартном ноутбуке расчёт сценариев для города занимает секунды — удобна для массовой оптимизации/калибровки.
- Стохастические компартментные (Gillespie / tau‑leap):
- Стоимость пропорциональна числу событий EEE: O(E)O(E)O(E). Для больших эпидемий может быть дороже, но возможна аппроксимация SDE/τ‑leap.
- Параллелизация по запускам — тривиальна.
- ABM на графе:
- Скейлинг ~ O(N×⟨k⟩×T)O(N\times\langle k\rangle\times T)O(N×⟨k⟩×T) на один прогон, где NNN — число агентов, ⟨k⟩\langle k\rangle⟨k⟩ — средняя степень.
- Требует большого объёма памяти для сети и состояний. Для города NNN порядка 10510^5105–10610^6106 уже серьёзные требования.
- Часто требует большого числа прогонов для статистики; эффективна параллельная инфраструктура / HPC / GPU (специализированные рамки).
- Практические трюки:
- Параллелизация по реализациям при стохастике/ABM.
- Использование метамоделей/эмулей для калибровки и глобальной чувствительности.
- Гибриды: метапопуляционные ODE, парные аппроксимации, сетевые ОДУ по кластерам — баланс точности и скорости.
Идентифицируемость и неопределённость
- Часто невозможно однозначно оценить одновременно β\betaβ, γ\gammaγ и репортацию ρ\rhoρ из одних только случаев; нужны дополнительные данные (серопреп, госпитализации).
- Отражайте результат как распределение параметров/прогнозов, а не единственную «точечную» оценку.
- Проверяйте чувствительность выводов к неполноте данных и структурным предположениям (например, гомогенность vs сеть).
Рекомендованный рабочий конвейер (коротко)
1. Определить цель (оценка R0R_0R0 , вероятность вымирания, эффективность таргетирования).
2. Выбрать модель по цели: ODE для быстрых оценок, стохастика для вероятностных выводов, ABM для политики на уровне контактов.
3. Построить наблюдательную модель (репортация, задержки).
4. Скалировать и калибровать (MLE / Байес / PF / ABC), использовать эмулеры при необходимости.
5. Валидировать на отложенных данных и проверках предсказания.
6. Провести глобальную оценку чувствительности; при высокой стоимости — построить эмультор.
7. Сообщить неопределённость и допущения явно.
Если нужно — могу предложить конкретную конфигурацию модели и протокол калибровки/валидации для заданного городского набора данных (численность NNN, доступные временные ряды, наличие сети контактов).