Рассмотрите задачу моделирования эпидемии с использованием модели SIR: опишите процесс идентификации параметров модели (beta, gamma) по наблюдаемым данным, учтите шум и неполноту данных, и предложите методы валидации модели

14 Ноя в 10:42
4 +1
0
Ответы
1
Кратко и по шагам.
1) Модель и параметры
- SIR в форме ОДУ:
dSdt=−βSIN,dIdt=βSIN−γI,dRdt=γI. \frac{dS}{dt}=-\beta\frac{SI}{N},\qquad
\frac{dI}{dt}=\beta\frac{SI}{N}-\gamma I,\qquad
\frac{dR}{dt}=\gamma I.
dtdS =βNSI ,dtdI =βNSI γI,dtdR =γI.
Параметры для идентификации: β\betaβ (темп передачи) и γ\gammaγ (темп выздоровления). Базовое число воспроизводимости R0=β/γR_0=\beta/\gammaR0 =β/γ.
2) Постановка задачи идентификации
- Нужно задать модель наблюдения. Обычно регистрируются новые выявленные случаи CtC_tCt , а не состояния I(t)I(t)I(t). Простейшая запись (инцидентность за интервал):
incidencet=∫t−1tβS(u)I(u)N du. \text{incidence}_t=\int_{t-1}^{t}\beta\frac{S(u)I(u)}{N}\,du.
incidencet =t1t βNS(u)I(u) du.
- Модель наблюдения (шум/неполнота): например
Ct∼Poisson(ρ⋅incidencet)илиCt∼NegBin(ρ⋅incidencet,κ), C_t\sim\text{Poisson}(\rho\cdot \text{incidence}_t)
\quad\text{или}\quad
C_t\sim\text{NegBin}(\rho\cdot \text{incidence}_t,\kappa),
Ct Poisson(ρincidencet )илиCt NegBin(ρincidencet ,κ),
где ρ∈(0,1]\rho\in(0,1]ρ(0,1] — доля зарегистрированных случаев (подсчёт/отрезки), κ\kappaκ — параметр сверхдисперсии.
3) Методы оценки параметров
- Нелинейный МНК / минимизация ошибки:
min⁡β,γ,ρ∑t(Ct−C^t(β,γ,ρ))2, \min_{\beta,\gamma,\rho}\sum_t\big(C_t-\hat C_t(\beta,\gamma,\rho)\big)^2,
β,γ,ρmin t (Ct C^t (β,γ,ρ))2,
где C^t\hat C_tC^t — предсказание из интегрированной модели. Быстро, но чувствителен к шуму и некорректной модели шума.
- MLE: максимизировать лог-правдоподобие
ℓ(β,γ,…)=∑tlog⁡P(Ct∣β,γ,…), \ell(\beta,\gamma,\ldots)=\sum_t \log P(C_t\mid \beta,\gamma,\ldots),
(β,γ,)=t logP(Ct β,γ,),
с выбранной функцией вероятности (Poisson/NegBin). Учитывает дисперсию данных.
- Байесовский подход: строят апостериор
p(β,γ,…∣C)∝p(C∣β,γ,…)p(β)p(γ) ⁣, p(\beta,\gamma,\ldots\mid C)\propto p(C\mid\beta,\gamma,\ldots)p(\beta)p(\gamma)\!,
p(β,γ,C)p(Cβ,γ,)p(β)p(γ),
оценка через MCMC или вариационные методы — даёт интервалы неопределённости и естественно вводит априорные знания.
- Скрытые марковские/частичные наблюдения: фильтры и методы для POMP:
- Частицы (particle filter) / sequential Monte Carlo для оценивания латентных траекторий и параметров (включая iterated filtering — IF2).
- EKF/UKF для приближённой обработки, если линеризация допустима.
- EM / data augmentation: чередуются восстановление скрытых траекторий и оценка параметров.
- Глобальная оптимизация/мультистарт + градиенты (AD/adjoint) при численном интегрировании — для устойчивости к локальным минимумам.
4) Учет шума и неполноты данных
- Подключить наблюдательскую модель: учесть ρ\rhoρ (доля выявленных), задержки распространения/отчётности, правое усечение (right-censoring), регулярные пропуски.
- Модель избыточной дисперсии: Negative Binomial вместо Poisson, учёт сверхдисперсии.
- Ввести время-зависимые параметры: β(t)\beta(t)β(t) как piecewise-constant, spline или регрессия по NPI/мобильности.
- Использовать дополнительные данные для снижения неидентифицируемости: госпитализации, смертоность, серопревалентность, тестирование.
- Data augmentation / latent-state inference: оценивать скрытые S,I,RS,I,RS,I,R вместе с параметрами (частицы, MCMC).
- Регуляризация/априоры: ограничивают параметры физиологическими границами и уменьшают переобучение.
5) Проверка идентифицируемости
- Структурная идентифицируемость: аналитически/символьными методами проверить, можно ли однозначно восстановить β,γ\beta,\gammaβ,γ при идеальных данных.
- Практическая идентифицируемость: профильные правдоподобия или маргинальные постериоры; если только отношение β/γ\beta/\gammaβ/γ стабильно, а индивидуальные параметры не — это сигнал проблемы.
- Тест на синтетических данных (симуляция «truth» + оценка) — важный шаг.
6) Валидация модели (рекомендуемые методы)
- Внутренняя проверка:
- Остатки: проверка автокорреляции и распределения остатков.
- Posterior predictive checks: симулируют множество траекторий из постериора и сравнивают со статистиками данных (средние, квантели, пики).
- Coverage: доля наблюдений, попавших в 95%95\%95% PI.
- Внешняя и прогнозная проверка:
- Out-of-sample прогнозирование: rolling-origin (скользящая валидация) — калибровка на [0,t] и прогноз на [t+1,t+h].
- Метрики: RMSE, MAE, логарифмическое правдоподобие, CRPS, Brier/Log score для вероятностных предсказаний.
- Сравнение моделей:
- AIC/BIC/WAIC/LOO для сравнения структур (SIR vs SEIR vs time-varying beta).
- Проверка устойчивости: sensitivity analysis (изменение начальных условий, приоров).
- Диагностика несоответствия: если модель не описывает ключевые свойства (временные сдвиги, пики), добавить сложность (статическую гетерогенность, временную изменчивость β(t)\beta(t)β(t), возрастные классы).
7) Практические рекомендации
- Предобработка: скорректировать отчётные и выходные всплески, сгладить выходы или модельно учесть выходные эффекты.
- Фиксировать или информировать начальные условия: I(0)I(0)I(0), S(0)S(0)S(0) — влияют на оценку β,γ\beta,\gammaβ,γ. Используйте серо-данные или априоры.
- Начинать с простых подходов (MLE, Poisson/NegBin) для диагностики, затем переходить к байесу/частицам при сложной наблюдательной модели.
- Всегда представлять интервалы неопределённости и проверять идентифицируемость (profile likelihood / posterior marginals).
- Тестировать на синтетических данных для проверки рабочей схемы идентификации.
Краткая формула правдоподобия (пример, NegBin):
ℓ(θ)=∑tlog⁡Pr⁡(Ct∣μt(θ)=ρ⋅incidencet(β,γ),κ). \ell(\theta)=\sum_t \log\Pr\big(C_t\mid \mu_t(\theta)=\rho\cdot\text{incidence}_t(\beta,\gamma),\kappa\big).
(θ)=t logPr(Ct μt (θ)=ρincidencet (β,γ),κ).

Это достаточный набор шагов и методов для практической идентификации β,γ\beta,\gammaβ,γ с учётом шума и неполных наблюдений и для надёжной валидации модели.
14 Ноя в 11:36
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир