Рассмотрите задачу моделирования эпидемии с использованием модели SIR: опишите процесс идентификации параметров модели (beta, gamma) по наблюдаемым данным, учтите шум и неполноту данных, и предложите методы валидации модели
Предыдущий
вопрос Следующий
вопрос

Question

Рассмотрите задачу моделирования эпидемии с использованием модели SIR: опишите процесс идентификации параметров модели (beta, gamma) по наблюдаемым данным, учтите шум и неполноту данных, и предложите методы валидации модели
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Рассмотрите задачу м...

eva

14 Ноя в 10:42

4 +1

0

Helper · Answer 1

Кратко и по шагам.
1) Модель и параметры
- SIR в форме ОДУ:

\frac{dS}{dt}=-\beta\frac{SI}{N},\qquad\frac{dI}{dt}=\beta\frac{SI}{N}-\gamma I,\qquad\frac{dR}{dt}=\gamma I.

Параметры для идентификации:

β\beta

(темп передачи) и

γ\gamma

(темп выздоровления). Базовое число воспроизводимости

R0=β/γR_0=\beta/\gamma

.
2) Постановка задачи идентификации
- Нужно задать модель наблюдения. Обычно регистрируются новые выявленные случаи

C_t

, а не состояния

I (t)

. Простейшая запись (инцидентность за интервал):

\text{incidence}_t=\int_{t-1}^{t}\beta\frac{S(u)I(u)}{N}\,du.

- Модель наблюдения (шум/неполнота): например

C_t\sim\text{Poisson}(\rho\cdot \text{incidence}_t)\quad\text{или}\quadC_t\sim\text{NegBin}(\rho\cdot \text{incidence}_t,\kappa),

где

ρ∈(0,1]\rho\in(0,1]

— доля зарегистрированных случаев (подсчёт/отрезки),

κ\kappa

— параметр сверхдисперсии.
3) Методы оценки параметров
- Нелинейный МНК / минимизация ошибки:

min⁡β,γ,ρ∑t(Ct−C^t(β,γ,ρ))2, \min_{\beta,\gamma,\rho}\sum_t\big(C_t-\hat C_t(\beta,\gamma,\rho)\big)^2,

где

C^t\hat C_t

— предсказание из интегрированной модели. Быстро, но чувствителен к шуму и некорректной модели шума.
- MLE: максимизировать лог-правдоподобие

\ell(\beta,\gamma,\ldots)=\sum_t \log P(C_t\mid \beta,\gamma,\ldots),

с выбранной функцией вероятности (Poisson/NegBin). Учитывает дисперсию данных.
- Байесовский подход: строят апостериор

p(\beta,\gamma,\ldots\mid C)\propto p(C\mid\beta,\gamma,\ldots)p(\beta)p(\gamma)\!,

оценка через MCMC или вариационные методы — даёт интервалы неопределённости и естественно вводит априорные знания.
- Скрытые марковские/частичные наблюдения: фильтры и методы для POMP:
- Частицы (particle filter) / sequential Monte Carlo для оценивания латентных траекторий и параметров (включая iterated filtering — IF2).
- EKF/UKF для приближённой обработки, если линеризация допустима.
- EM / data augmentation: чередуются восстановление скрытых траекторий и оценка параметров.
- Глобальная оптимизация/мультистарт + градиенты (AD/adjoint) при численном интегрировании — для устойчивости к локальным минимумам.
4) Учет шума и неполноты данных
- Подключить наблюдательскую модель: учесть

ρ\rho

(доля выявленных), задержки распространения/отчётности, правое усечение (right-censoring), регулярные пропуски.
- Модель избыточной дисперсии: Negative Binomial вместо Poisson, учёт сверхдисперсии.
- Ввести время-зависимые параметры:

β(t)\beta(t)

как piecewise-constant, spline или регрессия по NPI/мобильности.
- Использовать дополнительные данные для снижения неидентифицируемости: госпитализации, смертоность, серопревалентность, тестирование.
- Data augmentation / latent-state inference: оценивать скрытые

S, I, R

вместе с параметрами (частицы, MCMC).
- Регуляризация/априоры: ограничивают параметры физиологическими границами и уменьшают переобучение.
5) Проверка идентифицируемости
- Структурная идентифицируемость: аналитически/символьными методами проверить, можно ли однозначно восстановить

β,γ\beta,\gamma

при идеальных данных.
- Практическая идентифицируемость: профильные правдоподобия или маргинальные постериоры; если только отношение

β/γ\beta/\gamma

стабильно, а индивидуальные параметры не — это сигнал проблемы.
- Тест на синтетических данных (симуляция «truth» + оценка) — важный шаг.
6) Валидация модели (рекомендуемые методы)
- Внутренняя проверка:
- Остатки: проверка автокорреляции и распределения остатков.
- Posterior predictive checks: симулируют множество траекторий из постериора и сравнивают со статистиками данных (средние, квантели, пики).
- Coverage: доля наблюдений, попавших в

95%95\%

PI.
- Внешняя и прогнозная проверка:
- Out-of-sample прогнозирование: rolling-origin (скользящая валидация) — калибровка на [0,t] и прогноз на [t+1,t+h].
- Метрики: RMSE, MAE, логарифмическое правдоподобие, CRPS, Brier/Log score для вероятностных предсказаний.
- Сравнение моделей:
- AIC/BIC/WAIC/LOO для сравнения структур (SIR vs SEIR vs time-varying beta).
- Проверка устойчивости: sensitivity analysis (изменение начальных условий, приоров).
- Диагностика несоответствия: если модель не описывает ключевые свойства (временные сдвиги, пики), добавить сложность (статическую гетерогенность, временную изменчивость

β(t)\beta(t)

, возрастные классы).
7) Практические рекомендации
- Предобработка: скорректировать отчётные и выходные всплески, сгладить выходы или модельно учесть выходные эффекты.
- Фиксировать или информировать начальные условия:

I (0)

,

S (0)

— влияют на оценку

β,γ\beta,\gamma

. Используйте серо-данные или априоры.
- Начинать с простых подходов (MLE, Poisson/NegBin) для диагностики, затем переходить к байесу/частицам при сложной наблюдательной модели.
- Всегда представлять интервалы неопределённости и проверять идентифицируемость (profile likelihood / posterior marginals).
- Тестировать на синтетических данных для проверки рабочей схемы идентификации.
Краткая формула правдоподобия (пример, NegBin):

\ell(\theta)=\sum_t \log\Pr\big(C_t\mid \mu_t(\theta)=\rho\cdot\text{incidence}_t(\beta,\gamma),\kappa\big).

Это достаточный набор шагов и методов для практической идентификации

β,γ\beta,\gamma

с учётом шума и неполных наблюдений и для надёжной валидации модели.

Другие вопросы eva

Другие вопросы
eva