Вам дан агентно‑ориентированный симулятор распространения эпидемии с параметрами β (инфективность) и γ (восстановление). Опишите план экспериментальной валидации модели: какие сценарии и наборы параметров тестировать, какие статистики собирать (включая чувствительность к шуму и вариабельность), и как интерпретировать расхождения симуляции и реальных данных

5 Ноя в 15:03
5 +5
0
Ответы
1
Цель валидации — показать, что агентный симулятор воспроизводит ключевые эпидемические закономерности при известных параметрах и адекватно описывает данные с учётом стохастичности, наблюдательного шума и некорректной спецификации модели. План ниже.
1) Сценарии для тестирования
- Базовые / эталонные:
- «Хорошо смешанная» популяция (mean-field) — проверить совпадение со SIR-ODE при больших NNN.
- Разные режимы R0R_0R0 : покой, порог, эпидемия: R0=β/γR_0=\beta/\gammaR0 =β/γ перебрать, например, {0.5, 0.9, 1.0, 1.2, 2.0, 3.0}\{0.5,\;0.9,\;1.0,\;1.2,\;2.0,\;3.0\}{0.5,0.9,1.0,1.2,2.0,3.0}.
- Структура контактов:
- Полностью смешанная, случайный граф ER, small-world, scale-free, реальные контактные матрицы (по возрасту).
- Инициация эпидемии:
- Одна начальная инфекция, несколько (распределённых), массовый импорт.
- Гетерогенность:
- Различия в степени контактов (вариативность, суперраспространители) — добавить overdispersion kkk для вторичных случаев.
- Различия в восприимчивости/восстановлении (распределения βi,γi\beta_i,\gamma_iβi ,γi ).
- Интервенции и временная изменчивость:
- Переходные изменения β(t)\beta(t)β(t) (локдауны, сезонность), частичное соблюдение мер.
- Краевые случаи:
- Малые популяции (силовой эффект стохастики), большую NNN (детерминизация), R0R_0R0 близко к 1, очень высокий R0R_0R0 .
2) Сетки параметров и репликации
- Сетка по β\betaβ и γ\gammaγ охватывающая желаемые R0R_0R0 ; можно фиксировать γ\gammaγ и варьировать β\betaβ так, чтобы R0∈[0.5,5]R_0\in[0.5,5]R0 [0.5,5].
- Для каждой комбинации параметров и сценария — многократные прогонки MMM (например, M≥500M\ge 500M500 для оценивания распределений; в зависимости от времени — минимум M=100M=100M=100).
- Включить варианты наблюдательной модели: полное наблюдение vs случайная отчётность ppp (подсчёт/пропуск), задержки отчёта, шум типа Пуассона/негативного биномиального.
3) Статистики, которые собирать
- Траектории по времени: S(t), I(t), R(t)S(t),\;I(t),\;R(t)S(t),I(t),R(t) — средние, медианы, квантили (5%, 95%).
- Инцидентность: новые случаи в момент ttt: C(t)C(t)C(t).
- Ключевые характеристики:
- Начальный темп роста rrr (оценка по ранним данных): для SIR при S0≈NS_0\approx NS0 N r≈β−γr\approx\beta-\gammarβγ.
- Время до пика tpeakt_{peak}tpeak .
- Величина пика Imax⁡=max⁡tI(t)I_{\max}=\max_t I(t)Imax =maxt I(t).
- Итоговый атакующий риск (final size) AR=R(∞)/NAR = R(\infty)/NAR=R()/N.
- Вероятность исчезновения (fadeout) — доля прогонов без крупной эпидемии.
- Распределения по прогону: среднее E[⋅]\mathbb{E}[\cdot]E[], дисперсия Var[⋅]\mathrm{Var}[\cdot]Var[], коэффициент вариации CV=Var/ECV=\sqrt{\mathrm{Var}}/\mathbb{E}CV=Var /E, доверительные интервалы.
- Меры соответствия симуляции и наблюдений:
- RMSE, MAE по кривым инцидентности.
- Сложностные / вероятностные меры: лог‑правдоподобие наблюдений при заданной наблюдательной модели, CRPS или Brier для прогнозов.
- Оценки RtR_tRt (постфактум) и сравнение с истинным Rt=β(t)S(t)/NR_t=\beta(t)S(t)/NRt =β(t)S(t)/N.
- Калибровка/покрытие:
- Posterior predictive checks (если выполняется байесовская калибровка): частота попадания реальных точек в предсказанные интервалы (coverage).
- PIT / reliability plots для вероятностных прогнозов.
4) Анализы чувствительности и вариабельности
- Локальная чувствительность: менять по одному параметру (one‑at‑a‑time) и смотреть чувствительность ключевых статистик.
- Глобальный анализ чувствительности: Sobol‑индексы или Morris для вклада параметров в дисперсию выходов.
- Идентифицируемость/восстановление параметров:
- «Проверка восстановления»: сгенерировать синтетические данные с известными параметрами, затем пытаться их восстановить через inference (ABC, particle filter, MCMC). Оценить bias и ширину постериорных распределений.
- Чувствительность к наблюдательному шуму: варьировать уровень недоучёта ppp, тип шумовой модели (Пуассон vs NegBin), задержки.
- Чувствительность к начальным условиям и случайности: изучать распределения выходов при малых NNN и для разных началов.
5) Сравнение с реальными данными и интерпретация расхождений
- Подготовка: привести наблюдения к той же форме, что и симуляции (учесть подотчётность, задержки, тестирование).
- Подходы сравнения:
- Калибровка параметров к данным (MLE/BAyesian) и последующий posterior predictive check.
- Сравнение ключевых статистик: согласуются ли tpeak,Imax⁡,AR,rt_{peak}, I_{\max}, AR, rtpeak ,Imax ,AR,r внутри доверительных интервалов симуляции?
- Возможные типы расхождений и интерпретация:
- Ранний рост (r) не совпадает → неверно R0R_0R0 или контактная скорость: нужно пересмотреть β\betaβ или структуру контактов.
- Пик смещён по времени (раньше/позже) → нелинейные задержки, неполное моделирование поведенческих изменений, неверные инерционные/латентные периоды.
- Пик по величине отличается, но итоговый AR сходится → проблемы с динамикой передачи в разгар эпидемии (гетерогенность контактов, асимптомные/невидимые случаи).
- Низкая вариабельность в модели, но высокая в данных → модель недооценивает стохастичность или пропустила источники вариации (импорт, кластерные вспышки).
- Модель предсказывает слишком много крупного исхода (или наоборот) → неверная дисперсия вторичных случаев (надо настроить overdispersion kkk) или неверные меры интервенций.
- Систематический лаг/фазовый сдвиг → ошибки в наблюдательной модели (задержки тестирования/сообщения).
- Действия по устранению несоответствий:
- Проверить и уточнить наблюдательную модель (подотчётность p(t)p(t)p(t), задержки).
- Доработать структуру контактов (возрастные матрицы, пространственная структура).
- Ввести гетерогенность (вариация βi,γi\beta_i,\gamma_iβi ,γi , overdispersion).
- Повторить восстановление параметров на синтетических данных, чтобы понять неидентифицируемые комбинации параметров.
- При необходимости собрать дополнительные данных: серопробы (итоговый AR), опросы контактов, геномные цепочки (для реконструкции передач).
6) Практические рекомендации по эксперименту
- Для каждого сценария запускать достаточно реплик MMM чтобы устойчиво оценивать квантили (если ресурсы ограничены — фокусироваться на критических точках сетки параметров, например R0≈1R_0\approx1R0 1 и R0R_0R0 высокого риска).
- Хранить полные траектории нескольких случайных прогонов (для диагностики), а также агрегированные статистики.
- Автоматизировать отчёты: графики медиана+интервалы для I(t),C(t)I(t),C(t)I(t),C(t), таблицы по tpeak,Imax⁡,ARt_{peak},I_{\max},ARtpeak ,Imax ,AR, матрицы чувствительности.
- Проводить recovery‑тесты (synthetic truth) перед аппробацией на реальных данных.
Короткая сводка метрик/формул (использовать при анализе):
- R0=β/γR_0=\beta/\gammaR0 =β/γ.
- Начальный рост: I(t)≈I0ertI(t)\approx I_0 e^{rt}I(t)I0 ert, при S0≈NS_0\approx NS0 N r≈β−γr\approx\beta-\gammarβγ.
- Удвоение: Td=ln⁡2/rT_d=\ln 2 / rTd =ln2/r.
- Итоговый атакующий риск: AR=R(∞)/NAR=R(\infty)/NAR=R()/N.
- Пиковая нагрузка: Imax⁡=max⁡tI(t)I_{\max}=\max_t I(t)Imax =maxt I(t).
- Оценки согласия: RMSE, MAE, CRPS, coverage (доля точек внутри предсказанных CI).
Эта схема даёт системный набор тестов: от контрольного совпадения с теоретическим SIR до проверки устойчивости к стохастике, структуре контактов и наблюдательному шуму; расхождения интерпретируются через конкретные гипотезы (параметры, структура, наблюдение) и проверяются дополнительными recovery‑тестами и сбором вспомогательных данных.
5 Ноя в 15:28
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир