Спроектируйте план верификации и анализа чувствительности для агентной модели распространения эпидемии на трёх типах сетей (случайные, малый мир, scale‑free): какие параметры варьировать, какие метрики собирать (R0, peak prevalence, время до пика, variance), как оценивать устойчивость выводов к шуму и неполным данным и какие подходы к валидации модели на реальных эпидемиологических данных вы предложите
Ниже — компактный план верификации и анализа чувствительности (V&SA) для агентной модели эпидемии на трёх сетях (случайная / random, малый мир / small‑world, scale‑free). Разбит по разделам: что варьировать, какие метрики собирать, как оценивать устойчивость к шуму и неполным данным, и как валидировать на реальных данных. 1) Параметры, которые варьировать - эпидемиологические: - вероятность передачи при контакте β\betaβ; - скорость выздоровления / обратная продолжительность инфекционного периода γ\gammaγ (или длительность D=γ−1D=\gamma^{-1}D=γ−1); - латентный период (если SEIR) σ−1\sigma^{-1}σ−1. - поведение/контакты: - средняя степень сети ⟨k⟩\langle k\rangle⟨k⟩; - степень вариабельности/гетерогенности контактов (например дисперсия степени Var(k)\mathrm{Var}(k)Var(k)); - параметр кластеризации CCC / rewiring probability ppp (для Watts–Strogatz); - показатель степени для scale‑free α\alphaα (степенной показатель), наличие «суперраспространителей» (фракция высокостейных узлов); - мобильность / перемешивание (доля случайных контактов на шаг). - начальные условия и стохастичность: - число начально инфицированных I0I_0I0 и их размещение (случайно / высокостепенные узлы); - случайные зерна RNG (репликации). - наблюдательный процесс / ошибки данных: - уровень недоучёта / подотсчёта ρ\rhoρ (доля зафиксированных случаев); - задержки в отчетности (распределение задержек); - фиксация контактов (доля наблюдаемых контактов). Для каждого параметра задайте диапазоны, опираясь на литературу; если нет — широкие априорные интервалы. 2) Метрики для сбора и анализа - ключевые эпидемиологические: - репродукция: базовый R0R_0R0 и эффективный по времени RtR_tRt (оценки, см. ниже); - peak prevalence PpeakP_{\text{peak}}Ppeak (максимальная доля инфицированных); - время до пика tpeakt_{\text{peak}}tpeak; - итоговый размер эпидемии / attack rate FFF (доля популяции, прошедшая инфекцию); - variance между прогонками Var[⋅]\mathrm{Var}[\cdot]Var[⋅] и доверительные интервалы; - распределение размеров вспышек (pdf/ccdf), доля мелких/больших кластеров. - динамические и вторичные: - среднее число вторичных случаев (empirical offspring distribution); - generation time / serial interval; - doubling time TdT_dTd на ранней фазе; - secondary attack rate (по домохозяйствам / контактам). - сетевые метрики (для каждой сети и каждого сценария): - степень (degree) распределение, ⟨k⟩\langle k\rangle⟨k⟩, Var(k)\mathrm{Var}(k)Var(k); - средняя длина пути, clustering coefficient, компонентный размер. - статистика устойчивости: - доверительные интервалы / квантили по репликациям; - чувствительность (индексы) от SA методов (см. ниже). 3) Оценка R0R_0R0 и RtR_tRt в ABM - эмпирический R0R_0R0: среднее число вторичных инфекций, вызванных инфицированными до вмешательства/в период раннего роста: R0≈1I0∑i∈earlysiR_0 \approx \frac{1}{I_0}\sum_{i\in \text{early}} s_iR0≈I01∑i∈earlysi, где sis_isi — число вторичных у i‑го инфицированного. - по темпу роста: оцените экспоненциальный рост rrr на ранней стадии и свяжите с R0R_0R0 через распределение поколений; для простого приближения R0≈ergR_0 \approx e^{r g}R0≈erg, где ggg — средняя генерация (или используйте метод EpiEstim для RtR_tRt). 4) Подходы к анализу чувствительности - методика выборки параметров: - латинский гиперкуб (LHS) для покрытия пространства параметров; - для глобального SA: Morris (screening) и Sobol (полные вариационные индексы). - оценочные метрики чувствительности: - PRCC (partial rank correlation coefficients) между параметрами и выходными метриками; - Sobol‑индексы: первый порядок SiS_iSi и полный порядок STiS_{Ti}STi. - экспериментальный план: - число параметров kkk → для Sobol требуется примерно Nsobol=N(k+2)N_{\text{sobol}} = N (k+2)Nsobol=N(k+2) моделей (выберите NNN ≈ 1000 при возможности; иначе уменьшайте и используйте Morris); - количество реплик на точку для стохастики: NrepN_{\text{rep}}Nrep так, чтобы метрики стабилизировались (рекомендация Nrep=100\,N_{\text{rep}} = 100Nrep=100– 1000\,10001000 в зависимости от вариативности). - постобработка: - постройте поверхности отклика (response surfaces) или эммуляторы (Gaussian Process) для быстрых прогнозов и интерпретации; - ранжирование параметров по влиянию и проведение локальных анализов вокруг критических областей (например, граница эпидемии/нет эпидемии). 5) Оценка устойчивости к шуму и неполным данным - синтетические наблюдения: - создайте модель наблюдения: примените к истинным симуляциям недоучёт ρ\rhoρ, шум (например, Пуассон/Норм), задержки, случайное исчезновение сообщений; - выполните инференс/калибровку модели, используя искажённые данные, и сравните восстановленные параметры/предсказания с истинными. - методы устойчивости: - бутстрэп по наблюдениям и по сетям (resample узлы/контакты); - sensitivity to sampling fraction: vary ρ\rhoρ в диапазоне (например ρ∈[0.1,1.0]\rho\in[0.1,1.0]ρ∈[0.1,1.0]) и смотреть, как меняются выводы; - data‑missing mechanisms: MCAR, MAR, MNAR — тестировать разные сценарии. - data assimilation / исправление проблем: - используйте фильтры (particle filter, ensemble Kalman) или байесовские методы с моделированием кейса‑подсчёта и априорными распределениями по ρ\rhoρ; - иммутация контактов через модели контактной сети (stochastic block models) и оценка чувствительности к реконструкции сети. - проверка устойчивости выводов: - убедиться, что ключевые выводы (напр., направление эффекта параметра) сохраняются при добавлении шума и при ρ\rhoρ значительно < 1; - проверять стабильность ранжирования параметров в SA при разной степени недоучёта. 6) Валидация на реальных эпидемиологических данных - выбор данных и целевых показателей: - временные ряды инцидентных и кумулятивных случаев, госпитализаций, смертей; - контактные исследования / данные контакт‑трейсинга (secondary attack rates, cluster sizes); - серопревалентность (для оценки итогового размера). - подходы к калибровке / инференсу: - Approximate Bayesian Computation (ABC) или ABC‑SMC для стохастичных моделей при сложной вероятности; - likelihood‑based подходы, если возможна аппроксимация наблюдений (псевдо‑ликт); - MCMC по уменьшенным суммарным статистикам (summary statistics), или использование эммуляторов (GP) для ускорения. - целевые summary‑статистики для подгонки: - ежедневная/недельная инцидентность, peak timing и peak magnitude, кумулятивный размер, распределение размеров кластеров, последовательность RtR_tRt. - валидация и проверка: - posterior predictive checks: генерируйте предсказания из постериора и сравнивайте с неизползованными наблюдениями; - кросс‑валидация по времени (train на раннем периоде, validate на holdout) и по регионам (train на одном регионе, validate на другом); - сравнение оценок RtR_tRt с независимыми оценками (например EpiEstim) и с оценками из контактных расследований; - сравнительный анализ моделей: тестировать разные сетевые предположения (random vs small‑world vs scale‑free) и выбирать по предсказательной способности/интерпретируемости (WAIC, LOO‑CV, или байесовские критерии). - использование дополнительных источников: - мобильность, опросы контактов, данные тестирования и серологии — для сужения априорных интервалов и проверки согласованности. - учет неоднозначностей: - отчетливые выводы должны базироваться на прогнозной способности (out‑of‑sample) и на том, что ключевые рекомендации не меняются при разумных вариациях априорных допущений. 7) Практические рекомендации по ресурсам и отчётности - репликации: минимум Nrep=100\,N_{\text{rep}}=100Nrep=100 для первичных сценариев; для финальных выводов — ≥500\ge 500≥500. - документируйте: диапазоны параметров, seed‑ы, генераторы сетей и версии кода; публикуйте пост‑процессинг (скрипты расчёта R0,RtR_0,R_tR0,Rt, SA). - при больших вычислительных затратах: применять эммуляторы (GP), адаптивный sampling, HPC/параллель. - репортаж результатов: показывать средние и доверительные интервалы (например 95% CI), чувствительность топ‑3 параметров, и набор сценариев worst/best case. Краткий чек‑лист для выполнения - задать диапазоны параметров и сетевые ансамбли (множество случайных реализаций каждой сети); - выбрать метод SA (Morris → Sobol или LHS+PRCC); - для каждой точки параметров запускать NrepN_{\text{rep}}Nrep прогонов, собирать метрики: R0,Rt,Ppeak,tpeak,F,Var\,R_0,R_t,P_{\text{peak}},t_{\text{peak}},F,\mathrm{Var}R0,Rt,Ppeak,tpeak,F,Var; - протестировать искажённые наблюдения (недоучёт ρ\rhoρ, уровень шума) и выполнить инференс через ABC/particle filter; - выполнить posterior predictive checks и out‑of‑sample валидацию на реальных данных; - отчёт: чувствительные параметры, устойчивость выводов при шуме и частичности данных, рекомендации по неопределённости. Если нужно, могу сгенерировать конкретный экспериментальный план: набор параметров и их числовые диапазоны, число LHS‑выборок, количество реплик и пример скрипта анализа PRCC/Sobol.
1) Параметры, которые варьировать
- эпидемиологические:
- вероятность передачи при контакте β\betaβ;
- скорость выздоровления / обратная продолжительность инфекционного периода γ\gammaγ (или длительность D=γ−1D=\gamma^{-1}D=γ−1);
- латентный период (если SEIR) σ−1\sigma^{-1}σ−1.
- поведение/контакты:
- средняя степень сети ⟨k⟩\langle k\rangle⟨k⟩;
- степень вариабельности/гетерогенности контактов (например дисперсия степени Var(k)\mathrm{Var}(k)Var(k));
- параметр кластеризации CCC / rewiring probability ppp (для Watts–Strogatz);
- показатель степени для scale‑free α\alphaα (степенной показатель), наличие «суперраспространителей» (фракция высокостейных узлов);
- мобильность / перемешивание (доля случайных контактов на шаг).
- начальные условия и стохастичность:
- число начально инфицированных I0I_0I0 и их размещение (случайно / высокостепенные узлы);
- случайные зерна RNG (репликации).
- наблюдательный процесс / ошибки данных:
- уровень недоучёта / подотсчёта ρ\rhoρ (доля зафиксированных случаев);
- задержки в отчетности (распределение задержек);
- фиксация контактов (доля наблюдаемых контактов).
Для каждого параметра задайте диапазоны, опираясь на литературу; если нет — широкие априорные интервалы.
2) Метрики для сбора и анализа
- ключевые эпидемиологические:
- репродукция: базовый R0R_0R0 и эффективный по времени RtR_tRt (оценки, см. ниже);
- peak prevalence PpeakP_{\text{peak}}Ppeak (максимальная доля инфицированных);
- время до пика tpeakt_{\text{peak}}tpeak ;
- итоговый размер эпидемии / attack rate FFF (доля популяции, прошедшая инфекцию);
- variance между прогонками Var[⋅]\mathrm{Var}[\cdot]Var[⋅] и доверительные интервалы;
- распределение размеров вспышек (pdf/ccdf), доля мелких/больших кластеров.
- динамические и вторичные:
- среднее число вторичных случаев (empirical offspring distribution);
- generation time / serial interval;
- doubling time TdT_dTd на ранней фазе;
- secondary attack rate (по домохозяйствам / контактам).
- сетевые метрики (для каждой сети и каждого сценария):
- степень (degree) распределение, ⟨k⟩\langle k\rangle⟨k⟩, Var(k)\mathrm{Var}(k)Var(k);
- средняя длина пути, clustering coefficient, компонентный размер.
- статистика устойчивости:
- доверительные интервалы / квантили по репликациям;
- чувствительность (индексы) от SA методов (см. ниже).
3) Оценка R0R_0R0 и RtR_tRt в ABM
- эмпирический R0R_0R0 : среднее число вторичных инфекций, вызванных инфицированными до вмешательства/в период раннего роста: R0≈1I0∑i∈earlysiR_0 \approx \frac{1}{I_0}\sum_{i\in \text{early}} s_iR0 ≈I0 1 ∑i∈early si , где sis_isi — число вторичных у i‑го инфицированного.
- по темпу роста: оцените экспоненциальный рост rrr на ранней стадии и свяжите с R0R_0R0 через распределение поколений; для простого приближения R0≈ergR_0 \approx e^{r g}R0 ≈erg, где ggg — средняя генерация (или используйте метод EpiEstim для RtR_tRt ).
4) Подходы к анализу чувствительности
- методика выборки параметров:
- латинский гиперкуб (LHS) для покрытия пространства параметров;
- для глобального SA: Morris (screening) и Sobol (полные вариационные индексы).
- оценочные метрики чувствительности:
- PRCC (partial rank correlation coefficients) между параметрами и выходными метриками;
- Sobol‑индексы: первый порядок SiS_iSi и полный порядок STiS_{Ti}STi .
- экспериментальный план:
- число параметров kkk → для Sobol требуется примерно Nsobol=N(k+2)N_{\text{sobol}} = N (k+2)Nsobol =N(k+2) моделей (выберите NNN ≈ 1000 при возможности; иначе уменьшайте и используйте Morris);
- количество реплик на точку для стохастики: NrepN_{\text{rep}}Nrep так, чтобы метрики стабилизировались (рекомендация Nrep=100\,N_{\text{rep}} = 100Nrep =100– 1000\,10001000 в зависимости от вариативности).
- постобработка:
- постройте поверхности отклика (response surfaces) или эммуляторы (Gaussian Process) для быстрых прогнозов и интерпретации;
- ранжирование параметров по влиянию и проведение локальных анализов вокруг критических областей (например, граница эпидемии/нет эпидемии).
5) Оценка устойчивости к шуму и неполным данным
- синтетические наблюдения:
- создайте модель наблюдения: примените к истинным симуляциям недоучёт ρ\rhoρ, шум (например, Пуассон/Норм), задержки, случайное исчезновение сообщений;
- выполните инференс/калибровку модели, используя искажённые данные, и сравните восстановленные параметры/предсказания с истинными.
- методы устойчивости:
- бутстрэп по наблюдениям и по сетям (resample узлы/контакты);
- sensitivity to sampling fraction: vary ρ\rhoρ в диапазоне (например ρ∈[0.1,1.0]\rho\in[0.1,1.0]ρ∈[0.1,1.0]) и смотреть, как меняются выводы;
- data‑missing mechanisms: MCAR, MAR, MNAR — тестировать разные сценарии.
- data assimilation / исправление проблем:
- используйте фильтры (particle filter, ensemble Kalman) или байесовские методы с моделированием кейса‑подсчёта и априорными распределениями по ρ\rhoρ;
- иммутация контактов через модели контактной сети (stochastic block models) и оценка чувствительности к реконструкции сети.
- проверка устойчивости выводов:
- убедиться, что ключевые выводы (напр., направление эффекта параметра) сохраняются при добавлении шума и при ρ\rhoρ значительно < 1;
- проверять стабильность ранжирования параметров в SA при разной степени недоучёта.
6) Валидация на реальных эпидемиологических данных
- выбор данных и целевых показателей:
- временные ряды инцидентных и кумулятивных случаев, госпитализаций, смертей;
- контактные исследования / данные контакт‑трейсинга (secondary attack rates, cluster sizes);
- серопревалентность (для оценки итогового размера).
- подходы к калибровке / инференсу:
- Approximate Bayesian Computation (ABC) или ABC‑SMC для стохастичных моделей при сложной вероятности;
- likelihood‑based подходы, если возможна аппроксимация наблюдений (псевдо‑ликт);
- MCMC по уменьшенным суммарным статистикам (summary statistics), или использование эммуляторов (GP) для ускорения.
- целевые summary‑статистики для подгонки:
- ежедневная/недельная инцидентность, peak timing и peak magnitude, кумулятивный размер, распределение размеров кластеров, последовательность RtR_tRt .
- валидация и проверка:
- posterior predictive checks: генерируйте предсказания из постериора и сравнивайте с неизползованными наблюдениями;
- кросс‑валидация по времени (train на раннем периоде, validate на holdout) и по регионам (train на одном регионе, validate на другом);
- сравнение оценок RtR_tRt с независимыми оценками (например EpiEstim) и с оценками из контактных расследований;
- сравнительный анализ моделей: тестировать разные сетевые предположения (random vs small‑world vs scale‑free) и выбирать по предсказательной способности/интерпретируемости (WAIC, LOO‑CV, или байесовские критерии).
- использование дополнительных источников:
- мобильность, опросы контактов, данные тестирования и серологии — для сужения априорных интервалов и проверки согласованности.
- учет неоднозначностей:
- отчетливые выводы должны базироваться на прогнозной способности (out‑of‑sample) и на том, что ключевые рекомендации не меняются при разумных вариациях априорных допущений.
7) Практические рекомендации по ресурсам и отчётности
- репликации: минимум Nrep=100\,N_{\text{rep}}=100Nrep =100 для первичных сценариев; для финальных выводов — ≥500\ge 500≥500.
- документируйте: диапазоны параметров, seed‑ы, генераторы сетей и версии кода; публикуйте пост‑процессинг (скрипты расчёта R0,RtR_0,R_tR0 ,Rt , SA).
- при больших вычислительных затратах: применять эммуляторы (GP), адаптивный sampling, HPC/параллель.
- репортаж результатов: показывать средние и доверительные интервалы (например 95% CI), чувствительность топ‑3 параметров, и набор сценариев worst/best case.
Краткий чек‑лист для выполнения
- задать диапазоны параметров и сетевые ансамбли (множество случайных реализаций каждой сети);
- выбрать метод SA (Morris → Sobol или LHS+PRCC);
- для каждой точки параметров запускать NrepN_{\text{rep}}Nrep прогонов, собирать метрики: R0,Rt,Ppeak,tpeak,F,Var\,R_0,R_t,P_{\text{peak}},t_{\text{peak}},F,\mathrm{Var}R0 ,Rt ,Ppeak ,tpeak ,F,Var;
- протестировать искажённые наблюдения (недоучёт ρ\rhoρ, уровень шума) и выполнить инференс через ABC/particle filter;
- выполнить posterior predictive checks и out‑of‑sample валидацию на реальных данных;
- отчёт: чувствительные параметры, устойчивость выводов при шуме и частичности данных, рекомендации по неопределённости.
Если нужно, могу сгенерировать конкретный экспериментальный план: набор параметров и их числовые диапазоны, число LHS‑выборок, количество реплик и пример скрипта анализа PRCC/Sobol.