Дано популяционное генетическое уравнение с начальной частотой аллеля p0=0,1 в популяции размера N, подвергающейся миграции, отбору и генетическому дрейфу; предложите модель (или несколько сценариев) для предсказания распределения частот через 50 поколений, опишите необходимые параметры и обсудите, как эмпирически отличить влияние дрейфа от отбора
Модельную стратегию предложу кратко — с уравнениями, параметрами и практическими способами отличить дрейф от отбора. 1) Базовая стохастическая модель (Wright–Fisher с отбором и миграцией) - Обозначения: начальная частота p0=0.1\,p_0=0.1p0=0.1, эффективный размер популяции Ne\,N_eNe (или NNN), скорость миграции mmm, частота аллеля в источнике миграции pmp_mpm, коэффициент отбора sss, доминантность hhh, число поколений T=50T=50T=50. - Пошаговый апдейт от поколения ttt к t+1t+1t+1: 1. Отбор (постселекционный частотный сдвиг). Для генотипных фитнессов wAA=1+s, wAa=1+hs, waa=1w_{AA}=1+s,\; w_{Aa}=1+hs,\; w_{aa}=1wAA=1+s,wAa=1+hs,waa=1: p~=pt2wAA+pt(1−pt)wAawˉ,wˉ=pt2wAA+2pt(1−pt)wAa+(1−pt)2waa.
\tilde p = \frac{p_t^2 w_{AA} + p_t(1-p_t) w_{Aa}}{\bar w},\qquad \bar w = p_t^2 w_{AA}+2p_t(1-p_t)w_{Aa}+(1-p_t)^2 w_{aa}. p~=wˉpt2wAA+pt(1−pt)wAa,wˉ=pt2wAA+2pt(1−pt)wAa+(1−pt)2waa.
2. Миграция (миксинг с источником): pt′=(1−m) p~+m pm.
p'_t = (1-m)\,\tilde p + m\,p_m. pt′=(1−m)p~+mpm.
3. Генетический дрейф (дискретная семплинг-стадия Wright–Fisher): Xt+1∼Binomial(2Ne, pt′),pt+1=Xt+12Ne.
X_{t+1}\sim \mathrm{Binomial}(2N_e,\; p'_t),\qquad p_{t+1}=\frac{X_{t+1}}{2N_e}. Xt+1∼Binomial(2Ne,pt′),pt+1=2NeXt+1.
- Повторить 50 раз и выполнить много реплик (например R=103 − 104R=10^3\!-\!10^4R=103−104) для получения распределения частот, вероятности потери/фиксации, среднего и дисперсии. 2) Диффузионное приближение (для аналитических оценок) - В непрерывном приближении: dp=[m(pm−p)+S(p)]dt+p(1−p)2Ne dWt,
dp = \big[m(p_m-p)+ S(p)\big]dt + \sqrt{\frac{p(1-p)}{2N_e}}\,dW_t, dp=[m(pm−p)+S(p)]dt+2Nep(1−p)dWt,
где при простом аддитивном отборе S(p)≈s p(1−p)S(p)\approx s\,p(1-p)S(p)≈sp(1−p). Дает приближённые времена к фиксации и распределение вероятностей. 3) Варианты/сценарии (примеры параметров и ожидания) - Сценарий A — сильный дрейф: Ne=100, s=0, m=0N_e=100,\; s=0,\; m=0Ne=100,s=0,m=0. Ожидание: высокая вероятность потерять аллель за 50 поколений; распределение широкое, средняя близка к p0p_0p0 до тех пор, пока большинство реплик потеряют аллель. - Сценарий B — слабый положительный отбор: Ne=1000, s=0.02, m=0N_e=1000,\; s=0.02,\; m=0Ne=1000,s=0.02,m=0. Ожидание: если s≫1/(2Ne)=0.0005s\gg 1/(2N_e)=0.0005s≫1/(2Ne)=0.0005, частота растёт устойчиво; за 50 поколений заметный сдвиг вверх в большинстве реплик. - Сценарий C — миграция из источника: Ne=500, s=0, m=0.01, pm=0.5N_e=500,\; s=0,\; m=0.01,\; p_m=0.5Ne=500,s=0,m=0.01,pm=0.5. Ожидание: систематическое увеличение частоты к смешанному равновесию; при малом NeN_eNe эффект миграции доминирует над дрейфом. - Сценарий D — конкуренция процессов: Ne=200, s=0.005, m=0.005N_e=200,\; s=0.005,\; m=0.005Ne=200,s=0.005,m=0.005. Ожидание: оба эффекта важны; результаты чувствительны к исходному случайному семплингу. 4) Важные параметры, которые нужно задать/оценить - NeN_eNe (эффективный размер) — ключевой для силы дрейфа. - sss и hhh — сила и форма отбора. - mmm, pmp_mpm — скорость и направление миграции. - Число реплик/популяций и число симуляций RRR — для оценки распределения. - Начальные условия (p0=0.1p_0=0.1p0=0.1) и длительность T=50T=50T=50. 5) Критерии: когда дрейф vs отбор важнее - Порядковая оценка: если ∣s∣≪1/(2Ne)|s| \ll 1/(2N_e)∣s∣≪1/(2Ne), дрейф доминирует; если ∣s∣≫1/(2Ne)|s| \gg 1/(2N_e)∣s∣≫1/(2Ne), отбор доминирует. порог: s∼12Ne.
\text{порог: } s\sim\frac{1}{2N_e}. порог: s∼2Ne1.
- Ожидаемая дисперсия дрейфа за один шаг: Var(Δp)≈p(1−p)2Ne\mathrm{Var}(\Delta p)\approx \frac{p(1-p)}{2N_e}Var(Δp)≈2Nep(1−p). 6) Как эмпирически отличить влияние дрейфа от отбора и миграции - Реплики: держите множество независимых популяций. Согласованное повторяющееся направление изменения (в нескольких независимых репликах) указывает на отбор, тогда как случайные разнонаправленные изменения — на дрейф. - Временной ряд (частоты через поколения): сравнить траекторию с моделями через likelihood. Инструменты: WFABC, Wright–Fisher diffusion-based inference, CLUES, TimeMachine — оценивают sss и дают статистику «отбор vs нейтральность». - Тесты по скорости изменения: если частота меняется быстрее, чем предсказывает модель нейтрального дрейфа (с учётом NeN_eNe), это признак отбора; формально — likelihood-ratio между модели s=0 и s≠0. - Миграция vs отбор: проверить корреляцию с потоком генов/географией. Если рост частоты совпадает с gene flow из источника с высокой pmp_mpm, скорее миграция. Использовать маркеры происхождения/структуры (PCA, STRUCTURE/ADMIXTURE) и оценки mmm (например, через coalescent или FST). - Геномные сигнатуры: если locus один из многих и показывает аномалии (FST-выброс, тесные гаплотипы — hitchhiking), это поддерживает отбор; миграция даёт совместное изменение во многих локусах, соответствующих источнику. - Статистическая мощность: при малых NeN_eNe и малом sss трудно отличить; нужны либо много реплик, либо длинные временные ряды и/или геномный контекст. 7) Практическая рекомендация для прогноза - Реализуйте WF-симуляции по шагам (отбор→миграция→семплинг) с заданными параметрами и RRR репликами, соберите распределение p50p_{50}p50, вероятность фиксации/потери, среднее и дисперсию. - Параллельно выполните нейтральные симуляции (s=0) и симуляции только с миграцией (s=0, m>0) для сравнения. - Для вывода о причине изменения используйте likelihood-инференс по траекториям + проверку согласованности между популяциями и геномные данные. Если нужно, могу дать компактный псевдокод симуляции WF с указанными параметрами и примеры числовых сценариев (конкретных значений Ne,m,s,pmN_e,m,s,p_mNe,m,s,pm) для запуска.
1) Базовая стохастическая модель (Wright–Fisher с отбором и миграцией)
- Обозначения: начальная частота p0=0.1\,p_0=0.1p0 =0.1, эффективный размер популяции Ne\,N_eNe (или NNN), скорость миграции mmm, частота аллеля в источнике миграции pmp_mpm , коэффициент отбора sss, доминантность hhh, число поколений T=50T=50T=50.
- Пошаговый апдейт от поколения ttt к t+1t+1t+1:
1. Отбор (постселекционный частотный сдвиг). Для генотипных фитнессов wAA=1+s, wAa=1+hs, waa=1w_{AA}=1+s,\; w_{Aa}=1+hs,\; w_{aa}=1wAA =1+s,wAa =1+hs,waa =1:
p~=pt2wAA+pt(1−pt)wAawˉ,wˉ=pt2wAA+2pt(1−pt)wAa+(1−pt)2waa. \tilde p = \frac{p_t^2 w_{AA} + p_t(1-p_t) w_{Aa}}{\bar w},\qquad
\bar w = p_t^2 w_{AA}+2p_t(1-p_t)w_{Aa}+(1-p_t)^2 w_{aa}.
p~ =wˉpt2 wAA +pt (1−pt )wAa ,wˉ=pt2 wAA +2pt (1−pt )wAa +(1−pt )2waa . 2. Миграция (миксинг с источником):
pt′=(1−m) p~+m pm. p'_t = (1-m)\,\tilde p + m\,p_m.
pt′ =(1−m)p~ +mpm . 3. Генетический дрейф (дискретная семплинг-стадия Wright–Fisher):
Xt+1∼Binomial(2Ne, pt′),pt+1=Xt+12Ne. X_{t+1}\sim \mathrm{Binomial}(2N_e,\; p'_t),\qquad p_{t+1}=\frac{X_{t+1}}{2N_e}.
Xt+1 ∼Binomial(2Ne ,pt′ ),pt+1 =2Ne Xt+1 . - Повторить 50 раз и выполнить много реплик (например R=103 − 104R=10^3\!-\!10^4R=103−104) для получения распределения частот, вероятности потери/фиксации, среднего и дисперсии.
2) Диффузионное приближение (для аналитических оценок)
- В непрерывном приближении:
dp=[m(pm−p)+S(p)]dt+p(1−p)2Ne dWt, dp = \big[m(p_m-p)+ S(p)\big]dt + \sqrt{\frac{p(1-p)}{2N_e}}\,dW_t,
dp=[m(pm −p)+S(p)]dt+2Ne p(1−p) dWt , где при простом аддитивном отборе S(p)≈s p(1−p)S(p)\approx s\,p(1-p)S(p)≈sp(1−p). Дает приближённые времена к фиксации и распределение вероятностей.
3) Варианты/сценарии (примеры параметров и ожидания)
- Сценарий A — сильный дрейф: Ne=100, s=0, m=0N_e=100,\; s=0,\; m=0Ne =100,s=0,m=0. Ожидание: высокая вероятность потерять аллель за 50 поколений; распределение широкое, средняя близка к p0p_0p0 до тех пор, пока большинство реплик потеряют аллель.
- Сценарий B — слабый положительный отбор: Ne=1000, s=0.02, m=0N_e=1000,\; s=0.02,\; m=0Ne =1000,s=0.02,m=0. Ожидание: если s≫1/(2Ne)=0.0005s\gg 1/(2N_e)=0.0005s≫1/(2Ne )=0.0005, частота растёт устойчиво; за 50 поколений заметный сдвиг вверх в большинстве реплик.
- Сценарий C — миграция из источника: Ne=500, s=0, m=0.01, pm=0.5N_e=500,\; s=0,\; m=0.01,\; p_m=0.5Ne =500,s=0,m=0.01,pm =0.5. Ожидание: систематическое увеличение частоты к смешанному равновесию; при малом NeN_eNe эффект миграции доминирует над дрейфом.
- Сценарий D — конкуренция процессов: Ne=200, s=0.005, m=0.005N_e=200,\; s=0.005,\; m=0.005Ne =200,s=0.005,m=0.005. Ожидание: оба эффекта важны; результаты чувствительны к исходному случайному семплингу.
4) Важные параметры, которые нужно задать/оценить
- NeN_eNe (эффективный размер) — ключевой для силы дрейфа.
- sss и hhh — сила и форма отбора.
- mmm, pmp_mpm — скорость и направление миграции.
- Число реплик/популяций и число симуляций RRR — для оценки распределения.
- Начальные условия (p0=0.1p_0=0.1p0 =0.1) и длительность T=50T=50T=50.
5) Критерии: когда дрейф vs отбор важнее
- Порядковая оценка: если ∣s∣≪1/(2Ne)|s| \ll 1/(2N_e)∣s∣≪1/(2Ne ), дрейф доминирует; если ∣s∣≫1/(2Ne)|s| \gg 1/(2N_e)∣s∣≫1/(2Ne ), отбор доминирует.
порог: s∼12Ne. \text{порог: } s\sim\frac{1}{2N_e}.
порог: s∼2Ne 1 . - Ожидаемая дисперсия дрейфа за один шаг: Var(Δp)≈p(1−p)2Ne\mathrm{Var}(\Delta p)\approx \frac{p(1-p)}{2N_e}Var(Δp)≈2Ne p(1−p) .
6) Как эмпирически отличить влияние дрейфа от отбора и миграции
- Реплики: держите множество независимых популяций. Согласованное повторяющееся направление изменения (в нескольких независимых репликах) указывает на отбор, тогда как случайные разнонаправленные изменения — на дрейф.
- Временной ряд (частоты через поколения): сравнить траекторию с моделями через likelihood. Инструменты: WFABC, Wright–Fisher diffusion-based inference, CLUES, TimeMachine — оценивают sss и дают статистику «отбор vs нейтральность».
- Тесты по скорости изменения: если частота меняется быстрее, чем предсказывает модель нейтрального дрейфа (с учётом NeN_eNe ), это признак отбора; формально — likelihood-ratio между модели s=0 и s≠0.
- Миграция vs отбор: проверить корреляцию с потоком генов/географией. Если рост частоты совпадает с gene flow из источника с высокой pmp_mpm , скорее миграция. Использовать маркеры происхождения/структуры (PCA, STRUCTURE/ADMIXTURE) и оценки mmm (например, через coalescent или FST).
- Геномные сигнатуры: если locus один из многих и показывает аномалии (FST-выброс, тесные гаплотипы — hitchhiking), это поддерживает отбор; миграция даёт совместное изменение во многих локусах, соответствующих источнику.
- Статистическая мощность: при малых NeN_eNe и малом sss трудно отличить; нужны либо много реплик, либо длинные временные ряды и/или геномный контекст.
7) Практическая рекомендация для прогноза
- Реализуйте WF-симуляции по шагам (отбор→миграция→семплинг) с заданными параметрами и RRR репликами, соберите распределение p50p_{50}p50 , вероятность фиксации/потери, среднее и дисперсию.
- Параллельно выполните нейтральные симуляции (s=0) и симуляции только с миграцией (s=0, m>0) для сравнения.
- Для вывода о причине изменения используйте likelihood-инференс по траекториям + проверку согласованности между популяциями и геномные данные.
Если нужно, могу дать компактный псевдокод симуляции WF с указанными параметрами и примеры числовых сценариев (конкретных значений Ne,m,s,pmN_e,m,s,p_mNe ,m,s,pm ) для запуска.