Вы получили популяционные геномные данные для вида рыб, где за 50 лет частота ряда аллелей сместилась на 20–30%; какие статистические тесты и дополнительные данные вы запросите, чтобы различить естественный отбор, дрейф, генетический поток и структурные сдвиги среды как причины изменений?

30 Окт в 09:35
2 +1
0
Ответы
1
Кратко — какие тесты и какие дополнительные данные нужны, и как интерпретировать.
1) Первичная проверка и данные, которые нужно запросить
- численность выборок по времени (размер выборки nnn на каждый год/точку), покрытие секвенирования, качество генотипирования; координаты и схемы отбора по местоположению; возрастная структура, поколенческая длительность (генерационный интервал ggg); данные о численности популяции (census size) и любые оценки эффективной численности NeN_eNe ; временные ряды экологических переменных (температура, солёность, гранулометрия, примеси и т. п.); данные по соседним/референтным популяциям (возможные источники миграции).
- метки нейтральных маркеров (сайты, считанные нейтральными: синонимичные, интергенные) для оценки дрейфа и NeN_eNe .
2) Оценка дрейфа и статистический тест «превышает ли дрейф наблюдаемый сдвиг»
- оценить NeN_eNe временными методами (MLNe, NeEstimator, temporal methods).
- теоретическая дисперсия изменения частоты под дрейфом за ttt поколений:
Var⁡(Δp)≈p0(1−p0)t2Ne. \operatorname{Var}(\Delta p)\approx p_0(1-p_0)\frac{t}{2N_e}.
Var(Δp)p0 (1p0 )2Ne t .
- стандартный Z‑тест для отдельного аллеля:
Z=pt−p0p0(1−p0)t2Ne. Z=\frac{p_t-p_0}{\sqrt{p_0(1-p_0)\tfrac{t}{2N_e}}}.
Z=p0 (1p0 )2Ne t pt p0 .
если ∣Z∣|Z|Z велико — изменение маловероятно при чистом дрейфе (учесть множественную проверку).
- симуляции Wright–Fisher (или coalescent) с оцененным NeN_eNe для получения распределения Δp\Delta pΔp и p‑value.
3) Оценка отбора (временные методы)
- вытащить оценки коэффициента отбора sss из временных рядов, напр. WFABC, CLUES, Time‑series selection inference:
pt=p0est1−p0+p0est⇒s=1tln⁡ ⁣(pt(1−p0)p0(1−pt)), p_t=\frac{p_0 e^{s t}}{1-p_0 + p_0 e^{s t}}\quad\Rightarrow\quad s=\frac{1}{t}\ln\!\left(\frac{p_t(1-p_0)}{p_0(1-p_t)}\right),
pt =1p0 +p0 estp0 est s=t1 ln(p0 (1pt )pt (1p0 ) ),
где ttt — число поколений.
- байесовские/ABC методы для получения доверительных интервалов для sss с учётом неопределённости NeN_eNe .
- сравнить оценки sss с ожидаемыми для сильного/слабого отбора.
4) Геномные сканы и признаки позитивного отбора
- FST между временными точками и между популяциями; поиск локусов‑аутлаеров (BayeScan, pcadapt).
- SFS‑статистики (Tajima’s DDD, Fay & Wu HHH) и бинд‑поведение по участкам.
- гаплотипные тесты для недавних селективных всплесков: iHS, XP‑EHH, длины гаплотипов, LD‑структура (для выявления недавних быстрых отборов).
5) Проверка генетического потока / интродукции
- PCA, ADMIXTURE/STRUCTURE по временам; изменение компонентов адмикcтуры с течением времени.
- FSTF_{ST}FST и DXYD_{XY}DXY между популяциями; D‑статистика (ABBA‑BABA) для детекции интрогрессии от конкретного источника.
- spatial autocorrelation и миграционные модели (e.g., EEMS, migration graphs).
- если сигнал совпадает с появлением новых генетических компонент — вероятен генетический поток.
6) Связь с окружающей средой (структурные сдвиги среды)
- genotype–environment association (GEA): LFMM, BAYENV2, RDA — ищут связи между частотами аллелей и временными/пространственными изменениями среды, контролируя структуру.
- репликация: параллельные однотипные сдвиги в разрозненных популяциях, подвергшихся схожим экологическим изменениям, указывает на отбор/адаптацию к среде, а не на случайный дрейф.
- корреляция временных рядов эколог. переменных и частот аллелей (включая лаги по поколениям).
7) Модельное сравнение и интеграция (workflow)
- получить NeN_eNe по нейтральным маркерам; проверить, могут ли изменения 20–30%20\text{–}30\%2030% за 505050 лет (пересчитать в ttt поколений) объясняться дрейфом: сравнить ∣Δp∣|\Delta p|∣Δp с Var⁡(Δp)\sqrt{\operatorname{Var}(\Delta p)}Var(Δp) .
- если дрейф маловероятен — применять временные методы для оценки sss и геномные сканы.
- одновременно тестировать сценарии с миграцией (симуляции с разными уровнями миграции) и сценарии с экологическими изменениями (GEA).
- использовать ABC/инференцию моделей (selection vs neutral vs migration vs environment) для оценки апостериорных вероятностей сценариев.
8) Практические примечания
- важно знать генерационный интервал ggg: t=50 летgt=\frac{50\ \text{лет}}{g}t=g50 лет (подставить в формулы).
- требуются промежуточные точки времени (чем больше точек, тем точнее inference).
- контролировать качество и согласованность отбора проб (batch effects).
Короткая сводка: запросите данные по NeN_eNe , размерам выборок, поколенческой длине и временным экологическим параметрам; сначала проверьте, превышает ли изменение вариацию, ожидаемую от дрейфа (Var⁡(Δp)≈p0(1−p0)t2Ne\operatorname{Var}(\Delta p)\approx p_0(1-p_0)\tfrac{t}{2N_e}Var(Δp)p0 (1p0 )2Ne t ), затем применяйте временные методы оценки отбора (WFABC/CLUES), геномные сканы (FST/outliers, гаплотипные тесты), тесты на генетический поток (PCA/ADMIXTURE, D‑статистика) и GEA (LFMM/BAYENV/RDA) для связи с изменениями среды; подтвердить выводы симуляциями/ABC.
30 Окт в 12:22
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир