Кейс: при сравнительном секвенировании двух популяций одного вида обнаружены участки с сильной сигнатурой положительного отбора — как интерпретировать источники этой сигнатуры и какие дополнительные данные нужны для подтверждения адаптивности

18 Ноя в 17:17
6 +6
0
Ответы
1
Возможные источники «сильной сигнатуры положительного отбора»
- Действительный позитивный отбор (локальная адаптация): быстрый рост частоты полезной аллели даёт локальное снижение диверситета, повышенный FSTF_{ST}FST , длинные гаплотипы.
- Жёсткая свип (hard sweep) vs мягкая (soft sweep): при жёстком — сильное уменьшение полиморфизма и одна доминантная гаплотипная линия; при мягком — меньше потери разнообразия, несколько частотных аллелей.
- Фоновый отбор / связанный отбор (linked/background selection): удаление вредных мутаций даёт похожее снижение разнообразия без адаптивности.
- Демография (блокировка, сильный локальный дрейф, асимметричный поток генов): может имитировать пики FSTF_{ST}FST и сдвиги SFS.
- Интрогрессия/гиперпопуляционный обмен: высокое FSTF_{ST}FST локально если одна популяция получила чужую аллель.
- Локальные изменения мутационной ставки, структуры генома (CNV, инверсии) или артефакты секвенирования/маппинга (полиморфные повтори, референс-биас).
Какие ожидаемые сигналы при адаптивном свипе (для сравнения)
- снижение среднего диверситета (π^\hat{\pi}π^) в локусе;
- отрицательное смещение SFS (например, Tajima’s D отрицательное);
- избыточ высокочастотных производных аллелей (Fay & Wu’s H отрицательное);
- высокий межпопуляционный дифференциал FSTF_{ST}FST ;
- длинные негетерогенные хромосомные блоки (EHH, iHS/XP-EHH сигналы);
- функциональная релевантность варианта/гена.
Кратко о формулах (для интерпретации)
- Фрагмент для FSTF_{ST}FST (упрощённо): FST≈Var⁡(p)pˉ(1−pˉ),F_{ST}\approx\frac{\operatorname{Var}(p)}{\bar p(1-\bar p)},FST pˉ (1pˉ )Var(p) , где ppp — частота аллели по субпопуляциям.
- Tajima’s D: D=π^−θ^WVar⁡(π^−θ^W),D=\frac{\hat\pi-\hat\theta_W}{\sqrt{\operatorname{Var}(\hat\pi-\hat\theta_W)}},D=Var(π^θ^W ) π^θ^W , где π^\hat\piπ^ — парный нуклеотидный диверситет, θ^W\hat\theta_Wθ^W — оценка по числу сайтов.
Какие дополнительные данные и анализы нужны для подтверждения адаптивности (порядок приоритета)
1. Техническая проверка (обязательно)
- убедиться в качестве покрытий, отсутствии систематических отличий между популяциями, проверить маппинг, удалить регионы низкого качества и повторов, подтвердить SNP-каллинг; проверить на CNV/инверсии (long reads, depth).
2. Фаза/гаплотипы и LD-анализ
- получить фазированные генотипы (если нет — фазы/long reads), посчитать iHS, XP-EHH, EHH-профили; оценить длину одинаковых гаплотипов вокруг сигнальной аллели.
3. SFS и многопоказательная статистика
- посчитать Tajima’s D, Fay & Wu’s H (нужен аутгрупп для поляризации), H12 (для мягких свипов), CLR (SweepFinder2) и SweeD.
4. Демографическое моделирование и нейтральные симуляции
- вывести модель демографии (msprime/simulations) по геному и смоделировать нулевое распределение статистик; оценить значимость пиков с учётом демографии и фонового отбора.
5. Тесты на интрогрессию и структуру
- D-statistics/ABBA-BABA, fd, локальная аутсорс-анализ для исключения интрогрессии; проверить корреляцию с анатомией/географией/структурой.
6. Репликативность и сопоставление
- есть ли тот же сигнал в других независимых популяциях/популяционных повторностях? параллельные изменения усиливают доказательство адаптации.
7. Связь с фенотипом и окружающей средой
- GWAS/QTL, ассоциации по среде (GEA — Bayenv, LFMM), корреляция частоты аллели с экологическими градиентами.
8. Функциональные данные
- экспрессия (RNA-seq), предсказания эффектов (missense, регуляторные участки), in vitro/ in vivo тесты (клеточные/организменные), реконструкция мутаций и измерение фитнеса.
9. Временные ряды / древняя ДНК
- если доступны, временные частоты аллелей или древняя ДНК покажут траекторию роста частоты.
10. Контроль для локальных факторов
- проверить локальный recomb rate, GC-контент, плотность генов/консервацию — они влияют на ожидания.
Краткая рекомендуемая стратегия действий
- начать с QC, исключить артефакты; затем комбинировать SFS-, LD- и Fst-метрики; построить демографическую модель и выполнить нейтральные симуляции; провести тесты на интрогрессию; искать функциональную/экологическую связь и, по возможности, экспериментальную валидацию. Только согласованность нескольких независимых линий доказательств (статистическая, популяционная, функциональная) даёт надёжное подтверждение адаптивности.
Если нужно, могу предложить конкретный список команд/инструментов и порогов для ваших данных (тип секвенирования, размер выборки, наличие аутгруппы).
18 Ноя в 17:24
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир