Предложите алгоритм обработки больших астрономических съёмок для автоматического выявления переменных объектов, опишите критерии отбора и методы борьбы с ложными срабатываниями и систематикой
Алгоритм (конвейер) — по шагам, с краткими пояснениями и ключевыми формулами. 1) Предобработка изображений - Калибровка: bias/dark/flat, nonlinearity, fringe removal. - Космическая привязка (astrometry) и приведение к общей системе координат (WCS/HEALPix). - Сегментация по полям/датам, метаданные (airmass, seeing, sky, rotator, chip, JD). 2) Фотометрия - Для разреженных полей: апертурная или PSF-фотометрия. - Для плотных/переменных полей: PSF-подгонка + forced photometry в каналах/координатах источника. - Вычислить ошибки потока/магнитуды с учётом фонового шума и ковариаций. 3) Разностная обработка (для транзиентов/быстрых переменных) - Алгоритмы: Alard–Lupton или ZOGY (предпочтительно ZOGY для оптимального S/N и статистики). - На разностях делать детекцию кандидатов и forced photometry в исходных кадрах. 4) Сбор временных рядов - Собрать light curve для каждого уникального источника: magnitude m_i, ошибка σi\sigma_iσi, время tit_iti, флаг кадра. - Требование минимального числа точек: например Nmin≥5N_{\min}\ge 5Nmin≥5–101010 (параметризуемо). 5) Метрики вариабельности и первичный отбор - Простейшие метрики: - среднеквадратичное отклонение (RMS), медианный абсолютный размах (MAD); - приведённая хи-квадрат: χν2=1N−1∑i(mi−mˉ)2σi2\chi^2_{\nu}=\frac{1}{N-1}\sum_i\frac{(m_i-\bar m)^2}{\sigma_i^2}χν2=N−11∑iσi2(mi−mˉ)2; - Стетсон J/K (robust to пары наблюдений) — использовать готовую реализацию. - Пороговые критерии (пример): χν2>2\chi^2_{\nu} > 2χν2>2 или RMS/MAD выше уровня фотошума на >3σ>3\sigma>3σ. Порог на количество точек выше NminN_{\min}Nmin. - Для периодических кандидатов: периодограмма Lomb–Scargle; оценка значимости — FAP: FAP≈1−[1−exp(−z)]M\mathrm{FAP}\approx 1-[1-\exp(-z)]^MFAP≈1−[1−exp(−z)]M, где zzz — мощность, MMM — число независимых частот. Требовать FAP<10−3\mathrm{FAP}<10^{-3}FAP<10−3 (примерно). 6) Борьба с ложными срабатываниями (практики) - Мультифильтрная верификация: переменность должна подтверждаться в >1 фильтре или в разностных кадрах. - Персистентность: сигнал должен повторяться в разных ночах/кадрах, а не быть однокадровым. - Координатная согласованность: центроид на кадрах и на разности стабилен; смещение центра >PSF/2 — подозрительно. - PSF-формы: сравнить профили кандидата и звёздной PSF (χ^2 формы), космические лучи и дефекты имеют необычный профиль. - Контекстные флаги: рядом яркая звезда (diffraction spikes), краевые пиксели, bad pixels, saturation, satellite trails — помечать и отбрасывать. - Forced photometry на исходных кадрах и на разностях чтобы подтвердить амплитуду и временную структуру. 7) Борьба с систематикой (коррекция общим модам) - Обнаружение общих мод: собрать матрицу остатков для многих звёзд и выделить компоненты через PCA/ICA/SysRem/TFA; вычитать общие тренды. - Редукция по параметрам: регрессия остатков по airmass, seeing, sky, chip-x/y, rotrel: δm=∑kakXk+ε\delta m = \sum_k a_k X_k + \varepsilonδm=∑kakXk+ε, найти aka_kak обычной линейной регрессией или robust regression. - Gaussian Process для отдельных кривых, если нужно моделировать систематики со сложной корреляцией по времени. - Использовать robust-статистики (медиана, MAD) при оценке шума, чтобы не учитывать выбросы. 8) Стратегии контроля ошибок множества тестов - Использовать False Discovery Rate (Benjamini–Hochberg): упорядочить p-значения p(i)p_{(i)}p(i) и выбрать максимум i с p(i)≤imqp_{(i)}\le \frac{i}{m}qp(i)≤miq, где qqq — желаемый FDR. - Для периодов — применять бутстрэп/суррогатные ряды для оценки FAP индивидуально. 9) Классификация и ранжирование кандидатов - Признаки: амплитуда, период, цвет, асимметрия, время спада/роста, PSF-стабильность, флаги. - ML-классификаторы (Random Forest, XGBoost, CNN на световых кривых/стеклах): обучать на верифицированных наборах (симуляции + известные переменные). - Выдавать score; порог и human-in-loop для высоких score. 10) Дополнительные проверки и валидация - Кросс-матч с внешними каталогами (Gaia, Pan-STARRS, SDSS) — исключить известные переменные/галактики/квазары или подтвердить. - Визуальная проверка первых N кандидатов и периодическая проверка ошибок классификации (active learning). - Симуляции вставки искусственных источников (injection-recovery) для оценки полноты и чистоты. Оценки и параметры (примерные) - S/N-детекция на разностях: требовать S/N >5>5>5 и подтверждение в ≥2 кадрах. - Количество наблюдений Nmin=8N_{\min}=8Nmin=8 для надёжных variability metrics. - FAP порог для периодов: <10−3<10^{-3}<10−3–10−410^{-4}10−4, либо использование FDR с q=0.01q=0.01q=0.01. Инфраструктура и масштабирование - Разбивать небосвод по HEALPix, обрабатывать по чанкам; использовать распределённые вычисления (Spark/Dask), хранить light curves в колонковых БД. - Использовать инкрементальную обработку (streaming) для real-time detections и батчевую для ре-анализа. - Логирование и метрики качества (ROC, precision/recall, completeness vs depth). Кратко — критерии отбора: статистическая значимость отклонения от константы (χν2\chi^2_{\nu}χν2, Stetson), достаточное число точек, подтверждение в разностях/нескольких кадрах/фильтрах, стабильность центра и PSF, FAP для периодов. Методы борьбы с ложными: флаги артефактов, forced photometry, multi-band consistency, PCA/GP для систематики, FDR+бутстрэп для контроля ложных открытий.
1) Предобработка изображений
- Калибровка: bias/dark/flat, nonlinearity, fringe removal.
- Космическая привязка (astrometry) и приведение к общей системе координат (WCS/HEALPix).
- Сегментация по полям/датам, метаданные (airmass, seeing, sky, rotator, chip, JD).
2) Фотометрия
- Для разреженных полей: апертурная или PSF-фотометрия.
- Для плотных/переменных полей: PSF-подгонка + forced photometry в каналах/координатах источника.
- Вычислить ошибки потока/магнитуды с учётом фонового шума и ковариаций.
3) Разностная обработка (для транзиентов/быстрых переменных)
- Алгоритмы: Alard–Lupton или ZOGY (предпочтительно ZOGY для оптимального S/N и статистики).
- На разностях делать детекцию кандидатов и forced photometry в исходных кадрах.
4) Сбор временных рядов
- Собрать light curve для каждого уникального источника: magnitude m_i, ошибка σi\sigma_iσi , время tit_iti , флаг кадра.
- Требование минимального числа точек: например Nmin≥5N_{\min}\ge 5Nmin ≥5–101010 (параметризуемо).
5) Метрики вариабельности и первичный отбор
- Простейшие метрики:
- среднеквадратичное отклонение (RMS), медианный абсолютный размах (MAD);
- приведённая хи-квадрат: χν2=1N−1∑i(mi−mˉ)2σi2\chi^2_{\nu}=\frac{1}{N-1}\sum_i\frac{(m_i-\bar m)^2}{\sigma_i^2}χν2 =N−11 ∑i σi2 (mi −mˉ)2 ;
- Стетсон J/K (robust to пары наблюдений) — использовать готовую реализацию.
- Пороговые критерии (пример): χν2>2\chi^2_{\nu} > 2χν2 >2 или RMS/MAD выше уровня фотошума на >3σ>3\sigma>3σ. Порог на количество точек выше NminN_{\min}Nmin .
- Для периодических кандидатов: периодограмма Lomb–Scargle; оценка значимости — FAP:
FAP≈1−[1−exp(−z)]M\mathrm{FAP}\approx 1-[1-\exp(-z)]^MFAP≈1−[1−exp(−z)]M, где zzz — мощность, MMM — число независимых частот. Требовать FAP<10−3\mathrm{FAP}<10^{-3}FAP<10−3 (примерно).
6) Борьба с ложными срабатываниями (практики)
- Мультифильтрная верификация: переменность должна подтверждаться в >1 фильтре или в разностных кадрах.
- Персистентность: сигнал должен повторяться в разных ночах/кадрах, а не быть однокадровым.
- Координатная согласованность: центроид на кадрах и на разности стабилен; смещение центра >PSF/2 — подозрительно.
- PSF-формы: сравнить профили кандидата и звёздной PSF (χ^2 формы), космические лучи и дефекты имеют необычный профиль.
- Контекстные флаги: рядом яркая звезда (diffraction spikes), краевые пиксели, bad pixels, saturation, satellite trails — помечать и отбрасывать.
- Forced photometry на исходных кадрах и на разностях чтобы подтвердить амплитуду и временную структуру.
7) Борьба с систематикой (коррекция общим модам)
- Обнаружение общих мод: собрать матрицу остатков для многих звёзд и выделить компоненты через PCA/ICA/SysRem/TFA; вычитать общие тренды.
- Редукция по параметрам: регрессия остатков по airmass, seeing, sky, chip-x/y, rotrel:
δm=∑kakXk+ε\delta m = \sum_k a_k X_k + \varepsilonδm=∑k ak Xk +ε, найти aka_kak обычной линейной регрессией или robust regression.
- Gaussian Process для отдельных кривых, если нужно моделировать систематики со сложной корреляцией по времени.
- Использовать robust-статистики (медиана, MAD) при оценке шума, чтобы не учитывать выбросы.
8) Стратегии контроля ошибок множества тестов
- Использовать False Discovery Rate (Benjamini–Hochberg): упорядочить p-значения p(i)p_{(i)}p(i) и выбрать максимум i с p(i)≤imqp_{(i)}\le \frac{i}{m}qp(i) ≤mi q, где qqq — желаемый FDR.
- Для периодов — применять бутстрэп/суррогатные ряды для оценки FAP индивидуально.
9) Классификация и ранжирование кандидатов
- Признаки: амплитуда, период, цвет, асимметрия, время спада/роста, PSF-стабильность, флаги.
- ML-классификаторы (Random Forest, XGBoost, CNN на световых кривых/стеклах): обучать на верифицированных наборах (симуляции + известные переменные).
- Выдавать score; порог и human-in-loop для высоких score.
10) Дополнительные проверки и валидация
- Кросс-матч с внешними каталогами (Gaia, Pan-STARRS, SDSS) — исключить известные переменные/галактики/квазары или подтвердить.
- Визуальная проверка первых N кандидатов и периодическая проверка ошибок классификации (active learning).
- Симуляции вставки искусственных источников (injection-recovery) для оценки полноты и чистоты.
Оценки и параметры (примерные)
- S/N-детекция на разностях: требовать S/N >5>5>5 и подтверждение в ≥2 кадрах.
- Количество наблюдений Nmin=8N_{\min}=8Nmin =8 для надёжных variability metrics.
- FAP порог для периодов: <10−3<10^{-3}<10−3–10−410^{-4}10−4, либо использование FDR с q=0.01q=0.01q=0.01.
Инфраструктура и масштабирование
- Разбивать небосвод по HEALPix, обрабатывать по чанкам; использовать распределённые вычисления (Spark/Dask), хранить light curves в колонковых БД.
- Использовать инкрементальную обработку (streaming) для real-time detections и батчевую для ре-анализа.
- Логирование и метрики качества (ROC, precision/recall, completeness vs depth).
Кратко — критерии отбора: статистическая значимость отклонения от константы (χν2\chi^2_{\nu}χν2 , Stetson), достаточное число точек, подтверждение в разностях/нескольких кадрах/фильтрах, стабильность центра и PSF, FAP для периодов. Методы борьбы с ложными: флаги артефактов, forced photometry, multi-band consistency, PCA/GP для систематики, FDR+бутстрэп для контроля ложных открытий.