Предложите метод использования большого набора временных рядов от автоматических обзоров неба для поиска новых классов переменных объектов: какие статистические и машинно-обучающие подходы наиболее подходящи и как контролировать ложные срабатывания?
Краткий предложенный метод (конвейер) и ключевые подходы: 1) Предобработка и нормализация - Выбрасывание/взвешивание выбросов, учет гетероскедастичности по погрешностям. - Интерполяция/импутация отсутствующих точек (GP или локальные методы). - Декорреляция систематик (PCA по камере/поля, SysRem/TFA для террасных эффектов). 2) Признаки (hand-crafted + модельные) - Фазовые/частотные: период(ы) (Lomb–Scargle), мощность и False Alarm Probability FAP≈1−(1−e−z)M\mathrm{FAP}\approx 1-(1-e^{-z})^{M}FAP≈1−(1−e−z)M где zzz — мощность, MMM — число независимых частот. - Амплитуда, медиана, квартили потока/магнитуды, процентили (q10,q90q_{10},q_{90}q10,q90), skewness, kurtosis. - Индексы переменности: Stetson JJJ, von Neumann η\etaη, rms/mean, CARMA/Gaussian Process параметры. - Временные признаки: автокорреляционная функция, structure function, rise/decay times. - Цветовые признаки и кросс-идентификация с каталогами. - Фазовые признаки (фит гармоник): гармонические коэффициенты, фазовые сдвиги. - Нормализация/стандартизация признаков с учетом ошибок. 3) Снижение размерности и визуализация - PCA/Robust PCA для удаления линейных зависимостей. - UMAP/t-SNE для визуализации кластеров и поиска выбросов в низкоразмерном пространстве. 4) Нешаблонные/новые классы — методы обнаружения - Кластеризация (чтобы выделить группы похожих объектов): HDBSCAN (устойчив к шуму), Gaussian Mixture Models, hierarchical clustering. HDBSCAN удобно давать "noise" для нерегулярных объектов. - Аномалия/новизна: - Classical: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM. - Байесовские/плотностные: оценка плотности Kernel Density Estimation (KDE), mixture models — низкая плотность = кандидат новизны. - Нейронные: автоэнкодеры (определять высокий reconstruction error), Variational Autoencoder (VAE), Deep SVDD, sequence-to-sequence / LSTM автоэнкодеры для временных рядов. - Прогнозные модели: обучить модель прогнозирования и считать аномальной большую ошибку прогнозирования (residual anomaly). - Самообучение/контрастное обучение: SimCLR/contrastive для представлений, затем кластеризация/аномалия в embedding-пространстве. 5) Комбинированная стратегия - Иерархия: сначала грубая фильтрация (консервативный порог для уменьшения числа кандидатов), затем более чувствительные модели/человеческая проверка. - Ансамбли методов (vote/stacking) для снижения ложных срабатываний. 6) Контроль ложных срабатываний (FP) - Валидация через injection–recovery: вводите синтетические кривые с разными типами/параметрами, измеряете recovery rate и contamination. - Настройка порогов через кривые Precision–Recall (PR) и ROC; для редких классов использовать PR-AUC. Формулы: - Precision=TPTP+FP\mathrm{Precision}=\frac{TP}{TP+FP}Precision=TP+FPTP, Recall=TPTP+FN\mathrm{Recall}=\frac{TP}{TP+FN}Recall=TP+FNTP. - Контроль FDR (множественные проверки): Benjamini–Hochberg — упорядочить p‑значения p(1)≤…≤p(m)p_{(1)}\le\ldots\le p_{(m)}p(1)≤…≤p(m) и найти максимум kkk такое, что p(k)≤kmqp_{(k)}\le\frac{k}{m}qp(k)≤mkq; принять гипотезы 1..k1..k1..k. - Калибровка вероятностей: Platt scaling / isotonic regression, чтобы пороги соответствовали требуемому уровню доверия. - Кросс-валидация по полю/эпохам (time-aware CV) для устойчивости к систематическим эффектам. - Использование симуляций многократно для оценки ожидаемого числа ложных срабатываний при заданных порогах. 7) Приоритезация и человек в цикле - Рангирование кандидатов по комбо-скор (вероятность новизны × наблюдаемость × научный приоритет). - Active learning: просите экспертов пометить малое подмножество, дообучайте модель (особенно для новых классов). - Краудсорсинг/веттинг для редких/особо интересных кандидатов. 8) Метрики и мета-оценки - Оценивать: recall для известных классов, contamination (fraction of FP) в выбранных ранговых диапазонах, precision@k. - Использовать confusion matrix и матрицы ошибок для классификации/кластеризации. 9) Практические замечания по масштабированию - Инкрементальные/стриминговые алгоритмы (online Isolation Forest, incremental PCA) для потока данных. - Индексирование признаков и использование approximate nearest neighbors (ANN) для быстрого поиска аномалий. - Хранение версий данных и моделей, репликация injection-tests. Короткая стратегия выбора инструментов: - Если цель — найти полностью новые классы: комбинировать представления (contrastive/autoencoder) + HDBSCAN + ручная проверка топ‑кластеров и аномалий. - Если цель — минимизировать FP при высокой полноте для известных/оожидаемых типов: supervised классификатор с calibrated probabilities + injection–recovery для порогов. - Для тонкой временной структуры: GP/CARMA параметры и sequence‑autoencoders дают лучшие признаки, чем простые статистики. Резюме: стройте конвейер: предобработка → извлечение богатого набора признаков (включая временные модели) → представления (UMAP/contrastive/autoencoder) → кластеризация + аномалия → injection‑recovery и FDR/калибровка порогов → активное обучение/вручную проверка. Это сочетание методов даёт хорошую чувствительность к новым классам при контроле ложных срабатываний.
1) Предобработка и нормализация
- Выбрасывание/взвешивание выбросов, учет гетероскедастичности по погрешностям.
- Интерполяция/импутация отсутствующих точек (GP или локальные методы).
- Декорреляция систематик (PCA по камере/поля, SysRem/TFA для террасных эффектов).
2) Признаки (hand-crafted + модельные)
- Фазовые/частотные: период(ы) (Lomb–Scargle), мощность и False Alarm Probability FAP≈1−(1−e−z)M\mathrm{FAP}\approx 1-(1-e^{-z})^{M}FAP≈1−(1−e−z)M где zzz — мощность, MMM — число независимых частот.
- Амплитуда, медиана, квартили потока/магнитуды, процентили (q10,q90q_{10},q_{90}q10 ,q90 ), skewness, kurtosis.
- Индексы переменности: Stetson JJJ, von Neumann η\etaη, rms/mean, CARMA/Gaussian Process параметры.
- Временные признаки: автокорреляционная функция, structure function, rise/decay times.
- Цветовые признаки и кросс-идентификация с каталогами.
- Фазовые признаки (фит гармоник): гармонические коэффициенты, фазовые сдвиги.
- Нормализация/стандартизация признаков с учетом ошибок.
3) Снижение размерности и визуализация
- PCA/Robust PCA для удаления линейных зависимостей.
- UMAP/t-SNE для визуализации кластеров и поиска выбросов в низкоразмерном пространстве.
4) Нешаблонные/новые классы — методы обнаружения
- Кластеризация (чтобы выделить группы похожих объектов): HDBSCAN (устойчив к шуму), Gaussian Mixture Models, hierarchical clustering. HDBSCAN удобно давать "noise" для нерегулярных объектов.
- Аномалия/новизна:
- Classical: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM.
- Байесовские/плотностные: оценка плотности Kernel Density Estimation (KDE), mixture models — низкая плотность = кандидат новизны.
- Нейронные: автоэнкодеры (определять высокий reconstruction error), Variational Autoencoder (VAE), Deep SVDD, sequence-to-sequence / LSTM автоэнкодеры для временных рядов.
- Прогнозные модели: обучить модель прогнозирования и считать аномальной большую ошибку прогнозирования (residual anomaly).
- Самообучение/контрастное обучение: SimCLR/contrastive для представлений, затем кластеризация/аномалия в embedding-пространстве.
5) Комбинированная стратегия
- Иерархия: сначала грубая фильтрация (консервативный порог для уменьшения числа кандидатов), затем более чувствительные модели/человеческая проверка.
- Ансамбли методов (vote/stacking) для снижения ложных срабатываний.
6) Контроль ложных срабатываний (FP)
- Валидация через injection–recovery: вводите синтетические кривые с разными типами/параметрами, измеряете recovery rate и contamination.
- Настройка порогов через кривые Precision–Recall (PR) и ROC; для редких классов использовать PR-AUC. Формулы:
- Precision=TPTP+FP\mathrm{Precision}=\frac{TP}{TP+FP}Precision=TP+FPTP , Recall=TPTP+FN\mathrm{Recall}=\frac{TP}{TP+FN}Recall=TP+FNTP .
- Контроль FDR (множественные проверки): Benjamini–Hochberg — упорядочить p‑значения p(1)≤…≤p(m)p_{(1)}\le\ldots\le p_{(m)}p(1) ≤…≤p(m) и найти максимум kkk такое, что p(k)≤kmqp_{(k)}\le\frac{k}{m}qp(k) ≤mk q; принять гипотезы 1..k1..k1..k.
- Калибровка вероятностей: Platt scaling / isotonic regression, чтобы пороги соответствовали требуемому уровню доверия.
- Кросс-валидация по полю/эпохам (time-aware CV) для устойчивости к систематическим эффектам.
- Использование симуляций многократно для оценки ожидаемого числа ложных срабатываний при заданных порогах.
7) Приоритезация и человек в цикле
- Рангирование кандидатов по комбо-скор (вероятность новизны × наблюдаемость × научный приоритет).
- Active learning: просите экспертов пометить малое подмножество, дообучайте модель (особенно для новых классов).
- Краудсорсинг/веттинг для редких/особо интересных кандидатов.
8) Метрики и мета-оценки
- Оценивать: recall для известных классов, contamination (fraction of FP) в выбранных ранговых диапазонах, precision@k.
- Использовать confusion matrix и матрицы ошибок для классификации/кластеризации.
9) Практические замечания по масштабированию
- Инкрементальные/стриминговые алгоритмы (online Isolation Forest, incremental PCA) для потока данных.
- Индексирование признаков и использование approximate nearest neighbors (ANN) для быстрого поиска аномалий.
- Хранение версий данных и моделей, репликация injection-tests.
Короткая стратегия выбора инструментов:
- Если цель — найти полностью новые классы: комбинировать представления (contrastive/autoencoder) + HDBSCAN + ручная проверка топ‑кластеров и аномалий.
- Если цель — минимизировать FP при высокой полноте для известных/оожидаемых типов: supervised классификатор с calibrated probabilities + injection–recovery для порогов.
- Для тонкой временной структуры: GP/CARMA параметры и sequence‑autoencoders дают лучшие признаки, чем простые статистики.
Резюме: стройте конвейер: предобработка → извлечение богатого набора признаков (включая временные модели) → представления (UMAP/contrastive/autoencoder) → кластеризация + аномалия → injection‑recovery и FDR/калибровка порогов → активное обучение/вручную проверка. Это сочетание методов даёт хорошую чувствительность к новым классам при контроле ложных срабатываний.