Предложите метод использования большого набора временных рядов от автоматических обзоров неба для поиска новых классов переменных объектов: какие статистические и машинно-обучающие подходы наиболее подходящи и как контролировать ложные срабатывания?

14 Ноя в 10:40
2 +2
0
Ответы
1
Краткий предложенный метод (конвейер) и ключевые подходы:
1) Предобработка и нормализация
- Выбрасывание/взвешивание выбросов, учет гетероскедастичности по погрешностям.
- Интерполяция/импутация отсутствующих точек (GP или локальные методы).
- Декорреляция систематик (PCA по камере/поля, SysRem/TFA для террасных эффектов).
2) Признаки (hand-crafted + модельные)
- Фазовые/частотные: период(ы) (Lomb–Scargle), мощность и False Alarm Probability FAP≈1−(1−e−z)M\mathrm{FAP}\approx 1-(1-e^{-z})^{M}FAP1(1ez)M где zzz — мощность, MMM — число независимых частот.
- Амплитуда, медиана, квартили потока/магнитуды, процентили (q10,q90q_{10},q_{90}q10 ,q90 ), skewness, kurtosis.
- Индексы переменности: Stetson JJJ, von Neumann η\etaη, rms/mean, CARMA/Gaussian Process параметры.
- Временные признаки: автокорреляционная функция, structure function, rise/decay times.
- Цветовые признаки и кросс-идентификация с каталогами.
- Фазовые признаки (фит гармоник): гармонические коэффициенты, фазовые сдвиги.
- Нормализация/стандартизация признаков с учетом ошибок.
3) Снижение размерности и визуализация
- PCA/Robust PCA для удаления линейных зависимостей.
- UMAP/t-SNE для визуализации кластеров и поиска выбросов в низкоразмерном пространстве.
4) Нешаблонные/новые классы — методы обнаружения
- Кластеризация (чтобы выделить группы похожих объектов): HDBSCAN (устойчив к шуму), Gaussian Mixture Models, hierarchical clustering. HDBSCAN удобно давать "noise" для нерегулярных объектов.
- Аномалия/новизна:
- Classical: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM.
- Байесовские/плотностные: оценка плотности Kernel Density Estimation (KDE), mixture models — низкая плотность = кандидат новизны.
- Нейронные: автоэнкодеры (определять высокий reconstruction error), Variational Autoencoder (VAE), Deep SVDD, sequence-to-sequence / LSTM автоэнкодеры для временных рядов.
- Прогнозные модели: обучить модель прогнозирования и считать аномальной большую ошибку прогнозирования (residual anomaly).
- Самообучение/контрастное обучение: SimCLR/contrastive для представлений, затем кластеризация/аномалия в embedding-пространстве.
5) Комбинированная стратегия
- Иерархия: сначала грубая фильтрация (консервативный порог для уменьшения числа кандидатов), затем более чувствительные модели/человеческая проверка.
- Ансамбли методов (vote/stacking) для снижения ложных срабатываний.
6) Контроль ложных срабатываний (FP)
- Валидация через injection–recovery: вводите синтетические кривые с разными типами/параметрами, измеряете recovery rate и contamination.
- Настройка порогов через кривые Precision–Recall (PR) и ROC; для редких классов использовать PR-AUC. Формулы:
- Precision=TPTP+FP\mathrm{Precision}=\frac{TP}{TP+FP}Precision=TP+FPTP , Recall=TPTP+FN\mathrm{Recall}=\frac{TP}{TP+FN}Recall=TP+FNTP .
- Контроль FDR (множественные проверки): Benjamini–Hochberg — упорядочить p‑значения p(1)≤…≤p(m)p_{(1)}\le\ldots\le p_{(m)}p(1) p(m) и найти максимум kkk такое, что p(k)≤kmqp_{(k)}\le\frac{k}{m}qp(k) mk q; принять гипотезы 1..k1..k1..k.
- Калибровка вероятностей: Platt scaling / isotonic regression, чтобы пороги соответствовали требуемому уровню доверия.
- Кросс-валидация по полю/эпохам (time-aware CV) для устойчивости к систематическим эффектам.
- Использование симуляций многократно для оценки ожидаемого числа ложных срабатываний при заданных порогах.
7) Приоритезация и человек в цикле
- Рангирование кандидатов по комбо-скор (вероятность новизны × наблюдаемость × научный приоритет).
- Active learning: просите экспертов пометить малое подмножество, дообучайте модель (особенно для новых классов).
- Краудсорсинг/веттинг для редких/особо интересных кандидатов.
8) Метрики и мета-оценки
- Оценивать: recall для известных классов, contamination (fraction of FP) в выбранных ранговых диапазонах, precision@k.
- Использовать confusion matrix и матрицы ошибок для классификации/кластеризации.
9) Практические замечания по масштабированию
- Инкрементальные/стриминговые алгоритмы (online Isolation Forest, incremental PCA) для потока данных.
- Индексирование признаков и использование approximate nearest neighbors (ANN) для быстрого поиска аномалий.
- Хранение версий данных и моделей, репликация injection-tests.
Короткая стратегия выбора инструментов:
- Если цель — найти полностью новые классы: комбинировать представления (contrastive/autoencoder) + HDBSCAN + ручная проверка топ‑кластеров и аномалий.
- Если цель — минимизировать FP при высокой полноте для известных/оожидаемых типов: supervised классификатор с calibrated probabilities + injection–recovery для порогов.
- Для тонкой временной структуры: GP/CARMA параметры и sequence‑autoencoders дают лучшие признаки, чем простые статистики.
Резюме: стройте конвейер: предобработка → извлечение богатого набора признаков (включая временные модели) → представления (UMAP/contrastive/autoencoder) → кластеризация + аномалия → injection‑recovery и FDR/калибровка порогов → активное обучение/вручную проверка. Это сочетание методов даёт хорошую чувствительность к новым классам при контроле ложных срабатываний.
14 Ноя в 11:28
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир