Разработайте критерии и тесты для оценки надёжности обнаружения гравитационных волн у источников с низким SNR в данных LIGO/Virgo/KAGRA, учитывая шумы и немонте-карловские выбросы
Ниже — компактный набор критериев и конкретных тестов (операционных и статистических) для оценки надёжности обнаружения гравитационных волн у источников с низким SNR в данных LIGO/Virgo/KAGRA, с учётом шумов и немонте‑карловских выбросов. Ключевые критерии (что измерять) - Сетевой SNR: ρnet=∑iρi2\rho_{\rm net}=\sqrt{\sum_i \rho_i^2}ρnet=∑iρi2 — базовая метрика силы сигнала по сети детекторов. - Ложноположительная скорость (FAR): FAR(ρ∗)=Nbg(ρ>ρ∗)Tbg\mathrm{FAR}(\rho_*)=\dfrac{N_{\rm bg}(\rho>\rho_*)}{T_{\rm bg}}FAR(ρ∗)=TbgNbg(ρ>ρ∗) (оценка через тайм‑слайдами фон). Связанный p‑уровень: p=1−exp(−FAR⋅Tobs)p=1-\exp(-\mathrm{FAR}\cdot T_{\rm obs})p=1−exp(−FAR⋅Tobs). - Байесовский критерий (модельный): байесовский фактор Bs/n=p(d∣Hs)p(d∣Hn)B_{s/n}=\dfrac{p(d|H_s)}{p(d|H_n)}Bs/n=p(d∣Hn)p(d∣Hs) и апостериорное соотношение odds с учётом приорных вероятностей. - Когерентность между антеннами: доля когерентной энергии ρcoh2/ρnet2\rho_{\rm coh}^2/\rho_{\rm net}^2ρcoh2/ρnet2 и null‑стрим статистика EnullE_{\rm null}Enull (малое EnullE_{\rm null}Enull — сигнал). - Совместимость формы сигнала: reweighted SNR / chi^2 - привести тест согласия: χ2\chi^2χ2 (или reduced χr2=χ2/ν\chi^2_r=\chi^2/\nuχr2=χ2/ν); альтернативно ре‑взвешенный SNR ρ^\hat\rhoρ^ (используется в pipelines). - Остатки и недостающие компоненты: статистика мощности остатков после вычитания best‑fit сигнала, проверка на белизну и отсутствие корреляций с вспомогательными каналами. - Робастность результатов при смене предположений/приоров: чувствительность Bs/nB_{s/n}Bs/n и параметров постериорных распределений к приорам и шумовой модели. Операционные тесты (процедуры, которые проводить для каждого кандидата) 1. Фоновая оценка временем‑смещениями (time‑slides): - Генерировать background из множества сдвигов; строить FAR как функцию ρ\rhoρ и ρ^\hat\rhoρ^. Проверить стабильность FAR при увеличении числа слайдов. 2. Off‑source и off‑time проверки: - Аналогичные окна до/после события; проверить, что похожие трансцендентные структуры редки. 3. Мультипайплайновая валидация: - Прогнать candidate через минимум 2 разных pipeline (matched‑filter, unmodeled/coherent burst (cWB), BayesWave). Согласие повышает доверие. 4. Null‑stream и междетекторная когерентность: - Вычислить EnullE_{\rm null}Enull и отношение Enull/EcohE_{\rm null}/E_{\rm coh}Enull/Ecoh. Требовать малой доли null‑энергии для сигнала. 5. Модельный vs нелинейный разбор (BayesWave): - Сравнить объяснение через HsH_sHs (сигнал) и HgH_gHg (glitch) и HnH_nHn (шум). Оценивать Bs/nB_{s/n}Bs/n и Bs/gB_{s/g}Bs/g. 6. Анализ остатков: - Проверить, что остатки после вычитания best‑fit сигнала удовлетворяют Gaussian/stationary гипотезе (см. статистические тесты ниже). 7. Верификация по вспомогательным каналам: - Автоматические и экспертные проверки causal/auxiliary каналов на совпадение с событием; использовать классификаторы (GravitySpy) и метки DQ. 8. Gating / glitch‑mitigation and reanalysis: - Если найден явный glitch, прогейтить и повторно прогнать поиск; проверить стабильность параметров. 9. Апостериорная согласованность параметров между детекторами: - Временные задержки, амплитуды и поляризации должны быть совместимы с единой небесной локализацией. Статистические тесты и валидация (не Monte‑Carlo‑free стратегии) - Резервные непараметрические тесты на остатках: - Kolmogorov–Smirnov / Anderson–Darling для распределения whitened residuals против стандартного нормального. - Bootstrap / jackknife по временным блокам: - Оценить устойчивость FAR и p‑значений при удалении/перемешивании сегментов; выделить нестабильные интервалы. - Posterior predictive checks (Bayesian): - Сгенерировать синтетические данные из постериора и сравнить статистики (SNR, χr2\chi^2_rχr2, спектр) с реальными остатками. - P‑P и coverage‑plots: - Убедиться, что доверительные интервалы параметров покрывают истинные значения при контролируемых вложениях. - ROC / precision–recall кривые: - Для наборов инжекций и реального фона строить эффективность обнаружения при заданных FAR. Тесты против немонте‑карловских выбросов (glitches и неожиданный шум) - Adversarial glitch injections: внедрять реальные recorded glitches в off‑source данные и смотреть влияние на FAR/ROC, а не только синтетические шумовые модели. - Подмены каналов/аннулирование: симулировать сценарии, когда один детектор содержит сильный glitch и проверять способность pipelines отличить локальные выбросы от когерентного сигнала. - Кросс‑временные кореляции с auxiliary каналами: использовать статистики взаимной информации / ранговой корреляции для обнаружения нелинейных связей. - Stability scanning: сканировать параметры препроцессинга (whitening, bandpass, downsampling) и требовать, чтобы claim не исчезал при допустимых изменениях. Практическое правило принятия решения (пример многокритериального порога) - Для низкого SNR рекомендую комбинированное правило (пример): - FAR<1/(10 лет)\mathrm{FAR}<1/(10\ \text{лет})FAR<1/(10лет) или p‑value <3×10−3<3\times10^{-3}<3×10−3, и - байесовский фактор Bs/n>100B_{s/n}>100Bs/n>100 (сверху проверить робастность к приорам), и - null‑энергия мала: Enull/(Enull+Ecoh)<0.3E_{\rm null}/(E_{\rm null}+E_{\rm coh})<0.3Enull/(Enull+Ecoh)<0.3, и - χr2≲2\chi^2_r\lesssim 2χr2≲2 (или ре‑взвешенный ρ^\hat\rhoρ^ соответствует порогу), и - согласие между минимум 2 pipelines и отсутствие DQ‑взаимосвязей в auxiliary‑каналах. (Числа можно адаптировать под политику collaboration и желаемую вероятностную терпимость ложных срабатываний.) Метрики качества и отчётность для каждого кандидата - Таблица: ρnet\rho_{\rm net}ρnet, ρ^\hat\rhoρ^, FAR\mathrm{FAR}FAR, ppp, Bs/nB_{s/n}Bs/n, EnullE_{\rm null}Enull, χr2\chi^2_rχr2, согласованность arrival times / sky map overlap, результаты pipelines, DQ‑flags, результаты auxiliary checks, устойчивость при gating. - Для низко‑SNR случаев обязать полный follow‑up: injections, BayesWave разбор, экспертная проверка auxiliary каналов. Краткие рекомендации по внедрению в рабочий процесс - Автоматизировать time‑slides и off‑source background, но требовать ручного/экспертного follow‑up для low‑SNR candidates. - Использовать гибридный подход: комбинировать частотные (FAR) и байесовские критерии, plus null‑stream и auxiliary checks. - Включать реальные glitch‑injection кампании (adversarial) в регулярную валидацию pipelines. - Документировать все проверки и указывать чувствительность результатов к выбранным порогам и приорам. Если нужно, могу дать шаблон чек‑листа для follow‑up кандидата (пошаговая форма с командами/метриками) или конкретные формулы для reweighted SNR/chi^2, используемые в GstLAL/pyCBC.
Ключевые критерии (что измерять)
- Сетевой SNR: ρnet=∑iρi2\rho_{\rm net}=\sqrt{\sum_i \rho_i^2}ρnet =∑i ρi2 — базовая метрика силы сигнала по сети детекторов.
- Ложноположительная скорость (FAR): FAR(ρ∗)=Nbg(ρ>ρ∗)Tbg\mathrm{FAR}(\rho_*)=\dfrac{N_{\rm bg}(\rho>\rho_*)}{T_{\rm bg}}FAR(ρ∗ )=Tbg Nbg (ρ>ρ∗ ) (оценка через тайм‑слайдами фон). Связанный p‑уровень: p=1−exp(−FAR⋅Tobs)p=1-\exp(-\mathrm{FAR}\cdot T_{\rm obs})p=1−exp(−FAR⋅Tobs ).
- Байесовский критерий (модельный): байесовский фактор Bs/n=p(d∣Hs)p(d∣Hn)B_{s/n}=\dfrac{p(d|H_s)}{p(d|H_n)}Bs/n =p(d∣Hn )p(d∣Hs ) и апостериорное соотношение odds с учётом приорных вероятностей.
- Когерентность между антеннами: доля когерентной энергии ρcoh2/ρnet2\rho_{\rm coh}^2/\rho_{\rm net}^2ρcoh2 /ρnet2 и null‑стрим статистика EnullE_{\rm null}Enull (малое EnullE_{\rm null}Enull — сигнал).
- Совместимость формы сигнала: reweighted SNR / chi^2
- привести тест согласия: χ2\chi^2χ2 (или reduced χr2=χ2/ν\chi^2_r=\chi^2/\nuχr2 =χ2/ν); альтернативно ре‑взвешенный SNR ρ^\hat\rhoρ^ (используется в pipelines).
- Остатки и недостающие компоненты: статистика мощности остатков после вычитания best‑fit сигнала, проверка на белизну и отсутствие корреляций с вспомогательными каналами.
- Робастность результатов при смене предположений/приоров: чувствительность Bs/nB_{s/n}Bs/n и параметров постериорных распределений к приорам и шумовой модели.
Операционные тесты (процедуры, которые проводить для каждого кандидата)
1. Фоновая оценка временем‑смещениями (time‑slides):
- Генерировать background из множества сдвигов; строить FAR как функцию ρ\rhoρ и ρ^\hat\rhoρ^ . Проверить стабильность FAR при увеличении числа слайдов.
2. Off‑source и off‑time проверки:
- Аналогичные окна до/после события; проверить, что похожие трансцендентные структуры редки.
3. Мультипайплайновая валидация:
- Прогнать candidate через минимум 2 разных pipeline (matched‑filter, unmodeled/coherent burst (cWB), BayesWave). Согласие повышает доверие.
4. Null‑stream и междетекторная когерентность:
- Вычислить EnullE_{\rm null}Enull и отношение Enull/EcohE_{\rm null}/E_{\rm coh}Enull /Ecoh . Требовать малой доли null‑энергии для сигнала.
5. Модельный vs нелинейный разбор (BayesWave):
- Сравнить объяснение через HsH_sHs (сигнал) и HgH_gHg (glitch) и HnH_nHn (шум). Оценивать Bs/nB_{s/n}Bs/n и Bs/gB_{s/g}Bs/g .
6. Анализ остатков:
- Проверить, что остатки после вычитания best‑fit сигнала удовлетворяют Gaussian/stationary гипотезе (см. статистические тесты ниже).
7. Верификация по вспомогательным каналам:
- Автоматические и экспертные проверки causal/auxiliary каналов на совпадение с событием; использовать классификаторы (GravitySpy) и метки DQ.
8. Gating / glitch‑mitigation and reanalysis:
- Если найден явный glitch, прогейтить и повторно прогнать поиск; проверить стабильность параметров.
9. Апостериорная согласованность параметров между детекторами:
- Временные задержки, амплитуды и поляризации должны быть совместимы с единой небесной локализацией.
Статистические тесты и валидация (не Monte‑Carlo‑free стратегии)
- Резервные непараметрические тесты на остатках:
- Kolmogorov–Smirnov / Anderson–Darling для распределения whitened residuals против стандартного нормального.
- Bootstrap / jackknife по временным блокам:
- Оценить устойчивость FAR и p‑значений при удалении/перемешивании сегментов; выделить нестабильные интервалы.
- Posterior predictive checks (Bayesian):
- Сгенерировать синтетические данные из постериора и сравнить статистики (SNR, χr2\chi^2_rχr2 , спектр) с реальными остатками.
- P‑P и coverage‑plots:
- Убедиться, что доверительные интервалы параметров покрывают истинные значения при контролируемых вложениях.
- ROC / precision–recall кривые:
- Для наборов инжекций и реального фона строить эффективность обнаружения при заданных FAR.
Тесты против немонте‑карловских выбросов (glitches и неожиданный шум)
- Adversarial glitch injections: внедрять реальные recorded glitches в off‑source данные и смотреть влияние на FAR/ROC, а не только синтетические шумовые модели.
- Подмены каналов/аннулирование: симулировать сценарии, когда один детектор содержит сильный glitch и проверять способность pipelines отличить локальные выбросы от когерентного сигнала.
- Кросс‑временные кореляции с auxiliary каналами: использовать статистики взаимной информации / ранговой корреляции для обнаружения нелинейных связей.
- Stability scanning: сканировать параметры препроцессинга (whitening, bandpass, downsampling) и требовать, чтобы claim не исчезал при допустимых изменениях.
Практическое правило принятия решения (пример многокритериального порога)
- Для низкого SNR рекомендую комбинированное правило (пример):
- FAR<1/(10 лет)\mathrm{FAR}<1/(10\ \text{лет})FAR<1/(10 лет) или p‑value <3×10−3<3\times10^{-3}<3×10−3, и
- байесовский фактор Bs/n>100B_{s/n}>100Bs/n >100 (сверху проверить робастность к приорам), и
- null‑энергия мала: Enull/(Enull+Ecoh)<0.3E_{\rm null}/(E_{\rm null}+E_{\rm coh})<0.3Enull /(Enull +Ecoh )<0.3, и
- χr2≲2\chi^2_r\lesssim 2χr2 ≲2 (или ре‑взвешенный ρ^\hat\rhoρ^ соответствует порогу), и
- согласие между минимум 2 pipelines и отсутствие DQ‑взаимосвязей в auxiliary‑каналах.
(Числа можно адаптировать под политику collaboration и желаемую вероятностную терпимость ложных срабатываний.)
Метрики качества и отчётность для каждого кандидата
- Таблица: ρnet\rho_{\rm net}ρnet , ρ^\hat\rhoρ^ , FAR\mathrm{FAR}FAR, ppp, Bs/nB_{s/n}Bs/n , EnullE_{\rm null}Enull , χr2\chi^2_rχr2 , согласованность arrival times / sky map overlap, результаты pipelines, DQ‑flags, результаты auxiliary checks, устойчивость при gating.
- Для низко‑SNR случаев обязать полный follow‑up: injections, BayesWave разбор, экспертная проверка auxiliary каналов.
Краткие рекомендации по внедрению в рабочий процесс
- Автоматизировать time‑slides и off‑source background, но требовать ручного/экспертного follow‑up для low‑SNR candidates.
- Использовать гибридный подход: комбинировать частотные (FAR) и байесовские критерии, plus null‑stream и auxiliary checks.
- Включать реальные glitch‑injection кампании (adversarial) в регулярную валидацию pipelines.
- Документировать все проверки и указывать чувствительность результатов к выбранным порогам и приорам.
Если нужно, могу дать шаблон чек‑листа для follow‑up кандидата (пошаговая форма с командами/метриками) или конкретные формулы для reweighted SNR/chi^2, используемые в GstLAL/pyCBC.