Galaxias en cúmulos seleccionadas con inteligencia artificial
Abstract
El estudio de cúmulos de galaxias contribuye a diversas áreas de la astronomía,
permitiendo poner a prueba modelos cosmológicos, investigar la evolución de galaxias,
y la influencia del entorno sobre las mismas. La estimación de las propiedades físicas
de los cúmulos de galaxias depende de la correcta determinación de las galaxias que
pertenecen a un cúmulo, separándolas de aquellas que se encuentran frente o detrás
del mismo. En este trabajo se investiga la capacidad de tres algoritmos de aprendizaje
automático para seleccionar galaxias miembros de cúmulos. Se analiza cómo el uso
de distintos conjuntos de atributos fotométricos influye en su desempeño, y cómo este
varía en función de distintas variables, incluyendo redshift, color y luminosidad.
El conjunto de galaxias utilizado para el entrenamiento y la evaluación de los algoritmos fue seleccionado a partir del catálogo de galaxias y cúmulos identificados fotomé-
tricamente, publicado por Wen & Han (2021), construido utilizando los catálogos Hyper Suprime-Cam Subaru Strategic Program y unWISE. Para abordar el desequilibrio
de clases entre galaxias pertenecientes y no pertenecientes a cúmulos, se seleccionaron
las galaxias encerradas en un radio de aproximadamente 𝑅��500 alrededor de la galaxia
central de cada cúmulo. De este modo, el conjunto de galaxias resultante contuvo un
35 % de galaxias miembros de cúmulos.
Los 3 algoritmos analizados en este trabajo fueron redes neuronales (NN, neural
networks), bosques aleatorios (RF, random forests), y máquinas de vectores de soporte
(SVM, support vector machines). Sus predicciones fueron evaluadas según un conjunto
de métricas, que incluyó precisión 𝑃��, sensibilidad 𝑅��, y el área bajo la curva ROC (ROC
AUC). En el caso de NN, se compararon distintas arquitecturas para seleccionar aquella
que produjese los mejores resultados. Para RF y SVM se realizó una búsqueda de hiperparámetros para determinar el mejor modelo. Los algoritmos NN y RF produjeron
resultados similares al ser evaluados con un mismo conjunto de datos y de atributos,
y se continuó utilizando NN para analizar el desempeño del modelo. El desempeño
de SVM fue similar o inferior al de los otros algoritmos, según el conjunto de datos
utilizado.
El conjunto de atributos considerado inicialmente incluyó magnitudes, colores y
parámetros morfológicos en las bandas HSC grizy y la banda WISE W1. Para NN, este
conjunto resultó en una precisión 𝑃�� = 0,47, sensibilidad 𝑅�� = 0,74, y ROC AUC = 0,74.
El rendimiento del modelo mejoró significativamente al incorporar un conjunto de
estimadores de densidad local Σ
𝑛�� basados en la distancia proyectada al 𝑛��-ésimo vecino
más cercano, resultando en 𝑃�� = 0,76, 𝑅�� = 0,87 y ROC AUC = 0,93. Por otro lado, los
mejores resultados fueron producidos al añadir el redshift de la BCG (brightest cluster
galaxy, la galaxia más luminosa de un cúmulo) más cercana en distancia proyectada,
produciendo predicciones con 𝑃�� = 0,90, 𝑅�� = 0,93 y ROC AUC = 0,99.
La calidad de las predicciones realizadas disminuye con el redshift (𝑧��) de las galaxias y los cúmulos analizados, resultado esperado dada la mayor incertidumbre en las
mediciones fotométricas y la identificación de cúmulos a mayor redshift. Para 𝑧�� < 1,
el método investigado en este trabajo produce resultados satisfactorios, dependiendo
del conjunto de atributos utilizado. El desempeño de los algoritmos en función de color, magnitud y otros atributos se relaciona generalmente con la proporción de galaxias
pertenecientes y no pertenecientes a cúmulos en distintos rangos de los mismos. En
rangos de un atributo donde la fracción de galaxias miembros de cúmulos es menor,
disminuye la capacidad de los modelos para identificarlas, resaltando la importancia
de disponer de un conjunto de datos balanceado para su entrenamiento.
Collections
- Astronomía [3]
The following license files are associated with this item: