Anotado semiautomático de eventos de emergencia reportados en X basado en aprendizaje automático y computación evolutiva

Jesús  Zambrano-Zambrano; Joel  Garcia-Arteaga; Jorge  Parraga-Alava

doi:10.56124/encriptar.v6i11.0001

Autores/as

Jesús Zambrano-Zambrano Universidad Técnica de Manabí UTM
Joel Garcia-Arteaga Universidad Técnica de Manabí UTM
Jorge Parraga-Alava Universidad Técnica de Manabí UTM

DOI:

https://doi.org/10.56124/encriptar.v6i11.0001

Palabras clave:

Anotado semiautomático, algoritmos genéticos, aprendizaje automático, X, corpus

Resumen

Los corpus de texto relacionados con incidencias ciudadanas son escasos y el proceso de anotación, para determinar si se trata de una emergencia, normalmente se realiza de forma manual a través de anotadores humanos. Esta forma de realizar el proceso a menudo produce resultados aceptables, pero son más lentos, costosos, y factibles únicamente para conjuntos con volumen pequeño o que no requieren procesamiento en tiempo real. Realizar anotaciones con anotadores humanos para corpus de emergencias, las que por su naturaleza requieren acciones inmediatas, no parece ser ideal, sobre todo cuando se reportan en redes sociales como X. En este artículo se propone un enfoque para el anotado semiautomático de eventos de emergencia reportados en X, basado en aprendizaje automático y computación evolutiva. Se utilizó la metodología CRISP-DM con seis etapas: comprensión del problema, recolección, y comprensión de datos, modelado, validación y despliegue. Los experimentos computacionales muestran un buen desempeño cuando se utiliza como modelo el clasificador de vectores de soporte lineal (LSVC), cuyos hiper-parámetros son optimizados con un algoritmo de computación evolutiva. Se alcanzaron valores promedio de 0.976 y 0.963 de F1-Score, así como 0.96 y 0.97 del coeficiente correlación de Matthews, para anotar la etiqueta de emergencia en +170 mil tweets para la clasificación binaria y multiclase, respectivamente. Se concluye que es posible tener un enfoque eficaz para asignar la etiqueta de emergencia a los textos publicados en la red social X, gracias a la optimización de los valores de los parámetros de los modelos de clasificación de aprendizaje automático.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Boughorbel, S., Jarray, F., & El-Anbari, M. (2017). Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric. PLoS ONE, 12(6). doi: 10.1371/JOURNAL.PONE.0177678

Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics, 21(1). doi: 10.1186/S12864-019-6413-7

Ding, J., Data, X. L.-2018 I. I. C. on B., & 2018, undefined. (n.d.). An approach for validating quality of datasets for machine learning. Ieeexplore.Ieee.Org. Retrieved from

García-Arteaga, J., Zambrano-Zambrano, J., Parraga-Alava, J., An effective approach for identifying keywords as high-quality filters to get emergency-implicated X Spanish data [Manuscript submitted for publication]. Computer Speech & Language.

Han, J. H., Choi, D. J., Park, S. U., & Hong, S. K. (2020). Hyperparameter Optimization Using a Genetic Algorithm Considering Verification Time in a Convolutional Neural Network. Journal of Electrical Engineering and Technology, 15(2), 721–726. doi: 10.1007/S42835-020-00343-7

Luque, A., Maniglio, F., Casado, F., & García-Guerrero, J. (n.d.). Transmedia Context and X As Conditioning the Ecuadorian Government’s Action. The Case of the “Guayaquil Emergency” During the COVID-19 Pandemic. Raco.Cat, 2, 47–68.

Martínez-Rojas, M., … M. del C. P.-F.-I. J. of, & 2018, undefined. (n.d.). X as a tool for the management and analysis of emergency situations: A systematic literature review. Elsevier. Retrieved from

Ranjit, M., Ganapathy, G., … K. S.-2019 I. 12th, & 2019, undefined. (n.d.). Efficient deep learning hyperparameter tuning using cloud infrastructure: Intelligent distributed hyperparameter tuning with bayesian optimization in the cloud. Ieeexplore.Ieee.Org. Retrieved from

Wood, J., Griffis, T., Meteorology, J. B.-A. and F., & 2015, undefined. (n.d.). Detecting drift bias and exposure errors in solar and photosynthetically active radiation data. Elsevier. Retrieved from

Rojo, V., Pollo-Cattaneo, M. F., & Britos, P. (n.d.). Slanglex-ar: aplicación de un léxico de lenguaje informal de Argentina para el análisis de sentimientos en español en X. Aplicación de Tecnologías de la Información y Comunicaciones Avanzadas y Accesibilidad, 205.

Cànaves Alberti, M. (2020). Datación automática de poemas mediante técnicas de aprendizaje automático.

Mares Giner, J. M. (2017). Visualización y seguimiento de acontecimientos en X (Doctoral dissertation, Universitat Politècnica de València).

Yang, L., & Shami, A. (2020). On hyperparameter optimization of machine learning algorithms: Theory and practice. Neurocomputing, 415, 295-316.

Spasic, I., & Nenadic, G. (2020). Clinical text data in machine learning: systematic review. JMIR medical informatics, 8(3), e17984.

Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data mining. In Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining (Vol. 1, pp. 29-39).