Gonzalo Joya-Caparros (1), Vivian Sistachs-Vega (2), Manuel Alejandro Cabrera-Castillo (3) y Pedro Roura-Pérez (4)
(1)Universidad de Málaga, España. E-mail: gjoya@uma.es
(2)Facultad de Matemática y Computación, Universidad de La Habana, Cuba. E-mail: vivian@matcom.uh.cu
(3) Centro de Investigación y Desarrollo de Simuladores SIMPRO, Cuba. E-mail: manuel.alejandro.cc@gmail.com
(4) Centro del Clima, Instituto de Meteorología, Cuba. E-mail: pedro.roura@insmet.cu
Resumen
En los últimos años, la Minería de Datos ha experimentado un auge como soporte para la gestión de la información y el conocimiento como alternativa a la modelación matemática. Esta permite explorar y analizar las Bases de Datos disponibles para ayudar a la toma de decisiones. La Minería de Datos se apoya en la aplicación de métodos matemáticos de análisis, y específicamente del uso de redes neuronales artificiales, que son de gran utilidad para llevar a cabo el análisis inteligente de grandes volúmenes de información digital. También la Climatología ha utilizado durante años las técnicas y herramientas estadísticas de manera sistemática, ellas brindan la posibilidad de explorar bases de datos existentes mediante métodos estadísticos. Estos métodos permitirán realizar descripciones y predicciones con menor incertidumbre por ello el objetivo que perseguimos a partir de la información obtenida del Departamento de Climatología del Instituto de Meteorología, referida a variables climáticas en las diferentes provincias de Cuba en el año 2011 es describir el comportamiento climático a partir de los datos observados con el fin de buscar relaciones y agrupamientos entre ellos. Para lograrlo utilizaremos la técnica de Minería de Datos, Mapas auto-organizados (SOM por sus siglas en inglés) y se confeccionó un paquete en R para facilitar el análisis. Se logró una descripción del comportamiento climático de Cuba en el año 2011, el cual se caracterizó por presentar dos estaciones bien definidas en periodos concretos y se obtuvo una descripción más detallada de cada uno de estos períodos.
Palabras clave: Minería de Datos, Mapas auto-organizados, K-Medias.
Abstract
On the latest years, Data Mining (DM) has experienced a growth as a support for information management and the knowledge as alterative to mathematical modeling. This allows exploring and analyzing the Data Bases (DB) available to help on decision making. Data Mining is based on the application of mathematical analysis methods and specifically the use of artificial neural networks, of great utility to carry out intelligent data analysis in great volumes of digital information. Climatology has used too, for many years in a systematic way techniques and statistics tools, allowing the possibility of exploring existing data bases by these means. These methods allow realizing descriptions and predictions with low uncertainty levels, thus the goal we peruse with this work is from information obtained by the Climatology Department, referred to the environmental variables on the different provinces of Cuba on 2011, to describe the climatic behavior of that year, from the observed data in order to seek relations and clustering among them. To achieve our goal we used the data mining technique Self- Organizing Maps (SOM) and in the process we make an R package to facilitate the analysisof this problem. We accomplish a description of the climatic behavior in Cuba on the year 2011, which was characterized by two well defined seasons on concrete periods, thus obtaining a more detailed description of each period.
Key words: data mining, Self-Organizing Maps, K-Means.