Qué es la Minería de Datos
La minería de datos, puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. (Pérez López & Santín González, 2008)
El propósito de la minería de datos es descubrir, extraer y almacenar información relevante de amplias bases de datos, esto lo logra utilizando diversos programas que permiten la búsqueda e identificación de patrones y relaciones globales como: tendencias, desviaciones, etc.
La minería de datos se puede considerar como una colección de diferentes técnicas que sirven para inducir conocimiento e información de manera estructurada de un conjunto de datos. (Vilches Gonzáles & Escobar Broitman, 2007)
Con base en lo anterior, podemos decir que el objetivo fundamental de la minería de datos es: aprovechar la información localizada, para recaudar información valiosa e estructurada, que permita la toma de decisiones.
La base de este proceso lo comprenden tres disciplinas científicas entrelazadas:
- Estadística (estudio numérico de relaciones de datos),
- Inteligencia artificial (Inteligencia generada por software y/o maquinas)
- Machine learning (algoritmos que pueden aprender de datos para hacer predicciones)
La minería de datos permite (Inc., s.f.):
- Filtrar el ruido
- Eliminar ruido repetitivo
- Priorizar información
- Dar buen uso a la información
- Acelerar el ritmo de la toma de decisiones informadas
Origen de la Minería de Datos
Desde los años sesenta los estadísticos manejaban términos como: data fishing, data mining o data archaeology, con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido, “el ruido es algo que hay que evitar, ya que ensucia el mensaje que se está transmitiendo” (Ferreyra, 2007).
Sin embargo, no fue hasta los ochenta que se acuño el término “minería de datos” y Knowledge Data Discovery (KDD) en español “descubrimiento del conocimiento en bases de datos”. Para esa época, sólo existían un par de empresas dedicadas a esta tecnología; actualmente cada vez más empresas alrededor del mundo incursionan en este sector tecnológico. Por su aplicabilidad en diversas áreas, la minería de datos, ha sido un buen punto de encuentro entre grupos multidisciplinarios, sobre todo conjunta el ámbito académico y el empresarial.
El siguiente gráfico muestra el surgimiento y popularización del término en la literatura a partir de las últimas décadas del siglo pasado.
El proceso de extracción del conocimiento y Minería de Datos
“La minería de datos, es parte de una etapa del proceso de extracción del conocimiento a partir de datos (KDD)” (2008, págs. 3-8). Dicho proceso consta de las siguientes fases:
- Selección
- Recopilar e integrar las fuentes de datos existentes
- Identificar y seleccionar las variantes relevantes en los datos
- Aplicar las técnicas de muestreo adecuadas
- Exploración
- Utilizar las técnicas de análisis exploratorio de datos
- Deducir la distribución de los datos, simetría y normalidad
- Analizar las correlaciones existentes en la información
- Limpieza
- Detectar y tratar la presencia de valores atípicos (outliers)
- Imputar la información faltante o valores perdidos (datos missing)
- Eliminar datos erróneos e irrelevantes.
- Transformación
- Utilizar las técnicas de reducción y aumento de la dimensión
- Aplica técnicas de discreción y numeración
- Realizar escalado simple y multidimensional
- Minería de datos
- Utilizar técnicas predictivas
- Utilizar técnicas descriptivas.
- Evaluación e interpretación de resultados
- Intervalo de confianza
- Bootstrap
- Análisis ROC
- Evaluación de modelos
- Difusión y uso de modelos
- Visualización
- Simulación
Estructura de la Minería de Datos
Los mineros son programas pensados y creados por el usuario, en el que se emplean técnicas diferentes para la explotación de los datos, tales como cluster, asociaciones, clasificación, visualización, etc. Todos deben ser una base de datos considerable para que pueda ser eficientes.
Algoritmos o programas de búsqueda mineros
El objetivo de los programas mineros, es correlacionar los datos de selección y búsqueda con los datos históricos, mostrando hallazgos interesantes (sí es que los hay). Dichos programas trabajan con programación automática, no necesitan hardware especial o dedicado, trabajan en redes empresariales, trabajan por las noches sobre datos ya recolectados.
Datos históricos
Es dónde se busca, son datos estables y coherentes previamente recolectados en la empresa.
Criterios de búsqueda
Son los lineamientos, tendencias y patrones desde los cuales los programas mineros realizan el proceso de búsqueda y selección de datos, es prácticamente el qué se busca, estableciente los criterios de prioridad de búsqueda.
Almacenamiento de hallazgos
Son los datos finales del proceso, en donde el ser humano se involucra en el proceso pues es quien determina si los datos son valiosos o no, según los criterios establecidos.
Ciclo de la minería de datos
En el artículo escrito por (Angeles Larrieta & Santillán Gómez), las autoras exponen que la minería de datos cumple un ciclo, ya que los resultados generados, pueden ser parte inicial de un proceso similar, limitan de la información desempeñan un papel fundamental ya que son ellos los que deben analizar y cuatro pasos principales:
- Determinar los criterios, patrones, tendencias, normas y cuestionamientos para el proceso, para dicha etapa los usuarios determinar qué tipo de información debe ser generada para apoyar la toma de decisiones.
- Selección del algoritmo adecuado de minería, los cuales son traducidos a programas mineros que realizan la búsqueda de los criterios previamente definidos. Se debe tomar en cuenta que el lugar de origen de estos datos puede interferir con el resultado del análisis, para prevenir eso se ha hecho uso de la data warehouse, que pretende unir los datos más importantes de la empresa.
- Utilizar la información obtenida a través del proceso de minería de datos en la toma de decisiones y presentar los hallazgos encontrados.
- Medir los resultados, es decir, si los hallazgos encontrados, proporcionan la suficiente información para la toma de decisiones.
Además del ciclo de vida que las autoras mencionan, algunos investigadores lo determinan como un protocolo, el cual incluye las siguientes fases:
- Comprensión del negocio y problema.
- Determinación, obtención y limpieza de los datos necesarios.
- Creación de modelos matemáticos
- Validación, difusión de hallazgos y resultados.
- Integración.
Entre cada una de estas fases hay subfases, que se van determinando de acuerdo a la complejidad del proyecto y la experiencia de quien lleve la dirección del mismo.
Técnicas de la minería de datos
Técnicas predictivas
Son aquellas en donde se especifica el modelo para los datos con base en un conocimiento teórico previo. El modelo propuesto para los datos debe contrastarse después del proceso de minería de datos antes de aceptarlo como válido.
- Algoritmos genéticos
- Clasificación ad hoc (discriminante, árboles de decisión, redes neuronales).
Técnicas descriptivas
No se asigna ningún papel predeterminado a las variables, no se supone la existencia de variables dependientes e independientes.
- Clasificación post hoc (clustering, segmentación)
- Asociación
- Dependencia
- Reducción de la dimensión
- Análisis exploratorio
- Escalamiento multidimensional
Las dos primeras están enfocadas al descubrimiento del conocimiento.
Técnicas auxiliares
Son herramientas de apoyo más superficiales y limitadas. Buscan la verificación.
- Proceso analítico de transacciones
- (OLAP)
- SQL y herramientas de consulta
- Reporting
Aplicaciones de la minería de datos
La minería de datos al día de hoy ha sido aplicada a una variedad de áreas, ha permitido la toma de decisiones de un sinfín de empresas y sobre diversos temas empresariales y sociales, a continuación, se describen algunas aplicaciones:
- Comercio y banca, segmentación de clientes, previsión de ventas, análisis de riesgo.
- Medicina, diagnóstico de enfermedades, la efectividad de los tratamientos, seguimiento de pacientes.
- Seguridad y detección de fraude, reconocimiento facial, identificaciones biométricas, accesos a redes no permitidos, etc.
- Recuperación de información no numérica, minería de texto, minería web, búsqueda e identificación de imagen, video, voz y texto de bases de datos multimedia.
- Astronomía, identificación de nuevas estrellas y galaxias.
- Geología, minería, agricultura y pesca : identificación de áreas de uso para distintos cultivos o de pesca o de explotación minera en bases de datos de imágenes de satélites.
- Ciencias Ambientales, identificación de modelos de funcionamiento de ecosistemas naturales y/o artificiales para mejorar su observación, gestión y/o control.
- Ciencias Sociales, Estudio de los flujos de la opinión pública. Planificación de ciudades: identificar barrios con conflicto en función de valores sociodemográficos, etc.
Big Data Vs. Minería de Datos
Big Data y Data Mining, son términos que suelen ser relacionados, pero son conceptos con claras diferencias entre ellos.
Big Data: Se refiere a un volumen grande de datos que pueden ser estructurados, semiestructurados y no estructurados. Comprende de 5 Vs, es decir:
- Volumen: Una cantidad de datos o tamaño de datos, que puede estar en quintillón (más de
1Tb). - Variedad: Diferentes tipos de datos como redes sociales, registros del servidor web, etc.
- Velocidad: Qué tan rápido crecen los datos; en la big data, los datos crecen exponencialmente y a un ritmo muy rápido.
- Veracidad: La incertidumbre de los datos, es decir la veracidad de la fuente, la cual puede ser confiable o no.
- Valor: Los beneficios de procesar los datos almacenados.
Se cree que, para este año, habrá 5,200 Gb de datos por cada persona en el mundo; lo importante no es cuánta información tenemos, sino, lo que se podrá hacer con ella.
Contrastando estos dos conceptos, se puede decir que: mientras la big data, se refiere a una gran cantidad de datos, la minería de datos se refiere a una inserción profundo en los datos para extraer el conocimiento más importante de una determinada cantidad de datos, generando un análisis identificando los patrones y relación ente los datos. Se cree que la “Data Mining” depende de “Big Data”, sin embargo, la primera puede trabajar con datos sin importar el tamaño de estos, pero la big data, dependerá de la minería de datos, para encontrar un sentido y funcionalidad a la gran cantidad de datos obtenidos.
Minería de Datos Vs. Otras herramientas de uso de datos
Las características que destacan son (Angeles Larrieta & Santillán Gómez):
- La minería de datos, como auxiliar empresarial, descubre relaciones que no se habían considerado.
- La información que se obtiene, ayuda a elegir cursos de acción y definir estrategias competitivas.
- Detecta a través de modelos de análisis avanzados, patrones difíciles de detectar.
- Puede trabajar el mismo criterio con grandes cantidades de información.
- Los procesos de búsqueda son automatizados.
- Produce 5 tipos de información: Asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.
Software Disponible
Para analizar la minería de datos existe una gran cantidad de software, dentro de los más representativos, y gratuitos, tenemos los siguientes (Vilches Gonzáles & Escobar Broitman, 2007):
- Weka (Waikato Environment for Knowledge Analysis)
- Yale (Yet another learning environment)
- R: R (R Analytical Tool to Learn Easily)
Conclusión
La minería de datos, es un proceso que ha permitido al ser humano avanzar de la mano con la globalización, globalización que permite el fácil acceso a grandes conglomeraciones de información, de todo tipo, la cual, si es tratada y analizada correctamente, se vuelven datos muy valiosos. Es allí donde entra la minería de datos, como parte del proceso de extracción del conocimiento permite filtrar, por medio de una serie de técnicas y sistemas, la información contenida en una base de datos para que, con base en tendencias, patrones, valores, etc., se filtre y los hallazgos que se obtengan sean información valiosa para la toma de decisiones empresariales, gubernamentales, etc.
Se debe tener en cuenta que para que la minería de datos, arroje resultados certeros la persona que defina los criterios de análisis debe tener pleno conocimiento del problema y el origen de la información, para que, con base en ello, defina las variables a considerar para el análisis de datos.
La minería de datos, se ha vuelto un gran aliado para las grandes organizaciones; quienes ayudados por ésta, han implementado mejoras en sus sistemas, implementado nuevos productos, detectado áreas de oportunidad, nuevos nichos de mercado, etc.
Referencias Consultadas
- Angeles Larrieta, M. I., & Santillán Gómez, A. M. (s.f.). Journal UNAM. Obtenido de Journal UNAM: http://www.ejournal.unam.mx/rca/190/RCA19007.pdf
- Ferreyra, R. M. (11 de Octubre de 2007). Powerhouse. Obtenido de Powerhouse: http://powerhousedm.blogspot.com/2007/10/qu-es-el-ruido.html
- Inc., S. I. (s.f.). SAS Minería de Datos. Obtenido de SAS: https://www.sas.com/es_mx/insights/analytics/data-mining.html#dmhistory
- Pérez López, C., & Santín González, D. (2008). El proceso de extraccion del conocimiento . En C. Pérez López, & D. Santín González, Minería de Datos; técnicas y herramientas. Madrid: Thomson.
- Vilches Gonzáles , E., & Escobar Broitman, I. A. (2007). Minería de datos. lpmagazine, 2-8.