Ventajas del uso de la Minería de Datos

La información se genera en cantidades estratosféricas y a una velocidad escandalosa, con la llegada de las TIC´s la información prácticamente llueve, llega de todas partes del mundo a los ordenadores y servidores de las compañías y debido a la capacidad de almacenaje hoy en día la información puede llegarse a perder en el mar de datos, pero no todos esos datos son de utilidad para las organizaciones.

Es por esto que para poder procesar de una mejor manera la información almacenada y que llega es preciso utilizar herramientas que ayuden en la búsqueda de la información pero no solo con eso, también es preciso tener herramientas que permitan tener la información clara y precisa para obtener una mejor productividad con los datos obtenidos.

La minería de datos es una herramientas que ayuda a realizar esas tareas para poder aprovechar la información que se haya almacenado, sin embargo su uso no es algo que todas las organizaciones sepan o realicen, ya que existen otras herramientas como big data que realizan tareas similares sin embargo cada una tiene sus características.

En este articulo podremos ver como la minería de datos se ha vuelto una herramienta de mucha ayuda en la productividad de las empresas y de igual manera veremos cómo puede interactuar con otras herramientas, los beneficios que acarrea usar minería de datos y sus características particulares.

Definiciones.

Según (wikipedia.org, 2018) minería de datos significa lo siguiente:

«La minería de datos o exploración de datos (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.»

Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, supone aspectos de gestión de datos y de bases de datos,

de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.

Otra definición dada por (Marqués, 2014) nos dice que la minería de datos es:

«Podemos definir la minería de datos como un conjunto de técnicas encaminadas al descubrimiento de la información contenida en grandes conjuntos de datos. Se trata de analizar comportamientos, patrones, tendencias, asociaciones y otras características del conocimiento inmerso en datos.»

La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

  • Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor.
  • Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.
  • Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones.
  • Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos.
  • Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades. (microsoft.com, 2018)

Etapas principales de la minería de datos.

Se dice que la minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos con el objetivo de encontrar patrones que nos puedan aportar información valiosa en la toma de futuras decisiones. El proceso de minería de datos tiene normalmente cuatro etapas principales:

  • Determinación de los objetivos
  • Procesamiento de los datos
  • Determinación del modelo
  • Análisis de los resultados

Durante el primero de los pasos se trata el tipo de información que el cliente desea extraer de la base de datos. La segunda etapa es la que requiere más trabajo ya que se tiene de seleccionar, limpiar, enriquecer, reducir y transformar la base de datos que nos ha facilitado el cliente. Una vez la hemos procesado y está lista para implementarle el algoritmo de inteligencia artificial, tenemos que escoger qué algoritmo nos va a dar mejores resultados.

Cuando se hace la elección del mejor algoritmo es para una tarea analítica específica es un gran desafío y depende del problema a resolver. Hay básicamente cinco problemas diferentes en la minería de datos: clasificación, regresión, segmentación, asociación y análisis de secuencias.

Para resolver estos problemas hay muchos algoritmos a utilizar, los principales son: los de asociación, los clústeres, los de árbol de decisión, los de regresión lineal, el clasificador Bayesiano ingenuo, los de red neuronal, los clústeres de secuencia y los de serie temporal.

Finalmente, el último paso es el de análisis de los resultados. Actualmente este trabajo se está realizando en muchas áreas de negocio como seguridad de datos, finanzas, salud, marketing, detección de fraude, búsquedas online, procesamiento de lenguaje natural o los nuevos coches inteligentes. (muyinteresante.es)

Integración de Minería de datos y Big data.

Data Mining consiste en el conjunto de técnicas para la extracción de la información y que Big Data es la tecnología capaz de capturar, gestionar y procesar en un tiempo razonable y de forma veraz estos datos. Data Mining requiere de Big Data para agilizar su procesamiento y gestión de los datos y, a la vez, Big Data requiere de Data Mining para el análisis predictivo de datos y poder detectar tendencias. Podríamos decir que hay una integración mutua entre técnica y herramienta.

La tecnología Big Data es capaz de capturar, almacenar, gestionar y procesar de forma rápida y veraz grandes cantidades de datos sacándole partido de ellos.

Fundamentalmente, se enfoca al análisis predictivo y a detectar tendencias, sirviéndose de distintas técnicas, entre ellas las de minería de datos. A través de la definición de modelos y el uso de las diferentes tecnologías se busca convertir los datos en un activo de gran valor.

Sirviéndonos de esta tecnología conseguimos identificar patrones comunes que pueden servir para encontrar nuevos nichos de mercado, definir características claves sobre los clientes actuales o futuros, generar parámetros, métricas o procesos.

Consiste en una transformación en la forma de hacer negocios, aumentando en muchos casos la rentabilidad y productividad de las compañías.

El Data Mining es versátil y de la misma forma que nos puede servir para realizar un análisis convencional, es un buen recurso para extraer valor del Big Data. La combinación de los dos hace que ambas herramientas tengan aún mayor potencial. (Balagueró, 2017)

Ejemplos de aplicación de data mining y Big Data.

Debido a que Big Data y Data Mining tienen funciones diferentes y, por tanto, se aplican para diferentes contextos, vamos a ver algunos ejemplos de su ámbito de aplicación.

Waltt Disney hacía uso de Big Data para el análisis de rutas de sus clientes y mejorar su experiencia en tiempo real permitiendo conocer con mayor profundidad a los usuarios o consumidores.

Data Mining analiza la información para conocer y descubrir patrones de conducta sospechosos. Sería de aplicación en la búsqueda de patrones de conducta delictiva, analizar patrones de conductas vinculadas a fraudes o estafas en la banca o estudios de microbiología para establecer patrones de conducta entre las bacterias. (Balagueró, 2017)

Ciclo de la minería de datos

  1. Los usuarios de la información deberán identificar los problemas del negocio y las áreas en donde los datos pueden dar valor agregado a la empresa. Asimismo, es importante identificar las áreas en donde la información es muy cambiante, pero primordial para la competitividad de la empresa. Para esto pueden manejarse diversos criterios y no se tiene unos específicos que se les pueda llamar correctos. El objetivo es determinar los criterios, ideas, normas y cuestionamientos que fungirán como entrada para el proceso de minería de datos.
  2. Para analizar la información histórica el usuario seleccionara el algoritmo o algoritmos adecuados de minería. Posteriormente, estos algoritmos son traducidos a programas mineros que realizaran las búsquedas con los criterios previamente definidos.
  3. Incorporar la información obtenida a través del proceso de minería de datos al proceso de toma de decisiones; así como presentar los hallazgos encontrados a los responsables de las operaciones de forma que la información obtenida pueda integrarse en los procesos de la empresa y pueda aplicarse en la solución de problemas.
  4. Medir los resultados: Medir el valor de los hallazgos encontrados, que se proporcionan al tomador de decisiones con relación a la solución de los problemas identificados y a los criterios definidos en el primer punto. (Lagunés, 2016).

Minería de textos

La minería de texto es un nuevo campo emergente que intenta extraer información significativa del texto natural de la lengua. Puede ser caracterizado en términos generales como el proceso de análisis de texto para extraer información que es útil para fines particulares. En comparación con el tipo de datos almacenados en bases de datos, el texto es estructurado, amorfo, y difícil  de tratar de forma algorítmica. Sin embargo, en la cultura moderna, el texto es el vehículo más común para el intercambio formal de información. Los campos de la minería de texto por lo general se ocupan de los textos cuya función es la comunicación de los hechos, informaciones u opiniones, y la motivación para tratar de extraer información de dicho texto automáticamente es convincente, incluso si el éxito es sólo parcial.

La frase «la  minería de texto» se utiliza generalmente para referirse a cualquier sistema que analiza grandes cantidades de texto y lenguaje natural y detecta los patrones de uso de léxico o lingüísticos en un intento de extraer la información probablemente útil. (Ramírez, 2016)

Ventajas del uso de la minería de datos con respecto a otras técnicas de manejo de información.

  • La minería de datos nace de las necesidades de manejar información contenida dentro de las bases de datos de las organizaciones, este procedimiento tiene una serie de ventajas sobre otros procesos que son utilizados para el manejo de información como lo son:
  • La minería de datos proporciona a los altos mandos empresariales un conjunto de relaciones y conocimiento que en muchas ocasiones no se sabía que existía dentro de la organización.
  • La minería de datos ayuda a las empresas a elegir las rutas por donde llevarán el curso de las empresas, así como a conseguir ventajas competitivas contra sus rivales de mercado, ya que mediante el uso de la minería de datos se conocerá información que solo la empresa conoce de manera exclusiva.
  • Nosotros como seres humanos poseemos la capacidad para detectar patrones y anomalías de una manera por decirlo así superficial, es por ello que mediante el uso de la minería de datos se podrá percibir de una mejor manera patrones que a simple vista son difíciles de localizar por nuestra simple apreciación. (Franco, 2016)

Minería de datos y otras disciplinas.

Existen ciertas fronteras entre la minería de datos y las disciplinas análogas, como pueden serlo la estadística, la inteligencia artificial, etc. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y métodos específicos que la hacen distinta de otras disciplinas.

El hecho es que, en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —redes neuronales, árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos. (wikipedia.org, 2018)

De la estadística.

Ciertamente, la minería de datos bebe de la estadística, de la que toma las siguientes técnicas:

  • Análisis de varianza, mediante el cual se evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintas.
  • Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
  • Prueba chi-cuadrado: por medio de la cual se realiza el contraste de la hipótesis de dependencia entre variables.
  • Análisis de agrupamiento o clustering: permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos.
  • Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
  • Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales. (wikipedia.org, 2018)

De la informática.

De la informática toma las siguientes técnicas:

  • Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
  • Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
  • Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.
  • Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.
  • Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. (wikipedia.org, 2018)

Mediante la minería de datos, puede hacer consultas mucho más complejas de sus datos que utilizando métodos de consulta convencionales. La información que la minería proporciona puede mejorar notablemente la calidad y fiabilidad de la toma de decisiones empresariales.

Por ejemplo, los métodos convencionales pueden indicar a un banco cuál es el tipo de cuenta bancaria más rentable de entre las que proporciona. En cambio, la minería de datos permite al banco crear perfiles de los clientes que ya disponen de ese tipo de cuenta. El banco puede luego utilizar la minería de datos para encontrar otros clientes que coinciden con ese perfil, y así poder emprender una campaña comercial dirigida específicamente a esos clientes.

La minería de datos puede identificar patrones en los datos de la empresa, por ejemplo, en los registros de compra de un supermercado. Si, por ejemplo, los clientes compran los productos A y B, ¿qué producto C es más probable que compren también? Responder con precisión a preguntas como éstas son una ayuda muy valiosa para crear estrategias comerciales.

La minería de datos puede identificar las características de un grupo conocido de clientes, por ejemplo, los clientes con escaso crédito. La empresa puede luego utilizar estas características para seleccionar nuevos clientes y predecir si ellos también tendrán escaso crédito. Las herramientas de minería de datos facilitan y automatizan el proceso de descubrir esta clase de información en bases de datos de gran tamaño. (ibm.com)

Conclusión.

La información se ha vuelto un activo importante para las empresas, recientemente facebook estuvo inmerso en un problema muy serio derivado del mal manejo que le dio a la información de sus usuarios, refiriendo al caso de Cambridge analytica, ya que permitió que esta compañía procesara los datos de sus usuarios todo con el propósito de hacer una mejor campaña para el entonces candidato Donald Trump.

Este serio problema llevo al mismo dueño de la compañía (facebook) Mark Zuckerberg a tener que declarar ante el congreso de los Estados Unidos el por que permitió tal cosa, a lo que se quiere hacer referencia es que la información que se genera hoy en día lleva mucho valor, tiene mucho peso pues con la llegada de las TIc´s se bombardea de información a las organizaciones.

Es tanta la información que se genera hoy en día que se han tenido que desarrollar inteligencias artificiales que sean capaces de manejarla, se han realizado redes neuronales que puedan procesar de una manera mas sofisticada y eficiente la información que se genera por ejemplo en google o en youtube, ya que sus usuarios rebasan los miles de millones.

Sin duda alguna la minería de datos ha llegado para soportar parte de ese peso que genera la información, sin embargo siempre debemos de tener cuidado de cómo se maneja la información y sobre a quién le permitimos manejar.

Propuesta de tesis.

Realizar convenios con empresas especialistas en minería de datos para poder inmiscuir a los alumnos dentro de las mismas.

Objetivo general.

Que los alumnos realicen proyectos o trabajos que se relacionen con el manejo de la minería de datos y se empapen mas de este tema para estar más preparados.

Agradecimientos.

Agradezco a mi madre que es la fuerza para seguir cada día y quien me ha hecho llegar hasta donde estoy, a mis profesores que me han aportado su tiempo y su conocimiento para poder seguir adelante en mis estudios, al Doctor Fernando Aguirre y Hernández ya que nos ha brindado toda su experiencia y conocimiento en esta materia de Fundamentos de Ingeniería Administrativa, así mismo a CONACYT ya que nos da su apoyo para motivarnos a salir adelante en nuestra aventura por la maestría.

Bibliografía.

Balagueró, T. (1 de Noviembre de 2017). https://www.deustoformacion.com.

Recuperado el 26 de Mayo de 2018, de https://www.deustoformacion.com: https://www.deustoformacion.com/blog/gestion-empresas/que-es-mineria-datosbig-data

Franco, L. G. (6 de Abril de 2016). https://www.gestiopolis.com. Recuperado el 26 de Mayo de 2018, de https://www.gestiopolis.com:

https://www.gestiopolis.com/mineria-datos-textos/

ibm.com. (s.f.). https://www.ibm.com. Recuperado el 26 de Mayo de 2018, de https://www.ibm.com: https://www.ibm.com/support/knowledgecenter/es/SSEPGG_10.5.0/com.ibm.im.ov erview.doc/c_dm_goals.html

Lagunés, X. A. (2 de Junio de 2016). https://www.gestiopolis.com. Recuperado el

26          de        Mayo        de        2018,        de https://www.gestiopolis.com:

https://www.gestiopolis.com/mineria-datos-informacion/

Marqués, P. (2014). MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS. España:

  1. Libros.

microsoft.com. (1 de Mayo de 2018). https://docs.microsoft.com. Recuperado el 26 de Mayo de 2018, de https://docs.microsoft.com: https://docs.microsoft.com/eses/sql/analysis-services/data-mining/data-mining-concepts?view=sql-analysisservices-2017

muyinteresante.es. (s.f.). https://www.muyinteresante.es. Recuperado el 26 de

Mayo              de             2018,             de       https://www.muyinteresante.es:

https://www.muyinteresante.es/tecnologia/preguntas-respuestas/que-es-la-mineriade-datos-311477406441

Ramírez, A. A. (21 de Septiembre de 2016). https://www.gestiopolis.com.

Recuperado el 26 de Mayo de 2018, de https://www.gestiopolis.com: https://www.gestiopolis.com/mineria-datos-e-informacion/

wikipedia.org. (27 de Abril de 2018). https://es.wikipedia.org. Recuperado el 26 de

Mayo                 de                2018,                de          https://es.wikipedia.org:

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

Cita esta página

Pedraza Boza Aldo Carlos. (2018, junio 14). Ventajas del uso de la Minería de Datos. Recuperado de https://www.gestiopolis.com/ventajas-del-uso-de-la-mineria-de-datos/
Pedraza Boza Aldo Carlos. "Ventajas del uso de la Minería de Datos". gestiopolis. 14 junio 2018. Web. <https://www.gestiopolis.com/ventajas-del-uso-de-la-mineria-de-datos/>.
Pedraza Boza Aldo Carlos. "Ventajas del uso de la Minería de Datos". gestiopolis. junio 14, 2018. Consultado el . https://www.gestiopolis.com/ventajas-del-uso-de-la-mineria-de-datos/.
Pedraza Boza Aldo Carlos. Ventajas del uso de la Minería de Datos [en línea]. <https://www.gestiopolis.com/ventajas-del-uso-de-la-mineria-de-datos/> [Citado el ].
Copiar

Escrito por:

Imagen del encabezado cortesía de beachmobjellies en Flickr