Recibe los titulares de GestioPolis en tu correo.
Un envío diario ofrecido por FeedBurner

RELACIÓN ENTRE DATA MINING Y LOS SISTEMAS DE BASES DE DATOS

Autor: Alfredo Martínez Orol

Nueva economía internet y tecnología

02-2007

Herramientas

Actualmente, dentro de una organización, el apoyo a la decisión se enfrenta a grandes problemas: - Hay almacenadas grandes cantidades de datos. - Los datos pueden provenir de fuentes muy distintas. - Los dominios de los datos pueden ser muy diversos.   Además se da la paradoja de que cuanta más información se posee (y más variada sea ésta) más difícil es extraer información útil. Para resolver estas situaciones surge el Data Mining (minería de datos). Para llevar a cabo el minado de datos se necesitan sistemas de bases de datos. Estos sistemas pueden ser de dos tipos:

- Sistemas de bases de datos tradicionales.
- Sistemas de Data Warehousing.
 
El Data Mining se basa en técnicas que han existido desde hace bastante tiempo. La razón de que ahora se haga uso de ellas para el minado de datos es que ahora existe una gran cantidad de datos recopilados, estructurados y organizados. En gran parte esto es debido a los sistemas de bases de datos, que permiten asegurar características tales como la integridad y la seguridad.
 
Las aplicaciones de minería de datos deberían tenerse muy en cuenta desde un principio, durante el diseño de un almacén de datos. Asimismo, las herramientas de minería de datos deberían ser diseñadas para facilitar su uso en conjunción con los almacenes de datos. De hecho, para muchas bases de datos de gran tamaño que se convierten en terabytes de datos, el éxito de la utilización de aplicaciones de minería de bases de datos dependerá en primer lugar de la construcción de un almacén de datos.
 
Data Mining es un proceso para extraer información útil a partir de grandes cantidades de datos. El Data Mining a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil de negocio. Es una tecnología que ayuda a las empresas a concentrarse en la información más importante de sus bases de información.
 
Las herramientas de Data Mining predicen futuras tendencias y comportamientos y pueden responder, de forma rápida, a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas; esta herramientas exploran la base de datos en busca de patrones ocultos encontrando información predecible.
 
Esencialmente el Data Mining consiste en hacer una serie de consultas, cuyo resultado puede depender, a su vez, de de la respuesta de anteriores consultas. La Minería de datos, con una fuerte base matemática (sobre todo en modelización) e informática, involucra a muchas otras disciplinas tales como:
 
  Bases de Datos ( Contribuye con las técnicas deductivas de procesamiento de consultas)
  Inteligencia Artificial ( Aprendizaje computerizado, lógica difusa, programación lógica, redes neuronales, etc.)
  Estadística ( Por medio de técnicas estadísticas como: Anova, regresiones, ji cuadrado, componentes principales, análisis cluster, etc.)
  Investigación Operativa ( modelado, algoritmos y toma de decisiones)
  Análisis matemático ( Por medio de técnicas matemáticas tales como las Series Temporales)
  Visualización ( Para lograr una minería de datos interactiva).
  Apoyo a la decisión ( Herramientas de evaluación del rendimiento, planificación, organización, árboles de decisión, etc.)
  Heurística (Algoritmos genéticos, métodos del vecino más cercano, etc.)
  Paralelismo( Para mejorar el rendimiento de los algoritmos de Data Mining9.
  Arquitectura de ordenadores ( Ofreciendo un entorno adecuado para la aplicación de las técnicas de Data Mining).


2. UTILIDAD DEL DATA MINING

- Detectar patrones habituales tales como los hábitos de compra por ejemplo.
- Detectar patrones anormales como puedan ser posibles fraudes, errores,
etc.
- Predicciones del futuro basadas en el pasado y en las tendencias actuales como por ejemplo para el pronóstico de posibles problemas financieros.
 
Una razón por la que el Data Mining se ha convertido en una tecnología demandada por empresas, es porque se han dado cuenta de las oportunidades de negocio que ofrece el conocimiento de sus clientes.


2.1 PROCESO DE DESCUBRIMIENTO DEL CONOCIMIENTO (KDD)
 
El Data Mining no es un proceso sencillo. Existen seis pasos básicos para realizar un proyecto de Data Minig eficaz.:
 
1. Comprender el problema que se desea resolver y definirlo. Ya que los proyectos mal definidos tienen pocas probabilidades de dar resultados satisfactorios, además de tener claros los objetivos que se persiguen debe adaptarse a las características del entorno donde se desarrolla el problema.
 
2. Seleccionar los datos. Si queremos que los datos “hablen” debemos disponer de una muestra amplia y hacer una selección adecuada de los datos y además de las variables pertinentes.
 
3. Determinar la forma en que deben representarse los elementos de los datos frente al algoritmo de Data Mining. Se deben determinar de forma adecuada las unidades, categorías o clasificación de los datos ella que de ello dependerá, en gran medida, el éxito o fracaso del proyecto.
 
4. Usar el algoritmo, o la serie de algoritmos, de Data Minig adecuados.
 
5. Analizar el resultado obtenido. Este resultado debe ajustarse al marco del ámbito del problema que se está tratando. En este paso la visualización reviste de gran importancia.
 
6. Presentación de los resultados a los responsables de operaciones deforma que los conocimientos obtenidos puedan integrarse en los procesos de la corporación.


TIPOS DE RESULTADOS
 
Existen dos planteamientos, uno más interactivo que otro, para extraer información útil con los algoritmos de Data Minig:
 
El primer planteamiento consiste en iniciar un programa, identificar los patrones, normas o funciones y luego hacer que el analista los revise en busca de su valor.

El segundo planteamiento, más interactivo que el anterior, se denomina análisis exploratorio de datos. En él el analista pide que los datos le sean presentados de una forma determinada, los observa, los transforma y los revisa; se mueve hacia delante y hacia detrás, explorando las relaciones que a menudo aparecen, mediante métodos únicos de visualización y por último presenta una respuesta.

Los conocimientos así obtenidos pueden utilizarse posteriormente como entrada para otro análisis y establecer así un ciclo para obtener conclusiones más complejas.


2.5. ARQUITECTURA DE LOS SISTEMAS
 
Hay dos enfoques en la arquitectura que debe seguir un sistema de bases de datos que permita el minado de datos:
 
1. Añadir una herramienta de minado a un S.G.B.D.- La herramienta debe tener la interfaz adecuada con el S.G.B.D. para extraer la información de la base de datos. La principal ventaja de esta aproximación es que se tiene una arquitectura abierta: la herramienta no está limitada a un S.G.B.D. concreto. Sin embargo, al usar un S.G.B.D. de propósito general para la minería aparecen problemas de rendimiento.
 
2. Incluir la herramienta de minado de datos en el S.G.B.D.- Las técnicas de minado pueden influir en muchas de las funciones de los S.G.B.D.: almacenamiento, ejecución de consultas, manejo de transacciones, manejo de la metainformación, integridad, seguridad, algoritmos de optimización, etc. Además en un S.G.B.D. para minería se pueden eliminar funciones de un S.G.B.D. general que no son necesarias para el Data Mining y potenciar así funciones claves como la integridad y la calidad de los datos.

Por ejemplo, la mayoría de las aplicaciones de minado no necesitan los datos relacionados con transacciones, por lo que se pueden eliminar las funciones que manejan este tipo de información.


2.6. FUNCIONES DE LAS BASES DE DATOS Y DEL DATA MINING
 
El minado de datos puede influir en las funciones de los sistemas de bases de datos, sobre todo en aquellos que siguen el enfoque de una gran integración con la herramienta de minería. Algunas de las funciones que pueden sufrir cambios considerables son aquellas relacionadas con el procesamiento de consultas o el almacenamiento.
 
En el caso de tratamiento de transacciones, el minado en general no suele influir mucho ya que éste suele centrarse en los datos de apoyo a la decisión y no en los transaccionales.
La seguridad y privacidad pierden verse amenazadas por el tratamiento que hace el Data Mining de los datos. Por otro lado, la propia minería de datos puede usarse para analizar las amenazas a las que se enfrenta la base de datos.
 
En el caso de la calidad e integridad de datos, se puede aplicar la minería de datos para detectar información incorrecta y mejorar así la calidad de los datos.


OBJETIVOS DE LA MINERÍA DE DATOS

Predicción: La minería de datos puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos. Así, unos ejemplos de minería de datos predictiva serian el volumen de ventas que generaría un comercio en un periodo dado, el análisis de transacciones de compra para predecir lo que comprarán los consumidores bajos determinados descuentos…En aplicaciones de este tipo, junto a la minería de datos se usa la lógica de negocio.
 
Identificación: Los patrones de datos pueden utilizarse para identificar la existencia de un artículo, un evento o una actividad.


TIPOS DE CONOCIMIENTO DESCUBIERTO DURANTE LA MINERÍA DE DATOS
 
La minería de datos trata el conocimiento inductivo. El conocimiento descubierto durante la minería de datos puede describirse de cinco formas:
 
Reglas de asociación: estas reglas establecen una correlación entra la presencia de un conjunto de elementos con otro rango de valores para otro conjunto de variables.

 

Alfredo Martínez Orol - alfredoarrobaacua.hor.tur.cu

Ingeniero Informático y actualmente cursa una Maestría en Informática Aplicada. Cuba

Becas Parciales en Master OnLine
Una frase memorable

Derechos de Autor

GestioPolis es la primera comunidad de conocimiento en negocios de Hispanoamérica
Derechos Reservados sobre el concepto del sitio web GestioPolis.com © 2008 Carlos López

Hazte miembro de GestioPolis

Y Descarga 11 eBooks GRATIS

Al registrarte podrás descargar 8 resúmenes digitales de LeaderSumaries.com y 3 libros electrónicos

Además recibirás quincenalmente nuestra Newsletter con todas las novedades del sitio, información de la mejor oferta de educación ejecutiva On Line y más
Términos de uso y Política de Privacidad

Cerrar