- Sistemas de bases de datos tradicionales.
- Sistemas de Data Warehousing.
El Data Mining se basa en técnicas que han existido desde hace bastante
tiempo. La razón de que ahora se haga uso de ellas para el minado de
datos es que ahora existe una gran cantidad de datos recopilados,
estructurados y organizados. En gran parte esto es debido a los sistemas
de bases de datos, que permiten asegurar características tales como la
integridad y la seguridad.
Las aplicaciones de minería de datos deberían tenerse muy en cuenta
desde un principio, durante el diseño de un almacén de datos. Asimismo,
las herramientas de minería de datos deberían ser diseñadas para
facilitar su uso en conjunción con los almacenes de datos. De hecho,
para muchas bases de datos de gran tamaño que se convierten en terabytes
de datos, el éxito de la utilización de aplicaciones de minería de bases
de datos dependerá en primer lugar de la construcción de un almacén de
datos.
Data Mining es un proceso para extraer información útil a partir de
grandes cantidades de datos. El Data Mining a través del descubrimiento
y cuantificación de relaciones predictivas en los datos, permite
transformar la información disponible en conocimiento útil de negocio.
Es una tecnología que ayuda a las empresas a concentrarse en la
información más importante de sus bases de información.
Las herramientas de Data Mining predicen futuras tendencias y
comportamientos y pueden responder, de forma rápida, a preguntas de
negocios que tradicionalmente consumen demasiado tiempo para poder ser
resueltas; esta herramientas exploran la base de datos en busca de
patrones ocultos encontrando información predecible.
Esencialmente el Data Mining consiste en hacer una serie de consultas,
cuyo resultado puede depender, a su vez, de de la respuesta de
anteriores consultas. La Minería de datos, con una fuerte base
matemática (sobre todo en modelización) e informática, involucra a
muchas otras disciplinas tales como:
Bases de Datos ( Contribuye con las técnicas deductivas de
procesamiento de consultas)
Inteligencia Artificial ( Aprendizaje computerizado, lógica difusa,
programación lógica, redes neuronales, etc.)
Estadística ( Por medio de técnicas estadísticas como: Anova,
regresiones, ji cuadrado, componentes principales, análisis cluster,
etc.)
Investigación Operativa ( modelado, algoritmos y toma de decisiones)
Análisis matemático ( Por medio de técnicas matemáticas tales como las
Series Temporales)
Visualización ( Para lograr una minería de datos interactiva).
Apoyo a la decisión ( Herramientas de evaluación del rendimiento,
planificación, organización, árboles de decisión, etc.)
Heurística (Algoritmos genéticos, métodos del vecino más cercano,
etc.)
Paralelismo( Para mejorar el rendimiento de los algoritmos de Data
Mining9.
Arquitectura de ordenadores ( Ofreciendo un entorno adecuado para la
aplicación de las técnicas de Data Mining).
2. UTILIDAD DEL DATA MINING
- Detectar patrones habituales tales como los hábitos de compra por
ejemplo.
- Detectar patrones anormales como puedan ser posibles fraudes, errores,
etc.
- Predicciones del futuro basadas en el pasado y en las tendencias
actuales como por ejemplo para el pronóstico de posibles problemas
financieros.
Una razón por la que el Data Mining se ha convertido en una tecnología
demandada por empresas, es porque se han dado cuenta de las
oportunidades de negocio que ofrece el conocimiento de sus clientes.
2.1 PROCESO DE DESCUBRIMIENTO DEL CONOCIMIENTO (KDD)
El Data Mining no es un proceso sencillo. Existen seis pasos básicos
para realizar un proyecto de Data Minig eficaz.:
1. Comprender el problema que se desea resolver y definirlo. Ya que los
proyectos mal definidos tienen pocas probabilidades de dar resultados
satisfactorios, además de tener claros los objetivos que se persiguen
debe adaptarse a las características del entorno donde se desarrolla el
problema.
2. Seleccionar los datos. Si queremos que los datos “hablen” debemos
disponer de una muestra amplia y hacer una selección adecuada de los
datos y además de las variables pertinentes.
3. Determinar la forma en que deben representarse los elementos de los
datos frente al algoritmo de Data Mining. Se deben determinar de forma
adecuada las unidades, categorías o clasificación de los datos ella que
de ello dependerá, en gran medida, el éxito o fracaso del proyecto.
4. Usar el algoritmo, o la serie de algoritmos, de Data Minig adecuados.
5. Analizar el resultado obtenido. Este resultado debe ajustarse al
marco del ámbito del problema que se está tratando. En este paso la
visualización reviste de gran importancia.
6. Presentación de los resultados a los responsables de operaciones
deforma que los conocimientos obtenidos puedan integrarse en los
procesos de la corporación.
TIPOS DE RESULTADOS
Existen dos planteamientos, uno más interactivo que otro, para extraer
información útil con los algoritmos de Data Minig:
El primer planteamiento consiste en iniciar un programa, identificar los
patrones, normas o funciones y luego hacer que el analista los revise en
busca de su valor.
El segundo planteamiento, más interactivo que el anterior, se denomina
análisis exploratorio de datos. En él el analista pide que los datos le
sean presentados de una forma determinada, los observa, los transforma y
los revisa; se mueve hacia delante y hacia detrás, explorando las
relaciones que a menudo aparecen, mediante métodos únicos de
visualización y por último presenta una respuesta.
Los conocimientos así obtenidos pueden utilizarse posteriormente como
entrada para otro análisis y establecer así un ciclo para obtener
conclusiones más complejas.
2.5. ARQUITECTURA DE LOS SISTEMAS
Hay dos enfoques en la arquitectura que debe seguir un sistema de bases
de datos que permita el minado de datos:
1. Añadir una herramienta de minado a un S.G.B.D.- La herramienta debe
tener la interfaz adecuada con el S.G.B.D. para extraer la información
de la base de datos. La principal ventaja de esta aproximación es que se
tiene una arquitectura abierta: la herramienta no está limitada a un
S.G.B.D. concreto. Sin embargo, al usar un S.G.B.D. de propósito general
para la minería aparecen problemas de rendimiento.
2. Incluir la herramienta de minado de datos en el S.G.B.D.- Las
técnicas de minado pueden influir en muchas de las funciones de los
S.G.B.D.: almacenamiento, ejecución de consultas, manejo de
transacciones, manejo de la metainformación, integridad, seguridad,
algoritmos de optimización, etc. Además en un S.G.B.D. para minería se
pueden eliminar funciones de un S.G.B.D. general que no son necesarias
para el Data Mining y potenciar así funciones claves como la integridad
y la calidad de los datos.
Por ejemplo, la mayoría de las aplicaciones de minado no necesitan los
datos relacionados con transacciones, por lo que se pueden eliminar las
funciones que manejan este tipo de información.
2.6. FUNCIONES DE LAS BASES DE DATOS Y DEL DATA MINING
El minado de datos puede influir en las funciones de los sistemas de
bases de datos, sobre todo en aquellos que siguen el enfoque de una gran
integración con la herramienta de minería. Algunas de las funciones que
pueden sufrir cambios considerables son aquellas relacionadas con el
procesamiento de consultas o el almacenamiento.
En el caso de tratamiento de transacciones, el minado en general no
suele influir mucho ya que éste suele centrarse en los datos de apoyo a
la decisión y no en los transaccionales.
La seguridad y privacidad pierden verse amenazadas por el tratamiento
que hace el Data Mining de los datos. Por otro lado, la propia minería
de datos puede usarse para analizar las amenazas a las que se enfrenta
la base de datos.
En el caso de la calidad e integridad de datos, se puede aplicar la
minería de datos para detectar información incorrecta y mejorar así la
calidad de los datos.
OBJETIVOS DE LA MINERÍA DE DATOS
Predicción: La minería de datos puede mostrar el modo en el que actuarán
en el futuro ciertos atributos dentro de los datos. Así, unos ejemplos
de minería de datos predictiva serian el volumen de ventas que generaría
un comercio en un periodo dado, el análisis de transacciones de compra
para predecir lo que comprarán los consumidores bajos determinados
descuentos…En aplicaciones de este tipo, junto a la minería de datos se
usa la lógica de negocio.
Identificación: Los patrones de datos pueden utilizarse para identificar
la existencia de un artículo, un evento o una actividad.
TIPOS DE CONOCIMIENTO DESCUBIERTO DURANTE LA MINERÍA DE DATOS
La minería de datos trata el conocimiento inductivo. El conocimiento
descubierto durante la minería de datos puede describirse de cinco
formas:
Reglas de asociación: estas reglas establecen una correlación entra la
presencia de un conjunto de elementos con otro rango de valores para
otro conjunto de variables.
Alfredo Martínez Orol - alfredoarrobaacua.hor.tur.cu
Ingeniero Informático y actualmente cursa una Maestría en Informática Aplicada. Cuba
Acerca de GestioPolis
Participar en la comunidad
Derechos de Autor
GestioPolis es la primera comunidad de conocimiento en negocios de Hispanoamérica
Derechos Reservados sobre el concepto del sitio web
GestioPolis.com
© 2008 Carlos López
| Hazte miembro de GestioPolis |
|
Y Descarga 11 eBooks
GRATIS |