Almacenes de datos y Microsoft sql server 2008

Autor: Lic. Carlos Galindo González, y Dr. Ramiro Pérez Vázquez

Tecnología e Internet

27-08-2009

Los sistemas de Información se dividen en dos categorías (Casares, 2003):

Ø Sistemas operacionales: Son aquellos que tienen como objetivos reflejar el estado y funcionamiento de la empresa registrando las transacciones u operaciones diarias, de aquí que los mismos se conozcan como sistemas de Procesamiento de Transacciones en Línea (OLTP).

Ø Sistemas para el soporte de decisiones: Son aquellos que tienen como objetivos medir y controlar el desarrollo de las variables importantes del negocio, buscando identificar, proyectar y predecir tendencias a partir de los datos acumulados.

Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de información (Casares, 2003).

Bill Inmon fue uno de los primeros autores en escribir sobre el tema de almacenes de datos, define un almacén de datos en términos de las características del repositorio de datos (Inmon, 2007):

Orientado a temas: Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.

Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.

No volátil: La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura y se mantiene para futuras consultas.

Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la organización y dichos datos deben ser consistentes.

Los mercados de datos son subconjuntos de datos de un almacén de datos para áreas específicas. Desde el punto de vista de diseño se aplica en el mercado de datos todo lo que es aplicable a un almacén de datos (Inmon, 2007).

El Modelo Dimensional es el más usado en los sistemas de almacenes de datos, este es diferente al modelo relacional utilizado en los sistemas OLTP. Este modelo se basa en dimensiones, las cuales representan categorías de información, atributos que representan un único nivel dentro de una dimensión, pueden existir jerarquías de atributos las cuales expresan relaciones entre diferentes atributos y por último tablas de hechos, las cuales contienen datos de interés, que presentan un nivel de granularidad. La granularidad es el nivel más bajo de información que será almacenado en la tabla de hechos. El primer paso al diseñar una tabla de hechos es determinar la granularidad.

Esquemas del diseño dimensional:

Ø Esquema Estrella: Una tabla de hechos en el centro conectada con un conjunto de tablas de dimensiones.

Ø Esquema Copo de Nieve: Un refinamiento del anterior donde algunas dimensiones se normalizan en tablas más pequeñas.

Ø Constelación de Hechos: Múltiples tablas de hechos comparten tablas de dimensión que se visualizan como una constelación de hechos.

La gestión administrativa reconoce que una manera de elevar su eficiencia está en hacer el mejor uso de los recursos de información que ya existen dentro de la organización. El almacén de datos, es actualmente, el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales (Casares, 2003).

La arquitectura de un almacén de datos consta de tres niveles (Casares, 2003):

Ø Bases de datos fuentes (producción e históricos).

Ø Una base de datos con datos resumidos extraídos de las bases de producción (almacén de datos).

Ø Interfaces orientadas a usuarios que extraen información para la toma de decisiones. Las clásicas son: consultas y reportes, análisis multidimensional y Minería de Datos.

Base de datos fuentes: Consiste en bases de datos de producción así como en históricos de dichas bases. Estas bases de datos pueden estar implementadas en diferentes tipos de sistemas: BD-Relacionales, BD-geográficas, BD-textos, archivos, etc. Una característica común es que almacenan ítems de datos atómicos, los cuales son relevantes como datos de producción, pero pueden ser demasiado finos para servir como base para la toma de decisiones. Además, la noción de calidad de los datos en estas bases se basa en la consistencia de dichos registros, independientemente de la relevancia que estos tengan dentro del problema.

Una componente importante en el almacén de datos es el Diccionario de Datos (Meta-Data), en el mismo se describen los datos almacenados con el objetivo de facilitar el acceso a los mismos a través de las herramientas de explotación del almacén de datos. El Diccionario de Datos establece correspondencias entre los datos almacenados y los conceptos que estos representan para facilitar la extracción de información por parte del usuario final.

Interfaces orientadas a usuarios que extraen información para la toma de decisiones:

Ø Interfaces para consultas y reportes complejos: Permiten al usuario construir gráficas y reportes a partir de la información contenida en el almacén de datos y descrita a través del Diccionario de Datos. Algunas funcionalidades típicas de estas herramientas son: agrupamiento y desagrupamiento dinámico de datos en reportes, cambios en el orden de los campos del reporte, visualización del resultado de las consultas en forma gráfica (barras, torta, puntos, etc.). Estas herramientas generan las expresiones en el lenguaje de consulta que recupera los datos pedidos (típicamente SQL), se conectan al almacén de datos, recuperan el resultado y lo formatean según la especificación dada.

Ø Productos de análisis de datos (OLAPs): Permiten representar los datos del problema en términos de dimensiones. Por ejemplo, si se trata de ventas de productos en diferentes zonas, una dimensión del problema son las zonas, otra los productos y otra el tiempo. De esta manera, las consultas de análisis de datos de una dimensión en función de la otra se realizan en forma inmediata.

Ø Herramientas de Minería de Datos: Permiten explorar el almacén de datos en búsqueda de relaciones desconocidas o inesperadas entre los datos.

Las principales motivaciones para construir un almacén de datos son las siguientes (Casares, 2003):

Ø Disponer de Sistemas de Información de apoyo a la decisión.

Ø Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización.

Ø Diseñar una base de datos que permita ejecutar consultas desconocidas.

Microsoft SQL Server 2008 brinda una plataforma para la construcción y el mantenimiento de almacenes de datos, a continuación se muestran algunas de sus nuevas características y mejores prácticas asociadas a las mismas:

v Compresión de Datos

La compresión de datos reduce el espacio requerido para almacenar tablas e índices permitiendo un uso más eficiente de la capacidad de almacenamiento.

Existe la posibilidad de la compresión por artículo o por página. La compresión por artículo almacena todos los campos en un formato de ancho variable, la compresión por página hace lo mismo pero se realiza entre los artículos de una misma página. Un diccionario a nivel de página es usado para almacenar los valores comunes, además prefijos comunes de valores de columnas son almacenados solo una vez en la página. Ambas formas de compresión pueden ser aplicadas a las tablas y a los índices.

v Encriptación de Datos Transparente

La encriptación de datos transparente permite que los datos sean almacenados de forma segura mediante la encriptación de los ficheros de la base de datos. El SQL Server realiza la encriptación y desencriptación directamente por lo que el proceso es transparente para la aplicación conectada. Si se utiliza a la vez compresión de datos y encriptación, se deben realizar las operaciones en este orden.

v Gobernador de Recursos

El Gobernador de Recursos les permite a los administradores el control y la asignación de recursos como Procesadores y Memoria a las aplicaciones de más alta prioridad.

v Adición en Caliente de Procesadores y Memoria

La edición de SQL Server Enterprise de 64 bits permite la adición en caliente de procesadores y memoria sin necesidad de apagar el servidor ni limitar las conexiones existentes.

v Operador MERGE

El nuevo operador MERGE simplifica el proceso de carga de un almacén de datos desde su fuente. Este nuevo operador distingue los artículos nuevos y actualizados en la base de datos fuente y realiza la acción apropiada en el almacén de datos.

v Nuevos Tipos de Datos Espaciales

Los nuevos tipos de datos espaciales GEOGRAPHY y GEOMETRY permite que datos espaciales puedan almacenarse directamente en SQL Server 2008. GEOGRAPHY permite representar datos geodésicos en tres dimensiones los cuales son utilizados por aplicaciones GPS y GEOMETRY permite representar puntos en planos de dos dimensiones. Además existe una integración con Virtual Earth lo cual permite representaciones gráficas de localizaciones físicas.

Todas estas nuevas características hacen de Microsoft SQL Server 2008 una herramienta de avanzada para la creación y el mantenimiento de almacenes de datos.

Bibliografía

CASARES, C. (2003) Data Warehousing.

INMON, B. (2007) Coporate Information Factory. Inmon Consulting Services.

MICROSOFT (2008) Best Practices for Data Warehousing with SQL Server 2008.

MICROSOFT (2008) What's New in SQL Server 2008.

Lic. Carlos Galindo González, y

Licenciado en Ciencias de la Computación

carlos7310arrobagmail.com

Dr. Ramiro Pérez Vázquez

Licenciado en Computación.

rperezarrobacei.uclv.edu.cu

rapeva2001arrobayahoo.com.mx

Cuba.

Comentarios
comments powered by Disqus

Nuevas publicaciones

⇐ Hazte Fan en Facebook
⇐ Síguenos en Twitter
⇐ Agréganos en Google +
⇐ Suscríbete vía Email
"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las manzanas, entonces tanto tú como yo seguiremos teniendo una manzana. Pero si tú tienes una idea y yo tengo una idea e intercambiamos ideas, entonces ambos tendremos dos ideas"
George Bernard Shaw
Comparte conocimiento
Contenidos publicados con licencia CC BY-NC-SA 3.0 a excepción de los casos en los que se indican derechos de autor específicos. Sugerimos contactar a los autores al usar material públicamente.