Análisis de cluster para definir territorios a investigar sobre el servicio de auditoría. Principios y fundamentos teóricos para su aplicación. variables a utilizar.

Autor: Lic. Adelkys Rosa Sánchez Gómez y Lic. Ederlys Hernández Meléndrez

SIM E INVESTIGACIÓN DE MERCADOS

04-2006

Este artículo está vinculado a la investigación realizada dentro de un Proyecto de Tesis Doctoral relacionado con la calidad del servicio de Auditoría. Se hace necesaria la selección de territorios para realizar las investigaciones, cuya selección no debe ser un fenómeno al azar, sino el resultado de un proceso donde se utilizan  herramientas estadísticas que lo justifiquen, para ellos se utiliza la técnica de Análisis de Cluster, relacionándose este a las variables definidas basadas en el servicio de Auditoría.

1.1 Introducción al análisis de Cluster.

El análisis de Cluster, también conocido como Análisis de Conglomerados, Taxonomia Numérica o Reconocimiento de patrones, es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetivos en grupos, de forma que los perfiles de los objetivos en un mismo grupo sean muy similares entre si (cohesión interna del grupo) y los de los objetivos de clusters diferentes sean distintos (aislamiento externo del grupo).

Académicos e investigadores de mercado a menudo encuentran la mejor solución para resolver sus estudios mediante la definición de grupos homogéneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos.
[http://www.gestiopolis.com/estilos/primer-scroll.htm]
Opciones estratégicas basadas en la identificación de grupos dentro de la población tales como la segmentación o el marketing de objetivos no serían posibles sin un objetivo metodológico. La misma necesidad nos la encontramos en otras áreas, abarcando desde las ciencias físicas (por ejemplo, clasificación de varios grupos de animales, como insectos o mamíferos) a las ciencias sociales (por ejemplo, análisis de varios perfiles psiquiátricos).

En todos estos ejemplos, el analista trata de encontrar una estructura natural a través de las observaciones basándose en un perfil multivariado.La técnica más comúnmente usada para este propósito es el Análisis de Conglomerados (Análisis Cluster, AC, desde ahora).

Conviene tener claro desde el principio:

¨ Que la técnica no tiene vocación / propiedades inferenciales

¨ Que por tanto, los resultados logrados para una muestra sirven sólo para ese diseño (su valor atañe sólo a los objetivos del analista): elección de individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel de agrupación final elegido.... definen diferentes soluciones.

¨ Que Cluster y discriminante no tiene demasiado en común: el discriminante intenta explicar una estructura y el Cluster intenta determinarla.

Dos Objetivos Básicos:

¨ Análisis "taxonómico" con fines exploratorios o confirmatorios.
¨ Cambio (simplificación) de la dimensión de los datos (lo descrito al inicio de este documento: agrupación de objetos individuales en nuevas estructuras de estudio (grupales))

1.1.2. ¿Qué es el Análisis de Conglomerados?

El AC no es más que un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados conglomerados (Clusters).

Los objetos en cada grupo (conglomerados) tienden a ser similares entre sí (alta homogeneidad interna, dentro del Cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, ente Cluster) con respecto a algún criterio de selección predeterminado.

De este modo, si la clasificación es un éxito, los objetos dentro del cluster estarán muy cercanos unos de otros en la representación geométrica, y los clusters diferentes estarán muy apartados. Este análisis se conoce también como análisis de clasificación o taxonomía numérica.

El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticas características, es decir, se convierte así en una técnica de análisis exploratorio diseñada para revelar las agrupaciones naturales dentro de una colección de datos. Este análisis no hace ninguna distinción entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones interdependientes de todo el conjunto de variables.

El AC se utiliza en mercadotecnia para diversos propósitos, entre los que se encuentran:
Segmentación del mercado
Por ejemplo, los consumidores pueden agruparse empleando como base los beneficios derivados de la compra de un producto. Cada grupo consistirá en consumidores relativamente homogéneos en términos de los beneficios que buscan.

Este planteamiento se conoce como segmentación de los beneficios.

Comprensión del comportamiento del comprador

El AC puede utilizarse para identificar grupos de compradores homogéneos. Así, el comportamiento de cada grupo puede estudiarse por separado. Este análisis también se utiliza para identificar la clase de estrategias que los compradores emplean para obtener información externa.

Identificación de oportunidades para productos nuevos

Al agrupar marcas y productos, pueden determinarse los conjuntos competitivos dentro del mercado. Las marcas en el mismo grupo compiten más entre sí que con las de los otros grupos.

 Una empresa puede analizar sus ofertas actuales en comparación con aquéllas de sus competidores a fin de identificar las oportunidades potenciales de los nuevos productos.

Selección de mercados de prueba

Al dividir las ciudades en grupos homogéneos, es posible seleccionar ciudades comparables a fin de probar diversas estrategias de mercadotecnia.
Reducción de datos

El AC puede utilizarse como instrumento de reducción general de datos a fin de desarrollar subgrupos de datos que sean más fáciles de manejar que las observaciones individuales.

El análisis multivariante subsecuente se realiza con base en los subgrupos, en lugar de las observaciones individuales. Por ejemplo, para describir las diferencias en el comportamiento de uso del producto, primero pueden agruparse los consumidores. Las diferencias entre los conglomerados pueden estudiarse con el uso del análisis discriminante múltiple.

El AC es una herramienta útil a la hora de analizar datos en muy diversas situaciones. Por ejemplo, un investigador que está recogiendo datos por medio de un cuestionario podría encontrarse con un gran número de observaciones que no tienen significado a menos que se encuentren dentro de grupos manejables.

El AC puede llevar a cabo esta agrupación de datos de manera objetiva reduciendo la información de una población entera o la muestra de información sobre pequeños grupos específicos. Por ejemplo, si nosotros podemos entender las actitudes de una población identificando los grupos de mayor tamaño dentro de la población, entonces podemos reducir los datos de una población entera dentro de un numeroso número de grupos. De esta forma el investigador logra una mayor concisión y una descripción más comprensible de las observaciones, con una mínima pérdida de información.

El AC puede usarse también cuando un investigador desea desarrollar hipótesis concernientes a la naturaleza de los datos. Por ejemplo, un investigador podría creerse las actitudes sobre la consumición de refrescos bajos en azúcar frente a los consumidores de refrescos normales podrían ser usados para separar a los consumidores en grupos o segmentos lógicos. El AC puede clasificar a los consumidores de refrescos por las actitudes que adoptan frente a refrescos normales o frente a refrescos bajo en calorías, y los clusters resultantes pueden perfilarse a partir de las similaridades y de las diferencias demográficas.

Con todo, no debe esperarse nunca una única y definitiva solución al problema de creación de conglomerados.

En la práctica, se considerarán varias soluciones derivadas de la aplicación de las muchas técnicas ofrecidas por este análisis y, tras su correspondiente comparación, nos inclinaremos por la más útil para el tipo de investigación planteada. Los conocimientos del investigador sobre sus clientes, productos o servicios, jugarán un papel importante a la hora de decidir entre las diferentes soluciones alternativas.

1.1.3. Conceptos básicos del Análisis Cluster

La mayoría de los procedimientos utilizados en esta técnica multivariante son relativamente sencillos, ya que no están respaldados por el razonamiento estadístico. La mayor parte de los métodos de agrupación son heurísticos, basados en algoritmos. De este modo, el AC presenta un fuerte contraste con el análisis de la varianza, la regresión, el análisis discriminante y el análisis factorial, que se basan en un razonamiento estadístico.

Los principios fundamentales implicados en cualquier AC son:
Informe de Aglomeración

Ofrece información sobre los objetos o casos que se combinan en cada etapa de un proceso de agrupación jerárquica.

Centroides de Agrupamiento

Son los valores medios (medias) de las variables para todos los casos u objetos de un grupo particular.

Centros de Agrupamiento

Son los puntos de partida iniciales en la agrupación no jerárquica. Los grupos se construyen alrededor de estos centros o semillas.

Participación en el Grupo

Indica el grupo al que pertenece cada objeto o caso.

Dendrograma

Llamado también gráfica de árbol, es un dispositivo gráfico para presentar los resultados del conglomerado.

Las líneas verticales representan los grupos que están unidos. La posición de la línea en la escala indica las distancias en las que se unieron los grupos. Se lee de izquierda a derecha.

Distancias entre Centros de Grupos
Indican la separación existente entre los pares individuales de los grupos. Los grupos muy separados son distintos y, por tanto, deseables.
Diagrama de Carámbanos

Es una representación gráfica de los resultados del conglomerado, se llama así porque se asemeja a una hilera de carámbanos que pende del alero de una casa. Las columnas corresponden a los objetos que se agrupan y los renglones corresponden al número de conglomerados. Se lee de abajo hacia arriba.

Matriz de Coeficientes de Distancia/Similitud

Es una matriz de triángulo inferior que contiene las distancias en dirección pareada entre los objetos o casos.

Pasos del Análisis de Conglomerados

El primer paso consiste en formular el problema de agrupación al definir las variables en las que se basa ésta. Después, debe seleccionarse una medida de distancia apropiada. La medida de distancia determina cómo de similares o diferentes son los objetos que se agrupan. Posteriormente, debe seleccionarse un procedimiento de agrupación. Se dispone de varios, pero es labor del investigador elegir aquél que mejor se ajuste al problema de investigación propuesto.

La decisión del número de conglomerados requiere del criterio del investigador. Los conglomerados obtenidos deben interpretarse en términos de las variables sobresalientes adicionales. Por último, es preciso que el investigador evalúe la validez del proceso de conglomerados.

1. Formulación del Problema

Quizá la parte más importante de la formulación del problema del AC sea la selección de las variables en las que se basa la agrupación. La inclusión de una o más variables irrelevantes puede distorsionar una solución de agrupación que de otra forma podría ser útil. Básicamente, el conjunto de variables seleccionado debe describir la similitud entre los objetos en términos relevantes para el problema de investigación de mercados. Las variables deben seleccionarse con base en la investigación previa, la teoría o una consideración de las hipótesis que se prueban. En la investigación exploratoria, el investigador debe poner en práctica el criterio y la intuición.

2. Selección de una Medida de Similitud

Ya que el objeto del conglomerado es agrupar objetos similares, se necesita alguna medida para evaluar las diferencias y similitudes entre objetos. El concepto de similaridad es fundamental en el Análisis Cluster. La similaridad (similitud) es una medida de correspondencia o semejanza entre los objetos que van a ser agrupados. La estrategia más común consiste en medir la equivalencia en términos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son más parecidos entre sí que aquellos que tienen distancias mayores y se agruparán, por tanto, dentro del mismo cluster.

De esta manera, cualquier objeto puede compararse con cualquier otro objeto a través de la medida de similaridad.

En la medición de la similitud entre los objetos de un AC existen tres métodos:

Medidas de Correlación

Medidas de Distancia

Medidas de Asociación

Cada uno de estos métodos representa una particular perspectiva de la similitud, dependiendo tanto de los objetivos como del tipo de datos. Las medidas de correlación y las de distancia requieren datos métricos, mientras que las medidas de asociación requieren datos no métricos.

Muchos programas informáticos han limitado la ayuda para las medidas de asociación, y el investigador se ve forzado con frecuencia a calcular primero las medidas de similaridad y después a introducir la matriz de similaridad dentro de un programa cluster.

3. Estandarización de Datos

Una vez seleccionada la medida para cuantificar la similaridad entre pares de objetos, el investigador debe plantearse una última cuestión... ¿deben estandarizarse los datos antes de calcular las similaridades?. Para poder responder a esta pregunta de forma adecuada, el investigador debe tener en cuenta que la mayoría de las medidas de distancia son bastante sensibles a las diferencias de escalas o de magnitudes hechas entre las variables. En general, las variables con una gran dispersión (valores grandes de sus desviaciones típicas) tienen más impacto en el valor final de la similaridad.

Consideremos como ejemplo que se quieren agrupar las individualidades de una serie de personas en tres variables, que son: actitud frente a un producto, edad e ingresos. Se supone que medimos la actitud en una escala de siete puntos de gusto-disgusto, mientras que la edad se medía en años y los ingresos en dólares.

Si representamos los resultados obtenidos de la pertinente encuesta en un gráfico tridimensional, la distancia entre los puntos (y sus similaridades) estarían basadas casi totalmente en las diferencias de ingresos.

La explicación es bien sencilla, mientras que las posibles diferencias de actitud frente al producto se encuentran en un rango de actitudes que va de uno a siete, las producidas en los ingresos pueden tener un rango cien veces mayor.

De este modo, no seríamos capaces (gráficamente) de observar ninguna diferencia en la dimensión asociada a la actitud frente al producto. Por este motivo, el investigador debe ser consciente del peso implícito de las variables que participan en el estudio de investigación.

La forma más común de estandarización es la conversión de cada variable en puntuaciones típicas (también conocidas como puntuaciones Z). La forma de cálculo es que se resta a cada observación de cada variable su media correspondiente y se divide el resultado de esta operación por la desviación típica (estándar) de la variable en cuestión.

Este proceso convierte la puntuación de cada dato original en un valor estandarizado con una media de cero y una desviación típica de uno. En definitiva, lo que se consigue con ello es eliminar, uno por uno, los prejuicios introducidos por las diferencias en las escalas de los distintos atributos (variables) usados en el análisis.

4. Supuestos del Análisis

El AC es un objetivo metodológico para cuantificar las características de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemáticas, pero no fundamentos estadísticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan relevantes en otras técnicas), tienen poca consistencia en el AC.

El investigador debe, sin embargo, centrar su atención en otras dos cuestiones esenciales para este tipo de análisis, como son: la representatividad de la muestra y la multicolinealidad.

En muchas ocasiones se dispone de un censo de población para hacer uso del análisis cluster. Se obtiene entonces una muestra de casos y se espera que los cluster obtenidos de ella sean representativos de la estructura de la población original. El analista debe tener siempre presente que el análisis cluster será tan bueno como lo sea la representatividad de la muestra.

Así, todos los esfuerzos deben centrarse en asegurar esa representatividad, para que los resultados puedan ser generalizables a la población de interés.

La multicolinealidad era un resultado en otras técnicas multivariantes, ya que se hacía difícil diferenciar el verdadero impacto de las variables multicolineales. En el análisis cluster, en cambio, el efecto es diferente, ya que las variables multicolineales están ponderadas, implícitamente, de un modo más severo.

Supongamos, por ejemplo, que se agrupan a los encuestados en diez variables relacionadas con un determinado servicio. Al examinar la multicolinealidad, apreciamos que realmente hay dos grupos de variables claramente diferenciados.

El primero está compuesto por ocho elementos (variables) y el segundo de los dos restantes.

Si lo que pretendemos es agrupar realmente a los encuestados en las dimensiones del servicio analizado (en este caso representado por los dos grupos de variables), no podremos considerar a las diez variables como un todo, ya que eso significaría ponderar equitativamente cada variable.

Es decir, al ponderar el análisis cluster uniformemente cada variable, la primera dimensión tendría cuatro veces más oportunidades (ocho ítems frente a dos) de afectar a la medida de similaridad de las que tendría la segunda dimensión.

Así, el acto de la multicolinealidad es un proceso de ponderación oculto al observador, pero que afecta, sin embargo, al análisis. Por esta razón, el analista debe fomentar el estudio exhaustivo de las variables utilizadas en el análisis cluster para poder hallar así la posible multicolinealidad.

 Si se encuentra multicolinealidad en las variables empleadas para el estudio, habrá que conseguir igual número de ellas en cada conjunto o usar una de las medidas de distancia, como la Distancia de Mahalanobis, para compensar la correlación existente descubierta.

Una vez seleccionadas las variables y calculada la matriz de similaridades, comienza el proceso de partición. Primeramente el investigador debe seleccionar el algoritmo de agrupación que se va a emplear para formar los clusters (grupos) y posteriormente tomar la decisión sobre el número de grupos que se quieren formar.

Ambas decisiones tienen substanciales implicaciones no solamente en los resultados que se obtengan, sino también en la interpretación que pudiera derivarse de ellos.

5. Selección del Procedimiento de Agrupación

Hay dos tipos de procedimientos: los jerárquicos y los no jerárquicos. El conglomerado jerárquico se caracteriza por el desarrollo de una jerarquía o estructura en forma de árbol.

Una característica importante de los procedimientos jerárquicos es que los resultados de la primera etapa pueden estar anidados con los resultados de la última etapa, dando lugar a una similaridad parecida a la de un árbol. Por ejemplo, la solución del cluster seis se obtienen gracias a la unión de dos de los clusters encontrados en la fase siete del cluster.

De este modo, los clusters están formados solamente por la unión de los grupos existentes, así cualquier miembro de un cluster puede trazar su relación en un irrompible sendero que comenzaría con una simple relación.

Los métodos jerárquicos pueden ser por Aglomeración o por División. El conglomerado por aglomeración empieza con cada objeto en un grupo separado.

Los conglomerados se forman al agrupar los objetos en conjuntos cada vez más grandes. Este proceso continúa hasta que todos los objetos formen parte de un solo grupo.

El conglomerado por división comienza con todos los objetos agrupados en un solo conjunto. Los conglomerados se dividen hasta que cada objeto sea un grupo independiente.

Dentro de los conglomerados por aglomeración, se encuentran los métodos de conglomerados, que se utilizan con frecuencia en la investigación de mercados.

Consisten en métodos de Enlace, métodos de Varianza o de sumas de los cuadrados del error y el método Centroide. Los Métodos de Enlace incluyen el enlace sencillo, el completo y el promedio.

El método de enlace sencillo se basa en la distancia mínima o la regla del vecino más próximo. Los primeros dos objetos conglomerados son aquellos que tienen la menor distancia entre sí. La siguiente distancia más corta se identifica, ya sea que el tercer objeto se agrupe con los dos primeros o que se forme un nuevo conglomerado de dos objetos.

En cada etapa, la distancia entre dos conglomerados es la distancia entre sus dos puntos más próximos.

En cualquier etapa, dos conglomerados surgen por el enlace sencillo más corto entre éstos. Este proceso continúa hasta que todos los objetos se encuentren en un conglomerado.

El método del enlace sencillo no funciona adecuadamente cuando los conglomerados no están bien definidos.

El método del enlace completo es similar al enlace sencillo, excepto que se basa en la distancia máxima o la estrategia del vecino más lejano. En este caso, la distancia entre dos conglomerados se calcula como la distancia entre sus puntos más lejanos.

El método del enlace promedio funciona de manera similar, pero en este método, la distancia entre dos conglomerados se define como el promedio de las distancias entre todos los pares de objetos, donde se encuentra un miembro del par de cada uno de los conglomerados (Véase Figura Métodos de Enlace para el Conglomerado). Como puede apreciarse, el método del enlace promedio emplea la información sobre todos los pares de distancias, no sólo las mínimas o máximas. Por esta razón, generalmente se prefiere a los métodos de enlace sencillo y completo.

Los Métodos de Varianza tratan de generar conglomerados a fin de reducir la varianza dentro de los grupos. Un método de la varianza que se utiliza con frecuencia es el Procedimiento de Ward.

Para cada conglomerado, se calculan las medias para todas las variables. Después, para cada objeto, se calcula la distancia euclidiana cuadrada para las medias de los grupos (Figura Otros métodos de Agrupación por Aglomeración); estas distancias se suman a todos los objetos. En cada etapa, se combinan los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.

En el Método Centroide, la distancia entre dos grupos es la distancia entre sus centroides (medias para todas las variables), como se muestra en la Figura Otros métodos de Agrupación por Aglomeración.

Cada vez que se agrupan los objetos, se calcula un centroide nuevo. De los métodos jerárquicos, el método de Enlace Promedio y el Procedimiento de Ward han demostrado un mejor desempeño que los otros.

El segundo tipo de procedimientos de conglomerados, los métodos de conglomerados no jerárquicos, con frecuencia se conocen como Agrupación de K Medias.

Estos métodos incluyen el Umbral Secuencial, Umbral Paralelo y la División para la Optimización.

En el método del Umbral Secuencial, se selecciona un centro de grupo y se agrupan todos los objetos dentro de un valor de umbral que se especifica previamente a partir del centro.

Después, se selecciona un nuevo centro o semilla de grupo y el proceso se repite para los puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya no se considera para su conglomerado con semillas subsecuentes. El método del Umbral Paralelo funciona de manera similar, excepto que se seleccionan simultáneamente varios centros de grupo y se agrupan los objetos del nivel del umbral dentro del centro más próximo.

El método de División para la Optimización difiere de los otros dos procedimientos de umbral en que los objetos pueden reasignarse posteriormente a otros grupos, a fin de optimizar un criterio general, como la distancia promedio dentro de los grupos para un número determinado de conglomerados.

Existen dos formas básicas de conocer el modo de agrupación de los objetos en cuestión:
Gráfico de Carámbanos

Sus columnas corresponden a los objetos que se agrupan (entrevistados,...) y las filas al número de grupos. Esta figura se lee de abajo hacia arriba. Inicialmente todos los casos se consideran como grupos individuales. En el primer caso, se combinan los dos objetos más cercanos.

Cada paso subsecuente lleva a la formación de un nuevo grupo en una de las siguientes tres formas: (1) se agrupan dos casos individuales, (2) un caso se une a un grupo ya existente, (3) se unen dos grupos.

Dendrograma

Se lee de izquierda a derecha. Las líneas verticales representan los grupos unidos. La posición de la línea en la escala indica las distancias en las que se unen los grupos.

Debido a que, en las primeras etapas, muchas distancias tienen magnitudes similares, es difícil determinar la secuencia en la que se forman algunos de los primeros conglomerados. Sin embargo, es evidente que en las últimas dos etapas, las distancias en las que se combinan los conglomerados son grandes. Esta información es útil para decidir el número de conglomerados.

También es posible obtener información sobre la participación de los conglomerados de los casos si se especifica el número de grupos. Aun cuando esta información puede deducirse del trazo de carámbano, resulta útil una representación tabular.

Métodos Jerárquicos y No Jerárquicos

6. Decisión del Número de Conglomerados

Un gran problema en todas las técnicas de aglomeración es cómo seleccionar el número de grupos (clusters). Desgraciadamente, no existe un proceso objetivo de selección.

Para el caso del análisis cluster jerárquico, las distancias existentes entre los clusters reflejadas en las distintas etapas del proceso de aglomeración pueden servirnos de guía útil, el analista podría así establecer un tope para detener el proceso a su conveniencia (esta información puede obtenerse del programa de aglomeración o del dendrograma). Por ejemplo, podría hacerlo cuando la distancia entre los grupos exceda un valor específico o cuando las distancias sucesivas entre los pasos marquen un repentino salto.

Sin embargo, la opción más utilizada es calcular distintas soluciones de aglomeración (dos, tres, cuatro grupos, por ejemplo) para después decidir entre las soluciones alternativas con ayuda de un criterio prefijado de antemano, del sentido común, o de fundamentos teóricos.

Estas distancias reciben a menudo el nombre de medidas de variabilidad del error.
Para el caso del análisis cluster no jerárquico, se puede trazar un gráfico que compare el número de grupos con la relación entre la varianza total de los grupos y la varianza entre los grupos.

El punto del gráfico donde se presente un recodo o doblez marcado indicará el número apropiado de grupos. Por lo general, no merecerá la pena aumentar el número de grupos más allá de este punto. Otra posibilidad para decidir el número óptimo de grupos es definir algún tipo de conceptualización intuitiva de la relación teórica de los datos.

Los investigadores deben examinar la variación producida entre los tamaños de los grupos desde una perspectiva conceptual, comparando los resultados obtenidos con las expectativas creadas en los objetivos del estudio.

Otro problema que puede presentarse en este tipo de análisis es la presencia de grupos unipersonales, es decir, clusters formados por un solo individuo. Son un problema porque podrían ser outliers (valores atípicos) no detectados en el proceso de depuración de nuestra fuente de datos. Si aparece un grupo de un solo miembro, el analista debe estudiar si representa un componente estructural válido en la muestra o si, por el contrario, debiera suprimirse por no ser representativo. Si se suprime del análisis alguna observación, el investigador deberá ejecutar de nuevo el análisis cluster para las nuevas observaciones válidas y conseguir así definir nuevos grupos.

7. Interpretación y Elaboración del Perfil de los Cluster

La interpretación y el perfil de los grupos comprende el análisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. Los centroides nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el programa de conglomerado no ofrece esta información, puede obtenerse por medio del análisis discriminante.

El objetivo de esta etapa es, esencialmente, examinar la variación de los clusters para asignar etiquetas que describan de un modo veraz su naturaleza.

Resulta útil elaborar el perfil de los grupos en términos de las variables utilizadas para el conglomerado, como los datos demográficos, los psicográficos, uso del producto, uso de los medios u otras variables. Consideremos un ejemplo para poder comprender mejor el funcionamiento del proceso. Supongamos que estamos interesados en estudiar la dieta eficaz contra la ingesta regular de bebidas ligeras.

Para ello, se confeccionó una escala de evaluación de la actitud del encuestado que se componía de siete aseveraciones diferentes. De este modo, los individuos entrevistados arrojaron valores de 1 a 7 puntos. Las afirmaciones que formaban parte de la escala de siete puntos eran del tipo: las bebidas ligeras dietéticas saben más fuerte, las bebidas dietéticas son más sanas, etc. Se convino en recoger los datos demográficos y los datos de consumo de bebidas refrescantes por su relevancia para el estudio planteado.

Como se dijo anteriormente, en esta fase se examinan los promedios de la puntuación de los perfiles. Para nuestro caso concreto, basándonos en la escala de actitud diseñada para cada grupo y poder asignar de esta manera una etiqueta descriptiva a cada uno de ellos.

Supongamos que dos de los grupos resultantes del análisis cluster tuvieran actitudes favorables hacia las bebidas dietéticas ligeras y un tercer grupo actitudes negativas. Se podría manejar la posibilidad de que, de los dos grupos favorables en actitud, uno de ellos fuera favorable sólo hacia las bebidas dietéticas ligeras y el otro favorable tanto hacia refrescos ligeros como hacia refrescos normales. Evaluaríamos entonces las actitudes de cada cluster y desarrollaríamos interpretaciones substantivas para facilitar el etiquetado de cada grupo. Por ejemplo, uno de los cluster podría etiquetarse como individuos conscientes de la salud y las calorías y el otro como individuos indiferentes a una subida de azúcar.

Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es más que la descripción de las características de cada cluster para explicar como podrían inferir en dimensiones relevantes.

Para conseguir esto, se recurre normalmente al empleo del Análisis Discriminante o a algún otro estadístico apropiado. El analista utiliza los datos no incluidos previamente en el procedimiento de aglomeración para perfilar las características de cada cluster.

Estos datos suelen ser características demográficas, perfiles psicográficos, pautas de consumo, etc.

Aplicando este proceso y extrapolándolo al ejemplo de las bebidas concluiríamos que el cluster individuos conscientes de la salud y las calorías radica en una mejor educación o en mayores ingresos profesionales al ser consumidores moderados de bebidas refrescantes. En resumen, el análisis de perfiles se enfoca a describir no a lo que determinan directamente los clusters sino (una vez se han determinado los distintos grupos) a sus características propias. Por ello, se hace especial énfasis en las características que definen los grupos y en la capacidad de los miembros de cada conglomerado para predecir una actitud particular del cluster en cuestión.

8. Validación de Conglomerados Obtenidos

Dados los criterios generales que comprende el AC , no debe aceptarse ninguna solución de agrupación sin una evaluación de su confianza y validez. La validación es el intento por parte del analista de asegurar que los clusters obtenidos sean representativos de la población original y que sean generalizables a otros objetos y estables a lo largo del tiempo.

Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupación:

Realizar el AC con los mismos datos y utilizar distintas medidas de distancia. Comparar los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones.

Utilizar diversos métodos de conglomerado y comparar los resultados.

Dividir los datos a la mitad de forma aleatoria. Realizar el AC por separado en cada mitad (submuestra). Comparar las soluciones de los dos análisis y evaluar la correspondencia de los resultados o bien comparar los centroides de grupo de las dos submuestras.

Eliminar las variables de forma aleatoria. Realizar la agrupación basándose en el conjunto reducido de variables. Comparar los resultados basados en el conjunto completo con los que se obtuvieron al realizar el conglomerado.

En el conglomerado no jerárquico la solución puede depender del orden de los casos en el conjunto de datos. Para estudiar ésto, es recomendable llevar a cabo corridas múltiples y utilizar distintos órdenes de los casos hasta estabilizar la solución.

1.2 Definición de Variables

Se define como variables la propiedad que puede variar y cuya variación es susceptible de medirse. Ejemplos: sexo, motivación hacia el trabajo, personalidad, exposición a una campaña, calidad del servicio.

En el trabajo con formulaciones hipotéticas resulta de vital importancia la definición del tipo de relaciones que se establecen entre las variables, puesto que la verificación depende del grado en que se puedan demostrar esas relaciones. Esto exige mucha precisión en el uso de los términos lógicos que enlazan a las variables, ya que una expresión mal utilizada puede desvirtuar completamente el sentido de la formulación.

Las relaciones entre variables pueden clasificarse como sigue:

1. Reversible: si X, entonces Y, y si Y entonces X,
o irreversible: si X, entonces Y, pero si Y, no hay conclusión respecto a X.
2. Determinista: si X, entonces siempre Y,
o estocástica: si X, entonces probablemente Y.
3. Secuencial: si X, entonces más tarde Y,
o coexistente: si X, entonces también Y.
4. Suficiente: si X, entonces independientemente de otra cosa, Y,
o contingente: si X, entonces Y, pero solo si Z.
5. Necesaria: si X, y solo X, entonces Y,
o sustituible: si X, entonces Y, pero si Z, también Y.
6. Interdependiente: cuando en la relación se combinan los atributos de reversibilidad, contingencia y secuencialidad, por ejemplo: si X, varía a Xi, Xii, Xiii...., entonces Y varía también a Yi, Yii, Yiii...., etcétera.

Una vez que se han establecido con precisión las relaciones entre las variables, es preciso realizar su operacionalización, o sea, identificar las dimensiones, indicadores, escalas y categorías con las que puede constatarse la presencia de la variable que interesa medir.

En la teoría investigativa se han definido tres tipos de variables, que corrientemente aparecen en los diseños hipotéticos: variables dependientes, independientes y ajenas. No creemos necesario profundizar sobre las características de cada una, aún cuando abundan los ejemplos en que se confunde la relación entre las dos primeras o no se toman en consideración las que actúan paralelamente a la relación principal.

En cualquier variable se pueden distinguir dimensiones cuantitativas y cualitativas. Las dimensiones de las variables también pueden ser espaciales y temporales. Otro tipo de dimensiones son las contextuales y situacionales, además las dimensiones de la variable pueden ser individuales y grupales.
 
Este asunto requiere de un profundo análisis previo del objeto de estudio, para que puedan establecerse con exactitud todas las dimensiones e indicadores que identifican a la variable seleccionada. A partir de aquí podrá elaborarse una hipótesis sólida y verificable.
 
En el siguiente esquema se presenta el análisis de las dimensiones posibles para dos variables seleccionadas en un ejemplo de un grupo de estudiantes, donde se seleccionan el Rendimiento y la Disciplina escolar:

Dimensiones

Rendimiento

Disciplina

Cuantitativa

Porcentaje de aprobados

Cantidad de hechos

Cualitativa

Calidad de las calificaciones

Trascendencia, magnitud

Objetiva

Calificaciones

Sanciones y estímulos

Subjetiva

Criterios sobre el redimiento (de

los maestros, alumnos, padres,

funcionarios y otros).

Criterios sobre la disciplina (de

los maestros, alumnos, padres,

funcionarios y otros).

Espaciales

En los exámenes, trabajos de

clase, tareas extraclase y otros.

En el aula, taller, área de depor-

tes, biblioteca y otros.

Temporales

Semanal, mensual, semestral,

curso escolar, carrera, etc.

Semanal, mensual, semestral,

curso escolar, carrera, etc.

Contextual

En ejercicios programados o

sorpresivos.

Bajo control del docente, o de

otras personas.

Situacional

En los controles parciales, fina-

les o de selectividad.

En las actividades docentes,

extradocentes, recreativas, etc.

Individual

Rendimiento individual, por asig-

natura, período y curso.

Cumplimiento individual de las

normas disciplinarias.

Grupal

Rendimiento grupal, por asig-

natura, período y curso.

Cumplimiento individual de las

normas disciplinarias.

 A partir de estos elementos estudiados se procede a la selección o definición de variables, para ello se consultaron diversas bibliografías. Atendiendo a la relación existente con la investigación que se realiza y los elementos finales que perseguimos se seleccionó un estudio realizado por Guimaraes, Sandy y McKeen (2003) para el Quality Managetmen Journal Vol.10. Issue4. October 2003, titulado "Comprobación empírica de algunos factores relacionados con el desarrollo de sistemas de calidad", en el cual se realiza un profundo estudio con datos de más de 228 sistemas de calidad para seleccionar variables que inciden en la calidad del servicio por ellos seleccionado, teniendo en cuenta los aspectos allí tratados y tomados como base fundamental para la determinar las variables de esta investigación se han definido como variables para realizar el Análisis de Conglomerados las siguientes:

Cantidad de Auditorías que se realizan: Esta variable indica la cantidad de Auditorías realizadas por cada territorio teniendo en cuenta la dimensión de los mismos y sus características territoriales.

Cantidad de auditores con que cuenta el sistema: Nos permite saber los Recursos Humanos con que cuenta el sistema en los diferentes territorios, indica además el déficit o satisfacción de las necesidades de Recursos Humanos implicados en la prestación del servicio.

Calificación de los Auditores: Es la experiencia adquirida del proveedor del servicio, no todos los proveedores tienes la misma capacitación.

La experiencia del proveedor es obtenida a través del adiestramiento en la preparación de las tareas que deben realizar y en la ejecución de las mismas.

Características del sistema empresarial: El sistema empresarial de los territorios puede ser homogéneo o heterogéneo, dependiendo de las características y el desarrollo de cada territorio esto implica que el servicio de Auditoría que se presta sea diferente en cuanto a cantidad de Auditorías a realizar,

el número de auditores implicados, los recursos que se comprometen, el tiempo de ejecución de Auditorías, recalificación y formación de los Recursos Humanos.

Bibliografía:

Aiteco Consultores, Métodos y Herramientas. Disponible en: http://www.aiteco.com/
¨ Barredo Prieto, Manuel. Filosofías de Calidad. Disponible en: www.monografias.com/trabajos15/filosofias-calidad/filosofias-calidad.shtml
¨ Benitez Miranda, Miguel Angel, Miranda Dearubas, María Victoria. Contabilidad y Finanzas para la formación económica de los cuadros de dirección /Angel Miguel Benitez Miranda, Maria Victoria Mirandas Dearubas. -- Ministerio de la Industria Ligera, 1997.
¨ Blázquez Moral, Juan. Auditoría. Juan Blázquez Moral. Editorial Nacional de Cuba, La Habana, 1965
¨ Bolten, Steven E. Administración Financiera. E. Steven Bolten. Editorial Limusa S.A. Balderas. Universidad de Houston. México. DF, 1995.
¨ Cantú. Desarrollo de una cultura de Calidad. Cantú, H.D., Mc Graw_Hill. 2001.
¨ Colectivo de autores. CECOFIS. Diplomado en Auditoría General. Manual de autoestudio. Tomo 1 y 2 del 2001
¨ _______, Principios de la Auditoría. Ciudad de La Habana. Cuba.
¨ _______, Regulaciones sobre Normas de Auditoría. Oficina Nacional de Auditoría. Cuba, 1999.
¨ Colín, Leticia. “Las normas ISO 9000-2000 de Sistemas de Gestión de la Calidad”
¨ Cook, John W. y Winkle, Gary M. Auditoría, 3° Edición, McGRAW-HILL, Buenos Aires-Argentina, 1987.
¨ Cospin, M Oswaldo. 7 Herramientas básicas para el control de calidad. Disponible en: www.monografias.com/trabajos7/herba/herba.shtml.
¨ De Miranda, Antonio; Torras, Oscar. Auditoría de las empresas socialistas/ Antonio de Miranda, Oscar Torras. Universidad de la Habana. La Habana, 1974.
¨ Decreto Ley # 159 de Auditoría. Oficina Nacional de Auditoría. Cuba , 1995.
¨ Echevarría Hernández, Rogelio. La Auditoría Interna. Rogelio Echevarria Hernandez. Ministerio de Finanzas y Precios, 1994.
¨ Evans, James R. y Lindsay, William M. La Administración y el Control de la Calidad. International Thomson Editores. México, 2000
¨ GestioPolis.com. Normas de calidad. Disponible en: www.gestiopolis.com/recursos/documentos/fulldocs/ger/normascalidad.htm
¨ Gómez Avilés, Bismayda. Gestión de la calidad. Conceptos, terminología y enfoques. Cuba, 2002
.. Guimaraes, Sandy y McKeen(2003) QMJ Vol.10 Issue 4. October 2003.
¨ Heckmann, Gerardo.Medición de la Calidad de los Servicios, disponible en www.cema.edu.ar/postgrado/download/tesinas2003/MADE_Weil.pdf
¨ Hernández, Hugo. Generaciones de la calidad. Disponible en: www.monografias.com/trabajos13/genecal/genecal.shtml
¨ Holmes, Arthur W.: Auditoría: principios y procedimientos. W Arthur Holmes. Editorial Hispanoamérica. México.1952
¨ Internetworking Technologies Handbook. Capítulo 49. “Quality of Service Networking”.
¨ ISO 9000- 2000. Sistemas de gestión de la calidad. principios y vocabulario.
¨ Juran, Joseph Moses. Manual de Control de la Calidad. Joseph Moses Juran. Graw_Hill. 5. Edición. 2001.
¨ La Página de la Calidad. Las 7 Herramientas de la Calidad. Disponible en www.calidad.com.ar/calid112.html.
¨ León Lefcovich, Mauricio. Kaizen – La Mejora Continua aplicada en la Calidad, Productividad y Reducción de Costos. Disponible en: www.monografias.com/trabajos14/kaizencostos/kaizencostos.shtml
¨ Mendoza Aquino, José Antonio. Medición de la calidad del servicio. Disponible en: www.monografias.com/trabajos12/calser/calser.shtml
¨ Microsoft Corporation. “Resumen de los mecanismos de QoS y cómo interoperan”, 2004.
¨ Ministerio de Auditoria y Control. Manual del MAC. 2000
¨ Moreno, Joaquín. Las Finanzas en la empresa. Cuarta Edición. México, 1989.
¨ Paton, W.A. Manual del contador. W. A. Paton. México Utecha, 1943.
¨ Poblete, Fernando. Normas de Auditoria. Disponible en: www.eduardoleyton.com
¨ Pons Murguía, Ramón. Notas de clase Maestría Ing. Industrial. Conferencias impartidas por Dr. C. Ramón Pons Murguía
¨ Resolución No. 2/97, Oficina Nacional de Auditoría. Cuba, 1997
¨ Revista " Auditoria y Control" Ministerio de Auditoria y Control.No 4 del 2001
¨ Revista “Auditoria y Control” Ministerio de Auditoria y Control.No 8 Abril 2003
¨ Revista “Auditoria y Control” Ministerio de Auditoria y Control. Volumen I, No 3. Edición.
¨ Sanguinetti, Corabel. Análisis y Diseño de Sistema. Disponible en: www.monografias.com/trabajos14/analisis-sistemas/analisis-sistemas.shtml
¨ Universitas Miguel Hernández. Herramientas de la Calidad, disponible en: http://calidad.umh.es/es/herram.htm
¨ Vilar Barrio, José Francisco. Las 7 nuevas herramientas para la mejora de la calidad, 2ª edición.
¨ Weston, J. Fred y Capeland, Thomas E. Finanzas y Administración. Novena Edición. México, 1996.
¨ Zabaro Babani, León. Auditoría y Control. Leon Zabaro Babani. Septiembre –Diciembre, 2000.
¨ www.gestiopolis.com/recursos/documentos
/archivodocs/degerencia/gerno2/herrbasisolprob.htm
¨ www.gestiopolis.com/recursos/documentos/archivodocs/degerencia/normqual.htm
¨ www.ciberconta.unizar.es
 

[http://www.gestiopolis.com/estilos/cierre-lectura.htm]

Lic. Adelkys Rosa Sánchez Gómez y Lic. Ederlys Hernández Meléndrez - adelkyssarrobayahoo.com.mx   ederlysarrobacmatriz.copextel.com.cu

Graduada de Licenciatura en Contabilidad y Finanzas en el año 2001. Actualmente labora como Profesora de Auditoría en la Facultad de Contabilidad y Finanzas del Centro Universitario José Martí Pérez de Sancti Spíritus, Cuba. Ha cursado diversos estudios de postgrados en Materia de Auditoría, Contabilidad y Finanzas y temas relacionados. 

Profesora Auxiliar adjunta de la Universidad de Las Villas, aspirante a titular, más de 25 años vinculados a la actividad empresarial. Supervisora General de la Corporación Copextel SA. Basta experiencia en temas de Contabilidad, Finanzas y Auditoría. Actualmente trabaja en un proyecto de tesis doctoral vinculado a Manuales de Procedimientos de Contabilidad y Control Interno en dicha Corporación. Miembro de la Sociedad de Auditoría.

[http://www.gestiopolis.com/estilos/fondo-contenidos.htm]

Nuevas publicaciones

⇐ Hazte Fan en Facebook
⇐ Síguenos en Twitter
⇐ Agréganos en Google +
⇐ Suscríbete vía Email
"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las manzanas, entonces tanto tú como yo seguiremos teniendo una manzana. Pero si tú tienes una idea y yo tengo una idea e intercambiamos ideas, entonces ambos tendremos dos ideas"
George Bernard Shaw
Comparte conocimiento
Contenidos publicados con licencia CC BY-NC-SA 3.0 a excepción de los casos en los que se indican derechos de autor específicos. Sugerimos contactar a los autores al usar material públicamente.