Un problema al que se enfrenta cotidianamente el Tasador es el análisis de Variables Cualitativas (No Numéricas). Debido a que las Variables Cualitativas no presentan un comportamiento lineal (ni reducible a lineal); al aplicar las técnicas convencionales de regresión múltiple, pueden generar modelos irreales o simplemente no convergen a ningún valor.
La Regresión Loglineal, es un método estadístico cuyo objetivo consiste en estudiar la “Clasificación” de las Variables Cualitativas. Es esencialmente un Modelo de Regresión Lineal Múltiple entre las Variables Cualitativas y el Logaritmo Neperiano de la Frecuencia de los datos (referenciales), de la forma:
El Modelo anterior se corresponde a un modelo completo (Saturado) para las variables Cualitativas A, B y C; sin embargo el modelo anterior supone un modelo pesado y complejo. Por un principio elemental de parsimonia, se debe encontrar uno o mas modelos mas simples, que generen un resultado con un grado aceptable de precisión y los definimos como “Modelos Jerárquicos”, en el sentido de que si un parámetro es nulo, también los serán aquellos términos de orden inferior.
El Paquete Estadístico SPSS, permite mediante un algoritmo, determinar el Modelo Saturado y el Modelo Jerárquico mas adecuado.
De esta manera obtenemos un Modelo cuya Variable de Respuesta sea el Logaritmo Neperiano de la Frecuencia (“Conteo”) de los datos (referenciales) y las Variables de Diseño aquellas variables cualitativas seleccionadas para la determinación de Valor de un Inmueble.
Palabras Claves: regresión, correlación, análisis loglineal, análisis de correspondencia, dicotómica, variable cualitativa, variable categorial, análisis multivariante, tabla de contingencia, modelo jerárquico, modelo saturado.
- Marco Teórico:
1.1 ¿Qué es la Regresión Loglineal?
Los Modelos Loglineal, a diferencia de los Modelos de Regresión Múltiple, permiten un mejor análisis para el caso de variables cualitativas (categóricas) dicotómicas o politómicas[1].
En Análisis Loglineal, se podría entonces definir como un Método cuyo objetivo consiste en el estudio de las relaciones entre las variables cualitativas (o no numéricas).
La Regresión o Análisis Loglineal, es un método estadístico cuyo objetivo consiste en estudiar la “Clasificación”[2] de las Variables Cualitativas.
La Regresión Loglineal, es esencialmente un Modelo de Regresión Lineal Múltiple entre las Variables Cualitativas y el Logaritmo Neperiano de la Frecuencia de los datos (referenciales), de la forma:
Donde A, B y C; son Variables Cualitativas
El uso fundamental del análisis Loglineal, consiste en determinar la contribución de las diferentes variables categoriales seleccionas, en la conformación de una “Tabla de Contingencia”.
1.2 ¿Qué son las Tablas de Contingencia?
Se define como “Tabla de Contingencia” (Crosstabulation Tables), a una combinación de dos o mas tablas de distribución de frecuencia, arregladas de manera que cada celda o casilla de la Tabla resultante represente una única combinación de las “variables cruzadas (crosstabuled)”.
De tal manera que la “Tabla de Contingencia” nos permita examinar las frecuencias observadas que pertenecen a cada una de las combinaciones específicas de dos o más variables.
Por ejemplo:
Tabla de Contingencia del análisis de la relación que existe entre la Preferencia de la población de vivir en casa o apartamento en Dos principales ciudades:
VIVIR EN CASAS | VIVIR EN APART. | ||
CARACAS | 10 | 40 | 50 |
VALENCIA | 30 | 20 | 50 |
50 | 50 | 100 |
Examinando estas frecuencias, podemos identificar las relaciones entre las variables de la “Tabla de Contingencia” (por ejemplo, La población de Caracas claramente prefiere vivir en apartamentos).
La Regresión Loglineal, nos proporciona una manera más sofisticada de analizar las “Tablas de Contingencia” y determinar las interacciones estadísticas de las variables seleccionadas.
1.3 Variables de Diseño vs. Variables de Respuesta
En las técnicas de Regresión Múltiple, se hablan de “Variables Independientes” y “Variable Dependiente”, definiendo a la Variable Dependiente como aquella que es explicada por la combinación de Variables Independientes.
En la Regresión Loglineal, no se pueden hablar de Variables Dependientes o Independientes, ya que se trata de relacionar únicamente la el Logaritmo Neperiano de la Frecuencia (ocurrencia o conteo de datos) en función de una serie de variables categoriales (cualitativas).
Entonces, hablaríamos de “Variables de Diseño” y “Variable de Respuesta”; siendo las “Variables de Diseño” aquellas variables categoriales (Dicotómicas o politómicas) que seleccionamos para construir nuestra Tabla de Contingencia y la “Variable de Respuesta” la frecuencia o ocurrencia de la data.
1.4 La Bondad de Ajuste
La bondad de ajuste de una Regresión Loglineal, se basa en la “significancia” de la desviación (residuo) entre la Frecuencia Observada de los datos y la Frecuencia Esperada que genera el modelo loglineal.
Es decir, el modelo será mejor en función de la minimización de la diferencia entre la Frecuencia Observada y la Esperada[3].
Se evaluará las Significancia (p) o “Bondad de Ajuste” de un Modelo Loglineal particular, mediante: El Test del Chi Cuadrado () Tradicional[4] y Estadístico de Máxima Verosimilitud de Pearson ()[5] (o Pearson Likelihood Ratio Chi-square como es su denominación en inglés).
De tal manera, que se cumplan los siguientes parámetros:
- Chi Cuadrado (): Máximo
- Estadístico de Máxima Verosimilitud de Pearson (): Máximo
- Significancia (Sig.): Mínima (
- El Modelo Loglineal Saturado
2.1 Definición de un Modelo Saturado
El Análisis o Regresión Loglineal, analiza el Logaritmo Neperiano (Ln) de la Frecuencia de cada celda o casilla de una Tabla de Contingencia, por medio de un modelo lineal.
Por lo tanto, el Ln de la frecuencia de cada celda o casilla se puede expresar como la suma de las contribuciones de las diferentes variables que intervienen en la formación del Modelo Loglineal.
Se define como Modelo Saturado (o Completo) a aquel que contiene TODOS los posibles efectos principales y TODAS las posibles combinaciones (efectos de 2do., 3er. o enésimo orden) de la Variables seleccionadas que lo componen.
Debido a que el Modelo Loglineal Saturado, puede reproducir perfectamente la data estudiada, debido a que contiene todas las posibles combinaciones de las variables seleccionadas; se supone en un modelo pesado y complejo, y usualmente no es el modelo más deseable.
Por un principio elemental de parsimonia, se debe encontrar uno o mas modelos mas simples, que generen un resultado con un grado aceptable de precisión y los definimos como “Modelos Jerárquicos” y que serán analizados mas adelante.
2.2 Ejemplo de un Modelo Loglineal Saturado
Supongamos que para un estudio de valoración de apartamentos vacacionales en una ciudad costera, queremos estudiar la relación entre las Variables Categoriales:
X: Vista al Mar
Y: Edificio con Piscina
Z: Edificio con Puestos de Estacionamiento para visitantes
La ecuación para un Modelo Loglineal Saturado, esta dado por:
Donde:
Representa la Frecuencia de cada celda o cuadrícula de la Tabla de Contingencia producto de la interacción de los Datos (referenciales) y Variables seleccionadas
Representa el Término Independiente de la Ecuación
Representa el “efecto principal” de la Variable Cuantitativa o Categorial X
Representa el “efecto principal” de la Variable Cuantitativa o Categorial Y
Representa el “efecto principal” de la Variable Cuantitativa o Categorial Z
Representa el “efecto de segundo orden” o combinación de las Variables Categoriales X ý Y
Representa el “efecto de segundo orden” o combinación de las Variables Categoriales X ý Z
Representa el “efecto de segundo orden” o combinación de las Variables Categoriales Y ý Z
Representa el “efecto de tercer orden” o combinación de las Variables Categoriales X, Y ý Z
2.3 Desventaja del Modelo Saturado
EL Modelo Saturado, aunque evidentemente siempre se cumple, supone un número inmanejables de ecuaciones; por ejemplo para el caso anterior Nueve Ecuaciones. Por lo tanto es un modelo pesado y sumamente complejo.
Por lo tanto, es necesaria la búsqueda de uno o varios modelos mas simples que den cuenta de dichas frecuencias con un grado de precisión aceptable para un nivel dado de confianza[6].
Cuando se analizan Tablas de Contingencias de Cuarto Orden o mayor, la determinación del mejor modelo de Regresión Loglineal puede resultar altamente dificultoso. Aquí entraría la búsqueda de una Modelo de Correlación más simple.
- Los Modelos Loglineal Jerárquicos
3.1 Definición
Se define como Modelos Loglineal Jerárquicos, a los diferentes modelos, todos sub-juegos (ecuaciones de menor orden que el Modelo Saturado) provenientes del Modelo Loglineal Saturado, que cumplan las condiciones siguientes:
- Si un parámetro es nulo, también los serán aquellos términos de orden inferior.
- Que exista completa independencia entre las variables seleccionadas[7]
Si estas condiciones se cumplen, se genera un Modelo Loglineal más sencillo, más elegante y con un grado aceptable de precisión
3.2 Relación Jerárquica
Para un Modelo con Tres (3) Variables de Diseño A, B ý C, se pueden obtener una gran cantidad de Modelos Jerárquicos de Orden Inferior, como por ejemplo los siguientes:
- Modelo Jerárquico de Tercer Orden (Modelo Saturado):
- Modelos Jerárquico de Segundo Orden
- Modelos Jerárquicos de Primer Orden
- O cualquier combinación válida:
3.3 Obtención del Modelo Jerárquico de Mejor Ajuste
3.3.1 Método General
El Método de búsqueda del Mejor Modelo Jerárquico más utilizado por los paquetes estadísticos dedicados en el conocido como “Retro-eliminación” (Backward Elimination).
Esta metodología combina el uso de los k(ésimo)-ordenes y el test Chi – cuadrado para encontrar un Modelo Jerárquico o varios Modelos Jerárquicos significativos
La lógica del proceso es la siguiente:
- Se comienza calculando el Modelo Saturado.
- Se analiza el Modelo Jerárquico o los Modelos Jerárquicos de más alto orden
- Se elimina el Modelo o Modelos de ese orden que no sean significativos ()
- Se eliminan los Modelos Jerárquicos de Orden Inferior en las mismas variables
- Se analizan los Modelos Jerárquicos restantes
- El proceso se continúa hasta el punto en que no puedan seguir eliminándose mas efectos sin sacrificar el poder predictivo del modelo () permanezcan constantes o tiendan a disminuir o aumentar .
3.3.2 Uso del SPSS en la determinación de los Modelos de Regresión Loglineal
El propósito de esta monografía es en absoluto un texto sobre las técnicas de la Regresión Loglineal.
Más bien, es la aplicación de una herramienta estadística novedosa a la resolución de problemas relacionados con la Valuación, en el caso de la utilización de variables no numéricas o cualitativas.
Por lo tanto, una vez expuesto en forma muy esquemática la teoría estadística – matemática de los Modelos Loglineales (Saturados y Jerárquicos), se pasará al estudio de un caso práctico utilizando el paquete estadístico SPSS versión 10.0[8].
El paquete estadístico SPSS, mediante el Módulo Loglineal, permite la determinación de Modelos Estadísticos Saturados y Jerárquicos.
Dentro de los “Modelos Jerárquicos”, el SPSS permite o bien seleccionar automáticamente el Modelo Jerárquico de Mejor Ajuste, o permite al usuario escoger o modelar cualquier sub-juego de variables.
El desarrollo de esta monografía se basa en la determinación automática del Modelo Jerárquico de mejor ajuste, de acuerdo a un algoritmo propio de SPSS.
El SPSS utiliza para determinar el Modelo Loglineal de mejor ajuste el Método denominado “Retroeliminación” (Backward Elimination), previamente citado.
Es de hacer notar, que el algoritmo de “Retroeliminación” es largo, ocupando unas Quince (15) páginas de texto al imprimir los resultados[9]
Básicamente, se puede resumir el proceso de cálculo en los siguientes pasos generales:
- Enterar correctamente los datos a correlacionar en el “Editor de Datos” (Data Editor) del paquete SPSS
- Los procedimientos de cálculo en el SPSS se encuentran en el Menú Analyze
- Dentro del Menú Analyze se encuentra la subrutina o módulo Loglineal.
- Dentro del módulo Loglineal, se encuentran Tres (3) Submenús:
- General…
- Logit…
- Model Selection[10]…
- Una vez ubicados en la pantalla Model Selection Loglineal Análisis, se procede a:
- Seleccionar la “Variables de Diseño” que van a ser correlacionada.
- Definir los Rangos mínimos y máximos de la data que conforman cada una de las “Variables de Diseño”[11].
- Definir las Opciones de cálculo y salida de los modelos.
- E Iniciar el análisis mediante el botón OK.[12]
- Una vez el SPSS finalizado los cálculos, presentará la salida de los modelos en la pantalla SPSS Viewer, en forma de texto.
- De allí el usuario podrá o bien imprimirlo en papel o “exportar” la salida en un archivo de texto para su uso en un procesador de palabras u hoja de cálculo.
3.4 Interpretación de la Salida del SPSS
Quizás el problema más grande para el Ingeniero Tasador es la interpretación de la salida del SPSS.
En primer lugar, hay que tener algún conocimiento básico de lo que se pretende realizar ya que el paquete estadístico genera una gran cantidad de información, la cual hay que saberla identificar y evaluar. En segundo lugar hay que estar claro que el paquete SPSS va a generar “Tablas de Contingencia” de diferentes niveles y hay que tener el conocimiento básico para su rearmado a fin de poder interpretar los resultados del modelo.
El paquete estadístico dedicado SPSS, presenta una salida estándar[13] la cual generalmente está compuesta por:
- Generación del Modelo Loglineal Saturado[14]
- Estadísticos de Control del Modelo Loglineal Saturado
- Grados de Libertad (F.)
- Chi Cuadrado ()
- Estadístico de Máxima Verosimilitud de Pearson ()
- Significancia (Prob.)
- Otros estadísticos de control
- Procedimiento de Retroeliminación para el cálculo del Model Loglineal Jerárquico de Mejor Ajuste, donde el software:
- Parte del Modelo Loglineal Saturado
- Analiza todas los posibles los Modelos Jerárquicos partiendo del más alto orden a mas bajo orden
- Indica para cada uno de los “Modelos Jerárquicos” sus correspondientes estadísticos de control
- Sugiere a final como “Modelo Jerárquico de Mejor Ajuste” aquel que tenga
- El “Estadístico de Máxima Verosimilitud de Pearson” (): Máximo
- La “Significancia” (): Mínima
- Generación de:
- Modelo Loglineal Jerárquico de “Mejor Ajuste”[15]
- Estadísticos de Control del Modelo Loglineal Jerárquico
- Grados de Libertad (D.F.)
- Estadístico de Máxima Verosimilitud de Pearson ()
- Significancia (Prob.)
4.0 La Regresión Loglineal para modelos Saturados y Jerárquicos aplicada al Avalúo Inmobiliario.
4.1 Aplicación de la Regresión Loglineal al Avalúo Inmobiliario
Un problema al que se enfrenta cotidianamente el Tasador es el análisis de Variables Cualitativas o Categoriales (No Numéricas), tales como Vista de apartamento, Calidad del Vecindario, Facilidades en las áreas comunes, Seguridad; la cuales siendo “Características Intangibles”, sin lugar a dudas contribuyen a la formación o destrucción del valor de un inmueble.
Debido a que las Variables Cualitativas o Categoriales no presentan un comportamiento lineal (ni reducible a lineal); al aplicar las técnicas convencionales de regresión múltiple, inclusive Técnicas de Redes Neurales; pueden generar resultados incongruentes o simplemente no converger a ningún valor.
4.2 Valoración mediante Tablas de Contingencias
Debido a que el objetivo último del análisis Loglineal, consiste en determinar la conformación de “Tablas de Contingencia”. La valoración de un inmueble estará en función de la ubicación de las características del mismo dentro de esa “Tabla de Contingencia generada”.
Por lo tanto, aquí se presentará un enfoque diferente a la Metodología Tradicional para la elaboración de un avalúo.
Hasta ahora, se analizaban las características físicas (área, edad, ubicación, etc.) del inmueble a fin de determinar su valor.
En este nuevo enfoque, el “Rango del Valor”[16] del inmueble, va a depender de su posición dentro de la “Tabla de Contingencia” generada por el “Análisis Loglineal”. Debido a que la variable “Precio” (o Precio Unitario) es ahora una solo “Variable de Diseño” mas.
Bajo esta nueva perspectiva, se le ha disminuido la “categoría”, que hasta ahora tenía, la Variable “Precio” (o Precio Unitario), y se ha reducido a ser un componente más de los diferentes parámetros que conjuntamente podrán definir la posición de un inmueble dentro de una tabla de contingencia y por lo tanto determinar su “Rango de Valor”.
4.3 Ejemplo de Aplicación
Debido a lo novedoso del método y la complejidad de la interpretación de las entradas / salidas de la data. Se explicará paso por paso este método, bajo el enfoque de un modelo de valoración muy sencillo.
4.3.1 Descripción del Problema
Se trata de la Valuación de apartamentos vacacionales en varias urbanizaciones similares del Barlovento venezolano (en las cercanías de Río Chico. Estado Miranda), tales como Los Canales, Las Mercedes, Lagunamar, etc.
Debido a que este es un simple ejemplo de aplicación, solo se seleccionaron una pequeña muestra de 18 datos referenciales de apartamentos muy similares entre sí.
4.3.2 Variables Categoriales Seleccionadas
Debido a que este ejemplo ilustra la demostración de la Regresión Logística, se utilizarán únicamente las Variables Categoriales o Cualitativas siguientes:
4.3.3 Referenciales Seleccionados
Todos los Referenciales fueron tomados de la Oficina Subalterna de Registro Público de Río Chico y se corresponden a Documentos protocolizados el primer Trimestre del año 2,003.
4.3.4 Codificación de la Data
De acuerdo a los criterios utilizados en el Punto 4.3.2 con respecto a las Variables de Diseño seleccionadas, se preparará una matriz de datos codificados[17] a fin de poder enterarlos en el paquete estadístico SPSS.
4.3.4.1 Selección de las Variables de Diseño
4.3.4.1 Codificación de las Variables de Diseño
4.3.5 Extractos de la Salida del Paquete Estadístico SPSS[18]
4.3.5.1 Especificación del Modelo Loglineal
* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *
DATA Information
18 unweighted cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
18 weighted cases will be used in the analysis.
FACTOR Information
Factor Level Label
PRECIO 4
MERCADO 2
PISCINA 2
VISTA 2
– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
4.3.5.2 Estadísticos de Control del Modelo Loglineal Saturados[19]
* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *
DESIGN 1 has generating class
PRECIO*MERCADO*PISCINA*VISTA
Note: For saturated models .500 has been added to all observed cells.
This value may be changed by using the CRITERIA = DELTA subcommand.
The Iterative Proportional Fit algorithm converged at iteration 1.
The maximum difference between observed and fitted marginal totals is .000
and the convergence criterion is .250
– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
Goodness-of-fit test statistics
Likelihood ratio chi square = .00000 DF = 0 P = 1.000
Pearson chi square = .00000 DF = 0 P = 1.000
4.3.5.3 Método de Retroeliminación (Backward Elimination): Lista de todos los posibles efectos de 3°, 2° y 1° Orden
* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *
Tests of PARTIAL associations.
Effect Name DF Partial Chisq Prob Iter
PRECIO*MERCADO*PISCINA 3 .044 .9976 3
PRECIO*MERCADO*VISTA 3 .189 .9794 2
PRECIO*PISCINA*VISTA 3 .000 1.0000 4
MERCADO*PISCINA*VISTA 1 .000 1.0000 3
PRECIO*MERCADO 3 7.869 .0488 4
PRECIO*PISCINA 3 5.039 .1690 3
MERCADO*PISCINA 1 .629 .4276 4
PRECIO*VISTA 3 5.917 .1157 4
MERCADO*VISTA 1 .777 .3779 4
PISCINA*VISTA 1 7.530 .0061 2
PRECIO 3 8.089 .0442 2
MERCADO 1 .223 .6370 2
PISCINA 1 .896 .3438 2
VISTA 1 .896 .3438 2
– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
4.3.5.3 Método de Retroeliminación (Backward Elimination): Selección del Modelo Jerárquico de Mejor Ajuste[20]
Step 9
The best model has generating class
PRECIO*MERCADO
PRECIO*VISTA
PISCINA*VISTA
Likelihood ratio chi square = 6.33129 DF = 18 P = .995
* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *
The final model has generating class
PRECIO*MERCADO
PRECIO*VISTA
PISCINA*VISTA
The Iterative Proportional Fit algorithm converged at iteration 0.
The maximum difference between observed and fitted marginal totals is .000
and the convergence criterion is .250
– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
Siendo el Modelo Loglineal de Mejor Ajuste el siguiente:
4.3.5.4 Determinación de las Frecuencias Observadas y Esperadas del Modelo Loglinear Jerárquico[21]:
Observed, Expected Frequencies and Residuals.
Factor Code OBS count EXP count Residual Std Resid
PRECIO 1
MERCADO 0
PISCINA 0
VISTA 0 3.0 2.5 .45 .28
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 1.0 1.5 -.45 -.38
VISTA 1 .0 .0 .00 .00
MERCADO 1
PISCINA 0
VISTA 0 1.0 .6 .36 .46
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 .0 .4 -.36 -.60
VISTA 1 .0 .0 .00 .00
PRECIO 2
MERCADO 0
PISCINA 0
VISTA 0 2.0 1.7 .30 .23
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 1.0 1.0 .03 .03
VISTA 1 3.0 3.3 -.33 -.18
MERCADO 1
PISCINA 0
VISTA 0 1.0 .8 .15 .16
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 .0 .5 -.48 -.70
VISTA 1 2.0 1.7 .33 .26
PRECIO 3
MERCADO 0
PISCINA 0
VISTA 0 .0 .0 .00 .00
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 .0 .0 .00 .00
VISTA 1 .0 .0 .00 .00
MERCADO 1
PISCINA 0
VISTA 0 .0 .6 -.64 -.80
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 1.0 .4 .64 1.06
VISTA 1 .0 .0 .00 .00
PRECIO 4
MERCADO 0
PISCINA 0
VISTA 0 .0 .0 .00 .00
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 .0 .0 .00 .00
VISTA 1 .0 .0 .00 .00
MERCADO 1
PISCINA 0
VISTA 0 .0 .6 -.64 -.80
VISTA 1 .0 .0 .00 .00
PISCINA 1
VISTA 0 1.0 .4 .64 1.06
VISTA 1 2.0 2.0 .00 .00
– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –
Goodness-of-fit test statistics
Likelihood ratio chi square = 6.33129 DF = 18 P = .995
Pearson chi square = 4.96161 DF = 18 P = .999
4.3.6 Ploteo de la Tabla de Contingencia[22]
4.3.7 Otra forma de presentar la Tabla de Continencia de una manera más fácil de comprender:
4.3.8 Ejemplos de Aplicación:
4.3.8.1 Ejemplo Número 1:
Sea un apartamento vacacional en la urbanización Los Canales con las siguientes característica:
- Apartamento Nuevo
- Vista al Canal
- Edificio con Piscina
Solución:
Se ubica en la “Tabla de Contingencia” todas las filas que incluyan las siguientes características:
- NUEVO = 1
- VISTA = 1
- PISCINA = 1
Esto conformaría el siguiente Subjuego:
Análisis de la “Tabla de Contingencia” para NUEVO =1,•VISTA =1 y•PISCINA =1:
Como se observa en la Tabla de Contingencia, existen Cuatro (4) posibles Rangos de Precios (PRECIO) para determinar el valor del apartamento a valuar. Pero al observar la Cuarta Fila se advierte que la FRECUENCIA ESPERADA es máxima.
Por lo tanto el Apartamento está ubicado en esa fila dentro de la Tabla de Contingencia y su rango de precios es PRECIO = 4. Indicando esto que El Valor de dicho inmueble, está en el Rango de Apartamentos mayores de 55 Millones de Bolívares.
4.3.8.2 Ejemplo Número 2:
Sea un apartamento vacacional en la urbanización Los Canales con las siguientes característica:
- Apartamento Usado
- Vista al Canal
- Edificio con Piscina
Solución:
Se ubica en la “Tabla de Contingencia” todas las filas que incluyan las siguientes características:
- NUEVO = 0
- VISTA = 1
- PISCINA = 1
Esto conformaría el siguiente Subjuego:
Análisis de la “Tabla de Contingencia” para NUEVO =0,•VISTA =1 y•PISCINA =1:
Como se observa en la Tabla de Contingencia, existen Cuatro (4) posibles Rangos de Precios (PRECIO) para determinar el valor del apartamento a valuar. Pero al observar la Segunda Fila se advierte que la FRECUENCIA ESPERADA es máxima.
Por lo tanto el Apartamento está ubicado en esa fila dentro de la Tabla de Contingencia y su rango de precios es PRECIO = 2. Indicando esto que El Valor de dicho inmueble, está en el Rango de Apartamentos entre los 25 y 40 Millones de Bolívares.
4.3.8.3 Ejemplo Número 3:
Sea un apartamento vacacional en la urbanización Los Canales con las siguientes característica:
- Apartamento Usado
- Vista al Canal
- Edificio sin Piscina
Solución:
Se ubica en la “Tabla de Contingencia” todas las filas que incluyan las siguientes características:
- NUEVO = 0
- VISTA = 1
- PISCINA = 0
Esto conformaría el siguiente Subjuego:
Análisis de la “Tabla de Contingencia” para NUEVO =0,•VISTA =1 y•PISCINA =0:
Como se observa en la Tabla de Contingencia, existen Cuatro (4) posibles Rangos de Precios (PRECIO) para determinar el valor del apartamento a valuar. Pero al observar la Tabla de Contingencia, se advierte que la FRECUENCIA ESPERADA es 0.0 para todas las posibles combinaciones de datos.
La conclusión lógica para este caso es que no fueron suministrados suficientes datos al modelo para generar cualquier tipo de combinación entre las Variables de Diseño, para la determinación del valor de este tipo de apartamento en particular[23].
Por lo tanto, no se puede determinar el Valor de este apartamento utilizando el presente Modelo Loglinear Jerárquico[24]
- Conclusiones
- Las técnicas de Regresión Loglineal Jerárquica, explican mucho mejor el comportamiento de fenómenos estadísticos que las técnicas de Regresión Múltiple o Redes Neurales, en el caso de series de datos Categoriales.
- En tareas de Clasificación, los Modelos Loglineal Jerárquicos generan resultados mucho más exactos que los Modelos de Regresión Logística Múltiple, pese a ser ambos métodos destinados a series de datos Categoriales.
- Para series de datos heterogéneos (Categoriales y Cuantitativas mezcladas), las Redes Neurales Artificiales y las Técnicas de Regresión Múltiple, superan ampliamente a los Modelos Loglineal Jerárquicos.
- El uso de los Modelos Loglineales Jerárquicos, es una poderosa herramienta para el “avalúo masivo”de bienes muebles e inmuebles, ya que permite clasificar los bienes dentro de Tablas de Contingencias preestablecidas.
- Aunque, el paquete estadístico SPSS es muy explícito en su manejo, funcionamiento e interpretación de los resultados. Es engorroso adaptar los Modelos Loglineales Jerárquicos como herramienta sencilla de análisis para ser usados por tasadores sin conocimientos básicos sobre la materia.
Ing. Roberto Piol Puppio
CIV 32.290 / SOITAVE 260
E-Mail: rpiol@yahoo.com
Noviembre 2,003
BIBLIOGRAFIA
- BERRIDGE D. (1994) “Assessing the goodness of fit of regression Models for ordinal categorical data”, 9th International Workshop on Statistical Modelling, Exeter University. Londres.
- CAMERON T. y QUIGGIN J. (1994) «Estimation using contingent valuation data from a «dichotomous choice with follow up» questionnaire». Journal of Environmental Economics and Management. Forthcoming. New York
- TABACHNICK B.G. y FIDELL L. S. (1996). “Using multivariate statistics”, 3rd ed. Harper Collins, New York.
- GEORGE D y MALLERY P. (2000) “Spss for windows step by step”. Allyn & Bacon. Massachusetts.
- JOBSON J.D. (1992) “Applied multivariate data análisis. Vollume II”. Springer Verlag. New York.
- LOZARES C., LOPEZ P. Y BORRAS V. (1998) “La complementariedad del log-lineal y del análisis de correspondencias en la elaboración y el análisis de tipologías”. Papers de la Universitat Autónoma de Barcelona. Número 55 pp. 79-93. Barcelona.
- PIOL R. (1989-2002) “Métodos estadísticos aplicados a la valuación de bienes inmuebles”. SOITAVE. Caracas.
- PIOL R. (2002) “Redes neurales aplicadas al avalúo inmobiliario”. Revista SOITAVE. Número 54 Septiembre 2,002 pp. 42-49 Caracas.
- VARIOS AUTORES (1999) “Tests of independence using multiway contingency tables in spss”. The University of Texas. Austin
- VARIOS AUTORES (1995) “Log-lineal análisis of frequency tables” Statsoft, Inc. Electronic Textbook. Acceso http://www.statsoft.com/textbook/stloglin.html
- WHITELEY, P. (1983) “The analysis of contingency tables”. N. Schofield & P. Whitely (editors). Londres.
LA REGRESIÓN LOGLINEAL PARA MODELOS SATURADOS Y JERÁRQUICOS APLICADA AL AVALÚO INMOBILIARIO.
Aportado por: Ing. Roberto Piol Puppio – rpiol@yahoo.com
[1] Una variable dicotómica (tal como “Con Vista al Mar” = 1 ó “Sin Vista al Mar” = 0) es un ejemplo de una variable cualitativa / categorial. Debido a que la variable cualitativa y dicotómica “Vista al Mar” no es lineal, al combinarlas con otras variables independientes, sean cuantitativas o cualitativas (tales como área de construcción, edad del inmueble, etc.) en un modelo de regresión lineal múltiple, será muy poco probable estimar o predecir correctamente la variable “Precio Unitario” en función a dichas variables mixtas.
[2] Cuando se utilizan variables cuantitativas (o numéricas) se habla de “Técnicas de Predicción o Estimación”; mientras que cuando se utilizan variables cualitativas o categoriales se hablaría entonces de “Técnicas de Clasificación”
[3] Concepto análogo a la Teoría de los Residuos que se utiliza en los Métodos de Regresión Múltiple para identificar los Datos Atípicos contenidos en una serie de datos.
[5] La prueba de Máxima Verisimilitud de Pearson (LRT, L2 ó G2 tal como se le conoce en diferentes textos), es una prueba estadística de la bondad de ajuste entre dos modelos. Un modelo relativamente más complejo se compara a un modelo más simple para ver si se comparan significativamente bien para un juego de datos en particular. El LRT sólo es válido si compara a modelos jerárquicamente anidados. Es decir, el modelo más complejo sólo debe diferir del modelo simple por la adición de una o más variables; de tal forma que agregando variables adicionales se obtenga una bondad de ajuste mayor. Sin embargo, se llega a un punto cuando agregar variables adicionales NO mejorará significantemente la bondad de ajuste del modelo más simple. El LRT mantiene un criterio objetivo seleccionando entre los posibles modelos. El LRT se inicia con una comparación de los Chi Cuadrados de la forma:
Es decir, se evalúa la diferencia de los logaritmos neperianos de los Chi-Cuadrados, basados en la diferencia de los Grados de Libertad. El LRT sigue aproximadamente al del modelo.
[6] Se puede citar la analogía de este concepto al del Análisis Factorial para la Regresión Múltiple. El Análisis Factorial, permite obtener un Modelo de Regresión Lineal Múltiple más simple y con menos variables, mediante la eliminación de “Variables No Significativas”, pero a la vez manteniendo un resultado aceptable a un nivel de confianza predeterminado.
[7] EL test de “Completa Independencia” implica que en el modelo jerárquico todas las variables sean independientes entre sí. Esto se obtiene al comparar los Chi-Cuadrados de cada variable, con la “Hipótesis Nula” (obtenido de la Tabla para su correspondiente Grados de Libertad). Donde se debe cumplir que:
Si lo anterior se cumple, indica que el Modelo Jerárquico independiente es significantemente diferente del Modelo Saturado, sugiriendo que ese Modelo Jerárquico contiene la variable o variables necesarias para obtener una buena correlación o ajuste
[8] SPSS versión 10.0 es propiedad de SPSS, Inc. Todos los Derechos Reservados.
[9] Sin embargo, el SPSS permite exportar íntegramente la salida como archivo de texto, permitiendo que el Ingeniero Tasador pueda agregar al Informe de Avalúo extractos de la misma como soporte a las operaciones.
[10] El Submenú Model Selection…, es la subrutina o módulo donde se encuentra el algoritmo para la determinación de los Modelos Jerárquicos; sin embargo aquí se determina automáticamente el “Modelo Saturado”, ya que el Método de Retroeliminación arranca con el cálculo del Modelo Saturado, tal como ya se explicó en el texto.
[11] Debido a que la Regresión Loglineal es un método enfocado a la clasificación de variables categoriales, usualmente la data viene expresada como números enteros (por ejemplo: 0 y 1 en caso de variables dicotómicas).
[12] Para una mejor explicación e instrucciones detalladas de la operación del programa, refiérase al Manual se Instrucciones del SPSS
[13] La salida del SPSS puede variar en función de las Opciones de cálculo y salida que determine el propio usuario
[14] Los modelos Loglineal se imprimen como matrices multiniveles en la salida del paquete
[15] El modelo Loglineal Jerárquico se imprime como una matriz multinivel en la salida del paquete
[16] Es obvio que la Variable “Precio” o “Precio Unitario” es una variable numérica o cuantitativa y por lo tanto debe ser “transformada” en una variable cualitativa o categorial. Para esto ya no se podrá hablar de una Variable Precio (Precio Unitario), sino de una Variable “Rango de Precio”.
[17] Obsérvese que se trata únicamente de Variables Categóricas o Cualitativas.
[18] El SPSS presenta la salida en la pantalla SPSS Viewer, en forma de texto. Esta salida puede imprimirse o exportarse como un archivo de texto.
[19] El Modelo Loglineal Saturado contiene todos los posibles “Efectos Principales” y todas las posibles combinaciones de “Efectos de Variables Combinadas”, por lo tanto reproduce perfectamente la data (). No se muestra el Modelo Loglineal Saturado en este extracto de la salida del SPSS
[20] El paquete SPSS, llega a la determinación del Modelo Loglineal Jerárquico de “Mejor Ajuste”, partiendo del Modelo Saturado y eliminando aquellos efectos de cualquier orden que no contribuyen significativamente al modelo; de manera que el “Estadístico de Máxima Verosimilitud de Pearson” () sea Máximo y la “Significancia” () sea Mínima
[21] El modelo Loglineal Jerárquico presenta la “Tabla de Contingencia” como una matriz multinivel en la salida del paquete. Ahora se procederá a “armar” esta salida en forma matricial, para una mas fácil interpretación del mismo. Se utilizarán las “Frecuencias Esperadas” como coeficientes de la “Tabla de Contingencia”.
[22] Se utilizará la Hoja de Cálculo MS-Excel para plotear la Tabla de Contingencia.
[23] No olvidar que la data está compuesta de solo 18 referenciales, ya que se trata de un modelo didáctico.
[24] Una analogía a este tipo de problemas es el caso de Modelos de Regresión Múltiple, que explican perfectamente un inmueble en particular; pero la estimación falla al aplicar el mismo Modelo de Regresión a otro inmueble de características físicas muy diferentes al primero.