La estadística es una ciencia, con su propio campo de estudio, y también un instrumento (conjunto de técnicas) que utilizan ampliamente otras ciencias. La estadística como ciencia es una rama de la matemática aplicada, cuyo objeto de estudio es el comportamiento de las variables que pueden asociarse a una o más poblaciones. En tal caso, “población” es sinónimo de “universo”, un conjunto bien definido de personas o de objetos, a los que es posible asociar variables medibles o cualidades. La estadística como ciencia se basa en la teoría de las probabilidades, cuyo origen se remonta al siglo XVIII (“Teoría de los juegos de azar”). Recién a comienzos del siglo XX la estadística se estructuró como ciencia formal a partir de los axiomas de Kolmogorov.
Quizá el primer problema que debió resolver la estadística, cuando aún no estaba formalizada como ciencia, consistió en elaborar unas tablas de mortalidad (Inglaterra, siglo XVII) que permitieran calcular la prima periódica de un seguro de muerte. A los actuarios de la época no se les escapaba que la probabilidad de muerte es creciente con la edad de las personas (aunque también depende de otros factores), por lo que propusieron que el costo del seguro estuviera relacionado con la edad del asegurado. Para encontrar esta relación estadística, elaboraron las tablas de mortalidad a partir de la información que proporcionaban los registros de defunción. Aunque el concepto de probabilidad no estaba formalizado, se aproximaron a él mediante la “teoría frecuencista”: si de una cohorte de 1000 personas nacidas en un mismo año, 14 morían entre los 35 y los 36, entonces estimaban que la probabilidad de un recién nacido, de morir entre los 35 y los 36, podía aproximarse por la frecuencia 0,014.
“El razonamiento estadístico usa la lógica probabilística en la que, contrariamente a la lógica formal, ninguna proposición puede ser comprobada o rechazada con certeza, sólo con un nivel de significación dado. Mientras la lógica formal es el paradigma metodológico de la matemática y la física clásica, la lógica probabilística lo es de las ciencias factuales, donde la realidad cambia estocásticamente. La incertidumbre respecto al pasado es falta de información, mientras que la incertidumbre respecto al futuro es algo más. La pluralidad de alternativas pasadas puede ser considerada de tipo Laplaciana (todas igualmente posibles) alrededor de la verdadera. Mientras que la pluralidad de posibles futuras alternativas es Darwiniana, lo aleatorio es intrínseco al fenómeno y cambia con el tiempo. A todo presente le corresponde un gran número de futuros posibles. En realidad, muchos escritores literarios anticiparon con su imaginación creativa lo que los científicos luego formalizaron con nuevos desarrollos teóricos. A este respecto, Jorge Luis Borges escribió: a todo presente se abren infinitos futuros posibles, mucho antes que Illia Prigogine, Premio Nobel de física, desarrollara su famosa teoría de la bifurcación. En todo paradigma teleológico (finalista) es el futuro que, en cierta medida, determina tanto el presente como el pasado; en el paradigma causal clásico, es el pasado que determina el presente y éste a su vez el futuro; en el paradigma estadístico, el presente es compatible con múltiples futuros y el enlace entre el pasado y el futuro es mediado por el azar. No se pueden prever los acontecimientos, sólo sus probabilidades de presentación”.[1]
“El determinismo sufrió un proceso de erosión durante el siglo XIX y así quedó un espacio para dar cabida a las leyes autónomas del azar. La idea de la naturaleza humana fue desplazada por el modelo de persona normal y leyes de dispersión. Estas dos transformaciones se dieron en forma paralela y se alimentaron recíprocamente. El azar hizo que el mundo pareciera menos caprichoso: el azar estaba legitimado porque aportaba orden al caos. Cuanto mayor era el indeterminismo en nuestra concepción del mundo y del hombre, más elevado era el nivel de control que se esperaba. Muchas clases de conducta humana, especialmente conductas perversas como el crimen y el suicidio, fueron objeto de recuento. Se manifestaban pasmosamente regulares año tras año. Leyes estadísticas de la sociedad parecían desprenderse de las tablas oficiales de desviación. Los datos sobre promedios y dispersiones engendraron la idea de persona normal y condujeron a nuevas clases de manejo social. En los primeros años del siglo XX se suponía que las leyes estadísticas podían reducirse a hechos subyacentes deterministas, pero el aparente predominio de esas leyes fue minando lenta y erráticamente el determinismo. Las leyes estadísticas llegaron a considerarse como leyes de derecho propio y su alcance se extendió a los fenómenos naturales. Nació un nuevo tipo de conocimiento objetivo, producto de nuevas tecnologías para obtener información sobre procesos naturales y sociales. Surgieron nuevos criterios sobre los que debía considerarse como prueba del conocimiento. Las leyes estadísticas que podían justificarse así se usaron no sólo para describir sino también para explicar el curso de los sucesos. El azar era domesticado en el sentido de convertirse en la materia misma de los procesos fundamentales de la naturaleza y la sociedad.”[2]
En otro orden, la estadística es una ciencia auxiliar, un instrumento para el avance de otras ciencias, desde que las técnicas estadísticas forman parte del método científico. Entre estas técnicas pueden mencionarse los métodos de resumen de datos, tanto numéricos como gráficos, la comprobación de hipótesis y las técnicas de muestreo.
“En la literatura epistemológica moderna, el conocimiento científico tiene la tarea de describir, explicar y predecir eventos. El rol de la estadística como método científico está fuertemente condicionado por el paradigma dominante de las ciencias. En la física clásica, el elemento estocástico es visto como una consecuencia de la limitación de la mente humana mientras que en la biología evolucionista de Darwin y la genética de Mendel, el azar es intrínseco al fenómeno, cambia con el tiempo y la necesidad.”[3]
“Los humanos siempre hemos querido controlar el futuro o, al menos, predecir lo que va a ocurrir. Por esto la astrología es tan popular. Según ella, lo que pasa en la Tierra está relacionado con los movimientos de los planetas en el firmamento. Esto es una hipótesis que puede ser sometida a prueba científicamente, o lo sería si los astrólogos se comprometieran y formularan predicciones definidas que pudieran ser comprobadas. Sin embargo, con considerable astucia, expresan siempre sus predicciones en términos tan vagos que pueden ser aplicados a cualquier cosa que ocurra. Nunca se puede demostrar que predicciones como sus relaciones personales pueden intensificarse o se le presentará una oportunidad financieramente interesante son erróneas. Pero el motivo real por el que la mayoría de los científicos no cree en la astrología no es la presencia o la ausencia de evidencias científicas acerca de ella, sino que no resulta consistente con otras teorías que han sido comprobabas experimentalmente.”[4]
El método científico es un proceso que permite incrementar el conocimiento, generar conocimiento nuevo. Si se sigue la lógica del método científico, entonces el producto obtenido se denomina “conocimiento científico”. Si los nuevos conocimientos pueden organizarse en un cuerpo coherente, que permite explicar hechos ya ocurridos y predecir hechos que habrán de ocurrir, entonces el método científico (la investigación científica) conduce a la formación de nuevas teorías, y también a modificar las teorías existentes o a destruirlas[5].
La teoría es un conjunto de proposiciones lógicamente articuladas que tiene por fin la explicación y predicción de resultados en un área determinada de fenómenos. En el caso particular de las ciencias sociales el área de fenómenos es el de las conductas de los individuos o de los grupos humanos[6].
En el esquema de Wallace (1971) el proceso del conocimiento científico involucra cuatro componentes:
- teoría
- hipótesis
- observación o recogida de datos
- contraste de hipótesis.
A partir de la teoría (conjunto de proposiciones lógicamente articuladas) se extraen una o varias hipótesis. Estas representan predicciones o respuestas probables a las preguntas que se formula el investigador. Las hipótesis estadísticas suelen formularse como proposiciones en las que se realizan afirmaciones respecto de una variable o respecto a las relaciones entre dos o más variables[7].
Volvamos sobre el concepto de “hipótesis estadística”. Se trata de una proposición, una afirmación sobre la distribución de una variable o sobre las relaciones entre dos o más variables. Pero no se trata de afirmaciones cualesquiera. Las mismas deben ser el reflejo de la teoría que las sustenta y sólo tienen sentido si pueden someterse a prueba (al revés de lo que ocurre con las afirmaciones de los astrólogos mencionadas más arriba por Stephen Hawking).
Es a través de la experiencia, de la observación sistemática, de la recolección de datos que se procederá a verificar las afirmaciones contenidas en las hipótesis.
¿Qué datos deben recogerse? ¿Cómo se deben registrar? ¿Cómo se habrán de resumir? Para responder a estas preguntas se requiere del auxilio de la estadística, más precisamente de lo que se conoce con el nombre de “estadística descriptiva”.
Los resultados obtenidos de la recolección de datos ¿son compatibles con las hipótesis de la investigación? La evidencia empírica ¿confirma las hipótesis? Para responder a estas preguntas es necesario apelar nuevamente a la estadística, esta vez a la denominada “estadística de inferencia”.
El contraste de hipótesis[8] conduce a aceptar provisionalmente las hipótesis o a rechazarlas. En el primer caso se dirá que la evidencia empírica no contradice la teoría, y ésta permanecerá firme en tanto no aparezca nueva evidencia en contra. En el segundo caso, la teoría dejará de formar parte del conocimiento científico y será necesario elaborar nuevas teorías. Las hipótesis descartadas por la evidencia empírica seguirán siendo útiles para la ciencia en tanto marcan el camino por donde no se deberá volver a transitar.
1.2. CONCEPTOS BÁSICOS
En Estadística se utiliza la expresión “población” como sinónimo de “universo”, que es el conjunto de entidades respecto de las cuales se desea resumir información o hacer inferencia. En el origen, los primeros universos investigados eran poblaciones humanas, de ahí que ambas expresiones se tomen como sinónimos. Si las circunstancias lo permiten, los recursos son suficientes, y el tipo de información requerida lo aconseja, para investigar el universo podrá realizarse un censo, es decir, una investigación en la que todas las entidades de la población son consultadas y aportan sus datos. Pero en muchos casos el censo no parece ser el procedimiento de recolección más adecuado para investigar el universo.
Una investigación se puede denominar “estadística” cuando las hipótesis son del tipo definido más arriba: afirmaciones relativas a la distribución de una o más variables aleatorias. En estas investigaciones pueden identificarse, entre otros, los siguientes componentes:
- un universo: un conjunto de entidades (personas, seres vivos, objetos inanimados) respecto de los cuales se desea conocer alguna o algunas de sus características
- variables: características medibles que poseen todas las unidades del universo
- objeto de la investigación: no consiste en identificar las entidades del universo con ciertas características, sino que se trata de resumir información acerca de la distribución de dichas características en la población
- procedimiento de recolección: es posible conocer, mediante un procedimiento adecuado, el valor de la o las variables de algunas o de todas las entidades del universo
- restricciones: en cuanto a los recursos disponibles (humanos, técnicos, financieros) y en cuanto a la oportunidad en que deben darse a conocer los resultados de la investigación, lo que obliga a elegir, entre varias estrategias alternativas, la que resulte más eficiente.
Los procedimientos de recolección más comunes son:
- Censo
- Muestreo
- Explotación estadística de registro administrativo
- Experimentación.
En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información existente.
El registro administrativo es un directorio de unidades (personas, viviendas, empresas) creado exclusivamente para fines administrativos: de registro, de recaudación, de fiscalización o de contralor. Si se cumplen ciertos requisitos, estos registros pueden servir a los fines estadísticos.
Las ventajas del registro administrativo como procedimiento de recolección son:
– Es el procedimiento más económico.
– No requiere de ninguna organización especial de campo para capturar los datos. Los gastos se limitan a los aspectos de procesamiento de la información.
– Si el registro es completo, entonces se trabaja con todos los datos de la población. Es el caso del número de vehículos de un país, número de personas que poseen teléfono en su domicilio, etc.
Las desventajas del registro administrativo son:
– La información se obtiene como un subproducto de la gestión administrativa, y en muchos casos, las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos para fines estadísticos.
– Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las informaciones que se utilicen con fines estadísticos.
A pesar de los inconvenientes indicados, se debe tratar de utilizar al máximo este procedimiento de recolección, que es de una riqueza inmensa en todos los campos de la actividad socio-económica de un país. Para evitar las desventajas señaladas, debe tratarse que la fuente administrativa se adecue, en lo posible, a los fines estadísticos. Esto se logra, cuando las autoridades administrativas adquieren conciencia de la importancia del uso de estadísticas en sus propias actividades. Otra forma para mejorar este procedimiento de recolección, es lograr que las autoridades de las oficinas administrativas participen en la planificación de las estadísticas que proporcionarán y además, reciban compensaciones por su colaboración, ya sea con información procesada de acuerdo a sus necesidades, formularios para registrar la información original, etc. En esta forma, su interés en la obtención de la información que se utilice con fines estadísticos, será un aspecto esencial de su gestión y no solamente un subproducto.
El censo es una investigación estadística en la que se intenta obtener información de la totalidad de las unidades que componen el universo. Por ser una investigación estadística, la información se obtiene tal como se necesita para fines estadísticos. Esta característica constituye la principal diferencia que tiene este procedimiento de recolección respecto del registro administrativo.
Las ventajas del censo son:
– La información obtenida puede desagregarse y publicarse por unidades administrativas u otro criterio de clasificación, cualquiera sea su tamaño. Esto se debe a que dentro de la recolección se han considerado todas las unidades de información, por lo cual se pueden tabular con cualquier grado de detalle, por muy poca frecuencia que puedan llegar a tener las categorías de clasificación.
– Constituye un punto de referencia para la preparación de las estadísticas continuas. Esto es, a partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente mediante agregados o disminuciones de las variaciones establecidas, utilizando registros administrativos o mediante muestras.
– Los antecedentes obtenidos son una valiosa ayuda para el diseño de muestras. Permite la preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la selección de la muestra.
– Es el único tipo de investigación utilizable para obtener información sobre fenómenos que se producen con poca frecuencia.
– La credibilidad en las estadísticas que se obtienen mediante el censo es mayor que la de cualquier otro procedimiento de recolección.
Las desventajas del censo son:
– Es necesaria una compleja organización que abarque todo el universo por investigar, evitando omisiones y duplicaciones. Esta situación es particularmente válida en el caso de encuestas que cubren todo el territorio nacional, en las que la organización de los trabajos de campo se complica por el tamaño del universo y su dispersión.
– Exige el empleo de mayor cantidad de recursos de personal, materiales y financieros.
– La información que se obtiene puede ser menos precisa que la que se lograría mediante una muestra. Esto ocurre porque los errores y omisiones producidos en la recolección y algunas veces en el procesamiento de la información de un censo, pueden superar a los que se acumulen en la muestra incluyendo el error de muestreo (error que se produce debido a que la información de toda la población es una estimación que utiliza como base los datos de una parte representativa de esa población). Esta mayor precisión que se puede lograr con la muestra, se debe a que los errores ajenos al muestreo se pueden reducir, pues el menor número de empadronadores permite seleccionar los más calificados.
El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de interés con base en la información que se obtiene de una parte de las unidades que componen dicho universo. Al igual que en el censo, mediante este procedimiento de recolección la información se obtiene tal como se necesita para fines estadísticos. Su uso ha ido en rápido aumento, a medida que las instituciones productoras de información disponen de personal capacitado para efectuar su organización, diseño y análisis, debido a su bajo costo e incluso, como ya se ha señalado, a que se reducen los errores ajenos al muestreo respecto del procedimiento censal.
Las limitaciones al uso del muestreo se refieren a que la precisión de los resultados puede no ser adecuada para pequeñas subpoblaciones o para fenómenos que se producen con poca frecuencia.
La experimentación es un método de investigación estadística que se utiliza con el propósito de determinar la existencia de relaciones causales (relaciones causa-efecto) entre variables. Se trata de conocer el efecto que produce un cierto tratamiento en un grupo de individuos (más horas de clase a los alumnos, menos horas de trabajo por semana) en una cierta variable (rendimiento escolar, productividad en el trabajo). Para ello se trabaja frecuentemente con dos (o más) grupos. A uno o más de los grupos se aplica el tratamiento (grupos experimentales) y otro u otros no reciben tratamiento (grupos de control). Supuesto que los grupos son equivalentes al inicio (sin diferencias en cuanto a las variables a investigar), cualquier diferencia observada al final del experimento debe ser consecuencia del tratamiento. Existen diferentes diseños posibles para la experimentación. Las diferencias entre los diseños se basan en:
- el grado de control que se imponen a las variables objeto de estudio (si no hay control sobre ciertas variables, entonces no puede asegurarse que el efecto tenga por causa el tratamiento)
- la forma en que interviene (o no) la aleatoriedad en la conformación de los grupos: ¿Los individuos que intervienen en los grupos se eligen aleatoriamente de la población? ¿Los individuos se asignan aleatoriamente a los grupos? ¿Se decide aleatoriamente cuáles son los grupos experimentales y cuáles los de control?
La mayor ventaja de la experimentación como procedimiento de recolección de datos consiste en que el procedimiento ha sido diseñado cuidadosamente para obtener información relevante para lo que se está estudiando y si el experimento ha sido controlado (validez interna) y se han utilizado mecanismos aleatorios en la conformación de los grupos, con tamaños de muestra los suficientemente grandes, los resultados de la muestra pueden generalizarse al universo con alta confiabilidad (validez externa).
Desventajas del procedimiento:
- se requiere mucha información previa y una rigurosa planificación para la conformación de los grupos
- en muchos experimentos no es posible asignar aleatoriamente los individuos a los grupos de tratamiento y de control, porque las circunstancias con y sin tratamiento no las define el investigador sino que ya vienen dadas ( niños con y sin desnutrición) o porque los grupos vienen definidos con anterioridad (grupos escolares en las pruebas de rendimiento)
- en educación, cuando el experimento incluye una prueba de conocimientos previa al tratamiento, los mejores resultados en la segunda prueba pueden deberse al tratamiento pero también al incremento de la habilidad para realizar pruebas
- cuando el tratamiento tiene cierta duración en el tiempo, existe el riesgo que algunos individuos abandonen el experimento (mortalidad, mudanza, pérdida de interés en participar) y esto afecte la razonable equivalencia entre los grupos de tratamiento y de control
- el saberse dentro del grupo con tratamiento puede generar ciertas actitudes (a favor, en contra) que afecten los resultados del experimento con independencia de la variable de tratamiento (“efecto Hawthorne”).
El siguiente esquema permite reconocer a los elementos componentes de un problema de inferencia estadística.
En la inferencia inductiva uno de los problemas a resolver consiste en encontrar la distribución (F) de una variable aleatoria X (o la distribución de un vector de variables aleatorias), la cual puede depender de uno o más parámetros[9] desconocidos (q), y se ha descartado el censo como procedimiento de recolección, optándose por el muestreo. Seleccionada la técnica de muestreo apropiada, se elige una muestra y se recogen los datos pertinentes. Una vez que se dispone de los datos, se procede a resumirlos mediante técnicas gráficas y numéricas (estadística descriptiva). El último paso consiste en generalizar los datos de la muestra al universo de referencia. La inferencia inductiva va de lo particular a lo general, de la muestra al universo, para hacer afirmaciones sobre la F o sobre q. Si la técnica de muestreo elegida es probabilística, entonces es posible completar el proceso de inferencia calculando una medida del error muestral. Por ejemplo, puede afirmarse con una probabilidad alta (digamos, del 95%), que la tasa de desempleo en una ciudad es el 12% con un error muestral del 1%. Y ello se interpreta de la siguiente manera: el parámetro poblacional “proporción de desocupados en la ciudad” se desconoce, pero se puede aproximar con los resultados de una muestra, dicha aproximación (“estimación puntual”) es el 12%, pero con una probabilidad alta puede afirmarse que dicho parámetro se encuentra entre el 11% y el 13%.
¿Cuándo puede afirmarse que los datos provenientes de una investigación estadística son de calidad aceptable? Hemos visto que los distintos procedimientos de recolección tienen limitaciones vinculadas con la calidad de los datos: incompletitud y desactualización en el caso del registro administrativo, diversos errores ajenos al muestreo y falta de oportunidad en el caso del censo, error muestral en el caso del muestreo. Para reducir estos inconvenientes es necesario actuar directamente sobre los factores causantes. Por ejemplo, en el caso de los censos, mediante una adecuada instrucción del personal de campo y del personal de codificación y procesamiento. En el caso de la muestra, mediante una estricta supervisión del trabajo de campo, para asegurarse que la muestra efectiva se corresponda con la muestra seleccionada mediante procedimiento probabilístico. Entonces, para asegurar calidad en los datos de una investigación estadística, es necesario asignar los recursos de manera de minimizar todas las posibles fuentes de error. Planificación, capacitación, supervisión y rigor científico son los elementos claves para asegurar datos de calidad.
- RESUMEN DE DATOS
2.1. TIPOS DE VARIABLES
Sea U el universo a investigar, formado por las unidades u1, u2, u3, ……., un.uuuuuu uuuuu
U= { u1, u2, u3, ……., un }
Las ui pueden ser individuos o períodos de tiempo. Algunas veces podemos observar a todas las unidades del universo (censo, registro completo) y otras veces sólo es posible observar una parte del universo denominada muestra. La expresión “observar una unidad” supone que podemos conocer el valor que asumen en dicha unidad una o más características susceptibles de ser evaluadas en cada unidad del universo.
Una variable estadística[10] es una característica que podemos medir en todas las unidades del universo.
Una variable es de corte transversal cuando los resultados de la medición están referidos a un mismo momento o período de tiempo. Tal es el caso de las calificaciones que obtienen los alumnos de un curso, las cotizaciones de las monedas extranjeras al cierre de operaciones de un día determinado, los ingresos de los hogares en un mes o las ventas de las empresas de la Industria Manufacturera en el año 2002.
Una variable es de corte longitudinal o también una serie temporal, cuando los datos corresponden a diferentes momentos o períodos de tiempo, a intervalos regulares. Son ejemplos de series cronológicas: la matrícula anual de Enseñanza Primaria, la tasa de desempleo trimestral, el Producto Bruto Interno anual, la cotización diaria del dólar interbancario comprador (asúmase que cuando no hay cotización se toma la del último día hábil anterior), el número de camas ocupadas diariamente en un hospital.
A continuación se describe la forma de resumir la información de los dos tipos de variables estadísticas recién definidos.
Variables de corte transversal
Las técnicas de resumen que se presentan en esta parte son aplicables tanto a los datos provenientes de un censo, de un registro o de una encuesta por muestreo. Las referencias frecuentes a las muestras se justifican por cuanto en la gran mayoría de las investigaciones se trabaja con datos muestrales.
Una variable estadística es una característica que podemos medir o evaluar en todas las unidades del universo. Los resultados de la medición se clasifican en clases y estas clases determinan una partición del universo (una partición matemática inducida por la variable estadística). Que las clases determinan una partición significa que cada unidad de la muestra se clasifica en una clase y una sola, y que toda unidad es susceptible de ser clasificada en una clase.
Ejemplo 1: El universo es el conjunto de azafatas de una línea aérea. La variable es el color de ojos y las clases son:
- ojos de color marrón
- ojos de color celeste
- ojos de color verde
- ojos de color gris
- ojos de color negro
- ojos de otro color
Cada individuo del universo pertenece a una sola clase y la unión de todas las clases coincide con el universo (partición matemática).
Ejemplo 2: El universo es el conjunto de alumnos matriculados en un estable-cimiento escolar. La variable es el número de padres biológicos con los que convive el alumno. Las clases son solo tres: 0,1 y 2.
Estas clases podrían verse como una forma de resumir diversas situaciones posibles (lo que podría llevar a una partición más fina, con más clases). Por ejemplo, si el alumno pertenece a la clase “1” puede ser que:
- el alumno convive con madre viuda
- el alumno convive con padre viudo
- el alumno convive con madre soltera y padre ausente
- el alumno convive con uno de los padres biológicos, porque estos están separados
- otras situaciones
Si a los efectos de la investigación es necesario distinguir estas situaciones, entonces la variable “número de padres biológicos con los que convive el alumno” no es adecuada y debería definirse una nueva variable que contemplara un mayor número de clases, por ejemplo “padres con los que convive” (y las clases podrían definirse a partir de la convivencia con padres biológicos, padrastros o padres adoptivos).
Ejemplo3: El universo es el conjunto de alumnos que están cursando, en mayo de 2003, en un establecimiento de enseñanza primaria. La variable es el número de años aprobados en la educación formal. Las clases son: 0, 1, 2, 3, 4 y 5. Los alumnos que están cursando primer año tienen aprobados 0 años, los que cursan 2º grado tienen uno aprobado, etc. Obsérvese que la relación no es directa en el caso de alumnos que están cursando el nivel medio superior, el instituto normal o de profesores. Podría ocurrir que un estudiante del primer año del IPA tuviera más de 12 años de educación formal si, por ejemplo, ha aprobado previamente cursos en alguna universidad.
Ejemplo 4: El universo es el conjunto de hogares particulares de Maldonado. La variable a investigar es el ingreso mensual corriente del hogar. Como se trata de una variable que puede tomar “muchos” valores, algunos poco relevantes, el investigador tiene aquí la posibilidad de definir las clases con cierta libertad. Las siguientes son dos opciones posibles.
CASO 1: Intervalos iguales Caso 2: Intervalos desiguales
CLASE INTERVALO | CLASE INTERVALO |
1 0 – 10.000 2 10.000 – 20.000 3 20.000 – 30.000 4 30.000 – 40.000 5 40.000 – 50.000 6 50.000 – 60.000 7 60.000 – 70.000 8 70.000 – 80.000 |
1 0 – 2.000
2 2.000 – 5.000 3 5.000 – 10.000 4 10.000 – 15.000 5 15.000 – 20.000 6 20.000 – 30.000 7 30.000 – 50.000 8 50.000 y más |
Si las clases se definen por cualidades o atributos, entonces las variables se denominan cualitativas; si las clases están definidas por números o intervalos numéricos, entonces se denominan cuantitativas.
Cuando cada clase está representada por un número, entonces la variable se dice cuantitativa discreta, y cuando cada clase se identifica con un intervalo de números, entonces la variable se dice cuantitativa continua.
Ejemplos:
Variables cualitativas | Var. cuantitativas discretas | Var. cuantitativas continuas |
Color de ojos
Sexo Estado civil Estado de un paciente |
Años de educación
Personas en el hogar Edad en años cumplidos Consultas médicas por mes Personal ocupado |
Edad cronológica Estatura Peso Ingresos del hogar Cociente intelectual |
Las variables estadísticas suelen denominarse con las últimas letras de nuestro alfabeto, usando mayúsculas: T, X, Y, Z.
Si definimos “X = número de hermanos del alumno”, y el tercer alumno del universo (o de la muestra) tiene cuatro hermanos, anotaremos X(u3) = 4, o simplemente, X3 = 4.
Frecuencias de clase
Con el objeto de resumir la información de una muestra respecto de una variable, los individuos que pertenecen a una misma clase se consideran idénticos. Y la primera forma de resumir los datos de una muestra consiste en agruparlos por clase y contar cuántos individuos pertenecen a cada clase. En el ejemplo de la variable “color de ojos”, para una muestra de n = 100 azafatas se obtuvo:
Clase |
Frecuencia de clase |
Marrón Celeste Verde Gris Negro Otro color |
78
8 7 4 2 1 |
Total | n = 100 |
Entonces, la frecuencia absoluta de la clase “Marrón” es 78 y se anota n(M) = 78. La frecuencia de la clase “Celeste” es n(C) = 8. La frecuencia absoluta es una función que a cada clase le hace corresponder el número de casos (el número de repeticiones) en la muestra.
La tabla que relaciona las clases con sus frecuencias absolutas se denomina distribución de frecuencias absolutas.
DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
CLASE | FREC. DE CLASE |
C1
C2 C3 — Ck |
n(C1)
n(C2) n(C3) — n(Ck) |
n |
Ejemplo: Distribución de las notas de un curso de 200 alumnos.
Nota del curso (X) | Alumnos = n(X) |
3
4 5 6 7 8 9 10 11 12 |
5
10 26 50 41 30 21 11 4 2 |
Total | 200 |
A partir de la frecuencia absoluta es posible definir una nueva función que relaciona, a cada clase, con el cociente de la frecuencia absoluta sobre el tamaño de la muestra. Esta función se denomina frecuencia relativa y la notación usual es:
h(Ci) = o h(Xi) =
En los dos ejemplos anteriores:
Color de ojos
Ci |
Frecuencia relativa h(Ci) |
Nota del cursoXi |
Frecuencia relativa
h(Xi) |
|
Marrón Celeste Verde Gris Negro Otro color |
0,78 0,08 0,07 0,04 0,02 0,01 |
3
4 5 6 7 8 9 10 11 12 |
0,025
0,050 0,130 0,250 0,205 0,150 0,105 0,055 0,020 0,010 |
|
Total | 1,00 | Total | 1,000 |
Los resultados también pueden presentarse en porcentajes.
Nota del curso Xi |
Frecuencia relativa
(en porcentajes) |
3
4 5 6 7 8 9 10 11 12 |
2,5
5,0 13,0 25,0 20,5 15,0 10,5 5,5 2,0 1,0 |
Total | 100,0 |
La cantidad de dígitos después de la coma decimal indica la aproximación con que se trabaja al resumir los datos.
2.2. MÉTODOS GRÁFICOS
Los gráficos son otra forma de resumir información estadística, y tienen la ventaja sobre las tablas de permitir al lector captar más rápidamente la forma de la distribución de frecuencias.
Los gráficos recomendados (sin perjuicio de las variantes que presentan los asistentes para gráficas de las planillas electrónicas) son:
VARIABLE CUALITATIVA |
VARIABLE CUANTITATIVA DISCRETA | VARIABLE CUANTITATIVA CONTINUA |
Diagrama de barras
Diagrama de torta o de pastel |
Diagrama de bastones | Histograma |
En el caso de variables cualitativas y cuantitativas discretas, lo que se acostumbra representar gráficamente es la función de frecuencias relativas (aunque en algunos textos se grafica la función de frecuencias absolutas).
DIAGRAMA DE BASTONES
En el caso de variable cuantitativa continua, el gráfico se denomina histograma y se representa en un par de ejes cartesianos ortogonales. En el gráfico, a cada clase se le hace corresponder un rectángulo (que se dibuja por encima del eje horizontal) que tiene como base el intervalo que representa la clase, y como área la correspondiente frecuencia relativa de la clase. Entonces, la altura del rectángulo se obtiene de la siguiente manera:
Área del rectángulo = Base x Altura
Área del rectángulo = Frecuencia relativa del intervalo (Xi-1, Xi) = h(Xi-1– Xi)
Base = Amplitud del intervalo = Xi – Xi-1
Entonces:
Altura =
Ejemplo: La tabla siguiente corresponde a las estaturas de una muestra de alumnos del primer grado liceal.
Estatura |
Frecuencia relativa |
1,35 – 1,40
1,40 – 1,45 1,45 – 1,50 1,50 – 1,55 1,55 – 1,60 1,60 – 1,70 |
0,05
0,20 0,30 0,25 0,15 0,05 |
Se trata de representar los datos de la tabla en un histograma.
Estatura |
Frecuencia relativa | Amplitud del intervalo |
Altura |
1,35 – 1,40 1,40 – 1,45 1,45 – 1,50 1,50 – 1,55 1,55 – 1,60 1,60 – 1,70 |
0,05
0,20 0,30 0,25 0,15 0,05 |
0,05
0,05 0,05 0,05 0,05 0,10 |
1 4 6 5 3 0,5 |
Observaciones
- Hay que decidir de antemano en qué clase se clasifican los individuos cuyo valor está en el borde de dos intervalos. Por ejemplo, puede decidirse que se clasifican en el primero de los dos intervalos. Así, todos los niños que miden 1,40 se clasifican en la clase (1,35 – 1,40). En este caso, los intervalos se toman cerrados por derecha y abiertos por izquierda. En notación matemática (1,35; 1,40], (1,40; 1,45], etc.
- Si todos los intervalos son de igual amplitud, entonces las alturas son todas proporcionales a las frecuencias relativas. Este no es el caso del ejemplo precedente, donde los intervalos son desiguales.
- Muchas veces la cantidad de intervalos a considerar en la representación gráfica depende de la decisión del investigador. Por ejemplo, si en los dos primeros intervalos hubieran caído muy pocos casos, entonces podría tomarse la decisión de “colapsar” ambos intervalos y presentar los resultados en un único intervalo (1,35;1,45]. Obviamente el gráfico se presentaría un poco diferente, pero si la “cola izquierda” de la distribución presenta pocos casos, no se perdería mucha información. En general los textos recomiendan que el número de intervalos en el gráfico sea un número entre 4 y 8 o entre 5 y 10, aunque esto no es preceptivo.
2.3. MEDIDAS DESCRIPTIVAS (corte transversal)
Esta sección da respuesta a la pregunta ¿cómo pueden resumirse los datos de una muestra a través de unos pocos indicadores? Aceptemos que el resumen siempre implica una cierta pérdida de información. Presentaremos los indicadores apropiados para que la pérdida ocasionada por el resumen sea mínima.
- Variables cualitativas
Definiremos para todas las variables cualitativas sólo tres indicadores:
- la cantidad de clases
- la clase más frecuente (el MODO de la distribución)
- la frecuencia relativa de la clase más frecuente (la frecuencia modal)
En el ejemplo de la variable “color de ojos” se tiene:
- Cantidad de clases: 6
- Modo: marrón
- Frecuencia modal: 78%
En el caso de algunas variables cualitativas, donde es posible establecer un “orden” o “jerarquía” entre las clases, se pueden definir otras medidas de resumen. Ejemplo: se consulta a los padres de los alumnos sobre la posibilidad que los alumnos con más dificultades de aprendizaje o con problemas de comportamiento reciban una hora más de clase diaria a cargo de un equipo de especialistas, por el plazo de un mes. Los resultados de la consulta se presentan en el cuadro siguiente:
Clase | Frecuencia Relativa |
Muy de acuerdo
Algo de acuerdo No tiene opinión Algo en desacuerdo Muy en desacuerdo |
0,21
0,32 0,25 0,15 0,07 |
TOTAL | 1,00 |
Las clases están ordenadas partiendo del mayor grado de acuerdo con la propuesta pedagógica hasta el mayor grado de desacuerdo. Parece claro que podrían redefinirse sólo 3 clases:
- los que acuerdan: 53%
- los que no opinan: 25%
- los que no acuerdan: 22%
Si se asume como neutral la clase central, entonces es posible definir el indicador saldo neto como diferencia entre las frecuencias de los que están a favor y en contra de la propuesta. En este caso el saldo neto es +31%, positivo pero no muy alto.
Para mostrar las limitaciones que presenta este indicador alcanza con el siguiente ejemplo con resultados bien diferentes, y sin embargo, con el mismo saldo neto.
Clase |
Frecuencia relativa | |
Muestra 1 | Muestra 2 | |
Muy de acuerdo
Algo de acuerdo No tiene opinión Algo en desacuerdo Muy en desacuerdo |
0,00
0,10 0,50 0,30 0,10 |
0,20 0,00 0,30 0,10 0,40 |
SALDO NETO | – 30% | – 30% |
- Variables cuantitativas discretas
Definiremos tres tipos de indicadores:
- de posición o de tendencia central
- de dispersión
- de asimetría
Medidas de posición o de tendencia central
- Promedio
Consiste en sumar todos los valores de la muestra y dividir entre el tamaño de la muestra. Ejemplo: 20 pacientes internados tienen las siguientes cantidades de días de internación:
Paciente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
Días de internación |
4 |
7 |
5 |
3 |
4 |
4 |
5 |
6 |
8 |
5 |
4 |
3 |
4 |
5 |
6 |
4 |
6 |
6 |
5 |
3 |
Entonces el promedio es:
En notación matemática, si Xi representa el número de materias aprobadas por el alumno i, entonces:
El numerador proporciona el total de materias aprobadas por todos los alumnos de la muestra, y el denominador es el tamaño de la muestra.
¿Cómo sería la fórmula del promedio si los mismos datos estuvieran agrupados en una tabla?
Días de internación (Xi) | Pacientes
n(Xi) |
Xi * n(Xi) |
3 4 5 6 7 8 |
3
6 5 4 1 1 |
9
24 25 24 7 8 |
Total | 20 | 97 |
Si se calcula la suma S [ Xi * n(Xi) ] a través de todas las clases, entonces se obtiene otra vez el total de materias aprobadas por todos los alumnos de la muestra. Entonces, cuando los datos están agrupados, la fórmula del promedio es:
Donde la sumatoria se extiende ahora a todas las clases. El símbolo * se utiliza para indicar la operación producto (es la notación usual en las planillas electrónicas).
Pero recordando que y en virtud de las propiedades de linealidad de la suma, resulta:
que suele denominarse “promedio ponderado”, donde las ponderaciones o pesos son las frecuencias relativas de cada valor observado (de cada clase) en la muestra. Esta fórmula muestra que el indicador promedio depende de los valores observados y de las frecuencias relativas de esos valores.
Observaciones
- El promedio no tiene por qué coincidir con alguno de los valores observados en la muestra. De hecho, ninguno de los pacientes estuvo internado 4,85 días.
- Si la distribución de la variable no es muy dispersa (porque se concentra en unos pocos valores) entonces el promedio es un buen indicador de la “posición” de la distribución. Efectivamente, en el ejemplo anterior la variable está distribuida en el intervalo [3,8], pero la mayor parte está concentrada en valores bien cercanos al promedio. En este ejemplo, el promedio resulta un buen indicador de la “posición” o del “centro” de la distribución. Un contraejemplo se presenta a continuación:
Edades | Personas | Edades * Personas |
1
2 3 76 |
5
3 1 1 |
5
6 3 76 |
Total | 10 | 90 |
El promedio del ejemplo es 9 años. ¿Indica este promedio el centro de la distribución? Obsérvese que alrededor del promedio, en este caso, no hay valores de la muestra. Y esto es así porque la distribución es muy dispersa. En estos casos el promedio no es un buen indicador de la posición o centro de la distribución.
- El promedio, en todos los casos, es un número comprendido entre el mínimo y el máximo de los valores observados en la muestra. Si la variable sólo toma valores positivos (como ocurre con casi todas las variables educativas), entonces su promedio no puede ser nulo o negativo.
- El promedio, como medida de tendencia central, tiene el defecto de estar muy influido por los valores extremos de la distribución. Obsérvese en los siguientes casos cómo se modifica el promedio al variar el extremo superior de la distribución.
- Por la forma como está definido, el promedio de una variable es único.
- El promedio también se conoce con el nombre de media, media aritmética o media aritmética ponderada.
- ii) Modo o moda
El modo es un valor de la muestra que presenta la mayor frecuencia. Esta definición no asegura la unicidad del modo. Los siguientes ejemplos ilustran algunas de las situaciones posibles.
¿Cómo se reconoce el modo (los modos) en una tabla estadística? Observando el valor (los valores) de la variable que tiene(n) la mayor frecuencia relativa. ¿Cómo se reconoce el modo (los modos) en el diagrama de bastones? Observando el valor (los valores) de la variable que presenta(n) el bastón más alto. La notación habitual para el modo es: XMo.
iii) Mediana
Los valores de la variable observados en la muestra se ordenan de menor a mayor. Si la muestra es de tamaño impar, entonces hay un único elemento central en la muestra ordenada. Si la muestra es de tamaño par, entonces hay dos elementos centrales.
La mediana es el valor de la variable que corresponde al único elemento central de la muestra (luego de ordenar los valores de menor a mayor) si la muestra es de tamaño impar, o el promedio de los valores centrales si la muestra es de tamaño par.
Ejemplo 1: Muestra 4 – 11 – 23 – 25 – 26 – 40 – 56 – 57 – 63. La muestra consta de 9 elementos, el 5º es el valor central. La mediana es 26.
Ejemplo 2: Muestra 4 – 11 – 23 – 25 – 26 – 40 – 56 – 57 – 63 – 65. La muestra consta de 10 elementos, el 5º y el 6º son los valores centrales. La mediana es el promedio de dichos valores:
Ejemplo 3: 8 – 8 – 8 – 9 – 9 – 10 – 12 – 12 – 12 – 15 – 15 – 16 – 17 – 20.
La muestra consta de 14 observaciones. Los elementos centrales son el 7º y el 8º. La mediana es:
¿Qué es lo que indica la mediana? El valor de la mediana divide las observaciones de la muestra en dos mitades aproximadamente: los valores más pequeños que la mediana a la izquierda y los más grandes a la derecha. En el Ejemplo 1 casi la mitad de la muestra toma valores menores que 26, y casi la mitad toma valores mayores que 26. En el Ejemplo 2 la mediana divide la muestra exactamente en dos mitades: las observaciones menores que 33 y las observaciones mayores que 33. En el Ejemplo 3 otra vez se tienen mitades aproximadas.
¿Cómo se calcula la mediana en el caso de datos agrupados (ya resumidos en una tabla)? Obsérvese que en muchos casos no se sabe si la muestra es de tamaño par o impar, una vez construida la tabla de frecuencias relativas. Los siguientes casos ilustran el procedimiento de cálculo.
CASO 1 CASO 2
Xi | h(Xi) | Acum h(Xi) | Xi | h(Xi) | Acum h(Xi) | |
1 2 3 4 5 |
0,23
0,24 0,21 0,17 0,15 |
0,23
0,47 0,68 0,85 1,00 |
1 2 3 4 5 |
0,30
0,20 0,25 0,20 0,05 |
0,30
0,50 0,75 0,95 1,00 |
|
Total | 1 | Total | 1 |
En el CASO 1 la mediana es 3, pues independientemente de la paridad del tamaño de la muestra, el o los valores centrales coinciden con el 3. Esto puede observarse en la columna que acumula (Acum) frecuencias relativas: hasta el valor 2 de la variable se acumula menos del 50% de las observaciones y hasta el valor 3 se acumula más del 50%.
En el CASO 2 ocurre que hasta el valor 2 se acumula exactamente la mitad de las observaciones, y a partir del valor 3 (hasta el final) se acumula el otro 50%. Entonces se asume que los dos valores centrales son 2 y 3 y la mediana es el promedio de ambos: 2,5.
Notación para la mediana: XMediana = X0,5.
De acuerdo con la definición adoptada, la mediana de la muestra (y también la mediana de la población) es un valor único y representa en general mejor que el promedio la posición o centralidad de la distribución.
La definición de Mediana que aquí se ha expuesto no es la misma que se presenta en los textos clásicos de Estadística, pero coincide con la definición adoptada en el módulo de Funciones Estadísticas de las planillas electrónicas.
Si se quieren calcular los indicadores de tendencia central utilizando por ejemplo la planilla excel, se requiere ingresar los datos sin agrupar en una fila o en una columna y luego de posicionar el cursor fuera del rango de datos, seguir el camino siguiente:
La mediana puede visualizarse en el gráfico que corresponde a la función de distribución empírica acumulada, F*(x), la que se define de la siguiente manera:
Esta función se define para todo número x sobre la recta (x no necesariamente es un valor del recorrido de la variable X), y lo que hace es acumular, de izquierda a derecha, las frecuencias relativas de todos los Xi menores que x.. El siguiente es el gráfico de la función F*(x) y en el mismo se muestra el papel de la mediana.
Medidas de posición no central (cuartiles y cuantiles)
Si se considera ahora por separado cada mitad de la distribución determinada por la mediana, y en ambas se calcula la mediana de cada mitad, entonces se obtienen dos nuevos indicadores – primer cuartil y tercer cuartil – que conjuntamente con la mediana dividen a la distribución original en 4 partes aproximadamente del mismo tamaño (25% cada una).
Los cuartiles (y más en general los cuantiles) se utilizan principalmente para realizar una clasificación de la muestra (o de la población) en clases a partir de una variable (por ejemplo, por el ingreso per cápita) y luego analizar el comportamiento de otra variable (por ejemplo, número de menores en el hogar).
Se denominan cuantiles a los valores de la variable que dividen la distribución en proporciones similares de frecuencia relativa, luego de ordenar la muestra (o la población) en forma creciente por los valores de la variable. Así, los quintiles son cuatro valores de la variable (X0,20, X0,40, X0,60, X0,80) que dividen la distribución en cinco clases, de tal forma que en los intervalos (XMin, X0,20), (X0,20, X0,40), (X0,40, X0,60), (X0,60, X0,80) y (X0,80, XMax) se encuentra aproximadamente el 20% de la distribución. Los deciles son nueve (X0,1, X0,20, X0,30, X0,40, X0,50, X0,60, X0,70, X0,80, X0,90) y entre dos consecutivos de ellos se encuentra aproximadamente el 10% de la distribución. Los centiles o percentiles dividen la distribución en 100 clases (X0,01, X0,02, etc.).
Algunos resultados conocidos para Uruguay:
– Si se ordena a los hogares por el ingreso per cápita, en el seno del primer cuartil (el 25% más pobre) se produce casi el 50% de los nacimientos en cada año.
– Si se ordena a los hogares por el ingreso per cápita, el consumo de tabaco no es muy diferente en los grupos deciles (es apenas un poco más alto en los deciles superiores, a pesar que el ingreso es mucho más alto).
– Cuando se compara el ingreso que detentan los hogares del grupo decil más alto con el grupo decil más bajo, se encuentra que en Uruguay los primeros tienen, en promedio, un ingreso del hogar 20 veces más alto que los segundos. Este indicador, denominado Relación del 10% más rico al 10% más pobre, en la década de los 80’ tomaba el valor 13 en Suecia y 80 en Brasil (fuente: Anuario Estadístico de la Organización Internacional del Trabajo).
Medidas de dispersión
A continuación se presentan los indicadores más frecuentes para medir la dispersión de una variable estadística.
Rango o Amplitud = Valor máximo de la muestra – Valor mínimo de la muestra.
Rango intercuartílico = Q3 – Q1
Varianza: V(X) = para datos agrupados
V(X) = para datos sin agrupar
Desviación estándar = S(X) =
Coeficiente de variación Cv(X) =
Todos estos indicadores intentan dar cuenta de la dispersión que en una muestra (en una población) presenta la variable X. Las más sencillas de calcular tienen ciertas limitaciones, por lo que en general se prefiere el cálculo de la varianza y de los indicadores derivados de la varianza (desviación estándar y coeficiente de variación).
El rango o amplitud mide la diferencia entre los valores máximo (M) y mínimo (m) observados en la muestra. Cuanto más grande la amplitud, mayor la dispersión. Tiene como limitación principal el hecho de no tomar en cuenta el peso de los diferentes valores observados.
De acuerdo con el rango, la distribución del CASO 2 es bastante más dispersa que la distribución del CASO 1, cuando en realidad, sólo tienen diferente una única observación.
El rango intercuartílico muestra la amplitud del intervalo que contiene el 50 % de la distribución ubicada en el centro de la misma. Cuanto más grande, mayor la dispersión de la muestra, pues se requiere un intervalo más amplio para abarcar al 50% central de la distribución. El rango intercuartílico, como la amplitud, se mide en la misma unidad de medida de la variable, lo que dificulta la comparación entre dos variables que se miden en unidades diferentes.
La varianza mide la dispersión respecto del promedio. Cada valor de la muestra se compara con el promedio, se hace la resta y la diferencia se eleva al cuadrado. Luego se promedian todas estas diferencias cuadráticas. Se eleva al cuadrado para evitar que las diferencias en más y en menos se compensen. Al elevar al cuadrado, la varianza no puede ser negativa, y es tanto más grande cuanto mayores son las diferencias cuadráticas. La varianza no puede ser negativa porque resulta de promediar cuadrados perfectos. ¿En qué caso la varianza podría dar cero? Cuando la distribución está totalmente concentrada en un único punto, entonces para todo i, y la suma da cero. Entonces, una varianza nula indica ausencia de dispersión. Por el contrario, a mayor varianza, mayor la dispersión alrededor del promedio. El principal inconveniente de la varianza, como indicador de dispersión, es su difícil interpretación, por cuanto se mide en unidades de la variable al cuadrado. Si la variable mide materias aprobadas, entonces la varianza se mide en materias aprobadas al cuadrado.
Para levantar esta limitación, se define la desviación estándar o desviación típica, como la raíz cuadrada de la varianza. La desviación estándar tiene una interpretación interesante. En distribuciones unimodales y aproximadamente simétricas (ver más adelante), tales como la distribución Normal, se cumplen las siguientes relaciones empíricas:
Frecuencia acumulada de la muestra alrededor del promedio
Entre – S y + S | 68% |
Entre – 2.S y + 2.S | 95% |
Entre – 3.S y + 3.S | 99% |
Finalmente, a los efectos de comparar la dispersión de dos distribuciones con posiciones bien diferentes (medias bien diferentes, como pueden ser los años de educación formal de los alumnos de un curso y los días de estadía de los pacientes en un hospital) pero a condición que las variables solo tomen valores positivos, el indicador de dispersión recomendado es el Coeficiente de Variación:
Cv(X) =
que expresa la dispersión con relación a la media en términos de la propia media. Aunque no hay un límite superior para el coeficiente de variación, es raro encontrar distribuciones cuyo Cv supere 1,2 (es el caso de las distribuciones del ingreso personal) mientras que valores cercanos a cero –tales como 0,05, 0,10 ó 0,15– indican que se trata de distribuciones muy poco dispersas, distribuciones muy concentradas alrededor de la media. Ejemplo: Se tiene una muestra de 200 pacientes internados en un sanatorio. Los pacientes responden por dos variables: X = Número de días de internación, Y = Número de veces que habían sido hospitalizados con anterioridad.
X | h(X) | Y | h(Y) | |
2
3 4 5 6 |
0,10
0,20 0,40 0,20 0,10 |
0 1 2 3 4 10 |
0,30
0,40 0,20 0,05 0,04 0,01 |
|
1,00 | 1,00 |
¿Cuál de las dos distribuciones es más dispersa? En el siguiente cuadro se calculan con detalle todos los indicadores relevantes para la variable X y se presentan los resultados de la variable Y.
CONCEPTO | CÁLCULOS INTERMEDIOS PARA X | X | Y |
Promedio | 2×0,1 + 3×0,2 + 3×0,4 + 5×0,2 + 6×0,1 = 4 | 4 | 1,21 |
X0,25 | Se acumula el 25% de la distribución en el valor 3 | 3 | 0 |
X0,75 | Se acumula el 75% de la distribución en el valor 5 | 5 | 2 |
XMin | Resulta directo de observar la tabla | 2 | 0 |
XMax | Resulta directo de observar la tabla | 6 | 10 |
Varianza | (2-4)2x0,1+(3-4)2x0,2+…….+(6-4)2x0,1 = 1,2 | 1,2 | 1,8259 |
S(X) | 1,10 | 1,35 | |
Cv(X) | 1,10/4 | 0,27 | 1,12 |
Rango | 6 – 2 = 4 | 4 | 10 |
Rango iQ | 5 – 3 = 2 | 2 | 2 |
Todos los indicadores de dispersión –excepto el rango intercuartílico– son más grandes en el caso de la variable Y que en el caso de la variable X. Pero el único que tiene sentido comparar es el coeficiente de variación, que en el caso de X representa una dispersión moderada, mientras que en caso de Y una dispersión muy alta. Para visualizar la mayor dispersión de Y alcanza con observar los respectivos diagramas de bastones.
Medidas de asimetría
Podemos definir una distribución como simétrica cuando las dos mitades en que la divide la mediana se pueden superponer rotando la primera 180º usando como eje de simetría el valor de la mediana.
Observaciones
- Si la distribución es simétrica y concentrada en los valores centrales, entonces el promedio, la mediana y el modo coinciden.
- Cuando la distribución es asimétrica positiva o con cola a la derecha, el modo se ubica a la izquierda de la mediana y el promedio a su derecha.
- Cuando la distribución es asimétrica negativa o con cola a la izquierda, el modo se ubica a la derecha de la mediana y el promedio a su izquierda.
Se deduce de las observaciones anteriores que un indicador apropiado para medir asimetría debería tomar en cuenta las eventuales diferencias entre las medidas de posición. Así se define:
Coeficiente de Asimetría de Pearson =
Obsérvese que el coeficiente es tanto mayor y positivo (negativo) cuanto mayor la diferencia positiva (negativa) entre el promedio y la mediana. La estandarización que resulta de dividir entre S(X) permite comparar la asimetría de diferentes distribuciones.
En el ejemplo de la muestra de 200 pacientes internados en un sanatorio, donde X = Número de días de internación, Y = Número de veces que habían sido hospitalizados con anterioridad, ¿qué ocurre con la asimetría de las dos distribuciones?
CONCEPTO | X | Y |
Promedio | 4 | 1,21 |
Mediana | 4 | 1 |
Desvío estándar | 1,10 | 1,35 |
Coeficiente de simetría | 0 | +0,48 |
La distribución de X es simétrica, mientras que la de Y presenta asimetría positiva.
c) Variables cuantitativas continuas
En este caso se pueden obtener los mismos indicadores que en el caso de las variables continuas discretas. Se obtienen buenas aproximaciones de los indicadores utilizando las mismas fórmulas, con la siguiente convención: se procede a elegir un número en representación de la clase en lugar del intervalo. Dicho número suele ser el punto medio del intervalo. Con esta convención se pueden calcular todos los indicadores definidos para variables cuantitativas discretas, con excepción del modo y la mediana.
En lugar del modo se define el intervalo modal, como aquél en que la altura del histograma es máxima. Obviamente, como en los casos ya vistos, puede haber más de un intervalo modal, aunque ello no es muy usual. En el caso de distribuciones con intervalos de igual amplitud, el intervalo coincide con el de mayor frecuencia relativa. En el caso de distribuciones de variables continuas con intervalos desiguales, la afirmación anterior no es cierta en general.
En cuanto a la mediana, en el caso de variables cuantitativas continuas, la misma se obtiene de manera que la distribución quede dividida exactamente en dos partes iguales: el área acumulada por debajo del histograma hasta la mediana debe ser exactamente igual a 0,5.
Área = 0,5
X0,5
El siguiente ejemplo muestra el procedimiento que debe seguirse para el cálculo de la mediana en estos casos.
X | h(X) | Acum h(X) | Altura |
0 10 20 30 50 100 X0,5 |
0 – 10 | 0,20 | 0,20 | 0,02 | |
10 – 20 | 0,40 | 0,60 | 0,04 | |
20 – 30 | 0,20 | 0,80 | 0,02 | |
30 – 50 | 0,15 | 0,95 | 0,075 | |
50 –100 | 0,05 | 1,00 | 0,001 |
Como muestran la tabla y el gráfico, la mediana se encuentra en el segundo intervalo. Como el primer intervalo tiene frecuencia relativa 0,20, para alcanzar e 50% la parte rayada en rojo debe tener área 0,30. Pero el rectángulo rayado tiene por área la amplitud de la base (X0,5 – 10) por la altura (0,04). Entonces:
(X0,5 – 10) x 0,04 = 0,30
X0,5 =
¿Cómo se grafica la función de distribución empírica acumulada en el caso de las variables cuantitativas continuas? Una vez agrupados los datos en intervalos, el supuesto de trabajo es que dentro de cada intervalo la distribución es uniforme, tal como se representa en el histograma. Entonces, al acumular frecuencia relativa dentro del intervalo, la función de distribución acumulada crece linealmente, lo cual puede representarse mediante un segmento de recta en cada intervalo. El gráfico resultante es una poligonal, tal como se muestra en el ejemplo utilizado para presentar el histograma.
Estatura |
Frecuencia relativa | Frecuencia acumulada |
1,35 – 1,40
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
1,60 – 1,70 |
0,05
0,20
0,30
0,25
0,15
0,05 |
0,00
0,05
0,25
0,55
0,80
0,95
1,00 |
2.4. MEDIDAS DESCRIPTIVAS (corte longitudinal)
Las unidades del universo son ahora períodos de tiempo o momentos del tiempo, a intervalos regulares. Aquí ya no interesa definir clases y cuantificarlas, sino que el análisis de las series temporales se realiza con el objeto de conocer la evolución temporal de la variable. El conjunto de datos de corte longitudinal también se denomina serie temporal o serie cronológica. Los indicadores más elementales de las series temporales son:
- la transformación en serie de números índices
- la transformación en serie de variaciones periódicas
- la variación total y la variación periódica promedio.
Un análisis más interesante de las series cronológicas consiste en descubrir sus elementos componentes: tendencia, estacionalidad y ciclo; y con estos elementos proyectar la serie para realizar predicciones. Estos elementos serán abordados más adelante.
En esta sección vamos a centrarnos en el cálculo de los indicadores elementales.
Sea la serie original X1, X2, X3, …..,Xt, …..,Xn, donde el subíndice indica el período o momento al cual corresponde el valor de la variable X. Ejemplos:
Matrícula escolar
(serie anual)
AÑO | ALUMNOS |
1997 | 348.516 |
1998 | 358.412 |
1999 | 361.118 |
2000 | 373.415 |
2001 | 375.101 |
2002 | 389.403 |
Cotización del dólar interbancario comprador
Serie diaria del mes de marzo
DÍA | COTIZACIÓN |
10 | 28,58 |
11 | 28,57 |
12 | 28,57 |
13 | 28,62 |
14 | 28,63 |
15 | 28,63 |
16 | 28,63 |
17 | 28,68 |
18 | 28,73 |
19 | 28,68 |
20 | 28,63 |
21 | 28,68 |
La representación gráfica de las series temporales puede realizarse mediante:
- gráfico de puntos
- gráfico de bastones
- gráfico poligonal.
Utilizando los ejemplos anteriores, a continuación se muestra la forma que adoptan los gráficos propuestos. En el primero de ellos se presenta la matrícula escolar mediante un diagrama de puntos. En el segundo se utiliza un gráfico poligonal para mostrar la evolución de la cotización del dólar. En el tercero se vuelve sobre la matrícula escolar con un gráfico de bastones.
Cuando las cifras son muy grandes o con decimales, es difícil visualizar la entidad de los cambios que se producen período a período. Para aprehender más fácilmente los cambios en la serie original, se define una nueva serie, trasformada de la primera, llamada serie de números índices. Se requiere sólo la selección previa de un período (o momento) de la serie original, que funcionará como un período de referencia o base de la nueva serie. Se trata de una transformación elemental (lineal) que también puede verse como una simple regla de tres. Si se elige el primer período como base de la serie de números índices, se tiene:
La serie transformada presenta la forma siguiente:
Como regla de tres, It es la cuarta proporcional de X1, 100 y Xt. En el ejemplo de la matrícula escolar, si se elige 1997 como período base, entonces se obtiene la serie de números índices que se presenta en el cuadro siguiente.
AÑO | ALUMNOS | PLANTEO | ÍNDICES |
1997 | 348.516 | (348.516/348516)*100 | 100,00 |
1998 | 358.412 | (358.412/348516)*100 | 102,84 |
1999 | 361.118 | (361.118/348516)*100 | 103,62 |
2000 | 373.415 | (373.415/348516)*100 | 107,14 |
2001 | 375.101 | (375.101/348516)*100 | 107,63 |
2002 | 389.403 | (389.403/348516)*100 | 111,73 |
¿Cómo se interpreta la serie de números índices? Refleja los cambios ocurridos en cada período, respecto del período base, en términos porcentuales. Así, entre 1997 y 1998 la matrícula escolar se incrementó 2,84%; entre 1997 y 1999 se incrementó 3,62%; entre 1997 y el año 2000 la matrícula escolar se incrementó un 7,14%; etc. Obsérvese que la serie de números índices refleja la variación acumulada entre el período base y el período elegido para comparar. Pero los números índices no muestran las variaciones entre períodos consecutivos. Para obtener esta información se utiliza la fórmula:
Obsérvese que utilizando la fórmula anterior es posible derivar una nueva serie, a partir de la serie de números índices, llamada serie de variaciones periódicas. Esta nueva serie contiene un elemento menos que la original. En el ejemplo de la matrícula escolar:
AÑO | SERIE ORIGINAL | SERIE DE ÍNDICES | PLANTEO | SERIE DE VARIACIONES |
1997 | 348.516 | 100,00 | —– | —– |
1998 | 358.412 | 102,84 | [(102,84-100)/100]x100 | +2,84% |
1999 | 361.118 | 103,62 | [(103,62-102,84)/102,84]x100 | +0,80% |
2000 | 373.415 | 107,14 | [(107,14-103,62)/103,62]x100 | +3,40% |
2001 | 375.101 | 107,63 | [(107,63-107,14)/ 107,14]x100 | +0,46% |
2002 | 389.403 | 111,73 | [(111,73-107,63)/ 107,63]x100 | +3,80% |
Si se requiere obtener la variación operada en la serie entre dos períodos cualesquiera, k y t (supuesto que k < t), la fórmula apropiada es:
Si k = t – 1, se trata del caso particular de la variación entre períodos consecutivos. Si k = 1 y t = n, entonces la fórmula corresponde a la variación total de la serie. En el ejemplo de la matrícula escolar, la variación operada desde el comienzo al final de la serie es:
[(111,73-100)/ 100]x100 = 11,73%
Obsérvese que la variación total no coincide con la suma de las variaciones entre períodos consecutivos (2,84+0,80+3,40+0,46+3,80 = 11,30% ¹ 11,73%). Esto es así porque la simple suma es equivalente de aplicar variaciones sobre el valor base, cuando lo que interesa es aplicar la variación de cada año sobre el dato del año anterior. Entonces, la variación total puede obtenerse también mediante la expresión:
(1+0,0284).(1+0,0080).(1+0,0340).(1+0,0046).(1+0,0380) – 1 @ 0,1173 = 11,73%
El último concepto a introducir en esta sección es el de variación periódica promedio, la cual no se obtiene como promedio aritmético de las variaciones entre períodos consecutivos (aunque se trata muchas veces de una buena aproximación) porque las variaciones periódicas no se aplican sobre el índice base sino sobre el índice del período anterior. El siguiente razonamiento justifica el uso del promedio geométrico para el cálculo de la variación periódica promedio.
Sea P0 la población inicial. Si la misma crece a una tasa constante r, entonces la población al final de un período de tiempo es P1 = P0.(1+r). Si continúa creciendo a la misma tasa r, entonces al final del segundo período se tendrá P2 = P1.(1+r). Sustituyendo P1 por su expresión anterior resulta: P2 = [P0.(1+r)].(1+r) = P0.(1+r)2. Parece natural la siguiente fórmula para la población al final de n períodos con tasa r de crecimiento constante:
Pn = P0.(1+r)n
Si se quiere conocer r a partir de los datos P0, Pn y n, despejando en la fórmula anterior se obtiene:
r = – 1
Si las variaciones periódicas no son constantes (tal como ocurre, por ejemplo, en el caso de la matrícula escolar), se tendría:
Pn = P0.(1+r1).(1+r2).(1+r3)………(1+rn)
donde r1, r2, r3,….., rn son las variaciones entre períodos consecutivos.
La variación promedio r debería ser tal que aplicada n veces a la población inicial (P0) reprodujera la población final (Pn). Entonces:
Pn = P0.(1 + r)n
y despejando r:
Variación periódica promedio | r = (- 1) x 100 |
Observaciones
1.- P0 es el primer dato de la serie original y Pn corresponde al último dato. Entonces la serie original contiene (n+1) datos.
2.- El factor 100 no es imprescindible, se utiliza para expresar la tasa en porcentajes.
3.- En la fórmula puede sustituirse el cociente Pn / P0 por el cociente de los respectivos números índices In / I0, en virtud de la proporcionalidad entre ambas series.
En el ejemplo de la matrícula escolar se tiene: P0 = 348.516, Pn = 389.403 y la serie tiene n+1 = 6 datos. Entonces, la variación anual promedio de la matrícula escolar es:
¿Cómo se interpreta este 2,24%? Es la tasa de crecimiento promedio de la matrícula escolar entre 1997 y 2002. Obsérvese que 348.516 x (1 + 0,0224)5 = 389.338 @ 389.403. Si se quiere mejor aproximación entonces hay que calcular la tasa de variación con más decimales: 348.516 x (1 + 0,022434)5 = 389.403.
La tasa de variación promedio puede tener signo positivo (como en el ejemplo precedente) o negativo. El siguiente ejemplo, de la variable “Camas ocupadas por día en promedio por mes en un hospital” muestra un caso de variación promedio negativa.
MES |
CAMAS OCUPADAS |
Junio | 32 |
Julio | 30 |
Agosto | 32 |
Septiembre | 30 |
Octubre | 29 |
Noviembre | 28 |
Diciembre | 26 |
Enero | 25 |
Febrero | 24 |
La variación promedio mensual del número de camas entre junio y febrero es:
r =
Una primera forma de resumen de la serie temporal, consiste en transformarla en una serie de Números índices. Hemos visto que también puede obtenerse otra serie derivada: la serie de variaciones periódicas.
Aunque las series temporales pueden referirse a cualquier tipo de variables, los desarrollos más interesantes resultan de considerar series de precios, de cantidades o de valor. Ejemplos:
Series de precios | Series de cantidades | Series de valor |
Precio del kg. de harina | Matrícula escolar | Valor de las exportaciones |
Precio del kg. de pan | Errores promedio por factura | Recaudación por tiques |
Tarifa de la TV cable | Cantidad de turistas | Producto Bruto Interno |
Precio promedio de una especialidad farmacéutica | Camas ocupadas por día en el Sanatorio | Costo mensual de la mano de obra en el CTI |
Tarifa del día-cama de Sanatorio | Volumen físico de la producción manufacturera | Presupuesto mensual de los hogares |
Precios del consumo | Internaciones del día | Presupuesto del Sanatorio |
Ahora el interés se centra en otro problema más complejo, que consiste en considerar conjuntamente la evolución de varias series relacionadas.
Supongamos una empresa del calzado que fabrica zapatos y botas. Los siguientes datos corresponden a la producción anual de sus cuatro productos, medidos en pares de zapatos y pares de botas.
AÑO |
CALZADO DE MUJER | CALZADO DE HOMBRE | ||
Zapatos | Botas | Zapatos | Botas | |
1990 | 2.300 | 1.500 | 2.500 | 2.000 |
1991 | 2.500 | 1.600 | 2.500 | 1.900 |
1992 | 2.600 | 1.650 | 2.600 | 1.900 |
1993 | 2.650 | 1.700 | 2.700 | 1.800 |
1994 | 2.700 | 1.800 | 2.900 | 1.850 |
1995 | 2.750 | 2.000 | 3.000 | 1.800 |
1996 | 3.000 | 1.900 | 3.050 | 1.750 |
1997 | 3.500 | 1.900 | 3.200 | 1.500 |
1998 | 3.800 | 1.900 | 3.300 | 1.500 |
1999 | 4.000 | 1.800 | 3.300 | 1.400 |
2000 | 4.200 | 1.750 | 3.500 | 1.000 |
2001 | 4.500 | 1.700 | 3.450 | 800 |
2002 | 4.600 | 1.700 | 3.500 | 500 |
Variación
1990/2002 |
+ 100% |
+ 13% |
+ 40 % |
– 75 % |
La pregunta que queremos responder es: ¿cómo evolucionó la producción global de la fábrica de calzado? Obsérvese que no se puede responder mirando individualmente cada serie, ni tampoco sumando las cuatro series, pues se trata de productos de diferente calidad y valor. Las cantidades de pares de zapatos son crecientes en el tiempo, pero a tasas diferentes, y el comportamiento de las series de botas muestra, en el caso de las botas de mujer, crecimiento hasta 1995 y luego decrecimiento, y en el caso de las botas de hombre, decrecimiento constante de la serie.
El problema a resolver consiste en encontrar un indicador sintético, que permita comparar en el tiempo el volumen físico de la producción de la fábrica.
En este caso, dado que los cuatro productos utilizan el cuero como insumo, podría calcularse para cada período un indicador que resultara de sumar el insumo de cuero de cada par de calzado producido. Tendríamos entonces una solución aproximada del problema. La solución es “aproximada” porque los otros insumos de la producción (mano de obra, pegamento, electricidad) no son necesariamente proporcionales al insumo de cuero, esto es, las “cantidades producidas” no son estrictamente proporcionales a las “cantidades del principal insumo”.
El siguiente ejemplo refiere al presupuesto de una clínica de adelgazamiento que utiliza como insumos de la producción: mano de obra, medicamentos, teléfonos, luz eléctrica, agua corriente y papelería. En el cuadro que sigue se muestran los índices de precios de los insumos mencionados. Recordemos que los índices de precios muestran la evolución de los precios de la serie, relacionándolos con el período base. Por ejemplo, en el caso del Teléfono hubo un aumento del 10% en el mes 04 y luego un nuevo aumento en el mes 07, que acumulado con el anterior, da un 20% respecto del período base, en este caso, el mes 01.
MES |
MANO DE OBRA | MEDICA- MENTOS | TELÉ-FONO | ENERGÍA ELÉCTRICA | AGUA CORRIENTE | PAPE- LERÍA |
01 | 100 | 100 | 100 | 100 | 100 | 100 |
02 | 100 | 102 | 100 | 100 | 100 | 101 |
03 | 100 | 104 | 100 | 100 | 100 | 101 |
04 | 100 | 110 | 110 | 108 | 105 | 103 |
05 | 100 | 110 | 110 | 108 | 105 | 104 |
06 | 105 | 110 | 110 | 108 | 105 | 106 |
07 | 105 | 113 | 120 | 117 | 110 | 107 |
08 | 105 | 115 | 120 | 117 | 110 | 107 |
09 | 105 | 120 | 120 | 117 | 110 | 107 |
La pregunta relevante en este caso es: ¿cuánto aumentó mensualmente el presupuesto como consecuencia de los aumentos de precios de los insumos? La respuesta requeriría conocer las “cantidades” consumidas mes a mes y los precios de los insumos para poder calcular el presupuesto mensual. En tal caso podríamos calcular un indicador de valor.
Pero podría interesarnos dar respuesta a otra pregunta: ¿cuánto aumentó mensualmente el presupuesto como consecuencia de los aumentos de precios de los insumos, si las cantidades consumidas se mantuvieron constantes mes a mes? En este caso nos interesa conocer la evolución conjunta de los precios (y no del valor del presupuesto) de manera que las variaciones en las cantidades no influyan en el cálculo. Una primera respuesta a la pregunta podría ser: “los precios aumentaron en promedio entre un 5% y un 20% entre el mes 01 y el mes 09”, porque el insumo con menor aumento fue la Mano de Obra (5%) y los que tuvieron el mayor aumento fueron los Medicamentos y el Teléfono. Pero para poder responder con más precisión a la pregunta, necesitaríamos saber cómo inciden los distintos insumos en el presupuesto de la clínica. Si la Mano de Obra pesa más que los Medicamentos y el Teléfono, entonces, razonablemente, el aumento promedio de precios debería estar más cercano del 5% que del 20%. En este orden de ideas, un indicador sintético de la evolución de los precios –como en el ejemplo de los pares de calzado– o de las cantidades –como en el ejemplo de los pares de calzado–, se puede obtener mediante “índices ponderados” donde las ponderaciones se expresan en términos de valor.
Las ponderaciones pueden permanecer fijas a lo largo del tiempo (Índice de Laspeyres) o variar período a período (Índice de Paasche). Vamos a analizar los índices con ponderaciones fijas, porque son más fáciles de interpretar y porque son los más utilizados en el cálculo de los principales indicadores de precios de la economía uruguaya: Índice de los Precios del Consumo, Índice Medio de Salarios, y como consecuencia de ello, la Unidad Reajustable, la Unidad Reajustable de Alquileres, el coeficiente de reajuste de alquileres y la Unidad Indexada.
El supuesto implícito en la utilización de ponderaciones fijas es que el “peso” o importancia de cada componente del conjunto de series se mantiene relativamente constante en el período analizado. Este supuesto no puede mantenerse en el largo plazo, y por eso se recomienda, cada tanto, proceder al “cambio de base” del índice.
Vamos a ver cómo se procede en el caso de un índice de precios ponderado, con el ejemplo de la clínica de adelgazamiento. Supongamos que originalmente se disponen los siguientes datos.
Datos de precios
MES |
MANO DE OBRA | MEDICA- MENTOS | TELÉ-FONO | ENERGÍA ELÉCTRICA | AGUA CORRIENTE | PAPE- LERÍA |
01 | 4.000 | 125 | 0,80 | 1,50 | 12 | 200 |
02 | 4.000 | 127,50 | 0,80 | 1,50 | 12 | 202 |
03 | 4.000 | 130 | 0,80 | 1,50 | 12 | 202 |
04 | 4.000 | 137,50 | 0,88 | 1,62 | 12,60 | 206 |
05 | 4.000 | 137,50 | 0,88 | 1,62 | 12,60 | 208 |
06 | 4.200 | 137,50 | 0,88 | 1,62 | 12,60 | 212 |
07 | 4.200 | 141,25 | 0,96 | 1,755 | 13,20 | 214 |
08 | 4.200 | 143,75 | 0,96 | 1,755 | 13,20 | 214 |
09 | 4.200 | 150 | 0,96 | 1,755 | 13,20 | 214 |
Unidad de medida
MANO DE OBRA | MEDICA- MENTOS | TELÉ-FONO | ENERGÍA ELÉCTRICA | AGUA CORRIENTE | PAPE- LERÍA |
Salario mensual | 1 medica-
mento |
1 llamada |
1 kw/h |
1 mt3 |
1000 hojas tamaño A4 |
Cantidades del mes 01
MANO DE OBRA | MEDICA- MENTOS | TELÉ-FONO | ENERGÍA ELÉCTRICA | AGUA CORRIENTE | PAPE- LERÍA |
10 | 200 | 1.000 | 800 | 50 | 2 |
Un índice ponderado, de base fija, del tipo Laspeyres, lo que hace es promediar los índices simples de precios de cada uno de los productos de la “canasta”, ponderando cada índice simple con el “peso” que cada producto tiene en el “presupuesto base”. En los ejemplos precedentes, la “canasta” está formada por los productos (zapatos y botas) o por los tipos de insumos de la clínica. El “presupuesto base” es el valor de la canasta en el período base. Si en el ejemplo de la clínica se toma como período base el mes 01, entonces el presupuesto base resulta de multiplicar precios por cantidades (ambos expresados en la misma unidad de medida para cada componente de la canasta). Así, en el ejemplo:
Presupuesto base en el mes 01:
4.000 x 10 + 125 x 200 + 0,80 x 1.000 + 1,50 x 800 + 12 x 50 + 200 x 2 =
= 40.000 + 25.000 + 800 + 1.200 + 600 + 400 = 68.000.
El “peso” que tiene cada producto es proporcional a la importancia que el producto tiene en la canasta (en el período base) en términos de valor. La suma de todos los pesos es igual a la unidad, o también al 100%.
INSUMOS |
CANASTA DEL PERÍODO BASE | |||
Cantidad | Precio | Valor | Ponderación | |
Mano de Obra | 10 | 4.000 | 40.000 | 0,588 |
Medicamentos | 200 | 125 | 25.000 | 0,367 |
Teléfono | 1.000 | 0,80 | 800 | 0,012 |
Energía Eléctrica | 800 | 1,50 | 1.200 | 0,018 |
Agua Corriente | 50 | 12 | 600 | 0,009 |
Papelería | 2 | 200 | 400 | 0,006 |
TOTAL | —– | —– | 68.000 | 1,000 |
En el ejemplo hay sólo dos insumos con “peso” importante: la Mando de Obra y los Medicamentos, que juntos pesan más del 95% del presupuesto base. Las ponderaciones para cada insumo se obtienen mediante simple regla de tres, a partir de la columna de los valores.
¿Cómo se obtienen los índices ponderados del precio de los insumos para cada mes? Simplemente calculando el promedio ponderado de los índices simples de precios de los insumos con las ponderaciones que resultan del cuadro precedente. Los índices simples de precios resultan a partir de las series de precios de los insumos (de hecho, ya se habían presentado dos páginas atrás).
MES |
MANO DE OBRA | MEDICA- MENTOS | TELÉ-FONO | ENERGÍA ELÉCTRICA | AGUA CORRIENTE | PAPE- LERÍA |
01 | 100 | 100 | 100 | 100 | 100 | 100 |
02 | 100 | 102 | 100 | 100 | 100 | 101 |
03 | 100 | 104 | 100 | 100 | 100 | 101 |
04 | 100 | 110 | 110 | 108 | 105 | 103 |
05 | 100 | 110 | 110 | 108 | 105 | 104 |
06 | 105 | 110 | 110 | 108 | 105 | 106 |
07 | 105 | 113 | 120 | 117 | 110 | 107 |
08 | 105 | 115 | 120 | 117 | 110 | 107 |
09 | 105 | 120 | 120 | 117 | 110 | 107 |
Entonces, el índice de precios ponderado de los insumos mes a mes se calcula así:
MES | CÁLCULOS INTERMEDIOS | ÍNDICE |
01 | 100×0,588+100×0,367+100×0,012+100×0,018+100×0,009+100×0,006 | 100,00 |
02 | 100×0,588+102×0,367+100×0,012+100×0,018+100×0,009+101×0,006 | 100,74 |
03 | 100×0,588+104×0,367+100×0,012+100×0,018+100×0,009+101×0,006 | 101,47 |
04 | 100×0,588+110×0,367+110×0,012+108×0,018+105×0,009+103×0,006 | 104,00 |
05 | 100×0,588+110×0,367+110×0,012+108×0,018+105×0,009+104×0,006 | 104,00 |
06 | 105×0,588+110×0,367+110×0,012+108×0,018+105×0,009+106×0,006 | 106,96 |
07 | 105×0,588+113×0,367+120×0,012+117×0,018+110×0,009+107×0,006 | 108,39 |
08 | 105×0,588+115×0,367+120×0,012+117×0,018+110×0,009+107×0,006 | 109,12 |
09 | 105×0,588+120×0,367+120×0,012+117×0,018+110×0,009+107×0,006 | 110,96 |
Obsérvese que las ponderaciones permanecen fijas mes a mes. Los resultados indican que en el mes 09 los precios de la canasta de insumos de la clínica aumentaron en promedio un 10,96% respecto del mes 01, elegido como período base. ¿Por qué el aumento está más cerca del 5% que del 20%? Porque en la canasta de insumos pesa más la Mano de Obra que los Medicamentos y el Teléfono.
¿Cómo es la fórmula de Laspeyres para el cálculo de un índice ponderado de precios?
donde es el índice simple de precios en el mes t (“período corriente”) del artículo i de la canasta, es la ponderación del artículo i (calculada sobre el presupuesto base, el cual se denomina “período base” y se simboliza con el cero) y k es el número de artículos en la canasta.
Si se utiliza la notación en precios y cantidades, se obtiene otra expresión para el índice de precios de Laspeyres.
Esta expresión tiene una interpretación sencilla: en el denominador tenemos el presupuesto base, mientras que en el numerador aparece el presupuesto que resultaría de aplicar a la misma canasta de la base, los precios del período corriente (t). Entonces es fácil advertir que en el índice de precios de Laspeyres las variaciones respecto de la base dependen exclusivamente de cómo cambian los precios en el período corriente (pti) respecto del período base (p0i).
¿Cómo se calcula un índice de cantidades con ponderaciones fijas? Con la misma fórmula de Laspeyres (las ponderaciones en términos de valor) excepto que en lugar de los índices simples de precios se utilizan índices simples de cantidades.
Insistimos en que las ponderaciones son las mismas que en el índice de precios de Laspeyres. Vamos a calcular los índices de cantidades, aplicando la fórmula de Laspeyres en el ejemplo de la fábrica de calzado. Los datos que disponíamos eran los de las series de cantidades de los cuatro artículos que integran la canasta de productos fabricados.
AÑO |
CALZADO DE MUJER | CALZADO DE HOMBRE | ||
Zapatos | Botas | Zapatos | Botas | |
1990 | 2.300 | 1.500 | 2.500 | 2.000 |
1991 | 2.500 | 1.600 | 2.500 | 1.900 |
1992 | 2.600 | 1.650 | 2.600 | 1.900 |
1993 | 2.650 | 1.700 | 2.700 | 1.800 |
1994 | 2.700 | 1.800 | 2.900 | 1.850 |
1995 | 2.750 | 2.000 | 3.000 | 1.800 |
1996 | 3.000 | 1.900 | 3.050 | 1.750 |
1997 | 3.500 | 1.900 | 3.200 | 1.500 |
1998 | 3.800 | 1.900 | 3.300 | 1.500 |
1999 | 4.000 | 1.800 | 3.300 | 1.400 |
2000 | 4.200 | 1.750 | 3.500 | 1.000 |
2001 | 4.500 | 1.700 | 3.450 | 800 |
2002 | 4.600 | 1.700 | 3.500 | 500 |
Para calcular el índice de Laspeyres necesitamos elegir un período como base y el “presupuesto base”. Si elegimos el año 1990 como período base, entonces necesitamos conocer los precios de los cuatro artículos en ese año, para calcular el presupuesto base, y con ello las ponderaciones a mantener fijas durante el período 1990-2002.
Supongamos que los siguientes son los precios del período base.
AÑO |
CALZADO DE MUJER | CALZADO DE HOMBRE | ||
Zapatos | Botas | Zapatos | Botas | |
1990 | 80 | 150 | 100 | 120 |
Ahora estamos en condiciones de calcular las ponderaciones de cada artículo.
ARTÍCULOS |
CANASTA DEL PERÍODO BASE 1990 | |||
Cantidad | Precio | Valor | Ponderación | |
Zapatos de mujer | 2.300 | 80 | 184.000 | 0,205 |
Botas de mujer | 1.500 | 150 | 225.000 | 0,250 |
Zapatos de hombre | 2.500 | 100 | 250.000 | 0,278 |
Botas de hombre | 2.000 | 120 | 240.000 | 0,267 |
TOTAL | —– | —– | 899.000 | 1,000 |
En este caso las ponderaciones de los artículos son más parejos, es decir, el valor en la base de los cuatro artículos es aproximadamente una cuarta parte del total. A continuación se calculan los índices simples de cantidades para cada uno de los artículos de la canasta.
AÑO |
CALZADO DE MUJER | CALZADO DE HOMBRE | ||
Zapatos | Botas | Zapatos | Botas | |
1990 | 100,0 | 100,0 | 100,0 | 100,0 |
1991 | 108,7 | 106,7 | 100,0 | 95,0 |
1992 | 113,0 | 110,0 | 104,0 | 95,0 |
1993 | 115,2 | 113,3 | 108,0 | 90,0 |
1994 | 117,4 | 120,0 | 116,0 | 92,5 |
1995 | 119,6 | 133,3 | 120,0 | 90,0 |
1996 | 130,4 | 126,7 | 122,0 | 87,5 |
1997 | 152,2 | 126,7 | 128,0 | 75,0 |
1998 | 165,2 | 126,7 | 132,0 | 75,0 |
1999 | 173,9 | 120,0 | 132,0 | 70,0 |
2000 | 182,6 | 116,7 | 140,0 | 50,0 |
2001 | 195,6 | 113,3 | 138,0 | 40,0 |
2002 | 200,0 | 113,3 | 140,0 | 25,0 |
A partir de los datos precedentes estamos en condiciones de calcular los índices de cantidades de Laspeyres.
AÑO | CÁLCULOS INTERMEDIOS | ÍNDICE |
1990 | 100×0,205+100×0,250+100×0,278+100×0,267 | 100,00 |
1991 | 108,7×0,205+106,7×0,250+100×0,278+95×0,267 | 102,12 |
1992 | 113×0,205+110×0,250+104×0,278+95×0,267 | 104,94 |
1993 | 115,2×0,205+113,3×0,250+108×0,278+90×0,267 | 106,00 |
1994 | 117,4×0,205+120×0,250+116×0,278+92,5×0,267 | 111,01 |
1995 | 119,6×0,205+133,3×0,250+120×0,278+90×0,267 | 115,23 |
1996 | 130,4×0,205+126,7×0,250+122×0,278+87,5×0,267 | 115,68 |
1997 | 152,2×0,205+126,7×0,250+128×0,278+75×0,267 | 118,49 |
1998 | 165,2×0,205+126,7×0,250+132×0,278+75×0,267 | 122,26 |
1999 | 173,9×0,205+120×0,250+132×0,278+70×0,267 | 121,04 |
2000 | 182,6×0,205+116,7×0,250+140×0,278+50×0,267 | 118,88 |
2001 | 195,6×0,205+113,3×0,250+138×0,278+40×0,267 | 117,47 |
2002 | 200×0,205+113,3×0,250+140×0,278+25×0,267 | 114,92 |
Mientras tres de las cuatro series crecen, el índice ponderado resulta creciente, pero a partir de 1999, cuando las dos series de botas resultan decrecientes, el índice ponderado también empieza a decrecer (la reducción en la producción de botas es más importante que el crecimiento en la producción de zapatos).
Supongamos que en el año 2002 los precios del calzado han alcanzado los valores que se presentan en el cuadro siguiente.
AÑO |
CALZADO DE MUJER | CALZADO DE HOMBRE | ||
Zapatos | Botas | Zapatos | Botas | |
2002 | 500 | 1.000 | 750 | 900 |
Si se decidiera tomar como período base del índice de cantidad el año 2002, se tendrían las siguientes ponderaciones.
ARTÍCULOS |
CANASTA DEL PERÍODO BASE 2002 | |||
Cantidad | Precio | Valor | Ponderación | |
Zapatos de mujer | 4.600 | 500 | 2.300.000 | 0,325 |
Botas de mujer | 1.700 | 1.000 | 1.700.000 | 0,240 |
Zapatos de hombre | 3.500 | 750 | 2.625.000 | 0,371 |
Botas de hombre | 500 | 900 | 450.000 | 0,064 |
TOTAL | —– | —– | 7.075.000 | 1,000 |
Transcurridos doce años, las ponderaciones se han alterado significativamente como consecuencia de la fuerte reducción en la producción de botas de hombre. Entonces, si se mantienen las ponderaciones del año 1990, se estaría distorsionando el resultado del índice ponderado. Las ponderaciones del año 1990 se han ido desactualizando, y los índices resultantes reflejan la evolución en las cantidades de una canasta desactualizada. En estos casos procede el “cambio de base del índice”. Situaciones similares se producen en el Índice de los Precios del Consumidor, cuando algunos artículos se vuelven obsoletos y dejan de ser consumidos por la población. Por ejemplo, lo ocurrido en 1982, cuando virtualmente desapareció del mercado el televisor blanco y negro porque fue sustituido por el televisor color (y en el Índice, de base 1973, figuraba el TV blanco y negro).
El cambio de base requiere un estudio que proporcione los precios y cantidades de un nuevo período base. Implica la discontinuidad del índice de base anterior y el inicio de una nueva serie. Si se calcula la serie anterior hasta el período base del nuevo índice, entonces es posible realizar el encadenamiento de ambas series. Aunque el resultado muchas veces es una aproximación, el encadenamiento es el único procedimiento que permite calcular variaciones entre períodos en los que sólo se dispone de índices en bases distintas. Veamos un ejemplo.
PERÍODO | BASE 1993 | BASE 1999 |
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 |
100,0
102,3 103,5 106,2 109,1 110,0 112,3 |
100,0 103,1 104,8 106,9 107,5 |
Existen dos formas de encadenamiento: hacia delante y hacia atrás. En el primer caso se continúa la serie más antigua, asignando a ésta las variaciones operadas en la serie nueva, mediante una simple regla de tres. En el segundo caso se continúa la serie nueva “hacia atrás” asignando a los valores anteriores a la nueva base las variaciones operadas en la serie antigua.
Para realizar el encadenamiento hacia delante y obtener el valor que correspondería a la serie antigua en el año 2000, se agrega al índice de 1999 una variación de + 3,1%, obteniéndose 115,8 (regla de tres: 112,3*103,1/100). El valor que correspondería al año 2001, con el mismo procedimiento, es 117,7 (112,3*104,8/100). El cuadro que sigue muestra la serie encadenada hacia delante.
PERÍODO | BASE 1993 |
1993
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 |
100,0
102,3 103,5 106,2 109,1 110,0 112,3 115,8 117,7 120,0 120,7 |
Ahora sí estamos en condiciones de calcular, por ejemplo, la variación operada entre 1995 y 2001: (117,7/103,5 – 1) = +13,7%. A continuación se muestra el resultado del encadenamiento de las series hacia atrás. Otra vez el resultado se obtiene aplicando regla de tres simple. El dato encadenado para 1998 es 98,0 que resulta de hacer 110,0*100,0/112,3.
PERÍODO | BASE 1993 | BASE 1999 |
1993
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 |
100,0
102,3 103,5 106,2 109,1 110,0 112,3 |
89,0
91,1 92,2 94,6 97,2 98,0 100,0 103,1 104,8 106,9 107,5 |
Otra operación habitual en el trabajo con índices es el “cambio de base aritmética”, el cual consiste en cambiar el período en que la serie de índices toma el valor 100. El procedimiento que se utiliza para hacer el cambio de base aritmética es también la regla de tres simple. Utilizando el ejemplo precedente, supóngase que para determinado propósito se hace necesario fijar como período base el año 1996.
PERÍODO | BASE 1993 | BASE 1996 |
1993
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 |
100,0
102,3 103,5 106,2 109,1 110,0 112,3 115,8 117,7 120,0 120,7 |
94,2 96,3 97,5 100,0 102,7 103,6 105,7 109,0 110,8 113,0 113,7 |
Finalmente queremos abordar el problema de la deflactación de una serie. Dadas dos series, Xt y Yt, se dice que Wt es la serie Xt deflactada por Yt si se cumple que:
Se dice que la serie Xt ha sido deflactada y a la serie Yt se le llama deflactora. No siempre las series deflactadas tienen una interpretación interesante. Depende del significado de la serie del numerador en relación con la del denominador. Veamos algunos ejemplos.
Supongamos que la serie Xt corresponde al índice de precios de un bien y que la serie Yt corresponde al índice de precios de otro bien. Entonces Wt indica la evolución de los precios del primer bien en términos de los precios (de la moneda) del segundo bien.
AÑO | Xt | Yt | Wt |
2000
2001 2002 2003 |
100
104 110 116 |
100
105 113 121 |
100
99 97 96 |
La primera serie (Xt) representa la evolución anual del precio del pan, mientras que la segunda serie (Yt) representa la serie anual del precio de la harina de trigo (principal insumo para elaborar el pan). La serie Wt, que resulta de deflactar la primera por la segunda, expresa el poder de compra del pan, en moneda de harina de trigo. La serie Wt muestra una progresiva pérdida del poder adquisitivo del pan. Si los precios del pan crecen más lentamente que los precios de la harina de trigo, entonces los panaderos están perdiendo capacidad de compra. Con el producido del pan, cada vez pueden comprar menos harina de trigo.
Consideremos ahora la serie de un índice de salarios deflactada por el correspondiente índice de precios al consumo (de la canasta que consumen los asalariados).
AÑO |
Índice de Salarios
Xt |
Índice de los precios del consumo
Yt |
Índice de salarios reales Wt |
1990
1991 1992 1993 1994 1995 1996 |
100
140 210 275 340 412 508 |
100
136 198 257 313 375 460 |
100
103 106 107 109 110 110 |
Los resultados del ejemplo muestran que anualmente los aumentos de salarios más que compensaron los aumentos de precios de los bienes y servicios de consumo. Quiere decir que los asalariados se vieron beneficiados con un mayor poder de compra. Con los salarios crecientes, pudieron comprar más de una canasta de consumo. Por ejemplo, en el año 1993, los asalariados, en promedio, pudieron comprar 1,07 canastas (de la canasta que se definió en el período base).
Un tercer caso con interpretación interesante consiste en deflactar una serie representativa de un índice compuesto de valor, entre el correspondiente índice de precios. Por ejemplo, el valor de las exportaciones, entre el índice de precios de los productos exportados. En este caso la serie deflactada mide el volumen físico de los productos exportados, algo así como un índice de cantidad de las exportaciones.
2.5. RELACIONES ENTRE VARIABLES
La investigación estadística se enriquece cuando se analizan conjuntamente varias variables. Aquí analizaremos el caso de dos variables. Cuando se miden rendimientos escolares, si adicionalmente se conoce el sexo de los que realizan las pruebas, se puede responder a la siguiente pregunta: ¿son similares los rendimientos escolares de mujeres y de varones? Cuando se estudian los ingresos de los asalariados y su edad, se puede analizar si, por ejemplo, los ingresos del trabajo asalariado son crecientes con la edad.
Supongamos que los datos de la muestra se clasifican según dos variables, X e Y, y que el número que figura en la celda intersección de la fila i y columna j del cuadro que sigue, nij, representa el número de elementos de la muestra que toman los valores Xi y Yj.
TABLA BIVARIADA DE FRECUENCIAS ABSOLUTAS
Y1 | Y2 | …….. | Yi | …….. | Yr | Total | |
X1 | n11 | n12 | …….. | n1j | …….. | n1r | n(X1) |
X2 | n21 | n22 | …….. | n2j | …….. | n2r | n(X2) |
……… | ……… | ……… | ……… | ……… | ……… | ……… | ……… |
Xj | ni1 | ni2 | nij | nir | n(Xi) | ||
……… | ……… | ……… | ……… | ……… | ……… | ……… | ……… |
Xm | nm1 | nm2 | …….. | nmj | ……… | nmr | n(Xm) |
Total | n(Y1) | n(Y2) | …….. | n(Yj) | ……… | n(Yr) | n |
La tabla contiene en la última columna y la última fila, las distribuciones de frecuencias absolutas de las variables X e Y respectivamente. Estas distribuciones se llaman marginales. La distribución que se presenta en la tabla bivariada se denomina distribución conjunta o bivariada de las variables X e Y, aunque esta denominación suele reservarse para la distribución de frecuencias relativas, que se obtiene de dividir la matriz precedente entre el tamaño de la muestra (n). La expresión nij es una notación simplificada de n(Xi, Yj), esto es, el número de elementos de la muestra que conjuntamente pertenecen a la categoría Xi de la variable X, y a la categoría Yj de la variable Y.
Ejemplo: El cuadro siguiente presenta la distribución conjunta por edad y sexo de los alumnos del primer año escolar de un establecimiento.
DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
5 | 6 | 7 | 8 | Total | |
Femenino | 3 | 61 | 17 | 9 | 90 |
Masculino | 4 | 49 | 23 | 11 | 87 |
Total | 7 | 110 | 40 | 20 | 177 |
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS
5 | 6 | 7 | 8 | Total | |
Femenino | 0,017 | 0,344 | 0,096 | 0,051 | 0,508 |
Masculino | 0,023 | 0,277 | 0,130 | 0,062 | 0,492 |
Total | 0,040 | 0,621 | 0,226 | 0,113 | 1,000 |
Si interesa comparar la distribución de las edades de ambos sexos, entonces debería considerarse por separado cada una de las categorías y elaborar dos distribuciones por edades condicionadas por el sexo. Ello se consigue, en el ejemplo, dividiendo la fila que corresponde a cada categoría de sexo por la frecuencia marginal. En el cuadro que sigue se presentan las dos distribuciones de la edad de los alumnos, condicionadas por el sexo. La distribución de EDAD/FEM se obtiene dividiendo la fila correspondiente por 0,508, y la distribución de EDAD/MASC se obtiene dividiendo la fila correspondiente por 0,492.
DISTRIBUCIONES DE LA EDAD CONDICIONADAS POR EL SEXO
5 | 6 | 7 | 8 | Total | |
EDAD/FEM | 0,033 | 0,678 | 0,189 | 0,100 | 1 |
EDAD/MASC | 0,046 | 0,563 | 0,264 | 0,126 | 1 |
Observar que se trata de dos distribuciones diferentes, correspondientes a dos nuevas variables: EDAD/FEM y EDAD/MASC. La notación habitual para referirse a las distribuciones condicionales es la siguiente.
Distribución de frecuencias absolutas de la X condicionada por Yk: n(X/Yk).
Distribución de frecuencias relativas de la X condicionada por Yk: h(X/Yk).
A continuación se presenta el análisis de correlación entre dos variables. El único supuesto necesario es que ambas sean cuantitativas. Se supone que disponemos de información conjunta de dos variables, proveniente generalmente de una muestra. La información es un conjunto de pares de valores, y los datos pueden ser de corte transversal o longitudinal.
La investigación estadística requiere conocer, muchas veces, la forma en que se relacionan dos variables. ¿Existe alguna relación conocida entre los años de educación de la madre y la cantidad de años de rezago que presenta el alumno al matricularse en el primer año de liceo? ¿Existe alguna relación entre los ingresos del hogar y el gasto mensual en alimentación? ¿Existe alguna relación entre la cantidad de horas que el estudiante dedica a ver televisión por semana y su rendimiento escolar?
La teoría diría que sí hay una relación: a mayor cantidad de años de educación de la madre, podría esperarse menor rezago del alumno al matricularse en primero de liceo; a mayor ingreso, mayor gasto en alimentación; a mayor cantidad de horas frente a la televisión, podría esperarse menor rendimiento escolar
¿Cómo probar si estas afirmaciones son ciertas? ¿Qué tan fuerte es la relación entre las dos variables? ¿Se trata de relaciones exactas o aproximadas? Para responder a estas preguntas se requiere de herramientas de la estadística inferencial. Sin embargo, podemos aproximarnos al problema mediante indicadores descriptivos.
¿Todos los alumnos buenos en matemática son buenos en idioma español y viceversa? La respuesta es probablemente negativa. No estamos buscando relaciones exactas sino relaciones estadísticas, aquello que ocurre con mucha frecuencia. Denominamos relaciones exactas, por ejemplo, a la relación entre el largo de un rectángulo de 3 metros de ancho y su área. Si denominamos L al largo del rectángulo, entonces el área A es una función conocida del largo, A = 3L, y esta relación se cumple para todo rectángulo de ancho 3. Lo mismo ocurre entre el radio R de un círculo y la medida de su circunferencia C, esto es, C = 2.p.R (relación que ya conocían los antiguos griegos, aunque trabajaban con una aproximación racional de p: 223/71).
Las relaciones estadísticas difícilmente son exactas, como por ejemplo, la relación lineal:
Y = a + b.X
pero quizá esta relación resulte una buena forma de aproximarse al problema. Supongamos que tenemos una muestra de alumnos que han finalizado el segundo curso liceal y que registramos sus calificaciones en matemática (X) y en idioma español (Y). El siguiente gráfico, denominado “nube de puntos” muestra el comportamiento conjunto de la muestra en relación con el par de variables (X,Y).
Si se intenta “ajustar” una recta a la nube de puntos se encuentra que Y = 1 + 0,9.X es la de mejor ajuste. Sin embargo, la gran mayoría de los puntos no verifica esta relación, sino en forma aproximada. ¿Qué tan buena es la aproximación? La bondad del ajuste puede medirse por las distancias verticales de cada punto a la recta estimada. ¿Por qué ajustar una recta y no otra curva? También se puede ajustar otra curva, pero la más sencilla de evaluar es la recta.
Obsérvese que hay un alumno con un comportamiento atípico (en relación con el resto de los alumnos): tiene una buena calificación en matemática (10) y una muy baja calificación en idioma español (2). Hechos aislados como este no invalidan la relación lineal aproximada, ni contradicen la teoría que expresa una relación positiva en los logros de ambas asignaturas.
Tenemos pendiente el problema de cuantificar la intensidad de la relación entre las dos variables. Obsérvese lo que ocurre cuando trasladamos los ejes cartesianos ortogonales de forma que pasen por los puntos medios de las dos variables.
Cuando la relación aproximada entre las dos variables es lineal y positiva (cuando crece una variable la otra también crece), la mayoría de los puntos de la nube se ubican en los cuadrantes I y III. Cuando la relación aproximada es lineal y negativa (cuando crece una variable la otra decrece y viceversa) la mayoría de los puntos de la nube se ubican en los cuadrantes II y IV.
Ejemplo de relación aproximada lineal y negativa:
Considérese para cada par de valores (Xi,Yi) la expresión . Si el par (Xi,Yi) pertenece a los cuadrantes I o III, entonces > 0 y si el par (Xi,Yi) pertenece a los cuadrantes II o IV, entonces < 0. Considérese ahora la covarianza de X e Y:
Cov(X,Y) =
Entonces, si la relación entre las dos variables es aproximadamente lineal y positiva, la mayoría de los sumandos son positivos y la covarianza es positiva. Con el mismo argumento, si la relación entre las variables es aproximadamente lineal y negativa, entonces la covarianza es negativa. Además, la covarianza es tanto más grande (en valor absoluto), cuanto más se alejan los puntos (Xi,Yi) del punto donde se intersectan los respectivos puntos medios de las variables.
Entonces, la covarianza es un buen indicador de la fuerza de la relación lineal entre X e Y. Cuanto más grande y positiva la covarianza, más se parecerá la nube de puntos a una recta con coeficiente angular positivo. Cuanto más grande y negativa, más se parecerá la nube de puntos a una recta con coeficiente angular negativo. Cuando la covarianza es cero o próxima a cero, entonces la nube de puntos tiene la forma:
y no existe una recta que ajuste bien a la nube de puntos. En este caso se dice que las variables X e Y están incorrelacionadas.
La Cov(X,Y), como indicador de la variación conjunta de las dos variables, tiene el inconveniente que su valor depende de la unidad de medida de X e Y. Por ejemplo, si X e Y representan puntajes de un alumno en dos pruebas y se utilizan escalas de puntos entre 0 y 100, la covarianza será 100 veces mayor que si se utilizan escalas de puntos entre 0 y 10. Para levantar este inconveniente se define el indicador “coeficiente de correlación lineal” mediante la estandarización de la covarianza, como se explica más adelante.
En el caso de datos agrupados, la fórmula de la covarianza es:
Cov(X,Y) =
Ejemplo: En una Mutualista se realizó el seguimiento de 160 niños de 0, 1 y 2 años para estudiar la existencia de una posible relación entre sus edades y el número de consultas mensuales en Policlínica. Los resultados se presentan en el cuadro siguiente.
EDAD(X) |
Número de consultas por mes (Y) |
TOTAL |
|||
0 | 1 | 2 | 3 | ||
0 | 0 | 10 | 20 | 30 | 60 |
1 | 5 | 15 | 20 | 10 | 50 |
2 | 20 | 20 | 10 | 0 | 50 |
TOTAL | 25 | 45 | 50 | 40 | 160 |
Con los datos del cuadro se realizaron los siguientes cálculos intermedios:
Para calcular la covarianza de X e Y, conviene reescribir la fórmula anterior de la siguiente manera:
Cov(X,Y) =
Entonces, la covarianza resulta igual a: 1,03 – 1,66 x 0,94 = – 0,5304. El resultado pone en evidencia una relación negativa entre ambas variables: a menor edad se esperarían más consultas, y a mayor edad, menos consultas. Pero, ¿qué tan fuerte es la relación negativa? Para responder a esta pregunta, es necesario encontrar indicadores estandarizados, que permitan dar respuesta a la pregunta anterior, y realizar comparaciones entre diferentes pares de variables.
Al analizar la relación entre dos variables cuantitativas, se encontró que la covarianza era un indicador apropiado para medir la fuerza de la relación lineal. También se encontró, como inconveniente, que la covarianza depende de la unidad de medida de ambas variables. Para levantar este inconveniente se define el coeficiente de correlación lineal que resulta de estandarizar la covarianza dividiéndola entre el producto de las desviaciones estándar de ambas variables.
Se puede demostrar que el coeficiente de correlación lineal sólo puede tomar valores entre –1 y +1:
-1 £ r(X.Y) £ +1
y tiene la siguiente interpretación.
Observaciones
1.- El coeficiente de correlación lineal no mide relaciones causa-efecto. Las formulaciones causa-efecto deben ser realizadas a partir de la teoría. El coeficiente de correlación lineal sólo informa de la intensidad de una eventual relación lineal entre las variables.
2.- El coeficiente de correlación lineal no informa sobre la posible existencia de relaciones no lineales entre las variables. Por ejemplo, entre dos variables podría existir una perfecta relación cuadrática, y el coeficiente de correlación lineal no nos informará sobre este hecho, sólo nos dirá si los puntos de la nube están (o no están) relativamente próximos a una recta de ajuste.
Ejemplo: Para probar si existe correlación lineal entre los años de estudio de la madre y los años de rezago en los alumnos recién matriculados en 1º de liceo, se seleccionó una muestra de 500 alumnos a los cuales se les preguntó por las dos variables. Los resultados de la muestra se presentan en el siguiente “cuadro de doble entrada”.
Años de estudio de la madre | Años de rezago del alumno | |||
0 | 1 | 2 | 3 | |
6 9 12 15 18 |
40
60 70 80 90 |
30
20 20 10 10 |
20 10 10 10 0 |
10
10 0 0 0 |
Se reconocen como partes componentes del cuadro:
CABEZAL DE COLUMNAS
Años de rezago del alumno | |||
0 | 1 | 2 | 3 |
CABEZAL DE FILAS
Años de estudio
de la madre |
|
6 9 12 15 18 |
CUERPO PRINCIPAL
40
60 70 80 90 |
30 20 20 10 10 |
20
10 10 10 0 |
10
10 0 0 0 |
El cuadro indica que 40 alumnos de la muestra tienen madres con 6 años de estudio y ellos no presentan ningún año de rezago. Hay, por tanto, cuarenta pares en la muestra de la forma (6,0). También hay 30 alumnos con madres con 6 años de estudio que tienen un año de rezago, etc. El cuadro de doble entrada es un resumen de los datos que normalmente figuran en una base de datos en forma de columnas:
Años de estudio
de la madre |
Años de rezago del alumno |
6 | 0 |
6 | 0 |
6 | 1 |
12 | 1 |
15 | 0 |
6 | 3 |
9 | 1 |
12 | 0 |
— | — |
Por otra parte, ésta sería la forma más conveniente de introducir los datos en una planilla electrónica (en dos columnas, una para cada variable) a los efectos de calcular el r(X.Y) en forma automática utilizando la ventana de funciones de una planilla electrónica. La secuencia en excel es:
FUNCIONES
Funciones estadísticas
Coeficiente de correlación.
El cuadro permite observar que el número de rezagados disminuye a aumentar el número de años de estudio de la madre. La correlación es entonces negativa y eso debería reflejar tanto la covarianza como el coeficiente de correlación. Sin embargo la correlación negativa no es muy fuerte (alcanzaría con dibujar la nube de puntos para visualizarlo). Por estos motivos, al calcular el coeficiente de correlación, éste resulta igual a –0,37.
[1] Estela Bee Dagum, Carta del Presidente del Instituto Interamericano de Estadística, Marzo 2003.
[2] Ian Hacking, “La domesticación del azar”
[3] Estela Bee Dagum, op cit.
[4] Stephen Hawking: “El universo en una cáscara de nuez”
[5] Neil J. Salkind: “Métodos de investigación”
[6] Felipe Pardinas: “Metodología y técnicas de investigación en ciencias sociales”
[7] Mª Ángela Cea D’Ancona: “Metodología cuantitativa. Estrategias y técnicas de investigación social”
[8] También “pruebas de hipótesis” o “docimacia de hipótesis”.
[9] Los parámetros son características medibles de la variable aleatoria X, por ejemplo el promedio, el máximo valor de X, el modo, la dispersión o el grado de asimetría de la distribución.
[10] Una variable estadística, más rigurosamente, es una función que a cada unidad del universo le asigna un número.