Estadística

Estadística
MÓDULO I: INTRODUCCIÓN
1.1. La Estadística como ciencia y como técnica. Su aplicación en las ciencias sociales y en la
gestión empresarial.
1.2. Conceptos básicos: población y muestra, muestreo e inferencia inductiva. Importancia del
cálculo de probabilidades.
MÓDULO II: RESUMEN DE DATOS
2.1. Tipos de variables. Corte transversal y longitudinal. Variables cualitativas y cuantitativas.
2.2. Métodos gráficos. Histogramas, polígonos de frecuencias, diagramas de barras, diagramas de
pastel, diagramas tallo-hoja, diagramas de caja.
2.3. Medidas descriptivas para variables de corte transversal. Medidas de posición central: media,
mediana, modo. Medidas de posición no central: cuantiles. Medidas de dispersión: rango, rango
intercuartílico, desviación media, varianza, desviación estándar, coeficiente de variación.
Medidas de forma: momentos muestrales, coeficiente de asimetría y de apuntamiento.
Aplicaciones a la investigación de mercados y a la medición de audiencia.
2.4. Medidas descriptivas para variables de corte longitudinal. Números índices: simples y
ponderados. Tasas de variación. Problemas especiales en la medición: cambios de calidad,
cambios de base, desaparición de productos y aparición de productos nuevos. El caso uruguayo:
Índice de los Precios del Consumo, Índice Medio de Salarios, UR, URA, UI.
2.5. Relaciones entre variables. Análisis gráfico. Distribución conjunta bivariada.
Distribuciones marginales y condicionales. Correlación.
MÓDULO III: ELEMENTOS BÁSICOS DE PROBABILIDAD
3.1. Concepto de probabilidad. Leyes básicas.
3.2. Modelos de probabilidad. Modelos discretos univariados: Uniforme, Bernoulli, Binomial,
Poisson. Modelos continuos univariados: Uniforme, Exponencial, Normal. Modelos
multivariados: distribución multinomial.
MÓDULO IV: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
4.1. Concepto de estimación y prueba de hipótesis. Definiciones básicas.
4.2. Estimación puntual y por intervalos.
4.3. Pruebas de hipótesis para parámetros. Prueba de independencia y de bondad de ajuste.
MÓDULO V: REGRESIÓN LINEAL SIMPLE
5.1. Concepto. Definiciones básicas
5.2. Estimación del modelo.
5.3. Pruebas de significación del modelo. Análisis de la varianza. Predicción.
BIBLIOGRAFÍA
- BERENSON Mark y LEVINE David, “Estadística Básica en Administración” Prentice Hall
- CANAVOS George, “Probabilidad y Estadística” Mc Graw Hill
- CHAO Lincoln, “Estadística para la Ciencias Administrativas” Mc Graw Hill
- MASON Robert y LIND Douglas, “Estadística para Administración y Economía” Alfaomega
- MENDENHALL William, SHEAFFER Richard y WACKERLY dennos, “Estadística matemática
con aplicaciones” Grupo Editorial Iberoamericana
- MERRILL William y FOX Kart, “Introducción a la Estadística Económica”
Amorrortu Editores
- NEWBOLD Paul, “Estadística para los Negocios y la Economía” Prentice Hall
- NOVALES Alfonso, “Estadística Y Econometría” Mc Graw Hill
- RUIZ-MAYA Luis, “Métodos Estadísticos de Investigación” INE (España)
- SALKIND Neil, “Métodos de Investigación” Prentice Hall
- STEVENSON William, “Estadística para Administración y Economía” Harla
- WONNACOTT Thomas y Ronald, “Introducción a la Estadística” Limusa
- YAMANE Taro, “Estadística” Harla
1.1. INTRODUCCIÓN
La estadística es una ciencia, con su propio campo de estudio, y también un instrumento
(conjunto de técnicas) que utilizan ampliamente otras ciencias. La estadística como ciencia es una rama
de la matemática aplicada, cuyo objeto de estudio es el comportamiento de las variables que pueden
asociarse a una o más poblaciones. En tal caso, “población” es sinónimo de “universo”, un conjunto
bien definido de personas o de objetos, a los que es posible asociar variables medibles o cualidades. La
estadística como ciencia se basa en la teoría de las probabilidades, cuyo origen se remonta al siglo
XVIII (“Teoría de los juegos de azar”). Recién a comienzos del siglo XX la estadística se estructuró
como ciencia formal a partir de los axiomas de Kolmogorov.
Quizá el primer problema que debió resolver la estadística, cuando aún no estaba formalizada
como ciencia, consistió en elaborar unas tablas de mortalidad (Inglaterra, siglo XVII) que permitieran
calcular la prima periódica de un seguro de muerte. A los actuarios de la época no se les escapaba que
la probabilidad de muerte es creciente con la edad de las personas (aunque también depende de otros
factores), por lo que propusieron que el costo del seguro estuviera relacionado con la edad del
asegurado. Para encontrar esta relación estadística, elaboraron las tablas de mortalidad a partir de la
información que proporcionaban los registros de defunción. Aunque el concepto de probabilidad no
estaba formalizado, se aproximaron a él mediante la “teoría frecuencista”: si de una cohorte de 1000
personas nacidas en un mismo año, 14 morían entre los 35 y los 36, entonces estimaban que la
probabilidad de un recién nacido, de morir entre los 35 y los 36, podía aproximarse por la frecuencia
0,014.
“El razonamiento estadístico usa la lógica probabilística en la que, contrariamente a la lógica
formal, ninguna proposición puede ser comprobada o rechazada con certeza, sólo con un nivel de
significación dado. Mientras la lógica formal es el paradigma metodológico de la matemática y la física
clásica, la lógica probabilística lo es de las ciencias factuales, donde la realidad cambia
estocásticamente. La incertidumbre respecto al pasado es falta de información, mientras que la
incertidumbre respecto al futuro es algo más. La pluralidad de alternativas pasadas puede ser
considerada de tipo Laplaciana (todas igualmente posibles) alrededor de la verdadera. Mientras que la
pluralidad de posibles futuras alternativas es Darwiniana, lo aleatorio es intrínseco al fenómeno y
cambia con el tiempo. A todo presente le corresponde un gran número de futuros posibles. En realidad,
muchos escritores literarios anticiparon con su imaginación creativa lo que los científicos luego
formalizaron con nuevos desarrollos teóricos. A este respecto, Jorge Luis Borges escribió: a todo
presente se abren infinitos futuros posibles, mucho antes que Illia Prigogine, Premio Nobel de física,
desarrollara su famosa teoría de la bifurcación. En todo paradigma teleológico (finalista) es el futuro
que, en cierta medida, determina tanto el presente como el pasado; en el paradigma causal clásico, es el
pasado que determina el presente y éste a su vez el futuro; en el paradigma estadístico, el presente es
compatible con múltiples futuros y el enlace entre el pasado y el futuro es mediado por el azar. No se
pueden prever los acontecimientos, sólo sus probabilidades de presentación”.1
“El determinismo sufrió un proceso de erosión durante el siglo XIX y así quedó un espacio para
dar cabida a las leyes autónomas del azar. La idea de la naturaleza humana fue desplazada por el
modelo de persona normal y leyes de dispersión. Estas dos transformaciones se dieron en forma
paralela y se alimentaron recíprocamente. El azar hizo que el mundo pareciera menos caprichoso: el
azar estaba legitimado porque aportaba orden al caos. Cuanto mayor era el indeterminismo en nuestra
concepción del mundo y del hombre, más elevado era el nivel de control que se esperaba. Muchas
clases de conducta humana, especialmente conductas perversas como el crimen y el suicidio, fueron
objeto de recuento. Se manifestaban pasmosamente regulares año tras año. Leyes estadísticas de la
1 Estela Bee Dagum, Carta del Presidente del Instituto Interamericano de Estadística, Marzo 2003.
sociedad parecían desprenderse de las tablas oficiales de desviación. Los datos sobre promedios y
dispersiones engendraron la idea de persona normal y condujeron a nuevas clases de manejo social. En
los primeros años del siglo XX se suponía que las leyes estadísticas podían reducirse a hechos
subyacentes deterministas, pero el aparente predominio de esas leyes fue minando lenta y erráticamente
el determinismo. Las leyes estadísticas llegaron a considerarse como leyes de derecho propio y su
alcance se extendió a los fenómenos naturales. Nació un nuevo tipo de conocimiento objetivo, producto
de nuevas tecnologías para obtener información sobre procesos naturales y sociales. Surgieron nuevos
criterios sobre los que debía considerarse como prueba del conocimiento. Las leyes estadísticas que
podían justificarse así se usaron no sólo para describir sino también para explicar el curso de los
sucesos. El azar era domesticado en el sentido de convertirse en la materia misma de los procesos
fundamentales de la naturaleza y la sociedad.”2
En otro orden, la estadística es una ciencia auxiliar, un instrumento para el avance de otras
ciencias, desde que las técnicas estadísticas forman parte del método científico. Entre estas técnicas
pueden mencionarse los métodos de resumen de datos, tanto numéricos como gráficos, la
comprobación de hipótesis y las técnicas de muestreo.
“En la literatura epistemológica moderna, el conocimiento científico tiene la tarea de describir,
explicar y predecir eventos. El rol de la estadística como método científico está fuertemente
condicionado por el paradigma dominante de las ciencias. En la física clásica, el elemento estocástico
es visto como una consecuencia de la limitación de la mente humana mientras que en la biología
evolucionista de Darwin y la genética de Mendel, el azar es intrínseco al fenómeno, cambia con el
tiempo y la necesidad.”3
“Los humanos siempre hemos querido controlar el futuro o, al menos, predecir lo que va a
ocurrir. Por esto la astrología es tan popular. Según ella, lo que pasa en la Tierra está relacionado con
los movimientos de los planetas en el firmamento. Esto es una hipótesis que puede ser sometida a
prueba científicamente, o lo sería si los astrólogos se comprometieran y formularan predicciones
definidas que pudieran ser comprobadas. Sin embargo, con considerable astucia, expresan siempre sus
predicciones en términos tan vagos que pueden ser aplicados a cualquier cosa que ocurra. Nunca se
puede demostrar que predicciones como sus relaciones personales pueden intensificarse o se le
presentará una oportunidad financieramente interesante son erróneas. Pero el motivo real por el que la
mayoría de los científicos no cree en la astrología no es la presencia o la ausencia de evidencias
científicas acerca de ella, sino que no resulta consistente con otras teorías que han sido comprobabas
experimentalmente.”4
El método científico es un proceso que permite incrementar el conocimiento, generar
conocimiento nuevo. Si se sigue la lógica del método científico, entonces el producto obtenido se
denomina “conocimiento científico”. Si los nuevos conocimientos pueden organizarse en un cuerpo
coherente, que permite explicar hechos ya ocurridos y predecir hechos que habrán de ocurrir, entonces
el método científico (la investigación científica) conduce a la formación de nuevas teorías, y también a
modificar las teorías existentes o a destruirlas5.
La teoría es un conjunto de proposiciones lógicamente articuladas que tiene por fin la
explicación y predicción de resultados en un área determinada de fenómenos. En el caso particular de
2 Ian Hacking, “La domesticación del azar”
3 Estela Bee Dagum, op cit.
4 Stephen Hawking: “El universo en una cáscara de nuez”
5 Neil J. Salkind: “Métodos de investigación”
las ciencias sociales el área de fenómenos es el de las conductas de los individuos o de los grupos
humanos6.
En el esquema de Wallace (1971) el proceso del conocimiento científico involucra cuatro
componentes:
- teoría
- hipótesis
- observación o recogida de datos
- contraste de hipótesis.
A partir de la teoría (conjunto de proposiciones lógicamente articuladas) se extraen una o varias
hipótesis. Estas representan predicciones o respuestas probables a las preguntas que se formula el
investigador. Las hipótesis estadísticas suelen formularse como proposiciones en las que se realizan
afirmaciones respecto de una variable o respecto a las relaciones entre dos o más variables7.
Volvamos sobre el concepto de “hipótesis estadística”. Se trata de una proposición, una
afirmación sobre la distribución de una variable o sobre las relaciones entre dos o s variables. Pero
no se trata de afirmaciones cualesquiera. Las mismas deben ser el reflejo de la teoría que las sustenta y
sólo tienen sentido si pueden someterse a prueba (al revés de lo que ocurre con las afirmaciones de los
astrólogos mencionadas más arriba por Stephen Hawking).
Es a través de la experiencia, de la observación sistemática, de la recolección de datos que se
procederá a verificar las afirmaciones contenidas en las hipótesis.
¿Qué datos deben recogerse? ¿Cómo se deben registrar? ¿Cómo se habrán de resumir? Para
responder a estas preguntas se requiere del auxilio de la estadística, más precisamente de lo que se
conoce con el nombre de “estadística descriptiva”.
Los resultados obtenidos de la recolección de datos ¿son compatibles con las hipótesis de la
investigación? La evidencia empírica ¿confirma las hipótesis? Para responder a estas preguntas es
necesario apelar nuevamente a la estadística, esta vez a la denominada “estadística de inferencia”.
El contraste de hipótesis8 conduce a aceptar provisionalmente las hipótesis o a rechazarlas. En el
primer caso se dirá que la evidencia empírica no contradice la teoría, y ésta permanecerá firme en tanto
no aparezca nueva evidencia en contra. En el segundo caso, la teoría dejará de formar parte del
conocimiento científico y será necesario elaborar nuevas teorías. Las hipótesis descartadas por la
evidencia empírica seguirán siendo útiles para la ciencia en tanto marcan el camino por donde no se
deberá volver a transitar.
1.2. CONCEPTOS BÁSICOS
6 Felipe Pardinas: “Metodología y técnicas de investigación en ciencias sociales”
7 Mª Ángela Cea D’Ancona: “Metodología cuantitativa. Estrategias y técnicas de investigación social”
8 También “pruebas de hipótesis” o “docimacia de hipótesis”.
En Estadística se utiliza la expresión “población” como sinónimo de “universo”, que es el
conjunto de entidades respecto de las cuales se desea resumir información o hacer inferencia. En el
origen, los primeros universos investigados eran poblaciones humanas, de ahí que ambas expresiones
se tomen como sinónimos. Si las circunstancias lo permiten, los recursos son suficientes, y el tipo de
información requerida lo aconseja, para investigar el universo podrá realizarse un censo, es decir, una
investigación en la que todas las entidades de la población son consultadas y aportan sus datos. Pero en
muchos casos el censo no parece ser el procedimiento de recolección más adecuado para investigar el
universo.
Una investigación se puede denominar “estadística” cuando las hipótesis son del tipo definido
más arriba: afirmaciones relativas a la distribución de una o más variables aleatorias. En estas
investigaciones pueden identificarse, entre otros, los siguientes componentes:
un universo: un conjunto de entidades (personas, seres vivos, objetos inanimados) respecto
de los cuales se desea conocer alguna o algunas de sus características
variables: características medibles que poseen todas las unidades del universo
objeto de la investigación: no consiste en identificar las entidades del universo con ciertas
características, sino que se trata de resumir información acerca de la distribución de dichas
características en la población
procedimiento de recolección: es posible conocer, mediante un procedimiento adecuado, el
valor de la o las variables de algunas o de todas las entidades del universo
restricciones: en cuanto a los recursos disponibles (humanos, técnicos, financieros) y en
cuanto a la oportunidad en que deben darse a conocer los resultados de la investigación, lo
que obliga a elegir, entre varias estrategias alternativas, la que resulte más eficiente.
Los procedimientos de recolección más comunes son:
- Censo
- Muestreo
- Explotación estadística de registro administrativo
- Experimentación.
En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones
se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información
existente.
El registro administrativo es un directorio de unidades (personas, viviendas, empresas) creado
exclusivamente para fines administrativos: de registro, de recaudación, de fiscalización o de contralor.
Si se cumplen ciertos requisitos, estos registros pueden servir a los fines estadísticos.
Las ventajas del registro administrativo como procedimiento de recolección son:
- Es el procedimiento más económico.
- No requiere de ninguna organización especial de campo para capturar los datos. Los gastos
se limitan a los aspectos de procesamiento de la información.
- Si el registro es completo, entonces se trabaja con todos los datos de la población. Es el caso
del número de vehículos de un país, número de personas que poseen teléfono en su
domicilio, etc.
Las desventajas del registro administrativo son:
- La información se obtiene como un subproducto de la gestión administrativa, y en muchos
casos, las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos
para fines estadísticos.
- Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las
informaciones que se utilicen con fines estadísticos.
A pesar de los inconvenientes indicados, se debe tratar de utilizar al máximo este procedimiento de
recolección, que es de una riqueza inmensa en todos los campos de la actividad socio-económica de un país.
Para evitar las desventajas señaladas, debe tratarse que la fuente administrativa se adecue, en lo posible, a los
fines estadísticos. Esto se logra, cuando las autoridades administrativas adquieren conciencia de la importancia
del uso de estadísticas en sus propias actividades. Otra forma para mejorar este procedimiento de recolección, es
lograr que las autoridades de las oficinas administrativas participen en la planificación de las estadísticas que
proporcionarán y además, reciban compensaciones por su colaboración, ya sea con información procesada de
acuerdo a sus necesidades, formularios para registrar la información original, etc. En esta forma, su interés en la
obtención de la información que se utilice con fines estadísticos, será un aspecto esencial de su gestión y no
solamente un subproducto.
El censo es una investigación estadística en la que se intenta obtener información de la totalidad
de las unidades que componen el universo. Por ser una investigación estadística, la información se
obtiene tal como se necesita para fines estadísticos. Esta característica constituye la principal
diferencia que tiene este procedimiento de recolección respecto del registro administrativo.
Las ventajas del censo son:
- La información obtenida puede desagregarse y publicarse por unidades administrativas u otro
criterio de clasificación, cualquiera sea su tamaño. Esto se debe a que dentro de la
recolección se han considerado todas las unidades de información, por lo cual se pueden
tabular con cualquier grado de detalle, por muy poca frecuencia que puedan llegar a tener las
categorías de clasificación.
- Constituye un punto de referencia para la preparación de las estadísticas continuas. Esto es,
a partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente
mediante agregados o disminuciones de las variaciones establecidas, utilizando registros
administrativos o mediante muestras.
- Los antecedentes obtenidos son una valiosa ayuda para el diseño de muestras. Permite la
preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la
selección de la muestra.
- Es el único tipo de investigación utilizable para obtener información sobre fenómenos que se
producen con poca frecuencia.
- La credibilidad en las estadísticas que se obtienen mediante el censo es mayor que la de
cualquier otro procedimiento de recolección.
Las desventajas del censo son:
- Es necesaria una compleja organización que abarque todo el universo por investigar,
evitando omisiones y duplicaciones. Esta situación es particularmente válida en el caso de
encuestas que cubren todo el territorio nacional, en las que la organización de los trabajos de
campo se complica por el tamaño del universo y su dispersión.
- Exige el empleo de mayor cantidad de recursos de personal, materiales y financieros.
- La información que se obtiene puede ser menos precisa que la que se lograría mediante una
muestra. Esto ocurre porque los errores y omisiones producidos en la recolección y algunas
veces en el procesamiento de la información de un censo, pueden superar a los que se
acumulen en la muestra incluyendo el error de muestreo (error que se produce debido a que
la información de toda la población es una estimación que utiliza como base los datos de una
parte representativa de esa población). Esta mayor precisión que se puede lograr con la
muestra, se debe a que los errores ajenos al muestreo se pueden reducir, pues el menor
número de empadronadores permite seleccionar los más calificados.
El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de
interés con base en la información que se obtiene de una parte de las unidades que componen dicho
universo. Al igual que en el censo, mediante este procedimiento de recolección la información se
obtiene tal como se necesita para fines estadísticos. Su uso ha ido en rápido aumento, a medida que las
instituciones productoras de información disponen de personal capacitado para efectuar su
organización, diseño y análisis, debido a su bajo costo e incluso, como ya se ha señalado, a que se
reducen los errores ajenos al muestreo respecto del procedimiento censal.
Las limitaciones al uso del muestreo se refieren a que la precisión de los resultados puede no ser adecuada
para pequeñas subpoblaciones o para fenómenos que se producen con poca frecuencia.
La experimentación es un método de investigación estadística que se utiliza con el propósito de determinar
la existencia de relaciones causales (relaciones causa-efecto) entre variables. Se trata de conocer el efecto que
produce un cierto tratamiento en un grupo de individuos (más horas de clase a los alumnos, menos horas de
trabajo por semana) en una cierta variable (rendimiento escolar, productividad en el trabajo). Para ello se trabaja
frecuentemente con dos (o más) grupos. A uno o más de los grupos se aplica el tratamiento (grupos
experimentales) y otro u otros no reciben tratamiento (grupos de control). Supuesto que los grupos son
equivalentes al inicio (sin diferencias en cuanto a las variables a investigar), cualquier diferencia observada al
final del experimento debe ser consecuencia del tratamiento. Existen diferentes diseños posibles para la
experimentación. Las diferencias entre los diseños se basan en:
- el grado de control que se imponen a las variables objeto de estudio (si no
hay control sobre ciertas variables, entonces no puede asegurarse que el efecto tenga por causa
el tratamiento)
- la forma en que interviene (o no) la aleatoriedad en la conformación de los
grupos: ¿Los individuos que intervienen en los grupos se eligen aleatoriamente de la
población? ¿Los individuos se asignan aleatoriamente a los grupos? ¿Se decide aleatoriamente
cuáles son los grupos experimentales y cuáles los de control?
La mayor ventaja de la experimentación como procedimiento de recolección de datos consiste en
que el procedimiento ha sido diseñado cuidadosamente para obtener información relevante para lo que
se está estudiando y si el experimento ha sido controlado (validez interna) y se han utilizado
mecanismos aleatorios en la conformación de los grupos, con tamaños de muestra los suficientemente
grandes, los resultados de la muestra pueden generalizarse al universo con alta confiabilidad (validez
externa).
Desventajas del procedimiento:
- se requiere mucha información previa y una rigurosa planificación para la
conformación de los grupos
- en muchos experimentos no es posible asignar aleatoriamente los individuos
a los grupos de tratamiento y de control, porque las circunstancias con y sin tratamiento no las
define el investigador sino que ya vienen dadas ( niños con y sin desnutrición) o porque los
grupos vienen definidos con anterioridad (grupos escolares en las pruebas de rendimiento)
- en educación, cuando el experimento incluye una prueba de conocimientos
previa al tratamiento, los mejores resultados en la segunda prueba pueden deberse al
tratamiento pero también al incremento de la habilidad para realizar pruebas
- cuando el tratamiento tiene cierta duración en el tiempo, existe el riesgo que
algunos individuos abandonen el experimento (mortalidad, mudanza, pérdida de interés en
participar) y esto afecte la razonable equivalencia entre los grupos de tratamiento y de control
- el saberse dentro del grupo con tratamiento puede generar ciertas actitudes (a
favor, en contra) que afecten los resultados del experimento con independencia de la variable
de tratamiento (“efecto Hawthorne”).
El siguiente esquema permite reconocer a los elementos componentes de un problema de
inferencia estadística.
En la inferencia inductiva uno de los problemas a resolver consiste en encontrar la distribución
(F) de una variable aleatoria X (o la distribución de un vector de variables aleatorias), la cual puede
POBLACIÓN O
UNIVERSO
X F(x,θ)
Técnicas
de
muestreo
Inferenci
a
inductiva
Muestra
Resumen de
depender de uno o más parámetros9 desconocidos (θ), y se ha descartado el censo como procedimiento
de recolección, optándose por el muestreo. Seleccionada la técnica de muestreo apropiada, se elige una
muestra y se recogen los datos pertinentes. Una vez que se dispone de los datos, se procede a
resumirlos mediante técnicas gráficas y numéricas (estadística descriptiva). El último paso consiste en
generalizar los datos de la muestra al universo de referencia. La inferencia inductiva va de lo particular
a lo general, de la muestra al universo, para hacer afirmaciones sobre la F o sobre θ. Si la técnica de
muestreo elegida es probabilística, entonces es posible completar el proceso de inferencia calculando
una medida del error muestral. Por ejemplo, puede afirmarse con una probabilidad alta (digamos, del
95%), que la tasa de desempleo en una ciudad es el 12% con un error muestral del 1%. Y ello se
interpreta de la siguiente manera: el parámetro poblacional “proporción de desocupados en la ciudad”
se desconoce, pero se puede aproximar con los resultados de una muestra, dicha aproximación
(“estimación puntual”) es el 12%, pero con una probabilidad alta puede afirmarse que dicho parámetro
se encuentra entre el 11% y el 13%.
¿Cuándo puede afirmarse que los datos provenientes de una investigación estadística son de
calidad aceptable? Hemos visto que los distintos procedimientos de recolección tienen limitaciones
vinculadas con la calidad de los datos: incompletitud y desactualización en el caso del registro
administrativo, diversos errores ajenos al muestreo y falta de oportunidad en el caso del censo, error
muestral en el caso del muestreo. Para reducir estos inconvenientes es necesario actuar directamente
sobre los factores causantes. Por ejemplo, en el caso de los censos, mediante una adecuada instrucción
del personal de campo y del personal de codificación y procesamiento. En el caso de la muestra,
mediante una estricta supervisión del trabajo de campo, para asegurarse que la muestra efectiva se
corresponda con la muestra seleccionada mediante procedimiento probabilístico. Entonces, para
asegurar calidad en los datos de una investigación estadística, es necesario asignar los recursos de
manera de minimizar todas las posibles fuentes de error. Planificación, capacitación, supervisión y rigor
científico son los elementos claves para asegurar datos de calidad.
9 Los parámetros son características medibles de la variable aleatoria X, por ejemplo el promedio, el máximo valor de X, el
modo, la dispersión o el grado de asimetría de la distribución.
2. RESUMEN DE DATOS
2.1. TIPOS DE VARIABLES
Sea U el universo a investigar, formado por las unidades u1, u2, u3, ......., un.
U= { u1, u2, u3, ......., un }
Las ui pueden ser individuos o períodos de tiempo. Algunas veces podemos observar a todas las
unidades del universo (censo, registro completo) y otras veces sólo es posible observar una parte del
universo denominada muestra. La expresión “observar una unidad” supone que podemos conocer el
valor que asumen en dicha unidad una o más características susceptibles de ser evaluadas en cada
unidad del universo.
Una variable estadística10 es una característica que podemos medir en todas las unidades del
universo.
Una variable es de corte transversal cuando los resultados de la medición están referidos a un
mismo momento o período de tiempo. Tal es el caso de las calificaciones que obtienen los alumnos de
un curso, las cotizaciones de las monedas extranjeras al cierre de operaciones de un día determinado,
los ingresos de los hogares en un mes o las ventas de las empresas de la Industria Manufacturera en el
año 2002.
Una variable es de corte longitudinal o también una serie temporal, cuando los datos
corresponden a diferentes momentos o períodos de tiempo, a intervalos regulares. Son ejemplos de
series cronológicas: la matrícula anual de Enseñanza Primaria, la tasa de desempleo trimestral, el
Producto Bruto Interno anual, la cotización diaria del dólar interbancario comprador (asúmase que
cuando no hay cotización se toma la del último día hábil anterior), el número de camas ocupadas
diariamente en un hospital.
10 Una variable estadística, más rigurosamente, es una función que a cada unidad del universo le asigna un número.
A continuación se describe la forma de resumir la información de los dos tipos de variables
estadísticas recién definidos.
Variables de corte transversal
Las técnicas de resumen que se presentan en esta parte son aplicables tanto a los datos
provenientes de un censo, de un registro o de una encuesta por muestreo. Las referencias
frecuentes a las muestras se justifican por cuanto en la gran mayoría de las investigaciones se
trabaja con datos muestrales.
Una variable estadística es una característica que podemos medir o evaluar en todas las
unidades del universo. Los resultados de la medición se clasifican en clases y estas clases determinan
una partición del universo (una partición matemática inducida por la variable estadística). Que las
clases determinan una partición significa que cada unidad de la muestra se clasifica en una clase y una
sola, y que toda unidad es susceptible de ser clasificada en una clase.
Ejemplo 1: El universo es el conjunto de azafatas de una línea aérea. La variable es el color de ojos y las clases
son:
- ojos de color marrón
- ojos de color celeste
- ojos de color verde
- ojos de color gris
- ojos de color negro
- ojos de otro color
Cada individuo del universo pertenece a una sola clase y la unión de todas las clases coincide con el universo
(partición matemática).
Ejemplo 2: El universo es el conjunto de alumnos matriculados en un estable-cimiento escolar. La variable es el
número de padres biológicos con los que convive el alumno. Las clases son solo tres: 0,1 y 2.
Estas clases podrían verse como una forma de resumir diversas situaciones posibles (lo que
podría llevar a una partición más fina, con más clases). Por ejemplo, si el alumno pertenece a la clase
“1” puede ser que:
- el alumno convive con madre viuda
- el alumno convive con padre viudo
- el alumno convive con madre soltera y padre ausente
- el alumno convive con uno de los padres biológicos, porque estos están separados
- otras situaciones
Si a los efectos de la investigación es necesario distinguir estas situaciones, entonces la variable “número de
padres biológicos con los que convive el alumno” no es adecuada y debería definirse una nueva variable que
contemplara un mayor número de clases, por ejemplo padres con los que convive” (y las clases podrían
definirse a partir de la convivencia con padres biológicos, padrastros o padres adoptivos).
Ejemplo3: El universo es el conjunto de alumnos que están cursando, en mayo de 2003, en un
establecimiento de enseñanza primaria. La variable es el número de años aprobados en la educación
formal. Las clases son: 0, 1, 2, 3, 4 y 5. Los alumnos que están cursando primer año tienen aprobados 0
años, los que cursan grado tienen uno aprobado, etc. Obsérvese que la relación no es directa en el
caso de alumnos que están cursando el nivel medio superior, el instituto normal o de profesores. Podría
ocurrir que un estudiante del primer año del IPA tuviera más de 12 años de educación formal si, por
ejemplo, ha aprobado previamente cursos en alguna universidad.
Ejemplo 4: El universo es el conjunto de hogares particulares de Maldonado. La variable a
investigar es el ingreso mensual corriente del hogar. Como se trata de una variable que puede tomar
“muchos” valores, algunos poco relevantes, el investigador tiene aquí la posibilidad de definir las
clases con cierta libertad. Las siguientes son dos opciones posibles.
CASO 1: Intervalos iguales Caso 2: Intervalos desiguales
CLASE INTERVALO
CLASE INTERVALO CLASE INTERVALO
CLASE INTERVALO
1 0 – 10.000
2 10.000 – 20.000
3 20.000 – 30.000
4 30.000 – 40.000
5 40.000 – 50.000
6 50.000 – 60.000
7 60.000 – 70.000
8 70.000 – 80.000
1 0 – 2.000
2 2.000 – 5.000
3 5.000 – 10.000
4 10.000 – 15.000
5 15.000 – 20.000
6 20.000 – 30.000
7 30.000 – 50.000
8 50.000 y más
Si las clases se definen por cualidades o atributos, entonces las variables se denominan
cualitativas; si las clases están definidas por números o intervalos numéricos, entonces se denominan
cuantitativas.
Cuando cada clase está representada por un número, entonces la variable se dice cuantitativa
discreta, y cuando cada clase se identifica con un intervalo de números, entonces la variable se dice
cuantitativa continua.
Ejemplos:
Variables cualitativas Var. cuantitativas discretas Var. cuantitativas continuas
Color de ojos
Sexo
Estado civil
Estado de un paciente
Años de educación
Personas en el hogar
Edad en años cumplidos
Consultas médicas por mes
Personal ocupado
Edad cronológica
Estatura
Peso
Ingresos del hogar
Cociente intelectual
Las variables estadísticas suelen denominarse con las últimas letras de nuestro alfabeto, usando
mayúsculas: T, X, Y, Z.
Si definimos “X = número de hermanos del alumno”, y el tercer alumno del universo (o de la
muestra) tiene cuatro hermanos, anotaremos X(u3) = 4, o simplemente, X3 = 4.
Frecuencias de clase
Con el objeto de resumir la información de una muestra respecto de una variable, los individuos
que pertenecen a una misma clase se consideran idénticos. Y la primera forma de resumir los datos de
una muestra consiste en agruparlos por clase y contar cuántos individuos pertenecen a cada clase. En el
ejemplo de la variable “color de ojos”, para una muestra de n = 100 azafatas se obtuvo:
Clase
Frecuencia de
clase
Marrón
Marrón
Celeste
Verde
Gris
Negro
Otro color
78
8
7
4
2
1
Total n = 100
Entonces, la frecuencia absoluta de la clase “Marrón” es 78 y se anota n(M) = 78. La frecuencia
de la clase “Celeste” es n(C) = 8. La frecuencia absoluta es una función que a cada clase le hace
corresponder el número de casos (el número de repeticiones) en la muestra.
La tabla que relaciona las clases con sus frecuencias absolutas se denomina distribución de
frecuencias absolutas.
DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
CLASE FREC. DE CLASE
C1
C2
C3
---
Ck
n(C1)
n(C2)
n(C3)
---
n(Ck)
n
Ejemplo: Distribución de las notas de un curso de 200 alumnos.
Nota del curso (X) Alumnos = n(X)
3
4
5
6
7
8
9
10
11
12
5
10
26
50
41
30
21
11
4
2
Total 200
A partir de la frecuencia absoluta es posible definir una nueva función que relaciona, a cada
clase, con el cociente de la frecuencia absoluta sobre el tamaño de la muestra. Esta función se
denomina frecuencia relativa y la notación usual es:
h(Ci) =
n
Cn
i
)(
o h(Xi) =
n
Xn i)(
En los dos ejemplos anteriores:
Color de ojos
Ci
Frecuencia relativa
h(Ci)
Nota del curso
Xi
Frecuencia relativa
h(Xi)
Marrón
Marrón
Celeste
Verde
Gris
Negro
Otro color
0,78
0,08
0,07
0,04
0,02
0,01
3
4
5
6
7
8
9
10
11
12
0,025
0,050
0,130
0,250
0,205
0,150
0,105
0,055
0,020
0,010
Total 1,00 Total 1,000
Los resultados también pueden presentarse en porcentajes.
Nota del curso
Xi
Frecuencia relativa
(en porcentajes)
3
4
5
6
7
8
9
10
11
12
2,5
5,0
13,0
25,0
20,5
15,0
10,5
5,5
2,0
1,0
Total 100,0
La cantidad de dígitos después de la coma decimal indica la aproximación con que se trabaja al
resumir los datos.
2.2. MÉTODOS GRÁFICOS
Los gráficos son otra forma de resumir información estadística, y tienen la ventaja sobre las
tablas de permitir al lector captar más rápidamente la forma de la distribución de frecuencias.
Los gráficos recomendados (sin perjuicio de las variantes que presentan los asistentes para
gráficas de las planillas electrónicas) son:
VARIABLE
CUALITATIVA
VARIABLE
CUANTITATIVA
DISCRETA
VARIABLE
CUANTITATIVA
CONTINUA
Diagrama de barras
Diagrama de torta o de pastel
Diagrama de bastones Histograma
En el caso de variables cualitativas y cuantitativas discretas, lo que se acostumbra representar
gráficamente es la función de frecuencias relativas (aunque en algunos textos se grafica la función de
frecuencias absolutas).
BARRAS VERTICALES BARRAS HORIZONTALES
M
C
V
G
N
O
M C V G N O
DIAGRAMA DE PASTEL
DIAGRAMA DE PASTEL
COLOR DE OJOS
M
C
V
G
N
O
DIAGRAMA DE BASTONES
h(Xi)
3 4 5 6 7 8 9 10 11 12 Xi
En el caso de variable cuantitativa continua, el gráfico se denomina histograma y se representa
en un par de ejes cartesianos ortogonales. En el gráfico, a cada clase se le hace corresponder un
rectángulo (que se dibuja por encima del eje horizontal) que tiene como base el intervalo que representa
la clase, y como área la correspondiente frecuencia relativa de la clase. Entonces, la altura del
rectángulo se obtiene de la siguiente manera:
Área del rectángulo = Base x Altura
Área del rectángulo = Frecuencia relativa del intervalo (Xi-1, Xi) = h(Xi-1- Xi)
Base = Amplitud del intervalo = Xi – Xi-1
Entonces:
Altura =
1
1
)(
ii
ii
XX
XXh
Ejemplo: La tabla siguiente corresponde a las estaturas de una muestra de alumnos del
primer grado liceal.
Estatura
Frecuencia
relativa
1,35 – 1,40
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
1,60 – 1,70
0,05
0,20
0,30
0,25
0,15
0,05
Se trata de representar los datos de la tabla en un histograma.
Estatura
Frecuencia
relativa
Amplitud
del intervalo Altura
1,35 – 1,40 0,05 0,05 1
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
1,60 – 1,70
0,20
0,30
0,25
0,15
0,05
0,05
0,05
0,05
0,05
0,10
4
6
5
3
0,5
Alturas Histograma
1,35 1,40 1,45 1,50 1,55 1,60 1,70
Observaciones
1. Hay que decidir de antemano en qué clase se clasifican los individuos cuyo valor está en el borde de
dos intervalos. Por ejemplo, puede decidirse que se clasifican en el primero de los dos intervalos. Así,
todos los niños que miden 1,40 se clasifican en la clase (1,35 – 1,40). En este caso, los intervalos se
toman cerrados por derecha y abiertos por izquierda. En notación matemática (1,35; 1,40], (1,40; 1,45],
etc.
2. Si todos los intervalos son de igual amplitud, entonces las alturas son todas proporcionales a las
frecuencias relativas. Este no es el caso del ejemplo precedente, donde los intervalos son desiguales.
3. Muchas veces la cantidad de intervalos a considerar en la representación gráfica depende de la
decisión del investigador. Por ejemplo, si en los dos primeros intervalos hubieran caído muy pocos
casos, entonces podría tomarse la decisión de “colapsar” ambos intervalos y presentar los resultados en
un único intervalo (1,35;1,45]. Obviamente el gráfico se presentaría un poco diferente, pero si la “cola
izquierda” de la distribución presenta pocos casos, no se perdería mucha información. En general los
textos recomiendan que el número de intervalos en el gráfico sea un número entre 4 y 8 o entre 5 y 10,
aunque esto no es preceptivo.
2.3. MEDIDAS DESCRIPTIVAS (corte transversal)
Esta sección da respuesta a la pregunta ¿cómo pueden resumirse los datos de una muestra a
través de unos pocos indicadores? Aceptemos que el resumen siempre implica una cierta pérdida de
información. Presentaremos los indicadores apropiados para que la pérdida ocasionada por el resumen
sea mínima.
a) Variables cualitativas
Definiremos para todas las variables cualitativas sólo tres indicadores:
- la cantidad de clases
- la clase más frecuente (el MODO de la distribución)
- la frecuencia relativa de la clase más frecuente (la frecuencia modal)
En el ejemplo de la variable “color de ojos” se tiene:
- Cantidad de clases: 6
- Modo: marrón
- Frecuencia modal: 78%
En el caso de algunas variables cualitativas, donde es posible establecer un “orden” o “jerarquía” entre las
clases, se pueden definir otras medidas de resumen. Ejemplo: se consulta a los padres de los alumnos sobre la
posibilidad que los alumnos con más dificultades de aprendizaje o con problemas de comportamiento reciban
una hora más de clase diaria a cargo de un equipo de especialistas, por el plazo de un mes. Los resultados de la
consulta se presentan en el cuadro siguiente:
Clase Frecuencia Relativa
Muy de acuerdo
Algo de acuerdo
No tiene opinión
Algo en desacuerdo
Muy en desacuerdo
0,21
0,32
0,25
0,15
0,07
TOTAL 1,00
Las clases están ordenadas partiendo del mayor grado de acuerdo con la propuesta
pedagógica hasta el mayor grado de desacuerdo. Parece claro que podrían redefinirse sólo 3
clases:
- los que acuerdan: 53%
- los que no opinan: 25%
- los que no acuerdan: 22%
Si se asume como neutral la clase central, entonces es posible definir el indicador saldo neto como diferencia
entre las frecuencias de los que están a favor y en contra de la propuesta. En este caso el saldo neto es +31%,
positivo pero no muy alto.
Para mostrar las limitaciones que presenta este indicador alcanza con el siguiente ejemplo con
resultados bien diferentes, y sin embargo, con el mismo saldo neto.
Clase Frecuencia relativa
Frecuencia relativa
Muestra 1 Muestra 2
Muy de acuerdo
Algo de acuerdo
No tiene opinión
Algo en desacuerdo
Muy en desacuerdo
0,00
0,10
0,50
0,30
0,10
0,20
0,00
0,30
0,10
0,40
SALDO NETO - 30% - 30%
b) Variables cuantitativas discretas
Definiremos tres tipos de indicadores:
- de posición o de tendencia central
- de dispersión
- de asimetría
Medidas de posición o de tendencia central
i) Promedio
Consiste en sumar todos los valores de la muestra y dividir entre el tamaño de la muestra.
Ejemplo: 20 pacientes internados tienen las siguientes cantidades de días de internación:
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Días de
internación 4 7 5 3 4 4 5 6 8 5 4 3 4 5 6 4 6 6 5 3
Entonces el promedio es:
85,4
20
97
20
35664654345865443574
==
+++++++++++++++++++
=
X
En notación matemática, si Xi representa el número de materias aprobadas por el alumno i,
entonces:
n
X
X
n
i
i
=
=
1
El numerador proporciona el total de materias aprobadas por todos los alumnos de la muestra, y
el denominador es el tamaño de la muestra.
¿Cómo sería la fórmula del promedio si los mismos datos estuvieran agrupados en una tabla?
Días de
internación (Xi)
Pacientes
n(Xi) Xi * n(Xi)
3
4
5
6
7
8
3
6
5
4
1
1
9
24
25
24
7
8
Total 20 97
Si se calcula la suma Σ [ Xi * n(Xi) ] a través de todas las clases, entonces se obtiene otra vez el
total de materias aprobadas por todos los alumnos de la muestra. Entonces, cuando los datos
están agrupados, la fórmula del promedio es:
n
XnX
X
ii
=
)(*
Donde la sumatoria se extiende ahora a todas las clases. El símbolo * se utiliza para indicar la
operación producto (es la notación usual en las planillas electrónicas).
Pero recordando que
)(
)(
i
i
Xh
n
Xn
=
y en virtud de las propiedades de linealidad de la suma,
resulta:
=
==
)(*
)(
*
)(*
ii
i
i
ii
XhX
n
Xn
X
n
XnX
X
=
)(*
ii
XhXX
que suele denominarse “promedio ponderado”, donde las ponderaciones o pesos son las frecuencias
relativas de cada valor observado (de cada clase) en la muestra. Esta fórmula muestra que el indicador
promedio depende de los valores observados y de las frecuencias relativas de esos valores.
Observaciones
1. El promedio no tiene por qué coincidir con alguno de los valores observados en la muestra. De
hecho, ninguno de los pacientes estuvo internado 4,85 días.
2. Si la distribución de la variable no es muy dispersa (porque se concentra en unos pocos
valores) entonces el promedio es un buen indicador de la “posición” de la distribución.
Efectivamente, en el ejemplo anterior la variable está distribuida en el intervalo [3,8], pero la
mayor parte está concentrada en valores bien cercanos al promedio. En este ejemplo, el promedio
resulta un buen indicador de la “posición” o del “centro” de la distribución. Un contraejemplo se
presenta a continuación:
Edades Personas Edades * Personas
1
2
3
76
5
3
1
1
5
6
3
76
Total 10 90
El promedio del ejemplo es 9 años. ¿Indica este promedio el centro de la distribución? Obsérvese
que alrededor del promedio, en este caso, no hay valores de la muestra. Y esto es así porque la
distribución es muy dispersa. En estos casos el promedio no es un buen indicador de la posición o
centro de la distribución.
3. El promedio, en todos los casos, es un número comprendido entre el mínimo y el máximo de
los valores observados en la muestra. Si la variable sólo toma valores positivos (como ocurre con
casi todas las variables educativas), entonces su promedio no puede ser nulo o negativo.
4. El promedio, como medida de tendencia central, tiene el defecto de estar muy influido por los
valores extremos de la distribución. Obsérvese en los siguientes casos cómo se modifica el
promedio al variar el extremo superior de la distribución.
CASO 1 CASO 2
X
X
5. Por la forma como está definido, el promedio de una variable es único.
6. El promedio también se conoce con el nombre de media, media aritmética o media
aritmética ponderada.
ii) Modo o moda
El modo es un valor de la muestra que presenta la mayor frecuencia. Esta definición no asegura
la unicidad del modo. Los siguientes ejemplos ilustran algunas de las situaciones posibles.
CASO 1 CASO 2 CASO 3
1 2 3 4 5 6 1 2 3 4 5 1 2 3 4 5 6
Distribución Distribución Distribución
Unimodal Bimodal Uniforme
El modo es 2 Los modos son 2 y 3
El CASO 3 corresponde a una distribución donde todos los valores observados en la muestra
tienen la misma frecuencia. Se conviene en decir que esta distribución no tiene modo.
¿Cómo se reconoce el modo (los modos) en una tabla estadística? Observando el valor (los
valores) de la variable que tiene(n) la mayor frecuencia relativa. ¿Cómo se reconoce el modo (los
modos) en el diagrama de bastones? Observando el valor (los valores) de la variable que
presenta(n) el bastón más alto. La notación habitual para el modo es: XMo.
iii) Mediana
Los valores de la variable observados en la muestra se ordenan de menor a mayor. Si la
muestra es de tamaño impar, entonces hay un único elemento central en la muestra ordenada.
Si la muestra es de tamaño par, entonces hay dos elementos centrales.
La mediana es el valor de la variable que corresponde al único elemento central de la muestra
(luego de ordenar los valores de menor a mayor) si la muestra es de tamaño impar, o el
promedio de los valores centrales si la muestra es de tamaño par.
Ejemplo 1: Muestra 4 11 23 25 26 40 56 57 63. La muestra consta de 9
elementos, el 5º es el valor central. La mediana es 26.
Ejemplo 2: Muestra 4 11 23 25 26 40 56 57 63 65. La muestra consta de 10
elementos, ely el son los valores centrales. La mediana es el promedio de dichos valores:
.33
2
4026
=
+
Ejemplo 3: 8 – 8 – 8 – 9 – 9 – 10 – 1212 – 12 – 15 – 15 – 16 – 17 – 20.
La muestra consta de 14 observaciones. Los elementos centrales son el y el 8º. La mediana
es:
.12
2
1212
=
+
¿Qué es lo que indica la mediana? El valor de la mediana divide las observaciones de la
muestra en dos mitades aproximadamente: los valores más pequeños que la mediana a la
izquierda y los más grandes a la derecha. En el Ejemplo 1 casi la mitad de la muestra toma
valores menores que 26, y casi la mitad toma valores mayores que 26. En el Ejemplo 2 la
mediana divide la muestra exactamente en dos mitades: las observaciones menores que 33 y las
observaciones mayores que 33. En el Ejemplo 3 otra vez se tienen mitades aproximadas.
¿Cómo se calcula la mediana en el caso de datos agrupados (ya resumidos en una tabla)?
Obsérvese que en muchos casos no se sabe si la muestra es de tamaño par o impar, una vez
construida la tabla de frecuencias relativas. Los siguientes casos ilustran el procedimiento de
cálculo.
CASO 1 CASO 2
Xih(Xi) Acum h(Xi) Xih(Xi) Acum h(Xi)
1
2
3
4
5
0,23
0,24
0,21
0,17
0,15
0,23
0,47
0,68
0,85
1,00
1
2
3
4
5
0,30
0,20
0,25
0,20
0,05
0,30
0,50
0,75
0,95
1,00
Total 1 Total 1
En el CASO 1 la mediana es 3, pues independientemente de la paridad del tamaño de la
muestra, el o los valores centrales coinciden con el 3. Esto puede observarse en la columna que
acumula (Acum) frecuencias relativas: hasta el valor 2 de la variable se acumula menos del
50% de las observaciones y hasta el valor 3 se acumula más del 50%.
En el CASO 2 ocurre que hasta el valor 2 se acumula exactamente la mitad de las
observaciones, y a partir del valor 3 (hasta el final) se acumula el otro 50%. Entonces se asume
que los dos valores centrales son 2 y 3 y la mediana es el promedio de ambos: 2,5.
Notación para la mediana: XMediana = X0,5.
De acuerdo con la definición adoptada, la mediana de la muestra (y también la mediana de la
población) es un valor único y representa en general mejor que el promedio la posición o
centralidad de la distribución.
La definición de Mediana que aquí se ha expuesto no es la misma que se presenta en los textos
clásicos de Estadística, pero coincide con la definición adoptada en el módulo de Funciones
Estadísticas de las planillas electrónicas.
Si se quieren calcular los indicadores de tendencia central utilizando por ejemplo la planilla
excel, se requiere ingresar los datos sin agrupar en una fila o en una columna y luego de
posicionar el cursor fuera del rango de datos, seguir el camino siguiente:
Funciones (fx) Funciones Funciones
Funciones Estadísticas Funciones Estadísticas Funciones Estadísticas
PROMEDIO MODA MEDIANA
La mediana puede visualizarse en el gráfico que corresponde a la función de distribución
empírica acumulada, F*(x), la que se define de la siguiente manera:
=
xX i
i
XhxF )()(*
Esta función se define para todo número x sobre la recta (x no necesariamente es un valor del
recorrido de la variable X), y lo que hace es acumular, de izquierda a derecha, las frecuencias
relativas de todos los Xi menores que x.. El siguiente es el gráfico de la función F*(x) y en el
mismo se muestra el papel de la mediana.
F*(x)
0,5
X1 X2 X0,5 x
Medidas de posición no central (cuartiles y cuantiles)
Si se considera ahora por separado cada mitad de la distribución determinada por la mediana, y
en ambas se calcula la mediana de cada mitad, entonces se obtienen dos nuevos indicadores primer
cuartil y tercer cuartil – que conjuntamente con la mediana dividen a la distribución original en 4 partes
aproximadamente del mismo tamaño (25% cada una).
Notación: Primer cuartil Q1 = X0,,25
Segundo cuartil o mediana Q2 = X0,50
Tercer cuartil Q3 = X0,75
Q1 Q2 Q3 X
25% 25% 25% 25%
Los cuartiles (y más en general los cuantiles) se utilizan principalmente para realizar una
clasificación de la muestra (o de la población) en clases a partir de una variable (por ejemplo, por el
ingreso per cápita) y luego analizar el comportamiento de otra variable (por ejemplo, número de
menores en el hogar).
Se denominan cuantiles a los valores de la variable que dividen la distribución en proporciones
similares de frecuencia relativa, luego de ordenar la muestra (o la población) en forma creciente por los
valores de la variable. Así, los quintiles son cuatro valores de la variable (X0,20, X0,40, X0,60, X0,80) que
dividen la distribución en cinco clases, de tal forma que en los intervalos (XMin, X0,20), (X0,20, X0,40),
(X0,40, X0,60), (X0,60, X0,80) y (X0,80, XMax) se encuentra aproximadamente el 20% de la distribución. Los
deciles son nueve (X0,1, X0,20, X0,30, X0,40, X0,50, X0,60, X0,70, X0,80, X0,90) y entre dos consecutivos de ellos
se encuentra aproximadamente el 10% de la distribución. Los centiles o percentiles dividen la
distribución en 100 clases (X0,01, X0,02, etc.).
Algunos resultados conocidos para Uruguay:
- Si se ordena a los hogares por el ingreso per cápita, en el seno del primer cuartil (el 25% más pobre)
se produce casi el 50% de los nacimientos en cada año.
- Si se ordena a los hogares por el ingreso per cápita, el consumo de tabaco no es muy diferente en los
grupos deciles (es apenas un poco más alto en los deciles superiores, a pesar que el ingreso es mucho
más alto).
- Cuando se compara el ingreso que detentan los hogares del grupo decil más alto con el grupo decil
más bajo, se encuentra que en Uruguay los primeros tienen, en promedio, un ingreso del hogar 20 veces
más alto que los segundos. Este indicador, denominado Relación del 10% más rico al 10% más pobre,
en la década de los 80’ tomaba el valor 13 en Suecia y 80 en Brasil (fuente: Anuario Estadístico de la
Organización Internacional del Trabajo).
Medidas de dispersión
A continuación se presentan los indicadores más frecuentes para medir la dispersión de una
variable estadística.
Rango o Amplitud = Valor máximo de la muestra – Valor mínimo de la muestra.
Rango intercuartílico = Q3 – Q1
Varianza: V(X) =
)(.)(
2
ii
XhXX
para datos agrupados
V(X) =
n
XX
n
i
i
=
1
2
)(
para datos sin agrupar
Desviación estándar = S(X) =
)(XV
Coeficiente de variación Cv(X) =
X
XS )(
Todos estos indicadores intentan dar cuenta de la dispersión que en una muestra (en una población)
presenta la variable X. Las más sencillas de calcular tienen ciertas limitaciones, por lo que en general
se prefiere el cálculo de la varianza y de los indicadores derivados de la varianza (desviación estándar y
coeficiente de variación).
El rango o amplitud mide la diferencia entre los valores máximo (M) y mínimo (m) observados en
la muestra. Cuanto más grande la amplitud, mayor la dispersión. Tiene como limitación principal el
hecho de no tomar en cuenta el peso de los diferentes valores observados.
CASO 1 CASO 2
m M m M
De acuerdo con el rango, la distribución del CASO 2 es bastante más dispersa que la distribución
del CASO 1, cuando en realidad, sólo tienen diferente una única observación.
El rango intercuartílico muestra la amplitud del intervalo que contiene el 50 % de la distribución
ubicada en el centro de la misma. Cuanto más grande, mayor la dispersión de la muestra, pues se
requiere un intervalo más amplio para abarcar al 50% central de la distribución. El rango
intercuartílico, como la amplitud, se mide en la misma unidad de medida de la variable, lo que dificulta
la comparación entre dos variables que se miden en unidades diferentes.
La varianza mide la dispersión respecto del promedio. Cada valor de la muestra se compara con el
promedio, se hace la resta y la diferencia se eleva al cuadrado. Luego se promedian todas estas
diferencias cuadráticas. Se eleva al cuadrado para evitar que las diferencias en más y en menos se
compensen. Al elevar al cuadrado, la varianza no puede ser negativa, y es tanto más grande cuanto
mayores son las diferencias cuadráticas. La varianza no puede ser negativa porque resulta de promediar
cuadrados perfectos. ¿En qué caso la varianza podría dar cero? Cuando la distribución está totalmente
concentrada en un único punto, entonces
XX
i
=
para todo i, y la suma da cero. Entonces, una varianza
nula indica ausencia de dispersión. Por el contrario, a mayor varianza, mayor la dispersión alrededor
del promedio. El principal inconveniente de la varianza, como indicador de dispersión, es su difícil
interpretación, por cuanto se mide en unidades de la variable al cuadrado. Si la variable mide materias
aprobadas, entonces la varianza se mide en materias aprobadas al cuadrado.
Para levantar esta limitación, se define la desviación estándar o desviación típica, como la raíz
cuadrada de la varianza. La desviación estándar tiene una interpretación interesante. En distribuciones
unimodales y aproximadamente simétricas (ver más adelante), tales como la distribución Normal, se
cumplen las siguientes relaciones empíricas:
Frecuencia acumulada de la muestra alrededor del promedio
Entre
X
- S y
X
+ S 68%
Entre
X
- 2.S y
X
+ 2.S 95%
Entre
X
- 3.S y
X
+ 3.S 99%
Finalmente, a los efectos de comparar la dispersión de dos distribuciones con posiciones bien
diferentes (medias bien diferentes, como pueden ser los años de educación formal de los alumnos de un
curso y los días de estadía de los pacientes en un hospital) pero a condición que las variables solo
tomen valores positivos, el indicador de dispersión recomendado es el Coeficiente de Variación:
Cv(X) =
X
XS )(
que expresa la dispersión con relación a la media en términos de la propia media. Aunque no hay un
límite superior para el coeficiente de variación, es raro encontrar distribuciones cuyo Cv supere 1,2 (es
el caso de las distribuciones del ingreso personal) mientras que valores cercanos a cero –tales como
0,05, 0,10 ó 0,15– indican que se trata de distribuciones muy poco dispersas, distribuciones muy
concentradas alrededor de la media. Ejemplo: Se tiene una muestra de 200 pacientes internados en un
sanatorio. Los pacientes responden por dos variables: X = Número de días de internación, Y = Número
de veces que habían sido hospitalizados con anterioridad.
X h(X) Y h(Y)
2
3
4
5
6
0,10
0,20
0,40
0,20
0,10
0
1
2
3
4
10
0,30
0,40
0,20
0,05
0,04
0,01
1,00 1,00
¿Cuál de las dos distribuciones es más dispersa? En el siguiente cuadro se calculan con detalle
todos los indicadores relevantes para la variable X y se presentan los resultados de la variable Y.
CONCEPTO CÁLCULOS INTERMEDIOS PARA X X Y
Promedio 2x0,1 + 3x0,2 + 3x0,4 + 5x0,2 + 6x0,1 = 4 4 1,21
X0,25 Se acumula el 25% de la distribución en el
valor 3
3 0
X0,75 Se acumula el 75% de la distribución en el
valor 5
5 2
XMin Resulta directo de observar la tabla 2 0
XMax Resulta directo de observar la tabla 6 10
Varianza (2-4)2x0,1+(3-4)2x0,2+.......+(6-4)2x0,1 = 1,2 1,2 1,8259
S(X)
20,1
1,10 1,35
Cv(X) 1,10/4 0,27 1,12
Rango 6 – 2 = 4 4 10
Rango iQ 5 – 3 = 2 2 2
Todos los indicadores de dispersión –excepto el rango intercuartílico– son más grandes en el caso
de la variable Y que en el caso de la variable X. Pero el único que tiene sentido comparar es el
coeficiente de variación, que en el caso de X representa una dispersión moderada, mientras que en caso
de Y una dispersión muy alta. Para visualizar la mayor dispersión de Y alcanza con observar los
respectivos diagramas de bastones.
h(X) h(Y)
.
2 3 4 5 6 X 0 1 2 3 4 10 Y
Medidas de asimetría
Podemos definir una distribución como simétrica cuando las dos mitades en que la divide la
mediana se pueden superponer rotando la primera 180º usando como eje de simetría el valor de la
mediana.
Distribución simétrica Distribuciones asimétricas
Con cola a la derecha Con cola a la izquierda
X0,5 X0,5 X0,5
Observaciones
1. Si la distribución es simétrica y concentrada en los valores centrales, entonces el promedio, la
mediana y el modo coinciden.
2. Cuando la distribución es asimétrica positiva o con cola a la derecha, el modo se ubica a la
izquierda de la mediana y el promedio a su derecha.
3. Cuando la distribución es asimétrica negativa o con cola a la izquierda, el modo se ubica a la
derecha de la mediana y el promedio a su izquierda.
Se deduce de las observaciones anteriores que un indicador apropiado para medir asimetría debería
tomar en cuenta las eventuales diferencias entre las medidas de posición. Así se define:
Coeficiente de Asimetría de Pearson =
)(
).(3
5,0
XS
XX
Obsérvese que el coeficiente es tanto mayor y positivo (negativo) cuanto mayor la diferencia
positiva (negativa) entre el promedio y la mediana. La estandarización que resulta de dividir entre S(X)
permite comparar la asimetría de diferentes distribuciones.
En el ejemplo de la muestra de 200 pacientes internados en un sanatorio, donde X = Número de
días de internación, Y = Número de veces que habían sido hospitalizados con anterioridad, ¿qué ocurre
con la asimetría de las dos distribuciones?
CONCEPTO X Y
Promedio 4 1,21
Mediana 4 1
Desvío estándar 1,10 1,35
Coeficiente de simetría 0 +0,48
La distribución de X es simétrica, mientras que la de Y presenta asimetría positiva.
c) Variables cuantitativas continuas
En este caso se pueden obtener los mismos indicadores que en el caso de las variables continuas
discretas. Se obtienen buenas aproximaciones de los indicadores utilizando las mismas fórmulas, con la
siguiente convención: se procede a elegir un número en representación de la clase en lugar del
intervalo. Dicho número suele ser el punto medio del intervalo. Con esta convención se pueden calcular
todos los indicadores definidos para variables cuantitativas discretas, con excepción del modo y la
mediana.
En lugar del modo se define el intervalo modal, como aquél en que la altura del histograma es
máxima. Obviamente, como en los casos ya vistos, puede haber más de un intervalo modal, aunque ello
no es muy usual. En el caso de distribuciones con intervalos de igual amplitud, el intervalo coincide
con el de mayor frecuencia relativa. En el caso de distribuciones de variables continuas con intervalos
desiguales, la afirmación anterior no es cierta en general.
En cuanto a la mediana, en el caso de variables cuantitativas continuas, la misma se obtiene de
manera que la distribución quede dividida exactamente en dos partes iguales: el área acumulada por
debajo del histograma hasta la mediana debe ser exactamente igual a 0,5.
Área = 0,5
X0,5
El siguiente ejemplo muestra el procedimiento que debe seguirse para el cálculo de la mediana en
estos casos.
X
Xh(X) Acum h(X) Altura
0 – 10 0,20 0,20 0,02
0 10 20 30 50 100
X0,5
10 – 20 0,40 0,60 0,04
20 – 30 0,20 0,80 0,02
30 – 50 0,15 0,95 0,075
50 –100 0,05 1,00 0,001
Como muestran la tabla y el gráfico, la mediana se encuentra en el segundo intervalo. Como el
primer intervalo tiene frecuencia relativa 0,20, para alcanzar e 50% la parte rayada en rojo debe tener
área 0,30. Pero el rectángulo rayado tiene por área la amplitud de la base (X0,5 – 10) por la altura (0,04).
Entonces:
(X0,5 – 10) x 0,04 = 0,30
X0,5 =
5,1710
04,0
30,0
=+
¿Cómo se grafica la función de distribución empírica acumulada en el caso de las variables
cuantitativas continuas? Una vez agrupados los datos en intervalos, el supuesto de trabajo es que
dentro de cada intervalo la distribución es uniforme, tal como se representa en el histograma. Entonces,
al acumular frecuencia relativa dentro del intervalo, la función de distribución acumulada crece
linealmente, lo cual puede representarse mediante un segmento de recta en cada intervalo. El gráfico
resultante es una poligonal, tal como se muestra en el ejemplo utilizado para presentar el histograma.
Estatura
Frecuencia
relativa
Frecuencia
acumulada
1,35 – 1,40
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
1,60 – 1,70
0,05
0,20
0,30
0,25
0,15
0,05
0,00
0,05
0,25
0,55
0,80
0,95
1,00
F*(x)
1,00
0,95
0,80
0,55
0,25
0,05
1,35 1,40 1,45 1,50 1,55 1,60 1,70 x
2.4. MEDIDAS DESCRIPTIVAS (corte longitudinal)
Las unidades del universo son ahora períodos de tiempo o momentos del tiempo, a intervalos
regulares. Aquí ya no interesa definir clases y cuantificarlas, sino que el análisis de las series
temporales se realiza con el objeto de conocer la evolución temporal de la variable. El conjunto de
datos de corte longitudinal también se denomina serie temporal o serie cronológica. Los indicadores
más elementales de las series temporales son:
- la transformación en serie de números índices
- la transformación en serie de variaciones periódicas
- la variación total y la variación periódica promedio.
Un análisis más interesante de las series cronológicas consiste en descubrir sus elementos
componentes: tendencia, estacionalidad y ciclo; y con estos elementos proyectar la serie para realizar
predicciones. Estos elementos serán abordados más adelante.
En esta sección vamos a centrarnos en el cálculo de los indicadores elementales.
Sea la serie original X1, X2, X3, .....,Xt, .....,Xn, donde el subíndice indica el período o momento al
cual corresponde el valor de la variable X. Ejemplos:
Matrícula escolar
(serie anual)
AÑO ALUMNOS
1997 348.516
1998 358.412
1999 361.118
2000 373.415
2001 375.101
2002 389.403
Cotización del dólar interbancario comprador
Serie diaria del mes de marzo
DÍA COTIZACIÓN
10 28,58
11 28,57
12 28,57
13 28,62
14 28,63
15 28,63
16 28,63
17 28,68
18 28,73
19 28,68
20 28,63
21 28,68
La representación gráfica de las series temporales puede realizarse mediante:
- gráfico de puntos
- gráfico de bastones
- gráfico poligonal.
Utilizando los ejemplos anteriores, a continuación se muestra la forma que adoptan los gráficos
propuestos. En el primero de ellos se presenta la matrícula escolar mediante un diagrama de puntos. En
el segundo se utiliza un gráfico poligonal para mostrar la evolución de la cotización del dólar. En el
tercero se vuelve sobre la matrícula escolar con un gráfico de bastones.
MATRÍCULA ESCOLAR
340.000
350.000
360.000
370.000
380.000
390.000
400.000
1997 1998 1999 2000 2001 2002
ALUMNOS
COTIZACIÓN
28,56
28,58
28,6
28,62
28,64
28,66
28,68
28,7
28,72
28,74
10 11 12 13 14 15 16 17 18 19 20 21
Matrícula escolar
97 98 99 00 01 02 Año
Cuando las cifras son muy grandes o con decimales, es difícil visualizar la entidad de los cambios
que se producen período a período. Para aprehender más fácilmente los cambios en la serie original, se
define una nueva serie, trasformada de la primera, llamada serie de números índices. Se requiere sólo
la selección previa de un período (o momento) de la serie original, que funcionará como un período de
referencia o base de la nueva serie. Se trata de una transformación elemental (lineal) que también
puede verse como una simple regla de tres. Si se elige el primer período como base de la serie de
números índices, se tiene:
Serie de números índices
100
1
x
X
X
I
t
t
=
La serie transformada presenta la forma siguiente:
100.;;.........100;;.........100;100;100
111
3
3
1
2
2
1
1
1
x
X
X
Ix
X
X
Ix
X
X
Ix
X
X
Ix
X
X
I
n
n
t
t
=====
Como regla de tres, It es la cuarta proporcional de X1, 100 y Xt. En el ejemplo de la matrícula
escolar, si se elige 1997 como período base, entonces se obtiene la serie de números índices que se
presenta en el cuadro siguiente.
AÑO ALUMNOS PLANTEO ÍNDICES
1997 348.516 (348.516/348516)*100 100,00
1998 358.412 (358.412/348516)*100 102,84
1999 361.118 (361.118/348516)*100 103,62
2000 373.415 (373.415/348516)*100 107,14
2001 375.101 (375.101/348516)*100 107,63
2002 389.403 (389.403/348516)*100 111,73
¿Cómo se interpreta la serie de números índices? Refleja los cambios ocurridos en cada período,
respecto del período base, en términos porcentuales. Así, entre 1997 y 1998 la matrícula escolar se
incrementó 2,84%; entre 1997 y 1999 se incrementó 3,62%; entre 1997 y el año 2000 la matrícula
escolar se incrementó un 7,14%; etc. Obsérvese que la serie de números índices refleja la variación
acumulada entre el período base y el período elegido para comparar. Pero los números índices no
muestran las variaciones entre períodos consecutivos. Para obtener esta información se utiliza la
fórmula:
Variación entre
períodos
consecutivos
100
1
1
x
I
II
t
tt
Obsérvese que utilizando la fórmula anterior es posible derivar una nueva serie, a partir de la serie
de números índices, llamada serie de variaciones periódicas. Esta nueva serie contiene un elemento
menos que la original. En el ejemplo de la matrícula escolar:
AÑO SERIE
ORIGINAL
SERIE DE
ÍNDICES
PLANTEO SERIE DE
VARIACIONES
1997 348.516 100,00 ----- -----
1998 358.412 102,84 [(102,84-100)/100]x100 +2,84%
1999 361.118 103,62 [(103,62-102,84)/102,84]x100 +0,80%
2000 373.415 107,14 [(107,14-103,62)/103,62]x100 +3,40%
2001 375.101 107,63 [(107,63-107,14)/ 107,14]x100 +0,46%
2002 389.403 111,73 [(111,73-107,63)/ 107,63]x100 +3,80%
Si se requiere obtener la variación operada en la serie entre dos períodos cualesquiera, k y t
(supuesto que k < t), la fórmula apropiada es:
Variación de la serie
entre los períodos k y t
100x
I
II
k
kt
Si k = t – 1, se trata del caso particular de la variación entre períodos consecutivos. Si k = 1 y t =
n, entonces la fórmula corresponde a la variación total de la serie. En el ejemplo de la matrícula escolar,
la variación operada desde el comienzo al final de la serie es:
[(111,73-100)/ 100]x100 = 11,73%
Obsérvese que la variación total no coincide con la suma de las variaciones entre períodos
consecutivos (2,84+0,80+3,40+0,46+3,80 = 11,30% 11,73%). Esto es así porque la simple suma es
equivalente de aplicar variaciones sobre el valor base, cuando lo que interesa es aplicar la variación de
cada año sobre el dato del año anterior. Entonces, la variación total puede obtenerse también mediante
la expresión:
(1+0,0284).(1+0,0080).(1+0,0340).(1+0,0046).(1+0,0380) – 1 0,1173 = 11,73%
El último concepto a introducir en esta sección es el de variación periódica promedio, la cual no se
obtiene como promedio aritmético de las variaciones entre períodos consecutivos (aunque se trata
muchas veces de una buena aproximación) porque las variaciones periódicas no se aplican sobre el
índice base sino sobre el índice del período anterior. El siguiente razonamiento justifica el uso del
promedio geométrico para el cálculo de la variación periódica promedio.
Sea P0 la población inicial. Si la misma crece a una tasa constante r, entonces la población al final
de un período de tiempo es P1 = P0.(1+r). Si continúa creciendo a la misma tasa r, entonces al final del
segundo período se tendrá P2 = P1.(1+r). Sustituyendo P1 por su expresión anterior resulta: P2 = [P0.
(1+r)].(1+r) = P0.(1+r)2. Parece natural la siguiente fórmula para la población al final de n períodos con
tasa r de crecimiento constante:
Pn = P0.(1+r)n
Si se quiere conocer r a partir de los datos P0, Pn y n, despejando en la fórmula anterior se
obtiene:
r =
nn
P
P
0
- 1
Si las variaciones periódicas no son constantes (tal como ocurre, por ejemplo, en el caso de la
matrícula escolar), se tendría:
Pn = P0.(1+r1).(1+r2).(1+r3).........(1+rn)
donde r1, r2, r3,....., rn son las variaciones entre períodos consecutivos.
La variación promedio r debería ser tal que aplicada n veces a la población inicial (P0)
reprodujera la población final (Pn). Entonces:
Pn = P0.(1 + r)n
y despejando r:
Variación
periódica
promedio
r = (
nn
P
P
0
- 1) x 100
Observaciones
1.- P0 es el primer dato de la serie original y Pn corresponde al último dato. Entonces la serie original
contiene (n+1) datos.
2.- El factor 100 no es imprescindible, se utiliza para expresar la tasa en porcentajes.
3.- En la fórmula puede sustituirse el cociente Pn / P0 por el cociente de los respectivos números
índices In / I0, en virtud de la proporcionalidad entre ambas series.
En el ejemplo de la matrícula escolar se tiene: P0 = 348.516, Pn = 389.403 y la serie tiene n+1 = 6
datos. Entonces, la variación anual promedio de la matrícula escolar es:
%24,21001
100
73,111
1001
516.348
403.389
55
=
=
=
xxr
¿Cómo se interpreta este 2,24%? Es la tasa de crecimiento promedio de la matrícula escolar entre
1997 y 2002. Obsérvese que 348.516 x (1 + 0,0224)5 = 389.338 389.403. Si se quiere mejor
aproximación entonces hay que calcular la tasa de variación con más decimales: 348.516 x (1 +
0,022434)5 = 389.403.
La tasa de variación promedio puede tener signo positivo (como en el ejemplo precedente) o
negativo. El siguiente ejemplo, de la variable Camas ocupadas por día en promedio por mes en un
hospital” muestra un caso de variación promedio negativa.
MES
CAMAS
OCUPADAS
Junio 32
Julio 30
Agosto 32
Septiembre 30
Octubre 29
Noviembre 28
Diciembre 26
Enero 25
Febrero 24
La variación promedio mensual del número de camas entre junio y febrero es:
r =
%53,31001
32
24
8
=
x
Una primera forma de resumen de la serie temporal, consiste en transformarla en una serie de
Números índices. Hemos visto que también puede obtenerse otra serie derivada: la serie de variaciones
periódicas.
Aunque las series temporales pueden referirse a cualquier tipo de variables, los desarrollos más
interesantes resultan de considerar series de precios, de cantidades o de valor. Ejemplos:
Series de precios Series de cantidades Series de valor
Precio del kg. de harina Matrícula escolar Valor de las exportaciones
Precio del kg. de pan Errores promedio por factura Recaudación por tiques
Tarifa de la TV cable Cantidad de turistas Producto Bruto Interno
Precio promedio de una
especialidad farmacéutica
Camas ocupadas por día en
el Sanatorio
Costo mensual de la mano
de obra en el CTI
Tarifa del día-cama de
Sanatorio
Volumen físico de la
producción manufacturera
Presupuesto mensual de los
hogares
Precios del consumo Internaciones del día Presupuesto del Sanatorio
Ahora el interés se centra en otro problema más complejo, que consiste en considerar
conjuntamente la evolución de varias series relacionadas.
Supongamos una empresa del calzado que fabrica zapatos y botas. Los siguientes datos corresponden a la
producción anual de sus cuatro productos, medidos en pares de zapatos y pares de botas.
AÑO
CALZADO DE MUJER CALZADO DE HOMBRE
Zapatos Botas Zapatos Botas
1990 2.300 1.500 2.500 2.000
1991 2.500 1.600 2.500 1.900
1992 2.600 1.650 2.600 1.900
1993 2.650 1.700 2.700 1.800
1994 2.700 1.800 2.900 1.850
1995 2.750 2.000 3.000 1.800
1996 3.000 1.900 3.050 1.750
1997 3.500 1.900 3.200 1.500
1998 3.800 1.900 3.300 1.500
1999 4.000 1.800 3.300 1.400
2000 4.200 1.750 3.500 1.000
2001 4.500 1.700 3.450 800
2002 4.600 1.700 3.500 500
Variación
1990/2002 + 100% + 13% + 40 % - 75 %
La pregunta que queremos responder es: ¿cómo evolucionó la producción global de la fábrica de
calzado? Obsérvese que no se puede responder mirando individualmente cada serie, ni tampoco
sumando las cuatro series, pues se trata de productos de diferente calidad y valor. Las cantidades de
pares de zapatos son crecientes en el tiempo, pero a tasas diferentes, y el comportamiento de las series
de botas muestra, en el caso de las botas de mujer, crecimiento hasta 1995 y luego decrecimiento, y en
el caso de las botas de hombre, decrecimiento constante de la serie.
El problema a resolver consiste en encontrar un indicador sintético, que permita comparar en el
tiempo el volumen físico de la producción de la fábrica.
En este caso, dado que los cuatro productos utilizan el cuero como insumo, podría calcularse para cada período
un indicador que resultara de sumar el insumo de cuero de cada par de calzado producido. Tendríamos entonces
una solución aproximada del problema. La solución es “aproximada” porque los otros insumos de la producción
(mano de obra, pegamento, electricidad) no son necesariamente proporcionales al insumo de cuero, esto es, las
“cantidades producidas” no son estrictamente proporcionales a las “cantidades del principal insumo”.
El siguiente ejemplo refiere al presupuesto de una clínica de adelgazamiento que utiliza como
insumos de la producción: mano de obra, medicamentos, teléfonos, luz eléctrica, agua corriente y
papelería. En el cuadro que sigue se muestran los índices de precios de los insumos mencionados.
Recordemos que los índices de precios muestran la evolución de los precios de la serie, relacionándolos
con el período base. Por ejemplo, en el caso del Teléfono hubo un aumento del 10% en el mes 04 y
luego un nuevo aumento en el mes 07, que acumulado con el anterior, da un 20% respecto del período
base, en este caso, el mes 01.
MES
MANO DE
OBRA
MEDICA-
MENTOS
TELÉ-
FONO
ENERGÍA
ELÉCTRICA
AGUA
CORRIENTE
PAPE-
LERÍA
01 100 100 100 100 100 100
02 100 102 100 100 100 101
03 100 104 100 100 100 101
04 100 110 110 108 105 103
05 100 110 110 108 105 104
06 105 110 110 108 105 106
07 105 113 120 117 110 107
08 105 115 120 117 110 107
09 105 120 120 117 110 107
La pregunta relevante en este caso es: ¿cuánto aumentó mensualmente el presupuesto como
consecuencia de los aumentos de precios de los insumos? La respuesta requeriría conocer las
“cantidades” consumidas mes a mes y los precios de los insumos para poder calcular el presupuesto
mensual. En tal caso podríamos calcular un indicador de valor.
Pero podría interesarnos dar respuesta a otra pregunta: ¿cuánto aumentó mensualmente el
presupuesto como consecuencia de los aumentos de precios de los insumos, si las cantidades
consumidas se mantuvieron constantes mes a mes? En este caso nos interesa conocer la evolución
conjunta de los precios (y no del valor del presupuesto) de manera que las variaciones en las cantidades
no influyan en el cálculo. Una primera respuesta a la pregunta podría ser: “los precios aumentaron en
promedio entre un 5% y un 20% entre el mes 01 y el mes 09”, porque el insumo con menor aumento
fue la Mano de Obra (5%) y los que tuvieron el mayor aumento fueron los Medicamentos y el
Teléfono. Pero para poder responder con más precisión a la pregunta, necesitaríamos saber cómo
inciden los distintos insumos en el presupuesto de la clínica. Si la Mano de Obra pesa más que los
Medicamentos y el Teléfono, entonces, razonablemente, el aumento promedio de precios debería estar
más cercano del 5% que del 20%. En este orden de ideas, un indicador sintético de la evolución de los
precios –como en el ejemplo de los pares de calzado– o de las cantidades –como en el ejemplo de
los pares de calzado–, se puede obtener mediante “índices ponderados” donde las ponderaciones se
expresan en términos de valor.
Las ponderaciones pueden permanecer fijas a lo largo del tiempo (Índice de Laspeyres) o variar
período a período (Índice de Paasche). Vamos a analizar los índices con ponderaciones fijas, porque son
más fáciles de interpretar y porque son los más utilizados en el cálculo de los principales indicadores de
precios de la economía uruguaya: Índice de los Precios del Consumo, Índice Medio de Salarios, y como
consecuencia de ello, la Unidad Reajustable, la Unidad Reajustable de Alquileres, el coeficiente de
reajuste de alquileres y la Unidad Indexada.
El supuesto implícito en la utilización de ponderaciones fijas es que el “peso” o importancia de
cada componente del conjunto de series se mantiene relativamente constante en el período analizado.
Este supuesto no puede mantenerse en el largo plazo, y por eso se recomienda, cada tanto, proceder al
“cambio de base” del índice.
Vamos a ver cómo se procede en el caso de un índice de precios ponderado, con el ejemplo de la
clínica de adelgazamiento. Supongamos que originalmente se disponen los siguientes datos.
Datos de precios
MES
MANO DE
OBRA
MEDICA-
MENTOS
TELÉ-
FONO
ENERGÍA
ELÉCTRICA
AGUA
CORRIENTE
PAPE-
LERÍA
01 4.000 125 0,80 1,50 12 200
02 4.000 127,50 0,80 1,50 12 202
03 4.000 130 0,80 1,50 12 202
04 4.000 137,50 0,88 1,62 12,60 206
05 4.000 137,50 0,88 1,62 12,60 208
06 4.200 137,50 0,88 1,62 12,60 212
07 4.200 141,25 0,96 1,755 13,20 214
08 4.200 143,75 0,96 1,755 13,20 214
09 4.200 150 0,96 1,755 13,20 214
Unidad de medida
MANO DE
OBRA
MEDICA-
MENTOS
TELÉ-
FONO
ENERGÍA
ELÉCTRICA
AGUA
CORRIENTE
PAPE-
LERÍA
Salario
mensual
1 medica-
mento 1 llamada 1 kw/h 1 mt3
1000 hojas
tamaño A4
Cantidades del mes 01
MANO DE
OBRA
MEDICA-
MENTOS
TELÉ-
FONO
ENERGÍA
ELÉCTRICA
AGUA
CORRIENTE
PAPE-
LERÍA
10 200 1.000 800 50 2
Un índice ponderado, de base fija, del tipo Laspeyres, lo que hace es promediar los índices simples
de precios de cada uno de los productos de la “canasta”, ponderando cada índice simple con el “peso”
que cada producto tiene en el “presupuesto base”. En los ejemplos precedentes, la “canasta” está
formada por los productos (zapatos y botas) o por los tipos de insumos de la clínica. El “presupuesto
base” es el valor de la canasta en el período base. Si en el ejemplo de la clínica se toma como período
base el mes 01, entonces el presupuesto base resulta de multiplicar precios por cantidades (ambos
expresados en la misma unidad de medida para cada componente de la canasta). Así, en el ejemplo:
Presupuesto base en el mes 01:
4.000 x 10 + 125 x 200 + 0,80 x 1.000 + 1,50 x 800 + 12 x 50 + 200 x 2 =
= 40.000 + 25.000 + 800 + 1.200 + 600 + 400 = 68.000.
El “peso” que tiene cada producto es proporcional a la importancia que el producto tiene en la
canasta (en el período base) en términos de valor. La suma de todos los pesos es igual a la unidad, o
también al 100%.
INSUMOS
CANASTA DEL PERÍODO BASE
Cantidad Precio Valor Ponderación
Mano de Obra 10 4.000 40.000 0,588
Medicamentos 200 125 25.000 0,367
Teléfono 1.000 0,80 800 0,012
Energía Eléctrica 800 1,50 1.200 0,018
Agua Corriente 50 12 600 0,009
Papelería 2 200 400 0,006
TOTAL ----- ----- 68.000 1,000
En el ejemplo hay sólo dos insumos con peso” importante: la Mando de Obra y los
Medicamentos, que juntos pesan más del 95% del presupuesto base. Las ponderaciones para cada
insumo se obtienen mediante simple regla de tres, a partir de la columna de los valores.
¿Cómo se obtienen los índices ponderados del precio de los insumos para cada mes? Simplemente
calculando el promedio ponderado de los índices simples de precios de los insumos con las
ponderaciones que resultan del cuadro precedente. Los índices simples de precios resultan a partir de
las series de precios de los insumos (de hecho, ya se habían presentado dos páginas atrás).
MES
MANO DE
OBRA
MEDICA-
MENTOS
TELÉ-
FONO
ENERGÍA
ELÉCTRICA
AGUA
CORRIENTE
PAPE-
LERÍA
01 100 100 100 100 100 100
02 100 102 100 100 100 101
03 100 104 100 100 100 101
04 100 110 110 108 105 103
05 100 110 110 108 105 104
06 105 110 110 108 105 106
07 105 113 120 117 110 107
08 105 115 120 117 110 107
09 105 120 120 117 110 107
Entonces, el índice de precios ponderado de los insumos mes a mes se calcula así:
MES CÁLCULOS INTERMEDIOS ÍNDICE
01 100x0,588+100x0,367+100x0,012+100x0,018+100x0,009+100x0,006 100,00
02 100x0,588+102x0,367+100x0,012+100x0,018+100x0,009+101x0,006 100,74
03 100x0,588+104x0,367+100x0,012+100x0,018+100x0,009+101x0,006 101,47
04 100x0,588+110x0,367+110x0,012+108x0,018+105x0,009+103x0,006 104,00
05 100x0,588+110x0,367+110x0,012+108x0,018+105x0,009+104x0,006 104,00
06 105x0,588+110x0,367+110x0,012+108x0,018+105x0,009+106x0,006 106,96
07 105x0,588+113x0,367+120x0,012+117x0,018+110x0,009+107x0,006 108,39
08 105x0,588+115x0,367+120x0,012+117x0,018+110x0,009+107x0,006 109,12
09 105x0,588+120x0,367+120x0,012+117x0,018+110x0,009+107x0,006 110,96
Obsérvese que las ponderaciones permanecen fijas mes a mes. Los resultados indican que en el mes
09 los precios de la canasta de insumos de la clínica aumentaron en promedio un 10,96% respecto del
mes 01, elegido como período base. ¿Por qué el aumento está más cerca del 5% que del 20%? Porque
en la canasta de insumos pesa más la Mano de Obra que los Medicamentos y el Teléfono.
¿Cómo es la fórmula de Laspeyres para el cálculo de un índice ponderado de precios?
=
=
k
i
i
t
i
t
wIPIPL
1
0
0
*
donde
t
i
IP
es el índice simple de precios en el mes t (“período corriente”) del artículo i de la
canasta,
0
i
w
es la ponderación del artículo i (calculada sobre el presupuesto base, el cual se
denomina “período base” y se simboliza con el cero) y k es el número de artículos en la canasta.
Si se utiliza la notación en precios y cantidades, se obtiene otra expresión para el índice de
precios de Laspeyres.
0
i
t
i
t
i
p
p
IP
=
=
=
k
i
ii
ii
i
qp
qp
w
1
00
00
0
*
*
=
=
=
=
==
k
ik
i
ii
k
i
i
t
i
k
i
ii
ii
i
t
i
t
qp
qp
qp
qp
p
p
IPL
1
1
00
1
0
1
00
00
0
0
*
*
*
*
*
Esta expresión tiene una interpretación sencilla: en el denominador tenemos el presupuesto
base, mientras que en el numerador aparece el presupuesto que resultaría de aplicar a la misma canasta
de la base, los precios del período corriente (t). Entonces es fácil advertir que en el índice de precios de
Laspeyres las variaciones respecto de la base dependen exclusivamente de cómo cambian los precios
en el período corriente (pti) respecto del período base (p0i).
¿Cómo se calcula un índice de cantidades con ponderaciones fijas? Con la misma fórmula de
Laspeyres (las ponderaciones en términos de valor) excepto que en lugar de los índices simples de
precios se utilizan índices simples de cantidades.
=
=
k
i
i
t
i
t
wIQIQL
1
0
0
*
Insistimos en que las ponderaciones son las mismas que en el índice de precios de Laspeyres.
Vamos a calcular los índices de cantidades, aplicando la fórmula de Laspeyres en el ejemplo de la
fábrica de calzado. Los datos que disponíamos eran los de las series de cantidades de los cuatro
artículos que integran la canasta de productos fabricados.
AÑO
CALZADO DE MUJER CALZADO DE HOMBRE
Zapatos Botas Zapatos Botas
1990 2.300 1.500 2.500 2.000
1991 2.500 1.600 2.500 1.900
1992 2.600 1.650 2.600 1.900
1993 2.650 1.700 2.700 1.800
1994 2.700 1.800 2.900 1.850
1995 2.750 2.000 3.000 1.800
1996 3.000 1.900 3.050 1.750
1997 3.500 1.900 3.200 1.500
1998 3.800 1.900 3.300 1.500
1999 4.000 1.800 3.300 1.400
2000 4.200 1.750 3.500 1.000
2001 4.500 1.700 3.450 800
2002 4.600 1.700 3.500 500
Para calcular el índice de Laspeyres necesitamos elegir un período como base y el “presupuesto
base”. Si elegimos el año 1990 como período base, entonces necesitamos conocer los precios de los
cuatro artículos en ese año, para calcular el presupuesto base, y con ello las ponderaciones a mantener
fijas durante el período 1990-2002.
Supongamos que los siguientes son los precios del período base.
AÑO
CALZADO DE MUJER CALZADO DE HOMBRE
Zapatos Botas Zapatos Botas
1990 80 150 100 120
Ahora estamos en condiciones de calcular las ponderaciones de cada artículo.
ARTÍCULOS
CANASTA DEL PERÍODO BASE 1990
Cantidad Precio Valor Ponderación
Zapatos de mujer 2.300 80 184.000 0,205
Botas de mujer 1.500 150 225.000 0,250
Zapatos de hombre 2.500 100 250.000 0,278
Botas de hombre 2.000 120 240.000 0,267
TOTAL ----- ----- 899.000 1,000
En este caso las ponderaciones de los artículos son más parejos, es decir, el valor en la base de
los cuatro artículos es aproximadamente una cuarta parte del total. A continuación se calculan los
índices simples de cantidades para cada uno de los artículos de la canasta.
AÑO
CALZADO DE MUJER CALZADO DE HOMBRE
Zapatos Botas Zapatos Botas
1990 100,0 100,0 100,0 100,0
1991 108,7 106,7 100,0 95,0
1992 113,0 110,0 104,0 95,0
1993 115,2 113,3 108,0 90,0
1994 117,4 120,0 116,0 92,5
1995 119,6 133,3 120,0 90,0
1996 130,4 126,7 122,0 87,5
1997 152,2 126,7 128,0 75,0
1998 165,2 126,7 132,0 75,0
1999 173,9 120,0 132,0 70,0
2000 182,6 116,7 140,0 50,0
2001 195,6 113,3 138,0 40,0
2002 200,0 113,3 140,0 25,0
A partir de los datos precedentes estamos en condiciones de calcular los índices de cantidades
de Laspeyres.
AÑO CÁLCULOS INTERMEDIOS ÍNDICE
1990 100x0,205+100x0,250+100x0,278+100x0,267 100,00
1991 108,7x0,205+106,7x0,250+100x0,278+95x0,267 102,12
1992 113x0,205+110x0,250+104x0,278+95x0,267 104,94
1993 115,2x0,205+113,3x0,250+108x0,278+90x0,267 106,00
1994 117,4x0,205+120x0,250+116x0,278+92,5x0,267 111,01
1995 119,6x0,205+133,3x0,250+120x0,278+90x0,267 115,23
1996 130,4x0,205+126,7x0,250+122x0,278+87,5x0,267 115,68
1997 152,2x0,205+126,7x0,250+128x0,278+75x0,267 118,49
1998 165,2x0,205+126,7x0,250+132x0,278+75x0,267 122,26
1999 173,9x0,205+120x0,250+132x0,278+70x0,267 121,04
2000 182,6x0,205+116,7x0,250+140x0,278+50x0,267 118,88
2001 195,6x0,205+113,3x0,250+138x0,278+40x0,267 117,47
2002 200x0,205+113,3x0,250+140x0,278+25x0,267 114,92
Mientras tres de las cuatro series crecen, el índice ponderado resulta creciente, pero a partir de
1999, cuando las dos series de botas resultan decrecientes, el índice ponderado también empieza a
decrecer (la reducción en la producción de botas es más importante que el crecimiento en la producción
de zapatos).
Supongamos que en el año 2002 los precios del calzado han alcanzado los valores que se presentan
en el cuadro siguiente.
AÑO
CALZADO DE MUJER CALZADO DE HOMBRE
Zapatos Botas Zapatos Botas
2002 500 1.000 750 900
Si se decidiera tomar como período base del índice de cantidad el año 2002, se tendrían las
siguientes ponderaciones.
ARCULOS
CANASTA DEL PERÍODO BASE 2002
Cantidad Precio Valor Ponderación
Zapatos de mujer 4.600 500 2.300.000 0,325
Botas de mujer 1.700 1.000 1.700.000 0,240
Zapatos de hombre 3.500 750 2.625.000 0,371
Botas de hombre 500 900 450.000 0,064
TOTAL ----- ----- 7.075.000 1,000
Transcurridos doce años, las ponderaciones se han alterado significativamente como consecuencia
de la fuerte reducción en la producción de botas de hombre. Entonces, si se mantienen las
ponderaciones del año 1990, se estaría distorsionando el resultado del índice ponderado. Las
ponderaciones del año 1990 se han ido desactualizando, y los índices resultantes reflejan la evolución
en las cantidades de una canasta desactualizada. En estos casos procede el “cambio de base del índice”.
Situaciones similares se producen en el Índice de los Precios del Consumidor, cuando algunos artículos
se vuelven obsoletos y dejan de ser consumidos por la población. Por ejemplo, lo ocurrido en 1982,
cuando virtualmente desapareció del mercado el televisor blanco y negro porque fue sustituido por el
televisor color (y en el Índice, de base 1973, figuraba el TV blanco y negro).
El cambio de base requiere un estudio que proporcione los precios y cantidades de un nuevo
período base. Implica la discontinuidad del índice de base anterior y el inicio de una nueva serie. Si se
calcula la serie anterior hasta el período base del nuevo índice, entonces es posible realizar el
encadenamiento de ambas series. Aunque el resultado muchas veces es una aproximación, el
encadenamiento es el único procedimiento que permite calcular variaciones entre períodos en los que
sólo se dispone de índices en bases distintas. Veamos un ejemplo.
PERÍODO BASE 1993 BASE 1999
1993
1994
1995
1996
1997
1998
1999
2000
2001
100,0
102,3
103,5
106,2
109,1
110,0
112,3 100,0
103,1
104,8
2002
2003
106,9
107,5
Existen dos formas de encadenamiento: hacia delante y hacia atrás. En el primer caso se continúa la
serie más antigua, asignando a ésta las variaciones operadas en la serie nueva, mediante una simple
regla de tres. En el segundo caso se continúa la serie nueva “hacia atrás” asignando a los valores
anteriores a la nueva base las variaciones operadas en la serie antigua.
Para realizar el encadenamiento hacia delante y obtener el valor que correspondería a la serie
antigua en el año 2000, se agrega al índice de 1999 una variación de + 3,1%, obteniéndose 115,8 (regla
de tres: 112,3*103,1/100). El valor que correspondería al año 2001, con el mismo procedimiento, es
117,7 (112,3*104,8/100). El cuadro que sigue muestra la serie encadenada hacia delante.
PERÍODO BASE 1993
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
100,0
102,3
103,5
106,2
109,1
110,0
112,3
115,8
117,7
120,0
120,7
Ahora estamos en condiciones de calcular, por ejemplo, la variación operada entre 1995 y 2001:
(117,7/103,5 1) = +13,7%. A continuación se muestra el resultado del encadenamiento de las series
hacia atrás. Otra vez el resultado se obtiene aplicando regla de tres simple. El dato encadenado para
1998 es 98,0 que resulta de hacer 110,0*100,0/112,3.
PERÍODO BASE 1993 BASE 1999
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
100,0
102,3
103,5
106,2
109,1
110,0
112,3
89,0
91,1
92,2
94,6
97,2
98,0
100,0
103,1
104,8
106,9
107,5
Otra operación habitual en el trabajo con índices es el “cambio de base aritmética”, el cual consiste
en cambiar el período en que la serie de índices toma el valor 100. El procedimiento que se utiliza para
hacer el cambio de base aritmética es también la regla de tres simple. Utilizando el ejemplo precedente,
supóngase que para determinado propósito se hace necesario fijar como período base el año 1996.
PERÍODO BASE 1993 BASE 1996
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
100,0
102,3
103,5
106,2
109,1
110,0
112,3
115,8
117,7
120,0
120,7
94,2
96,3
97,5
100,0
102,7
103,6
105,7
109,0
110,8
113,0
113,7
Finalmente queremos abordar el problema de la deflactación de una serie. Dadas dos series, Xt y Yt,
se dice que Wt es la serie Xt deflactada por Yt si se cumple que:
100*
t
t
t
Y
X
W
=
Se dice que la serie Xt ha sido deflactada y a la serie Yt se le llama deflactora. No siempre las
series deflactadas tienen una interpretación interesante. Depende del significado de la serie del
numerador en relación con la del denominador. Veamos algunos ejemplos.
Supongamos que la serie Xt corresponde al índice de precios de un bien y que la serie Yt
corresponde al índice de precios de otro bien. Entonces Wt indica la evolución de los precios del primer
bien en términos de los precios (de la moneda) del segundo bien.
AÑO XtYtWt
2000
2001
2002
2003
100
104
110
116
100
105
113
121
100
99
97
96
La primera serie (Xt) representa la evolución anual del precio del pan, mientras que la segunda serie
(Yt) representa la serie anual del precio de la harina de trigo (principal insumo para elaborar el pan). La
serie Wt, que resulta de deflactar la primera por la segunda, expresa el poder de compra del pan, en
moneda de harina de trigo. La serie Wt muestra una progresiva pérdida del poder adquisitivo del pan. Si
los precios del pan crecen más lentamente que los precios de la harina de trigo, entonces los panaderos
están perdiendo capacidad de compra. Con el producido del pan, cada vez pueden comprar menos
harina de trigo.
Consideremos ahora la serie de un índice de salarios deflactada por el correspondiente índice de
precios al consumo (de la canasta que consumen los asalariados).
AÑO
Índice de
Salarios
Xt
Índice de los precios
del consumo
Yt
Índice de
salarios reales
Wt
1990
1991
1992
1993
1994
1995
1996
100
140
210
275
340
412
508
100
136
198
257
313
375
460
100
103
106
107
109
110
110
Los resultados del ejemplo muestran que anualmente los aumentos de salarios más que
compensaron los aumentos de precios de los bienes y servicios de consumo. Quiere decir que los
asalariados se vieron beneficiados con un mayor poder de compra. Con los salarios crecientes, pudieron
comprar más de una canasta de consumo. Por ejemplo, en el año 1993, los asalariados, en promedio,
pudieron comprar 1,07 canastas (de la canasta que se definió en el período base).
Un tercer caso con interpretación interesante consiste en deflactar una serie representativa de un
índice compuesto de valor, entre el correspondiente índice de precios. Por ejemplo, el valor de las
exportaciones, entre el índice de precios de los productos exportados. En este caso la serie deflactada
mide el volumen físico de los productos exportados, algo así como un índice de cantidad de las
exportaciones.
2.5. RELACIONES ENTRE VARIABLES
La investigación estadística se enriquece cuando se analizan conjuntamente varias variables. Aquí
analizaremos el caso de dos variables. Cuando se miden rendimientos escolares, si adicionalmente se
conoce el sexo de los que realizan las pruebas, se puede responder a la siguiente pregunta: ¿son
similares los rendimientos escolares de mujeres y de varones? Cuando se estudian los ingresos de los
asalariados y su edad, se puede analizar si, por ejemplo, los ingresos del trabajo asalariado son
crecientes con la edad.
Supongamos que los datos de la muestra se clasifican según dos variables, X e Y, y que el número
que figura en la celda intersección de la fila i y columna j del cuadro que sigue, nij, representa el
número de elementos de la muestra que toman los valores Xi y Yj.
TABLA BIVARIADA DE FRECUENCIAS ABSOLUTAS
Y1Y2…….. Yi…….. YrTotal
X1n11 n12 …….. n1j …….. n1r n(X1)
X2n21 n22 …….. n2j …….. n2r n(X2)
……… ……… ……… ……… ……… ……… ……… ………
Xjni1 ni2 nij nir n(Xi)
……… ……… ……… ……… ……… ……… ……… ………
Xmnm1 nm2 …….. nmj ……… nmr n(Xm)
Total n(Y1) n(Y2) …….. n(Yj) ……… n(Yr) n
La tabla contiene en la última columna y la última fila, las distribuciones de frecuencias absolutas
de las variables X e Y respectivamente. Estas distribuciones se llaman marginales. La distribución que
se presenta en la tabla bivariada se denomina distribución conjunta o bivariada de las variables X e Y,
aunque esta denominación suele reservarse para la distribución de frecuencias relativas, que se obtiene
de dividir la matriz precedente entre el tamaño de la muestra (n). La expresión nij es una notación
simplificada de n(Xi, Yj), esto es, el número de elementos de la muestra que conjuntamente pertenecen
a la categoría Xi de la variable X, y a la categoría Yj de la variable Y.
Ejemplo: El cuadro siguiente presenta la distribución conjunta por edad y sexo de los alumnos del
primer año escolar de un establecimiento.
DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS
5 6 7 8 Total
Femenino 3 61 17 9 90
Masculino 4 49 23 11 87
Total 7 110 40 20 177
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS
5 6 7 8 Total
Femenino 0,017 0,344 0,096 0,051 0,508
Masculino 0,023 0,277 0,130 0,062 0,492
Total 0,040 0,621 0,226 0,113 1,000
Si interesa comparar la distribución de las edades de ambos sexos, entonces debería considerarse
por separado cada una de las categorías y elaborar dos distribuciones por edades condicionadas por el
sexo. Ello se consigue, en el ejemplo, dividiendo la fila que corresponde a cada categoría de sexo por la
frecuencia marginal. En el cuadro que sigue se presentan las dos distribuciones de la edad de los
alumnos, condicionadas por el sexo. La distribución de EDAD/FEM se obtiene dividiendo la fila
correspondiente por 0,508, y la distribución de EDAD/MASC se obtiene dividiendo la fila
correspondiente por 0,492.
DISTRIBUCIONES DE LA EDAD CONDICIONADAS POR EL SEXO
5 6 7 8 Total
EDAD/FEM 0,033 0,678 0,189 0,100 1
EDAD/MASC 0,046 0,563 0,264 0,126 1
Observar que se trata de dos distribuciones diferentes, correspondientes a dos nuevas variables:
EDAD/FEM y EDAD/MASC. La notación habitual para referirse a las distribuciones condicionales es
la siguiente.
Distribución de frecuencias absolutas de la X condicionada por Yk: n(X/Yk).
Distribución de frecuencias relativas de la X condicionada por Yk: h(X/Yk).
A continuación se presenta el análisis de correlación entre dos variables. El único supuesto
necesario es que ambas sean cuantitativas. Se supone que disponemos de información conjunta de dos
variables, proveniente generalmente de una muestra. La información es un conjunto de pares de
valores, y los datos pueden ser de corte transversal o longitudinal.
La investigación estadística requiere conocer, muchas veces, la forma en que se relacionan dos
variables. ¿Existe alguna relación conocida entre los años de educación de la madre y la cantidad de
años de rezago que presenta el alumno al matricularse en el primer año de liceo? ¿Existe alguna
relación entre los ingresos del hogar y el gasto mensual en alimentación? ¿Existe alguna relación entre
la cantidad de horas que el estudiante dedica a ver televisión por semana y su rendimiento escolar?
La teoría diría que hay una relación: a mayor cantidad de años de educación de la madre, podría
esperarse menor rezago del alumno al matricularse en primero de liceo; a mayor ingreso, mayor gasto
en alimentación; a mayor cantidad de horas frente a la televisión, podría esperarse menor rendimiento
escolar
¿Cómo probar si estas afirmaciones son ciertas? ¿Qué tan fuerte es la relación entre las dos
variables? ¿Se trata de relaciones exactas o aproximadas? Para responder a estas preguntas se requiere
de herramientas de la estadística inferencial. Sin embargo, podemos aproximarnos al problema
mediante indicadores descriptivos.
¿Todos los alumnos buenos en matemática son buenos en idioma español y viceversa? La
respuesta es probablemente negativa. No estamos buscando relaciones exactas sino relaciones
estadísticas, aquello que ocurre con mucha frecuencia. Denominamos relaciones exactas, por ejemplo,
a la relación entre el largo de un rectángulo de 3 metros de ancho y su área. Si denominamos L al largo
del rectángulo, entonces el área A es una función conocida del largo, A = 3L, y esta relación se cumple
para todo rectángulo de ancho 3. Lo mismo ocurre entre el radio R de un círculo y la medida de su
circunferencia C, esto es, C = 2.π.R (relación que ya conocían los antiguos griegos, aunque trabajaban
con una aproximación racional de π: 223/71).
Las relaciones estadísticas difícilmente son exactas, como por ejemplo, la relación lineal:
Y = a + b.X
pero quizá esta relación resulte una buena forma de aproximarse al problema. Supongamos que
tenemos una muestra de alumnos que han finalizado el segundo curso liceal y que registramos sus
calificaciones en matemática (X) y en idioma español (Y). El siguiente gráfico, denominado “nube de
puntos” muestra el comportamiento conjunto de la muestra en relación con el par de variables (X,Y).
MATEMÁTICA-IDIOMA ESPOL
0
1
2
3
4
5
6
7
8
9
10
11
0 1 2 3 4 5 6 7 8 9 10 11
MATEMÁTICA
IDIOMA ESPOL
Si se intenta “ajustar” una recta a la nube de puntos se encuentra que Y = 1 + 0,9.X es la de
mejor ajuste. Sin embargo, la gran mayoría de los puntos no verifica esta relación, sino en forma
aproximada. ¿Qué tan buena es la aproximación? La bondad del ajuste puede medirse por las distancias
verticales de cada punto a la recta estimada. ¿Por qué ajustar una recta y no otra curva? También se
puede ajustar otra curva, pero la más sencilla de evaluar es la recta.
Obsérvese que hay un alumno con un comportamiento atípico (en relación con el resto de los
alumnos): tiene una buena calificación en matemática (10) y una muy baja calificación en idioma
español (2). Hechos aislados como este no invalidan la relación lineal aproximada, ni contradicen la
teoría que expresa una relación positiva en los logros de ambas asignaturas.
Tenemos pendiente el problema de cuantificar la intensidad de la relación entre las dos variables.
Obsérvese lo que ocurre cuando trasladamos los ejes cartesianos ortogonales de forma que pasen por
los puntos medios de las dos variables.
MATEMÁTICA-IDIOMA ESPAÑOL
MATETICA
IDIOMA ESPAÑOL
Cuando la relación aproximada entre las dos variables es lineal y positiva (cuando crece una
variable la otra también crece), la mayoría de los puntos de la nube se ubican en los cuadrantes I y III.
Cuando la relación aproximada es lineal y negativa (cuando crece una variable la otra decrece y
viceversa) la mayoría de los puntos de la nube se ubican en los cuadrantes II y IV.
II I
III IV
Ejemplo de relación aproximada lineal y negativa:
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Considérese para cada par de valores (Xi,Yi) la expresión
( ) ( )
YYXX
ii
.
. Si el par (Xi,Yi)
pertenece a los cuadrantes I o III, entonces
( ) ( )
YYXX
ii
.
> 0 y si el par (Xi,Yi) pertenece a los
cuadrantes II o IV, entonces
( ) ( )
YYXX
ii
.
< 0. Considérese ahora la covarianza de X e Y:
Cov(X,Y) =
( ) ( )
=
n
i
ii
YYXX
n
1
..
1
Entonces, si la relación entre las dos variables es aproximadamente lineal y positiva, la mayoría de
los sumandos son positivos y la covarianza es positiva. Con el mismo argumento, si la relación entre
las variables es aproximadamente lineal y negativa, entonces la covarianza es negativa. Además, la
covarianza es tanto más grande (en valor absoluto), cuanto más se alejan los puntos (Xi,Yi) del punto
donde se intersectan los respectivos puntos medios de las variables.
Entonces, la covarianza es un buen indicador de la fuerza de la relación lineal entre X e Y. Cuanto
más grande y positiva la covarianza, más se parecerá la nube de puntos a una recta con coeficiente
angular positivo. Cuanto más grande y negativa, más se parecerá la nube de puntos a una recta con
coeficiente angular negativo. Cuando la covarianza es cero o próxima a cero, entonces la nube de
puntos tiene la forma:
y no existe una recta que ajuste bien a la nube de puntos. En este caso se dice que las variables
X e Y están incorrelacionadas.
La Cov(X,Y), como indicador de la variación conjunta de las dos variables, tiene el inconveniente
que su valor depende de la unidad de medida de X e Y. Por ejemplo, si X e Y representan puntajes de
un alumno en dos pruebas y se utilizan escalas de puntos entre 0 y 100, la covarianza será 100 veces
mayor que si se utilizan escalas de puntos entre 0 y 10. Para levantar este inconveniente se define el
indicador “coeficiente de correlación lineal” mediante la estandarización de la covarianza, como se
explica más adelante.
En el caso de datos agrupados, la fórmula de la covarianza es:
Cov(X,Y) =
( )
( )
ji ji
YYXX
,ji
)Y,h(X*.
Ejemplo: En una Mutualista se realizó el seguimiento de 160 niños de 0, 1 y 2 años para estudiar la
existencia de una posible relación entre sus edades y el número de consultas mensuales en Policlínica.
Los resultados se presentan en el cuadro siguiente.
EDAD
(X)
Número de consultas por mes (Y)
TOTAL
0 1 2 3
00 10 20 30 60
15 15 20 10 50
220 20 10 0 50
TOTAL 25 45 50 40 160
Con los datos del cuadro se realizaron los siguientes cálculos intermedios:
03,1
160
032102220122002103120211511501303020201010000
68,0
160
50)94,02(50)94,01(60)94,00(
04,1
160
40)66,13(50)66,12(45)66,11(25)66,10(
94,0
160
502501600
66,1
160
403502451250
222
2222
+++++++++++
++
+++
++
+++
xxxxxxxxxxxxxxxxxxxxxxxx
xxx
xxxx
xxx
xxxx
Para calcular la covarianza de X e Y, conviene reescribir la fórmula anterior de la siguiente
manera:
Cov(X,Y) =
YX
ji
. )Y,h(X*.YX
,
jiji
Entonces, la covarianza resulta igual a: 1,03 1,66 x 0,94 = - 0,5304. El resultado pone en
evidencia una relación negativa entre ambas variables: a menor edad se esperarían más consultas, y a
mayor edad, menos consultas. Pero, ¿qué tan fuerte es la relación negativa? Para responder a esta
pregunta, es necesario encontrar indicadores estandarizados, que permitan dar respuesta a la pregunta
anterior, y realizar comparaciones entre diferentes pares de variables.
Al analizar la relación entre dos variables cuantitativas, se encontró que la covarianza era un
indicador apropiado para medir la fuerza de la relación lineal. También se encontró, como
inconveniente, que la covarianza depende de la unidad de medida de ambas variables. Para levantar
este inconveniente se define el coeficiente de correlación lineal que resulta de estandarizar la
covarianza dividiéndola entre el producto de las desviaciones estándar de ambas variables.
)().(
),(
).( YSXS
YXCov
YXrLINEALNCORRELACIÓDEECOEFICIENT
==
Se puede demostrar que el coeficiente de correlación lineal sólo puede tomar valores entre –1 y +1:
-1 r(X.Y) +1
y tiene la siguiente interpretación.
Correlación Correlación Correlación Correlación
negativa negativa positiva positiva
fuerte débil débil fuerte
-1 -0,8 -0,6 -0,4 -0,2 0 +0,2 +0,4 +0,6 +0,8 +1 r(X.Y)
Correlación Incorrelación lineal Correlación
negativa positiva
perfecta perfecta
Observaciones
1.- El coeficiente de correlación lineal no mide relaciones causa-efecto. Las formulaciones
causa-efecto deben ser realizadas a partir de la teoría. El coeficiente de correlación lineal sólo
informa de la intensidad de una eventual relación lineal entre las variables.
2.- El coeficiente de correlación lineal no informa sobre la posible existencia de relaciones no lineales
entre las variables. Por ejemplo, entre dos variables podría existir una perfecta relación cuadrática, y el
coeficiente de correlación lineal no nos informará sobre este hecho, sólo nos dirá si los puntos de la
nube están (o no están) relativamente próximos a una recta de ajuste.
Ejemplo: Para probar si existe correlación lineal entre los años de estudio de la madre y los años de
rezago en los alumnos recién matriculados en de liceo, se seleccionó una muestra de 500 alumnos a
los cuales se les preguntó por las dos variables. Los resultados de la muestra se presentan en el
siguiente “cuadro de doble entrada”.
Años de estudio
de la madre Años de rezago del alumno
Años de rezago del alumno
0 1 2 3
6
9
12
15
18
40
60
70
80
90
30
20
20
10
10
20
10
10
10
0
10
10
0
0
0
Se reconocen como partes componentes del cuadro:
CABEZAL DE COLUMNAS
Años de rezago del alumno
Años de rezago del alumno
0 1 2 3
CABEZAL DE FILAS
Años de estudio
de la madre
6
9
12
15
18
CUERPO PRINCIPAL
40
60
30
20
20
10
10
10
70
80
90
20
10
10
10
10
0
0
0
0
El cuadro indica que 40 alumnos de la muestra tienen madres con 6 años de estudio y ellos no
presentan ningún año de rezago. Hay, por tanto, cuarenta pares en la muestra de la forma (6,0).
También hay 30 alumnos con madres con 6 años de estudio que tienen un año de rezago, etc. El cuadro
de doble entrada es un resumen de los datos que normalmente figuran en una base de datos en forma de
columnas:
Años de estudio
de la madre
Años de rezago
del alumno
6 0
6 0
6 1
12 1
15 0
6 3
9 1
12 0
--- ---
Por otra parte, ésta sería la forma más conveniente de introducir los datos en una planilla
electrónica (en dos columnas, una para cada variable) a los efectos de calcular el r(X.Y) en forma
automática utilizando la ventana de funciones de una planilla electrónica. La secuencia en excel es:
FUNCIONES
Funciones estadísticas
Coeficiente de correlación.
El cuadro permite observar que el número de rezagados disminuye a aumentar el número de años
de estudio de la madre. La correlación es entonces negativa y eso debería reflejar tanto la covarianza
como el coeficiente de correlación. Sin embargo la correlación negativa no es muy fuerte (alcanzaría
con dibujar la nube de puntos para visualizarlo). Por estos motivos, al calcular el coeficiente de
correlación, éste resulta igual a –0,37.
ANEXO: EJEMPLOS DE PICTOGRAMAS
INSTITUTO METODISTA
UNIVERSITARIO
CRANDON
LICENCIATURA EN
GESTIÓN DE EMPRESAS
ESTADÍSTICA
ESTADÍSTICA
CURSO 2005
PARTE I
Docente: David Glejberman
ÍNDICE PARTE I
PROGRAMA Y BIBLIOGRAFÍA .................................................. 3
1.1. INTRODUCCIÓN...................................................................... 5
1.2. CONCEPTOS BÁSICOS........................................................... 8
2.1. TIPOS DE VARIABLES............................................................ 14
2.2. MÉTODOS GRÁFICOS............................................................ 18
2.3. MEDIDAS DESCRIPTIVAS (corte transversal)..................... 21
2.4. MEDIDAS DESCRIPTIVAS (corte longitudinal)................... 34
2.5. RELACIONES ENTRE VARIABLES..................................... 50

Compártelo con tu mundo

Escrito por:

Cita esta página
Genta David. (2006, junio 21). Estadística. Recuperado de http://www.gestiopolis.com/estadistica/
Genta, David. "Estadística". GestioPolis. 21 junio 2006. Web. <http://www.gestiopolis.com/estadistica/>.
Genta, David. "Estadística". GestioPolis. junio 21, 2006. Consultado el 26 de Abril de 2015. http://www.gestiopolis.com/estadistica/.
Genta, David. Estadística [en línea]. <http://www.gestiopolis.com/estadistica/> [Citado el 26 de Abril de 2015].
Copiar
Imagen del encabezado cortesía de frank3 en Flickr
Tu opinión vale, comenta aquíOculta los comentarios

Comentarios

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

También en Economía