|
Introducción.
En esta página se presenta información acerca de la función
de la estadística y de las principales medidas de tendencia central,
tales como la media, el modo, las clases. la desviación estándar
y medidas de correlación estadística. Otros conceptos
importantes relativos al proceso de medición tal como los índices
y modelos se
tratan en otras páginas.
Sin embargo, se comprende, que este no es un curso de estadística
y que el estudiante poseé nociones básica relacionada con
el cálculo de estas medidas.
Definición.
La estadística se define como
una metodología científica que trata de la recolección,
presentación y agrupación de los datos, así como el
análisis,
interpretación, proyección e inferencia de ellos.
Se clasifica la estadística en
descriptiva
e inductiva, siendo la primera la que se interesa en la recolección,
presentación, agrupación, análisis e interpretación
de los datos.
La segunda, la inductiva o inferencial
va más allá de los aspectos descriptivos y se ocupa de hacer
generalizaciones sobre conjuntos de datos extensos como son las poblaciones,
valiéndose para ello de la utilización de lo que se denomina
muestra.
USO
DE LA ESTADÍSTICA PARA VALORAR LOS RESULTADOS DE LA OBSERVACIÓN.
Reiteramos, que esta materia se encuentra
muy bien tratada en libros de texto sobre estadística, (ver bibliografía)
por lo que le daremos un tratamiento sumario a estos temas, haciendo énfasis
en las propiedades de ciertas medidas y en los riesgos en que se incurre
cuando la comprensión holística sobre sus alcances y limitaciones
no se tiene claro, más que en la manera de calcularlas
y demostrarlas matemáticamente. Destacaremos también
la función de apoyo al investigador que significa el dominio de
la estadística descriptiva e inferencial.
La
media y los promedios.
La observación
objetiva es la principal herramienta de la ciencia, y la estadística
nos ofrece una otra serie de instrumentos más específicos
para medir los resultados de esa actividad. De las observaciones normalmente
surge una larga serie de datos que por sí mismos, sin estar guiados
por un criterio de análisis, no aportan mayores o ningún
conocimiento
significativo, por ejemplo, tomar nota, día a día, de
las variaciones del valor de la moneda nacional con respecto al dólar.
Es necesario entonces desarrollar una serie de procedimientos
de medición que nos permitan poder lograr que los mismos nos
proporcionen una significación. La “edad promedio (la media)
de una población de varones desempleados”, puede ser aportada por
una operación que consiste en una serie de datos en los cuales se
refleja la edad de los sujetos, si éstos no se resumen en algún
resultado, terminarán siendo inútiles. Sumar estos
datos y luego dividirla por el número de total de la población
que participó en la observación es mejor que una larga lista
de ellos. Hay más información significativa es este valor
que en una serie de datos brutos.
La media aritmética, la podemos
definir como la sumatoria de los valores individuales entre el total de
casos involucrados. Finalmente, agreguemos, que la media es una de las
medidas más utilizadas por el investigador. Ella nos proporciona
una información que nos resulta siempre agradable porque tiene la
propiedad de sintetizar largas cadenas de observación en un
solo valor que casi se siente mágico. Podemos tomar las edades
de mil personas y al final decir que la edad promedio de la muestra es
de 17,5 años. Sin embargo, la media es una medida muy afectada por
la distribución de los datos, así como también por
los valores extremos. No obstante sus debilidades es una de las medidas
más útil en los experimentos.
Para un grupo de N observaciones, Xi,
la media X se define como
La sumatoria de los EXi sobre
la población N, o sea Xi / N. (Forma directa), o como la sumatoria
de las frecuencia (EfiXi) por los casos sobre la sumatoria de la
frecuencia de los casos.
De la simple operación anterior
se obtiene una cifra, pero una justa apreciación cualitativa de
su significado probablemente no sea posible. Una medida como el promedio
aritmético o la media como ya dijimos, es muy influenciada por los
valores extremos. ¿Qué puede significar el promedio de una
serie de datos relativos a los ingresos promedio de una población
en la cual se incluyeron millonarios junto con los pobres? Como la respuesta
es: nada, o cuando mucho, casi nada, entonces, se requiere de una mayor
sofisticación en la medición, para que los resultados puedan
aportarnos información útil. La información así
tratada, permitirá interpretar la incertidumbre que medidas como
el promedio, introduce en los resultados. La paradoja es que el promedio
nos acerca y nos aleja de la verdad al mismo tiempo. Tenemos que volver
a la necesidad de disponer de un criterio analítico estadístico
adecuado para poder interpretar los resultados.
La representatividad del promedio viene
dado por el grado de concentración de los datos a su alrededor.
Por ejemplo, la edad promedio de un grupo de estudiantes del 4to.. grado,
es mucho más representativa que la edad promedio de la totalidad
del colegio.
La medida que se utiliza para el cálculo
de la representatividad de las medidas de tendencia central es la desviación
estándar.
Los
histogramas.
El histograma es una herramienta muy útiles
en la investigación, nos permite ver como los datos obtenidos, a
partir de una observación metódica, se distribuyen a lo largo
de una o varias escalas. El histograma es un diagrama de barras, donde
cada una de ella representa la frecuencia con que se presentan los datos.
También nos permite ubicar visualmente medidas de tendencia
central como son La Media, la Mediana o la Moda y como los valores se aproximan
o se alejan de esas medidas.
Los histogramas representan mejor las
características de una población que una medida
de tendencia central. Para la interpretación correcta de los resultados
de una investigación que incluye una serie de datos, el histograma
es una obligada presentación.
Supongamos que disponemos de una ristra
de datos relativos a las calificaciones de un curso.
19/17/4/12/11/12/17/18/19/11/11/8/1/20/11/55/20/1/8/8/18/12/10/7/10/11/
Un vistazo inicial es muy poco lo que
puede extraer de ese conjunto. Sin embargo, si convertimos en un histograma
los anteriores datos podremos extraer mayor cantidad de información.
|
|
. |
|
|
| . |
|
. |
. |
|
| . |
|
. |
. |
|
| . |
|
. |
. |
. |
| . |
. |
. |
. |
. |
Las
clases.
En la tabla al final, se observan estos mismos
valores. También los hemos agrupados en clases. Este último
termino es importante que lo justifiquemos de inmediato. Cuando se está
en un proceso de medición, debe llegarse a un acuerdo en cuanto
a las diferencias significativas de los valores. Por ejemplo, sí
estamos estudiando los hábitos de consumo de “Tomadores de Café
y su relación con la Tensión Arterial”, utilizando como instrumento
de medición un tensiómetro, (capaz de registrar pequeñas
variaciones en la variable de entrada), seguramente no se encontrará
diferencia significativa -por sus consecuencias en la salud- (variable
de salida menos exacta)-, entre los que ingieren 4 o 5 tazas al día.
Al no encontrar diferencias, los podemos agrupar en una misma clase que
pudiera ser la “clase 4-6”, luego, si pasar a 7 tazas, ya producen consecuencias
significativas observables médicamente, distintas con relación
a los de la clase anterior, entonces, allí debe hacerse una demarcación
y comenzar otra clase, probablemente la “clase 7-9”, y así sucesivamente.
Veamos otro ejemplo, ¿Tendrá una diferencia significativa,
una calificación de 12, 13 ó 14 puntos, dentro de una escala
de 20 puntos? Si la respuesta es no, entonces, podemos agrupar estos
valores dentro de una clase. Todo estudiante que obtenga una calificación
comprendida en el intervalo 12-14, pertenecerá a una misma clase,
la clase “B”. Debido a que los instrumentos y procedimientos utilizados
para conferir notas a los estudiantes, no poseen un grado de sensibilidad
suficientemente fino e independiente de toda subjetividad humana como el
tensiómetro, para detectar el valor exacto en que se expresa
el complejo indicador, no tiene caso hacer un “problema de honor” pequeñas
diferencias, que nada aportan en la mejor comprensión del hecho
que estamos estudiando.
La ausencia de diferencias significativas
entre valores, es la que justifica su agrupamiento en clases. Al agrupar
los valores en clases, podemos observar mejor su comportamiento, tanto
en cuanto a la tendencia que tengan los datos de agruparse en torno a un
valor central, como la dispersión que los mismos tienen con relación
a los valores centrales, tales como la media o la mediana. Tanto las medidas
de tendencias central como las de dispersión y correlación
funcionan como instrumentos de verificación de las hipótesis
científicas.
TABLA.
Conjunto de datos:
19-17-4-12-11-12-17-18-19-11-
11-8-7-20-11-5-20-1-8-8-18-12-
10-9-10-11-12-15.
________________
Los datos anteriores se agrupan
en
clase.......................................... |
Clases.
1 a 3,9
4 a 7,9
8 a 11,9 media
12 a 15,9 mediana
16 a 20 |
Frecuencia
1
3
9
7
8
28 |
| En la ristra de datos de
arriba no es posible observar la media, ni la mediana (punto donde se divide
en un 50% la muestra) ni la moda (valor que más se repite). |
Cuando se agrupan
los datos por clases se observa mejor la concentración. |
La frecuencia
nos permite ver la distribución en torno a la media. |
Nótese que la asimetría
de la distribución no permite que coincidan las medidas de tendencia
central. Podemos ver con claridad que hay una tendencia hacia las calificaciones
más altas. Nos faltaría saber todo lo representativo que
es la media en este caso, pero para eso necesitamos otro tipo de mediciones
que veremos a continuación como es la desviación estándar
que
tiene que ver con la amplitud de las distribuciones y como se desvía
los datos entorno al promedio. Como podemos ver la media se encuentra en
la clase 3, cuando la clase 5 es casi tan representativa como esa clase.
El valor más “popular” es el 11, aunque el promedio dice que es
el 13.
Todas esa debilidades de las medidas de
tendencia central pueden ser apreciadas a través de un diagrama
y por eso siempre deben acompañar los informes del investigador,
pero los diagramas por sí mismo no pueden aportar demostraciones
ni valores matemáticos para hacer cálculos, esos valores
se encuentran en los datos y las fórmulas que le dan origen. Los
diagramas surgen de las observaciones y de los cálculos que realizamos
con los datos obtenidos, nunca a la inversa.
La
desviación estándar.
La desviación estándar es una
medida de la dispersión que presentan los valores medidos con relación
a la media. Esta medida se desarrolla a partir de una idea teórica
sistematizada por primera vez por Carl Friedrich Gauss (1777-1855)
dentro del marco de la Teoría de las Probabilidades. Gauss descubrió,
que en la naturaleza los fenómenos tienden a distribuirse siempre
con una forma a la que llamó normal. Esta forma típica significa,
que al observar un conjunto de hechos de la misma naturaleza, es más
probable que un valor sea promedio que extremo, y lo más interesante,
es que Gauss calculó esta probabilidad. A partir de entonces, la
distribución de Gauss, como comúnmente se le conoce, se utiliza
para interpretar muchos tipos de mediciones físicas y sociales.
Debido a que muchas de las mediciones de estos fenómenos guardan
estrecha correspondencia con los fundamentos teóricos de la distribución
Gussiana, y en parte, por que la experiencia demuestra que la estadística
Gaussiana si proporciona una descripción razonablemente exacta
de muchos sucesos reales, la distribución goza de excelente respetabilidad
científica. En este sentido esta medida nos permite decidir acerca
de la confianza que podemos tener en los resultados obtenidos a partir
de cuidadosas observaciones.
El sustrato teórico profundo de
la teoría Gaussiana, se deduce de la hipótesis, de
que la desviación total de una cantidad medida x, respecto
a un valor central X, es la resultante de una gran cantidad de pequeñas
fluctuaciones que ocurren a azar.
Sí cruzamos una diana con
dos líneas oblicuas obtenemos cuatro áreas alrededor del
centro, si le asignamos valores positivos al superior de la derecha e inferior
de la izquierda y valores negativos a los dos restantes, y luego, lanzamos
cien veces un dardo que acierta, la probabilidad que la suma algebraica
sea más cercana a cero que a otro valor, es mayor que cualquier
otra. Mientras menos intentos x, hagamos, se aleja la probabilidad
de obtener cero, y en consecuencia la dispersión es mayor. De lo
anterior obtenemos el principio de que: <mientras mayor es la población
involucrada en una medición, mayor es la probabilidad de una menor
dispersión de los datos, y viceversa>.
Cuando la dispersión de los datos
es grande, la confianza en la representatividad de los valores centrales
es menor, que cuando la dispersión es pequeña.
La construcción teórica nos
dice, que se puede considerar normal una distribución, si
luego de haber obtenido la media o el promedio, entre ésta y la
desviación estándar conseguimos el 68% de los datos incluidos
dentro de este intervalo y el 95% si es la media más dos veces la
desviación estándar. Sin embargo, no tenemos forma de saber
qué distribución Gaussiana, con sus respectivos valores de
X e Y, es adecuada para nuestras observaciones. Para poder salvar
este obstáculo, no nos queda otra alternativa, que figurarnos como
sería la distribución si pudiéramos disponer de la
información de todo el universo de casos que forman nuestro estudio.
Luego, con nuestra muestra de casos, calcular la media, la desviación
estándar y esperar que nuestros datos se encuentran dentro del 68%
o del 95% como lo determina la distribución Gaussiana. Una demostración
matemática de este punto nos obligaría a trasladarnos
a los textos tradicionales de estadística, en donde se conseguirán
secciones que tratan este aspecto.
Si la distribución del universo
de observaciones aisladas es Gaussiana, la teoría del muestreo indica
que la distribución de las medias de la muestra también es
Gaussiana, este parámetro se denomina desviación estándar
de la media, y su valor es: la desviación estándar sobre
la raíz cuadrada de la población (N).
Correlación
de variables.
El término correlación se ha
utilizado en variedad de contextos para indicar el grado de relación
de dependencia entre dos o más
variables.
La teoría de la correlación se interesa en el empleo de muestras
para hacer estimaciones, contrastar hipótesis, o llevar a efecto
otros procesos concernientes a correlaciones de poblaciones.
El coeficiente de correlación momento
producto de Pearson, llamado más comúnmente como coeficiente
de correlación se expresa por el símbolo Q en la población
y N en la muestra.
El coeficiente de correlación fue
concebido a principios de este siglo por Karl Pearson, Edgeworth y Yule.
Posteriormente fue revisado, sistematizado y perfeccionado por otros matemáticos.
A partir de los años 30 participaron los psicólogos
Spearman
y Thurtone, desarrollando el análisis de componentes principales
y la correlación canónica . La sociología se dio cuenta
a principio de los 50 de la importancia de las matemáticas en sus
trabajos, e incorporó estos métodos
de análisis a sus investigaciones.
La correlación se utiliza cuando
se tienen dos o más conjuntos de valores que se consideran que podrían
estar asociados, el coeficiente de correlación nos indicaría
el grado, en el cual, ambos conjuntos dependen entre si. El coeficiente
de correlación es la medida de la correlación para un conjunto
particular de observaciones. El estudio matemático de la correlación
se llama “análisis de regresión”.
Por ejemplo, si consideramos que
parece lógico suponer que las horas de entrenamiento en carreras
de fondo, deben mejorar los tiempos, y tomamos como muestra un conjunto
de deportistas, supongamos 50, cada uno de estos participantes deberá
aportarnos las horas diarias que entrena y los tiempos que logra hacer
en 10 kilómetros. Si medimos esta correlación con el
coeficiente de correlación, este nos arrojará un valor que
se encuentra comprendido entre – 1 y + 1. El valor de esta cantidad dependerá
del grado de dispersión de las observaciones. Si todas las observaciones
coinciden exactamente sobre una línea recta significa que no hay
dispersión de los datos y que los tiempos mejoran proporcionalmente
al tiempo empleado en el entrenamiento. Si es 0, no existe correlación
alguna entre las variables,
normalmente decimos que ambas se encuentra incorrelacionadas.
Es importante señalar que es
corriente encontrar en diversos trabajos de investigación, la confusión
de interpretar estos resultados en términos de causa-efecto, cuando
de hecho ni la regresión, ni la correlación, ni cualquier
otro procedimiento puramente estadístico puede validar tal relación.
Cuando se utiliza el coeficiente de correlación
como medida de dependencia entre variables,
tenemos que buscar conceptos distintos al de “probar”, esto no significa
que tales afirmaciones no sean lo suficientemente convincentes.
Encontramos el concepto de correlación
en dos casos significativos: a) si de dos variables medidas, una puede
considerarse causa de la otra, pero su efecto está parcialmente
encubierto por fluctuaciones al azar, y b) si dos variables pueden considerarse
como consecuencias simultáneas de una causa común cuyo efecto,
como antes, está parcialmente oculto por fluctuaciones al azar.
En cualquier caso podríamos afirmar que puede observarse un cierto
grado de correlación entre una variable y otra.
En el caso a) será el grado en
que la variación de la variable de salida (el tiempo) se puede atribuir
a la variable de entrada ( el entrenamiento); en el caso b) será
el grado en el que la variación de ambas variables se puede atribuir
a la variación de cualquiera que sea la fuente común de la
influencia. (este no es el caso de nuestro ejemplo)
La teoría de la correlación
está actualmente considerada como una importante herramienta en
experimentación,
especialmente, en aquellos casos en que intervienen muchas variables.
En el estudio matemático de correlaciones
entre variables, el lenguaje utilizado es el de la teoría de matrices
clásica; se necesitan algunos conocimientos sobre matrices, transformaciones
lineales, formas cuadráticas y ecuaciones en forma determinante.
Afortunadamente para los que no dominan estos cálculos, actualmente
las computadoras pueden hacerlos en segundos, esto hace aún más
relevante el hecho de que lo fundamental es nuevamente comprender conceptualmente
esta medida, su naturaleza alcance, significado y limitaciones, para plantearlo
en los casos que corresponde y poder interpretar sus resultados. No obstante,
presentamos a continuación la ecuación con la que se calculan
los coeficientes de correlación para un par de variables.
r = Exy / raíz cuadrada
Ex2y2
La
muestra estadística.
La muestra estadística representa al
universo, a la serie infinita de valores a los que nunca tendremos acceso.
Por ejemplo, la totalidad de la sangre de una persona para efectuarle un
estudio. El problema consiste, en cómo saber, que esta muestra
(10cc) se relaciona correctamente con los valores de ese universo y la
representa correctamente. Nuestro problema, en síntesis, es
encontrar una relación entre el resultado teórico y las propiedades
de la muestra. Si esto se logra, nos permite inferir las propiedades del
universo a partir de los valores de la muestra. (Baird, 1991, p40).
De acuerdo con lo señalado anteriormente,
es lógico afirmar, que mientras mayor sea la muestra, tanto más
precisa serán las afirmaciones finales. Es conveniente no obstante,
hacer la anotación, que la precisión de un valor medio, aumenta
sólo en proporción directa a la raíz cuadrada del
número de observaciones de la muestra, de todos modos, se incrementa,
y las muestras más grandes tienen medias más precisas.
Otro factor muy importante a considerar
es el de la homogeneidad y la heterogeneidad del universo
al que pretendemos representar a través de la muestra. Pongamos
por ejemplo, los clásicos estudios de opinión que se hacen
antes de una elección presidencial con el objeto de predecir cuales
serán los resultados finales. La población a estudiar está
compuesta por hombre y por mujeres, tenemos razones para pensar que este
factor puede influir en los resultados, luego, la población votante
tiene diferentes edades y este factor también puede influir. Además,
los votantes no pertenecen al mismo estrato socioeconómico de la
población, lo cual es otro factor a considerar. Lo anterior nos
indica que estamos en presencia de un universo heterogéneo. En este
caso, para que la muestra sea representativa, deberá en pequeña
escala poseer todas las propiedades citadas anteriormente y en su misma
proporción. Si, en el universo real el 51% son varones, y el 49%,
son mujeres, en esta misma proporción deberá aparecer en
la muestra. Si el universo de edades se distribuye, 25%, entre 18
y 25 años; 22%, entre 26 y 35; 20%, entre 36 y 45; y 33%, restante
mayor de 46%, la muestra debe contener esa misma proporción. Igual
sucede con la estratificación social. Tenemos que asegurarnos que
las clases A, B, C, D y E, sean consultada en la proporción que
tienen en el universo. Si la clase A, es el 4%, y la muestra son mil personas,
entonces deberemos entrevistar: 40 personas, 19 mujeres y 21 varones. 5
mujeres, entre 18 y 25; 4, entre 26 y 35; 4, entre 36 y 45, y 6, mayores
de 45. Igual debemos hacerlo con los varones. Este tipo de muestra se llama
estratificada. Si quisiéramos hacer un seguimiento de las variaciones
de opinión, entonces tendríamos que efectuar las mismas mediciones
varias veces en el transcurso del lapso en el cual queremos registrar las
variaciones. A esta actividad se le llama recolección polietápica
de la muestra estadística. Adicionalmente, se deberá tener
la precaución de desconcentrar geográficamente la muestra
y extenderla lo más posible en el ámbito del universo real.
Es decir, dispersarla. Finalmente las personas seleccionadas habrán
sido escogidas al azar.
| Como se puede observar, la selección
de la muestra depende de la correcta interpretación que hacemos
de las propiedades del universo al cual no podemos tener acceso como lo
señalamos al principio de este punto. |
| El estudio matemático de la muestra
estadística cae dentro del campo de las probabilidades. Sin el dominio
de esta disciplina, la muestra para casos complejos puede resultar defectuosa
y en consecuencia arrastra al investigador a análisis equivocados.
Es necesario de nuevo decirlo, que hay que recurrir a los libros de texto
de estadística para aprender a hacer estos cálculos.
Con relación a la desviación
estándar, esta decrece en confiabilidad a medida que la muestra
es menor. Esto nos lleva inevitablemente a trabajar sobre la pregunta ¿Cuán
buena es nuestra muestra?. La respuesta a esta pregunta está en
la amplitud de la desviación estándar de la muestra, y por
lo tanto, debemos calcular la desviación estándar de la desviación
estándar. Como esto es un proceso que podría aplicarse indefinidamente,
tendremos que finalizar en una conclusión casi de perogrullo, y
esta es que |
INTENTAREMOS TRABAJAR CON MUESTRAS
PEQUEÑAS SOLAMENTE CUANDO NO QUEDE MÁS ALTERNATIVA.
|
Rechazo
de los resultados.
En las ciencias sociales, mucho más
que en las ciencias naturales, cuando hacemos mediciones, obtendremos valores
que están más allá del rango que hemos establecido
como normal para aceptarlos. Ya se sabe, que en una distribución
normal la probabilidad de que un valor se encuentre más allá
del 95%, es decir, la media más dos veces la desviación estándar,
es del 5%, por lo tanto, la decisión de rechazar datos, es una responsabilidad
del investigador. El criterio orientador para tomar esta decisión,
se encuentra en nuestros conocimientos asentados sobre las características
del fenómeno en estudio. No obstante, siguiendo criterios estadísticos,
la experiencia nos dice, que más allá de los limites de 3
veces la desviación, los datos que consigamos serán seguramente
datos equivocados.
Lo anterior nos señala, que lo principal
es conocer las características de la desviación estándar.
Podemos estar seguros, de que cualquiera observación muy divergente,
se deberá a errores
en la obtención de esos datos. Baird, (p51), lo señala
taxativamente: “El requisito básico es, antes de justificar cualquier
rechazo, es confiar en la distribución principal de las observaciones
del caso”. Si hemos efectuado 20 mediciones y todas se encuentran entre
el 1% y el 5%, luego se consigue alguna con una desviación del 10%,
seguramente que esto se deberá a un error, y el valor registrado
no pertenece al grupo de la muestra, por lo tanto, debemos rechazarlo plenamente
convencido de ello. Lo anterior, no debe conducirnos al error de aceptar
solamente los datos que encajan en nuestras expectativas.
| LA REGLA DE ORO DE UN INVESTIGADOR OBJETIVO
ES ACEPTAR LOS DATOS TAL COMO ELLOS VENGAN, SEAN O NO DE NUESTRO AGRADO. |
Este es uno de los principios
básicos de lo que se suele llamar “ciencia buena”.

|